JPS63140379A - Parallel-picture processor - Google Patents

Parallel-picture processor

Info

Publication number
JPS63140379A
JPS63140379A JP26640987A JP26640987A JPS63140379A JP S63140379 A JPS63140379 A JP S63140379A JP 26640987 A JP26640987 A JP 26640987A JP 26640987 A JP26640987 A JP 26640987A JP S63140379 A JPS63140379 A JP S63140379A
Authority
JP
Japan
Prior art keywords
processor
picture
parallel
arithmetic
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP26640987A
Other languages
Japanese (ja)
Inventor
Yoshiki Kobayashi
芳樹 小林
Tadashi Fukushima
忠 福島
Yoshiyuki Okuyama
奥山 良幸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP26640987A priority Critical patent/JPS63140379A/en
Publication of JPS63140379A publication Critical patent/JPS63140379A/en
Pending legal-status Critical Current

Links

Landscapes

  • Multi Processors (AREA)
  • Image Processing (AREA)

Abstract

PURPOSE:To obtain a parallel-picture processing processor having an architecture suitable for an LSI and in which a high speed processing can be attained by dividing a local parallel-picture processor into modules having the small number of input and output ports and a regular array. CONSTITUTION:The picture information of the picture memory 3 of a picture processing system is processed in the parallel-picture processing processor 2, the processed result is stored in a memory 3 or applied to a management proces sor 1 for controlling the entirety of the system. This processor 2 is constituted by combining the four modules of the basic modules 10A-10D of the picture processing processor having a processor element 12. Picture data to be processed in the picture data input port 24 of the modules 10A-10D is fetched and processed by an input picture shift register 11, the element 12, a partial sum arithmetic circuit 13 and a partial sum accumulation arithmetic circuit 14. The result processed in the respective modules 10A-10D is outputted from the picture data output port 25 and the LSI of the processor 2 is easily carried out.

Description

【発明の詳細な説明】 本発明は、空間積和演算等の局所近傍画像処理を実行す
る並列画像処理プロセッサに係り、特にLSI化に適し
たアーキテクチャを有する並列画像処理プロセッサに関
する。
DETAILED DESCRIPTION OF THE INVENTION The present invention relates to a parallel image processing processor that performs local neighborhood image processing such as spatial product-sum operations, and particularly to a parallel image processing processor having an architecture suitable for LSI implementation.

画像処理プロセッサは、通産省大型プロジェクト「パタ
ーン情報処理システム」 (昭和55年10月に研究開
発成果発表論文集が発行されている。)にて開発されて
いるように、画像データを並列処理し高速化を図ろうと
しているものが多い。
Image processing processors process image data in parallel at high speeds, as developed in the Ministry of International Trade and Industry's large-scale project "Pattern Information Processing System" (a collection of research and development results was published in October 1980). There are many things that we are trying to change.

画像データは2次元の広がりをもつため、全ての画像デ
ータを並列処理することは困難である。しかし、ノイズ
除去や輪郭抽出機能を実現する空間積和演算等のように
、近傍の画像データ間の演算が多いため、例えば画像の
m行×n列の局所的なデータを並列処理する例が多い。
Since image data has a two-dimensional spread, it is difficult to process all image data in parallel. However, since there are many calculations between neighboring image data, such as spatial product-sum calculations that realize noise removal and contour extraction functions, for example, it is difficult to process local data in m rows by n columns of an image in parallel. many.

このような局所並列形画像処理は、前記文献あるいは 木戸出正継−画像処理ハードウエアの動向;情報処理コ
ンピュータビジョン研究会資料8−6(1980年9月
)にて総括的に説明されているが、CCDアナログ処理
形を除いてLSI化されたものはない。従来のアーキテ
クチャのプロセッサをそのままLSI化するには、 ■ 集積度 ■ ピン数 の点で困難がある。
Such local parallel image processing is comprehensively explained in the above-mentioned literature or in Masatsugu Kido - Trends in Image Processing Hardware; Information Processing Computer Vision Study Group Material 8-6 (September 1980). There are no LSI versions other than the CCD analog processing type. There are difficulties in converting a processor with a conventional architecture into an LSI as it is in terms of: 1) the degree of integration, and 2) the number of pins.

本発明の目的は、LSI化に適したアーキテクチャを有
し、かつ高速処理が可能な並列画像処理プロセッサを提
供するにある。
An object of the present invention is to provide a parallel image processing processor that has an architecture suitable for LSI implementation and is capable of high-speed processing.

本発明の特徴は、画像データ供給源からの画像データを
取込み局所並列画像データ処理を行なう並列画像処理プ
ロセッサにおいて、画像データ入力ポートと、入力した
画像にもとづいて画像処理演算を行なう複数個のプロセ
ッサニレメン1−と、前記各プロセッサエレメントの演
算結果と前段のプロセッサエレメントの演算結果を加算
する複数個の第1の演算回路と、前段の基本モジュール
における演算結果データを入力する演算結果データ入力
ポートと、前記演算結果データと最終段の前記第1の演
算回路の演算結果の加算を行なう第2の演算回路と、前
記第2の演算回路の演算結果データを出力する演算結果
データ出力ポートとからなる画像処理プロセッサ基本モ
ジュールを、複数組並列配置した並列画像処理プロセッ
サにある。
A feature of the present invention is that a parallel image processing processor that takes in image data from an image data source and performs locally parallel image data processing includes an image data input port and a plurality of processors that perform image processing operations based on the input image. a plurality of first arithmetic circuits that add the arithmetic results of the respective processor elements and the arithmetic results of the preceding processor element; and an arithmetic result data input port that inputs the arithmetic result data of the preceding basic module. a second arithmetic circuit that adds the arithmetic result data to the arithmetic result of the first arithmetic circuit in the final stage; and an arithmetic result data output port that outputs the arithmetic result data of the second arithmetic circuit. The parallel image processing processor includes a plurality of basic image processing processor modules arranged in parallel.

以下、本発明を図示する実施例を用いて説明する。尚、
第1図〜第8図及び第11図、第12図は最近考えられ
ている並列画像処理技術の説明図、第9図及び第10図
は本発明の一実施例を示す。
Hereinafter, the present invention will be explained using illustrative embodiments. still,
1 to 8 and FIGS. 11 and 12 are explanatory diagrams of recently considered parallel image processing techniques, and FIGS. 9 and 10 show an embodiment of the present invention.

第1図は典型的な画像処理システムの構成を示すもので
、画像入力装置として工業用テレビジョンカメラ52画
像記憶装置として画像メモリ3゜及びこの内容を表示す
るCRTモニタ4が設けられている。画像メモリ3の画
像情報が画像処理プロセッサ2により処理され、この結
果がまた画像メモリ3に格納されたり、あるいはシステ
ム全体を制御する管理プロセッサ1に与えられる。
FIG. 1 shows the configuration of a typical image processing system, which includes an industrial television camera 5 as an image input device, an image memory 3 as an image storage device, and a CRT monitor 4 for displaying the contents thereof. The image information in the image memory 3 is processed by the image processor 2, and the results are also stored in the image memory 3 or provided to the management processor 1 which controls the entire system.

代表的な画像処理機能として空間積和演算がある。これ
は第2図に示すように、例えば4×4画素の局所画像デ
ータfil〜f4aに対し、定められた荷重W1’1〜
W44を乗算し総和をとるものである。
A typical image processing function is spatial product-sum operation. As shown in FIG. 2, for example, a predetermined load W1'1~
W44 is multiplied and the sum is calculated.

これにより ノイズ除去 輪郭強調 等の画像処理が行える。This results in noise removal Contour enhancement Image processing such as

このような、例えば4×4画素の局所画像データを処理
する画像処理プロセッサとして、第3図に示すような4
個のプロセッサエレメント(PE#1〜#4)12をも
つ画像処理プロセッサ基本モジュール10を4モジユ一
ル組合せた並列画像処理プロセッサ(タイプIと呼ぶ)
2−■としている。画像メモリ3からは、局所画像デー
タが1列分(第3図ではf14〜f44)並列に与えら
れ、その演算結果(第3図ではg)が画像メモリ3に格
納される。
For example, as an image processing processor that processes 4×4 pixel local image data, a 4×4 pixel image processor as shown in FIG.
A parallel image processing processor (referred to as type I) that combines four image processing processor basic modules 10 each having 12 processor elements (PE#1 to #4).
2-■. One column of local image data (f14 to f44 in FIG. 3) is given in parallel from the image memory 3, and the calculation result (g in FIG. 3) is stored in the image memory 3.

基本モジュール10は、処理対象の行の画像データを取
込む画像データ入力ポート24、内部処理結果を出力す
る演算結果データ出方ポート35をもつ。画像データf
L4が入力されたとき、シフトレジスタ11を介して1
画素毎隣接した画素f 13. f i2. f tt
も対応するPE84〜1に入力される。画素f1tは、
空間積和演算のサイズを4×4以上に拡張する場合のた
めに、画像データ出力ポート25から出力される。PE
12には、シフトレジスタ11からの処理対象の画像デ
ータfと、荷重記憶メモリ15からの荷重データWが与
えられ1乗算が実行される。この結果が4個のPE12
の結果を加算する演算回路13により部分和がとられる
。演算結果入力ポート30から入力される部分和が演算
回路14により次々と累算され、演算結果出力ポート3
5より次段の基本モジュール10に出力される。
The basic module 10 has an image data input port 24 that takes in image data of a row to be processed, and a calculation result data output port 35 that outputs internal processing results. image data f
When L4 is input, 1 is passed through the shift register 11.
Adjacent pixel f for each pixel 13. fi2. f tt
are also input to the corresponding PEs 84-1. The pixel f1t is
The image data is output from the image data output port 25 in case the size of the spatial product-sum operation is expanded to 4×4 or more. P.E.
12 is given the image data f to be processed from the shift register 11 and the load data W from the load storage memory 15, and multiplication by 1 is executed. This result is 4 PE12
A partial sum is calculated by the arithmetic circuit 13 which adds the results. The partial sums input from the calculation result input port 30 are accumulated one after another by the calculation circuit 14, and the partial sums input from the calculation result input port 30 are accumulated one after another by the calculation circuit 14.
5 to the next basic module 10.

このようにして、基本モジュール10を4段重ねること
により、最終基本モジュール1.0 Dからが出力され
る。
In this way, by stacking the basic modules 10 in four stages, the final basic module 1.0D is output.

このタイムチャートを第4図に示す。前述した演算が基
本クロック時間Δt1内に実行され結果gが出力され、
次のΔt1では1画素分だけ移動した4×4絵素の入力
画像に対する結果gが出力されることになる。したがっ
て、次々と入力される画像データに対する全ての4×4
絵素の空間積和演算結果が次々と出力される。
This time chart is shown in FIG. The above-mentioned operation is executed within the basic clock time Δt1 and the result g is output,
At the next Δt1, the result g for the input image of 4×4 picture elements shifted by one pixel is output. Therefore, all 4×4 images for image data that are input one after another
The spatial product-sum calculation results of the picture elements are output one after another.

第5図の実施例は、前述の実施例のタイプ1画像処理プ
ロセッサ2−Iの基本クロック時間Δt1を、パイプラ
イン処理により短縮化した構成を示すものである。これ
をタイプIのパイプラインバージョンの並列画像処理プ
ロセッサ2−IPと呼ぶ。即ち、タイプ■では基本クロ
ック時間Δt1は ■ 画像データL、aのシフトレジスター1への入力処
理 ■ プロセッサエレメント12による積和荷重W52、
と画像f+、aとの乗算処理 ■ 演算回路13による部分和処理 ■ 演算回路14による部分和累算処理の全ての処理時
間の和以上である必要があった。
The embodiment shown in FIG. 5 shows a configuration in which the basic clock time Δt1 of the type 1 image processing processor 2-I of the previous embodiment is shortened by pipeline processing. This is called a Type I pipeline version parallel image processing processor 2-IP. That is, in type ■, the basic clock time Δt1 is ■ Input processing of image data L and a to shift register 1 ■ Product-sum load W52 by processor element 12,
Multiplying process by image f+,a ■ Partial sum processing by arithmetic circuit 13 ■ It was necessary that the processing time of all partial sum accumulation processes by arithmetic circuit 14 be longer than the sum.

これに対して、例えば第5図の例のように、■と■、■
と■、及び■と■の間にパイプラインレジスター6を介
在させることにより、その基本クロツク時間Δt2を■
〜■の処理時間のうちの最大のもの(全ての和でない)
まで小さくすることが可能になる。このタイムチャート
を第6図に示す。
On the other hand, for example, as in the example in Figure 5, ■, ■, ■
By interposing the pipeline register 6 between and ■, and between ■ and ■, the basic clock time Δt2 can be reduced to ■
The maximum processing time of ~■ (not the sum of all)
It is possible to make it as small as possible. This time chart is shown in FIG.

時刻1で処理■、2で■、3で■、4で■が実行される
。時刻2では次の入力画像に対する処理■。
Processing ■ is executed at time 1, ■ at time 2, ■ at time 3, and ■ at time 4. At time 2, the next input image is processed ■.

3で■、4で■、5で■が実行され、次々と各構成要素
をパイプライン的に動作させその処理速度を向上するこ
とができる。
3, 4, and 5 are executed, and the processing speed can be improved by operating each component one after another in a pipeline manner.

第7図の実施例は、前述の並列画像処理プロセッサ2−
IPの基本クロックΔt2を更に短縮化しうる構成を示
したもので、タイプ■のパイプラインースキューパージ
ョンの並列画像処理プロセッサ2−IPSと呼ぶ。第5
図のIPタイプでの基本クロック時間Δt2は、処理■
の部分和累積時間により制約される可能性が強い。とい
うのは基本モジュール10をn段にした場合、Δt2は
演算回路14での処理時間と演算結果30.35の入出
力時間との和のn倍の時間が必要になるからである。特
に基本モジュール10をLSI化した場合は入出力遅延
時間は無視できない。このため、第5図のタイプIPに
更に部分和の累積のパスにパイプラインレジスタ16を
入れ、基本モジュールl0A−D間での演算もパイプラ
イン処理するようにしたもので、前述のΔt 2’の時
間規制を1 / nにしている。この第7図のIPSタ
イプでは、第8図のタイムチャートで示すように、同時
刻3で各基本モジュールl0A−Dの部分和が算出され
累積の部分でのタイミングが合わなくなる。第7図のI
PSでは、このタイミング合せのための可変段数スキュ
ー補正用シフトレジスタ17を画像データ入力ポート2
4に直後に設置している。各基本モジュールIOA〜D
の累積パスでのパイプライン段数は1段であるため、可
変段数スキュー補正用シフトレジスタ17の段数は、基
本モジュールIOA・・・・・・・・・0段B・・・・
・・・・・1段 C・・・・・・・・・2段 D・・・・・・・・・3段 に設定される。このようにして第8図のタイムチャート
における不整合(・・・部)が補正され、連続したΔt
3時間でのパイプライン動作が可能となる。
The embodiment of FIG. 7 is based on the parallel image processing processor 2-
This shows a configuration in which the IP basic clock Δt2 can be further shortened, and is called a type (2) pipeline-skew version parallel image processing processor 2-IPS. Fifth
The basic clock time Δt2 in the IP type shown in the figure is the processing ■
There is a strong possibility that it is constrained by the partial sum accumulation time of . This is because when the basic module 10 has n stages, Δt2 requires n times the sum of the processing time in the arithmetic circuit 14 and the input/output time of the arithmetic result 30.35. In particular, when the basic module 10 is implemented as an LSI, the input/output delay time cannot be ignored. For this reason, a pipeline register 16 is further added to the type IP shown in FIG. 5 in the partial sum accumulation path, so that calculations between basic modules l0A-D are also pipelined, and the above-mentioned Δt 2' The time regulation is set to 1/n. In the IPS type shown in FIG. 7, as shown in the time chart of FIG. 8, the partial sums of the basic modules 10A-D are calculated at the same time 3, and the timings in the cumulative part do not match. I in Figure 7
In the PS, the variable stage skew correction shift register 17 for this timing adjustment is connected to the image data input port 2.
It is installed immediately after 4. Each basic module IOA~D
Since the number of pipeline stages in the cumulative path is 1, the number of stages of the variable stage skew correction shift register 17 is the basic module IOA...0 stage B...
...1st step C...2nd step D...3rd step. In this way, the mismatch (... part) in the time chart of FIG. 8 is corrected, and the continuous Δt
Pipeline operation can be completed in 3 hours.

なお、容易にわかるように、スキュレジスタ17は、部
分和を求める演算回路13の直後に設置しても、あるい
は各PE12の直前、直後に設置しても同様にタイミン
グの不整合は解決される。
As can be easily seen, the timing mismatch is similarly resolved even if the skew register 17 is installed immediately after the arithmetic circuit 13 that calculates the partial sum, or even if it is installed immediately before or after each PE 12. .

第9図は、本発明による並列画像処理プロセッサの一実
施例を示す。前述までのタイプ■の構成では、画像デー
タ入力をシフトレジスタ11を介して各PE12#1〜
4に隣接する絵素を分配していた。これに対し本実施例
では、入力画像データは各PE12#1〜4に共通に与
え、この乗算結果を演算回路18.レジスタ19を介し
て累算して部分和Σ1を出力するようにしている。この
動作を第10図のタイムチャートを参照して説明する。
FIG. 9 shows an embodiment of a parallel image processing processor according to the present invention. In the configuration of type (2) described above, image data is input to each PE 12 #1 through the shift register 11.
Picture elements adjacent to 4 were distributed. On the other hand, in this embodiment, the input image data is commonly given to each PE 12#1-4, and the multiplication result is sent to the arithmetic circuit 18. The partial sum Σ1 is accumulated through the register 19 and output. This operation will be explained with reference to the time chart of FIG.

時刻1で画像データ入力ポート20より画像f1tが入
力され、PEj2#1にて荷重記憶メモリ15から読み
出された荷重Wllとの積f11*W11がレジスタ1
9#2にセットされる。
At time 1, the image f1t is input from the image data input port 20, and the product f11*W11 with the load Wll read out from the load storage memory 15 at PEj2#1 is stored in register 1.
9 #2 is set.

時刻2で画像データf12が入力され、P E 12’
#2にて荷重W12との積fL2*W12がとられ、こ
れとレジスタ19#2の値f1z*wz工との和fxz
*w1t+f12*W12が演算回路18でとられ、レ
ジスタ19#3にセットされる。
Image data f12 is input at time 2, and P E 12'
In #2, the product fL2*W12 with the load W12 is taken, and the sum fxz of this and the value f1z*wz of register 19#2
*w1t+f12*W12 is taken by the arithmetic circuit 18 and set in the register 19#3.

時刻3で画像データf1gが入力され、PE12#3に
て荷重Wi11との積f ss* wtaがとられ、こ
れとレジスタ19#3の値f ll’l wit+ f
 xz*W12との和f 工1* wtt+ f 12
* W12+ f 1sk wtaが演算回路18でと
られ、レジスタ19#4にセットされる。
Image data f1g is input at time 3, and the product f ss * wta with the load Wi11 is taken at PE 12 #3, and this and the value of register 19 #3 f ll'l wit+ f
Sum of xz*W12 f engineering 1* wtt+ f 12
*W12+f 1sk wta is taken by the arithmetic circuit 18 and set in the register 19#4.

時刻4で画像データfzaが入力され、PE12#4に
て荷重W14との積f14*W14がとられ、これとレ
ジスタ19#4の値f 11 * W11+ f i2
*W 12+ f 13 ’k W 13との和ΣL=
 f 11 * W IL+ 〜+ f 14 * W
14が演算回路18でとられる。この部分和Σ、が各基
本モジュールl0A−Dの演算回路14で累積され、最
終段から が出力される。
Image data fza is input at time 4, and the product f14*W14 with the load W14 is taken at PE12#4, and this and the value of register 19#4 f11*W11+f i2
*W 12+ f 13 'k Sum of W 13 ΣL=
f 11 * W IL+ ~+ f 14 * W
14 is taken by the arithmetic circuit 18. This partial sum Σ is accumulated in the arithmetic circuit 14 of each basic module l0A-D, and is output from the final stage.

以下、各基本クロック時間Δt4間隔で空間積和演算結
果gが出力される。
Thereafter, the spatial product-sum calculation result g is output at intervals of each basic clock time Δt4.

このタイプ■の並列画像処理プロセッサ2−nにも、タ
イプIと同様に、タイプ■P及びIIPSが考えられ、
基本クロック時間Δt4を小さくすることが可能である
。これらは容易に類推できるのでここでは省略する。
Similar to type I, types P and IIPS can be considered for this type II parallel image processing processor 2-n.
It is possible to reduce the basic clock time Δt4. Since these can be easily inferred, they are omitted here.

第11図に、更に処理形態が異なる他の実施例を示す。FIG. 11 shows another embodiment with a further different processing form.

前述までの各PE12に独立に積和荷重(メモリ)15
を与えていた方式に対し、第11図の構成では全PE1
2共通に積和荷重(メモリ)15を与える方式でありタ
イプ■の並列画像処理プロセッサ2−mと呼ぶ。この動
作を第12図のタイムチャートを参照して説明する。
Add product-sum load (memory) 15 independently to each PE 12 up to the above.
In the configuration shown in Figure 11, the total PE1
This is a system in which a sum-of-products load (memory) 15 is given to the two in common, and is called a type (2) parallel image processing processor 2-m. This operation will be explained with reference to the time chart of FIG.

まず時刻1で既に画像データ入力ポート20より画像f
14が入力されているとする。このときシフトレジスタ
11を介してPE12#1〜#4にはそれぞれflz、
 fiz、fza、 fz4が与えられている。そして
荷重記憶メモリ15から荷重Wliが読み出され、それ
ぞれの入力画像との積がとられる。演算回路20では、
時刻1のはじめに保持している値が110”クリアされ
、前述のfll””f14とWllとの積がそれぞれ保
持される。
First, at time 1, the image f has already been input from the image data input port 20.
Assume that 14 is input. At this time, flz and
fiz, fza, fz4 are given. Then, the load Wli is read out from the load storage memory 15 and multiplied by each input image. In the arithmetic circuit 20,
The value held at the beginning of time 1 is cleared to 110'', and the products of the aforementioned f14 and Wll are held respectively.

時刻2では画像fz5が入力され、PE12#1〜#4
にはそれぞれfz2〜工5が与えられ、次の荷重wt2
との積がとられる。この後演算回路20で以前の値との
累積処理が行われる。例えば#1ではf 11 * w
tz+ f 12 * wtx、#2ではfx21’w
xt+ft3*wx2が結果として保持される。
At time 2, image fz5 is input, and PE12 #1 to #4
are given fz2 to fz5, respectively, and the next load wt2
The product is taken. Thereafter, the arithmetic circuit 20 performs an accumulation process with the previous value. For example, in #1, f 11 * w
tz + f 12 * wtx, fx21'w in #2
xt+ft3*wx2 is retained as the result.

時刻3,4でも同上の処理が実行され、演算回路20#
1〜#4には #1:ΣL=” f 11” wzt+ f 12’s
 W12+ f x3* W18+ f 14 * w
za#2・Σxx= f 12* W11+ f 1g
” w工2+ f 14” wtll+f ls*wt
a#3:Σ圭s= f 13” wtt+ f 1+*
 w1z+ f 15J wt3+ f 18*W14
#4:Σj4== f 14+wtt十f t5* W
12+ f 18牢Wll+ f 17* w14とそ
れぞれの第1部分和が得られ、これが時刻Δの終りでシ
フトレジスタ21にセットされる。
The same process is executed at times 3 and 4, and the arithmetic circuit 20#
For 1 to #4, #1:ΣL=”f 11” wzt+f 12's
W12+ f x3 * W18+ f 14 * w
za#2・Σxx= f 12* W11+ f 1g
"w engineering 2+ f 14" wtll+f ls*wt
a#3: ΣKeis= f 13” wtt+ f 1+*
w1z+ f 15J wt3+ f 18*W14
#4: Σj4== f 14 + wtt ten f t5 * W
12+f 18 cells Wll+f 17*w14 and their respective first partial sums are obtained, which are set in the shift register 21 at the end of time Δ.

時刻5〜8では、各基本モジュールl0A−Dのシフト
レジスタ21から、Σ)工〜Σ11.Σ)2〜Σ12.
Σ)3〜Σ18.Σ)4〜Σ14が演算回路14により
順次累積され、結果g11〜g14を出力する。
At times 5 to 8, the shift registers 21 of each basic module 10A-D transfer data from Σ) to Σ11. Σ)2 to Σ12.
Σ)3 to Σ18. Σ)4 to Σ14 are sequentially accumulated by the arithmetic circuit 14, and the results g11 to g14 are output.

と同時に、PEALでは画像データfx5〜ftg、P
E#2ではf16〜fts、PE#3ではf1r〜fz
o、PE#4ではf 18〜Lzxに対して時刻1〜4
と同様の処理が実行され、部分和Σ15.Σ′X6゜Σ
1フ、Σ18を求め、時刻9〜12にてこれらが累積さ
れ結果g1R〜g1gが得られる。このようにして連続
して空間積和演算結果が出力される。
At the same time, in PEAL, image data fx5 to ftg, P
f16~fts in E#2, f1r~fz in PE#3
o, PE#4 has f 18 to Lzx at times 1 to 4
Processing similar to is executed, and partial sum Σ15. Σ′X6゜Σ
1F, Σ18 is calculated, and these are accumulated at times 9 to 12 to obtain results g1R to g1g. In this way, spatial product-sum calculation results are continuously output.

このタイプ■の並列画像処理プロセッサ2−Hにも、タ
イプ■と同様に、タイプmP及び■PSが考えられ、基
本クロック時間Δt5を小さくすることが可能である。
Similar to the type (2), types mP and (2) PS can be considered for the parallel image processing processor 2-H of the type (2), and it is possible to reduce the basic clock time Δt5.

さて、前述のタイプ1〜■までの実施例では、基本モジ
ュール10間の演算は、部分和演算回路14を直列接続
する形とし、この回路14も基本モジュール内に含めて
いた。しかしLSI化のためにピン数が問題となる場合
には、例えば第3図の点線部のみ基本モジュールとし、
モジュール間演算は外部で並列に行うことも可能である
Now, in the embodiments of Types 1 to 2 described above, calculations between the basic modules 10 are performed by connecting partial sum calculation circuits 14 in series, and this circuit 14 is also included in the basic module. However, if the number of pins becomes an issue for LSI implementation, for example, only the dotted line in Figure 3 should be used as the basic module.
Inter-module operations can also be performed externally in parallel.

本発明によれば、局所並列画像プロセッサを少ない入出
力ポートでかつ規則的な配列のモジュールに分割できる
ため、LSI化に適したアーキテクチャとすることがで
きる。
According to the present invention, since a locally parallel image processor can be divided into modules with a small number of input/output ports and a regular arrangement, an architecture suitable for LSI implementation can be achieved.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は画像処理システムの構成を示す図、第2図は局
所並列処理の例を説明する図、第3,5゜7.9.11
図は本発明の並列画像処理プロセッサの構成を示すブロ
ック図、第4.6,8,10゜12図は並列画像処理プ
ロセッサのタイムチャートを示す図である。 2・・・並列画像処理プロセッサ、3・・・画像メモリ
、10・・・画像処理プロセッサ基本モジュール、11
・・・入力画像シフトレジスタ、12・・・プロセッサ
エレメント、13・・・部分和演算回路、14・・・部
分和累算演算回路、15・・・荷重記憶メモリ、16・
・・パイブラインレジスタ、17・・・(可変段数)ス
キュー補正シフトレジスタ、18・・・伝播・累積演算
回路、19・・・伝播レジスタ、20・・・累積演算回
路、21・・・部分和出力シフトレジスタ、24・・・
画像データ入力ポート、25・・・画像データ出力ポー
ト、30・・・演算結果データ入力ポート、35・・・
演算結果データ出力ポート。
Figure 1 is a diagram showing the configuration of an image processing system, Figure 2 is a diagram explaining an example of local parallel processing, and Figures 3 and 5゜7.9.11
The figure is a block diagram showing the configuration of the parallel image processing processor of the present invention, and Figures 4.6, 8, 10 and 12 are diagrams showing time charts of the parallel image processing processor. 2...Parallel image processing processor, 3...Image memory, 10...Image processing processor basic module, 11
... Input image shift register, 12... Processor element, 13... Partial sum calculation circuit, 14... Partial sum accumulation calculation circuit, 15... Load storage memory, 16.
... Pipeline register, 17... (variable number of stages) skew correction shift register, 18... Propagation/accumulation arithmetic circuit, 19... Propagation register, 20... Accumulation arithmetic circuit, 21... Partial sum Output shift register, 24...
Image data input port, 25... Image data output port, 30... Calculation result data input port, 35...
Operation result data output port.

Claims (1)

【特許請求の範囲】[Claims] 1、画像データ供給源からの画像データを取込み局所並
列画像データ処理を行なう並列画像処理プロセッサにお
いて、画像データ入力ポートと、該入力した画像にもと
づいて画像処理演算を行なう複数個のプロセッサエレメ
ントと、前記各プロセッサエレメントの演算結果と前段
のプロセッサエレメントの演算結果を加算する複数個の
第1の演算回路と、前段の基本モジュールにおける演算
結果データを入力する演算結果データ入力ポートと、前
記演算結果データと最終段の前記第1の演算回路の演算
結果の加算を行なう第2の演算回路と、前記第2の演算
回路の演算結果データを出力する演算結果データ出力ポ
ートとからなる画像処理プロセッサ基本モジュールを、
複数組並列配置したことを特徴とする並列画像処理プロ
セッサ。
1. In a parallel image processing processor that takes in image data from an image data source and performs local parallel image data processing, an image data input port and a plurality of processor elements that perform image processing operations based on the input image; a plurality of first arithmetic circuits that add the arithmetic results of the respective processor elements and the arithmetic results of the preceding processor element; an arithmetic result data input port that inputs the arithmetic result data of the preceding basic module; and the arithmetic result data and a second arithmetic circuit that adds the arithmetic results of the first arithmetic circuit in the final stage, and an arithmetic result data output port that outputs the arithmetic result data of the second arithmetic circuit. of,
A parallel image processing processor characterized by having multiple sets arranged in parallel.
JP26640987A 1987-10-23 1987-10-23 Parallel-picture processor Pending JPS63140379A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP26640987A JPS63140379A (en) 1987-10-23 1987-10-23 Parallel-picture processor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP26640987A JPS63140379A (en) 1987-10-23 1987-10-23 Parallel-picture processor

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP6232682A Division JPS58181171A (en) 1982-04-16 1982-04-16 Parallel picture processing processor

Publications (1)

Publication Number Publication Date
JPS63140379A true JPS63140379A (en) 1988-06-11

Family

ID=17430533

Family Applications (1)

Application Number Title Priority Date Filing Date
JP26640987A Pending JPS63140379A (en) 1987-10-23 1987-10-23 Parallel-picture processor

Country Status (1)

Country Link
JP (1) JPS63140379A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0247779A (en) * 1988-08-09 1990-02-16 Matsushita Electric Ind Co Ltd Picture processor

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5744570A (en) * 1980-08-29 1982-03-13 Komatsu Ltd Steering apparatus of motor scraper

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5744570A (en) * 1980-08-29 1982-03-13 Komatsu Ltd Steering apparatus of motor scraper

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0247779A (en) * 1988-08-09 1990-02-16 Matsushita Electric Ind Co Ltd Picture processor

Similar Documents

Publication Publication Date Title
JPS6053349B2 (en) image processing processor
US4601006A (en) Architecture for two dimensional fast fourier transform
JPS6326912B2 (en)
US6151682A (en) Digital signal processing circuitry having integrated timing information
US4644488A (en) Pipeline active filter utilizing a booth type multiplier
JPS61241877A (en) Space product sum arithmetic unit
US4736440A (en) Process for the processing of digitized signals representing an original image
JPS63167967A (en) Digital signal processing integrated circuit
JP6532334B2 (en) Parallel computing device, image processing device and parallel computing method
JPS63140379A (en) Parallel-picture processor
JPH09259115A (en) Very-large-scale integrated circuit for bit-serial matrix transposition
JPH0260028B2 (en)
Ranganathan et al. A VLSI architecture for computing scale space
JPS6379180A (en) Lsi for processing parallel image
JPS6319911B2 (en)
JPS6310263A (en) Vector processor
JP2862388B2 (en) Filtering method for ultra-high-speed image processing system
JP3553376B2 (en) Parallel image processor
JPH0566043B2 (en)
US4987557A (en) System for calculation of sum of products by repetitive input of data
JPH04364525A (en) Parallel arithmetic unit
JPH0652215A (en) Matrix arithmetic processor
JPH08123683A (en) Parallel processor device
JPH04114262A (en) High-speed data processor
JPS6352269A (en) Image processor