JPS62229470A

JPS62229470A - 相関及び畳込みを行なうビツト−スライスデジタルプロセツサ

Info

Publication number: JPS62229470A
Application number: JP62049882A
Authority: JP
Inventors: ジョン・ビンセント・マカニー; リチヤード・アンソニー・エバンス; ジョン・グラハム・マクウアーター
Original assignee: UK Government
Current assignee: UK Government
Priority date: 1986-03-05
Filing date: 1987-03-04
Publication date: 1987-10-08
Anticipated expiration: 2011-03-29
Also published as: JPH0833878B2; EP0237204A2; DE3776366D1; EP0237204A3; EP0237204B1; US4833635A; GB8605367D0; CA1263758A

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】本発明は数学的に等価の畳込み及び相関を演算するため
のピッ１−スライスデジタルプロセッサに係わる。この
プロセッサはビットレベルシストリックアレイ（１＋１
Ｌ−ｌｅｖｅｌ　５ｙｓＬｏｌｉｃ　ａｒｒａｙ）とし
て形成されるタイプのプロセッサである。

ビットレベルシストリックアレイれる公知の畳込み及び相関用デジタルプロセッサは、１
９８３年４月７日公開の英国特許出願第２１０６２８７
八号（９考文献１）に記載されている．この先行特許出
願では第１５図〜第２０図に畳込み手段が示されている
。この装置は複数のゲート制御全加算器を行列状に配置
したものからなる矩形アレイで構成される。各セルは直
ぐＦＡの行及び列にしか接続されない。即ら、各セルは
別のセルに最高４つまで接続される。セルの動作は、ア
レイ内でのデータビット、係数ビット、キャリビット及
び累積和ビットの移動に作用するクロック作動ラッチに
よって制御される．各セルは夫々右隣及び左隣から受容
した入力データビット及び入力係数ビットの積を評価し
、且つこの積を夫々右方及び上方から受容した入力キャ
リビット及び累積和ビットの積に加算する．新しいキャ
リビット及び累積和ピッ１〜は形成されると左方及び下
方に出力され、入力データビット及び係数ビットは夫々
右及び左に移動する。

各係数語は夫々のアレイ行を逐次循環するビットである
．各データ語は各行を順次螺旋状に（正確にはジグサ°
′グに）通過してアレイ内を移動する。

一連のキャリは係数ビットと共に移動し、一連の累積和
はアレイの列に沿って下方へ移動する。データは累積和
の形成方向と係数及びキャリの伝搬方向とに対して逆に
移動する。累積和の形成は、アレイからの部分和出力を
形成すべく、アレイの列に沿って下方ヘカスケード状に
行なわれる．同類ピッ１〜重みを持つ複数の部分和は同
一アレイ行から順次送出され、出力和をフィードバック
すべく構成された全加算器により累算されて畳込み結果
と構成する。

不要の部分積の発生を回避すべくデータ語及び係数語の
中にゼロビットを散在させることは、参考文献１に記載
のプロセッサの使用には不利である。この種のプロセッ
サはいかなる時にもアレイのセルの少なくとも半分、場
合によっては３／４がゼロ部分績を計算するため、ゼロ
ビットを散在させるとアレイが非＠率的になり、且つゼ
ロピットの散在を回避できるような場合に必要とされる
大きさよりはるかに大きくなるからである。

１９８５年２月２７０公開の英国特許出願第２１４４２
４５Δ号（参考文献２）には更に別のビットレベルシス
トリックアレイが記載されている。この先行特許出願は
マルチビット係数を持つ２つのマＩ〜リクスの乗法を行
なうための、参考文献１と類似のアレイに係わる。この
アレイでは一方のマトリクスの行エレメントがアレイ行
に沿って、他方のアレイの列エレメントと逆の方向に伝
搬し、また虞ヤリビットが行に沿って移動するのではな
く、各セルを繰り返し循環するようになっている。所コ
胃［カードバンド（ｇｕａｒｄ　ｂａｎｄ）Ｊの使用ら
記載されているが、これは累算される結果の語成長（ｕ
＋ｏｒｄ　ｇｒｏｕ＋ｔｈ）を得るべく、１系数語をゼ
ロピットで拡張することを息味する。

１９８５年５月１５０公開の英国特許出願第２１４７７
２１八号（参考文献３）には、７トリクスーベクトル乗
法を行なうための更に別のビットレベルシストリックア
レイレイの効率が２つの方法で改良される．第１にアレイ出
力の累算が、参考文献１の不活性領域に対応するアレイ
部分が畳込み結果に寄与するように行なわれる．第２に
データビット及び係数ビット間のゼロの必要が、交番ク
ロックサイクルで隣接し合う打上のビ・／ト移動に作用
する複雑なりロック手段により回避される．９考文ｉｔ
１及び２と同様に、被乗数ビットはアレイの行に沿って
逆方向に移動する．また、９考文Ｍ２のように、キャリ
ビットは各セルを再循環し、ガートバンドによる語の拡
張も使用される。

ＧＥＣ　Ｊｏｕｒｎａｌ　ｏｒ　Ｒｃｓｃａｒｃｂ，　
Ｖｏｌ．２，Ｎｏ．　１　、（１９８４年）には、Ｒ，
［１．　０ｒｑｕｈａｒｔ及びり、Ｗｏｏｄにより、ビ
ットレベルシストリックアレイｓｔａｔｉｃ　ｃｏｅ［ｉｃｉｅｎＬｓ）の使用という
概念が紹介されている．アレイの各セルはある係数の対
応単一ビットと組３わされ、係数語は対応アレイ行と組
きわされる．セルはキャリビットを再循環させるように
構成され、データは各アレイ行に入力されてその打上を
移動する。累績相はアレイの列を下りながらカスケード
式に形成され、ガートバンドが語成長を実現する。同類
ピッ１−重みの複数の部分積は、入力データが係数ビッ
トに、ピッｌ−　ｆｆｉみの上昇オーダーで出会うのか
又は逆のオーダーで出会うのかに応じて、相対的に遅延
して又は同期して種々のアレイ列から送出される．この
ような構造にすれば、複雑なりロック装置を使用しなく
てらセルの使用率又はアレイの効率が１００％になる。

各セルは各クロックサイクル海に債を演算し、ラッチは
総て同様にクロックされる．しかしながら残念なことに
、前述のようなアレイ累算法では正確な畳込み又は相関
結果が１５られない。なぜなら、前述のごとき構造は種
々の結果に対応する部分和及びキャリピッ１への累算に
誤りが多いからである。

デジタル演算回路の分野では、可能であればコンポーネ
ント３統−することが重要である．これは、小さい計算
を行うように設計された複数の集積回路をアレイ状につ
なぐか又はカスケード接続して、より大きい計算を実施
できるようにすることが可能であれば極めて容易に実現
できる。また、比鮫的小さい故障によってアレイ全体が
機能停止することのないようにするためには、このよう
な集積回路アレイにある程度の故障許容性を与えること
も重要であるが、その実現は極めて難しい。

これは、ウェーハスゲールインテグレーション（ｗａｆ
ｅｒ　５ｃａｌｅ　ｉｎＬｅｇｒａｔｉｏｎ）開発分野
、即ちある程度の故障許容性がなくてはウェーハの歩留
りが実質的にゼロになり得るような分野では特に重要な
問題である。

本発明の口約の１つは故障許容性アセンブリを形成すべ
くカスケード接続され得る相関又は畳込みのためのデジ
タルプロセッサを提供することである。

本発明は、ビットパラレル、ワードシリアル、ビットジ
グザグのＨビットフードデータストリームとＮ単一ビッ
ト係数との相関及び畳込み演算を実行するビット−スラ
イスデジタルプロセッサを提供する０本発明によれば、（１）プロセッサがＮ行Ｈ列の論理セルアレイを含み、
（２）各論理セルが、（ａ）データビット、キャリービ
ット及び累積和ビットを入力し、（ｂ）データビットを
出力し、（ｃ）入力データビッ１−と各行のセルに対応
する係数ピッ１〜との積と、入力累積和と、入力キャリ
ービットどの総和に対応する出力累積和ビットと出力キ
ャリービットとを生成するように構成されており、（３）セルの相互接続ラインが、アレイの行に沿ってキ
ャリービットを伝送し、データ流と縦続累積和とをアレ
イの列に沿って下降する単一方向で伝送するように構成
されており、（４）セル相互接続ラインがクロック励起遅延手段を含
んでおり、該遅延手段は、データビットが累積和ビット
の速度の２倍又は１７２倍の速度でアレイの列に沿って
下降しキャリービットがアレイの行に沿ってデータビッ
ト桁が増加する方向で前記累積和ビット及びデータビッ
トの両方よりも高速で伝送されるように構成されている
。

本明Ｈ１書において「ビット伝送速度Ｊなる用語及び該
用語に関連する表現は、物理的な移動距離でなくセル横
断速度を意味することを理解されたい。

本発明のプロセッサは４つの生変な利点をもつ。

第一に、クロック励起のとき全部のセルがリアルデータ
で演算するので効率１００％であり、また公知型のオー
バーラツプしない２相形クロツクを１つだけ使用すれば
よい０ｇ考文献１の従来技術と違−）て、入カデータビ
ット問に０ビットを挿入する必要がなく、参考文献２の
ように１つ置きのサイクルで隣合う行又は列の間にビッ
ト伝送を行なうための複電なりロック制御構成が不要で
ある。

第二に、後述するごとく、より大きい計算を行なう回路
のアレイを構成するための集積回路構築ブロックに適応
し易い、特に、係数ビットスライス毎に１つのプロセッ
サを配備しタイミングとビット桁との適当なＨＨを伴っ
てプロセッサ出力を累加することによってマルチビット
係数を含む計算に適応し得る。更に、プロセッサをカス
ケード式に直列接続すると大きい係数セラＩ・を収納で
き、長いデータワードは各プロセッサに供給される各バ
イトに分割されることによって処理され得る。

第三に、データ流と結果の流れとが単一方向の流れにな
るように構成されているので、クロック励起ラッチによ
って高速スイッチング可能なセクションに分割された入
力データ及び結果のバイパス結線を組み込んだプロセッ
サを設計し得る。カスケード式に直列接続されたプロセ
ッサ連鎖は動作速度の低下という欠点を生じないで故障
許容性をもつことができる。何故なら、連鎖中の故障プ
ロセッサは、バイパス結線全長の時定数によって動作速
度を制限されることなくバイパスされ得るからである。

かかる設Ｓ１は、データと結果とが自流的に伝送されク
ロック励起バイパスラッチが計算タイミングを破壊する
例えば参考文献１のプロセッサでは可能でない。第四に
、入力データのガードバンドの延長が不要であり、この
ためにデータワ−プツＩ・速度の低下という欠点も生じ
ない。

各論理セルは夫々の定常係数ビットに対応してもよい、
しかし乍ら好ましくは、付加的セル相互接続ラインとク
ロック励起遅延手段とを配備し係これにより行係数入力
を介した係数のプログラミングが容易である。本発明の
かかる具体例の別の利点は、１００％のセル利用率を維
持し乍ら係数のプログラミングが得られることである０
例えば参考文献３では、効率１００％を達成するために
は定常係数が必要である。

本発明のプロセッサはアレイ出力をマルチビット全加算
器の第１入力に転送し得るプログラマブルな遅延手段を
含み得る。この加算器は第２プロセツサからの出力を受
信すべく構成された第２人力をもち、第３プロセツサの
等価加算器の第２人力に接続されるべく構成された出力
をもつ、この形態のプロセッサは長いデータワード又は
係数セラｌ−を３む計算のためのプロセッサアレイ又は
マルチビット係数を３むプロセッサアレイを構成するＪ
ＡＷ築ブロブロックての使用に適する。プログラマブル
遅延手段は、種々のプロセッサからの出力の相対タイミ
ングを調笈すべく使用されプロセッサ間の出力ビット桁
の差は適当な加算器入力結線によって修正される。

符号ビット延長が適宜付加されているならばプロセッサ
は全部が正の即ち２の補数のデータ及び係数を用いて使
用され得る。しかし乍ら、プロセッサはアレイ行に収納
され得ないキャリービットを生成しないデータを演算す
る必要がある。言い替えると結果の累加によるワード成
長がアレイ寸法を超過してはならない、必要ならば、ア
レイ行を半加３７．３で延長することによってワード成
長に適応できるようにアレイ寸法を拡大し得る。１番目
の行はｌｏｇ２ｎ半加算器（ｎ＝１．２−）又はｌｏｇ
２（ｎ−１）加算器（ｎ＝２．３・・・）を含み、同時
に（ｎ−１）番目の行のキャリー出力と適当なｎ番目の
行の半加算器の和入力との間の遅延手段が挿入された結
線を３む。

添１・１゛図面に示す以下の記載より本発明がより十分
に理解されよう。

（以下余白）第１図は本発明のビットスライスプロセッサー０を示す
。プロセッサ１０を相関関数の演算に関して記載し解析
するが、該１０セツリは復述する如く数学的に等価の畳
込み演算にも通している。プロトセッリ１０は、個々のビット×。（ｂ＝ｏ〜３）をもつ
連続する４ビツト数×。（ｎ−０，１，２，・・・）の
Ｙ−タストリ・−ムと４つの１ごツー・係数ａＨ（ｉ＝
０〜３）との相関を演口するように構成されている。こ
の説明例（゛はデータと係数とを正の値にとる。

プロセッサ１０は４行４列に配置されたゲート制御仝加
弾論理セルアレイ１２を含む。各セルを符号１４で示し
、各セルの添字が行及び列の位置を示す。

例えばヒル１４．ｊは１番目の行のｊ？ＩＩ目の列のヒ
ルである。プロセッサは更に５つの半加０論理ヒル１Ｇ
をごみ、該セルでも添字によって行及び列の位置を示す
。

次に第２図及び第３図によれば、各論理レル１４は、以
下の如くゲート制御全加韓論理関数を６１口すべく構成
されている。

■４−ｙ″（３（ａ、ｘ）Φｃ’　　　　　　　　（＋
、ｉ）Ｃｔ−ｙ’、ｃ’＋　ｙ’（ａ、ｘ）　）　Ｃ’
（ａ　ｘ）　　　（１，２）［式中、ｙｏ及びｙは夫々
、入力及び出力の累積和ピッｌ〜、Ｃｏ及びＣは夫々、入力及び出力のＰ　１ｐリービツ１
〜、ａは入力１ビツト係数、Ｘ　ｔ、１入力データピツト、 −判り易くするためにピッ１−桁及び１ノード数に関す
る添字は省略。

各論理セル１４は直［に接ツるセルから入力ｒ−タビッ
ト×と入力累積和ビットｙ゛とを受信するにうに構成さ
れている。更に右隣のセルから入力係数ビットａと入力
キャリービットＣとを受信するように構成されている該
セルは式（１，１）及び（１２）の論理関数を演並し、
出力累積和ビットｙとｊ　ＩｐリービットＣとを生成す
る。これらの出力ピッ１〜は、ａと×との積にＣ“とｙ
ｏとを加算した和に相当ケる。キャリー出力ビットａ及
び係数出力ピッ１〜Ｃは、夫々のクロック励起ラッチ１
８ａ及び１８ｃを介して左隣のセルに出力される。デー
タ出力ビツトＸ及び累積和出力ビットＶは、Ｘの場合は
１つのクロック励起ラッチ１８ｘを介しｙ＋７）Ｗ合は
２つのクロック励起ラッチ１８，１．１８，２を介して
出力される。

第３図に示す如く、各生捕０レル１６は右隣及び直上の
セルからキャリー及び累積和の入力ビットＣ°及び■°
を夫々受信する。、該セルはこれらを加算してキＸ・り
一及び累積和の出力ビットＣ及びｙを生成し、クロック
励起ラッチ２０ｃ　、　２０，１及び２０，２を介して
左隣及び直下のセルに出力する。半加算セル１６は以下
の論理関数を演０する。。

ｙ　←　ｙ°Φｃ’　　　　　　　　　　（２，ｔｌｃ
　　　　ｙ’　　　ｃ’　　　　　　　　　　（２，２
）式中の各項は前記と同義である。

ラッチ１８．２０の各々（よ、アレイ１２の全部のヒル
１４と半加０器１６とのタイミングを制御２１１する（
第１図に図示しない）ｆｌｌつのクロック２２によって
励起される。クロック２２はオーバーラツプしない２相
信号を発生し、各ラッチ１８又は２０！よ直列の２つの
゛にラッチから成る。第１相クロツクパルスで、第２ハ
ーフラツチの各々がラッチピッ１−を出力し第１ハーフ
ラツチ・の各々が新しいラッチビットを入力する。第２
相クロツクパルスで、第１ハーフラツヂの各々がラッチ
ビットを各自の第２ハーフラツヂーに転送する。従って
連続り１］ツクナイクル中に連続ビットが各ラッチでク
ロック制゛御される。

セル１４及び１６は各自のピル出力に１８ａの如き全ラ
ッチを右ψるが、これがセル入力に配置されＣＬ）よく
、又は入力及び出力に夫々半ラツチｆつ分割されてし、
同様の７１４０１作が相持される。また、各全ラッチの
代わりに半ラツチを使用することも公知であり、これは
記載の貝体例の変形例になる。

かかるラッチの動作はビットレベルシストリックアレイ
業界で１−分に公知であり、参考文献１の第九１０図及び第１１図に示されているのＣ木材では特に説
明しない。

ラツ１１８及び２０のりｔコック制御効采は、係数ピッ
１〜ａと連続計算されたキｐリービツトＣどをアレイの
行に沿って１クロツクサイクルに１セルｆつ矢印２４及
び２６で示すように転送することである。

データビット×は１クロツクナイクル毎に１セルずつ移
動する。係数およびデータピッ１−は不変化でアレイ１
２を通過ケるが、新しく　Ｒ４算されたキ１７リービツ
［・の各々は、左隣のセル１４又は１６によって１クロ
ツクナイクル後に演０され６ルベル上のビット桁の品１
算のための入力になる。

新しり訓（）された出力累積和ピッｔ−ｙの各々は、２
クロツクリイクル後に直下のヒル１４又は１６の人力ｙ
”になる。その他のビットは１つのラッチ１８ａ。

１８ｃ　、　１８ｘ又は２０Ｃシか通過しないのにこれ
らのビットの各々が２つのラッチ１８，１と１８ｙ２又
は２０，１と２０，２とを通過するからである。

プロセッサ１０は、４つの隣接セルに完全に接続された
５つだけの論理セル１４１２　、１４１１　、１４２２
　。

１４２１及び１６２４を含む１．セル１４ｏｏ〜ｌ’１
０３．１６１４　、及び１６２５の■°大入力０に設定
されている。セル１４００〜１４　　のＣ゛入力０に設
定されている。セル１４ｏ３〜１４３３は未接続の係数
即ちａ出力をもち、セル１４ｏ３．１６１４．１６２５
．及び１６３５は未接続のＣ出力をもつ。セル１４３０
〜１４３３のＸ出力ら未接続Ｃある。

第１行のセル１４ｏｏ〜１４ｏ３はＸ入力をもち、デー
タはこの人力から後述する如くピッ１−パラレル、ワー
ドシリアル、ピッ１−ジグナグでブロセツ１ノ１０に供
給される。第１列のセル１４ｏｏ〜１４３ｏはプロセッ
サ１０に係数を供給するａ入力を６つ。プロヒツサ１０
からの出力は、Ｑ！！行のセル１４３０”　１６３５の
Ｖ　ｉＬ’ｔカから１９られる。

プロセッサ１０の実際の設へ１では冗長セル結線どり・
１応するラッチとを省略してしよい。しかし乍ら、論理
ヒルのタイプをできるだけ少なくするのが右利であろう
。冗長度を最小にすればプロセッサ１０に２種類のセル
を組込むだけでよい。更に、半和ｆＤ１Ｇの代わりにｏ
　ｃ　３Ｑ定されたａ及び／又はＸ入力をもつゲート制
御今加０５１４を使用すると、更に冗長度は低くなるが
１種類のセルを使用するだけでよい。このため、例えば
−」ンビュータを用いた５Ｑ訓技術によって集積回路を
部用に装ｊΔできるという利点が得られる。３更に後述
する如く、この補数演亦では第１図のプロセッサ１０の
如く左側上端にスペースを残づよりもゲート制御全加算
セルの矩形アレイを構成するほうが有利である。

次にプロセッサー０の動作を第４，５Ｊｉｆｆ及び６図
に基いて説明する。プロセッサー０は次式で定義される
相関１ｉｙｉ→を行なうように構成されている。

［式中、Ｙ　は連続相関結果ワード、係ａ　ｃ＋　Ｈ及
【１びＸ　　はＸ　〜×ｎｈＮ−１の範囲の−・般データｎ
＋ｉ　　　　　ｎワードを示す］、。

第４．５及び６図によれば、単一・ビット係数り−ドａ
Ｏ〜ａ３のスｉ・リーム４０はプロセッサー０内）くで左方向１転送される。各係数は夫々の相関行に入力さ
れる。ｆ−クスｉ〜リーム４２はプロセッサー１０内ｅ
下向きに移動し、結果ストリ・−ム４４は第５図及び第
６図に示されるようにプロセッサ１０の下方から出る。

第４図は演わの第１９０ツクサイクルの直前のプロセッ
サ１０を示し、第す図及び第６図は第１１サイクル及び
第１４サイクルに於けるデータ及び結果のごッ１−位置
を示す。第４図−第６図はデータ流及び係数流のタイミ
ングと結果の累積とを図式的に示す、。

プロしッサ１０の上方又は右方に伸びる連続ビット位置
は、次第に遅くなるデータ入力、結果出力又は係数人力
を示ケ。係数、データ及び結果のストリーム４０〜４４
の対角線立上がり４０’　、　４２’及びへ４４゛は１［１セツナ１０終の時間ジグヂグビッ１へ入
力を示す。データワードＸ　、は、ワードシリアル。

ビットパラレル及び累積時間ジグザグにブロセツす１０
に入力される、１従って、ビットＸ　　−Ｘｏは隣接セ
ル間で１クロツクサイクルの遅延を伴なつ力Ｘ　にｎク
ロツクナイクルだけ遅れる。。

式（１）の論理関数によって、第４図から１クロツクナ
イクル復、即ら、クロックサイクル１でセル１４ｏｏは
入力Ｘ。及びａＱを受信する。その結果口のヒルは積ａ
□ｘ　　を計算しこれにキャリー及び和の入力ビット即
らＣ゛及びｙｏを加ａする。これらは常時Ｏである。従
って対応する累積和出力ｙはへａＱＸ　　でありセル１４ｏ１終のキ１１り一出力Ｃは
Ｏであろう３．クロックサイクル３．５及び７においで
、セル１４　〜１４　　はデータ人力Ｘ　　、Ｘ　　及
び＋０　　３０　　　　　　　１　　２Ｘ　を受信し、これにａｌ　、ａ２及びａ３を夫々乗専
する。対応すろ′Ｆ１・り一人力は全て０であるが、各
セル１４ｏｏ（ｎ＝１〜３）は、２サイクル以前に直上
のしル１４（。−１）。によって計算された累積和出力
を累積和入力として受信する。２ナイクルの遅延は夫々
のラッチ１８，１及び１８，２によって得られる。

従ってセル１４１ｏはサイクル３で被Ｅｆｔ＠ａ１及び
Ｘ　の入力と同ＩＩ　してセル１４ｏｏからａ。Ｘｏを
受信し、（ａ□ｘ　　＋ａｉＸ　　）の最下位ビット（
Ｉｓｂ）とより高い桁のビット（ｈｏｂ）とから成るｙ
及びＣ出力を生成する。キせリービッヒＣはサイクル４
′ｃセル１４１１に移り、累積和出力ビットＶはサイク
ル５でセル１４２０に移る。セル１４２０は１ｔイクル
５で（ａｏ　ｘ　　＋ａ１ｘ　　＋ａ２ｘ２＞の１３１
１及びｈｏｂとしてｙ及びＣを生成する。Ｃはサイクル
６でセル１４２１に移り、ｙはサイクル７でセル１４３
ｏに移る。これは被乗数８３及び×３の人力と同期ケる
９、従ってサイクル７でのセル１４３ｏのｙ及びＣ出力
は［１Ｓｂ（ａＯＸ　　＋ａＩ　Ｘ　　＋ａ　　Ｘ、　
）０　　　　　　　　　１　　　　　２　　　Ｌ→ａ３
ｘｌのＩｓｂ及びｈｏｂである。サイクル７でのけル１
４３ｏの累積和出力は次式で示される。

式（４）は次式と等価である。

式（５）は級ａ　Ｙ　ｏ（ｎ＝０．１・）の第１相関項
たるＹ。

のｌｓｂである。従って、右端列のセル１４００〜１４
３゜は第４図からアクロツクサイクル後にＹｏの　ｌｓ
ｂ■　を生成する１、累積和出力と直列に２つのラッチ
が存在するのでｙ　はこの図から８クロックサイクル後
にセル１４３ｏのラッチ１８，２から送出される。

次に第２列のセル１４ｏ１〜１４３１について考察する
。

壷ナイクル２でセル１４ｏ１はＣ′及びｙ゛入力ＯをＸ
。及びａｏＭ乗数入力と共に受信する１、従っで該ヒル
は、左隣のセル１４ｏ２に対してキャリー出力Ｏを発生
し、０十のせル１４１１に対してｙ出力ａＱ　ＸＱを発
生ずる１、サイクル４．６．８でセル１４１１　、１４
２１及び１４３１は夫々、ａ１／ｘ１　、ａ２　／Ｘ２
及びａ］／Ｘ：ｌを受信する１、従ってサイクル９　′
ｃ−のけル１４　　の第２ラッチ１８，２のｙ出力は次
式で与えられる。

ｙ　　＝ｌｓｂ［（ａＯｘ□＋ａ１　　ｘｌ　　＋ａ２
Ｘ２＋ａ３Ｘ：ｌ　　）ｙｏはＹｏの最下位の１つ上の
桁のビットでありリーイクル９で第２列のセル１４０１
〜１４３１から送出されるか又は第１列のセルからＩｓ
ｂ　ｙ　　の１クロックサイクル後に送出される。

ｙ′形成中に発生したキャリービットは次式に従って第
３列のセル１４０２〜１４３２に転送される。

サイクル３．　ｃｅｌｌ　１４　　：　ｃ’＝　Ｏ（８
，１）サイクル５．　ｃｅｌｌ　１４１２　　：　Ｃ’
＝ｈｏｂ（ａ　ｏＸ　□　　＋ａＩ　　Ｘ　　１　　］
　　　　　　　（８，２）サイクル７、　ｃｅｌｌ　１
４２２　　：　Ｃ’＝ｈｏｂ（Ｉｓｂ（ａ　Ｏｘ　□　
＋ａ１　ｘ　１）＋ａ２　ｘ　２　］　（８，３）＋ａ
３　Ｘム戸、４）同様の解析によってサイクル１０及びサイクル１１でｙ
ｏ及びｙｏが第３列及び第４列のセルから発生し、同時
にＦ　ｔリービッヒが前記の如く左方向に転送されるこ
とが理解されよう。

第１行のセル≠のＣ′及びｙ′大入力全Ｃ常に０である
。任意の４ビツト数とａｏ（’１叉はＯに等しい）との
乗算によって得られる積の最大値は同数４ビツトの長さ
をもつ。従って第１行の最終セル１４ｏ３のＣ出力は常
にＯｅある１、第２行の最終セル１４１３のＣ出力は２
つの４ビツト数の側口によって得られるのでＯでないこ
ともある。生捕専セル１６１４はこのキャリービットを
アレイの第３行に転送するように構成されている。第３
行及び第４行は夫々、６ビツトに加算され得る夫々３つ
及び４つの４ビツト数を加算するので、２つのキャリー
ビットを使用する必要がある。一般に、Ｎ番目の相関行
（Ｎ＝１．２，３又４）は横に准むキャリービットを加
算りるために　ｌｏｇ２　Ｎ生捕９器を組込む必要が（
５る。但し、　ｌｏｇ２　Ｎは必要な場合、丸め（整数
にしてもよい。この効果は第６図に示される。

第６図においては、第４桁及び第５桁のピッ１−即ちｙ
。又はｙ。（ｎ＝０．１．２・・・）が、夫々半加算器
から成る第す列及び第６列によって甜算されている１゜
回路を小型化するために、生捕Ｏ”Ｒ１６１４及び１６
２５に代えて単一・クロック制御ラッチを使用してらよ
い。これらラッチは入力和と出カキＶリ−とが）ａ続し
ていないとき単独でｄ延を与える機能を６つ。

従って、−・般にはＮ番目の相関行が１ｏｌＪ２　（Ｎ
−１１半加ｆ：ｆｉ器［但しＮ＝２．３．・・・］を必
要とするであろう。

夫々発生する。

前記の解析により、Ｙｏの第０桁のビットｙ　Ｐが第４
図から（ｐ＋８）サイクル後にセルのｐ番目の列から発
生することが理解されよう。［但しｐ＝Ｏ〜す。この解
析を拡大してＹｎ（一般相関結果）のｐ番目のビットｙ
ｌ′が第４図から（ｎ＋ｐ＋ａ）　１ｆイタル後にｐ列
目のセルから生成されることを容易に証明できる。従っ
て連続相関結果Ｙ、は８クロツクザイクルの待ち時間で
プロセッサー０からワードシリアル、ビットパラレル的
に生成される。即ち、対応データビットの入力後、結果
ビットを得るまでに８ナイクルが必要Ｃある。

第１図から第６図に基いて説明した本発明の呉体例は、
移動する単一ビット係数を使用するブｌ］セッサである
。このタイプのプロセッサは種々の相関を演ｔ＞　ｉす
るために係数を時々交換することが望ましい場合には適
している。しかし乍ら常に一定の相関が必要Ｃある場合
には、各セルが定常的で且つ恐らくはプレプログラムさ
れた係数を夫々有するＣあろう１．この場合、係数転送
用のセル問結線及びラッチは不要ぐあろう。

再び第４図を参照すると、プロセッサ１０からの正しい
ｉｌ　ＩＩ’＞結果の出力に先行して少数の不要項が存
在することが叩解されよう。特にセル１４ｊ、は図示サ
イクルの４サイクル後にａ：１とＸ　との積をＳｉ算す
るであろうが、これは無意味なＩＬ宋である。

３ｔｉ箇の最初の７サイクル間はセル１４，０からの結
果を無視し、最初の８サイクル間はセル１４３１からの
結果を無視する必要があり、その後も同様である。

必要ならばこのために、各Ｑ合にメ適当数のサイクル中
の出力を抑止するように構成された手段を配備してｂよ
い。しかし乍ら実際に（まプロセッサー０は極めて多数
のサイクル、通常は１０６を上回るサイクルにわたって
演専を実行俳る。

従って、敢百万の結末のうちで【よ最初の短い級数のい
くつかの無意味な結果がひ在しても問題Ｇｅｔない。こ
れは、デジタル演算回路業界で公知の回跨設定時間に対
応する程度にすぎない。

初期結果を無視する方法の変形例として、第４図に示す
ように、不要項に対応する係数入力を０に設定してもよ
い。このためにはプロセッサ１０のｎ番目の行に係８！
ａ０を入力する萌に２ｎ個の０（ｎ＝θ〜３）を入力す
る必要がある。言い換えると、係数の入力以前に必要な
Ｏの数は１０セツザ内で１行下降する毎に２つずつ増加
する。従って第１行にはＯを人力しない。これはまた、
不要項を導＝（ｎ　−１）番目の行のａ。−１がｂ　　に交換されてから２クロックサイクル復に０番
［１の行へのａ　の入力をす。に交換り°る。

第４図では係数が０からａＱ−ａ３に交換される場合が
示されている。

次に第７図を参照する。第７図は本発明の別のプロセッ
サ５０の概略図で・あり、前出の部分を同じ参照符号で
示す。これは、より複雑な３１算に適応するように補助
手段を備えたプロセッサ１０を組込／Ｖでいる。最終行
のセル１４３ｏへ・１６３５は累積和出力３０を有し、
この出力はプログラマブルクロック励起遅延ユニット５
２を介して１１ビツトクロツク励起全加Ｆｌ＄５４に接
続されている。最終行のデータ出力２８はデータ出力ラ
イン５６．〜５６３に接続されている。加算器５４は別
々の１１個の１ビツト加算セル５８０〜５８１ｏを有し
、その１つが第８図により詳細に示されている。各加算
セル５８は第１及び第２の和入力ＧＯａ、　６０ｂと＋
Ｆ−１ｙり一人力６２とＰヤリ−出力６４と和入力６Ｇ
とをもつ。和入力６０ａ、　Ｇｏｂ及びキャリー人力６
２は夫々クロック励起される１ビツトラツチＧ８ａ　、
　６８ｂ　、　６８ｃと直列である。ギャリービットは
加算器５４に沿って左方向、例えば加算セル５８ｎから
加算セル５８ｏ＋１（ｎ＝０〜１０）に転送される。

加０レル５８ｏはｎ番目の桁のピッｉ・を受信及び発生
し、アレイセル１４３ｏ（ｎ　＝　Ｏ・−３）又は１６
３゜（ｎ＝４又は５）からの出力を受信すべく接続され
た第１人カＧＯａを５つ。加算セル５８６へ−５８１０
の第１人力はＯに設定されている。従ってプロセッサ１
０は、辰下位から６桁の第１人力を１１ピット加口器ｒ
＋４に与える。

加ｐｉｔル５８ｏ〜５８１ｏの第２人力６ｏｂは入力ラ
イン７０．〜７０１ｏに夫々接続されている。加算器出
力６６は夫々の出力ライン７２．〜７２１ｏに接続され
でいる。遅延ユニット５２は同様にプログラマブルな数
のクロツクナイクルによってプロセッサ１０の最終行の
セルの各々からの信号を遅延させるように構成されてい
る。ユニット５２は例えば、アレイの各出力毎に直列の
１ピッ１−クロック励起ラッチを含んでおり、直列ラッ
プの数は所望の遅延に応じて変更できる。

ブ［ｌセッサ１０と遅延ユニット５２と加０器５４の全
部のラッチとは、（図示しない）同じ２相クロツクによ
って同期的に励起される。

プロセッサ５０は以ドの如き演尊を行なう。、相関は加
ｎ演算であるから、正確なタイミングとビット桁とを与
えることができれば、演口をサブ計算に分割し後で再結
合することが可能である。ｄ延ユニット５２は、正確な
タイミングを）え、１１ピツ５０は、全部が同じ２相ク
ロツクで励起される同様のクロック群と共に使用される
ように構成されている。

１２の中−ビット係数ａＯ−０１１を含む相関が必要な
らば、３つのプロセッサ５０を使用する。データは第１
ブロセツ１ノ゛に導入され、第１プロセッサを通過しデ
ータ出力ライン５６Ｑ〜５６３を介して第２プロセツサ
に転送される。データストリームは前記の如く、ビット
パラレル、ビットジグヂグでワードシリアルである。同
様にして、第２プロセツサのデータ出力は第３プロセツ
Ｖの入力になる。

第１プロセツサは係数ａＱ〜ａ３で演算し、第２プロセ
ツサは係数８４−　ａ７．３つのブＩ］　１７ツサは係
数ａ８〜ａ１１で演ｐする。３つのプロセッサの遅延ユ
ニツＩ〜５２は、第１プロセツザの出力が１４クロツク
ザイクル理延し、第２プロセツザからの出力が７クロツ
ク１フイクル遅延し第３プロセツサからの出力が遅延Ｏ
になるように設定されている。

第１ブロセツ４Ｊ加算器５４の第２人力６０ｂは全て０
に設定されており、その出力ライン７２０〜７２１０は
ライン７０．−・７０１ｏを夫々介して第２プロセツサ
加算器５４の第２人力６０ｂに接続されている。同様に
、第２ブロセツ４ノ加算器５４の出力ライン７２．〜７
２１゜は第３プロセツサ加咋器の入力ライン７０．〜７
０１゜に接続されており、その出力ラインが所望の相関
結果をりえる。

３つの１１コセツサ５０のこのような構成が所望の１２
の係数ｈ１算を与えることは以下の如く確認できる。再
び第１図から第６図を参照すると、プロセッサ１０は１
つの結果を出すために８クロツクサイクル、即ち各行に
２サイクルを必要とする１、１２行をもつ同様のプロセ
ッサは１つの結果を出すために２４サイクル必要であろ
う。後者のプロセッサを同じデータを順次的に受信する
３つの４行プロセッサに分割すると、第１プロセツサは
８サイクル後に結果を与え、第２プロセツサは１６す“
イクル後、第３プロセツサは２４１ノ”イクル後に結果
を与える。。

従って、隣合うプロセッサの出力の聞に８サイクルの相
対遅延が存在する。更に、各１１ビツト加専器５４はク
ロック制御ラッチをもつので１つの加算を行なうために
１クロツクナイクルを要する。加篩器５４の効果は、１
段に１クロツクサイクルずつ相対遅延を短縮することで
ある。従ってプロセッサ遅延ユニツ１−５２の各々は後
続ブ１コＵツナの数と７との積に等しい数のクロックサ
イクルのＵ延を導入する必要がある。従って第１及び第
２のブロセッ勺の遅延ユニット５２は夫々、１４クロツ
クサイクル及びアクロツタ丈イクルの遅延を与える必要
がある。より−・般的には、各々がＭ行をもつＮ個のプ
ロセッサの連鎖ｒｎ番Ｈのプロセッサの遅延ユニットは
（２Ｍ−１）（Ｎ−ｎ）クロックサイクルの遅延［但し
、ｎ　＝　１−Ｎ　１をもつように設定される。

各々が６ビツト出力を与える３つのプロセッサ５０の場
合、和入力の最大値は８ビツトである。これは、加算器
５４の幅より３ビツトだけ小さい。従ってより長いプロ
セッサ連鎖を収納し得る。

また、マルヂビッ１〜係数が複数のプロセッサ５０によ
って収納されてもよい。例えば３ビツト係放ては３つの
プロセッサ５０が使用される。第１プロセツサは各係数
のｍ５ｂ（最上位ビット）を受イＪ１し、第２プロセツ
リは最下位の１つ上の桁のビットを受信し、第３プＩ］
セツリはｌ５ｂ（最Ｆ位ピッ＋−＞を受信する。従って
、各ブロセッυ毎の係数ビットは、マルチピット係数セ
ットの夫々のビットスライスである。データストリーム
は、前記の直列データ流配列と対称的に並列の３つの１
１コセッサ全部に同期的に供給される。第３プロセツサ
はビット桁０・〜５の出力を生成し、第２プ１コセツづ
は１〜６、第１ブロセツリは２〜７の出力を生成４゛る
。これは、これらプロセッサが夫々、桁０．１及び２の
係数ビットを乗算するからである。

異なるピッ１〜桁を補正するために、第１１１コピツリ
加粋器出カライン７２０〜７２９は第２ブロセッザの加
ｓ７器入カライン７０１へ・７０１０に夫々接続されて
いる。第１プロセツサの出力ライン７２１ｏは未接続で
あり、第２プロセツサの入力ライン７００Ｇ、ｌｔｏに
接続されている。ビット桁の加ロシノトを実行するため
に第２ブロセツリの加算器出力と第３プロセツ瞥すの加
ｉ器入力との間にも同様の接続が行なわれている。これ
により、第１及び第２のプロセッサの出力は夫々、第３
プロセツサの出力に対して２段階及び１段階のビット桁
シフトをもつ。その結果例えば、第１ブロセツ丈の第１
列即ち右端列の出力は第２及び第３ブロセツザの夫々第
２列及び第３列からの出力に加算８れる。しかし乍ら、
再び第５図を参照すると、プロセッサー０の隣合う列の
出力間には１クロツクサイクルの相対遅延が同存在する。３つのプロセッサ全部にデータが＼期的に供
給されるので、例えば第２プロセツサの第２列の出力と
第１ブロセツ勺の第１列の出力との間に同様の遅延が存
在する。これに対して、第１ブロレツ１ｊの出力は出力
加０器５４で１サイクル遅延しており、第２ブロセツリ
ーの出力は第２ブロセツリの加Ｃ７器ぐ更に１サイクル
）Ｙ延俳る。従って双方のプロセッサは第３プロセツサ
の出力に合せて加専のタイミングを補１［するための適
当な遅延を生じる。

従って３つのプロセッサ全部の遅延ユニット５２は遅延
０に設定される。

６ビツト、７ビツト及び８ビツトの３つの数を加算して
得られる最大値は９ビツトの長さであり、これは第３プ
ロセツナ出力加算器の１１ビツト内に容易に収納される
。

また、前記のプロセッサ１０は４ビツトデータのみに適
しているが、４ビツトより大ぎい幅のデータワードを使
用する必要が生じるかもしれない、３より広いアレイも
使用できるが、多数のプロセッサ５０を使用してもよい
。８ピッｌ−データワードには２つの１１コセツサ５０
が使用される。上４桁のビットは第１ブロヒツリに供給
され、下４桁のピッ１−は第２ブロセツリに供給される
。第１ブロセツリの加算器出力ライン７２０〜７２Ｇは
第２ブロセツリの加専器入カライン７０４〜７０１０に
接続され、第カライン７０．へ、７０３は０に番輪され
ている３、これによりビット桁の／１段相対シフトが行
なわれる。

相対遅延の調整はｒ−タ人カタイミングに従う。

８ビット全部についてデータが隣合うピット間に１ビツ
トの時間ジグ「グを伴って人力されるならば、第１プロ
亡ツザ加帥器によつ′Ｃ導入された１９０ツクサイクル
の相対遅延に対する調整を要するだけである。この場合
、第２プロセツＩす遅延ユニッ１−５２は１１ナイクル
の遅延を与えるように設定される。しかし乍ら、ピッ１
−ジグザグが各４ビツトワ一ド部分だけに存在し両りの
プロセッサへの入力が同期であると、第１プロセツサの
出力は４ビツト遅延を必要とする。これを得るためには
、第１プロセツ警す遅延ユニット５２が３サイクルの遅
延を与えるように設定し、第２プロセツサの遅延をＯに
設定する１、この変形例として、入力データ遅延を与え
ることによって等価の出力遅延効果をもつ描乃が得られ
る。。

「延コニット５２の使用に対する変形例として、同様の
遅延ユニットを加算器５４の第２人カフ００へ・７０１
ｏと直列、又は加算蒸出カフ２０〜７２１υと直列に配
備してもよい。必要な遅延クロックサイクル数は「延ユ
ニットの位置に依存する。

この構成においては、第２プロセツサが１０ピット及び
６ビツトワードの和の出力を与える。これは最大１１１
１１１ビツトをもつ１．従ってこの具体例では、全幅の
出力加算器５４が必要である。幅４Ｎビツトのデータワ
ードを含む演Ｑを行なう必要があるときは、少なくとも
最終プ１コセッサにおいて、より大きい出ノＪ加紳器（
４Ｎ＋３）ビット・幅が必要であろう。しかし乍ら、個
々の論理Ｕルアレイの各々は第１図及び第７図に示すセ
ル１４及び１６をもつだけでよい。これは、５４の如き
出力加算器による１段毎の累算の利点を示す。各論理セ
ルアレイは、プロセッサ１０は４から６までのような限
定品のり−ド成長を収納するように構成されるだけでよ
い。

より大きい演悼は出力加算器を用いて別々に累算される
。

前記の記＋１　、Ｊ、す、データワード長の延長、マル
チビット係数の使用及び相関長さの延長が全て、プロセ
ッサ５０の如き適当数のプロセッサを使用することによ
って得られることが１９′！解されよう。厳密には、組
合せブロセッ勺５０にＪ３ける第１出力加算器５４は不
要である。しかし乍ら、デジダルｆ４算回路の設泪にＪ
３いては、この場合各々が出力加算器を含む１つの構築
１０ツクに標準化するのが便利である。

第９図は本発明の別のプロゼッ＋Ｊ９０の概略説明図で
ある。これは、第７図及び第８図のブ［Ｊセッサ５０と
等価のプロセッサにバイパス手段を付加したもので、等
価の部分は同じ参照符号で示される。

必要以上・・に複雑な図にならないように多数のライン
接続はバスとして示されている。ブロセツ＋Ｊ９０は１
０セツナ５０を含む。入力１−タバス９２はプロセッサ
５０と第１マチルブレク＋Ｌ９６との双方に接続され、
後考には２つのクロック励起遅延ラッチ９４ａ、Ｑ４ｂ
のバンクを介して接続されている。プロセッサ５０から
のｆ−夕出力はバス９８を介してマルチブレクリ９Ｇに
入る。マルチプレクサ９６はデータ出力バス１００を６
つ。ンルヂプレクナ９６は、制御人力１０２の信号がＯ
であるか１であるかに従って出力バス１００をバス９２
又は９８に接続する。

結果の入力バス１０４は出力用ｆ：１５５４と第２フル
ヂブレクサ１０Ｇとの双方に接続されており、摂者には
２つのクロック励起遅延ラッチ１０８ａ、　１０８ｂの
バンクを介して接続されている。第２マルチブレク＋＋
　１０６はまた、加算器出力バス１１０と結果の出力バ
ス１１２とに接続されている。結果の出力バス１１２は
制御人力１１４の信号が０であるか１であるかに従って
結果の入力バス１０４又は結果の出力バス１１２に接続
されている。” 第９図のプロセッサ９０は以下の如く作動する。

これは同様のプロセッサの連鎖の一部として構成され、
隣合う２つのブロセツυは鎖線１１６及び１１８で示さ
れている。、プロセッサ５０が無故障のとき、マルヂプ
レク＋Ｊ９Ｇ及び１０６に論理１の判面入力信号が供給
され、ｆＪＪ作モードは前記と同様である。しかし乍ら
プロセッサ“５０に故障があるとき、論理Ｏの制御入力
がマルチブレクリ９Ｇ、　１０Ｇに供給され、入力アー
クと結果とはラッチバンク９４ａ。

９４ｂ、　１０８３及び１０８ｂを介してプロセッサ５
０からバイパスされる。ラッチバンクの各々は、対応ケ
るバスの各ラインに対し１サイクルの遅延を与える。

（図示しない）個々のラッチは前記ラッチと等価であり
、ブロセツ１ノ５０に使用されるのと同じり［１ツクで
励起される。

従って、故障プ１コセッサ５０はデータ及び結果の流れ
に２クロツクリ”イクルの遅延を導入するラッチバンク
を介してバイパスされる。従って、データ流及び結果の
流れは等しい遅延を生じ、それまでと同様に同期を維持
する１゜更にｎ”＜　’Ｃ）小型４Ｔことは、バイパス
バスの各々がラッチバンクによって比較的短い３つのセ
クションに分割されることである。必要ならば、更に細
かく分割するために付加的バイパスラッチを挿入しても
よい１．この利点は、バイパスバスの各セクションが上
のに短く、ブ［１セツリ５０と少なくとも同じクロック
周波数でスイッチングＣきることである。プロセッサ５
０は現状の集積回路技術を用いて製造でき、２０ＨＩＩ
Ｚ以上の高いクロック周波数Ｃ゛作ｅできる。、高いク
ロック周波数で肖ｖｊできる理由は、例えば第１図の論
理セル１４と１Ｇとの間の結線が隣合うヒル間にのみ存
在するからである。しかし乍ら必然的にバイパスバスの
艮ざが大幅に遅延され、これに対応してＲＣ１１５定数
が大きくなる。かかる時定数は直列プロセッサ連鎖の最
大周波数を好ましくない低い賄に制限する。従って、バ
イパスバスを高速スイッチングｑ能なセクションに細か
く分割しないと、３−１−々障ブロセ・ン→ノをバイパ
スすることによって最大クロック周波数の急激なＦ降が
生じるであろう。第２図及び第３図のクロック２２の周
波数を下回る稈に周波数が減少すると、直列連鎖は１つ
のプロセッサ゛がバイパスされていても機能しないであ
ろう。従って、クロック励起ラッチによって高速スイッ
チング可能なセクションに細分されたバイパスバスを使
用すると、動作速度に不利１．ｆ影響を与えることなく
故障許容性プロセッサを構成することが可能である。

典型的な故障許容゛プロセッサ連鎖は、例えば４つのプ
ロセッサを要する演算のために直列の５つの１１コセツ
ナ９０を組込んでいる１、従って任意の１つの故障プロ
セッサ又は不要ブロセツ勺をバイパス′Ｃきる。より大
きい故障許容範囲が必要なときは、イ・」加的ブロセツ
ザを追加し得る。参考文献１に記載の如き従来のプロセ
ッサは、動作速度を低下さｉ！ないで故障許容範囲を得
るこのような構成を用いることはできない。その理由は
、本発明によればデータと結果とが同方向でプロセッサ
１０又は連鎖プロセッサ９０を通過するからである。バ
イパスラッチはｆ−タストリームと結果ス１−リームど
を等しく遅延させ、両者間に相対遅延は導入されない１
．従って１夕障ブロヒツサのバイパスによって、′＆鏡
の先行プロセッサから後続プロセッサまでのｆ−タスト
リームと結果ストリームとの相対的タイミングが維持さ
れる。参考文献１に記載のプロセッサは１−夕と結果と
が向流的に移動するように設み１されている。かかる連
鎖デバイスでは中央ブ１］ｔ？ソリがノ方の隣接プロセ
ッサからＹ−タを受信し他方の隣接ブロセッづから結果
を受信する。１これら隣合うプロセッサの１つをラッチ
付きバスでバイパスするときは、データストリーム又【
よ結果ス１−リームの一方が中央プロセッサで遅延され
るが、両方が遅延されることはできない。

このため演口のタイミングが破壊され無意味な結果が発
生する。その結果、高速故障許容性プロセッサ連鎖の構
造を従来技術の向流アーキテクヂ１？−の使用によって
得ることはできない。こようなａ造を得るためには、単
一方向のデータ流及び結果の流れが生じるように構成さ
れた本発明のブロセッ１Ｊを使用する必要がある。これ
が本発明の重要な利点である。現在、集積回路技術はつ
１−ハ規模の集積に移りつつあり、ここでは高速故障１
γｆ容性アーキテクチャ−が不可欠である。ある程麿の
故障許容性がないと、ウェーハ規模の回路効率が実質的
に０になる３、何故なら、数百個の素子を担持するウェ
ーハで１つの故障素子が生じるとウェーハ全体の作動が
無効になるからである１゜次に第１０図を参照する。第
１０図では第２図と等価の素子を２００を加えた同じ参
照符号で示ず。これは、ブ［Ｊセッサ１０，５０又は９
０での使用に適した変形例のゲート制御全加算器論理セ
ル２１４である１゜セル２１４とセル１４との唯１つの
違いは、セル２１４が２つのｆ−タ出力うッヂ２１８．
１及び２１８ｘ２をもち唯１つの結果出力ラッチ２１８
．をもつことである。セル２１４は第１図のセル１４と
完全に等しい相互接続を伴う（図丞しない）プロはツザ
で使用される。論理セル２１４を組込んだプロセッサで
は結果がデータの２倍の速度で移ｅ　する。プロセッサ
への係数入力は第４図へ・第６図と逆の順序で行なわれ
る。例えば相関係数ａ　ｏ　”　ａ　３は、第４図の如
くセル１４ｏｏ〜１４３ｏでなくセル　１４３０〜４１
ｏｏに夫々入力される。、前記と同様にプロセッサの動
作を解析すると、セル２１４を組込んだプロセッサへの
係数入力の流れ図から相関計算が得られることがＩ’Ｊ
Ｉ解されよう。この解析は前記と同様であるからここで
は説明しない、、係数レットの交換方法が若干異なって
いる。即ち、第４図では隣合う行間の係数レットの交換
に２クロツクサイクルの遅延が導入されるが、第１０図
では１クロツクサイクルの遅延が導入される。データ流
が遅く結果の流が速いことを補ｔｔｔするために、セル
２１４を組込んだブｏ　ｔ４ツサ５０．９０のアレイで
は、館山のアレイに比較して結果累算タイミングの調整
が必要である。

必要な調整はデジタルエレクトロニクスの当業考又は係
数を伴って動作するように構成されＣいる１゜これまで
に記載の具体例は４ごツトデータスｊ〜リームを使用す
る。これが２の補数形のとき、各人力データワードが出
力結果と同じ幅をもつまで符号ビット又は最り位ビット
を複製ケる必要がある全形の４ビットデータワードがａ
ａａｂｃｄで示される。ブロセッ１ノ１０は６ビツト入
力を受信しない。第１図の４Ｘ４のゲート制御全加算器
アレイと５つの半加算器との代わりに、４×６のゲート
制御全加算器アレイが第１図の相互結線を伴って使用さ
れる。かかるアレイは４ビツトで正のブーツ１−で演算
する。、一般に、所要アレイの形状は矩形であり、各行
のセル数は最終行からの出力結果のビット幅に等しい。

また、第７，８及び９図に記載の如く構成されたンルヂ
プルプ１］セッナにこの補数ア・−タを収納してもよい
。加算器５４と等価の１つの出力棚ｔ’＞　２Ｓに供給
される結果、及び、１バイト人力ｆ−夕又は別々に処理
すべく複数バイトに分割された最上位バイトに対して、
符号延長部を与える必要がある。特に、出力側Ｑ器に入
る符号ビットを含む結果は、総合結果の完全幅まで符シ
）延長される必要がある。総合結果は、集合プロセッサ
の最終出力側ロ器から得られる、５本発明の７１コセツサでもこの？Ｉｌｌ数係数全係数し
得る。単一ビット係数の場合、乗算はＯ又は１によって
行なわれ後者は負である。０が正の寄与を与えないので
結果は完全に負である。従って５１算は全部が正の係数
の場合と等１ｉｌｌｉ′ｃある１、マルヂービット・係
数の場合、最上位のプロセッサだけが負の係数を含み、
その結果は完全に負Ｃある３、この結果のこの補数は公
知のゲート制御手段によって使用され、最終出力側ロ器
に入力される前に総合結果の完全幅まで４弓延長される
。

この補数のための１ジタル演算回路の原理は公知である
から、ここでは訂しく説明しない。

プロセッサ５０と同様のマルヂブルプロセッサは、各々
が各結果のビット幅にＭしい数のセルを各行に含むグー
１〜制御全加算ヒルの矩形アレイを絹込んでいるならば
、この補数データを使用し１９る。

別々に処理するために入力データＩｆｉ個々のバイトに
分割されている場合、最ま一僚バイトを受信するプロセ
ッサの出力結果の最り位ビットは、総合結果、即ち第４
図の加算器５４と等価の最上位出力加ＦＩ器からの結果
出力の完全幅まで同号延長される１６本発明の具体例を
相関に関して説明したが、これを畳込みに使用すること
も可能である。、これは例えば参考文献１に記載されて
おり、以下の如く算出される１、壱込み演算は次式で定
義きれる。

Ｙ　＝ΣＡ−Ｘ　　・　　但しｉ＜ｎ　　　（９）ｎ　
　　　、　　　　　　Ｉ　　　　ｎ−１１＝０相ｌ３Ｉｌ演算は次式で定義される。

式（９）より、４点甜ｔ５（Ｎ＝４）の第５番目の普込
み結果Ｙ４は以下の如く与えられる。

千の如く与えられる。

Ｙ　〈相関）　＝へＸ　　ＩＡＸ　　＊＾Ｘ　−ｒ　Ａ
　Ｘ　　　　（１２）式（１２）の右辺の順序を逆にし
てＢｉ　＝Ａ３−ｉ　、’−〇〜３を代入するとＹ　（相関）　＝Ｂ　Ｘ　＋Ｂ　Ｘ　＋Ｂ　Ｘ　−１−
Ｂ　Ｘ　　　（１３）である。

式（１１）と（１３）とは等価であり、畳込みと相関と
が等価の数学的ＦｑｔＣｉであることを示す。係数セッ
トによるＩ−夕の壱込みは、逆の順序で同じ係数を用い
た同じデータの相関と等価である。所与の係ａＬ？ット
Ａｏ・〜Ａ、の場合、係数ソードＡ゛θが最初の行又は
最終行のいずれから人力開始されるかに従って本発明の
プロセッサが畳み込み演算又は相関演算を行なう。この
逆のことが第１０図のセル２１４を組み込んだプロセッ
サに用いられる。畳込み結果級数の最初の若干の項は対
応する相関級数には無いという少しばかりの相違がある
。例えば式（１０）は式（９）のＹｏ−Ｙ２を生成する
ことはできない１．シかし乍ら実用上はこのことが重要
でないデジタル演算回路は穫めて多数の結果を生成すべ
く使用されるので、例えば数百万の級の初端でいくつか
の結果が（＝Ｊ加されたり欠如していてもこれを無視し
てもよい、１

【図面の簡単な説明】

第１図は相関演算を実行すべく構成された本発明のプロ
セッサの概略説明図、第２図及び第３図は夫々、第１図
のプロセラＦすのゲート制御仝加惇セル及び￥　ＪＪｆ
ｌ算セルの訂細図、第４図、第５図及び第６図は第１図
のプロセッサにおけるデータ流と結果との夫々のクロッ
クサイクルでのタイミングを示す説明図、第７図は、大
型計算曙用プ［］ｔ７ツリアレイ庖構成するために出力
遅延手段ど解累口丁段と共に第１図のプロセッサを含む
本発明のプロセッサの概略説明図、第８図は第７図の累
口手段に使用される仝加偉セルの訂細図、第９図は故障
許容性１１］ピッリーノルイを（８成するために必要な
バイパス結線を伴う第７図のプロセッサの概略説明図、
第１０図は第１図のプロセッサで使用されるゲート制御
全加算セルの変形例の説明図である。。１０・・・・・・プロセッサ、１２・・・・・・７レイ
、１４・・・・・・論理セル、１６・・・・・・半）加
算セル、１８、２０・・・・・・ラッチ、２２・・・・
・・クロック、５２・・・・・・遅延ユニット。代理人弁理士　中　　村　　　　至ＦＩＧ、８

Claims

【特許請求の範囲】

（１）ビットパラレル、ワードシリアル、ビットジグザ
グのＭビットワードデータストリームとＮ単一ビット係
数との相関及び畳込み演算を実行するデジタルプロセッ
サであって、（ａ）プロセッサがＮ行Ｍ列の論理セルアレイを含み、
（ｂ）各論理セルが、（ｉ）データビット、キャリービ
ット及び累積和ビットを入力し、（ｉｉ）データビット
を出力し、（ｉｉｉ）入力データビットと各行のセルに
対応する係数ビットとの積と、入力累積和と、入力キャ
リービットとの総和に対応する出力累積和ビットと出力
キャリービットとを生成するように構成されており、（ｃ）セルの相互接続ラインが行及び列を介してビット
を伝送するように構成されており、該ラインが、ビット
の記憶及び伝送のためのクロック励起遅延手段を含むデ
ジタルプロセッサであってセル相互接続ラインと遅延手段とは、累積和ビットとデ
ータビットとがアレイの列に沿って下降する単一方向で
一方の速度が他方の速度の２倍であるような速度で伝送
されるように構成され、キャリービットがアレイの行に
沿ってデータビットの有意性を増加する方向で前記累積
和ビット及びデータビットの両方よりも高速で伝送され
るように構成されていることを特徴とするデジタルプロ
セッサ。
（２）キャリービットの伝送速度及び伝送方向でアレイ
の行に沿って係数ビットを伝送すべく構成された付加的
セル相互接続ラインとクロック励起遅延手段とを含むこ
とを特徴とする特許請求の範囲第１項に記載のプロセッ
サ。
（３）アレイ出力を遅延させるべく構成されたプログラ
マブルクロック励起遅延手段と、遅延アレイ出力を第２
加算入力に加算すべく構成されたマルチビットクロック
励起全加算器とを含むことを特徴とする特許請求の範囲
第１項又は第２項に記載のプロセッサ。
（４）入力データ及び第２加算入力のためのバイパス結
線を含み、該結線がクロック励起ラッチによって再分割
されていることを特徴とする特許請求の範囲第３項に記
載のプロセッサ。
（５）全加算器の幅が入力間のビット桁の相対差を収納
するに十分であることを特徴とする特許請求の範囲第３
項又は第４項に記載のプロセッサ。
（６）全加算器の幅がＭビットのビット桁の相対差を収
納するに十分であることを特徴とする特許請求の範囲第
５項に記載のプロセッサ。
（７）論理セルの第ｎ行の延長上のｌｏｇ＿２ｎ半加算
器を含み、ｎが１からＮであり必要に応じてｌｏｇ＿２
ｎが整数に丸められることを特徴とする特許請求の範囲
第１項から第６項までのいずれかに記載のプロセッサ。
（８）論理セルの第ｎ行の延長上のｌｏｇ＿２（ｎ−１
）半加算器を含み、第（ｎ−１）行のキャリー出力と適
当な第ｎ行の半加算器の和入力との間の遅延手段を備え
た結線を含み、ｎが２からＮであり必要に応じてｌｏｇ
＿２（ｎ−１）が整数に丸められることを特徴とする特
許請求の範囲第１項から第６項までのいずれかに記載の
プロセッサ。