WO2004061722A1

WO2004061722A1 - 論理シミュレーション装置

Info

Publication number: WO2004061722A1
Application number: PCT/JP2002/013823
Authority: WO
Inventors: Hiroaki Komatsu; Hirofumi Hamamura
Original assignee: Fujitsu Limited
Priority date: 2002-12-27
Filing date: 2002-12-27
Publication date: 2004-07-22
Also published as: JPWO2004061722A1; US20050240388A1; US7516059B2

Abstract

レベルソートおよびコンパイル法を用いて、サイクルベースでシミュレーションを実行し、実用的に使用可能な規模で、システム全体での高速性を実現するために、１つ以上のゲートに対応する論理ブロックを評価単位としてシミュレーションを実行する評価処理と、他のプロセッサとの間の通信処理とのいずれをも実行可能な多数のプロセッサを備え、複数のプロセッサによって構成される各プロセッサグループが、ツリー形状の階層型に接続される。

Description

明細書論理シミュレーション装置技術分野

本発明は大規模論理回路のシミュレーション方式に係わり、更に詳しくは、数千万ゲート以上の大規模ディジタル回路の高速シミュレーションを目的として、論理プロックレベルでシミュレーションを実行する分散型超並列プロセッサ方式のサイクルベース論理シミュレーション装置に関する。背景技術

近年 CMO S L S I技術の急速な進歩に伴って、ディジタルシステム機器の高性能化と高機能化が急速に進展している。システム回路のほとんどが L S I として集約され、また製品開発期間の短縮が進んでいる状況で、いかに早期に高品質な設計を実現して商品の早期市場投入を図るかが、新製品開発における最重要課題となっている。その対策として、大規模なシステム回路の論理検証を効率的に行うための大容量、かつ高速なシミュレーション装置が強く求められている。

論理シミュレーションの高性能化のために専用ハードウエアの研究開発がなされてきた。これらの専用ハードウェア実現方式は基本的にプロセッサ方式と、 F P GA (フィールド 'プログラマブル'ゲート .アレイ）方式とに分類される。

プロセッサ方式では、回路モデルがプ口セッサの命令に置き換えられてシミユレーションアルゴリズムが実行される。実際のハードウェア回路を模擬する F P GA方式に比べて処理速度は遅いが、回路モデルのセットアップの時間が短く、またプロセッサの数の増加によって、性能向上と大容量化を図ることができるという特徴がある。

F P G A方式では、回路モデルのマッビングにより直接的に回路動作の模擬が行われるため、高速処理が実現されるが、回路規模の増大に対応して動作周波数が低下するなどの理由から、大容量ィ匕には難点がある。

プロセッサ方式のシミュレーション専用ハードウエアは基本的にレベルソート法と、イベント法とに大別される。

レベルソート法では、論理検証が行われるべき回路の外部入力端子、あるいは記憶素子からの段数に基づいてレベル番号が割り付けられ、レベル番号に対応して次々とシミュレーションが実行される。シミュレーションの実行によつて、このレベル番号に対応するゲートの出力の変化の有無に関係なく、全てのゲートに対して計算が行われる。

ィベント法では、ィベントドリブン、すなわち入力信号の変化をィベントとして、そのィベントに対応してゲートの出力の評価が行われ、出力が変化した場合にその変化がィベントとして回路内で伝えられて、順番にゲートに対する計算が行われる。

レベルソート法とィベント法とを組み合わせたアルゴリズムに基づいて、論理プロックレベルでシミュレーシヨンを実行する専用ハードウエアも発表されているが、本発明ではレベルソート法を採用した論理シミュレーション装置を対象とする。このようなレベルソート法に基づく専用ハードウェアは、遅延時間を扱うことができないため、いずれも同期回路を対象としたサイクルベース型のシミュレータである。

以上に述べたような論理シミュレーシヨン装置や、超並列プロセッサ結合方式については、次のような文献があある。

(特許文献 1 ) 特開 2 0 0 0— 3 6 7 3 7号公報「電気的に再構成可能なゲートアレイロジックを用いる方法及び、これによつて構成される装置」

(特許文献 2 )

特開平 7— 2 0 0 5 0 8号公報「ノード間結合方式」

(特許文献 3 )

特開昭 6 4 - 2 6 9 6 9号公報「プログラマブルアクセラレータ及びぞの方法」

特許文献 1では、電気的に再構成可能なゲートァレーが再構成可能な相互接続を介して接続され、接続の再構成によつて相互接続チップ上に実現されたデイジタル回路網が変更され、シミュレーション、プロトタイピング、実行計画を含む各種の目的に適合するシステムが開示されている。

特許文献 2では、超並列計算機向けの結合トポロジーとして、 n次元メッシュ状にリンクで接続された第 1の種類のノードに対して、ある次元に関して第 2の種類のノ一ドが接続された結合方式が開示されている。

特許文献 3では、プログラマブルアクセラレータ、すなわちプログラマプルな論理シミュレーション装置として、スィッチを介してクラスタを形成するようにフレキシブルに相互接続された、複数の実質的に同じプロセッサエレメントが採用され、そのプロセッサがプログラマブルであるァクセラレータが開示されている。

以上に述べたシミュレーションハードウェア、あるいは文献においては、本発明が対象とするレベルソート法を用いていても、シミュレーションがゲ一トレベルで行われており、論理プロックレベルでシミュレーションを実行する論理シミュレーシヨン装置は実現されていないという問題点があった。

レベルソート法は理論的には最も古くから用いられている方法であるが、前述のようにレベルに対応して全てのゲートに対する計算が必要となるため、物量的に非常に大きくなり、数千万ゲート以上からなる大規模ディジタル回路の論理シミュレーションに適用することを目的として、実用的に使用可能な規模の装置を作ることは困難であると考えられていた。

次に従来の論理シミュレータにおいては、一般に、計算すなわち評価を行うプロセッサと、プロセッサ間の通信を行うプロセッサとが分離されていた。すなわち並列処理用のプロセッサ群と、通信用のネットワークとが分離されており、プロセッサ間の a信距離に差があるために、システム全体の速度が低下するという問題点があった。

図 1 4，図 1 5はこの問題点の説明図である。図 1 4は論理シミュレーション装置の従来例の構成を示し、プロセッサ群とネットワークとが分離されている。

シミュレーションには論理演算、すなわち評価とその評価に伴う更新の作業がある。高速な処理を実現するために、評価は分割並列的に実行される。結果の更新については、評価結果を使用する評価単位としてのプロセッサが分散されているために、他のプロセッサに結果を通知するための伝搬処理用のネットワークが必要である。

すなわち、それぞれのプロセッサの評価の結果は、その結果を必要とするプ口セッサに伝搬された後に、次の演算が開始される。そこでシステムの性能は評価速度と伝搬速度との 2つによって決まり、伝搬速度が遅い場合には全体としてシステムの速度が低下することになる。

図 1 5は各プロセッサの間の評価結果の伝搬の説明図である。プロセッサ 0 ( P E 0 ) の評価結果の伝搬が、近くの P E 1および遠くの P E nに対して必要となる場合を考える。従来の方式では、遠方のプロセッサ P E nに評価結果を伝搬する時間によってシステム全体の伝搬速度が決定されてしまうことになる。従来はこの伝搬に要する時間の問題点を解消するために、処理のパイプラィン化およびオーバラップなどによって、伝搬時間の影響を小さくする工夫がなされてきている。しかしながら大規模なデータ処理を行うためにプロセッサの数を大幅に増加する場合には、ハードウエアの物理的制約から伝搬速度の改善が難しくなつてきている。発明の開示

本発明の目的は、上述の問題点に鑑み、レベルソート法を用いて論理プロックレベルでシミュレーションを実行し、また評価用のプロセッサと通信用のプ口セッサとを分離することなく、評価と通信の両方を実行できる同一形式のプ口セッサエレメントを用いる論理シミュレーシヨン装置を提供することである。図 1は本発明の原理構成ブロック図である。同図は、レベルソートおよびコンパイル法を使用して、サイクルベースの論理シミュレ一ションを実行するシミュレーション装置の原理構成プロック図である。

同図において、論理シミュレ一ション装置 1は多数のプロセッサ 2を備える。各プロセッサ 2は、 1つ以上のゲートに対応する論理プロックを評価単位としてシミュレーションを実行する評価処理 3と、他のプロセッサとの間の通信処理 4とのいずれも実行可能なものである。

発明の実施の形態においては、前述の論理ブロックはハードワイヤード可能な形式の 1つ以上のゲートから構成されることができる。

また実施の形態においては、前述の多数のプロセッサ 2がそれぞれ複数のプ口セッサによつて構成されるプロセッサグループに分割され、複数のプロセッサグループが階層形のツリー形状に相互に接続されてクラスタを構成すると共に、複数のクラスタによって論理シミュレーション装置が構成されることもでさる。

この場合、プロセッサグループ内の複数のプロセッサが相互に完全結合されることも、また階層型ッリ一形状の下位側の階層において同一階層内の各プロセッサグループが相互に完全結合されることも、更に複数の各クラスタにおける最上位階層のプロセッサグループが他のクラスタ内の最上位階層のプロセッサグループと論理的に相互に完全結合されることもできる。

実施の形態においては、各プロセッサグループが、そのグループを構成する各プロセッサに対応して、メモリデータおよび外部入出力パターンの入出力制御を行う入出力プロセッサを備えることもでき、また階層型ツリー形状の下位側に属する各プロセッサグループに対応して、シミュレーションのトレースデータと外部入力信号パターンとを格納するトレースデータ記憶手段と、キヤッシュメモリに相当する小容量のデータ記憶手段とを備えることもでき、更にッリー形状の上位側に属する各プロセッサグループに対応して、主記憶に相当する大容量データ記憶手段を備えることもできる。

更に実施の形態においては、論理シミュレーション装置において、前述の多数のプロセッサによる分散型超並列アーキテクチャが採用されることもできる。以上のように本発明によれば、論理プロックを評価単位としてシミュレーションを実行する評価処理と、他のプロセッサとの間の通信処理とのいずれをも実行可能な多数のプロセッサによって論理シミュレーション装置が構成される。図面の簡単な説明

図 1は、本発明の論理シミュレーション装置の原理構成プロック図である。図 2は、 8つのクラスタによって構成されるシステムのネットワーク構成の説明図である。

図 3は、クラスタ内の下位側の階層におけるプロセッサエレメントグループの接続関係の説明図である。

図 4は、クラスタの詳細構成を示すブロック図である。図 5は、プロセッサエレメントグループの構成を示すブロック図である。

図 6は、本実施形態における論理プリミティブを示す図である。

図 7は、本実施形態におけるメモリプリミティブを示す図である。

図 8は、プロセッサエレメントに対する動作サイクルの説明図である。

図 9は、プロセッサエレメントの詳細構成を示すブロック図である。

図 1 0は、プロセッサエレメントに対する命令の種類を示す図である。

図 1 1は、論理演算器（L O U) の構成を示すブロック図である。

図 1 2は、基本演算回路（L E ) の構成例を示す図である。

図 1 3は、図 1 1，図 1 2に対する論理回路のマッピング例を示す図である。図 1 4は、論理シミュレーション装置の従来例の構成を示す図である。

図 1 5は、従来例におけるプロセッサ間の通信方式の説明図である。発明を実施するための最良の形態

まず本発明の論理シミュレーシヨン装置の実施形態における特徴について説明する。第 1の特徴は最大約 8 7， 0 0 0個の専用プロセッサ（プロセッサェレメント、 P E ) を用いた分散型超並列アーキテクチャを採用していることである。本実施形態においては、分散型の超並列アーキテクチャを用いることによって、システムの高性能化と、柔軟な拡張性を図ることができる。

第 2の特徴は、論理プロックレベルでレベルソートおょぴコンパイル法を実行するシミュレーション手法を用いることである。回路の評価処理単位（プリミティブ）を、複数ゲートから構成されるブロックとすることによって、実効的なシミュレーション容量の大規模化と、評価対象数の低減による高速化が実現される。

第 3の特徴は 1種類のプロセッサエレメント（P E ) のみを用いたシステム構築方式である。従来のようにプロセッサ専用回路と通信専用回路を別々に用いたシステム実装方式を避けて、 1種類の P Eを一様なルールで相互に接続することによって、システム実装の容易化と、低コスト化を図っている。各プロセッサに対しては、回路のモデリングにあたって、プログラムによって評価処理、または通信処理のいずれかを実行するか、あるいは評価処理または通信処理のいずれか

に重点をおいた動作を行うかの割当てが行われる。

次に全体的なシステム構成について説明する。システムは最大 8個のクラスタによって構成される。図 2は 8個のクラスタ、すなわちクラスタ 0からクラスタ 7によって構成されるシステムのネットワーク構成の説明図である。

数万プロセッサから構成される超並列システムにおいては、システムの性能、および規模の要件を満たすために、ネットワークアーキテクチャの構築方法が大きな問題となる。回路モデルのプロセッサ分割の容易性、および性能の観点からすれば、プロセッサ間の完全結合方式が最も望ましい接続形態である。しかしながら、回路実装テクノロジの物理的制約から数万プロセッサの完全結合を実現することは困難である。そこで本実施形態ではツリー型階層ネットヮークを基本アーキテクチャと.して、部分完全結合による接続方式を採用した。

本実施形態におけるネットワークアーキテクチャは、次の 3つの特徴を持つている。第 1の特徴はツリー型階層ネットワークを採用することによって、スケーラブルな拡張性を持つことである。

第 2の特徴は、部分完全結合方式を用いることによるプロセッサ間通信の局所的最適化である。一般的に大規模な回路においては、設計階層に基づく通信接続関係の局所性が存在する。下位階層になるに従って相互接続が多くなる傾向がある。従って下位側の階層におけるプロセッサ間通信時間を、例えば完全接続によつて最小化することによって、性能向上を図ることができる。

第 3の特徴は、前述の同一プロセッサエレメント P Eを用いることによるネットワーク構築の容易性である。通信処理と評価処理とを 1つのプロセッサで可能とすることによって、システム実装の容易性と低コストが図られている。図 2において 8個の各クラスタは、最大 5階層からなるッリ一型の階層ネットワーク構造を持っている。各階層におけるノード（〇印）は、それぞれ後述するプロセッサエレメントグループ ( P E G) に相当する。各階層は、上位側の階層の 1つのノードを中心に、下位側の階層の 4つのノードが接続される形式が基本となっている。各クラスタは、最上位の階層 L 4において、論理的にはそれぞれ 1つの P E Gが各クラスタ間で相互に 1対 1に接続される形式となる。この形式については図 4でさらに詳述する。

図 3は本実施形態におけるクラスタ内の最下位の階層 L 0内の P E Gの接続関係と、 1つ上の階層 L 1内の P E Gとの接続関係の説明図である。本実施形態においては、物理的な実現可能性と、下位側の階層におけるプロセッサ間の高速通信の必要性から、下位側の階層 L 0と L 1階層内のノード間が部分完全結合とされ、 L 2と L 3階層のノード間、および L 1と L 2階層のノード間はそれぞれツリー型で接続する方式を用いた。図 3においては、 L O階層内におけるノード間の結合と、その L 0階層内の各ノードと 1つ上位の L 1階層内のノードとの結を示している。

図 4は図 2のおける 1つのクラスタの詳細構成図である。各クラスタは約 1 1 K個のプロセッサと、 2種類のメモリ回路によって構成される。前述のように、各クラスタは 5つの階層からなるツリー型の階層ネットワーク構造を持ち、最上位階層でそれぞれ 1対 1に完全結合される。

図 4において、複数のプロセッサがプロセッサエレメントグループ（P E G) を構成する。すなわち論理回路の評価、および通信処理を行うことができるプロセッサエレメント（P E) 6 4個、メモリ回路の評価および外部入出力パターンの書込み Z読み出し制御を行う入出力プロセッサ I O P 2 1、および P EG内の全てのプロセッサを相互に 1対 1に直接接続するためのインターコネクト回路 D 1 ST (ディストリビューションサーキッド） 22によって PE G 10が構成される。プロセッサエレメント PEは 0. l S /zmCMOS LS Iテクノロジによる実装を前提として、その物理的制約から 64個単位にグループィ匕される。

前述のように階層設計における接続関係として、下位側の階層になるほど接続先および接続数が増大するため、本実施形態では、下位階層におけるプロセッサ間の高速データ転送を実現するために、 P E G内の全 P E間が完全結合される接続形態が採用されている。

最下位の階層を構成する PEG 10内の I〇P 21には、 2つのメモリ MR AMI 3と TRAM14が接続されている。 MRAM (メモリ RAM) はキヤッシュメモリに相当し、小規模のデータを格納する 4 Mバイトのランダムァクセスメモリであり、 I OP 21に対するメモリデータの高速転送を行うために、最下位の階層の各 PEGに対して配置される。

TRAM (トレースメモリ）は、シミュレーションのトレースデータと外部入力信号パターンを格納するメモリであり、 1 28Mバイトの容量を持っている。システム内のプロセッサから送り出される多量のトレースデータをロー力ル処理することによって、ネットワークのオーバーフローを回避するために、 TRAM14は評価処理が主体となる最下位階層の P E G 10に対応して配置される。

図 4において MR AM 1 2が上位側階層、図 2では最上位から 2番目の階層 L 3内の PEGに対して配置されている。この MR AMI 2は主記憶に相当し、大容量のデータを格納できる、例えば 2 Gバイトのランダムアクセスメモリである。大規模メモリ回路は、通常ハードウェアシステムの設計段階において最上位側の階層に位置づけられる。従ってクラスタ内の各 PEに対するメモリデータの転送距離を一様化するために、 2Gバイトの MR AMI 2が各クラスタの最上位側の階層に配置される。 MR AM 1 2も PEG 10内の I〇 P 21に直接接続されて制御される。 .

前述のように各クラスタの最上位の階層においては、論理的にはそれぞれ 1 つの PEGが、各クラスタ間で相互に 1対 1に接続される形式となっている。図 4では最上位の階層に P E Gが 2つ存在するが、これは実装上の理由によるものである。

図 4において、最上位の階層より 1つ下の階層にも PEGが 2つ存在し、この 2つの P EGはそれぞれ最上位の階層の PEGと相互に完全結合される形式となっている。そこで更に下位の PEG、すなわち図 2の L 2〜L 0の階層にある P E Gから見れば、他のクラスタの PEGに対しては最上位の階層 L 4における論理的には 1つの P E Gを介して接続されることになる。

図 4において CP (コントロールプロセッサ） 1 1は、最大 8個のクラスタによつて構成されるシステム全体を制御するものであり、プロセッサ間の同期制御、およびシステムの状態監視を行うものである。

図 5は図 4における 1つのプロセッサエレメントグループ PEG 10の構成ブロック図である。 PEG 10は、前述のように完全結合された 64個の PE 20と、 1個の I OP 21によって構成される。 PEG 10に対する入出力としては、上位階層の PEGと接続するための 4ビット X 64幅の 1組の入出力ポート Uと、下位階層の P E Gとの接続のための 4ビット X 64幅の 1組の入出力ポート Lがある。

PEG 10内の各 PE 20は、 4ビット X 64幅の入出力ポートを 3組持つている。 Iポートは自 PEG 10内でのプロセッサの出力を、各プロセッサの入力に与えるための接続ポートである。 Uおよび Lポートは、上位階層の PE G 10、およぴ下位階層の P E G 10との接続ポートである。次に各プロセッサエレメントの動作、および構成について説明する。プロセッサエレメント P Eは、前述のように論理回路モデルの評価およびプロセッサ間の通信処理のいずれをも実行できる専用プロセッサである。 P Eは図 6に示される論理プリミティブ、およぴ図 7に示されるメモリプリミティブを評価単位として、評価処理を実行する。

図 6は 1 6入力、 4出力の組合せ回路からなる論理ブロックであり、この論理ブロックは基本的に 1マシンサイクルで評価される。各 P Eは最大 6 4個の論理プロックを格納することができる。

図 7は、データ mビット（入出力）とアドレス nビット（入力）のメモリ素子に相当するメモリプリミティブである。入力としてはさらにチップセレクト 1ビットとライトイネーブル 1ビットを持つ。

シミュレーションにおいて、非検証回路は図 6 , 図 7のプリミティブをテンプレートした論理プロックのネットリストとして表現される。論理プロックの評価は、外部入力端子および記憶素子からの論理段数の深さに基づいてレベル付けされた各論理プロックを、レベル番号の昇順に順次評価処理することで行われる（レベルソート法)。

また各論理ブロックの評価順序、および評価結果の信号伝達順序は、プロセッサに対する命令を用いてプログラムとして表現される（コンパイル法）。プログラム化された回路モデルは、プログラムの命令順序に従って、プロセッサによって解釈されて実行される。

システム内の全ての P Eは、図 4の制御プロセッサ C P 1 1から送り出されるスタート信号に対応して同期動作を行う。また各プロセッサは後述するシミユレーシヨンクロックの期間中、それぞれ独立に動作する。これはレべノレソートおよぴコンパイル法では、 1シミュレーションクロック内の回路の評価順序はモデル作成時にあらかじめ確定され、個々に独立動作しても論理矛盾が生じないためである。

図 8は PEに対する動作サイクルの説明図である。各 PEは 4つの基本サイクルに対応して、時刻管理される。前述のように、各 PEは制御プロセッサ C Pから発行されるスタート信号に対応して、シミュレーションサイクル S Cを開始する。 PEの最小動作サイクルはシステムの基本クロックに対応するマシンサイクル MCであり、本実施形態ではシステムはこのマシンサイクルを基準とする同期回路として動作する。

ュニットサイクル UCはシステム動作の基本サイクルであり、 PEにおける 1命令の実行サイクルを示す。 1 UCは基本的には 1MCであるが、 1UC内でデータ信号を多量に転送する場合などは 2 MC以上となる。レベルサイクル LCは、レベルソート法における 1つのレベルの実行サイクルに相当する。例えばある P Eにおいて 1つのレベルで 1個の論理ブロックを評価処理する場合には 1 LC= 1UCであるが、 1つのレベル内で n個の論理プロックを処理する場合には 1 LC = nXUCとなる。最上位のシミュレーションサイクル SCは 1シミュレーションクロックの実行サイクルを意味し、 LCの整数倍で表される。

図 9は P Eの詳細構成プロック図である。シミュレーションの実行は、制御メモリ CRAM (コントロール RAM) 25に格納されている制御プログラムによって制御される。制御プログラムは被検証回路の論理ブロックのネットリストと、それに対応する実行手順を PEに対する命令語で表現した、等価な回路モデルに相当する。 1つの論理プロックに対する評価処理は基本的に 1つの PE命令で表現される。

C RAM 25は 287ビット X 64ワードのメモリであり、命令語長 287 ビットの PE命令を最大 64個まで格納できる CRAMの深さは、フリップフ口ップの間の組合せ回路のゲート段数が通常 20段、もしくは 30段以内であることから、余裕をみて論理ブロックレベルで最大 64段まで扱えるように設計されている。

また PEの間で CRAM 25を論理的に連結することによって、 1シミュレーシヨンサイクルにおける論理プロック段数を最大 256段まで拡張可能としている。また CRAM25内の各命令は、 PE内のプログラムカウンタ P Cの示すァドレスに従って読み出されて実行される。

CRAM25に格納されている命令後は 7つの制御フィールドから構成されている。制御フィールドは、時刻管理および条件監視を行う 2つの制御フィールド（OP, X) と、データパス制御を行う 5つの制御フィ一ルド ( I S, F N, LV, OS, SW) からなつている。

OPフィールドは CRAM 25の動作を制御するフィールドで、命令タイプを示す 3ビットのォペコードと、制御データとしての 8ビットのオペランドからなる。オペコードはプログラムカウンタ PC 26の制御コードであり、デコーダ 27で解釈されて、 P C 26の制御に用いられる。 Xフィールドはトレースデータ、および監視条件信号を示す 2ビットのフラグである。

図 10は PEに対する命令の種類を示す。本実施形態においては、 CRAM 25の限られたアドレス空間を効率的に使用するために、同図に示される 6種類の基本命令がサポートされている。例えばレベルソート法において複数の P Eが 1シミュレーションサイクル SCの処理を実行する場合に、シミュレーションサイクル SCは PEの中で最大の数の論理プリミティブを評価する PEに対応するレベルサイクル数によって決定される。その他の PEは、割り当てられた論理プリミティブに対する評価終了後がアイドル状態となり、 n o p命令、または wa i t命令を実行して、それぞれ 1 SCを終了することになる。

前述のように PEに対する入力信号は I， Uおよび Lの 3つの信号グループから構成されている。各信号グループは 4ビット X 64の幅を持つ。ここで 6 4は接続先の PEの数に相当する。 Iグループはその P Eが属するプロセッサグループ（PEG) 内の 64個のプロセッサからの入力信号、 Uおよび Lは他の P E Gからの入力信号である。

入力セレクタ I SL 28は、論理演算器 LOU29 (ロジカル'オペレーシヨン .ユニット）に与えるべき 16本の出力信号を選択する回路である。 I S Lは論理的に 768対 16のセレクタ回路であり、 1 92対 1のセレクタ 16 個を 4行 X 4列のアレー状に配置して構成される。各列の 4つのセレクタには、 1 92個の PEからの同一番号の出力線がそれぞれ接続される。各 PEの入出力数に対称性を持たるために、 1 92 X 4ビットの入力のうち、 64X 4ビットは同一グループの P Eから、残り 1 28 X 4ビットは他のグループ内の P E からそれぞれ入力される。 I SL 28は、 CRAM25から出力される 8ビット X 16の I Sフィールドの信号によって選択制御される。

論理演算器 L OU 29は、論理プロックの評価を実行する回路である。 L O Uの論理演算機能は、評価対象の論理ブロックのゲート構成に対応して、 LO U 29を構成する各基本演算回路、 LE (ロジカル 'エレメント) の論理機能を組み合わせることによって実現される。 LOUおよび LEの構成をそれぞれ図 1 1 , 図 12に示す。

図 1 1において LOUは 1 2個の LEから構成される。 LOU29の回路構成として、目標マシンサイクルおよぴ被検証回路の論理プリミティブへのマツビング効率の観点から、 4個の LEを 3段とする回路構造を採用している。

図 12において、各 LEには 4入力の AND回路 36、 OR回路 37、 XO R回路 38、および AND/OR回路 39の 4種類の基本回路がそれぞれ 1個ずつ実装され、この中の 1つの基本回路がセレクタ 40によって選択される形式となっている。

また論理プリミティブへのマッピング効率を向上させるために、各 LEの入力おょぴ出力端に、極性反転用の制御として XOR回路 35， 41が配置されている。

演算器 LOU29は、 4入力のゲートから構成される、最大 12ゲートの組み合せ回路を 1マシンサイクルで評価することになる。その論理機能は、 CR AM 25からの 7ビット X 12の F Nフィー </レドの信号によって制御される。図 12の LEの論理機能は、 I NVと FNCの信号によって決定される。 I NVは XOR 35, 41の論理反転機能を制御し、また FNCは 4つの基本回路のいずれかの選択信号として用いられる。

図 9の状態値レジスタ SR 30は、演算器 LOU29によって評価された論理ブロックの出力信号値を格納するレジスタである。 1個の31 は64ビット X 1ヮードのレジスタであり、 LOUの各出力に 1対 1に対応して 4個実装される。 LOU29の出力の値は、同一ビットアドレスで 4つの SRに同時に書き込まれる。またデータの読み出しは各 SRに対して独立に任意のァドレスを用いて行うことができる。 SRは全てのレベルサイクルにおける論理プロックの出力値を、 1シミュレーションサイクルの間保持する。 SRに対する書込みァドレスは CRAM 25からの 6ビットの LUフィールドによって与えられる。出力セレクタ OS L (アウト 'プット 'セレクタ） 31は、 4つの状態値レジスタ S Rに書き込まれた論理プロックに対する評価処理の出力値を読み出して、 PEの出力値を確定するものである。 OS L 31は論理的に 256対 1のセレクタ回路で構成され、 4つの各状態値レジスタのアドレスを 1つにまとめたァドレス空間 64ビット X 4の任意のァドレスを選択できる。全ァドレス空間へのアクセス機能は、 SR上の特定ァドレスへの読み出しの競合によって生ずる待ち時間を最小化するために実装されている。 OS L 31の動作は CRA M25からの 8ビット X 4ビットの O Sフィールドによって制御される。

出力スィッチ SW32は、出力セレクタ O S L 31によって読み出されたデータ信号を行き先の PEに転送するために、 OSLの出力端子と、行き先の P Eに接続されている PEの出力端子とを接続する回路である。すなわち P Eの間の接続が配線によって固定化されるため、 OS L 31の 4つの出力端子をデータ信号の行き先に応じて 1 2本の出力端子の適当な 1つと接続することにより、パスを形成するものである。 PEの出力信号線はそれぞれの接続先の PE に対応して 4ビットからなる 3つのグループに分けられる。各グループ I， U, および Lの定義は入力信号に対すると同様である。 SW32は CRAM25からの 2ビット X 1 2の SWフィールドの信号によって、 4対 1 2の接続パスを形成するように制御される。

図 13は、図 1 1および図 1 2に示した論理演算器 L〇U 29に対する回路のマッピング例を示す。上の図はマッピング対象回路であり、それを図 1 1の 1 2個の基本演算回路 LEにマッピングした結果が下の図である。同図において、 1段目の LE # 3は 2段目の LEの全てに "0" を出力するためのものであり、 2段目の LE# 5と LE# 7とは 3段目の全ての L Eにそれぞれ " 1 " を出力するためのものであり、 3段目の LE # 8と LE # 10とは実質的にスルーの動作をするものである。

以上において本発明の実施形態について詳細に説明したが、例えば図 9における CRAM 25の出力する各制御ビットなどは、当然単に 1つの実装形態を示すものであり、また図 1 2に示した演算エレメント LEの構成においても入力部に更にセレクタを設けたり、基本演算回路の種類を変更することなどは当然可能である。，

以上詳細に説明したように本発明によれば、レベルソートおよびコンパイル法を用いて、論理ブロックレベルで大規模ディジタル回路の論理シミュレーションを実行でき、実用的に容易に使用できる規模の装置を提供することが可能となる。また評価用のプロセッサと通信用のプロセッサとを分離することなく、評価と通信の両方を実行できる同一形式のプロセッサエレメントを用い、それらのプロセッサエレメントをグループとして、複数のグループを階層型のッリ一形状に相互に接続することによって、システム全体での高速性が実現される。産業上の利用可能性

本発明はディジタル■システム機器における大規模かつ高速の論理検証や論理設計を必要とするすべての産業において利用可能である。

Claims

請求の範囲

1 . レベルソートおよびコンパイル法を使用して、サイクルベースの論理シミユレーションを実行するシミュレーション装置において、

1つ以上のゲートに対応する論理プロックを評価単位としてシミュレーションを実行する評価処理と、他のプロセッサとの間の通信処理とのレ、ずれをも実行可能な多数のプロセッサを備えることを特徴とする論理シミュレーシヨン装置。

2 . 前記論理プロックが、ハードワイヤード可能な形式の 1つ以上のゲートから構成されることを特徴とする請求項 1記載の論理シミュレーシヨン装置。

3 . 前記多数のプ口セッサがそれぞれ複数のプロセッサによつて構成されるプ口セッサグループに分割され、 '

複数の該プロセッサグループが階層型のッリ一形状に相互に接続されて、 1 つのクラスタを構成すると共に、

複数の該クラスタによって前記論理シミュレーション装置が構成されることを特徴とする請求項 1記載の論理シミュレーション装置。

4 . 前記プ口セッサグループ内の複数のプロセッサが相互に完全結合されることを特徴とする請求項 3記載の論理シミュレーション装置。

5 . 前記階層型ツリー形状の下位側の階層において、同一階層内の各プロセッサグループが相互に完全結合されることを特徴とする請求項 3記載の論理シミュレ一ション装置。

6 . 前記複数の各クラスタにおける最上位階層のプロセッサグループが、他のクラスタ内の最上位階層のプロセッサグループと相互に完全結合されることを特徴とする請求項 3記載の論理シミュレーション装置。

7 . 前記各プロセッサグループが、該グループを構成する各プロセッサに対応して、メモリデータおよび外部入出力パターンの入出力制御を行う入出力プロセッサを備えることを特徴とする請求項 3記載の論理シミュレーション装置。

8 . 前記階層型ッリー形状の下位側に属する各プロセッサグループに対応して、シミュレーションのトレースデータと外部入力信号パターンとを格納するトレースデータ記憶手段と、

キャッシュメモリに相当する小容量データ記憶手段とを備えることを特徴とする請求項 3記載の論理シミュレーション装置。

9 . 前記階層型ッリ一形状の上位側に属する各プロセッサグループに対応して、主記憶に相当する大容量データ記憶手段を備えることを特徴とする請求項 3記載の論理シミュレーション装置。

10. 前記論理シミュレーション装置において、前記多数のプロセッサによる分散型超並列アーキテクチャが採用されることを特徴とする請求項 1記載の論理シミュレーション装置。