WO2006129767A1

WO2006129767A1 - マルチスレッド中央演算装置および同時マルチスレッディング制御方法

Info

Publication number: WO2006129767A1
Application number: PCT/JP2006/311022
Authority: WO
Inventors: Nobuyuki Yamasaki
Original assignee: Keio University
Priority date: 2005-06-02
Filing date: 2006-06-01
Publication date: 2006-12-07
Also published as: JP5145936B2; JPWO2006129767A1

Abstract

　同時マルチスレッディングを行なうCPUによるスレッド実行時間の予測精度が向上される。CPU内で、各スレッドの優先度が設定され、原則として上位優先度のスレッドが下位優先度のスレッドより優先的に処理されるよう、複数スレッドの命令の処理順序／頻度が制御される。それにより、同時処理されるスレッド間の資源の競合が調停される。加えて、CPU内で各スレッドの実行命令数の目標値が設定され、一定周期で各スレッドの周期当たり実行命令数がカウントされ、そして、実行命令数と目標値との比較に基づくフィードバック制御動作により、優先度を用いた命令処理順序／頻度が修正される。それにより、どのようなスレッドの組み合わせで複数スレッドの同時処理が行われても、各スレッドの実行時間（またはIPC）が所望値近傍に安定して保たれる。

Description

明細書

マルチスレッド中央演算装置および同時マルチスレツディング制御方法技術分野

[0001] 本発明は、一般的には中央演算装置 (CPUまたは MPU) (以下、単に「プロセッサ」と呼ぶ）に関わり、特に、プロセッサ内で複数のスレッドを並列処理できるマルチスレッドプロセッサおよび同時マルチスレツディングを制御するための方法に関する。

[0002] 本発明は、特に、各種ロボット、自動車、プラント、ホームオートメーション等の実時間処理を行うアプリケーションにお、て、各スレッドに課された時間制約を守りつつプ口セッサのスループットを向上するために好適なマルチスレッドプロセッサに関する。背景技術

[0003] 実時間処理を行うリアルタイムシステムでは、各スレッドの時間制約を守るために、オペレーティングシステム（_os)のスケジューラは各スレッドの実行周期や時間制約により、各スレッドに優先度を付与する。そして、付与された優先度を基に、優先度の高いスレッドから順番に演算資源を割り当てて実行を行う。ここで、「スレッド」とは、プログラムの実行単位であり、通常、一つのアプリケーションプログラムは多数のスレッドから構成される。

[0004] 図 1に、一時に 1スレッドのみを実行する従来のシングルスレッドプロセッサを用いて実時間処理を行った場合の例を示す。この例では、スレッド #0の優先度が最も高ぐスレッド #7の優先度が最も低いとする。また、リリース時刻はそのスレッドが実行可能になる時刻、期限はそのスレッドの時間制約 (その実行が完了されるべき最終期限）を示す。

[0005] 図 1に示された例では、最初にスレッド #1、スレッド #2およびスレッド #3が実行可能になる。これら実行可能なスレッド #1、 #2および #3の中で最も優先度の高いスレッド #1 にプロセッサ資源が与えられ、スレッド #1が実行される。スレッド #1の実行が完了すると、次に優先度の高いスレッド #2の実行を行うために、プロセッサ外のメモリとプロセッサとの間でコンテキストスィッチが起こる。コンテキストスィッチでは、現在実行しているスレッド #1のコンテキスト（すなわち、そのスレッドを実行するために必要なプロセッサ内のプログラムカウンタ、レジスタファイル、ステータスレジスタ等の各種資源）をプ口セッサ外のメモリに退避させ、次に実行するスレッド #2のコンテキストをメモリからプ口セッサ内に復帰させる。その後、プロセッサはスレッド #2の実行を開始する。スレッド #2の実行が完了すると、コンテキストスィッチが起こり、スレッド #2のコンテキストがメモリに退避し、スレッド #3のコンテキストがメモリからプロセッサ内に復帰した後、スレッド #3の実行が開始される。スレッド #3の実行中に、より優先度の高いスレッド #0が実行可能になると、スレッド #3の実行が中断され、コンテキストスィッチが起こり、スレッド #3 のコンテキストがメモリに退避し、スレッド #0のコンテキストがプロセッサ内に復帰して、スレッド #0の実行が先に行われる。スレッド #0の実行が完了すると、コンテキストスイツチにより、スレッド #0のコンテキスト力メモリに退避し、スレッド #3のコンテキストがプロセッサ内に復帰することにより、中断していたスレッド #3の実行が再開する。

[0006] このように従来のシングルスレッドプロセッサを用いた処理では、優先度の高!、スレッドの実行が完了した場合や、現在実行しているスレッドよりもより優先度の高いスレッドが実行可能になった場合は、コンテキストスィッチが発生する。 OSは、現在実行しているスレッドのコンテキストをメモリに退避し、次に実行するスレッドのコンテキストをプロセッサ内に復帰させなければならない。リアルタイムシステムでは、このコンテキストスィッチが大きなオーバヘッドとなる。一方、コンテキストスィッチのオーバヘッドを削減する技術として、プロセッサ内で複数のスレッドを並列処理するマルチスレッドプ口セッサがある。マルチスレッドプロセッサは、プロセッサ内に複数スレッド分のコンテキストを保持し、これらをプロセッサ内のハードウェアで切り替えながらそれぞれのスレッドを実行するため、コンテキストスィッチを行わずに複数のスレッドを実行することが可能である（例えば、特許文献 1参照)。

[0007] また、実時間処理に適したマルチスレッドプロセッサのスループット向上のための別の制御技術として、各スレッドに割り当てられた優先度に応じて、複数のスレッドの命令の実行順序をリザべーシヨンステーションにて入れ替える技術が知られて、る（例えば、特許文献 2参照)。

[0008] 特許文献 1：特開 2004— 220070号公報

特許文献 2 :特開 2004— 295195号公報発明の開示

発明が解決しょうとする課題

[0009] マルチスレッドプロセッサにおいて、複数のスレッドを並列に実行するとき、キヤッシュアクセスや演算器等の演算資源においてスレッド間の競合が起こり得る。演算資源の競合が起こると、 1スレッド単体の実行時間が増加する。そして、プロセッサ内で並列的に実行される複数のスレッドの組み合わせが異なれば、演算資源の競合の仕方や頻度が異なってくるため、各スレッドの実行時間が異なってくる。その結果、各スレッドの実行時間の予測精度が低下する。特にリアルタイムシステムでは、各スレッドに時間制約があるため、各スレッドの実行をその時間制約内に完了させ得るよう、スケジユーラによりスレッド実行のスケジューリングがなされる。し力し、マルチスレッドプロセッサを用いたシステムでは、上記理由から時間予測精度が低いために、スレッドの時間制約を守れるようなスケジューリングが難しい。

[0010] 従って、本発明の目的は、マルチスレッドプロセッサにおいて、時間予測精度の低下の原因であるスレッド実行時間の変動を抑制することにある。

[0011] 本発明の別の目的は、マルチスレッドプロセッサのスループットを向上させることにある。

課題を解決するための手段

[0012] 本発明に従えば、複数のスレッドを並列的に処理するマルチスレッド中央演算装置は、各スレッドの優先度を記憶し、各スレッドの優先度を用いて、複数のスレッドの命令の処理の順序または頻度を制御する。力！]えて、このマルチスレッド中央演算装置は、各スレッドの命令実行目標を記憶し、各スレッドの時間当たりの実行命令数を監視し、そして、実行命令数と目標値を用いたフィードバック制御動作により、複数のスレッドの命令の処理の順序または頻度を制御する。

[0013] このマルチスレッド中央演算装置によれば、各スレッドに付与された優先度を用いた命令処理順序 Z頻度の制御により、命令処理に必要な各種資源のスレッド間での競合が、各スレッドの優先度に応じて調停される。それに加えて、各スレッドの命令実行状態 (例えば所定周期当りの実行命令数、 IPCあるいは CPIなど）の監視に基づくフイードバック制御により、同時に処理されている他のスレッド力もの影響が減り、各スレッドの実行時間の変動が抑制される。引いては、各スレッドの実行時間の予測精度の向上につながり、実時間処理の時間制約を守りつつ、プロセッサ全体のスループットを向上することが可能となる。

[0014] 好適な実施形態では、このマルチスレッド中央演算処理装置内の所定の資源 (例えば、命令バッファ、リザべーシヨンステーションまたはリオーダバッファ等）の複数スレッドへの割当量が監視され、監視されたそれらスレッドへの資源割当量がそれらスレッドの優先度に従うように、それらスレッドの命令フツチ、発行または実行の順序または頻度が制御される。例えば、より下位の優先度をもつ 1以上のスレッドの資源割当量が、より上位の優先度をもつ 1以上のスレッドの資源割当量を超えた場合、その上位優先度をもつスレッド中の少なくとも一つのスレッドの命令フェッチ、発行または実行が促進され、または、その下位優先度をもつスレッドの命令フェッチ、発行または実行が抑制または禁止される。

[0015] より具体的には、各スレッドの命令バッファの占有量を監視して、より上位の優先度をもつ 1以上のスレッドによる命令バッファの占有量力下位の優先度をもつ 1以上のスレッドによるそれ以下であるとき、その上位優先度をもつスレッド中の少なくとも一つのスレッドの命令のフェッチを促進し、または、その下位優先度をもつスレッドの命令のフェッチを抑制するように制御を行なうことができる。また、いずれかのスレッドによる命令バッファの占有量が少なくて所定の下限条件を満たさないときには、そのスレッドの命令のフェッチを促進し、または、そのスレッドの命令のフェッチの抑制を解除するように制御してもよい。更に、各スレッドのリザべーシヨンステーションの占有量を監視して、より上位の優先度をもつ 1以上のスレッドによるリザべーシヨンステーションの占有量が、下位の優先度をもつ 1以上のスレッドによるそれ以下であるとき、その上位優先度をもつスレッド中の少なくとも一つのスレッドの命令の発行を促進し、または、その下位優先度をもつスレッドの命令のフツチを抑制するように制御を行なうこともできる。また、同じ優先度をもつ複数のスレッド間では、命令バッファの占有量がより小さいスレッドに優先的に、命令フェッチ権を与え、または、リザべーシヨンステーシヨンの占有量がより小さいスレッドに優先的に、命令発行権を与えるように制御を行なうことができる。 [0016] このようにして、好適な実施形態では、上位優先度のスレッドの命令が下位優先度のスレッドの命令より先に処理されるように制御が行われる。しかし、上位優先度のスレッドが処理資源を無駄にする力または非効率的に使用するような所定の状況下（例えば、キャッシュミスの発生、分岐予測ミスの発生または高い発生可能性、またはリザべーシヨンステーションの占領など）では、下位優先度のスレッドの命令が上位優先度のスレッドの命令より先に処理されるように制御してもよい。

[0017] また、好適な実施形態では、各スレッドの命令実行状態 (例えば IPC)をスレッド毎に設定された命令実行目標（例えば IPCの目標値）に近づけるように、特に命令フェツチまたは発行のステージにお、て、上述した優先度による制御動作の制御条件に調整が加えられる。例えば、或るスレッドの命令実行状況が上記目標を満たさない場合、そのスレッドの命令のフェッチまたは発行の頻度が増加させられ、または、そのスレッドより下位の優先度をもつ他のスレッドの命令のフツチまたは発行の頻度が抑制される。優先度による制御動作を調整させるために、優先度による制御の制御条件に組み込まれた「インフレーション値」と呼ばれるスレッド毎の操作値 (好適な実施形態では、「インフレーション値」と呼ばれる）が増減され、それにより、各スレッドの命令のフェッチまたは発行が促進されたり、抑制されたりする。しかし、その操作値を変化させても、その変化に応じた命令実行状態の改善が現れない場合には、操作値が元に戻される。

発明の効果

[0018] 本発明によれば、マルチスレッドプロセッサにお、て、各スレッドの実行時間または I PCの変動を小さくすることが可能となる。これにより、実時間処理のためのより良いスケジユーリングが容易となり、ひいては、プロセッサ全体のスループットの向上に貢献できる。

図面の簡単な説明

[0019] [図 1]従来のシングルスレッドプロセッサによる実時間処理の例を示すタイムチャート図。

[図 2]本発明に従うマルチスレッドプロセッサの一実施形態の主要部の構成を示すブロック線図。 [図 3]スレッドの IPCを制御するための構成を示すブロック線図。

[図 4]スレッドの IPCを制御するための制御関数の状態遷移とインフレーション値増減の動作を示すブロック線図。

[図 5]優先度による調停を行なうマルチスレッドプロセッサを用いて実時間処理を行つた場合の例を示すタイムチャート。

[図 6]優先度による調停と共に IPC制御を行なうマルチスレッドプロセッサによる実時間処理の例を示すタイムチャート。

[図 7]4つのパイプラインをもち、優先度による調停と共に IPC制御を行なう SMTプロセッサによる実時間処理の例を示すタイムチャート。

符号の説明

10 マノレテスレツドプロセッサ

12 発行ユニット

14 3fャッシュユニット

16 実行ユニット

20 スレッドコントローノレユニット

24 フェッチスレッドセレクタ

32 命令発行セレクタ

36 レジスタファイル

38 コンテキストキャッシュ

40 リオーダバッファ

44 命令キャッシュ

48 命令ウェイトバッファ

52 データリード zライトバッファ

58 データウェイトノッファ

60 リザべーシヨンステーション

100 パイプライン処理機構

102 実行命令数監視部

104 比較部 106 制御関数部

発明を実施するための最良の形態

[0021] 以下、図 2から図 6を参照して、本発明の一実施形態について説明する。

[0022] 図 2は、本発明の一実施形態に力かるマルチスレッドプロセッサの主要部のブロック構成を示す。

[0023] 図 2に示されるマルチスレッドプロセッサ (以下、単に「プロセッサ」という） 10は、 SMT

(Simultaneous Multi Threading:同時マルチスレツディング）アーキテクチャを採用し、複数 (例えば最大 8つ）のスレッドを同時に処理することができるとともに、より多く（例えば最大 40)のスレッドのコンテキストを内部に保持して、外部のメモリとの間でのコンテキストスィッチなしに多数のスレッドを処理することができる。図示のように、このプ口セッサ 10は発行ユニット 12、キャッシュユニット 14および実行ユニット 16を備える。これらのユニット 12, 14および 16の基本的な機能は次のとおりである。キャッシュュニット 14は、外部のメモリ（図示省略）にアクセスし、その外部メモリから命令をフェツチしてキャッシュし、外部メモリからデータ (オペランド）をロードしてキャッシュし、また、ストアされるべきデータをキャッシュして外部メモリへストアする。実行ユニット 16は、メモリアクセスユニットや各種の演算器等の演算資源を有し、発行ユニット 12から発行された命令をアウトォブオーダで実行し、命令の実行結果を発行ユニット 12へライトバックする。発行ユニット 12は、複数のスレッドを並列的に処理できるよう、複数のスレッドのコンテキストを内部で保持し、それら複数のスレッドの命令をキャッシュュ-ット 14からフェッチし、その命令をデコードし、その命令（その命令のデコード結果の動作指示）を実行ユニット 16へ発行し、実行ユニット 16からライトバックされた命令実行結果を受け、そして、その命令をコミットする。

[0024] 上述した基本的な機能の上に、このプロセッサ 10は、本発明の原理に従う次のような特筆すべき 2つの機能を有する。一つは、優先度による調停機能である。すなわち、それは、複数のスレッドに予め割り当てられた優先度に基づいて複数のスレッド間での資源の競合を調停する機能である。別の一つは、各スレッドの IPC (Instructions per Clock Cycle:クロックサイクル当り命令実行数）の変動を抑えできるだけ所望値で一定に保っための IPC制御機能である。すなわち、それは、スレッド毎の一定時間当たりの実行命令数を監視し、各スレッドの実行命令数が各スレッドに予め割り当てられた実行命令数の目標値にできるだけ一致するように、複数のスレッドの命令の実行頻度を調整する機能である。この 2つの機能は相互に関係付けられ同時に働く。ここで、各スレッドの優先度や命令実行数目標値は、例えば、 OSのスケジューラゃプログラマ力プロセッサ 10に対して設定される。

[0025] 優先度による調停機能を実現するために、発行ユニット 12は、各スレッドに予め割り当てられた優先度を予め記憶する。その優先度はキャッシュユニット 14および実行ユニット 16にも通知される。発行ユニット 12、キャッシュユニット 14および実行ユニット 16は、個別に、複数のスレッドの優先度に基づいて、複数のスレッドのそれぞれに提供される命令フェッチ、発行、実行およびコミットのための資源の量を制御する。なお、この目的のために、上位優先度のスレッドの実行が下位優先度のスレッドにより阻害されないようにするだけでなぐ上位優先度のスレッドの性能を低下させずに、下位優先度のスレッドも実行されるような制御方法が実装される。

[0026] さらに、 IPC制御機能を実現するために、発行ユニット 12は、各スレッドに予め割り当てられた実行命令数の目標値を予め記憶する。発行ユニット 12は、一定の繰返し周期でスレッド毎の実際の実行命令数 (コミットされた命令の数)をカウントし、それを予め記憶して、る目標値と比較する。或るスレッドの実際の実行命令数が目標値に達してなければ、そのスレッドの命令のフェッチまたは発行の頻度が増えるように、上述した優先度による資源競合調停の制御をフィードバック制御により修正する。例えば、或るスレッドの命令のフェッチまたは発行の頻度を増加させるために、そのスレツドより下位優先度のスレッドのフェッチまたは発行が抑制される。逆に、例えば、或るスレッドの命令のフェッチまたは発行の頻度を低下させるために、そのスレッドより下位優先度のスレッドのフェッチまたは発行が促進される。

[0027] 以下、図 2を参照しつつ、プロセッサ 10のより具体的な構成と機能、とりわけ、優先度による調停機能と IPC制御機能に関わる部分に重点をおいて説明する。

[0028] 発行ユニット 12は、スレッドコントロールユニット 20、同時処理可能なスレッドの最大数分（例えば 8つ）の PC (プログラムカウンタ）コントロールユニット 22、フェッチスレッドセレクタ 24、命令デコーダ 26、命令アナライザ 28、命令バッファ 30、命令発行セレクタ 32、リネームレジスタ 34、同時処理可能なスレッドの最大数分（例えば 8つ）のレジスタファイル 36、およびリオーダバッファ 40を有する。キャッシュユニット 14は、命令 M MU (メモリマネジメントユニット） 42、命令キャッシュ 44、命令ヴィクティムキャッシュ 46 、命令ウェイトバッファ 48、データ MMU50、データリード Zライトバッファ 52、データキャッシュ 54、データヴィクティムバッファ 56およびデータウェイトバッファ 58を有する。実行ユニット 16は、所定の複数個（例えば 5つ）のリザべーシヨンステーション 60と各種の演算資源 62— 80を有する。演算資源 62— 80には、メモリアクセスユニット 62、複数のブランチユニット 64、整数除算器 66、複数の整数演算ユニット 68、 FP (浮動小数点）除算器 70、複数の FP演算ユニット 72、 64ビット整数演算ユニット 74、ベクタ整数演算ユニット 78およびべクタ FP演算ユニット 80などがある。同時処理されるスレッドが同じ演算資源を同時に使おうとする可能性は低いので、リザべーシヨンステーシヨンの個数や各演算資源の個数は、同時処理可能なスレッドの最大数 (例えば 8つ )よりは少なぐ資源の無駄な冗長を避けている。

[0029] 以下では、命令が処理される流れにほぼ沿って、各部の機能と動作を説明する。

[0030] スレッドコントロールユニット 22は、複数スレッドの並列的な処理を制御するためのコアとして働くユニットであり、その内部に複数のスレッドの優先度を記憶し保持し、そして、その優先度をプロセッサ 10全体に配布する。ここで、スレッドコントロールュ-ット 22に記憶され得る優先度のスレッド数は、好ましくは、このプロセッサ 10が内部に保持し得るコンテキストのスレッドの最大数 (例えば 40)以上である。複数の PCコントロールユニット 22は、プロセッサ 10内で同時処理され得る複数のスレッドにそれぞれ割り当てられ、それぞれのスレッドからのプログラムカウンタの値をフェッチスレッドセレクタ 24に与える。複数スレッド間の競合は、まず命令キャッシュアクセスにおいて生じる。そこで、フェッチスレッドセレクタ 24は、命令キャッシュアクセスを要求しているスレッドの中から、各スレッドの優先度を用いて、一つのスレッドを選択し、選択されたスレッドのプログラムカウンタを命令 MMU (メモリマネジメントユニット） 42に送る。ここで、フェッチスレッドセレクタ 24は、原則として命令キャッシュアクセスを要求して!/、るスレッドの中で最上位優先度をもつスレッドを選択する。しかし、常に最上位優先度のスレッドが選択されるわけではなぐ最上位優先度のスレッドの実行が圧迫されなヽ所定の状況下では、最上位優先度のスレッドに代えて下位優先度のスレッドが選択される場合もある。

[0031] 命令 MMU42は、命令キャッシュ 44をアクセスして、上記選択されたスレッドの命令を命令キャッシュ 44力も命令デコーダ 26に渡させる。ここで命令キャッシュミスが発生した場合、外部のメモリ（図示省略)をアクセスしキャッシュラインを読み込む必要がある。メモリアクセスはキャッシュアクセスに比べてレイテンシが大きいため、キャッシュミスが続くと、命令ウェイトバッファ 48にて複数のメモリアクセス要求が待たされる。この場合、命令ウェイトバッファ 48は、各スレッドの優先度に基づいて、原則として最上位優先度のスレッドのメモリアクセス要求力先に処理する。それにより、より上位の優先度をもつスレッドの実行が優先される。しかし、常に優先度の高いスレッドのメモリアクセス要求が優先されるわけではなぐ上位優先度のスレッドの実行が圧迫されな V、所定の状況下では、上位優先度のスレッドよりも下位優先度のスレッドのメモリァクセス要求が先に処理される場合もある。

[0032] 命令キャッシュ 44から命令デコーダ 26へ、複数（キャッシュの 1ライン分である例えば 8つ）の命令が同時に送られる。命令デコーダ 26は、命令キャッシュ 44から同時にフェッチした複数命令を同時にデコードし、それら複数命令のデコード結果 (これも、以下の説明では便宜上「命令」という）は同時に命令バッファ 40に入れられる。その際、命令アナライザ 28が、同時デコードされた複数命令の命令タイプ（どのスレッドの命令であるか、どの演算資源を使用するか、および命令間の依存関係はどうかなどの判断を行うために必要な、スレッド、オペコードおよびオペランドなどに関する情報 )を把握し、その命令タイプを命令発行セレクタ 32に与える。命令発行セレクタ 32は、リオーダバッファ 40、リネームレジスタ 34およびリザべーシヨンステーション 60の空きや、命令バッファ 30内の命令間の依存関係を調べ、その結果に基づいて、命令バッファ 30の中から、リザべーシヨンステーション 60に発行可能である命令を選択する。所定数（同時処理可能なスレッド最大数より少な、例えば 4つ）の命令が同時に命令バッファ 30から発行され得る。その際、命令発行セレクタ 32は、命令バッファ 30内に発行可能な命令が複数 (とりわけ、上記所定数 (4つ)より多く）ある場合、各スレッドの優先度に応じて、原則としてより上位の優先度をもつスレッドの命令力先に発行する。しかし、後述するように、上位優先度のスレッドの実行が圧迫されない所定の状況下では、上位優先度のスレッドよりも下位の優先度のスレッドの命令が先に発行される場合もある。

[0033] 各リザべーシヨンステーション 60に接続された整数演算ユニット 68や FP演算ュ-ット 72等の各種の演算ユニットについても、スレッド間で競合が発生する。そこで、各リザべーシヨンステーション 60でも、各スレッドの優先度を用いた競合の調停が行なわれる。各リザべーシヨンステーション 60は、そこで待機している命令を、演算に必要なオペランドがそろった命令力順に、アウトォブオーダで演算ユニットに送る。その際、各リザべーシヨンステーション 60は、複数の命令が同時に演算可能になった場合、各スレッドの優先度に基づいて、原則として優先度の高いスレッドの命令力も先に演算ユニットに送ることにより、優先度の高いスレッドの実行を優先する。しかし、常に優先度の高、スレッドの命令が優先されるわけではなぐ上位優先度のスレッドの実行が圧迫されな、所定の状況下では、上位優先度のスレッドに代えて下位の優先度のスレッドの命令が先に演算ユニットに送られる場合もある。

[0034] データキャッシュアクセスにおいても競合が発生する。そこで、データリード Zライトバッファ 52は、各スレッドの優先度に基づいて、原則として上位優先度のスレッドのデータキャッシュアクセスカゝら先に実行することにより、上位優先度のスレッドの実行を優先する。しかし、常に優先度の高いキャッシュアクセスが優先されるわけではなく、上位優先度のスレッドの実行が圧迫されない所定の状況下では、上位優先度のスレッドに代えて下位の優先度のスレッドのキャッシュアクセスが先に処理される場合もある。また、データキャッシュミスが起こった場合、外部のメモリ（図示省略)をアクセスしキャッシュラインを読み込む必要がある力命令キャッシュの場合と同様に、データウェイトバッファ 58が、各スレッドの優先度に基づいて、原則として上位優先度のスレッドのメモリアクセス要求力も先に処理することにより、優先度の高いスレッドの実行を優先する。しかし、ここでも、常に優先度の高いスレッドのメモリアクセスが優先されるわけではなぐ上位優先度のスレッドの実行が圧迫されない所定の状況下では、上位優先度のスレッドに代えて下位の優先度のスレッドのメモリアクセスが先に処理される場合もある。 [0035] リオーダバッファ 40は、アウトォブオーダで実行された命令の実行結果を一時的に保持し、インオーダで命令をコミットする。所定数（同時処理可能なスレッド最大数より少ない例えば 4つ）の命令が同時にコミットされ得る。その際、リオーダバッファ 40は、複数 (とりわけ、上記所定数 (4つ)より多く）の命令がコミット可能であれば、原則として上位優先度のスレッドの命令力先にコミットする。しかし、ここでも、常に優先度の高、スレッドが優先されるわけではなぐ上位優先度のスレッドの実行が圧迫されな V、所定の状況下では、上位優先度のスレッドに代えて下位の優先度のスレッドが先にコミットされる場合もある。

[0036] レジスタファイル 36は、同時処理され得るスレッド最大数 (例えば 8つ）だけ存在し、それぞれ、同時処理される複数のスレッドに割り当てられる。各レジスタファイル 36には、各スレッドのコンテキストが格納される。コンテキストキャッシュ 38は、より多くのスレッド数（例えば 32スレッド）分のコンテキストが格納できる。コンテキストキャッシュ 38 内の任意のスレッドのコンテキストと任意のレジスタファイル 36内のコンテキストとを高速に交換することができる。従って、このプロセッサ 10では、レジスタファイル 36の数 (例えば 8つ）のスレッドがコンテキストスィッチを行うことなしに処理でき、コンテキストキャッシュ 38がサポートするスレッド数（例えば 32個）のスレッドが、高速にコンテキストスイッチを行うことができる。

[0037] 上述したように、プロセッサ 10内における命令のフェッチ、発行、実行およびコミットのステージにそれぞれ関わる諸ユニットにおいて、複数のスレッドの優先度を用いて、スレッド間での資源競合を調停するための命令の処理順序または処理頻度の制御が行われる。これにより、上位優先度のスレッドが優先的に実行され、かつ、上位優先度のスレッドの性能を低下させないようにして下位優先度のスレッドも実行されることになる。

[0038] さて、上記制御にカ卩えて、各スレッドの実行時間の予測を容易にするために、各スレッドの IPCの変動を抑えてそれをできるだけ所望値の近傍に維持するための IPC制御力プロセッサ 10で行われる。上述したスレッドの優先度を用いた命令の処理順序または処理頻度の制御力この IPC制御により調整または修正される。この実施形態では、スレッドコントロールユニット 20、フェッチスレッドセレクタ 24および命令発行セレクタ 32が、この IPC制御に直接的に関与する。スレッドコントロールユニット 20は、複数のスレッドの各々に予め割り当てられた実行命令数の目標値を記憶し保持する。ここで、スレッドコントロールユニット 22に記憶され得る目標値のスレッド数は、好ましくは、このプロセッサ 10が内部に保持し得るコンテキストのスレッドの最大数 (例えば 40)以上である。スレッドコントロールユニット 20は、一定の監視周期毎（例えば、数百クロックサイクル毎）にスレッド毎の実際の実行命令数 (IPC X 1監視周期中のクロックサイクル数)をカウントし、カウントされた実行命令数と記憶されてヽる目標値とを比較し、そして、その比較の結果に基づくフィードバック制御の方法で、フェッチスレッドセレクタ 24および命令発行セレクタ 32による各スレッドの命令フェッチと命令発行の頻度を制御する。

[0039] 図 3は、この IPC制御を行なう機構の構成を示す。

[0040] 図 3において、ブロック 100は、プロセッサ 10内における上述された複数スレッドの命令のパイプライン処理を行う機構を示し、そこでは、上述されたように、各スレッドの優先度を用いて、スレッド間の資源競合の調停制御が行われる。 IPC制御機構は、実行命令数監視部 102、比較部 104および制御関数部 106を有し、図 2に示されたスレッドコントロールユニット 20に組み込まれる。

[0041] 実行命令数監視部 102は、一定の監視周期毎に、並列処理されている複数スレツドの各々の実行命令数をカウントする。比較部 104は、スレッド毎に、カウントされた実際の命令実行数と、予め記憶されている目標値とを比較する。後述するように、この実施形態では、後述するような状態遷移に従う制御を行う関係から、比較部 104は、実際の命令実行数と目標値との比較だけでなぐ次のような比較も行なう。すなわち、スレッド毎に、前回の監視周期において実際の実効命令数が実行されるべきであつた命令数に足りなかった命令数 (繰越命令数)が計算され、その繰越命令数と目標値とが加算されて繰越残値 (つまり、現在の監視周期で実行されるべきである命令数 )が計算され、その繰越残値と今回の実際の命令実行数とが比較される。

[0042] 制御関数部 106は、比較部 104による比較の結果に基づいて、所定のフィードバック制御動作を行って、各スレッドの命令フェッチと命令発行の頻度を調節するための操作値を決定し、その操作値をパイプライン処理機構 100に適用する。ここで、フィードバック制御動作には、 PD制御や PID制御などを用いることも可能である力この実施形態では、後に図 4を参照して説明されるような、状態遷移に従って操作値を制御する制御動作が採用される。操作値としては、後に図 4を参照して説明されるような、スレッド毎に用意されたインフレーション値というパラメータが採用される。

[0043] 制御関数部 106から出力されるスレッド毎のインフレーション値は、パイプライン処理機構 100中の命令フェッチと命令発行の頻度を制御するユニット、すなわち、この実施形態では図 2に示されたフェッチスレッドセレクタ 24および命令発行セレクタ 32 に与えられる。各スレッドのインフレーション値は、各スレッドの実行命令数と目標値および繰越残値との比較結果に応じて、制御関数部 106により所定の可変レンジ内で漸次的に増減される。インフレーション値が増加すると命令フェッチや命令発行の頻度が増し、インフレーション値が低!、と命令フェッチや命令発行の頻度が減少するように、フェッチスレッドセレクタ 24および命令発行セレクタ 32が、インフレーション値に応じて、優先度を用いた制御動作を調整する。例えば、或るスレッドのインフレーシヨン値が増加すると、フェッチスレッドセレクタ 24および命令発行セレクタ 32は、それぞれ、そのスレッドより下位の優先度をもつスレッドの命令フェッチおよび命令発行の頻度を抑制し、その結果、そのスレッドの命令フツチおよび命令発行の頻度が増える。逆に、例えば、或るスレッドのインフレーション値が減少すると、フェッチスレッドセレクタ 24および命令発行セレクタ 32は、それぞれ、そのスレッドより下位の優先度をもつスレッドの命令フェッチおよび命令発行の頻度を促進させ、その結果、そのスレツドの命令フツチおよび命令発行の頻度が低下する。

[0044] 上述した構成をもつ IPC制御機構は、それぞれのスレッドの IPCをある一定の監視周期 PERIODで監視する。プログラマは、各スレッドの IPC目標値を ipcとして、「PERIO D X ipc」の値を、各スレッドの実行命令数の設定値として各スレッドの IPC設定レジスタに書き込む。 IPC制御機構は、いずれかのスレッドについて、設定値「PERIOD X ip cjが満たされて!/ヽな、状態が続、た場合、そのスレッドのインフレーション値を増加させる。

[0045] IPC制御機構は、スレッド毎に、以下の値を保持し、インフレーション値を制御する。

[0046] ipc.target: 実行命令数の設定値、つまり PERIOD X ipc; com.cnt: 今期実行命令数、すなわち現在の監視周期 PERIODで実際に実行された命令数；

prev_com_cnt:前期実行命令数、すなわち一つ前の監視周期 PERIODで実際に実行された命令数；

carryover:繰越命令数、すなわち現在の監視周期 PERIODで実行されるべき命令数であり、この値が現在の監視周期 PERIODの終了時にゼロでなければ、この値は次の監視周期 PERIODへと繰り越される；

stat.cnt:現在の状態 (後述する図 4に示される各状態）に留まっている監視周期 PE RIODの回数。

[0047] ここで、繰越命令数 carry_overの値は、監視周期 PERIOD毎に更新され、

carry— over = carry— over + ipe— target— com— cnt

というように決められる。すなわち、或る監視周期 PERIODにおいて繰越命令数 carry_ overで指定された数より少な、数の命令しか実行できな力つた場合、不足命令数が繰越命令数 carry_overとして次の監視周期 PERIOD繰り越され、それにより、次の監視周期 PERIODにおける繰越総命令数 carryoverが増加する。逆に、或る監視周期 P ERIODにおいて繰越命令数 carryoverで指定された数より多くの命令が実行された場合、次の監視周期 PERIODでは、繰越命令数 carry_overが減少する。なお、或る監視周期 PERIODで今期実行命令数 com_cntが繰越命令数 carry_overを上回った場合、その監視周期 PERIOD内では該当するスレッドの命令フェッチは行われなくなる。

[0048] IPC制御機構の制御関数部 106は、上述した値を用いて、図 4に示される状態遷移を監視周期 PERIOD毎に行い、インフレーション値を制御する。その詳細は、以下のとおりである.

[0049] 図 4は、制御関数部 106の状態遷移とインフレーション値増減の動作を示す。

[0050] 制御関数部 106は、複数のスレッドのそれぞれについて並列的に、図 4に示された動作を行う。

[0051] 図 4にお!/、て、「ノーマル」 110は、今期実行命令数 com_cntが設定値 ipc_targetを満たしており、繰越命令数 carryoverも満たしている状態であり、換言すれば、そのスレッドの性能が保証されている状態である。今まで状態が「ノーマル」 110であったところ、現在の監視周期 PERIODで実行した命令数が設定値 ip_C_targetの両方を満たせな力つた場合、状態は「IPCフェイリング」 112に遷移し、他方、繰越命令数 carryover のみを満たせな力つた場合には、状態は「リクエストフェイリング」 114に遷移する。また、ある回数以上の監視周期にわたり「ノーマル」 110が続いた場合には、インフレ一シヨン値が減少され、その結果、そのスレッドの命令フェッチおよび命令発行の頻度が抑制される。

[0052] 「リクエストフェイリング」 114は、今期実行命令数 com_cntが設定値 ipc_targetを満たしているが、繰越命令数 carryoverを満たしていない状態である。つまり、短期的には IPC目標値が満たされている力それ以前の監視周期 PERIODで IPC目標値が満たされな力つたために、不足命令を余分に実行しなくてはならない状態である。この状態がある回数 REQ_FAIL_THRESH以上の監視周期にわたり続く場合、インフレーション値が増加され、そして、状態は「リソースアップチヱック」 116に遷移する。他方、「リクエストフエイリング」 114において、現在の実行命令数が繰越残値を満たした場合は、状態は「ノーマル」 110へ遷移する。

[0053] 「IPCフェイリング」 112は、今期実行命令数 com— cntが繰越命令数 carry— overと設定値 ip_C_targetを共に満たしていない状態である。つまり、短期的にも長期的にも IPC目標値が満たされて、な、状態である。この状態がある回数 IPC_FAIL_THRESH以上の監視周期にわたり続く場合、インフレーション値が増カロさせられ、状態は「リソースアツプチエック」 116に遷移する。他方、「IPCフェイリング」 112において、繰越命令数 carr y_overと設定値 ip targetが共に満たされた場合は、状態は「ノーマル」 110に遷移する。

[0054] 「リソースアップチェック」 116は、インフレーション値を増加させた後、インフレーション値の増加に見合う IPCの向上があつたかどうかをチェックするための状態である。この状態にぉ、て、前期実行命令数 prev_com_cntと比較した今期実行命令数 com_cnt の増分が、予め設定された閾値 EFFICIENT_THRESH以上である力まだ繰越命令数 carry_overが満たされていない場合は、インフレーション値がさらに増加される。他方、繰越命令数 carryoverが満たされた場合は、状態は「ノーマル」 110に遷移する。また、「リソースアップチェック」 116において、上記増分が上記閾値 EFFICIENT_THR ESH未満である場合は、インフレーション値は減少させられ、状態は「リソースダウン」 118に遷移する。

[0055] 「リソースダウン」 118は、インフレーション値の増加に見合った IPCの向上が認められな力つた場合に相当する状態である。この状態に入ると、インフレーション値が減少させられ、状態は「リソースダウンチヱック」 120に遷移する。

[0056] 「リソースダウンチェック」 120は、インフレーション値を減少させた後、 IPCが大幅に低下していないかどうかをチェックするための状態である。この状態において、前期実行命令数 prev_com_cntと比較して、今期実行命令数 com_cntの予め設定された閾値以上に低下した場合、インフレーション値は一周期前の値に戻される。そうでない場合は、インフレーション値は現在の値に維持される。状態は「ノーマル」 110、「IPC フェイリング」 112または「リクエストフェイリング」 114に遷移する。状態が「ノーマル」 1 10と「IPCフェイリング」 112と「リクエストフェイリング」 114の!、ずれに遷移するかは、今期実行命令数 com_cntと設定値 ipc_targetおよび繰越命令数 carry_overとの比較結果により決まる。

[0057] 以上のように、各スレッドについて、 IPCが所望値を満たせていない状態が続くと、ィンフレーシヨン値が増加させられる。ただし、インフレーション値を増加した場合であつても、その増加に見合った IPCの向上が得られない場合は、インフレーション値を元に戻す。その理由は、プログラムの最大性能が時間と共に変化することに対応するためである。すなわち、プログラムの IPCは時間と共に変化するため，ある監視周期 P ERIODでは IPC目標値を満たせない場合がある。そのような場合にインフレーション値を増加させても無意味であり、他スレッドの実行が阻害されるだけである。そこで、インフレーション値を増加させてもその増加に見合った IPCの向上が生じない場合には、将来の監視周期 PERIODで取り返しがっくことが期待できるので、インフレーション値の増加を取り消す。不足命令数は繰越命令数 carry__0Verに加算される。将来プログラムの IPCが向上しやすくなつた時点でインフレーション値を増加させることで、その不足命令数が解消されることになる。

[0058] 上記の IPC制御により、性能の変動が激しいプログラムにおいても、他スレッドの実行を著しく阻害することなぐ特定のスレッドの性能を制御することができる。各スレツドの IPCが所望値近くに制御されることになるので、各スレッドの実行時間の予測の精度が向上する。その結果、実時間処理において、複数スレッドを並列に実行していても時間制約を守ることができるようなスケジューリングが容易になる。

[0059] 図 5は、上述した優先度による調停を行なうマルチスレッドプロセッサを用いて実時間処理を行った場合の例を示す。なお、図 5の例では、説明の都合上、上述したプロセッサ 10のような複数スレッドを同時処理できる SMTプロセッサではなぐ同時処理できるスレッドは 1つのみであるシングルパイプラインのマルチスレッドプロセッサを用いた場合であって、理想的な実行 (キャッシュミスや分岐予測ミスが発生しなヽ)の場合を想定する。

[0060] 図 5に示される例では、スレッド #0の優先度が最も高ぐスレッド #7の優先度が最も低いとする。この例では、最初にスレッド #1、スレッド #2およびスレッド #3が実行可能になる。ここで、優先度による資源の調停を行なわない従来のマルチスレッドプロセッサでは、スレッド #1、スレッド #2およびスレッド #3が並列的に実行されることになる。これに対し、優先度による資源の調停を行なうマルチスレッドプロセッサでは、優先度による演算資源の調停により、原則として、最も優先度の高いスレッド #1の実行が優先される。そのためスレッド #1が先に実行される。スレッド #1の実行が完了すると、優先度による調停により、次に優先度の高いスレッド #2が優先的に実行される。このとき、スレッド #2のコンテキストがプロセッサ内に保持されているため、スレッド #2はコンテキストスイッチを行うことなく直ちに実行される。スレッド #4の実行中に、より優先度の高いスレッド #0が実行可能になった場合においても、優先度による演算資源の調停によりスレッド #0の実行が優先される。このときも、スレッド #0はコンテキストスィッチを行うことなく直ちに実行される。スレッド #0の実行が完了すると、次にスレッド #4に演算資源が割り当てられて、スレッド #4が直ちに実行を再開する。

[0061] マルチスレッドプロセッサは、一般に 1つのスレッドがキャッシュミスなどでストールしている場合でも、別のスレッドを実行することにより、プロセッサ全体のスループットを高く維持できる。この側面に関して、本発明に従うマルチスレッドプロセッサでは、優先度の高いスレッドがストールした場合、次に優先度の高いスレッドを実行するように、優先度による調停を行うことができ、それにより、スループットを向上することが可能である。

[0062] 図 6は、優先度による調停と共に IPC制御を行なうマルチスレッドプロセッサより複数スレッドの同時実行を行った場合の例を示す。図 6の例は、同時処理できるスレッドが 1つのみのシングルパイプラインのマルチスレッドプロセッサの実際の実行 (キャッシュミスや分岐予測ミスが発生する)場合を示してヽる。

[0063] 図 6に示した例でも、図 5に示した例と同様に、スレッド #0の優先度が最も高ぐスレッド #7の優先度が最も低ぐ最初にスレッド #1、スレッド #2およびスレッド #3が実行可能になる。優先度による演算資源の調停により、実行可能なスレッド #1、スレッド #2およびスレッド #3中で最も優先度の高いスレッド #1の実行が優先される。上述の図 5に例示された理想的な実行の場合、キャッシュミスや分岐予測ミスが発生しな、ため、優先度に従って順番にスレッドが実行される。この理想的な場合では、スレッド間の干渉がないため、 IPCの変化はない。これに対し、図 6に例示される実際の実行の場合、キャッシュミスや分岐予測ミスなどが発生することがある。例えばスレッド #1がこの種のミスでストールすると、次に優先度の高いスレッド #2が実行される。スレッド #2のコンテキストはプロセッサ内に保持されているため、コンテキストスィッチを行うことなく直ちにスレッド #2を実行することができる。このため、見かけ上「スレッド #1とスレッド #2が (或いは、より多くのスレッドカ同時並列的に実行される」ことになる。スレッド #2は演算資源を使用するため、優先度のより高いスレッド #1の実行時間に影響を与える。そのため、スレッド間の干渉が発生し、 IPCの変化が発生する。 IPC制御を採用しない場合には、スレッド #1の時間予測精度が低下する。これに対して、 IPC制御を採用することにより、同時に実行されている各スレッド #1、 #2の実行命令数 (IPC)をそれぞれの目標値に近づけるように、各スレッド #1、 #2の実行の頻度が制御される。よって、複数スレッドを同時実行した場合でも、時間予測精度の低下は小さい。そのため、時間制約を守りつつ、プロセッサ全体のスループットを向上することが可能となる。

[0064] 図 5と図 6は、理解を容易にするするために、シングルパイプラインのプロセッサの場合を例示した。しかし、同様の説明は、図 2に示したような複数のスレッドを同時処理できる SMTプロセッサにも適用される。図 7は、図 2に示した 4パイプラインをもち優先度による調停と共に IPC制御を行なう SMTプロセッサより複数スレッドの同時実行（実際の実行)を行った場合の例を示す。

[0065] 図 7に示すように、マルチパイプラインの SMTプロセッサでは、より多くの数のスレツドカ見かけ上、同時並列的に実行される。同時並列的に実行されるスレッドの数が多いほど、スレッド間の資源の競合が発生する頻度が多くなり、各スレッドについての時間予測精度がより低下する。故に、 IPC制御の採用による時間予測精度の低下を抑制できる利点は大きい。

[0066] さて、以下では、図 2に示した SMTアーキテクチャを採用したプロセッサ 10における、優先度による資源調停と IPC制御のより具体的で詳細な制御方法を説明する。

[0067] まず、優先度による資源調停の制御方法を説明する。

[0068] この制御は、複数のスレッドを同時に実行する場合における、命令フェッチスロット、命令発行スロット、演算ユニットなどの各演算資源におけるスレッド間の競合を調停し解決するものである。そこでは、スケジューラが付与した優先度を、スレッド間の競合解決のために使用する。プロセッサ 10内で生じるスレッド間の競合解決に優先度を用いることで、優先度の低!、スレッドが優先度の高、スレッドの実行を阻害することを防ぎ、優先度の高いスレッドの実行を保証する。ただし、優先度を単純に全ての競合処理に導入すると、システム全体の性能が低下してしまい、マルチスレッドによるレイテンシの隠蔽の効果を得ることができない。そこで、優先度の高いスレッドの性能を低下させずに、優先度の低いスレッドを実行する機構が採用される。 SMTァーキテクチャは、スーパースカラアーキテクチャを採用するので、単一スレッドの性能が通常のシングルパイプラインと比較して高い。ただし、単一スレッドの性能をできるだけ高くするには、実行資源をスレッド間で共有ィ匕し、全ての実行資源を一つのスレッドが利用できるようにする必要がある。実行資源を共有化すると、単一のスレッドの性能の向上が期待できるが、スレッド間で性能に影響を与えやすくなるので、優先度の低いスレッドが優先度の高いスレッドの性能に悪影響を与えてしまう。その対策として、フェッチスロットや発行スロットといったスロットの優先度制御に加え、共有資源の占有率の制御も実装することができる。また、フェッチスレッド選択でのボトルネックをできるだけ回避し、命令供給機構全体を制御するような制御方法が採用される。その際、ソフトリアルタイムタスクとハードリアルタイムタスクの性質の違いに着目し、単一スレッドの性能に大きく比重を置く制御方法と、単一スレッドの性能の低下を抑制しつつ全体の性能に比重を置く制御方法とを実装することができる。

[0069] フェッチスレッド選択では、最上位優先度スレッドの性能低下をできるだけ抑制しつつ、他のスレッドのフェッチを行うことができる制御方法を採用することができる。最上位優先度スレッドの性能低下をできるだけ抑えることに主眼を置く場合、所定の状況下で最上位優先度スレッドにより無駄にされる（使用されない)スロットを、他の下位優先度スレッドが使用することで、ある程度のシステム全体の性能向上が期待できる。そのような制御方法として次のものを挙げることができる。

[0070] (1) 命令フェッチでのキャッシュミス

キャッシュミスした後に同じスレッドが命令フェッチを行うことはハードウェアを不必要に複雑化するのみである。キャッシュから命令が返ってくるまでは他のスレッドがフエツチを行う。

[0071] (2) 分岐予測ミス力の回復

分岐予測ミスによるパイプライン中の命令の破棄はその分岐命令のコミット時に行われる。分岐命令がライトバックされたときにはその予測の成否がわ力るので、もし予測ミスして、た場合にはそれ以後のフェッチは無駄になる。そこでライトバックした分岐命令が予測ミスしていた場合には、その命令がコミットするまで他のスレッドカもフエッチを行う。

[0072] (3) 命令バッファ中の命令数

最上位優先度スレッドの性能を落さな、ためには、実行機構への発行を可能な限り絶やさない必要がある。そのためには、命令バッファ中に常に命令が格納されている必要がある。図 2に示したプロセッサ 10の場合、命令発行まで 5ステージあるので、スレッド選択の際に最上位優先度スレッドの命令が命令バッファ 30内に 6クロック分あれば、そのクロックに他のスレッドからフェッチを行ったとしても命令バッファ中の命令が不足することはない。 4命令の同時発行のため、 24命令が命令バッファ 30内に存在する場合に、優先度の低いスレッドからフツチを行う。ただし次に最上位優先度スレッドがフェッチした命令中にいくつの有効な命令があるかはこの時点では不明であるのにカ卩え、次の命令フェッチがキャッシュミスを起こす可能性があるので、それを考慮にいれると、さらに命令数を増やした方が性能の低下は防げる。

[0073] 以上の 3つの制御方法は、最上位優先度スレッドが無駄にするスロットを使用して下位優先度スレッドの命令を格納するという方法である。それに対し、優先度の高いスレッドが実行資源を非効率的に使うと予測して、優先度の低いスレッドのフツチを行うという制御方法も採用し得る。その例を以下に挙げる。

[0074] (1) パイプライン中の条件分岐命令数

条件分岐命令を多く実行するほど分岐予測ミスの可能性が高くなり、実行資源を無駄にする可能性が高くなる。そのため、パイプライン中の条件分岐命令の数が閾値を越えた場合に優先度の低いスレッドからフェッチを行う。

[0075] (2) パイプライン中の命令数

ノィプライン中に命令数が多くなると、それが依存するデータを待つ命令が多くなり、実行スロットを埋めることが難しくなる。特に単一のスレッドの命令数が多くなつたときに、この現象は顕著になる。そのため、ノィプライン中の命令数が閾値を越えた場合に優先度の低、スレッド力もフツチを行う。

[0076] (3) 命令バッファ中の命令数

前述した制御方法では、常に最大限命令が発行されると仮定したが、リザべーションステーション 60などの問題で最大限命令を発行できないことがある。そこで、閾値を上述した 24命令よりも低く設定する。閾値が低い程、優先度の高いスレッドの性能が落ちると考えられる。

[0077] (4) フェッチ制御ユニット内の占めているステージ数

デコード時に用いられる分岐予測器と比較して、 BTB (Branch Target Buffer: 分岐ターゲットバッファ、図示省略）は分岐命令があるかどうかという情報がない分、予測精度が大きく劣る。そのため、 BTBによる投機フェッチ数を制限する。フェッチ制御パィプライン中のステージ数によって制御することで、連続するフェッチ回数を抑える。

[0078] (5) リザべーシヨンステーション内の待ち命令数

使われる実行ユニットに偏りがある場合や、命令間に強い依存関係がある場合、パィプライン中の命令数による制御ではリザべーシヨンステーション 60を一杯にしてしまう可能性がある。そこで、リザべーシヨンステーション 60内の命令数を数え、閾値を越えた場合に優先度の低いスレッド力フェッチを行う。

[0079] 以上の 5つの制御方法は、システム全体の性能を向上させることを重視している。

[0080] さて、発行命令選択では、命令実行ユニット 16に直接命令を供給するために、命令フェッチ機構力十分な命令が来ている場合には、スレッドの性能に大きな影響を及ぼすと考えられる。そこで、優先度の高いスレッドの性能の低下を抑制するために、命令発行機構では発行できる限り優先度の高いスレッドの命令を発行する。優先度による発行命令選択ではフェッチスレッド選択と同様に、次のような方法で優先度の低、スレッドの命令を発行する。

[0081] (1) 対象のリザべーシヨンステーションが一杯の場合

優先度の低いスレッドの命令に他のリザべーシヨンステーションを利用する命令が含まれて!/、る場合はその命令を発行する。

[0082] (2) リオーダバッファやリネームレジスタが一杯の場合

これらの実行資源をスレッド毎に所持している場合は他のスレッドの命令を発行する。

[0083] (3) 投機実行が禁止されている命令の場合

コントロールレジスタへの書き込み命令のように、投機実行が禁止されて、る命令の場合はその命令より前の命令が全てコミットされない限り命令発行を止める。

[0084] (4) 分岐予測ミス力の回復の場合

フェッチスレッド選択と同様に、ライトバックされた分岐命令が予測ミスをして、た場合にその命令がコミットするまで命令発行を止める。

[0085] 対象のリザべーシヨンステーション 60がー杯の場合は、優先度の高いスレッドと低 V、スレッドの利用するユニットがそれぞれ偏って、てなおかつ異なる場合でな、限り、優先度の低いスレッドから多くの命令を発行できるわけではない。また、リオーダバッファ 40やリネームレジスタ 34をスレッド間で共有する構成にした場合には、優先度の低いスレッドからの命令発行は行うことが出来なぐ投機実行が禁止されている命令は通常のプログラムにおいては頻度が低い。つまり、キャッシュミスが起こり得るフエツチスレッド選択と比較して、優先度の低、スレッドの命令が発行される可能性が低い。複数スレッドの並列実行によるレイテンシの隠蔽には、更なる制御方法が採用される。さらに、システム全体の性能に重きを置き、次のパラメータ、

•パイプライン中の条件分岐命令数

•パイプライン中の命令数

•リザべーシヨンステーション内の待ち命令数を参照して優先度の高!、スレッドの命令発行を止める。

[0086] 以上、命令フェッチ、発行といったパイプライン中のスロットに関する競合を解決する制御方法について述べた。それに加え、 SMTアーキテクチャでは複数スレッドで実行資源が共有されるため、その競合制御についても考慮にいれる必要がある。ここでいう実行資源とは、典型的には、

•命令バッファ 30

'リネームレジスタ 34

'リオーダバッファ 40

などを指す。これらの実行資源は、スレッドごとに用意されるか、または共有化されるかの 2通りの実装方法がある。

[0087] 実行資源力スレッドごとに用意される場合、スレッド間の影響を低く抑えることが可能である。或るスレッドがストールしても、他のスレッドは容易に実行できる。しかし、一つのスレッドが使える量が小さく抑えられるので、単一のスレッドの性能が低くなる。一方、実行資源力 Sスレッド間で共有された場合、単一のスレッドを優先して実行した場合に、実行資源を十分に利用できるので性能が高くなる。しかしスレッド間の影響が大きくなるため、低い優先度のスレッドが高い優先度のスレッドを阻害してしまう。またスレッドがストールしたときに他のスレッドが実行できないことがある。

[0088] このようにスレッド間の影響を考えると、スレッド毎に実行資源を用意する方法の方が好ましいが、チップサイズの制限があるのでスレッドあたりの資源の量は小さく抑えられてしまう。そのため、優先度の高いスレッドの性能が低くなるので、ソフトリアルタイム処理に耐え得る高い性能という面で問題がある。そこで、図 2に示されたプロセッサ 10では、実行資源を共有ィ匕することで、単一のスレッドの性能向上を目指す。

[0089] 各バッファをパーティション化 (幾つかの単位に分割)することにより、ハードウェアの複雑化を防ぐことができる。一つのパーティションを単一のスレッドのみが使用するように設計することで、スレッドごとにパーティションの使用順番とパーティション内の現在位置だけ記憶しておけば良、ので、ハードウェアが単純になる。

[0090] 各バッファを共有することで、優先度の低いスレッドがバッファを占有することにより優先度の高いスレッドの実行を阻害してしまう。そこで、共有バッファにおけるスレッド間の性能に対する影響を抑えるために、各スレッドが使用できるノッファのエントリ数をソフトウェアによりパーティション単位で設定する。これに関し、次の 2通りの制御方法が採用できる。

[0091] (1) 資源予約

制御レジスタを用いてスレッド毎にパーティション使用権を設定する。同じパーティシヨンを複数のスレッドが利用することができる。

[0092] (2) 最大数設定

制御レジスタを用いてスレッド毎に使用できる最大のパーティション数を設定する。

[0093] 資源予約方式では、スレッド毎に利用できる資源を個別に指定できるので、安定した性能が期待できるが、周期タスクが実行を終え、次の周期を待っている場合など、スレッドが実行できない場合に対応がしづらぐ実行資源を有効に使うことができない。最大数設定方式では、他のスロットの制御を優先度制御で行っているために、優先度の高いスレッドから指定された最大限の量まで実行資源を利用することができ、状況に応じて最大限に実行資源を利用しやすい。ただし、各スレッドの最大数の合計がパーティション総数を上回っている場合には、優先度の低いスレッドが優先度の高いスレッドの実行を阻害してしまう。資源予約方式は静的に性能の予測ができ、最大数設定方式は、動的に実行資源の利用の効率ィ匕を計ることができる。しかし、これらの制御方法のみでは最上位優先度スレッドの性能を維持することは難、。例えば優先度の高、スレッドがスケジューリング可能な状態になり、最上位優先度スレッドが切り替わる場合には、それまで実行されてヽた優先度の低ヽスレッドが実行資源を占有しており、優先度の高いスレッドの実行が阻害されてしまう。そこで、優先度の高いスレッドの命令が格納されているパーティションの数が閾値以下で、空きパーティションがな、場合に、現在その資源を利用して、るスレッドの中から最も優先度の低、スレッドの命令を破棄する。命令バッファ 30の場合ではそのスレッドの先頭の命令からフェッチし直し、リオーダバッファ 40では分岐予測ミスの場合と同様の機構を用いてノィプライン中の命令を破棄する。

[0094] SMTアーキテクチャでは、優先度による制御を行っていても、同時に実行されるスレッドによっては最上位優先度の実行に影響を与える場合がある。そこで、プロセッサの性能の予測性、及び全体スループットの改善のために、各スレッドがその優先度に従った量のプロセッサ資源を割り当てるように制御することができる。例えば、命令フエッチに関しては、命令バッファの各スレッドへの割当量を、各スレッドの優先度に従うように制御することができる。これにより下位優先度スレッドがフェッチ権を獲得しやすくなるため、最上位優先度スレッドの性能が多少低下する可能性がある力性能の変動は小さくなり、予測性が高まるものと考えられる。また、命令バッファの利用効率の改善により全体性能の向上が期待できる。

[0095] 命令フツチに関するこの制御について、以下に具体的に述べる。この制御は、図

2に示されたプロセッサ 10内の主としてフェッチスレッドセレクタ 24によって実行される。この制御は、各スレッドの命令バッファの占有量を監視し、より下位の優先度のスレッドの占有量力より上位の優先度のスレッドの占有量を超えると、その下位優先度のスレッド力もの命令フェッチを抑制または禁止するものである。以後の説明には以下の記号を用いる。

[0096] Ti:スレッド；

Gj:同じ優先度を与えられたスレッドのグループ。グループ間の優先度は Gj > G卜 1 であるとする；

ThOlMinlQ(Gj):グループ Gj中で命令バッファ占有数が最小のスレッド； THNUM(Gj):グループ Gjに属するスレッド Tiの数；

IQSUM(Gj):グループ Gjが占有する命令バッファ数（グループ Gjに属するスレッドの命令バッファ占有数の合計)；

MINIQ(Gj):グループ Gjが占有する命令バッファ数の最小値；

MIN_IQ_THRESH: 1スレッド当りの命令バッファ占有数に対する所定の下限値； FREQj:グループ Gjのフェッチ要求；

FETCHj:フェッチ要求 FREQjが認められた場合にフェッチを行なうスレッド（フェツチスレッド）。

[0097] フェッチ要求 FREQjとフェッチスレッド FETCHjは、以下のような制御条件 (1)および（

2)に従って決められる。

FREQj =

MINIQ(Gj)≤ IQSUM(Gj-l)

or

IQSUM(Gj)≤MINJQ— THRESH X THNUM(Gj) … 制御条件 (1)

FETCHj = ThOlMinlQ (Gj) … 制御条件 (2)

ここで、値 MINJQ_THRESHは、各スレッドの命令バッファが空になる頻度を低くすることを目的とした下限値である。各スレッドの命令バッファ占有数力この下限値 MINJ Q_THRESHを下回ると、各スレッドは無条件にフェッチ要求を出すことができる。この値 MINJQ_THRESHは以下の条件値、

• 1回のフェッチでフェッチされる命令数

•フツチ開始力命令発行までに要する最短サイクル数

• 1サイクルの最大命令発行数

によって決めることができる。例えば図 2に示されたプロセッサ 10では、 1サイクルで 8 つの命令がフェッチされ、フェッチ開始力命令発行まで 6サイクルを要し、 1サイクルで 4命令が発行される。そのため、命令バッファの命令数が 24になった時点でフェツチを開始することで、命令供給が途絶える頻度を減らすことができると考えられる。そこで、値 MINJQ_THRESHとして「24」を採用することができる。

[0098] 制御条件 (1)によれば、或るグループ Gjの命令バッファ占有数の最小値 MINIQ(Gj)

1S それより 1ランク優先度の低、グループ G卜 1の命令バッファ占有数 IQSUM(G卜 1) と同等力り少ないときには、または、或るグループ Gjの命令バッファ占有数 IQSUM( Gj)力そのグループ Gjにより占有されるべき命令バッファ数の下限値 MINJQ_THRE SH X THNUM(Gj)と同等かより少ないときには、そのグループ Gjのフェッチ要求 FRE Qjは認められる力より優先度の低いグループ G卜 1のフェッチ要求 FREQ卜 1は認められない。そして、制御条件 (2)によれば、そのグループ Gjのフェッチ要求 FREQjが認められる場合、そのグループ Gj中で命令バッファ占有数が最小であるスレッド ThO IMinlQ (Gj)に、フェッチ権が与えられる。

[0099] 以上により、 FETCHj、 FREQjが決定される力プロセッサ 10では、 1サイクルで 1 つのスレッドのみがフェッチを行うため、複数のフェッチ要求から 1つのスレッドを選択しなければならない。そこで、最上位優先度スレッドの実行を優先するために、最上位優先度のグループのフェッチ要求を選択し、フェッチスレッドを決定するような制御方法が採用できる。また、フェッチスレッドとして選択されたスレッドがキャッシュミス等を起こしフェッチを行えな、場合であっても、下位優先度のスレッドにフェッチ権を譲ることはないようにしてもよい。これは、資源占有量の逆転を防ぎ下位優先度スレッドが上位優先度スレッドの性能を圧迫しな、ようにするためである。

[0100] この制御方法では、一方において、下位優先度スレッドがフェッチ権を得やすくなつており、プロセッサの全体性能が向上すると考えられる。そして、他方において、プログラムの特性によらず高優先度スレッドほど多くの命令バッファを獲得できるように制御されており、低優先度スレッドに多くの命令バッファが割かれる問題や、長期間命令バッファが占有される問題は生じにくいと考えられる。この利点は、後述の命令発行の制御方法との組み合わせにより、より強化される。また、この制御方法では、同じ優先度のスレッドが複数あった場合には、それらの中で最も命令バッファ占有数が少な、スレッドからフェッチを行う。

[0101] 次に命令発行の制御方法について述べる。

[0102] 命令フツチの制御と同様に、資源の占有量が優先度に従うように、それぞれのスレッドの命令発行が制御される。この命令発行の制御は、図 2に示されたプロセッサ 1 0内の例えば命令発行セレクタ 32によって実行される。この命令発行の制御では、監視対象の資源として、リザべーシヨンステーションまたはリオーダバッファを採用することができる。以下に説明する制御では、リザべーシヨンステーションのスレッド毎の占有量が監視され、より下位の優先度のスレッドの占有量力より上位の優先度のスレッドの占有量を超えると、その下位優先度のスレッドからの命令発行が抑制または禁止される。以降の説明では以下の記号を用いる。

[0103] Tj,k:グループ Gjに属するスレッド；

RSNUM(Tj,k):スレッド Ti,kのリザべーシヨンステーション占有数； RSSUM(Gj.):グループ Gjのリザべーシヨンステーション占有数（グループ Gjに属するスレッドのリザべーシヨンステーション占有数の合計）；

IREQj.k:スレッド Tj,kの命令発行要求。

[0104] 命令発行要求 IREQj,kは以下のような制御条件 (3)に従って決められる。

IREQj.k = RSNUM(Tj,k)≤ RSSUM(Gj-l) … 制御条件 (3)

[0105] 制御条件 (3)によれば、或るスレッド Tj,kのリザべーシヨンステーション占有数 RSNU M(Tj,k)が、それより 1ランク優先度の低、グループ Gj-1のリザべーシヨンステーション占有数と同等かそれより少ないときには、そのスレッド Tj,kの命令発行要求 IREQj,kは認められるが、その優先度の低!、グループの命令発行要求 IREQ卜 l,kは認められない。ここで、図 2に示されたプロセッサ 10では、 1サイクルで最大で 4つのスレッドが命令を発行し得る。命令フェッチと異なり、同じグループの複数のスレッドから命令発行要求が来る場合がある。そこで、命令発行の制御では、命令発行要求を出しているスレッドを以下のように順位付けし、その順位の上位 4つのスレッドを発行スレッドとする

[0106] ·スレッドに与えられた優先度の高い順

•同じ優先度（グループ）のスレッド間では、リザべーシヨンステーション 60の占有数が少ない順

[0107] 命令発行の制御方法は、前述の命令フツチのそれとよく似たものである。相違点は、命令バッファ 30の占有数の代わりにリザべーシヨンステーション 60の占有数を用いる点と、占有数の下限値 MINJQ_THRESHに対応する条件が無い点である。発行スレッド選択の基準にリザべーシヨンステーション 60を用いる理由は次の通りである。すなわち、発行スレッドとして選択されたスレッドが実際には発行できない場合が存在する。これは主に次のような場合である。

[0108] 'リオーダバッファ 40に空きがない

•リネームバッファ 34に空きがな!ヽ

'発行先の実行ユニットのリザべーシヨンステーション 60に空きがない

プロセッサ 10では、リオーダバッファ 40とリネームバッファ 34は連動しており、実際に制約となるのはリオーダバッファ 40力リザべーシヨンステーション 60である。このうち、実際上は、リザべーシヨンステーション 60に空きがなく命令発行が行えない場合が多い。そのため、上記の制御条件 (3)では、より貴重な資源を高優先度スレッドに割り当てるためスレッド選択の基準にリザべーシヨンステーション 60の占有数が用いられる。実際、発明者が実施した評価試験によっても、リオーダバッファ 40よりリザべ一シヨンステーション 60の方力より影響的であることがわかった。

[0109] 次に、 IPC制御の具体的方法を説明する。

[0110] リアルタイム処理においてはタスクの実行時間の予測性が重要である。そこで、前述の命令フツチ、命令発行機構に IPCを制御する機構を加えられる。 IPC制御では、一定の間隔で各スレッドの実行命令数を監視し、それが指定された目標値に満たない場合には命令フェッチ、発行が行われる頻度を高くする。また、プログラムの性能は時間とともに大きく変化することがあり、以下に説明する IPC制御ではその点についても考慮される。

[0111] この IPC制御では、グループ Gjの現在の IPCに応じて変化するインフレーション値 IN FLjが導入され、前述の命令フツチ、発行の制御条件 (1)と (3)が以下の制御条件 (4) と (5)のように変更される。

FREQj =

MINIQ(Gj)≤ IQSUM(Gj-l) + INFLj X THNUM(Gj)

or

IQSUM(Gj)≤ MINJQ— THRESH X THNUM(Gj) … 制御条件 (4)

IREQj.k = RSNUM(Tj,k)≤ RSSUM(Gj-l) +INFLj … 制御条件 (5) ここで、既に図 4を参照して説明したように、インフレーション値 INFLjは、所定の値範囲、例えば 0≤ INFLj≤ 32の範囲で、グループ Gjの現在の性能によって増減される。すなわち、グループ Gjが指定された IPCを得られていない場合には、インフレーシヨン値 INFLjが増加し、それにより、グループ Gjより優先度が下位のスレッドのフエツチと発行が抑制され、グループ Gjのスレッドの性能を上昇させる。インフレーション値 INFLjの可変範囲が 0から 32であるのは、図 2に示されたプロセッサ 10では命令バッファ 30およびリザべーシヨンステーション 60が 32エントリをもつことに基づいている以上、本発明の実施形態を説明したが、この実施形態は本発明の説明のための例示にすぎず、本発明の範囲をこの実施形態にのみ限定する趣旨ではない。本発明は、その要旨を逸脱することなぐその他の様々な態様でも実施することができる。

Claims

請求の範囲

[1] 複数のスレッドを並列的に処理するマルチスレッド中央演算装置において、

各スレッドの優先度を記憶する優先度記憶手段と、

前記各スレッドの優先度を用いて、前記複数のスレッドの命令の処理の順序または頻度を制御する第 1の制御手段と、

各スレッドの命令実行目標を記憶する目標記憶手段と、

前記各スレッドの命令実行状態を監視し、前記実行命令状況と前記命令実行目標を用いたフィードバック制御動作により、前記複数のスレッドの命令の処理の順序または頻度を制御する第 2の制御手段と

を備えたマルチスレッド中央演算装置。

[2] 請求項 1記載の装置において、

前記第 1の制御手段が、前記装置内の所定の資源の前記複数のスレッドへの割当量を監視し、前記複数のスレッドへの割当量が前記複数のスレッドの優先度に従うように、前記複数のスレッドの命令のフェッチ、発行または実行のそれぞれの順序または頻度を制御するマルチスレッド中央演算装置。

[3] 請求項 2記載の装置において、

前記第 1の制御手段が、第 1の優先度をもつ 1以上の第 1のスレッドへの前記資源の割当量が、前記第 1の優先度より下位の第 2の優先度をもつ 1以上の第 2のスレッドへのそれ以下であるとき、前記第 1のスレッド中の少なくとも一つのスレッドの命令のフェッチ、発行または実行を促進し、または、前記第 2のスレッドの命令のフェッチ、発行または実行を抑制するマルチスレッド中央演算装置。

[4] 請求項 3記載の装置において、

前記第 1の制御手段が、各スレッドへの前記資源の割当量が少なくて所定の下限条件を満たさないとき、前記各スレッドの命令のフェッチ、発行または実行を促進し、または、前記各スレッドの命令のフェッチ、発行または実行の抑制を解除するマルチスレッド中央演算装置。

[5] 請求項 3項記載の装置において、

前記第 1のスレッド中の前記少なくとも一つのスレッドには、前記資源の占有量が前記第 1のスレッド中で最小であるスレッドが含まれるマルチスレッド中央演算装置。

[6] 請求項 2記載の装置において、

フェッチされた前記複数のスレッドの命令をそれが発行されるまで保持する命令バッファをさらに備え、

前記第 1の制御手段が、前記複数のスレッドによる前記命令バッファの占有量を監視し、前記複数のスレッドによる前記命令バッファの占有量が前記複数のスレッドの優先度に従うように、前記複数のスレッドの命令のフツチの順序または頻度を制御するマルチスレッド中央演算装置。

[7] 請求項 6記載の装置において、

前記第 1の制御手段が、第 1の優先度をもつ 1以上の第 1のスレッドによる前記命令バッファの占有量が、前記第 1の優先度より下位の第 2の優先度をもつ 1以上の第 2 のスレッドによるそれ以下であるとき、前記第 1のスレッド中の少なくとも一つのスレッドの命令のフェッチを促進し、または、前記第 2のスレッドの命令のフェッチを抑制するマルチスレッド中央演算装置。

[8] 請求項 7記載の装置において、

前記第 1の制御手段が、各スレッドによる前記命令バッファの占有量が少なくて所定の下限条件を満たさないとき、前記各スレッドの命令のフェッチを促進し、または、前記各スレッドの命令のフツチの抑制を解除するマルチスレッド中央演算装置。

[9] 請求項 7記載の装置において、

前記第 1のスレッド中の前記少なくとも一つのスレッドには、前記命令バッファの占有量が前記第 1のスレッド中で最小であるスレッドが含まれるマルチスレッド中央演算装置。

[10] 請求項 2記載の装置において、

フェッチされた前記複数のスレッドの命令をそれが発行されるまで保持する命令バッファと、

前記命令バッファ力発行された前記複数のスレッドの命令をそれが実行されるまで保持する 1以上のリザべーシヨンステーションと

をさらに備え、前記第 1の制御手段が、前記複数のスレッドによる前記リザべーシヨンステーションの占有量を監視し、前記複数のスレッドによる前記リザべーシヨンステーションの占有量が前記複数のスレッドの優先度に従うように、前記複数のスレッドの命令の発行の順序または頻度を制御するマルチスレッド中央演算装置。

[11] 請求項 10記載の装置において、

前記第 1の制御手段が、第 1の優先度をもつ 1以上の第 1のスレッドによる前記リザベーシヨンステーションの占有量が、前記第 1の優先度より下位の第 2の優先度をもつ 1以上の第 2のスレッドによるそれ以下であるとき、前記第 1のスレッド中の少なくとも一つのスレッドの命令の発行を促進し、または、前記第 2のスレッドの命令の発行を抑制するマルチスレッド中央演算装置。

[12] 請求項 7または 8の、ずれか一項記載の装置にお!、て、

前記第 1のスレッド中の前記少なくとも一つのスレッドには、前記リザべーシヨンステーシヨンの占有量が前記第 1のスレッド中で最小であるスレッドが含まれるマルチスレッド中央演算装置。

[13] 請求項 1記載の装置において、

前記第 1の制御手段力通常の状況下では上位優先度のスレッドの命令が下位優先度のスレッドの命令より先に処理され、前記上位優先度のスレッドが前記装置内の所定の資源を無駄にするか非効率的に使用するような所定状況下では、前記下位優先度のスレッドの命令が前記上位優先度のスレッドの命令より先に処理されるように制御を行うマルチスレッド中央演算装置。

[14] 請求項 1記載の装置において、

前記第 2の制御手段が、前記各スレッドの命令実行状態が前記各スレッドの命令実行目標に近づくように、前記複数のスレッドの命令のフェッチまたは発行の順序または頻度を制御するマルチスレッド中央演算装置。

[15] 請求項 14記載の装置において、

前記第 2の制御手段が、或るスレッドの前記命令実行状態が前記命令実行目標を満たさない場合、前記或るスレッドの命令のフェッチまたは発行を促進し、または、前記或るスレッドより下位の優先度をもつ他のスレッドの命令のフェッチまたは発行を抑制するマルチスレッド中央演算装置。

[16] 請求項 1記載の装置において、

前記第 1の制御手段は、所定の制御条件に従って前記複数のスレッドの命令の処理の順序または頻度を制御し、

前記第 2の制御手段が、前記各スレッドの命令実行状態が前記各スレッドの命令実行目標に近づくようにするための調整を、前記第 1の制御手段の前記制御条件にカロえるマルチスレッド中央演算装置。

[17] 請求項 16記載の装置において、

前記第 2の制御手段が、或るスレッドの前記命令実行状態が前記命令実行目標を満たさな、場合、前記或るスレッドの命令の処理の頻度を増加させるための調整を、前記第 1の制御手段の制御条件に加え、そして、前記調整を加えても前記或るスレツドの前記命令実行状態に所定条件を満たす改善が現れな！/、場合、前記加えられた調整を解除して前記制御条件を前記調整を加える前のものに戻すマルチスレッド中央演算装置。

[18] 同時マルチスレツディングの制御方法にぉ、て、

各スレッドの優先度をもつステップと、

前記各スレッドの優先度を用いて、前記複数のスレッドの命令の処理の順序または頻度を制御するステップと、

各スレッドの命令実行目標をもつステップと、

前記各スレッドの命令実行状態を監視するステップと、

前記各スレッドの前記命令実行状態と前記命令目標を用いたフィードバック制御動作により、前記複数のスレッドの命令の処理の順序または頻度を制御するステップと有する同時マルチスレツディング制御方法。