JPS62113234A

JPS62113234A - レコ−ドセツト分類方法

Info

Publication number: JPS62113234A
Application number: JP61262914A
Authority: JP
Inventors: ダグラス・ロバート・ケース; ワトソン・マンウエアリング・コナー
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1985-11-07
Filing date: 1986-11-06
Publication date: 1987-05-25
Also published as: US4962451A; EP0221358A3; EP0221358A2; DE3688581D1; DE3688581T2; EP0221358B1

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】Ａ、産業上の利用分野本発明はステージ式記憶システムにおいてキャッシュを
用いて分類ストリングを生成する方法に関するものであ
る。

Ｂ、従来技術およびその問題点ローリンによる“Ｓｏｒｔｉｎｇ　ａｎｄ　５ｏｒｔ　
５ｙｓｔｅ＋ｍｓ”（Ａｄｄｉｓｏｕ　−Ｗｅｓｌｅｙ
社発行、１９７５年）において、分類（ｓｏｒｔｉｎｇ
）は項目を順番に配置するプロセスとして定義されてい
る。さらに、配列とはパンチカードのデックの配置や磁
気テープ上のレコードの配置のような物理的な配列を含
むが、分類オペレーションの出力は実際の物理的な再配
置を必ずしもいうものではない、とも指摘されている。

１つのファイルにおける配列は他の方法、特にインデッ
クスを使用することにより表現することができる。この
インデックス（又はこれと同等なもの）の再配置は゛論
理的配列″又は″“再配置″と呼ばれる。したがって分
類すべき要素が、リンクされたリストにおいて含まれて
いる場合、分類の順序を変更するには、そのリストにお
ける一連の要素を定めるためのポインタを変更する必要
がある。

最近のデータ処理システムは１階層的に構成されＬ　Ｒ
Ｕ　（ｌｅａｓｔ　ｒｅｃｅｎｔｌｙ　ｕｓｅｄ）で管
理されるステージ式記憶システムに接続された命令プロ
セッサを有している。命令プロセッサに最も近く高速に
アクセスされるメモリは階層の上位に配置され。

低速なメモリはど階層の下位に配置される。メモリのコ
ストはその速度に応じて急激に増加するので、多くのコ
ンピュータシステムは物理的なメモリサブシステムを複
数の性能のレベルに分けている。これらのレベルのうち
にはＤＡＳＤやテープ等のように伝統的にＩ１０装置と
して取り扱われているものもあれば、主メモリとしてシ
ステムのハードウェアに直接取り扱われているものもあ
る。

゛１次記憶装置″又は゛内部記憶装置′″とは、単一の
読取り転送又は単一の書込み転送についてランダムにア
ドレス指定することのできるシステムメモリをいう。″
２次記憶装置″″又は“外部記憶装置”とは、ランダム
にアドレス指定されることがなく直接アクセスするには
あまりに低速な記憶装置、換言すれば、決まったサイズ
のブロックでアクセスしなければならない記憶装置をい
う。

キャッシュメモリは、１次記憶装置を構成するランダム
にアクセスされるメモリのアクセスタイムに比べてさら
に高速のアクセスタイムを有するメモリである。ランダ
ムアクセスメモリの参照はシステムによって管理される
ので、キャッシュの存在はアプリケーションソフトウェ
アにとってはトランスペアレントである。データは、普
通、参照データを含むラインでキャッシュに供給される
。

１つのラインは別のラインでオーバーレーされるまでは
キャッシュに存在する。キャッシュへのデータ転送およ
びキャッシュからのデータ転送は、普通、ＬＲＵアルゴ
リズムをハードウェア化したもので行われる。キャッシ
ュは、一定のメモリロケーションがよくアクセスされる
傾向にあるという原理に基づいて働くものである。主メ
モリのロケーションが読み取られると、これと同時にそ
の内容がキャッシュに記憶される。さらに、このロケー
ションへの読取り参照が自動的にキャッシュへ送られる
。書込みアクセスでは、普通、主メモリおよびキャッシ
ュの両方に書込みが行われる。

キャッシュは主メモリの多くの不連続なロケーションを
あられす場合があるので、主メモリのロケーションがキ
ャッシュにおいて現に重複されているか否かを判断する
のに内容アドレス式レジスタが使用される。

従来の分類方式は内部的手法によるものと外部的手法に
よるものとに分けられる。内部的手法は。

プロセッサの１次記憶装置内に完全に含まれるデータの
リストに対してのみ許容できる性能で適用し得るもので
ある。外部的手法は、１次記憶装置には長すぎるような
データのファイル、したがってテープ又はＤＡＳＤ等の
外部大容景記憶装置に頼らざるを得ないようなデータの
ファイルにうまく適用するものである。外部記憶のプロ
セスにおいては、ファイルの各部分は１次記憶装置に読
み取られ、内部で配列されてから外部装置に再書込みさ
れる。このプロセスは何度も発生し得る。これに対し、
内部的手法は送られるデータをパスごとに再配置する場
合に用いられるものである。再述すれば、外部的手法で
は一般に記憶すべきファイルについてまずパスを実行し
て、これを内部メモリのサイズで幾つかのブロックに分
解し、それからこれらのブロックを分類する。ファイル
の全体が分類し終るまでそのファイルのパスを何度か実
行しより大きな分類されたブロックを連続的に生成する
ことによって、分類されたブロックの集合について組合
せが実行される。たとえば、ｎ個のキーに関する未配列
のリストがあって内部メモリの容址がｍ（＜＜ｎ）ワー
ド分である場合、分類パスごとにｎ　／　ｍ個の分類さ
れたブロックが生成される。もし後続のパスごとにｐ−
ウェイ組合せが実行されるとすればｌｏｇ（ｎ／ｍ）個
のパスが必要となる場合がある。

したがって本発明の目的はＣＰＵの主記憶すなわち内部
メモリを利用する分類オペレーションを改善することに
ある。さらに本発明の他の目的は、キャッシュ内で分類
オペレーションを実行し１分類に関係する資源を最小限
にする手法を提供することである。

Ｃ６問題点を解決するための手段この目的を達成するため本発明のレコードセット分類方
法は、（ａ）第１のパスにおいて、レコードのサブセッ
トをキャッシュに呼び出して該サブセラ１−においてキ
ーを配列させるステップと。

（ｂ）第２のパスにおいて、配列されたサブセットの要
素について前記キャッシュの容量に見合うように組合せ
を実行するステップとから成ることを特徴としている。

Ｄ、実施例はじめに本発明の実施例を概説する９本実施例は２つの
予想しなかった知見から出たものである。

１つは、ＬＲＵで管理される記憶装置の低ミス率は参照
の局在性に基づくものであったということ、もう１つは
、たとえかかる局在性が分類オペレーションで見られな
かったとしても１分類すべき対象のサブセットをキャッ
シュの容量内にうまく納めればミス率はさらに小さくで
きるということである。

前記本発明の目的は、キャッシュが現に分類されている
レコードのキーを保管するためのものであるようなステ
ージ式記憶システムにおいてレコードを内部的な複数の
パスによる分類を行うための方法によって達成される。

この方法は、第１のパスで、（ａ）レコー［・のキーに
ついての未配列のサブセットをキャッシュに呼び出しこ
れを分類して１つの配列されたサブセットを形成するス
テップと、（ｂ）レコードのキーについてのセットがな
くなるまでステップ（ａ）を繰り返すステップとを含む
。さらにこの方法は、第２のパスで、（ｃ）置換選択を
用いて、１つの配列された出力が得られるようになるま
でキャッシュにおける複数のキーについての配列された
サブセットを組み合わせ（ｍｅｒｑｉｎｇ）、これらの
サブセットがキャッシュ内に入るように且つ分類の間キ
ャッシュミスがルーコードにつきたった１回しか生じな
いように置換選択を動的に制限するステップを含む。

ところでにｎｕｔｈ　Ｌこよる“Ａｒｔ　ｏｆ　Ｃｏｍ
ｐｕｔｅｒＤｒｏｑｒａｍｍｉｎｇ’″第３巻１分類お
よび探索、１９７３年、の第２５１ないし２６６頁には
置換選択分類が記載されている。米国特許第４２１０９
６１号のような他の文献には１分類（ｓｏｒｔ）　／組
合せ（ｍｅｒｑｅ）オペレーションにおいて配列された
ストリングについてのｎ−ウェイ式組合せに付随して計
算資源を最小にするということが指摘されている。上記
米国特許によれば、実際のストリングのサイズと予想さ
れたストリングのサイズとの比較結果に基づいて一定の
ストリングの配列の方向が。

組合せの前に、選択的に反転される。

他に、当該技術分野の現状を示すものとして、米国特許
第４４１７３２１号および第４５１０５６７号や、　Ｓ
ｅｄｑｅｗｉｃｋによる“Ａｌｑｏｒｉｔｈｍｇ”（Ａ
ｄｉｓｏｎ　−Ｗｅｓｌｅｙ社発行、１９８３年）第１
１章。

優先待ち行列がある６後者の文献には、待ち行列に新た
なエレメントが挿入されるたびに最大のエレメントがそ
の待ち行列から削除されるような抽象データのタイプが
提案されている。これに関して、前者の両特許はこの優
先待ち行列を大容量記憶装置からオフィスシステムへの
分類およびステージングに応用している。この分類方法
はリスト又はバッファから、最下位にランクされたエレ
メントを除外するようにバイアスされているものである
。

以上に示した文献は本発明・・・・キャッシュにおいて
分類（ｓｏｒｔ）および組合せ（ｍｅｒｑｅ）のパスを
動的に制限するような複数パスによる分類および組合せ
・・・・を示唆するものではない。

実施例によれば、第１のパスで、キャッシュを充てんす
る未配列の各サブセット内のエレメントの数、および各
々の組合せサイクルにおいて関係するエレメントの数を
個々のパスの間キャッシュに見合うものとする。ここで
は組合せの手法として置換選択を用いているが、オペレ
ーションの完了に必要な時間に多少の犠牲を払えば他の
組合せ方法を使うこともできる。しかしながらどのよう
す場合においても１分類中に生ずるミスはルーコードあ
たり高々１回である。

以下、実施例を詳述する。

キャッシュは競合しやすいものなので、プロセッサ内に
所在する一定の外部スケジューラでキャッシュの制御権
は分類タスクから別のタスク（又はその逆）に切り換え
ることができる０分類タスクが制御権を持っているとき
は、分類して配列すべきストリングの一部がキャッシュ
にロードされることとなる。分類タスクが割り込まれた
ときは。

別のタスクが制御権を取得して部分的に分類された結果
についてのタスクをフラッシュすることができる。キャ
ッシュがフラッシュされている間は、変更されるエント
リだけがメモリにコピーされる。

分類タスクは制御権を取り戻すと、残りのところから、
再開される０部分的に分類された結果は既に分類し終わ
っているからである。キャッシュは。

実際には１分類タスクに関係していてもそうでなくても
常にＬＲＵ方式で管理される。このようにキャッシュが
ＬＲＵ方式で管理されることから、キャッシュの内容は
参照のパターンで決まることになる。もし参照される対
象のセットがキャッシュの容量よりもずっと大きい場合
は、対象が参照されたときキャッシュの内容が部分的に
置き換えられる０本実施例の基本的な概念は、キャッシ
ュ内で分類されるサブストリングを、キャッシュのＬＲ
ｔＪが呼び出されない程度に十分小さく保つことである
。サブストリングのサイズをどれくらい小さくするかを
決めるには、キャッシュのライン数およびサブストリン
グの深さを考慮に入れなければならない。

第１図は典型的な階層式メモリの構成を示す図である。

プロセッサの命令の実行によってメモリアクセスが行わ
れると、アクセスされたロケーションおよびその近傍の
内容がキャッシュにコピーされる。これらのロケーショ
ンに別の参照が行われた場合、低速の主メモリを必要と
するなくキャッシュから直接取出しをすることができる
。第１図に示した環境はメモリの深さの浅いところから
の要求時ページングに関するものである。これは、タス
クの実行について本実施例とは関係のない情報について
の下方への移行および要求に基づいて、よりアクセス可
能な部分に存在する。割込みによってタスクが突然に切
り換わるような多重プログラミング（又は競合）モデル
が、この仮想メモリ要求時ページングモデルに加えられ
る。このようにするのは、適切な作業セットをフラッシ
ュし再構成してから、現タスクを切り換えて関連する作
業セットを除去しなければならないためである。

第２図はＬＲＵで管理されるキャッシュ（以下。

ｒＬＲＵ式キャッシュ」ともいう）の例である。

ＬＲＵ式キャッシュでは各々の参照と最後の使用につい
ての時間とが関連付けられる。エレメントを置き換えな
ければならないときは、ＬＲＵによればキャッシュにお
いて最も長い時間にわたって使用されなかったエレメン
トが選択される。この置換えは時間的には逆行してみえ
る。ＬＲＵをキャッシュの１つの参照ストリングに適用
した結果が第２図に示しである。この例では１２回のミ
スが生じている。エレメント４への参照が発生したとき
、最も長い期間にわたって使用されていなかったのはエ
レメント２である。そのとき最後に使用されていたのは
エレメントＯであり、その前はエレメント３である。し
たがって、ＬＲＵは１次にエレメント２が使用されよう
としているとは知らずにエレメント２を選択する。次に
エレメント３への参照のためにミスが生じると、エレメ
ント０が最も長い期間にわたって使用されなかったもの
であるからこれが選択される。

本実施例は、現に分類されているレコードのキーがキャ
ッシュで保管されるようなステージ式記憶システムにお
ける内部的多重パス式レコード分類に関する技術である
。この手法は大きくいって２ステツプから成る。１つは
、レコードのサブセットの分類を、そのセット（ストリ
ング）が尽きるまで続けることである（ａ）。もう１つ
は、レコードのｒ層のサブセットのｒ個のレベルについ
ての置換薫選択（ｒｅｐｌａｃｅｍｅｎｔ　５ｅｌｅｃ
ｔｉｏｎ）による分類である（ｂ）。これはキャッシュ
内に入るようそのサブセットを動的に制限し且つ１つの
レベル内での分類の間にキャッシュの参照ミスの発生が
ルーコード当り高々１回に抑えるようにして行われる。

この手法は、第１のパスの間に分類すべき各サブセット
に関する計算パラメータ（たとえばサブセットのサイズ
Ｓ）についての初期設定ステップを含む、１つの組合せ
段階が幾つかの組合せ（ｍｅｒｑｅ）のサブパス（たと
えばｎウェイおよびｔウェイの組合せ）を含む場合は、
パラメータｎおよびＬも計算しなければならない。ｎお
よびしは選択トリー１−におけるノードの数にも対応し
ているということに留意されたい。

本実施例に基づく概念の理解を容易にするためこれを８
つのステップで記述する。ステップエないし３は上記初
期設定ステップに対応し、ステップ４は上記ステップ（
、）に対応する。残りのステップ５ないし８は上記の置
換選択組合せステップ（ｂ）を−膜化したものに対応す
る。

レコードに関する配列されたリストを組合せるために使
用される出力トリーのサイズしを計算する。

トリー組合せオペレーションにおけるキャッシュミス率
が低くなるように制限しながら、できる限りｔを大きく
選択する。

ｔはキャッシュのサイズと、トリー組合せオペレーショ
ンの特性（すなわち、このトリー組合せオペレーション
でどれだけのデータが参照されるかということ）と、分
類されるレコードおよびキーのサイズに基づくものであ
る。

ステップ２分類すべき未配列のレコードのセットについてサイズＳ
を計算し、トリー組合せオペレーションのための初期的
な配列リストを生成する。

分類オペレーションにおけるキャッシュミス率が低くな
るように制限しながら、できる限りＳを大きく選択する
。

Ｓはキャッシュのサイズと、初期的な配列リストを生成
する分類オペレーションの特性（すなわち、この分類オ
ペレーションでどれだけのデータが参照されるかという
こと）と、分類されるレコードおよびキーのサイズとに
基づくものである。

ステップ３出力トリーについて配列されたリストを生成するために
組合せが必要なサイズＳの配列リストの数であるｎを計
算する。

分類オペレーションにおけるキャッシュミス率が低くな
るようにｎを選択する。

所与のｔおよびＳに対して、ｎはプログラムに利用でき
る主記憶装置と、レコードのサイズとに基づくものであ
る。もう少し詳しくいえば、所与のｔおよびＳに対して
、ｎは一時にどれだけのレコードが記憶装置に存在し得
るかに基づくものである。ｎは、一時に記憶装置に存在
し得るレコードの最小の数をｔとＳとの積で割ったもの
となるように選択される。しは、キャッシュミス率を低
く保ちながらトリー組合せオペレーションで一緒に組み
合わせることのできる配列リストの最大数である。

ステップ４人力レコードを取得してこれらを分類する。このステッ
プは主記憶装置が一杯になるまで繰り返される。

ステップ５ステップ４で生成されたｎ個の配列リストの中間的なセ
ットを選択する。ｎが１なら、ステップ４で生成された
ｔ個までの配列リストを出力トリーに加えて、ステップ
８へ進む。

ステップ６上記中間的なセットからＬ個又はそれより少ない個数の
リストを除去し、これらを組み合わせて。

その合成された配列リストを中間的なセットに加える。

このステップは、中間的なセットが１つの配列リストに
なるまで繰り返される。

ステップ７上記１つの中間的セットのリストを出力トリーに加える
。ステップ４からｎ個以上のリストが残っていればステ
゛ツブ５に行く。

ステップ８作業ファイルバッファが充てんされるまで、リストから
のレコードを出力トリーに組み合わせる。

処理すべきレコードがまだ残っていればステップ４に行
く。

ステップ１において、レコードの配列リストを組み合わ
せるのに使用される出力トリーのサイズｔが計算される
。ｔはトリー組合せオペレーションにおけるキャッシュ
ミス率が゛低くなるように選択すべきものである。ステ
ップ２において、サブセットＳのサイズが計算される。

このサブセットＳのサイズは、その深さについての下方
の限界表わすものである、すなわち、初期的配列リスト
又はトリー組合せオペレーションを生成するために分類
される未配列レコードのサブセットについてキャッシュ
内に入れることのできるサブセットの深さである。再建
すると、Ｓは分類オペレーションにおいてキャッシュミ
ス率が低くなるように選択される。ステップ３において
、出力トリーに関する配列リストを生成するのに組合せ
の必要なサイズＳの分類されたサブセットの個数ｎが決
定される。この数ｎは利用可能な主記憶装置に基づくも
ので、所与のｔおよびＳに対して変動し得る。

ステップ４では、３個の入力レコードの取得およびそれ
らの分類が行われる。このステップは主記憶装置が一杯
になるまで繰り返される。

前述の如く、ステップ５ないし８は複数のサブパスを組
み合わせるステップに対応するものである。ステップ５
では、ステップ４において生成された配列リストのｎ個
の中間的なセットが選択される。もしｎが１なら、単に
ｔ個の配列リスト（これはステップ４で生成されたもの
である）を取得して、これを出力トリーに加えステップ
８に行く。ステップ８では、作業ファイルバッファが充
てんされるまで、出力トリーについてのリストからレコ
ードが組み合わせられる０作業ファイルバッファが充て
んされると、それらはそのとき書き込まれる。処理すべ
きレコードがまだ残っている場合は、ステップ４に戻ら
ねばならない、ｎが２以上であるときは、ステップ６へ
のブランチが生ずる。このとき、上記中間的なセットか
らｔ個またはそれより少ない数のリストが除去され、中
間的セットに加えられる配列リストと組み合わせられる
。このステップは中間的セットが１個の配列リストにな
るまで繰り返される。

ステージ式記憶システムにおいてキャッシュを使った分
類の例を２つ説明する。これらの例はメモリにおける１
２個のレコードを分類するものである。第１の例は従来
技術に基づく分類であり、第２の例は本発明に基づく分
類である。これらの例では、簡単のため、キャッシュ内
では一時に４つのレコードしか保持できないものと仮定
する。

二二に示す分類の手法は置換選択ではなく、単に。

リストの横断およびそのリストにおける最小のエレメン
トの選択に関するものである。この例に関していえば、
レコードはポインタによって論理的な配列でまとめてリ
ンクされているものと仮定する。この場合、分類手法は
単にポインタを書き直すことである。

まず、従来の方法について説明する。

メモリに在る全てのレコードを分類し、分類されたレコ
ードを作業バッファ又は他の出力領域へ適宜移動する。

主メモリ領域に在るレコードは初めは下記の順序でリン
クされているものと仮定する（ただし、これは必ずしも
物理的な順序を仮定しているわけではない）、レコード
の数は１２個と仮定する。

分類方法リストを横断して最下位のレコードを探索しそれを除去
する。再びリストを横断して新たな最下位のレコードを
除去する（以下同様）。この例は説明の簡単のために選
択されたものである。

キャッシュは４つのレコードを保持、又、初めは空であ
ると仮定されている。空であることはＩｔ　ＯｔＴで表
わすものとする。

キャッシュの初めの状態キャッシュミスおよびキャツシュヒツトはそれぞれ“−
”および“＋”で表わすことにする。

第１のレコード（Ｚ）と第２のレコード（Ｇ）とを比較
する。

比較後のキャッシュ一〇〇これまでのところで最下位のレコード（Ｇ）と３番目の
レコード（Ｂ）とを比較する。

比較後のキャッシュＧ＋これまでのところで最下位のレコード（Ｂ）と４番目の
レコード（Ａ）とを比較する。

Ｂ＋これまでのところで最下位のレコード（Ａ）と５番目の
レコード（Ｋ）とを比較する。

Ａ＋に− Ｚはキャッシュからフラッシュされたことに留意された
い。

初回のパスはその最後の比較のところまで続く６最後に
これまでのところで最下位のレコード（Ａ）と１２番目
のレコード（Ｙ）とを比較する。

Ａ＋一リストの始まりのところからの全てのレコードはＡを除
いてキャッシュからフラッシュされたことに留意された
い。

これでＡは最下位のレコードであるとわかる。

したがってＡはバッファ又や出力領域に移動される。第
１のパスの後、Ａが除去されてメモリ領域中のレコード
は下記のうよになる。

次に第２のパスが開始され、そのリストに残っているも
のの中で最下位のレコードを捜すため再びリストを横断
する。

１番目のレコード（Ｚ）と２番目のレコード（Ｇ）とを
比較する。

一一ＭおよびＵはキャッシュからフラッシュされたことに留
意されたい。

これまでのところで最下位のレコード（Ｇ）と３番目の
レコード（Ｂ）とを比較する。

Ｇ＋一これまでのところで最下位のレコード（Ｂ）と４番目の
レコード（Ｋ）とを比較する。

Ｂ　＋に− Ａはキャッシュからフラッシュされたことに留意された
い。

これまでのところで最下位のレコード（Ｂ）と５番目の
レコード（Ｒ）とを比較する。

Ｂ＋一Ｚはキャッシュからフラッシュされたことに留意された
い。

これまでのところで最下位のレコード（Ｂ）と５番目の
レコード（Ｌ）とを比較する。

Ｂ＋一Ｇはキャッシュからフラッシュされたことに留意された
い。

第２のパスはその最後の比較のところまで続く。

最後にこれまでのところで最下位のレコード（Ｂ）と１
１番目のレコード（Ｙ）とを比較する。

Ｂ＋一これでＢは最下位のレコードであるとわかる。

したがってＢはバッファ又は出力領域に移動される。第
２のパスの後、メモリ領域には１０個のレコードが存在
する。以上は１１個の全てのパスについて続く。

データのパスごとにルコードあたり１回のキャッシュミ
スがあることに留意されたい。

ここでレコードの個数をＸとする。そうするとデータに
ついてのパスはｘ−１回である。１回のパスについての
リストの平均的な長さはｘ／２である。１回のパスにつ
いてルコードあたり１回のキャッシュミスがあるから、
キャッシュミスの合計の回数は大雑把にいって、ｘ　／　２　（ｘ　−１）　＝　（ｘ　”　−ｘ　）　
／　２となる。上記の例でいうと、ｘ＝１２であるから
。

（ｘ”−ｘ）／２−６６である。

次に、本発明の基づく方法について説明する。

以下の記載は先に示した実施例のステップエないし８に
対応するものである。

ステップ１出力トリーのサイズｔが３と計算されたものと仮定する
。

ステップ２未配列レコードのセットのサイズＳが４と計算されたも
のと仮定する。

ステップ３分類されたセットの数ｎが１と計算されたものと仮定す
る。

ステップ４ｓ　　（＝４）個の入力レコードを取得しこれらを分類
する。これは主記憶装置が一杯になるまで繰り返される
。

主記憶装置は先の従来例の場合と同様、１２個のレコー
ドで一杯になるものとし、キャッシュも４個のレコード
を保持できるものとし仮定する。

メモリに在る初めの８個のレコードを分類する。

まず、１番目のレコード（Ｚ）と２番目のレコード（Ｇ
）を比較する。

一これまでのところで最下位のレコード（Ｇ）と３番目の
レコード（Ｂ）とを比較する。

一これまでのところで最下位のレコード（Ｂ）と４番目の
レコード（Ａ）とを比較する。

Ｂ＋これでＡは最下位のレコードであるとわかる。

したがってＡは配列されたリストの第１のレコードにリ
ンクされる。メモリ領域に存在するレコードは下記の如
くとなる。

このとき、キャッシュの内容は下記の如くである。

Ｓ個のレコードは初回のパスでキャッシュからフラッシ
ュされたことに留意されたい。

次に第２のパスの第１段階が開始される。

まず１番目のレコード（Ｚ）と２番目のレコード（Ｇ）
とを比較する。

Ｚ＋Ｇ＋これまでのところで最下位のレコード（Ｇ）と３番目の
レコード（Ｂ）とを比較する。

Ｇ＋Ｂ＋これでＢは最下位のレコードであるとわかる。

したがって、Ｂは配列されたリストにおける第２のレコ
ードにリンクされる。メモリに存在するレコードは下記
の如くとなる。

第２のパスの第２段階では４つのレコードはキャッシュ
からフラッシュされなかったことに留意されたい。

第２のパスの第２段階が開始される。１番目のレコード
（Ｚ）と２番目のレコード（Ｇ）とを比較する。

Ｚ＋Ｇ＋Ｇは最下位のレコードであるとわかる。したがってＧは
配列されたリストにおける第３のレコードにリンクされ
る。残っているレコードは２だけであるから、Ｚは配列
されたリス１−における第４のレコードにリンクされる
。かくして配列リストは下記のような論理的に分類され
た順序になる。

第２のパスの第３段階では４つのレコードはキャッシュ
からフラッシュされなかったことに留意されたい。

第１のパスでルーコードあたり１回のキャッシュミスが
生じたが、後続のパスではキャッシュミスは全く発生し
ていない。

ステップ４は主記憶装置が一杯になるまで繰り返される
。すなわち、この例でいうと、Ｓ個のレコードの後続の
セットは配列リストに記憶され、その結果は下記の如＜
ｔ（＝３）個のリンクされたリストである。

Ａ　　　　　　Ｄ　　　　　　ＭＢ　　　　　　Ｋ　　　　　　ＰＧ　　　　　　Ｌ　　　　　　ＵＺ　　　　　　ＲＹレコードについての他の２つのサブセットの分類はここ
に示さなかったが、サブセット（ＺＧＢＡ）が分類され
たのと同じやり方で行われる。これらの全てのサブセッ
トについて、キャッシュミスはルコードあたりわずかに
１つにすぎない。

ステップ５ｎ＝１なので、を個の配列リストは出力トリーに加えら
れてステップ８へ行く。

ステップ８ステップ４で生成されたｔ個の配列リストのレコードを
組み合わせる。

次に示すのは、メモリ領域における配列された４つのレ
コードについての３つのリストおよび出力トリーのはじ
めの構造である。

ここで、各リストの最前にあるレコードを分類するため
、分類されているレコードを横断して最下位のレコード
を探索しこれを除去し、再びリストを横断して新たな最
下位のレコードを除去する（以下同様）ものと仮定する
。

第１のし：＋−ド（Ａ）と第２のレコード（Ｄ）とを比
較する。

八− り− これまでのところで最下位のレコード（Ａ）と第３のレ
コード（Ｍ）とを比較する。

Ａ＋これでＡは最下位のレコードであるとわかる。

したがってＡはバッファ又は出力領域に移動される。配
列リストにおける次のレコード（Ｂ）が組み合わせられ
る。キャッシュのフラッシュが全く生じていないことに
留意されたい、キャッシュミスが発生するのは各レコー
ドを最初に参照したときたけである。メモリ領域におけ
る配列されたレコードについての３つのリストおよび出
力トリーの構造は下記の如くになる。

ＲＹここで、再び各リストの最前のレコードを比較して最下
位のレコードを捜す。

第１のリストからのレコード（Ｂ）と第２のリストから
のレコード（Ｄ）とを比較する。

Ｄ＋これ・までのところで最下位のレコード（Ｂ）と第３の
リストからのレコード（Ｍ）とを比較する。

Ｂ　＋Ｍ＋これでＢは最下位のレコードであるとわかる。

したがってＢはバッファ又は出力領域に移動される。配
列リス１−における次のレコード（Ｇ）が組み合わせら
れる。キャッシュのフラッシュが全く生じていないこと
に留意されたい。キャッシュミスが発生するのは、各レ
コードを最初に参照したときだけである。メモリ領域に
おける配列されたレコードについての３つのリストおよ
び出力トリーの構造は下記の如くになる。

第１のリストからのレコード（Ｇ）と第２のリストから
のレコード（Ｄ）とを比較する。

Ｄ＋ＡはキャッシュからフラッシュされたがＡは既に出力領
域に移動されていることに留意されたい。

Ａはもはや組み合わせられない。

これまでのところで最下位のレコード（Ｄ）と第３のリ
ストからのレコード（Ｍ）とを比較する。

Ｄ＋Ｍ＋これでＤは最下位のレコードであるとわかる。

したがってＤはバッファは出力領域に移動される。

配列リストにおける次のレコード（Ｋ）が組み合わせら
れる。キャッシュのフラッシュは、既に移動されたレコ
ードについてだけであり、したがってこれはもはや組み
合わせられないということに留意されたい。メモリ領域
において配列されたレコードについての３つのリストお
よび出力トリーの構造は下記の如くになる。

以上は全ての３つのリストにおける全てのレコードがバ
ッファ又は出力領域に配列された順序で記憶されるまで
同様にして続けられる。ここで重要なのは、ステップ８
の組合せにおいてルコードあたり１回しかキャッシュミ
スが生じないこと、およびキャッシュミスはレコードが
最初に参照されたときに生ずることである。その後、レ
コードはそれが組合せに選択されバッファ又は出力領域
に移動されるまでキャッシュに残る。

ステップ８の組合せにおいては、各レコードが組合せに
入れられるときルコードあたり１回のキャッシュミスが
生じるが後続のパスではキャッシュミスが生じないこと
に留意されたい。ステップ４においてもキャッシュミス
はルコードあたり１回しか生じない。

したがって、レコードの個数をＸとして、この例では全
てのステップで合計２ｘ回のキャッシュミスが生じてい
る。従来の方法によればこれは（ｘ”−ｘ）／２である
。

したがってこの例でいえば、従来の方法だと６６回のキ
ャッシュミスが生じるのに対し本発明によればキャッシ
ュミスはわずか２４回しか生じない。これはｘ＝１２の
場合についての比較であるが、Ｘが大きくなるにつれて
両方法の差はますます顕著なものとなる。

Ｅ１発明の詳細な説明したように本発明によれば、キャッシュを用いて
レコードセットを有効に分類することができる。

【図面の簡単な説明】

第１図は階層式メモリの構成例を示す図、第２図は成る
参照ス１−リングについてのキャッシュの参照の様子を
説明する図である。出願人　　インターナショナル・ビジネス・マシーンズ
・コーポレーション代理人　　弁理士　　頓　　宮　　孝　　−（外１名）瑞１式メモリの＃Ｌ成の例第１図壇り隈ストリシグキヤツジ：Ｌ参照の撮乎

Claims

【特許請求の範囲】下記のステップ（ａ）および（ｂ）より成るレコードセ
ット分類方法。（ａ）第１のパスにおいて、レコードのキーのサブセッ
トをキャッシュに呼び出して該サブセットにおいてキー
を配列させるステップ。（ｂ）第２のパスにおいて、配列されたサブセットの要
素について前記キャッシュの容量に見合うように組合せ
を実行するステップ。