JPS63131227A

JPS63131227A - デ−タ処理方式

Info

Publication number: JPS63131227A
Application number: JP61276555A
Authority: JP
Inventors: Akira Yamamoto; 彰山本; Tadashi Osone; 匡大曽根; Masashi Tsuchida; 正士土田; Hiroyuki Kitajima; 北嶋　弘行
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1986-11-21
Filing date: 1986-11-21
Publication date: 1988-06-03

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、リレーショナル・データベースにおいて、同
一ローの異ったカラム間の結合処理に関する。

〔従来の技術〕

本発明は、リレーショナル・データベース演算において
、カラム・ワイズに格納したテーブルのカラム間のつき
合せ高速に処理する方式に関する。

リレーショナル・データベースは、テーブルと称する２
次元マトリクスのデータ構造を持つデータの集合である
。この中で、テーブルの横の部分がローと呼ばれ、通常
のファイルのレコードに相当し、縦の部分がカラムと呼
びれ１通常のファイルのフィールドに相当する。

この場合、テーブルを補助記憶装置に格納する型式とし
ては、同一ローに属する値の集合をまとめて格納するロ
ー・ワイズ型式と同一カラムに属する値をまとめて格納
するカラム・ワイズ型式の２種類がある。どちらの格納
型式が効率的であるかは、アクセス・パターンにより異
り、一方に決定することはできない。

本発明では、カラム・ワイズに格納したテーブルにおけ
るデータベース（ＤＢと略す）処理を扱う。

カラム・ワイズにデータを格納した場合、各カラムごと
に、値とロー識別子（ＩＤと略す）のペア情報が１つの
エントリとしてディスク上に格納される。

リレーショナル・データベースにおける最も属性的な演
算の１つにセレクションと呼ばれる演算がある。これは
、例えば、あるテーブルのカラムＡが１００以上でカラ
ムＢが５０以下のローの集合を求めるというものである
。

この場合、まず、カラムへの情報をディスク装置から読
み出すとする。これらの情報に対し、指定された演算を
施すと、カラムＡの値が１００以上のイ１６であるロー
ＩＤとこのローＩＤの実際のカラム値の集合が得られる
ことになる。次に、カラムＢの情報をディスク装置から
読み出す。これらの情報に対して指定された演算を施す
と、カラムＢの５０以下の値であるローｉＤとこのロー
ＩＤの実際のカラム値の集合が得られることになる。

この時、カラムＡに関する条件を満足するローＩＤの集
合とカラムＢに関する条件を満足するローＩＤの集合共
通に含まれるローＩＤの集合が求めるローＩＤの集合と
いうことになる。さらに、テーブルを構成するカラムＡ
、カラムＢ以外のカラムの情報も取り出す必要がある。

例えば、カラムＣの場合、カラムＣ全体の情味の中から
、カラムＡとカラムＢの条件をみたすローＩＤの集合と
それぞれのローＩＤが有するカラムＣの値を取り出す必
要がある。以上の処理をカラムＣ以外のカラムに対して
も実行する必要がある。

従って、カラム・ワイズに格納されたテーブルのＤＢ処
理においては、ローＩＤの集合とローＩＤの集合のつき
合せ処理が非常に多く発生する。

つき合せ処理は、そのまま実行するとそれぞれの集合に
属するローＩＤの個数をＭ個、Ｎ個とするとＭＸＮのオ
ーダの処理量を必要とする。これは非常に多くの処理量
となる。一方、前もって、それぞれのローＩＤをソーテ
ィングしてからローＩＤのつきあわせ処理を開始すると
処理量のオーダを、Ｍ　Ｑ　ｏｇＭ　＋　Ｎ　Ｑ　ｏｇ
Ｎにまで減じることができる。

従って、第５世代コンピュータ機構のＤＢマシン・デル
タ（Ｄｓｌｔａ）では専用のソート・エンジンにより、
ローＩＤのソーティングを行ってから。

つき合わせ処理に入る方式をとっている。

しかし、ソート処理は専用エンジンを使用しても負荷の
多い処理である。特に、セレクション指定のないカラム
に関しては、テーブル全体のロー数に等しいローＩＤの
ソート処理が必要となるため、処理量が大きくなる。

これに対して、ハツシュ関数を利用する方法もある。こ
の手法は、テーブルとテーブルのジョイン処理に用いら
れている。テーブルとテーブルのジョイン処理の際には
、ローＩＤのつき合せ処理ではなく、カラム値どうしの
つき合せ処理が必要となる。ハツシュ処理は１つのロー
ごとに実行することが可能であるため、データ転送処理
と回期して実行可能である。

ＩＣＬ社のデータベースマシンＣＡＦＳでは、ジョイン
処理の際、ハッシュ・ビット・アレイという方式を用い
ている。これは、一方のテーブルの条件を満たしている
ローのジョイン対象カラムの値の集合の値のそれぞれに
対し、ハッシュイング関数を適用する。具体的にはハツ
シュ関数の結果の定義域をＭとするとＭビットのアレイ
を用意し、あらかじめ、すべてのビットを′０′にして
おく。このアレイをＴ、ハツシュ関数をｆ、カラム値を
ｎとすると。

Ｔ（ｆ（ｎ））←“１′　　　　　　　　・・・（１）
という操作をすべてのカラム値に対して実行する。

次に、もう一方のテーブルを読み出す際には。

ジョイン対象となるカラムのカラム値をとりだし。

以下のチェックを行う、この時のカラム値をｍとする。

Ｔ（ｆ（ｍ））”Ｏｏｒ　　Ｔ（ｆ（ｍ））＝１　　−
（２）この時、Ｔ（ｆ（ｍ））＝Ｏであれば、このロー
は選択の対象とせず、Ｔ（ｆ（ｍ））＝１となるローの
みを選択対象とする。

この時、ジノニウムの発生が問題となる。これは、カラ
ム値が異っても、関数適用の結果が等しくなるというも
のである。これは、カラム値の分布により発生するもの
で、ジノニウムの発生を少なくするような関数の設定は
事実上困難であるという問題があった。

一方１発明者らは、特願昭６１−２８８０７の中で、一
方のテーブルの条件を満足するローのジョイン対象とな
るカラムの値の集合をソートしておき、もう一方のテー
ブルをディスク装置から転送する際、このデータ転送処
理と同期して、ジョイン・カラムの値をソートされた情
報の間でバイナリ・サーチ処理を行う方式を提案してい
る。

しかし、ＣＡＦＳや特願昭６１−２８８０７で対象とし
ているのはテーブルのジョイン処理に関する方式であり
、カラム・ワイズに格納されたテーブルにおけるローＩ
Ｄ処理を対象としたものではない。

〔発明が解決しようとする問題点〕

第５世代コンピュータ機構で研究開発したＤＢマシンデ
ルタ（Ｄｅｌｔａ）はカラム・ワイズに格納されたテー
ブルを扱っているため、ローＩＤのつきあわせ処理が頻
繁に発生する。Ｄｅｌｔａでは専用ソート装置により、
ローＩＤのつきあわせ処理を実行している。しかし、専
用エンジンを用いるとはいえ、ソート処理は負荷量の多
い処理である。

一方、ＩＣＬ社のＣＡＦＳではジョイン処理に対してハ
ッシュ・ビット・アレイ方式を適用して、ジョイン対象
となるカラムに関する選別処理を行っている。また、発
明者らは、特願昭６１−２８８０７において、２分検索
専用のハードウェアを用いて。

ジョイン対象となるカラムどうしのつき合せを行ってい
る。しかし、以上の技術は、ジョイン処理において、ジ
ョイン対象となるカラムに関する演算処理である。

本発明は、ローＩＤのつき合せ処理をデータ転送と同期
して、専用ハードウェアで実行し、見かけ上データ転送
時間だけでこれらの処理を完了させるものである。

〔問題点を解決するための手段〕

本発明は、ローＩＤのつきあわせ処理をデータ転送と同
期して実行する方式に関し、基本的には、従来のジョイ
ン処理において用いられている手法を応用する。

ハッシュ・ビット・アレイ方式は、ハツシュ関数を用い
るため、ジノニウムの発生が問題となるため、ジノニウ
ムの発生が少ないハツシュ関数の設定が重要である。し
かし、ジノニウムの発生はハッシュイングの対象となる
値の分布により定まるため、従来技術であるジョイン処
理適用時には、ジョイン対象となるカラム値の分布によ
りハツシュ関数を変更したり、カラム値の分布などを知
る必要があり、実システムへ適用する際の大きな障害と
なっていた。

しかし、本発明の対象となるローＩＤの場合には、ロー
ＩＤのつけ方は各ＤＢＭＳにおいて一様であるため、カ
ラム値の分布も既知であり、ハツシュ関数も１つ用意す
ればすむ、しかし、ローＩＤのつけ方は１例えば、１番
から順につけていくなという比較的単純なケースが多い
ため、特定のビットを取り除くなという簡単な操作で関
数適用後の値をランダマイズすることが可能である。

ランダマイズ可能となる場合には、ジノニウムの発生は
少ないということは周知の事実であるため。

ローＩＤのつき合せ処理には、ハツシュ関数を用いた方
式が向いていると考えらる。

さらに、ＣＡＦＳで採用されている方式では、単にロー
を選別しているだけで、実際にどのローとどのローを結
合するなどという情報はＣＡＦＳでは作成しない、また
、ローの結合処理はＣＰＵ側で行なわれるが、具体的な
方式については触れられていない。本発明では、単に１
選別を行うだけでなくどの日−ＩＤとどのローＩＤを結
合するかを、判別するための補助情報も、データ転送と
同期して作成する。

一方、発明者らは、特願昭６１−２８８０７の中で、一
方のケーブルのジョイン対象となるカラムの値をソート
しておき、もう一方のテーブルを転送する際に、このデ
ータ転送と同期して専用の２分検索エンジンにより、異
ったテーブルのローどうしの結合情報を作成する方式を
提案している。本方式はローＩＤの結合の際にも適用可
能であり、あるカラムに関する条件を満足したローＩＤ
の集合をソートしておき、別のカラムの値とローＩＤか
ら構成される情報をディスクから転送する際、ローＩＤ
の結合情報を作成することができる。

本発明は基本的には、カラム・ワイズに格納されたテー
ブルにおけるローＩＤの結合情報作成に関するものであ
るが、ロー・ワイズに格納されたテーブルのあるカラム
に対して付けられたインデクス処理に対しても有効であ
る。インデクスは、カラム値とローＩＤからなる情報を
バイヤー　ツリー（Ｂ−ｔｒｅｅ）化したものであるた
め、インデクスを全体検索することは、カラム・ワイズ
に格納されたテーブルにおいて、あるカラムに関して、
カラム値とローＩＤからなる情報をすべてのローに対し
て検索することと等価である。従って、検索対象となる
すべてのカラムにインデクスが付けられていれば、本発
明は、ローワイズに格納されたテーブルの検索処理に対
しても適用できる。

〔作用〕

本発明は、データ転送と同期して、カラム・ワイズに格
納されたデータベースにおいて、同一ローの異ったカラ
ム間のつきあわせ情報をデータ転送中に作成する方式に
関する。

基体的には、ハツシュ関数によりフィルタリングを行う
機構（ハッシュ・ビット・アレイ）を■１０系に設けた
ＤＢマシン内に設青し、最初に転送したカラム値のロー
ＩＤの集合からハッシュ・ビット・アレイを作成し、こ
れを次のカラム値十ローＩＤから成るデータを流す際に
、ローＩｒ）のフィルタリングを行い、ローＩＤとロー
ＩＤの結合情報を作成する。

あるいは、ＤＢマシン内に２分検索用のハードを設け、
ローＩＤ情報と直接比較処理を行って、ローＩＤのフィ
ルタリング処理を行い、ローＴＤとローＩＤの結合情報
を作成してもよい。

〔実施例〕

以下１本発明の詳細な説明する。第２図は。

本発明の実施対象となる計算機システムの構成である。

計算機システムは、ＣＰＵ１０．主記憶装置１１．チャ
スル１２．ＤＢマシン１３．制御装！１Ｔ１４．１個以
上のディスク装置１５から構成される。

本実施例では、二次記憶装置をディスク装置１５とした
が、別に他の装置の場合でも有効である。ＤＢマシン１
３が本発明の対象となるＤＢ演算の大半を実行する。本
実施例では、ＤＢマシン１３をチャネル１２と制御表［
１４の間に置いたか、ディスク装置１５と主記憶１１の
間の任意の位置でよく、また、任意の装置内にこのＤＢ
マシン１３の機能を組み込んでもよい。また、本実施例
では、チャネル１２以下の構成を１系列にしたが、チャ
ネル１２．ＤＢマシン１３．制御装置１４などは、計算
機システムの中に複数個存在してよい。さらに、複数の
ＣＰＵを有する計算機システムの場合にも本発明は有効
である。

第１図には、この計算機システムのソフトウェア構成を
示す、ソフトウェアは、ＣＰＵｌ０．及び、主記憶１１
側に存在する。ソフトウェアは、ＲＤＢの管理を行うＲ
ＤＢＭＳ　（ソレーショナルデータベース　マネジメン
ト・システム：Ｒｅ１ａｔｉｏｎａｌ　Ｄａｔａｂａｓ
ｅ　Ｍａｎａｇｅｍｅｎｔ　ＳｙＳｔｅｍ）２０　。

ＲＤＢＭＳに対してＡＰ（アプリケーション　プログラ
ム：　Ａｐｐｌｉｃａｔｊ、ｏｎ　Ｐｒｏｇｒａｍ）　
２　Ｌ、ハードウェア装置、計算機システムなどのＩＲ
理などを行なうＯＳ（オペレーティング　システム：　
ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）　２２が存在する。

ただし、ＲＤＦＩＭＳ２０．がハードウェア装置などの
管理機能を持てば０８２２存在しなくともよい。また、
ＡＰ２１は別装置に存在してもよい。ただし、この場合
には、別’！Ａ７１のＡＰ２１との通信を行う通信管理
プログラムがＣＰ　Ｕ　１０及び主記憶１１側に存在す
るものとする。

ＡＰ２１は８０８ＭＳ２０に対して、Ｄ　Ｂ演算要求を
発行する。ＲＤｎＭＳ２０はＡＰ２１から受は取ったＤ
Ｂ演算要求を調べ、ＤＢマシン１３に実行させるべき処
理を決定し、この処理要求をＤＢマシン１３に発行する
。

８０８ＭＳ２０で扱うデータは第３図に示す様に、マト
リクス状のテーブル３０（通常のファイル）の集合であ
る。テーブル３０はＮ組のカラム３２から構成されるロ
ー３１より構成される。各ロー３１の同じカラム３２の
値は同じ定義値を持つ。

例えば、０番めのカラム３２が国名を表すとすると、各
ローのこのカラム３２の値は、′米国′とか１日本′と
いった値となる。

８０８ＭＳ２０に対する最も典型的な処理要求は、あめ
条件を満足したローの集合の中から特定のカラムを取り
出し、もとのテーブルの部分集合からなるテーブルを作
成する。この例を第４図に示す。

第４図の例は、カラムＡ４０（商品名）がボルトである
ローの集合から、カラムＡ４０とカラムＢ４１　（店主
名）を切り出す処理である。検索結果は、検索結果テー
ブル４２という形で表われされる。

計算機システムの記憶装置は１次元の装置であるために
、主記憶１１上に格納する場合も、ディスク装置上に格
納する場合も、ロー・ワイズにテーブルを格納するか、
カラム・ワイズにテーブルを格納するかを決定する必要
がある。第５図は、これを示したものである。

第５図（ａ）は、テーブルをロー・ワイズに格納したも
ので、同一ローの各カラムのバリューを連続した領域に
格納するものである。この際、それぞれのバリューに対
応して、このバリューがどの方ラム３１のバリューであ
るかと示すカラムＩＤがつけられる。

第５図（ｂ）は、テーブルをカラム・ワイズに格納した
もので、同一カラム３２の各ローのバリューを連続した
領域に格納するものである。この際、それぞれのバリュ
ーに対応してどのロー３０のバリューであるかを示すロ
ーＩＤが付けられる。

通常、テーブルを構成するカラムの数は多くとも数１０
０件であり、テーブル３ｏをロー・ワイズに格納した場
合、すべてのロー３１の情報を同じカラム３２順に並べ
ることは比較的容易である。

一方、テーブル３０を構成するロー３１の数は。

数１０万件になる場合もまれでないため、カラム・ワイ
ズにテーブル３０を格納する場合、すべてのカラム３２
の情報を同じロー３１順に並べることば困雛である。

一般に、テーブル３０をロー・クイズに格納する方が効
率がよいか、カラム・クイズに格納する方が効率がよい
かはアクセス・パターンによって決定する。

従って、ロー・ワイズの格納型式を採用しているＤＢＭ
Ｓもカラム・ワイズの格納型式を採用しているＤＢＭＳ
も世の中には存在する。

テーブルをディスク装置１５上にロー・ワイズに格納す
ると条件を満たすロー３１を見い出すためには、テーブ
ル３０全体を主記憶に転送する必要がある。従って、こ
れを防止するため、頻繁に条件指定されるカラム３２に
はインデクスが作成されろ。インデクスは、すべてのロ
ー３１のインデクス作成対象となっているカラム３２の
バリュー３３とローＩＤ５１のペア情報を、バリュー３
３Ｊｌｉ’ｉにソートし、Ｂ−ｔｒｅｅ化したものであ
る。

このため、インデクスを全件検索することは、カラム・
ワイズに格納されたテーブルのある１つのカラム３２全
体を検索することと等価となる。従って、切り出しの対
象となるすべてのカラムに対してインデクスが付けられ
ている時には、カラム・ワイズに格納されたテーブル３
０に対する検索処理と等価な検索処理が可能である。

次に、カラム・ワイズに格納されたテーブル３０に対す
る処理方式例について述べる。ここでは、第４図に示し
た例を用いる。

まず、カラムＡ４０に関する検索を行い、カラムＡ４０
の値がボルトであるローｒＤ５１の集合をうる。次に、
カラムＢの検索を行うが、この時、カラムＢに関するバ
リュー３３＋ローＩＤ５１の集合の中で、選択の候補と
なるものは、カラムＡの条件を満足するローＩＤ５１を
有するバリュー３３＋ローＩＤ５１の集合である。従っ
て、カラムＡの条件を満足するローＩＤ５１の集合とカ
ラムＢのすべてのローＩＤ５１の集合とのつき合せ処理
を行い、どのカラムＡのバリューとどのカラムＢのバリ
ューを結合すべきかを判別する必要がある。

ソーティングを行なわないで、あるローＩＤの集合とロ
ーＩＤの集合の共通集合を求めようとすると処理のオー
ダは、（ローＩ　Ｄ）”必要とする。

ソーティングを行うと（ローＩＤ）ＸＱｏｇ（ローＩＤ
）のオーダとなるため、ローＩＤのつき合せ処理を行う
際には、しばしばソーティングが用いられる。しかし。

この場合、カラムＡに関しては、条件を満足したローＩ
Ｄの集合のみをソート対象とするためそれほど問題ない
が、カラムＢに関しては、テーブル３ｏのロー３１数に
等しいローＩＤ５１のソート処理を実行しなければなら
ないので、非常に処理量が大きくなる。

本発明では、ローＩＤ５１のつき合せ処理を、二次記憶
装置からのデータ転送と同期して実行する方式、及び、
装置に関する０本発明では、２つのつき合せ方式を発明
の対象とする。

第１の方法はハッシュ・ビット・アレイ方式に基づく方
法である。ハッシュ・ビット・アレイ法は、ＣＡＦＳで
ジョイン処理の際、ジョイン・カラムに対して用いられ
ているが、ジノニウムを少なくするために、ジョイン・
カラムの値の分布によって適切なハツシュ関数の選択が
必要であり、この点で問題であった。しかし、ローＩＤ
５１の場合は、通常、単純に１番から順につけらていく
ことが多いため、適当なビットを取り除くことにより、
ランダマイズすることができる。また、ＣＡＦＳでは、
単にロー３１を選別するのみで。

異ったテーブルのどのロー３１とどのロー３１をジョイ
ン対象とするかという情報は作成していない。また、Ｃ
ＰＵ側でこれらのジョイン処理を基体的にどのように行
うかについては述べていない。

本発明では、この点についても考慮する。

以下、ハツシュ−ビット・アレイ方式について述べる。

基本的には、Ｎビットのハッシュ・ビット・アレイを作
成する。Ｔ　（Ｎ）をＮビットのハッシュ・ビット・ア
レイとする。ハツシュ関数を、ｆとする。第４図に示し
た例では、まず、カラムＡの条件を満足するバリュー３
２とローＩＤ５１の集合が得られる。第１１図（ａ）に
示すように、この集合を６１２０とし、集合の元（この
場合。

１組のバリュー３３十ローＩＤ５１）の数をに個とする
。δ、Ｖ１２１をバリュー３３．δ、工１２２をローＩ
Ｄ５１、それぞれの集合とする。

以下、δ、Ｉに属するローＩＤ５１の集合すべてに対し
、あらかじめすべてのビットをクリアしたＴ　（Ｎ）に
対して、以下に示す演算を施す。

Ｔ（ｆ（δ、　Ｌ　（ｋ）　）←１　　　　　　・・・
（３）（ｋ＝１．・・・・・・、Ｎ）（３）式により、ハッシュ・ビット・アレイが完成され
る。この場合、カラムＢ４１を読み出した時、カラムＢ
４１のバリュー３３十ローＩＤ５１の集合の中で、ロー
ＩＤ５１が次式を満たさなければ、このローＩＤ５１は
カラムＡ４０に関して条件を満足するローＩＤの集合に
は、属する可能性は全くないため、主記憶１１までこの
情報を送る必要はない。

Ｔ（ｆ（ローＩＤ））＝１　　　　　　　　・・・（４
）ジョイン処理を対象としたＣＡＦＳなどのハッシュ・
ビット・アレイ方式では、同様にジョイン対象となるカ
ラム３２のバリュー３３にハツシュ関数を適用し１次式
を満たさないロー３１は主記憶に送らないようにしてい
る。（ＣＡＦＳでは、ロー・ワイズに格納されたテーブ
ル３０を取り扱いの対象としている。）Ｔ（ｆ（バリュー））＝１　　　　　　　・・・（５）
しかし、ＣＡＦＳに関する公知例は、以上の内容で、実
際にどのロー３１とどのロー３１を結合させるかに関す
る処理方式は特に関与していない。

この場合、ローＩＤ５１のつき合せを行い、同じローＩ
Ｄ５１を有するカラムＡ４０のバリュー３３とカラムＢ
４１のバリュー３３を結合させ、フィルタリング結果４
２を作成するためには、以下の様なことを可能にする必
要がある。

（１）ジノニウムの発生をチェックできる。

（２）カラムＢのあるローＩＤ５１＋バリユー３３が与
えられた時、同じローＩＤ５１を有するカラムＡのバリ
ュー３３を高速にみつけることができる。

第１１図の（ｂ）は、（１）、（２）の条件をみたすデ
ータ構造を示す、ハツシュ・ポインタ・アレイ１２３は
、Ｎ個のポインタを格納するアレイである。ローＩＤポ
インタ１２４＋次ポインタ１２５は、１つのペア情報で
ある。この場合、ローＩＤポインタ１２４がある１つの
ローＩＤ５１をポイントするため、ハツシュ・ポインタ
・アレイ１２３のｎ番めのポインタから次ポインタ１２
５をたどることにより参照されるローＩＤポインタ１２
４の集合がさし示すローＩＤ５１の集合か、カラムＡ４
０の条件を満たすローＩＤ５１の集合のうちｆ（ローＩ
Ｄ）がｎとなるローＩＤの集合となるようにする。これ
により、カラムＢに関するあるバリュー３３十ローＩＤ
５１が与えられた時、ハツシュ・ポインタ・アレイ１２
３のｆ　（ローＩＤ）番目のポインタを次ポインタ１２
５が空となるまでたどり、この間のローＩＤポインタ１
２４が指すローＩＤ５１の集合の中に該当するローＩＤ
５１があるかを確かめる。存在しない場合には、このバ
リュー３３＋ローＩＤ５１は選択の必要がないことにな
る。一方、同じローＴＤ５１が見つかった時には、この
ローＩＤ５１に対応するカラムＡのバリュー３３も見つ
かるため、ローＩＤ５１が等しいカラムＢ４１のバリュ
ー３３とカラムＡのバリューを結合できる。

次に、ローＩＤ５１のソート情報を用いて２分検索を行
う方式について述べる。この場合は、カラムＡの条件を
満足するバリュー３３＋ローＩＤ５１の集合内のローＩ
Ｄのソート結果を用いて。

ＤＢマシン内で、カラムＢに関するバリュー３３＋ロー
ＩＤ５１の集合をフィルタリングする。この場合、カラ
ムＢ内のそれぞれのローＩＤ５１を取り出し、ローＩＤ
５１のソート情報との間で２分検索を行い、一致したも
ののみ、バリュー３３＋ローＩＤ５１をＣＰＵ１０側に
送る。この時、何番めのソート情報と一致したかという
一致情報をつける。この後、ＣＰＵ側で、カラムＡ４０
とカラムＢ４１のつき合せ処理を行う。

以下、各部の処理フロー図を説明する。

まず、Ｃ：ＰＵｌの側の処理フローを説明する。

第６図は、ハッシュ・ビット・アレイ方式を用いる場合
の、処理フロー図である。

ステップ６００は、他のカラム３２の条件を満たしたロ
ーＩＤ５１の集合より、ハツシュ・ビツト・アレイＴｚ
（Ｎ）の情報作成、異なったカラム３２のバリュー３３
と結合するためのハツシュ・ポインタ・アレイ１２３な
どの情報を作成する。

次に、ステップ６０１では、ＤＢマシン１３に検索要求
を発行する。この時、ＤＢマシン１３に対しては、ステ
ップ６００で作成したハッシュ・ビット・アレイＴｚ（
Ｎ）、及び、検索対象となるカラムに対して付加された
条件式、この条件式とこれ以外の条件式との論理関係（
アンドかオアかということ）などを送り、ＤＢマシン１
３からの検索結果が帰ってくるのを待つ。

ステップ６０２では、ＤＢマシンのフィルタリング結果
と、ハツシュ・ポインタ・アレイ１２３などの情報に基
づき、ジノニウムの発生をチェックし、他のカラムとの
結合情報を作成する。

次に、ローＩＤ５１のソート情報を用いる場合について
、第７図を用いて説明する。ステップ７００は、他のカ
ラムの条件を満たしたローＩＤ５１の集合のソート処理
を行う。

ステップ７０１では、ＤＢマシン１３に検索要求を発行
する。ステップ６０１と異なるのは、ハッシュ・ビット
・アレイのかわりにローＩＤ５１のソート情報を送るの
が異るのみで片は、同様である。ステップ７０２では、
フィルタリング結果と他のカラム３１との情報に基づき
、結合処理を行う。

以下、ＤＢマシン側の処理の流れについて述べる。第８
図は、ＤＢマシンの樋成図である。プロセッサ８０は、
チャネル１２、制御装置１４とのインターフェイス、基
本的なりＢ演算を実行する。

データ転送装置８１は、制御装置１４との間のデー転送
を行う。プロセッサ用メモリ８２はプロセッサ８０用の
メモリである。

専用エンジン用メモリ８５には、ハッシュ・ビット・ア
レイ方式によりローＩＤ’５１をフィルタリングする場
合には、ハッシュ・ビット・アレイを格納する。一方、
ソートされたローＩＤ５１の集合と２分検索処理を行う
場合、ソートされたローＩＤ５１の集合を専用エンジン
用メモリ５５に格納する。

ハツシュ・エンジン８６は、ハツシュ関数演算を実行し
、ハッシュ・ビット・アレイ内の対応ビットが１かＯか
を判別する。ハツチド・サーチ・エンジン８７は、２分
検索処理を行う専用ハードウェアである。

共通メモリ８８は、プロセッサ８０、データ転送装置８
１により共にアクセスされる情報である。

共通メモリ８８に格納される情報を第９図に示す。検索
筒ｒＩｆｉ９０はディスク装置１６の中の検索対象とな
る装置の識別子とこの装置の中の実際に検索すべき範囲
を表す、テーブルＩＤ９１．カラムＩＤ９２は検索対象
となるテーブル３０、カラム３１の識別子である。条件
式９３は、ローＩＤ５１に関するフィルタリング以外に
、このカラム３１のカラム値に対して指定した条件１例
えば。

カラム値が１０以下であるという条件式を表す。

論理式９４は、ローＩＤに関するフィルタリングと条件
式９３で示した他の条件式とのアンド、オアの論理式を
表わしたものである。

フィルタリング・タイプ９５は、ローＩＤ５１のフィル
タリングをハッシュ・ビット・アレイで行うか、２分検
索で行うかを示す、情報数９１０は、ハッシュ・ビット
・アレイ方式の場合、アレイのビット数、２分検索で処
理する場合、ソートされたロー１０５１の個数を表す。

フィルタリング結集格納領域９６は、論理式９４に示さ
れた論理条件を満たしたローＩＤ５１＋バリユー３３の
ペア情報を格納する領域である。

入カバツファＡ９７．入カバツファ８９８はディスク装
置１６から読み出した１つのブロックのデータを格納す
るバッファである。バッファを２面設けた理由はディス
ク装置１６からのデータ転送とＤＢ演算を並行して行う
ためのである。

以上、プロセッサ８０の処理フローを説明する。

プロセッサ８０は本発明の対象となる処理以外の処理が
可能であってもよいが、ここでは本発明の対象となる部
分について述べる。

第１０図はプロセッサ８０の処理フロー図である。プロ
セッサ８０は、チャネル１２から検索要求を受は取った
時に動作を開始する。まず、ステツブ１１ｏＯで、検索
情報と共通メモリ８７内の所定の場所、例えば、検索範
囲に関する情報は、検索範囲９０に設定する。さらに、
ハッシュ・ビット・アレイ、あるいは、ローＩＤ５１の
ソート情報を専用エンジン用メモリ８５に格納する。

ステップ１１０１では、検索筒ＶＩｉ９０より得た情報
により、制御装置１４を通じて、該当するディスク装置
にシーク・サーチ要求が完了するのを待つ、これが完了
すると、ステップ１１ｏ２では。

１ブロツクのデータ転送要求をデータ転送装置８１に対
して発行する。

ステップ１１０３では、１ブロツク分のデータ転送処理
が完了するのを待つ、これが完了すると、ステップ１１
０４で、すべての検索範囲のデータ転送が完了したかを
チェックし、これが成立しない場合には、ステップ１１
０５で次のブロックの転送要求をデータ転送装置８１に
対して要求する。

次に、転送の完了した１ブロツク分のＤＢ演算処理を実
行する。

ステップ１１０６では、１つのローＩＤ５１を取り出し
、ハッシュ・ビット・アレイ方式でローＩＤ５１のフィ
ルタリングと行う場合にはハツシュ・エンジン８６へ、
２分検索によりローＩＤ５１のフィルタリングを行う場
合にはハツチド・サーチ・エンジン８７に、ローＩＤ５
１を渡し、それぞれのエンジンが処理を終了するのを待
つ。

これが帰ってくると、ステップ１１０７では条件式９３
で指定されたカラム値に関する条件式を実行する。ステ
ップ１１０８では、以上の結果と論理式９４より１選択
の可否を決定し、選択する場合、ローＩＤ５１＋バリユ
ー３３のペア情報をフィルタリング結果格納領域９６に
格納する。

ステップ１１０９では、ブロック内のすべての演算が終
了したかをチェックする。これが成立しなければ、ステ
ップ１１０６ヘジヤンプし、演算を続行する。これが、
成立した時には、ステップ１１１０で、すべての検索範
囲のＤＢ演算処理が終了したかをチェックする。これが
成立しなければ、ステップ１１０３ヘジヤンプする。こ
れが成立し、すべての検索範囲の検索処理が終了すると
。

ステップ１１１１で、フィルタリング結果格納領域９６
内のフィルタリング結果をチャネル１２に送り、処理を
終了させる。

以上は、カラム・ワイズに格納されたテーブル３０に対
する検索処理であるが、すでに述べたように、ロー・ク
イズに格納されたテーブル３０に対して付けられたイン
デクスのリーフ・ページに対する検索処理にも適用可能
である。

インデクスのリーフ・ページの場合は、第１２図（ａ）
に示したようにバリュー３３が格納順序にソートされて
いる。ただし、本発明では、特に。

バリュー３３がソートされているかどうか関係ないため
、以上述べた方式を特に変更する必要がない、ただし、
（ｂ）に示したように、異ったロー３１が同一のカラム
値を持つ時、バリュー３３の重複排除が行なわれ、１つ
のバリュー３３に対して、複数のローＩＤ５１を格納す
る格納型式をとる場合もある。この場合には、プロセッ
サ８０゜ＣＰＵ側のソフトウェアをこの格納型式用に若
干変更すれば、対撚可能である。ローＩＤ個数１４０は
、同一バリュー３３を有するローＩＤ５１の個数である
。

〔発明の効果〕

ヒツト率が高く、テーブルの全体検索を行う場合には、
カラム・ワイズにテーブルを格納した方が、取り出すカ
ラムのみを転送すればよいため、データの転送量は、ロ
ー・ワイズにテーブルを格納するより少なくでき、効率
を高められる６本発明によれば、データ転送と同期して
、そのカラムにつけられた条件式を満たすかどうかを調
べ、かつ、他のカラムの条件を満たしたローＩＤの集合
とのつき合せ処理を行うため、ＣＰＵ側に負荷をほとん
どかけることなく条件を満たす結果を得ることができる
０例えば、カラム長が等しい１０個のカラムのうち２個
が取り出しの対象となっている時には経過時間を約１７
５にすることができる。

また、本発明はローワイズに格納されているテーブルに
付けられているインデクスに対しても適用可能で、同様
の効果を得ることができる。

【図面の簡単な説明】

第１図は本発明の対象となる計算機システムの構成を示
すブロック図、第２図は本発明の対象となる計算機シス
テム上のソフトウェア構成を示すブロック図、第３図は
テーブルの構成を示す説明図、第４図はフィルタリング
処理例を示す説明図。第５図はロー・ワイズ格納型式とカラム・クイズ格納型
式の例示図、第６図は本発明の実施例におけるハッシュ
・ビット・アレイ方式を用いる場合のＣＰＵ側ソフトウ
ェアの処理フロー図、第７図は本発明の実施例における
ローＩＤのソート情報を用いる場合のＣＰＵ側のソフト
ウェアの処理フロー図、第８図はＤＢマシンの構成図、
第９図は共通メモリの格納情報の説明図、第１０図はプ
ロセッサの処理フロー図、第１１図は異ったカラムのバ
リューを結合するための情報の説明図、第１２図はイン
デクスのリーフ・ページのフォーマ第１　図傑２閲第３　閲＃〆図擾　Ｓ″　図（α）（ｂ）バＯｈ−、？３υ１卜　　　　　　　　バクニー３３−
Ｉト＄ｔ　　ｆＡ１５７　図茅δ躬勇５　　　タ　　　ム１

Claims

【特許請求の範囲】１、リレーショナル・データベースにおいて、カラム・
ワイズに格納したテーブルのあるカラムに関するバリュ
ー＋ローＩＤの集合を二次記憶装置から主記憶装置に転
送する処理と同期して、他のカラムの条件をみたしたロ
ーＩＤの集合と転送中のローＩＤのつき合せ処理を行い
、転送中のバリュー＋ローＩＤの集合の中で、条件を満
たしたバリュー＋ローＩＤの集合のみを主記憶に送るこ
とを特徴としたデータ処理方式。２、複数のレコード（複数のフィールドと呼ばれるデー
タ項目により構成される１件分のデータ）により構成さ
れる一般のファイルのあるフィールドにつけられたイン
デクス、あるいは、リレーショナル・データベースにお
いて、ロー・ワイズに格納されたテーブルのあるカラム
につけられたインデクスを二次記憶装置から転送する際
、一般ファイルの場合、他のフィールドに関する条件を
満たしたレコードＩＤの集合、リレーショナル・データ
ベースの場合他のカラムに関する条件を満たしたローＩ
Ｄの集合と転送中のレコードＩＤ、あるいは、ローＩＤ
のつき合せ処理を行い、条件を満たしたバリュー＋ロー
ＩＤ（あるいは、レコードＩＤ）を主記憶に送ることを
特徴とするデータ処理方式。３、第１項、あるいは、第２項に記載にした他カラムの
条件をローＩＤの集合をハッシュイングしてハッシュイ
ング結果に対応するビットを１にしたアレイを作り、転
送中のバリュー＋ローＩＤの集合の中で、ローＩＤに同
じハッシュ関数を通用した結果が対応するビットが１と
なるバリュー＋ローＩＤの集合のみを主記憶に転送する
ことを特徴としたデータ処理方式。４、第３項に記載したローＩＤのハッシュイングの際用
いるハッシュ関数を、ローＩＤの特定のビットを取り除
く関数か、まつたく、ビットと取り除かずローＩＤその
もを取り出す関数とすることを特徴とするデータ処理方
式。５、第３項に記載したハッシュ・ビット・アレイ方式を
用いる際、ＣＰＵ側に、他カラムの条件を満たすローＩ
Ｄの集合をローＩＤのハッシュ関数値が同一になるサブ
集合に分類し、それぞれのサブ集合をポインタで接続し
、他のカラムとの結合処理を高速に行うことを特徴とす
るデータ処理方式。６、第１項、あるいは、第２項に記載した他のカラムの
条件を満たしたローＩＤの集合をソートしておき、転送
中のローＩＤとの間で２分検系を行い、条件を満たすバ
リュー＋ローＩＤの集合を選別することを特徴とするデ
ータ処理方式。７、第６項に記載した条件を満たすバリュー＋ローＩＤ
のペア情報のそれぞれに、ソートされたローＩＤの何番
めの情報と一致したかを付加することを特徴とするデー
タ処理方式。