JPS62191922A

JPS62191922A - デ−タ・ベ−ス検索システム

Info

Publication number: JPS62191922A
Application number: JP61301941A
Authority: JP
Inventors: サクテイ・パダ・ゴーシ; レイモンド・アマンド・チヤールズ・ローリイ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1986-02-14
Filing date: 1986-12-19
Publication date: 1987-08-22
Anticipated expiration: 2010-12-06
Also published as: DE3751388D1; DE3751388T2; JPH07113924B2; EP0235525B1; EP0235525A2; EP0235525A3

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】Ａ、産業上の利用分野本発明は、データ・アクセス方法と、該アクセス方法を
実現する物理的なデータの編成、つまり構造を持つデー
タ・ベース検索システムに関する。

さらに詳しくは、統計処理のためのデータ・アクセスを
促進する構造を持つデータ・ベース検索システムに関す
る。

Ｂ、従来技術データ・ベース管理システム（ＤＢＭＳ）には、データ
・モデル、データ定義言語、データ操作言語、照会言語
、データ・アクセス方法、照会オプテイマイザ、並行お
よびロッキング機構等の多くの重要な構成要素がある。

これらの構成要素のすベては、データ・ベース管理シス
テムの望む特性に寄与する。データ・ベース管理システ
ムの基礎的な概念の多くは、ＤＢＭＳについてのどの標
準的な教科書にも記述されている。例えば、Ｇｈｏｓｈ
Ｓ、、Ｄａｔａ　Ｂａ５ｅ　Ｄｒｇａｎｉｚａｔｉｏｎ
　ｆｏｒ　ＤａｔａＭａｎａｇｅｍｅｎｔ、　　Ｐｕｂ
ｌｉｓｈｅｄ　　ｂｙ　　Ａｃａｄｅｍｉｃ　　Ｐｒｅ
ｓｓ。

Ｎｅｗ　Ｙｏｒｋ（１９７７）　；　Ｄａｔｅ　Ｃ，Ｊ
、。

＾ｎ　Ｉｎｔｒｏｄｕｃｔｉｏｎ　ｔｏ　Ｄａｔａｂａ
ｓｅ　Ｓｙｓｔｅｍｓ。

Ｐｕｂｌｉｓｈｅｄ　ｂｙ　Ａｄｄｉｓｏｎ　−Ｗｅｓ
ｌｅｙ、　Ｒｅａｄｉｎｇ、　Ｍａｓｓ。

（１９７７）　　；　Ｗｉｅｄｅｒｈｏｌｄ　Ｇ、、Ｄ
ａｔａｂａｓｅ　Ｄｅｓｉｇｎ。

Ｐｕｂｌｉｓｈｅｄ　ｂｙ　ＭｃＧｒａｗ　−Ｈｉｌｌ
、Ｎｅｗ　Ｙｏｒｋ（１９７７）のような文献がある。

ＤＢＭＳ製品の説明の多くは、様々なベンダーによって
配られるマニュアルの形で入手できる。

リレーショナル・モデルに基づ＜ＤＢＭＳ製品が開発さ
れてきているが、いくつかの製品についての優れた要約
が、Ｋｉｍ　Ｌ、　”Ｒｅ１ａｔｉｏｎａｌ　Ｄａｔａ
ｂａｓｅＳｙｓｔｅｍｓ、”　Ｃｏｍｐｕｔｉｎｇ　５
ｕｒｖｅｙ、　Ｐｕｂｌｉｓｈｅｄ　ｂｙＡＣＭ、、　
Ｖｏｌ、　１１　、　Ｈａ　３、ｐｐ、１８５−２１１
（１９７９）に記されている。

ＤＢＭＳの構成要素のうち、アクセス方法および該方法
を実現する構造は、記憶媒体上のデータのビットおよび
パイ１〜の編成と、ホスト・プロセッサからのＩ１０要
求への応答とについて責任を持つ。

索引順次探索に基づ＜ＩＳＡＭ（システム３６０オペレ
ーテイング・システム、索引順次アクセス方式（プログ
ラミング・ロジック）、ＩＢＭ（登録商標）フオームＹ
２８−６６１８（１９７５ａ））。

およびＢツリー（Ｂａｙｅｔ　Ｒ，ａｎｄ　ＭｃＣｒｅ
ｉｇｈｔ　Ｃ，。

”Ｏｒｇａｎｉｚａｔｉｏｎ　ａｎｄ　Ｍａｉｎｔｅｎ
ａｎｃｅ　ｏｆ　ＬａｒｇｅＯｒｄｅｒｅｄ　Ｉｎｄｅ
ｘｅｓ”、　Ａｃｔａ、　Ｉｎｆ、　Ｖｏｌ、　１、魔
３、ｐｐ、１７３−１８９　　（１９７２））に基づ＜
ＶＳＡＭ　（Ｏ８／ＶＳ仮想記憶アクセス方式（ＶＳＡ
Ｍ）プログラミング、ガイド、ＩＢＭフオームＧＣ２６
−３８３８（１９７５ｂ））が創作されて、コンピュー
タに記憶されているファイルの中の情報の探索が促進さ
れるようになった。これらのアクセス方法によって、デ
ータ・ベースから情報を検索するのに要する探索時間が
大幅に減少した。

これらの従来のアクセス方法のすべては、ｘＸＸに等し
いキーを持つレコードを見つけたり、述語（Ｐｒｅｄｉ
ｃａｔｅ）Ｐ（Ａ）を満たすすべてのレコードを見つけ
たりあるいは値ｘｘｘｘの属性Ａを持つレコードを更新
したりするという、論理的な情報処理を促進するために
設計されていた。商業的なアクセス方法で実現されたも
の以外にも、多くの探索技術がある（Ｋｎｕｔｈ　Ｄ、
、　Ｔｈｅ　Ａｒｔ　ｏｆ　ＣｏｍｐｕｔｅｒＰｒｏｇ
ｒａｍｎ＋ｉｎｇ、　Ｖｏｌｓ、　１．２．３、Ｐｕｂ
ｌｉｓｈｅｄ　ｂｙＡｄｄｉｓｏｎ　−Ｗｅｓｌｅｙ　
Ｐｕｂｌ、　Ｇｏ、ｖ　Ｒｅａｄｉｎｇ、　Ｍａｓｓ。

（１９６８））。

しかしながら、すべてが論理的な情報処理の効率を向上
させるように設計されている。したがって、既存のアク
セス方法の何れを使っても１編成されたレコードから属
性の平均値を計算しようとすれば、ファイルの中のすべ
てのレコードが処理されなければならず、時間の大きな
浪費である。

一般に、論理処理用に設計されたシステムでは、平均値
の計算のような統計的な情報処理が遅い。

統計情報処理には多くのタイプがある（Ｋｅｎｄａｌｌ
Ｍ、Ｇ、＆　　５ｔｕａｒｔ　　Ａ、ｌ　　Ｔｈｅ　　
Ａｄｖａｎｃｅ　　Ｔｈａｏｒｙ　　ｏｆＳｔａｔｉｓ
ｔｉｃｓ、Ｖｏｌ、１、Ｐｕｂｌｉｓｈｅｄ　　ｂｙ　
　ＣｈａｒｌｅｓＧｒｉｆｆｉｎ　＆　Ｃｏｍｐａｎｙ
、　Ｌｏｎｄｏｎ（１９５８）およびＫｅｎｄａｌｌ　
　Ｍ、Ｇ、＆　　５ｔｕａｒｔ　　Ａ、、Ｔｈｅ　　Ａ
ｄｖａｎｃｅＴｈｅｏｒｙ　　ｏｆ　　５ｔａｔｉｓｔ
ｉｃｓ、Ｖｏｌ、２　、Ｐｕｂｌｉｓｈｅｄ　　ｂｙＨ
ａｆｒｅｒ　Ｐｕｂｌｉｓｈｉｎｇ　Ｃｏ、Ｎｅｗ　Ｙ
ｏｒｋ、（１９６１））。

これらのほとんどは、多くの個物（ｉｎｄｉｖｉｄｕａ
ｌ）、通常はファイルの個物（レコード）のすべてに基
づいて、ある数の関数の計算を処理しなければならない
。これでは統計計算に時間がかかつてしまう。統計計算
の例としては、パラメータの推定。

曲線のフィッティング、統計的要約（周波数分布。

モーメント、表による表現の計算）、仮説の統計的検証
、サンプリング、実験の統計的設計、統計的連想手段、
統計的予測等がある。統計的な情報処理の最終結果は数
であり、精度が関連することに注意すべきである。

統計的な情報処理に関連する基本的な要素は、処理に要
する時間である。コンピュータ科学の主要な目標の１つ
は、処理時間を最小にすることである。これは、通常、
記憶空間への要求と取り引きすることにより達成される
。統計的計算では、精度も時間最小化のための基本的な
取引材料である。

Ｃ０発明が解決しようとする問題点統計的照会における時間、空間、および精度の兼合をと
るこのような能力を認めて、本発明は、自分の中に記憶
されるレコードに関する統計的照会の処理を促進するデ
ータ・アクセス構造を持つデータ・ベース検索システム
を提供する。

本発明によれば、該構造は、少なくとも１つの属性を共
通して持つレコードを記憶する複数のデータ・ノードと
、複数のアクセス・ノードからなる。各アクセス・ノー
ドは、別のアクセス・ノードまたはデータ・ノードを指
すポインタを少なくとも１つ持つ。アクセス・ノードは
、それぞれが少なくとも１つのデータ・ノードと関連す
るように編成する。各アクセス・ノードには統計的情報
が記憶される。統計的情報は、アクセス・ノードに直接
または間接につながるすべての後続のデータ・ノードに
記憶されているレコードの総個数および前記共通の属性
に関してこれらのレコードが含むすべての属性値に関連
する情報の少なくとも一方である。

さらに、データ・ノードに記憶されるレコードの変更に
応じて、アクセス構造に記憶されている統計的情報を更
新する手段が提供される。

本発明は、様々な階層的および非階層的アクセス方式に
よる実現に適している。そのようなアクセス方式には、
Ｂツリーに基づくもの、ＩＳＡＭ。

ＩＢＭ　　ＶＳＡＭ（７）ＲＲＤＳ　（相対し／ｍｌ−
ド・データ・セット）、およびＩＢＭ　　ＩＭＳ（情報
管理システム）のＨＤＡＭ　（階層直接アクセス方式）
％式％データ・アクセス構造のアクセス・ノードに関連して統
計的情報を維持するようにしたので、アクセス構造のノ
ードのサブセットから統計的情報を読み取ることにより
、統計的照会を解決することができる。その結果、統計
的照会の処理に要するアクセス時間が大幅に削減される
。精度の良さが求められる照会については、ユーザがア
クセス構造をはるばる下がって現実のレコードへ進むこ
とができる。そうするとことによって、情報の紛失を防
ぐ。加えて、統計的情報の更新手段を適用して、構造中
のどのレベルでも望む精度を維持することができる。

Ｄ、実施例図面を参照して、本発明の実施例を詳細に説明する。

第１図は、本発明を実現し得るデータ処理システムの簡
単な説明図である。データ処理システムは、通信チャネ
ルまたは人間が操作するキーボードのようなデータ・ソ
ース１０を含む。データ・ソース１０は、ユーザの指定
に応じ、プロセッサ１１と交信してデータを処理する。

典型的な場合。

プロセッサ１１は直接アクセス記憶装置１２（ＤＡＳＤ
）と交信する。ＤＡＳＤ１２は、プロセッサ１１が与え
たデータを不揮発性記憶に維持する。

プロセッサ１１は、アクセス構造に従ってデータを編成
するとともに、チャネル１３を越えて制御情報を与える
。

第１図に示すシステムは、説明のために大幅に簡略化し
たものである。本発明は、プロセッサ１１が維持する通
りに、ＤＡＳＤ１２上でデータを編成することに関する
。典型的なシステムでは、複数のプロセッサと非常に多
くの数の記憶装置を含んで差し支えない。

第２図は１本発明によるデータ・アクセス構造２０を示
す。該構造は、その中に記憶されているレコードに関す
る統計的照会の処理を促進するためのものである６デー
タ・レコードは、複数のデータ・ノード、例えばデータ
・ノード２１に記憶される。また、アクセス構造２０は
、複数のアクセス・ノード、例えばアクセス・ノード２
２を含む６各アクセス・ノードは、アクセス情報ＡＣＣ
を記憶する。ＡＣＣの例は、別のアクセス・ノード、ま
たはデータ・ベースを指す少なくとも１つのポインタ、
またはそれらの識別子である。アクセス・ノードは、各
アクセス・ノードが該構造中の少なくとも１つのデータ
・ノードに関連するように編成される。ポインタは、第
２図において、アクセス・ノードから別のアクセス・ノ
ードへ、あるいはアクセス・ノードからデータ・ノード
へ至る線で表わされる１本発明によれば、各アクセス・
ノードに記憶される統計的情報５ＴＡＴは。

該アクセス・ノードの直接または間接の後続データ・ノ
ードに記憶されているレコードに関連する情報である。

第２図に示される構造は、レベル０からレベル４までの
ラベルを付けられた複数個のレベルを含む。このような
レベル記述を一般化して、各レベルをレベルｉ　（ｉ＝
ｏ〜ｎ）どして示す列表記が可能である。第２図に示さ
れるインプレメンテ−ジョンでは、ｎが４に等しい。レ
ベルＯはルート・アクセス・ノード２３であり、レベル
１のアクセス・ノード２２．２４．２５を示すポインタ
を記憶する。

レベルｉ　　（ｉ＝ｏ、・・・・、ｎ−１）の各アクセ
ス・ノードは、レベル（ｉ＋１）のアクセス・ノードの
サブセットを指すポインタを持つ。しだがつて、レベル
１のアクセスＣノード２２は、レベル２のアクセス・ノ
ード２６．２７．２８を指すポインタを記憶する。レベ
ル２のアクセス・ノード２７は、レベル３のアクセス・
ノード２９等を指すポインタを含む。

レベル３のアクセス・ノード２９は、レベル４のデータ
・ノード２１，３０．３１を指すポインタを記憶する。

このように、実際にレコードを維持するデータ・ノード
を記憶するのはレベルｎであることがわかる。

統計的情報（Ｓ　’Ｔ　Ａ　Ｔ　）は、アクセス・ノー
ドおよびデータ・ノードのサブセットに関連する。

第２図に示される実施例においてサブセットに含まれる
のは、データ・アクセス構造２０を構成するすべてのア
クセス・ノードとデータ・ノードである。ユーザは、本
発明の適用を図ることにより、記憶空間、精度およびア
クセス時間の間の希望する兼合に応じて１例えば該構造
の１つのレベルだけで、統計的情報を保持することがで
きる。

第２図に示されるように、統計的情報は、記憶装置のア
クセス・ノードに含まれるレコードに記憶される。した
がって、アクセス・ノードに１回アクセスすると、アク
セス構造を通って実際のデータへ導くポインタの他に、
統計的情報が得られる。

第３図は、統計的情報をアクセス・ノードと関連づける
代替手段を示す。特に、第３図のノード３５のようなア
クセス・ノードは、構造中のアクセス・ノードを指す索
引ポインタＩＮＤＥＸ　　ＰＮＴＲ８の他に、統計的情
報５ＴＡＴを指すポインタ５ＴＡＴ　　ＰＮＴＲを記憶
する。統計的情報５ＴＡＴは、記憶装置において、統計
ポインタ５ＴＡＴ　　ＰＮＴＲによって指示される位置
３６に記憶される。この代替手段によれば、アクセス構
−造の空間を節約できるけれども、アクセス・ノードに
関連する統計的参照を処理するために、付加的なアクセ
スを要する。

第２図に示されるような、データ・ノードも自身に関連
する統計的情報を持つアクセス構造では、第３図に示さ
れるような統計ポインタを使って、統計的情報をアクセ
ス・ノードに関連づけることができる。

第２図に示されるようなアクセス構造は、第１図に示さ
れるＤＡＳＤ１２のようなディスク・ドライブの数個の
連続するシリンダに記憶させておくことができる。デー
タ・ノードは、データ記憶システムにおいて、アクセス
構造によって示される位置に記憶される。統計的情報は
、第２図を参照して記述したようなアクセス構造によっ
て、該統計的情報が関連する特定のアクセス・ノードと
同じシリンダに、そして同じアドレスに記憶することが
できる。別の場合、統計的情報は、該アクセス構造と隣
接する数個のシリンダに、関連する統計的情報を指す該
構造中のポインタを使って記憶することができる。

上述のように、第１図に示されるプロセッサ１１の働き
は、データ・ノードの中に記憶されるレコードが挿入さ
れたり、変更されたり、削除されたりするときに、第２
図に示される階層構造２０のようなアクセス構造を維持
することである。アクセス構造を維持する１つのよく知
られている方法は、Ｂツリー（Ｂ天水）と呼ばれる。Ｂ
ツリー・データ編成は、Ｊｅｆｆｒｅｙ　Ｄ、　Ｕｌｌ
ｍａｎ、　Ｐｒ１ｎｃｉｐｌｅｓｏｆ　Ｄａｔａｂａｓ
ｅ　Ｓｙｓｔｅｍｓ、　５ｅｃｏｎｄ　ｅｄｉｔｉｏｎ
、ＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ　Ｐｒｅｓｓ（１９
８２）、Ｐａｇｅｓ５８−６５によく書かれている。本
発明によれば、プロセッサ１１が、実行中に階層的デー
タ構造２０において統計的情報５ＴＡＴを維持する。

第４図と第５図は、本発明によるアクセス・ノードとデ
ータ・ノードのそれぞれのフォーマットを示す。第４Ａ
図はアクセス・ノードを示す。維持される統計的情報５
ＴＡＴは、特定のアクセス・ノードが関連するデータ・
ノードに記憶されるレコードの数ｎと、例えばｎ個のレ
コードのそれぞれの属性Ｘの和Ｓである。統計的情報は
、Ｘの２乗の和、中央値、モード、ｎの範囲の周波数分
布、多変量統計、またはその他の、データ・ベースを用
いて処理される可能性のある統計的参照の処理を容易に
する情報も含み得る。

統計的情報５ＴＡＴは、５ＴＡＴ−ＲＥＣＩと５ＴＡＴ
−ＲＦｅ５を含むフオームで維持される。

５ＴＡＴ−ＲＥＣＩは、アクセス・ノードのための現在
の統計的情報を維持する。５ＴＡＴ−ＲＦｅ５は、統計
的情報の最後に進められた（プロモートされた）バージ
ョンを記憶する。該バージョンの情報は、ｎ′、および
に＝１〜ｎ′についての属性Ｘ′の和Ｓ′として示され
ている。したがって１階層的構造において、レベルｉに
ある所定のノードについての５ＴＡＴ−ＲＥＣＩは、該
所定のノードと関連するレベル（ｉ＋１）のノードから
得られる５ＴＡＴ−ＲＦｅ５の値から生成される。最後
に進められたバージョン５ＴＡＴ−ＲＦｅ５の使用は、
アクセス構造で統計的情報を維持する方法に関して、以
下で説明される。

アクセス構造を通って導くアクセス情報ＡＣＣは、第４
図に示されるアクセス・ノードの２番目の部分に記憶さ
れる。Ｂツリーのような階層的索引に基づくアクセス構
造では、アクセス情報ＡＣＣが、各ポインタに関連する
索引値を含む。例えば、索引１、ポインタ１といった具
合である。例えば、索引は、ポインタ１によって指示さ
れる階層的構造の下のノードに関連するデータ・ノード
に記憶されるレコードについての値の範囲、すなわち最
大値を識別する。同様に、アクセス・ノードの２番目の
エントリは、索引１２とポインタ２を含む。アクセス構
造に従って、以下同様である。

第５図は、データ・ノードの編成を示す。本実施例での
データ・ノード中の統計的情報Ｓ　ＴＡＴは、現在の統
計的情報５ＴＡＴ−ＲＥＣＩ、および最後に進められた
バージョンである５ＴＡＴ−ＲＦｅ５を維持する。５Ｔ
ＡＴ−ＲＥＣＩは、データ・ノードのレコードにおける
現実の変化に応じて計算される。データは、Ｐ個の属性
ｘＩＫ、Ｘ　　、・・・・、ＸｐＫを各レコードｒに関
連づけ２にるテーブルの形で維持される。ここで、に＝１〜ｎであ
る。第５図のデータ・ノードで、５ＴＡＴ−ＲＥＣＩは
ｎを記憶するが、これはデータ・ノードに維持されるデ
ータ・レコードの数を識別する。

このようにして、複数のレコードがデータ・ノードのデ
ータ部に記憶されて、属性Ｘ　　　（ｊ＝１５に〜Ｐ、に＝１〜ｎ）が備えられる。

第６図は、３レベルのＢツリー・データ構造の例である
。ここでは、本発明に従って、統計的情報が第４図、第
５図に示すように編成されている。

レベル０のルート・アクセス・ノード５０は、統計的情
報のコピーを１つだけ維持している。すなわち、ｎと、
Ｋ＝１〜ｎについての属性ＸＩＫの値の和である。ルー
ト・アクセス・ノード５０に関連するアクセス情報は、
属性の値の範囲の標識（インディケータ、図示の例では
最大値）と、レベル１のアクセス・ノードの位置のポイ
ンタ、または他の識別子を含む。なお、子ノードでは、
前記標識によってアクセス構造が編成される。

第６図に示す実施例では、ルート・ノード５０に５個の
ポインタがあり、矢印で示すようにレベル１にあるペー
ジＰ２、Ｒ３、Ｒ４、Ｒ５、Ｒ６のすべてを指している
。レベル１のアクセス・ノード５１．５２．５３．５４
．５５は、図面でＳＲ１と記す現在の統計的情報ＳＴＡ
Ｔ−ＲＥＣＩのコピーと、図面でＳＲ２と記す最後に進
められたバージョン５ＴＡＴ−ＲＥＣ２のコピーを記憶
する。Ｐｌ、つまりルート・アクセス・ノード５０に記
憶される数ｎは、レベル１のアクセス・ノードについて
の統計的情報のバージョンＳＲ２に記憶されるｎ′の値
の和であることがわかる。つまり、７９は１４．２０．
１５．２０．１０の和に等しい。さらに、ルート・アク
セス・ノード５０に記憶されるｘＩＫの和の値Ｓは、レ
ベル１のアクセス・ノードのＳＲ２からとった、最後に
進められたバージョンＳ′の和に等しい。

レベル１の各アクセス・ノードは、データ・ノードを指
すポインタを含む。図面では、Ｒ２というラベルのつけ
られたアクセス・ノード５１からのポインタだけが説明
されている。図面かられかるように、アクセス・ノード
５１には４個のポインタがあり、それぞれＲ７，Ｒ８、
Ｒ９、ＰＬＯを指している。アクセス・ノード５１のＳ
Ｒ１に記憶されている統計的情報は、ページＰ７、Ｒ８
、Ｒ９、ＰＬＯにそれぞれ記憶されているデータ・ノー
ド５６．５７．５８．５９に記憶されている統計的情報
の要約である。特に、データ・ノードに記憶されている
バージョンＳＲ２の和である。

したがって、１４は４．３，４．３の和に等しく、１３
３は２４．２４．４５．４ｏの和に等しい。

データ・レコードがセットアツプされたとき、または定
常状態にあるときは、統計的情報のバージョンＳＲ２が
、現在のバージョンＳＲＩに等しい。第６図はその例で
ある。

第６図のアクセス構造を用いて平均を計算する場合、ユ
ーザは値ｎ（レコードの数）とＳ（属性ＸＩＫの値の和
）をルート・アクセス・ノードが検索しなければならな
い。平均はＳ　／　ｎ、つまり図の例だと２４８３／７
９に等しい。

第６図のアクセス構造に記憶された属性の平均を計算す
る場合、ルート・アクセス・ノード５０がアクセスされ
て、統計的情報ｎ、Ｓが検索される。平均はＳ　／　ｎ
、っまり２４８３／７９に等しい。データ・レコードが
変更された結果、レベル２のノードのＳＲＩとＳＲ２が
異なるならば、レベル２のノードのＳＲＩに記憶されて
いる統計的情報を検索して、一層良い精度を得ることが
できる。

下記第１表の中央値を計算するアルゴリズムは、本発明
によるソーティングに基づく統計的参照の計算を説明し
ている。

第１表　中央値の計算ＣＥＴ　ｎ　ｆｒｏｎ＋　５ＴＡＴ−ＲＥＣｉｎ　ｒｏ
ｏｔ　ｐａｇｅＳＥＴ　　ｍ、　　＝　［（ｎ＋１）／
２］ＳＥＴ　ｖａ　＝　０３ＥＴ　Ｐ　＝　ｐｏｉｎｔｅｒ　ｔｏ　ｒｏｏｔ　ａ
ｃｃｅｓｓ　ｎｏｄｅＤｏ　Ｗｔ（ＩＬＥ　（Ｐ　ｐｏ
ｉｎｔｓ　ｔｏ　ａｎ　ａｃｃｅｓｓ　ｎｏｄｅ）ＣＡ
ＬＬ　５ＵＢＲＯＵＴＩＮＥ　（＋ｏ、ＬＩＩ１．Ｐ）
ＳＵＢＲＯＵＴＩＮＥ：　ＰＲＯＣ（町−、Ｐ）ＤＯＷ
ＨＩＬＥ　ｍ　＜　ｍ６Ｓｃａｎ　ｉｎ　ａｓｃｅｎｄｉｎｇ　ｏｒｄｅｒ　ｔ
ｈｅ　５ＴＡＴ−ＲＥＣ２ｉｎｐａｇｅｓ　ｐｏｉｎｔ
ｅｄ　ｔｏ　ｂｙ　ｔｈｅｉｎｄｉｃｅｓ　ｉｎ　ｔｈ
ｅ　５ｃａｎｎｅｄ　ａｃｃｅｓｓ　ｎｏｄｅ。

ＳＥＴ　Ｐ　ｔｏ　ｐｏｉｎｔｅｒ　ｏｆ　ｎｏｄｅ　
ｅｘａｍｉｎｅｄ；Ｓ［ＥＴ　ｍ　＝　ｍ　＋　ｎ　（
ｆｒｏｍ　５ＴＡＴ−ＲＥＣｏｆ　ｎｏｄｅ）；ＥＮＤ
　ＤＯｔ、ｏｏｐ；ＳＥＴ　ｍ　＝　ｍ　−ｎ　（ｆｒｏｍ　ｒｏｏｔ　ｎ
ｏｄｅ）；ＥＮＤ　５ＵＢＲＯＵＴＩＮＥＥＮＤ　ＤＯＬＯＯＰＧｏ　ＴＯｔｈｅ　（ｍｏ　−ｍ）ｔｈ　ｄａｔａ　ｒ
ｅｃｏｒｄ　ｉｎ　ｎｏｄｅ　ｐｏｉｎｔｅｄ　ｔｏ　
ｂｙＰ、　　Ｔｈｅ　ｍｅｄｉａｎ　ｉｓ　ｅｑｕａｌ
　ｔｏ　ｔｈｅ　ｖａｌｕｅ　ｏｆ　ｔｈｅＡｔｔｒｉ
ｂｕｔｅ　ｆｒｏｍ　ｔｈｅ　ｒｅｔｒｉｅｖｅｄ　ｒ
ｅｃｏｒｄ。

第６図の例では、中央値が次のように計算される。

ｆｆ１ｏ　＝　（７９＋１）／２　：４０；Ｐ＝Ｐ２に
ついて、ｍ＝０＋１４＝１４；Ｐ＝Ｐ３について、ｍ　
＝　１４　＋　２０　＝　３４；Ｐ＝Ｐ４について、ｒ
ｓ　＝　３４　＋　１５　”　４９；４９　）　４０だ
から、ｍ＝４９−１５＝３４にセットする。

ｌｆｉｏ−ｍ　＝　４０−３４　＝　６；つまり、中央
値は、Ｒ４の６番目のレコードの属性の値に等しい。

統計的情報は、データ・ノードに記憶されているレコー
ドの変更に応じてＢツリーに維持される。

記憶機構に関連するプロセッサ１１のソフトウェアは、
本実施例において下記のようにして統計的情報を維持す
る。

第７図は、ページ１とページ２の２つの索引ページ、お
よびデータ・ページである。ページ３を、第２図のよう
な階層的構造を示している。ページ１はｎｌとＳ工を記
憶するルート・アクセス・ノードである。ページ２は、
ＳＲＩとｎ２と８２を記憶し、ＳＲ２にｎ′２とＳ１２
を記憶するアクセス・ノードである。データ・ノード・
ページ３では、ｎ、とＳ、がＳＲ，に記憶され、ｎ　／
、とＳ′、がＳＲ２に記憶される。

データ・ページに新しいレコードが付加されると、デー
タ・ページの５ＴＡＴ−ＲＦｅ５が更新される。属性Ｘ
の値Ｖを持つあるレコードがページ３に付加された場合
を想定すると、ｎ′、とＳ　／３の新しい値は次のよう
になる。

ｎ′□＝ｎ’、＋１；Ｓ　’　、＝Ｓ’　３　”　ｖ；データ・ノードにおける新しいレコードの付加に応答す
る統計的情報を更新するためのアルゴリズムの概要は、
下記第２表の通りである。

第２表Ｄｏ　ｗｈｉｌｅ　（ａｄｄ　ｎｅｗ　ｒｅｃｏｒｄ　
ｈａｖｉｎｇ　ｖａｌｕｅ　Ｖ）　：ｎ’　３　”　ｎ
’　３　”　ｔ；Ｓ’　３　”　Ｓ’　３　”　ｖ：Ｉｆ　（ｎ’　）　−Ｒ３）／ｎ、　＞　ｔｈｒｅｓｈ
ｏｌｄ；　ｏｒ（Ｓ’　：ｌ　−Ｓ、）／Ｓ、　＞　ｔ
ｈｒｅｓｈｏｌｄＴｈｅｎ　　ｏｏ：　　ｎ’　　ｚ”
ｎ’　　ｚ”ｎ’　　ｓ−ｎ　　　ａ；　　Ｓ’　　ｚ
”ｓ’　　ｔ”ｓ’　　ｓ　　−Ｓ３；Ｅ、、、　　ｎ
ａ＝ｎ’　：Ｉ；　Ｓ３”Ｓ’　ｉ；　Ｅ″ＮＤ　Ｄｏ
　Ｌｏｏｐ：アクセス・ノードにもデータ・ノードにも
同じアルゴリズムが適用可能である。

削除アルゴリズムは、レコードが削除される場合に、統
計的情報ｎ′１、Ｓ　ｌ、の値が次のように更新される
点を除き、更新アルゴリズムと同じである。

ｎ′、＝ｎ′３−１Ｓ’　、＝Ｓ’　、−Ｄ；ページ３にレコードが挿入される結果、該ページが、第
８図のように、つまりＢツリーの分裂のように、ページ
４とページ５の２ページに分裂すると想定する。ここで
、ｎ′、はＲ４とｎ、に分裂し、Ｓ／、はＳ４とＳ、と
に、それぞれ次の関係を満たすように分裂する。

ｎ’　　、：ｎ噛　＋　Ｒ５ｓ’　、＝ｓ４＋　　ｓ。

挿入アルゴリズムでは、ｎ　／、とＳ′、を使って計算
する場合、ｎ／２とＳ／２についての式は同じになる。

ページ４とページ５のパラメータを使う場合の新しい式
は次の通りである。

ｎ’ｚ＝ｎ’、＋　　ｎ、＋　　ｎ、　　−ｎ。

Ｓ’、＝Ｓ’、＋　　８４　＋　　Ｓｓ　　−Ｓ。

更新は挿入と削除の組合せである。したがって、更新ア
ルゴリズムは、前述の挿入アルゴリズムと削除アルゴリ
ズムの組合せになる。

ユーザは、上記更新アルゴリズムで関係するしきい値を
選択することにより、統計的情報の精度と、情報の流れ
を維持するのに要する時間との兼合いをとることができ
る。しきい値は、維持される統計的情報の種類によって
違っていてもよいし、アクセス構造のレベルによって違
っていてもよい。

次に述べる例は、属性Ｘの平均に関係する統計的情報に
ついてのしきい値の選び方を説明するものである。

更新前の平均Ｍが（ｓ１＋ｓ、＋・・・・＋Ｓ、）／ｎ
によって与えられると想定する。１以上のデータ・ノー
ドに記憶されているレコードの更新の際、和のエントリ
Ｓ　　、、Ｓ　　、　　　・・・・、Ｓ　が、デに−Ｊ
　　　　　　ｋ−Ｊ＋ｌ”　　　　　　　　　　ｋ−タ
・ページにおいて、ｓ’、、ｓ’。

ｋ−Ｊ　　　　ｋ−Ｊ＋１　” ・・、Ｓ′、に変更されると想定する。

その場合、更新後の真の平均ＭＵは次のように表現でき
る。

Ｍｕ　”　（ｓ、＋ｓ、＋、、、＋５ｋ−ｊ−１＋ｓ’
　ｋ−ｊ＋ｓ／　ｋ−ｊ、ｔ＋−＋３’　ｋ）／（ｎｔ
”ｎｉ＋、、、＋ｎ、ｊ、　４１１’に−ｊ＋ｙ１’に
−ｊ＋ビ°、＋、／　ｋ）＝　（Ｍ＋ｅ　　／ｎ）／（
１＋ｅ　　／ｎ）Ｓ　　　　　　　　ｎ＝（Ｍ＋ｅ　／ｎ）　（１−ｅ　／ｎ）−’Ｓ　　　　
　　　ｎここで、ｅｓ”　（Ｓ′に−ｊ　−８ｋ−ｊ”（Ｓ′に
−ｊ＋ｌ　−８ｋ−ｊ＋１”””（Ｓ′ｋ　−”’ｈ）
ｅｎ”　（ｎ’に−ｊ　＝に−ｊ”（ｎ’に−ｊ＋ｌ　
−ｎｋ−ｊ４１”””（ｎ’ｋ　−ｎｋ）である。

したがって、ＭＵの概算は次のようにして求める。

ＭＵ＝（Ｍ　＋　ｓ、／ｎ）　（１−ｅｏ／ｎ）＝　Ｍ
　＋　ｅ　／ｎ　−Ｍ（ｅ　／ｎ）　　＋　　（ｅ　　
−ｅ　　）／ｎ’ｓ　　　　　　　　　　　ｎ　　　　
　　　　　　　ｓｎこの結果、更新前の平均Ｍを更新後
の真の平均ＭＵの概算として使った場合に生じる相対誤
差Ｅは、次のように表わされる。

Ｅ　＝　ｅ　／ｎＭ　−ｅ　／ｎ　＋　（ｅ　ｅｅ　）
／Ｍｎ”ｓ　　　　　　　　　　ｎ　　　　　　　　　
　ｓｎしたがって、和の誤差ｅについてのしきい値がα
　と等しくなるように選ばれ、かつ、カウントの誤差ｅ
についてのしきい値がα　と等しくなるｎ　　　　　　
　　　　　　　　　　　　　　　　　　　　　　　　ｎ
ように選ばれた場合、ルート・ノードに記憶される５Ｔ
ＡＴ−ＲＦＣから概算した平均に与える。

選択されたしきい値の影響を、次のように表わされる。

α／ｎＭ−α／ｎ＋　α　α７Ｍｓ　　　　　　　　　　　　ｎ　　　　　　　　　　ｎ
ｓ実際的には、アクセス・ノードよりもデータ・ノード
において、「和」についてのしきい値を高く設定し、逆
にｒカウントＪについてのしきい値を低く設定すること
ができる。したがって、データ・ノードでは、和につい
て相対誤差の１０％をしきい値として設定するとともに
、カウントについて相対誤差の１％をしきい値として設
定することができる。次に高いレベルのアクセス・ノー
ドのしきい値は、和について８％または９％を設定し、
カウントについて２％または３％を設定することができ
る。このプロセスは、アクセス・ノードの連鎖中で繰り
返すことができる。したがって、５または６レベルの索
引を持つ場合、この例に従って、ルート・ノードのカウ
ントについてのしきい値は１０％もの高さとなり、和に
ついてのしきい値は１％もの低さとなる。

属性Ｘ１−平均の計算についての上記例のように、本実
施例では統計的情報が維持され、それに基づいてアクセ
ス構造が編成される。他の実施例では、統計的情報の中
に、レコードの他の属性、または属性の組合せから導い
た統計資料を含めることができる。

Ｅ０発明の効果本発明によれば、アクセス・ノードをアクセスするだけ
で統計的情報が得られるので、統計的計量が大幅に減少
するという優れた結果が得られる。

【図面の簡単な説明】

第１図は、データ・ベース・システムの要素を示す簡単
な概観ブロック図である。第２図は、本発明によるデータ・アクセス構造の説明図
である。第３図は、第２図に示すような構造におけるノードに統
計的情報を関連させる代替手段の説明図である。第４図は、本発明の一実施例によるアクセス・ノードの
構造の説明図である。第５図は、本発明の一実施例によるデータ・ノードの構
造の説明図である。第６図は１本発明に従って実現されるＢツリー・アクセ
ス構造の説明図である。第７図は、アクセス構造中のアクセス・ノードに関連す
る統計的情報の更新の説明図である。第８図は、本発明に従って実現されるＢツリー構造に新
しくデータ・ページを挿入した後にノートが分裂する様
子の説明図である。出願人　　インターナショナル・ビジネス・マシーンズ
・コーポレーション代理人　　弁理士　　頓　　宮　　孝　　−（外１名）

Claims

【特許請求の範囲】プロセッサをデータ記憶装置とデータ・ソースとに接続
してなるデータ・ベース・システムにおいて、前記記憶装置に、少なくとも１つの属性を共通して持つ
レコードを記憶する複数個のデータ・ノードと、データ
・ノードにアクセスするための索引として機能する複数
個のアクセス・ノードとを、アクセス・ノードに記憶さ
れる少なくとも１つのポインタが別のアクセス・ノード
またはデータ・ノードを指し、かつどのアクセス・ノー
ドも少なくとも１つのデータ・ノードを直接または間接
の後続ノードとして持つように編成して設け、前記アク
セス・ノードのそれぞれに、該アクセス・ノードに直接
または間接につながるすべての後続のデータ・ノードに
記憶されているレコードの総個数および前記共通の属性
に関してこれらのレコードが含むすべての属性値に関連
する情報の少なくとも一方を記憶させる手段と、前記データ・ノードに記憶されるレコードの変更に応じ
て、前記アクセス・ノードに記憶されている前記情報を
更新する手段とを備えたことを特徴とするデータ・ベース検索システム。