JPS63225824A

JPS63225824A - 集合演算方式

Info

Publication number: JPS63225824A
Application number: JP62058922A
Authority: JP
Inventors: Mitsunori Wada; 光教和田; Shoji Yamashita; 祥司山下; Haruaki Yamazaki; 晴明山崎
Original assignee: Agency of Industrial Science and Technology
Current assignee: National Institute of Advanced Industrial Science and Technology AIST
Priority date: 1987-03-16
Filing date: 1987-03-16
Publication date: 1988-09-20

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（産業上の利用分野）本発明は同一の属性集合を有するレコードからなるファ
イルをレコードを要素とする集合とみなした際の複数の
ファイル間での集合演算方式に関するものである。

（従来の技術）従来、同一の属性集合を有するレコードからなる複数個
のファイル間での集合演算では演算が適用されるファイ
ル間で同一値を持つレコードを検出する必要があり、そ
の検出にはネステッドルーブ方式により複数個のファイ
ル間でレコードを比較する方法が一般に用いられている
。

ネステッドルーブ方式は集合和、集合積、集合差演算を
実行する際に適用でき、演算結果は結果ファイル上に生
成される。集合和、集合積を行う場合には、演算を適用
する複数個のファイル中から任意のファイルを抽出し、
そのファイルのレコードと残ったファイルの全てのレコ
ードとを比較する。もし、残ったファイル中に同一値を
持つレコードが存在すれば、集合和を実行する場合には
そのレコードの複製を結果ファイルに格納し、集合和を
実行する場合にはなにもしない。もし、残ったファイル
中に同一値を持つレコー　ドが存在しなければ、集合和
を実行する場合にはなにもせず、集合和を実行する場合
にはそのレコードの複製を結果ファイルに格納しつつ残
ったファイル中の同一値を持つ全てのレコードに印を付
は以降の比較の対象から外す。最初に抽出したファイル
の全レコードについて比較を行ったならば、そのファイ
ルを除く残ったファイル中より任意のファイルを抽出し
て同様の処理を縁り返す。残りファイルが１つになった
ならば、集合和を実行する場合にはそのファイル中で比
較の対象から外されたレコードを除く全てのレコードを
結果ファイルに格納し、集合和を実行する場合には何も
しない。このファイルの処理が終了した時点での結果フ
ァイルの内容が演算の結果となる。ネステッドルーブ方
式により集合差を実行するには、差をとられるファイル
のレコードを残ったファイルのレコードと比較する。も
し、残ったファイル中に同一値を持つレコードが存在す
る場合にはなにもしない。

もし、残ったファイル中に同一値を持つレコードが存在
しないならば、そのレコードの複製を結果ファイルに格
納する。この処理を差をとられるファイル中の全レコー
ドに対して適用した結果生成された結果ファイルの内容
が集合差の結果となる。

（発明が解決しようとする問題点）しかし、以上の方法では、レコードが複数個の属性から
構成される場合には比較処理においてレコードの物理構
成に応じた処理を要求される。ところが論理的に同一と
みなされるつまり同一の属性集合から構成されるレコー
ドどうしでも、物理的にはレコード中の属性の配置は異
なる場合があり、そのため属性の物理的な配置を考慮し
た属性ごとの比較を実行する必要が生じ、属性数が多く
なるにつれ比較にかかる時間が増大する欠点があった。

更に、演算を施すファイルが二次記憶上に格納されてい
る際に、レコード数が膨大であったり、レコード長が長
大であるとファイルを一次記憶上へ転送するのにかかる
時間も膨大なものとなる欠点があった。

本発明は、以上の如き従来技術の問題点を解消するため
になされたものであって、ファイルをレコードの集合と
みなして集合演算を実行する際に、レコードの比較処理
およびレコードの転送処理にかかる時間を短縮し、高速
処理が可能な集合演算方式を提供することを目的とする
。

（問題点を解決するための手段）本発明は、同一の属性集合を有するレコードからなる複
数のファイル間での集合演算方式を対象とし、前記従来
技術の問題点を解決するため、前記ファイルの各レコー
ドについて、属性の種類に応じて各属性値を予め指定さ
れた長さの２進値に変換する変換手段と、該変換手段に
より得られたレコード中の各属性値対応の２進値をビッ
トごとにオア演算するオア演算手段と、該オア演算手段
により得られた２進値を索引値としたものとその値を生
成したレコードを指定するポインタとを対としたものを
そのレコードについて索引レコードとして構成する索引
レコード作成手段を設け、演算時にまず索引レコードの
索引値どうしで比較検査を行い、索引値が一致している
ものについてのみ索引値を生成したレコードの比較検査
を行うことにより集合演算を実行するようにしたもので
ある。

（作　用）本発明では、集合演算を行う前に、集合演算を施すファ
イルのレコードに対し変換手段はその各属性値を２進値
に変換してオア演算手段に出力する。オア演算手段はこ
の出力を受け、１つのレコードの全ての属性値に対応す
る２進値をビットごとにオア演算し、索引値とする。索
引レコード作成手段はオア演算手段からの索引値とポイ
ンタとを対として索引レコードを作成する。以上の作業
が集合演算を行う前に実行される。そしてファイル間で
集合演算の実行する際には、まず索引レコードどうしの
比較を行い、次にそのうちで索引値が一致したものにつ
きその索引値を生成したレコードの比較を行う。そして
その結果により演算結果を得る。索引レコードのファイ
ルはもとのファイルに較べ十分小さく作ることができ、
また直接比較するレコードの数も十分小さくてすむので
、演算時間が短縮でき高速処理が可能となる。

（実施例）以下、本発明の一実施例を図面を参照して詳細に説明す
る。

第１図は本実施例の構成を示す機能ブロック図である。

本実施例はファイル１に対し索引を与え、その索引を通
じてファイル１のレコードを検索できるように索引を構
成しておき、その索引を用いて複数のファイル間での集
合演算を実現するものである。変換手段２は属性の種類
に応じて属性値を予め指定された長さの２進値に変換す
るものであり、ファイル１中の各レコードについて前記
の変換手続きを属性に応じて適用しレコード中の各属性
値についての２進値を得る。オア演算手段３は１つのレ
コードの全ての属性について得た２進値をビットごとに
オア（ＯＲ）演算しその結果得た２進値（以後、重ね合
せ符号と呼ぶ）を索引値として出力する。索引レコード
作成手段４は索引値とその値を生成したレコードを指定
するポインタとを対としてそのレコードについての索引
レコードとする。ファイル１の全てのレコードに対して
用意した索引レコードの集りがそのファイルに対する索
引となり、索引ファイル５に格納される。演算手段６は
索引ファイル５の索引およびファイル１のレコードに基
づき集合演算を行い、その結果は結果ファイル７に格納
される。

集合演算を行う場合、集合演算を施す複数のファイル１
には同一の属性については変換手段２による同一の変換
手続きを適用し、更にオア演算手段３および索引レコー
ド作成手段４による上述した所定の処理を施して、それ
ぞれのレコードに対して予め索引を作成して索引ファイ
ル５に格納しておく。そして集合演算を実行する際にレ
コードの値が等しいか否かを判定するわけであるが、本
実施例の演算手段６では、まず索引レコードの索引値ど
うしで比較を行い、索引レコードの比較だけではもとの
レコードの値が等しいか否かを決定できない場合にのみ
、索引レコードが指すレコードどうしでさらに比較を行
う。上記のようにして構成された索引レコード間におい
て索引値が異なる索引レコードが指定するレコードは必
ず同一値をとらないことが保証される。但し、索引レコ
ード間において索引値が同一である索引レコードが指定
するレコードは必ずしも等しい値とはならないため、索
引レコードが指すレコードどうしでさらに比較が行われ
る。集合演算の結果は索引レコードの集合として結果フ
ァイル７に与えられる。

次に第２図によりファイル１の索引を作成する手順につ
いて詳細に説明する。ここではファイル１の一例として
人名−年齢ファイルを用いる。この人名−年齢ファイル
は「人名」属性および「年齢」属性から構成され、３つ
のレコードＸＩ、　Ｘ２゜×３を持つ。「人名変換手続
き」では「人名」属性を、「年齢変換手続き」では「年
齢」属性を共に４ビツト長の２進値に変換する。この変
換は変換手段２（第１図）によりなされる。レコードＸ
ｔの「人名」属性は人名変換手続きにより２進値“００
１Ｏ”に変換され、「年齢」属性は年齢変換手続きによ
り２進値“１０００“に変換され、この２つの２進値に
オア演算手段３によるオア演算を施した結果“１０１０
”がレコードＸＩに対する索引レコードｘ１の索引値と
なる。同様にレコード×２の「人名」属性は２進値“１
０００”に変換され、「年齢」属性は２進値“０１００
”に変換され、この２つの２進値にオア演算を施した結
果“１１００”がレコード×２に対する索引レコード×
２の索引値となる。更に、レコード×３の「人名」属性
は“０１００”に変換され、「年齢」属性は“１００【
”に変換され、この２つの２進値にオア演算を施した結
果“ＩＩ旧”がレコードＸ３に対する索引レコード×３
の索引値となる。また、索引レコードｘｌはレコードｘ
１を、索引レコード×２はレコード×２を、索引レコー
ドｘ３はレコード×３をそわぞれポインタにより指して
おり、索引レコードからレコードをアクセスすることが
できるようになっている。この索引レコードの作成は索
引レコード作成手段４により行われる。

第３図は２つのファイルとその索引が与えられた際の本
実施例による集合和、集合和および集合差演算の一例を
示すものである。ファイル「集団Ａ」およびファイル「
集団Ｂ」は「人名」属性および「年齢」属性とから構成
されており、各集団に対して索引Ａ’　、Ｂ’が与えら
れている。「集団Ａ」と「集団Ｂ」の集合和の結果は索
引Ｃ′からアクセスできるレコードの集合として与えら
れ、「集団Ａ」と「集団Ｂ」の集合和の結果は索引Ｄ′
からアクセスできるレコードの集合として与えられ、「
集団Ａ」から「集団Ｂ」の集合差演算をとった結果は索
引Ｅ′からアクセスできるレコードの集合として与えら
れる。ここで、説明の都合上、各レコードを（人名、年
齢）の組で表し、この組をレコード値と呼ぶこととする
。各レコードの人名と年齢がそれぞれ同一であることを
２つのレコードにおいてレコード値が一致するという。

索引Ｃ′が指す（小野、８４）および（清水、７９）の
組は「集団Ａ」にも「集団Ｂ」にも含まれている。とこ
ろが、「集団Ａ」の（山田。

１２）と「集団Ｂ」の（山田、５６）は「年齢」が異な
るために集合積演算の解にはなれない。同様に、「集団
Ａ」の（小面、５）と「集団Ｂ」の（斉藤、５）は「人
名」が異なるために集合積演算の解にはなれない。

索引Ｄ′が指すレコードは「集団Ａ」もしくは「集団Ｂ
」に含まれているが、「集団Ａ」および「集団Ｂ」で同
一の値を持つレコードについては字引Ｄ′の索引レコー
ドはそのいずれか一方しか指さない。つまり、（清水、
７９）および（小野。

８．４）は「集団Ａ」および「集団Ｂ」のいずれにも存
在するので、索引Ｄ′は（清水、７９）（小野。

８４）については「集団Ａ」に存在するレコードもしく
は「集団Ｂ」に存在するレコードのうち何れか１つのレ
コードを指す。索引Ｅ′が指すレコードは「集団Ａ」に
含まれるレコードのうち「集団Ｂ」に同一値をもつレコ
ードが存在しないものである。

まず、　「集団Ａ」と「集団Ｂ」の集合積演算について
説明する。まず、「集団Ａ」もしくは「集団Ｂ」いずれ
かのファイルを抽出するが、ここでは「集団Ａ」が抽出
されたものとする。「集団Ａ」の索引となる索引Ａ′の
各索引レコードａ１〜ａ４について、残ったファイルで
ある「集団Ｂ」の索引の索引レコードｂ１〜ｂ５全てと
索引値が等しいか否かを調べる。もし、索引値が異なれ
ば、その索引レコードが指すレコードの値も異なるから
集合和の解とはならず何もしないで、次の索引レコード
についての比較処理を行う。もし、索引値が等しければ
、レコードの値が一致する可能性があるため、更にその
索引レコードどうしが指す「集団Ａ」および「集団Ｂ」
のレコードどうしでレコード値が一致するか否かを調べ
、もしレコード値が一致しなければ集合和の解とはなら
ないから何もしないで、次の索引レコードについての比
較処理を行い、もしレコード値が一致すればそのレコー
ドは集合和の解であるから、一致した索引レコードいず
れかについてその複製を索引Ｃ′ファイルへ格納する。

以上の比較処理を索引Ａ′の索引レコードａ１〜ａ４の
全てについて実行すると、演算は終了しその結果は索引
Ｃ′からアクセスできるレコードの集合として与えられ
る。

次に、「集団Ａ」と「集団Ｂ」の集合和演算について説
明する。まず、「集団Ａ」もしくは「集団Ｂ」いずれか
のファイルを抽出するが、ここでは「集団Ａ」が抽出さ
れたものとする。「集団Ａ」の索引となる索引Ａ′の各
索引レコードａ１〜ａ４について、残ったファイルであ
る「集団Ｂ」の索引の索引レコードｂ１〜ｂ５全てと索
引値が等しいか否かを調べる。もし、索引値が異なれば
、抽出したファイル側の索引レコードについてその複製
を索引Ｄ′ファイルへ格納する。もし、索引値が等しけ
れば、レコードの値が一致する可能性があるため、更に
その索引レコードどうしが指す「集団Ａ」および「集団
Ｂ」のレコードどうしでレコード値が一致するか否かを
調べ、もしレコード値が一致しなければ抽出したファイ
ル側の索引レコードについてその複製を索引Ｄ′ファイ
ルへ格納し、もしレコード値が一致すれば抽出したファ
イル側の索引レコードについてその複製を索引Ｄ′ファ
イルへ格納するとともに、残ったファイル側の索引レコ
ードについては同一値を持つ旨を履歴がとられる。以上
の比較処理を索引Ａ′の索引レコードａ１〜ａ４の全て
について実行した後、履歴を調べ索引Ｂ′の索引レコー
ドのうちで他ファイルと同一値を持たないレコードに対
応する索引レコードについてその複製を索引Ｄ′ファイ
ルへ格納する。すると、演算は終了しその結果は索引Ｄ
′からアクセスできるレコードの集合として与えられる
。

次に、「集団Ａ」から「集団Ｂ」の集合差をとる演算に
ついて説明する。「集団Ａ」の索引となる索引Ａ′の各
索引レコードａ１〜ａ４について、差をとる集合である
「集団Ｂ」の索引の索引レコードｂ１〜ｂ５全てと索引
値が等しいか否かを調べる。もし索引値が異なれば、索
引Ａ′のその索引レコードについて複製を索引Ｅ′ファ
イルへ格納する。もし、索引値が等しけわば、レコード
の値が一致する可能性があるため、更にその索引レコー
ドどうしが指す「集団Ａ」および「集団Ｂ」のレコード
どうしでレコード値が一致するか否かを調べ、もしレコ
ード値が一致しなければ索引Ａ′の索引レコードについ
てその複製を索引Ｅ′ファイルへ格納し、もしレコード
値が一致すれば集合差の解とはならないから何もしない
で。

次の索引レコードについての比較処理を行う。以上の比
較処理を索引Ａ′の索引レコードａ１〜ａ４の全てにつ
いて実行すると、演算は終了しその結果は索引Ｅ′から
アクセスできるレコードの集合として与えられる。

（発明の効果）以上、詳細に説明したように本発明によれば、ファイル
間で集合演算を実行する際に、索引どうしの比較を行い
一部についてのみファイルのレコードどうじでの比較を
行うこととなる。したがって、重ね合せ符号を適切に作
成すれば、索引をもとのファイルより十分小さく作るこ
とができ、かつ索引値が等しいために直接比較するレコ
ードの数も十分小さくできるから、索引および比較が必
要になるレコードの大きさをもとのファイルの大きさに
比べ十分小さくすることができる。本発明により集合演
算を実現する方式とファイルの全レコードを直接比較し
て集合演算を実現する方式とを比べた場合、一般的には
ファイルも索引も二次記憶上にあり比較処理は一次記憶
上に転送され、結果は一次記憶上に生成されるものであ
るから、本発明による方式のほうが二次記憶から一次記
憶への転送にかかる時間を短縮できると共に、−次記憶
上での比較処理にかかる時間も短縮でき、全体としての
演算の実行時間を短縮できる。更に、索引はもとのファ
イルより小さく作れるので、−次記憶に余裕があれば索
引を一次記憶に常駐させることができ、この場合には索
引の転送が省かれることとなり、集合演算の実行時間を
更に短縮することが可能となる。

【図面の簡単な説明】

第１図は本発明の一実施例の構成を示す機能ブロック図
、第２図はファイルの索引作成手順の説明図、第３図は
本発明の一実施例による集合演算の説明図である。１・・・ファイル、２−変換手段、３・・・オア演算手段、４・・・索引レコード作成手段、５・−索引ファイル、６・・・演算手段、７・・・結果
ファイル。

Claims

【特許請求の範囲】同一の属性集合を有するレコードからなる複数のファイ
ル間での集合演算方式において、前記ファイルの各レコードについて、属性の種類に応じ
て各属性値を予め指定された長さの２進値に変換する変
換手段と、該変換手段により得られたレコード中の各属性値対応の
２進値をビットごとにオア演算するオア演算手段と、該オア演算手段により得られた２進値を索引値としたも
のとその値を生成したレコードを指定するポインタとを
対としたものをそのレコードについての索引レコードと
して構成する索引レコード作成手段を設け、演算時にまず索引レコードの索引値どうしで比較検査を
行い、索引値が一致しているものについてのみ索引値を生成し
たレコードの比較検査を行うことにより集合演算を実行
することを特徴とする集合演算方式。