JPS63121942A

JPS63121942A - 符号デ−タベ−ス処理方法

Info

Publication number: JPS63121942A
Application number: JP61267958A
Authority: JP
Inventors: Ryohei Nakano; 良平中野; Minoru Kiyama; 稔木山
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1986-11-11
Filing date: 1986-11-11
Publication date: 1988-05-26

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（１）発明の属する技術分野本発明は、対象とするデータベースを全て短い固定長の
データから成るように内部符号を用いてｔｉ＆成し、デ
ータベース処理の単純化、高速化及びデータベースの８
！密保護、圧縮を可能にする符号データベース処理方法
に関するものである。

（２）従来の技術従来のデータベース処理方法では、データベースにおい
ては、数値データは多くの場合計算機固有の内部形式で
表現するが３文字（数字を含む）列は外部符号（ＪＩＳ
８ビットコード、ＥＩ３ＣＤＩＣコード、等）を用いて
、多くの場合可変長として構成していた。それに伴い以
下のような遠点を有していた。

まず、レコード（関係データベースの場合にはタプル）
の格納時には、レコード長やデータ項目（関係データベ
ースの場合には属性）長を、逐一計算した上で格納して
おく必要があり面倒であった。

次に、検索や更新においては１条件に合致するレコード
を見出すために、レコードやデータ項目の位置決め（ア
ドレッシング）が必要になるが。

それが節単に行えず、レコードやデータ項目を長さ情報
を頼りにスキャンする処理が必要となり。

その処理オーバヘッドは少なくなく、データベース処理
全体の高速化の重大な障害となっている。

また１可変長かつ長いデータ項目をそのまま格納してい
るため、データの読み出し量も多くなる難点があり、い
わゆる、データベース処理の１１０ボトルネックを深刻
なものにしている。また、検索や更新における条件の判
定処理は基本的には比較処理であり、可変長データの場
合には、可変長を意識した制御あるいは装置構成（例え
ば、可変長データのソータ）が要求されるため、処理や
装置の複雑化及び性能劣化を招いている。更に、更新時
に取得するジャーナル量も可変長データを含むため多く
なる点も問題である。

また１文字列データはよく知られた外部符号で表現され
ているため、データベースのダンプ時を始めとして常に
機密保護が損なわれる危険に晒されている。更に、長大
な同一文字列が繰り返し使用されること、長さ情報が必
要なこと、可変長によるガーベジ領域の再利用の困難さ
等を考えると。

データベース領域を効率的に使用しているとはいえない
。

（３）発明の目的本発明の目的は、可変長の文字列データを外部符号で直
接的に表現することに基づ（従来のデータベース処理方
法が有していた諸欠点２即ち、レコード格納処理オーバ
ヘッド、検索／更新処理オーバヘッド、機密保護の困難
さ、及び、データベース領域の非効率的使用を除去する
ことによりデータベース処理の単純化、高速化を実現し
、更に。

データベースのａ宙保護、圧縮をも可能にする符号デー
タベース処理方法を提供することにある。

（４）発明の構成（４−１）発明の特徴と従来技術との差異本発明におい
ては。

従来のデータベース処理システムが処理対象とするデー
タベースの中で、既に計算機固有の内部形式で表現され
た固定長の数値データ（整数データ、実数データ、等）
はそのままとし。

外部符号（Ｊ［３８ビツトコード、’ＥＢＣＤＩＣコー
ド、等）で表された可変長または固定長の文字（数字を
含む）列データを、各文字列データと１対１に対応する
ような短い固定長（２〜４バイト位）の内部符号に置換
して構成される。固定長データのみから成る内部符号デ
ータベースと。

それを処理対象としてデータベースの格納、検索５更新
、及びジャーナル取得等のデータベース処理を行う汎用
計算機またはデータベースマシン外部符号から内部符号
への変換（符号化）またはその逆変換（復号化）を行う
符号液ＦＩＡ機構とから成り。

データベース処理は専ら内部符号データベースを対象に
行い、要求元とのインタフェース時に符号化または復号
化を行うことにより。

外部符号中心に構成されたデータベース（外部符号デー
タベースと呼ぶ）を処理対象とする従来のデータベース
処理方法に比べて対象データが全て固定長かつ短いため
、データベースの格納、検索、更新、及びジャーナル取
得等のデータベース処理が単純かつ高速に行え。

更に文字列データが暗号のように符号化されているため
、データベースの機密保護及び圧縮も可能となることを特徴としている。

（・１−２）実施例第１図は本発明におけるシステム構成例を示す図である
。以下１本発明における実施例を２フェ−ズに分けて説
明する。

１）内部符号データベースへの移行第１のフェーズでは、外部符号データベースまたは外部
符号ファイルを、第２図に示したような手順で内部符号
データベースに移行する。

まず、データベース処理を行う汎用計算機またはデータ
ベースマシン１内で動作する外部符号データベース入力
１！ｔｌｔ２０により、データベース処理を行う汎用計
算機またはデータベースマシン１にチャネルまたはバス
７で接続された外部符号データベース２から１デ一タ項
目ずつ読み込む。外部符号データベース２内には、第４
図に示したようなレコード構成でデータが格納されてい
る。第４図は２レコ一ド分の格納状態を示している。Ｈ
初のレコードは、レコード長＝４２　（バイト）、レコ
ードｉａ　＝２３４５６゜データ項目数＝３．第１デー
タ項目長＝１０（バイト）、第１データ項目値＝°神奈
川太部。

第２データ項目長＝２（バイト）、第２データ項目値−
３２，第３データ項目長＝１４（バイト）、第３データ
項目値−“神奈川県横浜市゛を表している。続くレコー
ドは、レコード１＝４０　（ハイド）、レコード１ｄ−
４３２ＩＯ１データ項目数−３，第１データ項目長−８
（ハイド）。

第１データ項目値−°東京次部°、第２データ項目長−
２（ハイド）、第２データ項目値＝２０、第３データ項
目長−１４（バイト）、第３データ項目値＝“東京都千
代田区゛を表している。外部符号データベース２内のレ
コードはこのように長さ情報が管理されている。

外部符号データベース２から読み込んだ各データ項目は
、データベース処理を行う汎用計算機またはデータベー
スマシン１内で動作する符号化制御機構２１．及びデー
タベース処理を行う汎用計算機またはデータベースマシ
ン１にチャフルまたはバス７で接続された符復号化機構
６により符号化する。

符号化の実現例としては２例えば、“情報処理学会論文
誌”　（１９８５年１２月号、　ｐＰ、１１５２−１１
５５）に掲載されている“連想記憶に基づくパイプライ
ン型文字列検索アルゴリズム”を応用した機構で良い。

同アルゴリズムは連想メモリを用いて装置として簡単に
構成できるし、ハツシュを用いてソフトウェア中心に実
現しても良い。連想メモリを用いた実施例を第６図と第
７図に示す。第６図は１文字列の木構造型表現形式と。

各文字列に対応する符号を示している。第７図は連想メ
モリの格納状態を示している。第６図に示す例では１例
えば、“神奈川県横浜市”は内部符号１２０３に、“神
奈川県横須賀市”は内部符号１３０４に、“東京都千代
田区”は内部符号２２０７に、“神奈川大部”は内部符
号１４０１に、“東京次部”は内部符号２５０１に、各
々変換される。

また、途中の“神奈川系”は内部符号１１０１に。

”東京都”は内部符号２００２に変換される。符号化情
報は第６図のように木構造で管理するので。

連想メモリのエントリ数は第７図に示すように共有する
部分が節約できる。

符号化により生成されたデータ（符号）は短い固定長の
データであり、データベース処理を行う汎用計算機また
はデータベースマシンｌ内で動作する内部符号データベ
ース出力機構２２により、第５図に示すようにアドレッ
シングが容易な配列型格納形式で、データベース処理を
行う汎用計算機またはデータベースマシン１にチャネル
またはバス７で接続された内部符号データ項目数４に格
納する。第５図に示すように。

どのレコードも５どのデータ項目も固定長であるので、
レコード毎の長さ管理情報は全く不変になり、格納処理
は容易である。

符号化が完了したら１次項で述べるデータベース処理を
始めるまでの間は、符復号化前槽６に格納されている符
号化情報を、汎用針ｒｆ、ａまたはデータベースマシン
１内で動作する符号化情報ロード／アンロード機構２３
を用いて、データベース処理を行う汎用計算機またはデ
ータベースマシン１にチャネルまたはバス７で接続され
た符号化情報格納媒体５（磁気テープまたは磁気ディス
ク等）にアンロードしておく。データ項目数の符号化情
報はシステム内で１種類とする。即ち、どのようなドメ
インの情報も。

第６図のように、１種類の木構造で管理するのがよい。

２）内部符号データベースを用いたデータベース処理内部符号データベース４が既に構築されているので５そ
れをベースとしたデータベース処理方法が如何に単純か
つ高速に実現できるかを第３図を用いて説明する。

まず、符号化情報ロード／アンロード機構２３を用いて
、符号化情報を符号化情報格納媒体５から符復号化機構
６にロードする。

その後、データベース処理を開始する。汎用計算機また
はデータベースマシン１に回線９で接続された端末また
は他の計算機８がらのデータベース処理要求（検索また
は更新）は１回線９を経由して、データベース処理を行
う汎用計算機またはデータベースマシン１に到着する。

データベース処理要求中の定数や更新データは。

符号化制御機構２１及び符復号化機構６により符号化し
ておく。

データベース処理要求が検索の場合には、内部符号を使
って検索を行う。例えば、“横須賀型に住む２０才以上
の人の名を求めよ”という検索は次のように表現できる
。

ｇｅｔ　　　ｔｔｌｆ　ｒｏｍ　　　　住民レコードｗｈｅｒｅ　　＃　２　＞　＝２０ａｎｄ＃３＝’神奈川県横須賀市” 検索文中の定数“神奈川県横須賀市゛は符号化により１
３０４に変換されている。この検索は、第２データ項目
の不等号比較と第３データ項目の等号比較のａｎｄで、
　　ｗｈｅｒｅ条件を満たすレコードが選択される。第
２データ項目は第５図に示すようにＷＤ型であり、各レ
コードの第２データ項目と２０の大小比較を行えば良い
。また。

第３データ項目は第５図に示すように符号化されており
、各レコードの第３データ項目と１３０４の等号判定と
を行えば良い。各レコードの第２データ項目と第３デー
タ項目とは、第５図に示すように格納されていれば、容
易にアドレッシングできることが判る。一方、符号化さ
れていない第４図では、それらアドレッシングが簡単で
なく、長さ情報を頼りにスキャンする処理が必要になる
ことが理解できる。更に、第３データ項目の判定からも
判るように、符号化されていない場合には、符号化され
ている場合に比べ。

一般に、比較回数が多くなり、従って、処理時間も長く
なり、制御も複雑となる。

更新の場合には内部符号で表現したデータを用いて内部
符号データベース４を更新する６例えば、“ｔｉｄ＝２
３４５６のレコードの第３データ項目を“神奈川県横須
賀市”に変更せよ”という更新は次のように表現できる
。

ｕｐｄａｔｅ　　　＃　３　＝　’神奈川県横須賀市゛
ｆ　ｒｏｍ　　　住民レコードｗｈｅｒｅ　　ｔｉｄ　＝２３４５６まず、　“神奈川県横須賀市°を符号化して、１３０４
を得た上で、第５図中のｔｉｄ−２３４５６の第３デー
タ項目１２０３を１３０４に変更する。第４図のような
拾遺の場合には、新しい第３データ項目が入りきらず、
レコード全体への影響が避けられず１面倒なことになる
。このように、内部符号データベース４を用いた更新は
、従来に比べて単純になることが判る。

更に、インデックス（Ｂｌ−リー等）が張られていない
ような場合には２条件を満たすレコードを探すために、
対象レコードタイプに属する全レコードの総スキャンが
必要になる。符号化されている場合には、データ項目が
固定長かつ短いので、２次媒体からの読み出し量が少な
くて済み、よく言われるデータベース処理におけるＩ／
○ボトルネックが解消ないし緩和でき。

検索／更新の処理時間が短縮できる。

内部符号データベース４の更新情報は、従来のデータベ
ース処理方法と同様、更新前情報または更新後情報を、
汎用計算機またはデータベースマシン１にチャネルまた
はバス７で１妾続されたジャーナル３に取得し、システ
ム障害時に利用する。上記例の更新前情報は、符号化さ
れていない場合には”神奈川県横浜市゛であるが。

符号化されていると単に１２０３で済む。このように、
ジャーナル３に取得するジャーナル量の削減が可能であ
り、その高速化が実現できる。

また、検索結果は多くの場合内部符号で表されているの
で、データベース処理を行う汎用計算機またはデータベ
ースマシン１内で動作スる復号化制御機構２５及び符復
号化機構６を用いて５復号化し、要求元へ返却する。復
号化は。

符号化と逆の手順で行うことができる。例えば。

第７図において、内部符号２５０１のデータは、２５０
１番のエントリにある“部”と、そこからポイントされ
た２５００番のエントリにある”次”と。

そこからポイントされた２００１番のエントリにある“
京”と、そこからポイントされた２０００番のエントリ
にある“東“とから、“東京法部”に復号化できる。ポ
インタチェインを辿る制御は復号化制御機構２５が行う
。

データベース処理が終了した時には５符号化情報は更新
されており１次のデータベース処理の開始に備え、符号
化情報ロー１′／アンロード機構２３を用いて、符号化
情報格納媒体５にアンロードしておく。

次のデータベース処理の際には１本項の順を繰り返せば
良い。

（５）発明の詳細な説明したように２本発明によれば、可変長の文字列デ
ータを外部符号で直接的に表現することに基づ〈従来の
データベース処理方法が有していた諸欠点、即ち、レコ
ード格納処理オーバヘッド、検索／更新処理オーバヘッ
ド、機密保護の困難さ、及び、データベース処理の非効
率的使用等が解決され、データベース処理の単純化、高
速化が実現でき、更に、データヘースの機密保護、圧縮
が可能になる。

【図面の簡単な説明】

第１図は本発明におけるシステム構成例を示す図である
。第２図は本発明において、外部符号データベースから
内部符号データヘースへの変換処理方法を示す図である
。第３図は内部符号データヘースを用いたデータベース
処理方法を示す図である。第４図は従来方法におけるレ
コード格納状態例を示す図である。第５図は本発明にお
けるレコード格納状態例を示す図で、第４図に対応して
いる。第６図は木構造型の符号変換における外部符号と
内部７’ｆ号の対応例を示す図である。第７図は連想メ
モリを用いた符号変換機構の状態図例で。第６図に対応している。１・・・データベース処理を行う汎用計算機またはデー
タベース処理ン、２・・・外部符号データヘース。３・・・ジャーナル、４・・・内部符号データベース、
５・・・符号化情報格納媒体、６・・・符復号化機構、
７・・・チャネルまたはバス、８・・・端末または他の
計算機。９・・・回線、２０・・・外部符号データヘース入力機
構。２１・・・符号他制′４′ｎＲ構、２２・・・内部符号
データベース出力機構、２３・・・符号化情報ロード／
アンロード機構、２４・・・内部符号データベース処理
機構。２５・・・復号化制御機構。菓　１　図Ｃ％Ｊ塚第４図第５図第　６　図

Claims

【特許請求の範囲】データベース処理システムにおいて、当該データベース処理システムが処理対象とするデータ
ベースの中で、計算機固有の内部形式で表現された固定
長の数値データはそのままとし、外部符号で表された可
変長または固定長の文字列データを、各文字列データと
１対１に対応するような固定長の内部符号に置換して構
成される固定長データのみから成るデータベースと、それを処理対象としてデータベースの格納、検索、更新
を含むデータベース処理を行う汎用計算機またはデータ
ベースマシンと、外部符号から内部符号への変換またはその逆変換を行う
符号変換機構とから成り、データベース処理は専ら内部符号データベースを対象に
行い、要求元とのインタフェース時に符号化または復号
化を行うことを特徴とする符号データベース処理方法。