JPS63121942A - 符号デ−タベ−ス処理方法 - Google Patents

符号デ−タベ−ス処理方法

Info

Publication number
JPS63121942A
JPS63121942A JP61267958A JP26795886A JPS63121942A JP S63121942 A JPS63121942 A JP S63121942A JP 61267958 A JP61267958 A JP 61267958A JP 26795886 A JP26795886 A JP 26795886A JP S63121942 A JPS63121942 A JP S63121942A
Authority
JP
Japan
Prior art keywords
database
data
code
data base
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61267958A
Other languages
English (en)
Inventor
Ryohei Nakano
良平 中野
Minoru Kiyama
稔 木山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP61267958A priority Critical patent/JPS63121942A/ja
Publication of JPS63121942A publication Critical patent/JPS63121942A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (1)発明の属する技術分野 本発明は、対象とするデータベースを全て短い固定長の
データから成るように内部符号を用いてti&成し、デ
ータベース処理の単純化、高速化及びデータベースの8
!密保護、圧縮を可能にする符号データベース処理方法
に関するものである。
(2)従来の技術 従来のデータベース処理方法では、データベースにおい
ては、数値データは多くの場合計算機固有の内部形式で
表現するが3文字(数字を含む)列は外部符号(JIS
8ビットコード、EI3CDICコード、等)を用いて
、多くの場合可変長として構成していた。それに伴い以
下のような遠点を有していた。
まず、レコード(関係データベースの場合にはタプル)
の格納時には、レコード長やデータ項目(関係データベ
ースの場合には属性)長を、逐一計算した上で格納して
おく必要があり面倒であった。
次に、検索や更新においては1条件に合致するレコード
を見出すために、レコードやデータ項目の位置決め(ア
ドレッシング)が必要になるが。
それが節単に行えず、レコードやデータ項目を長さ情報
を頼りにスキャンする処理が必要となり。
その処理オーバヘッドは少なくなく、データベース処理
全体の高速化の重大な障害となっている。
また1可変長かつ長いデータ項目をそのまま格納してい
るため、データの読み出し量も多くなる難点があり、い
わゆる、データベース処理の110ボトルネックを深刻
なものにしている。また、検索や更新における条件の判
定処理は基本的には比較処理であり、可変長データの場
合には、可変長を意識した制御あるいは装置構成(例え
ば、可変長データのソータ)が要求されるため、処理や
装置の複雑化及び性能劣化を招いている。更に、更新時
に取得するジャーナル量も可変長データを含むため多く
なる点も問題である。
また1文字列データはよく知られた外部符号で表現され
ているため、データベースのダンプ時を始めとして常に
機密保護が損なわれる危険に晒されている。更に、長大
な同一文字列が繰り返し使用されること、長さ情報が必
要なこと、可変長によるガーベジ領域の再利用の困難さ
等を考えると。
データベース領域を効率的に使用しているとはいえない
(3)発明の目的 本発明の目的は、可変長の文字列データを外部符号で直
接的に表現することに基づ(従来のデータベース処理方
法が有していた諸欠点2即ち、レコード格納処理オーバ
ヘッド、検索/更新処理オーバヘッド、機密保護の困難
さ、及び、データベース領域の非効率的使用を除去する
ことによりデータベース処理の単純化、高速化を実現し
、更に。
データベースのa宙保護、圧縮をも可能にする符号デー
タベース処理方法を提供することにある。
(4)発明の構成 (4−1)発明の特徴と従来技術との差異本発明におい
ては。
従来のデータベース処理システムが処理対象とするデー
タベースの中で、既に計算機固有の内部形式で表現され
た固定長の数値データ(整数データ、実数データ、等)
はそのままとし。
外部符号(J[38ビツトコード、’EBCDICコー
ド、等)で表された可変長または固定長の文字(数字を
含む)列データを、各文字列データと1対1に対応する
ような短い固定長(2〜4バイト位)の内部符号に置換
して構成される。固定長データのみから成る内部符号デ
ータベースと。
それを処理対象としてデータベースの格納、検索5更新
、及びジャーナル取得等のデータベース処理を行う汎用
計算機またはデータベースマシン外部符号から内部符号
への変換(符号化)またはその逆変換(復号化)を行う
符号液FIA機構とから成り。
データベース処理は専ら内部符号データベースを対象に
行い、要求元とのインタフェース時に符号化または復号
化を行うことにより。
外部符号中心に構成されたデータベース(外部符号デー
タベースと呼ぶ)を処理対象とする従来のデータベース
処理方法に比べて対象データが全て固定長かつ短いため
、データベースの格納、検索、更新、及びジャーナル取
得等のデータベース処理が単純かつ高速に行え。
更に文字列データが暗号のように符号化されているため
、データベースの機密保護及び圧縮も可能となる ことを特徴としている。
(・1−2)実施例 第1図は本発明におけるシステム構成例を示す図である
。以下1本発明における実施例を2フェ−ズに分けて説
明する。
1)内部符号データベースへの移行 第1のフェーズでは、外部符号データベースまたは外部
符号ファイルを、第2図に示したような手順で内部符号
データベースに移行する。
まず、データベース処理を行う汎用計算機またはデータ
ベースマシン1内で動作する外部符号データベース入力
1!tlt20により、データベース処理を行う汎用計
算機またはデータベースマシン1にチャネルまたはバス
7で接続された外部符号データベース2から1デ一タ項
目ずつ読み込む。外部符号データベース2内には、第4
図に示したようなレコード構成でデータが格納されてい
る。第4図は2レコ一ド分の格納状態を示している。H
初のレコードは、レコード長=42 (バイト)、レコ
ードia =23456゜データ項目数=3.第1デー
タ項目長=10(バイト)、第1データ項目値=°神奈
川太部。
第2データ項目長=2(バイト)、第2データ項目値−
32,第3データ項目長=14(バイト)、第3データ
項目値−“神奈川県横浜市゛を表している。続くレコー
ドは、レコード1=40 (ハイド)、レコード1d−
432IO1データ項目数−3,第1データ項目長−8
(ハイド)。
第1データ項目値−°東京次部°、第2データ項目長−
2(ハイド)、第2データ項目値=20、第3データ項
目長−14(バイト)、第3データ項目値=“東京都千
代田区゛を表している。外部符号データベース2内のレ
コードはこのように長さ情報が管理されている。
外部符号データベース2から読み込んだ各データ項目は
、データベース処理を行う汎用計算機またはデータベー
スマシン1内で動作する符号化制御機構21.及びデー
タベース処理を行う汎用計算機またはデータベースマシ
ン1にチャフルまたはバス7で接続された符復号化機構
6により符号化する。
符号化の実現例としては2例えば、“情報処理学会論文
誌” (1985年12月号、 pP、1152−11
55)に掲載されている“連想記憶に基づくパイプライ
ン型文字列検索アルゴリズム”を応用した機構で良い。
同アルゴリズムは連想メモリを用いて装置として簡単に
構成できるし、ハツシュを用いてソフトウェア中心に実
現しても良い。連想メモリを用いた実施例を第6図と第
7図に示す。第6図は1文字列の木構造型表現形式と。
各文字列に対応する符号を示している。第7図は連想メ
モリの格納状態を示している。第6図に示す例では1例
えば、“神奈川県横浜市”は内部符号1203に、“神
奈川県横須賀市”は内部符号1304に、“東京都千代
田区”は内部符号2207に、“神奈川大部”は内部符
号1401に、“東京次部”は内部符号2501に、各
々変換される。
また、途中の“神奈川系”は内部符号1101に。
”東京都”は内部符号2002に変換される。符号化情
報は第6図のように木構造で管理するので。
連想メモリのエントリ数は第7図に示すように共有する
部分が節約できる。
符号化により生成されたデータ(符号)は短い固定長の
データであり、データベース処理を行う汎用計算機また
はデータベースマシンl内で動作する内部符号データベ
ース出力機構22により、第5図に示すようにアドレッ
シングが容易な配列型格納形式で、データベース処理を
行う汎用計算機またはデータベースマシン1にチャネル
またはバス7で接続された内部符号データ項目数4に格
納する。第5図に示すように。
どのレコードも5どのデータ項目も固定長であるので、
レコード毎の長さ管理情報は全く不変になり、格納処理
は容易である。
符号化が完了したら1次項で述べるデータベース処理を
始めるまでの間は、符復号化前槽6に格納されている符
号化情報を、汎用針rf、aまたはデータベースマシン
1内で動作する符号化情報ロード/アンロード機構23
を用いて、データベース処理を行う汎用計算機またはデ
ータベースマシン1にチャネルまたはバス7で接続され
た符号化情報格納媒体5(磁気テープまたは磁気ディス
ク等)にアンロードしておく。データ項目数の符号化情
報はシステム内で1種類とする。即ち、どのようなドメ
インの情報も。
第6図のように、1種類の木構造で管理するのがよい。
2)内部符号データベースを用いたデータベース処理 内部符号データベース4が既に構築されているので5そ
れをベースとしたデータベース処理方法が如何に単純か
つ高速に実現できるかを第3図を用いて説明する。
まず、符号化情報ロード/アンロード機構23を用いて
、符号化情報を符号化情報格納媒体5から符復号化機構
6にロードする。
その後、データベース処理を開始する。汎用計算機また
はデータベースマシン1に回線9で接続された端末また
は他の計算機8がらのデータベース処理要求(検索また
は更新)は1回線9を経由して、データベース処理を行
う汎用計算機またはデータベースマシン1に到着する。
データベース処理要求中の定数や更新データは。
符号化制御機構21及び符復号化機構6により符号化し
ておく。
データベース処理要求が検索の場合には、内部符号を使
って検索を行う。例えば、“横須賀型に住む20才以上
の人の名を求めよ”という検索は次のように表現できる
get   ttl f rom    住民レコード where  # 2 > =20 and#3=’神奈川県横須賀市” 検索文中の定数“神奈川県横須賀市゛は符号化により1
304に変換されている。この検索は、第2データ項目
の不等号比較と第3データ項目の等号比較のandで、
  where条件を満たすレコードが選択される。第
2データ項目は第5図に示すようにWD型であり、各レ
コードの第2データ項目と20の大小比較を行えば良い
。また。
第3データ項目は第5図に示すように符号化されており
、各レコードの第3データ項目と1304の等号判定と
を行えば良い。各レコードの第2データ項目と第3デー
タ項目とは、第5図に示すように格納されていれば、容
易にアドレッシングできることが判る。一方、符号化さ
れていない第4図では、それらアドレッシングが簡単で
なく、長さ情報を頼りにスキャンする処理が必要になる
ことが理解できる。更に、第3データ項目の判定からも
判るように、符号化されていない場合には、符号化され
ている場合に比べ。
一般に、比較回数が多くなり、従って、処理時間も長く
なり、制御も複雑となる。
更新の場合には内部符号で表現したデータを用いて内部
符号データベース4を更新する6例えば、“tid=2
3456のレコードの第3データ項目を“神奈川県横須
賀市”に変更せよ”という更新は次のように表現できる
update   # 3 = ’神奈川県横須賀市゛
f rom   住民レコード where  tid =23456 まず、 “神奈川県横須賀市°を符号化して、1304
を得た上で、第5図中のtid−23456の第3デー
タ項目1203を1304に変更する。第4図のような
拾遺の場合には、新しい第3データ項目が入りきらず、
レコード全体への影響が避けられず1面倒なことになる
。このように、内部符号データベース4を用いた更新は
、従来に比べて単純になることが判る。
更に、インデックス(Bl−リー等)が張られていない
ような場合には2条件を満たすレコードを探すために、
対象レコードタイプに属する全レコードの総スキャンが
必要になる。符号化されている場合には、データ項目が
固定長かつ短いので、2次媒体からの読み出し量が少な
くて済み、よく言われるデータベース処理におけるI/
○ボトルネックが解消ないし緩和でき。
検索/更新の処理時間が短縮できる。
内部符号データベース4の更新情報は、従来のデータベ
ース処理方法と同様、更新前情報または更新後情報を、
汎用計算機またはデータベースマシン1にチャネルまた
はバス7で1妾続されたジャーナル3に取得し、システ
ム障害時に利用する。上記例の更新前情報は、符号化さ
れていない場合には”神奈川県横浜市゛であるが。
符号化されていると単に1203で済む。このように、
ジャーナル3に取得するジャーナル量の削減が可能であ
り、その高速化が実現できる。
また、検索結果は多くの場合内部符号で表されているの
で、データベース処理を行う汎用計算機またはデータベ
ースマシン1内で動作スる復号化制御機構25及び符復
号化機構6を用いて5復号化し、要求元へ返却する。復
号化は。
符号化と逆の手順で行うことができる。例えば。
第7図において、内部符号2501のデータは、250
1番のエントリにある“部”と、そこからポイントされ
た2500番のエントリにある”次”と。
そこからポイントされた2001番のエントリにある“
京”と、そこからポイントされた2000番のエントリ
にある“東“とから、“東京法部”に復号化できる。ポ
インタチェインを辿る制御は復号化制御機構25が行う
データベース処理が終了した時には5符号化情報は更新
されており1次のデータベース処理の開始に備え、符号
化情報ロー1′/アンロード機構23を用いて、符号化
情報格納媒体5にアンロードしておく。
次のデータベース処理の際には1本項の順を繰り返せば
良い。
(5)発明の詳細 な説明したように2本発明によれば、可変長の文字列デ
ータを外部符号で直接的に表現することに基づ〈従来の
データベース処理方法が有していた諸欠点、即ち、レコ
ード格納処理オーバヘッド、検索/更新処理オーバヘッ
ド、機密保護の困難さ、及び、データベース処理の非効
率的使用等が解決され、データベース処理の単純化、高
速化が実現でき、更に、データヘースの機密保護、圧縮
が可能になる。
【図面の簡単な説明】
第1図は本発明におけるシステム構成例を示す図である
。第2図は本発明において、外部符号データベースから
内部符号データヘースへの変換処理方法を示す図である
。第3図は内部符号データヘースを用いたデータベース
処理方法を示す図である。第4図は従来方法におけるレ
コード格納状態例を示す図である。第5図は本発明にお
けるレコード格納状態例を示す図で、第4図に対応して
いる。第6図は木構造型の符号変換における外部符号と
内部7’f号の対応例を示す図である。第7図は連想メ
モリを用いた符号変換機構の状態図例で。 第6図に対応している。 1・・・データベース処理を行う汎用計算機またはデー
タベース処理ン、2・・・外部符号データヘース。 3・・・ジャーナル、4・・・内部符号データベース、
5・・・符号化情報格納媒体、6・・・符復号化機構、
7・・・チャネルまたはバス、8・・・端末または他の
計算機。 9・・・回線、20・・・外部符号データヘース入力機
構。 21・・・符号他制′4′nR構、22・・・内部符号
データベース出力機構、23・・・符号化情報ロード/
アンロード機構、24・・・内部符号データベース処理
機構。 25・・・復号化制御機構。 菓 1 図 C%J 塚 第4図 第5図 第 6 図

Claims (1)

  1. 【特許請求の範囲】 データベース処理システムにおいて、 当該データベース処理システムが処理対象とするデータ
    ベースの中で、計算機固有の内部形式で表現された固定
    長の数値データはそのままとし、外部符号で表された可
    変長または固定長の文字列データを、各文字列データと
    1対1に対応するような固定長の内部符号に置換して構
    成される固定長データのみから成るデータベースと、 それを処理対象としてデータベースの格納、検索、更新
    を含むデータベース処理を行う汎用計算機またはデータ
    ベースマシンと、 外部符号から内部符号への変換またはその逆変換を行う
    符号変換機構とから成り、 データベース処理は専ら内部符号データベースを対象に
    行い、要求元とのインタフェース時に符号化または復号
    化を行うことを特徴とする符号データベース処理方法。
JP61267958A 1986-11-11 1986-11-11 符号デ−タベ−ス処理方法 Pending JPS63121942A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61267958A JPS63121942A (ja) 1986-11-11 1986-11-11 符号デ−タベ−ス処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61267958A JPS63121942A (ja) 1986-11-11 1986-11-11 符号デ−タベ−ス処理方法

Publications (1)

Publication Number Publication Date
JPS63121942A true JPS63121942A (ja) 1988-05-26

Family

ID=17451956

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61267958A Pending JPS63121942A (ja) 1986-11-11 1986-11-11 符号デ−タベ−ス処理方法

Country Status (1)

Country Link
JP (1) JPS63121942A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002063540A1 (en) * 2001-02-05 2002-08-15 Lorza Jr Miguel Kramer Single-number encoding and decoding of questionnaire responses
JP2016105251A (ja) * 2014-12-01 2016-06-09 富士通株式会社 情報秘匿化プログラム、情報秘匿化方法および情報秘匿化装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002063540A1 (en) * 2001-02-05 2002-08-15 Lorza Jr Miguel Kramer Single-number encoding and decoding of questionnaire responses
JP2016105251A (ja) * 2014-12-01 2016-06-09 富士通株式会社 情報秘匿化プログラム、情報秘匿化方法および情報秘匿化装置

Similar Documents

Publication Publication Date Title
US6421662B1 (en) Generating and implementing indexes based on criteria set forth in queries
US8838551B2 (en) Multi-level database compression
US9977802B2 (en) Large string access and storage
US6009432A (en) Value-instance-connectivity computer-implemented database
Zobel et al. Adding compression to a full‐text retrieval system
US5893102A (en) Textual database management, storage and retrieval system utilizing word-oriented, dictionary-based data compression/decompression
US5603022A (en) Data compression system and method representing records as differences between sorted domain ordinals representing field values
US11537578B2 (en) Paged column dictionary
US6247014B1 (en) Method and apparatus for performing hash lookups using valid bit tables with pointers
US11789923B2 (en) Compression units in an index block
EP1350189A1 (en) Value-instance-connectivity-computer-implemented database
EA006562B1 (ru) Способ кодирования ключей в базе данных и база данных
US10146817B2 (en) Inverted index and inverted list process for storing and retrieving information
US10903851B2 (en) Page filtering via compression dictionary filtering
JP6726690B2 (ja) 基本データシーブを用いて無損失削減されたデータに対する多次元検索、コンテンツ連想的な取出し、ならびにキーワードベースの検索および取出しの実行
JP2023525791A (ja) 基本データシーブを使用して無損失削減されたデータの効率的な取出しのための基本データの局所性の利用
US5815096A (en) Method for compressing sequential data into compression symbols using double-indirect indexing into a dictionary data structure
JP2019502154A (ja) 音声データおよびブロック処理ストレージシステム上に記憶されたデータの削減
O'connell et al. Performing joins without decompression in a compressed database system
JPS63121942A (ja) 符号デ−タベ−ス処理方法
WO2009001174A1 (en) System and method for data compression and storage allowing fast retrieval
JP3728264B2 (ja) インデックス作成装置、検索システム、及び制御方法
CN110909029A (zh) 基于Nosql实现缓存的方法及介质
Barranco et al. An impact ordering approach for indexing fuzzy sets
WO1992015954A1 (en) Compaction of a querying in relational databases