JPS63151224A

JPS63151224A - データ圧縮方法

Info

Publication number: JPS63151224A
Application number: JP62232741A
Authority: JP
Inventors: ロナルド・ジエイ・リール; イール・アーロン・モス; ジヨン・ホイツト・レイダー
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1986-12-04
Filing date: 1987-09-18
Publication date: 1988-06-23
Also published as: AU596713B2; NO875048D0; NO173576B; EP0286719A3; DK636087D0; DK636087A; EP0286719A2; US4843389A; NO875048L; DE3751421D1; JPH026252B2; ATE125375T1; BR8706325A; CA1290061C; DE3751421T2; AU8163787A; EP0286719B1; NO173576C

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】以下の順序で本発明を説明する。

へ〇産業上の利用分野。

Ｂ、従来技術Ｃ１発明が解決しようとする問題点り０問題点を解決するための手段Ｅ、実施例Ｆ０発明の効果Ａ、産業上の利用分野この発明は、テキスト圧縮及び伸張方法に関するもので
ある。

Ｂ、従来技術この技術分野には、さまざまな広範囲の特許及び論文が
存在する。例えば、米国特許第４５４５０３２号は、基
本的な英語の語受のための数字コードを利用した辞書ま
たはテーブル変換の基本的技術のうちの１つを教示する
。しかし、これにおいては単語が接頭部と接尾部と語幹
に分解され、辞書エントリまたはテーブル・エントりの
重みづけランキングが考慮されあるいは適用された様子
かない。また、用途分野に基づき異なるテーブルまたは
辞書の間で切換できるようにするという概念をも全く考
慮された様子がない。

米国特許第４５９７０５７号は、標準的なＡＳＣＩＩコ
ード・テキストが、′単語”としてアルファベット、数
字及び句読点要素に分割することができ、″単語″が接
頭部と接尾部と語幹に分割されるような圧縮技術の典型
的な例を与える。これらの接頭部、接尾部及び語幹は上
述の米国特許第４−５４．５０３２号に類似する方法で
数字エンコーディングを利用する。

米国特許第４２９５１２４号は、数字コードを英語テキ
スト・キャラクタに適用するための、辞書またはテーブ
ル索引タイプの変換のより初期の例である。これにおい
ては、ハツシングによって第２の代表コードを生成する
ために、入力ＡＳＣＩＩでエンコードされたテキスト単
語が使用される。このコードは、テキスト単語の予め配
列された辞書メモリに対する比較のためのメモリ・アド
レスとして使用することができる。そして、一致が見出
されると、ハツシング・アドレスが識別子として送られ
る。もし一致が見出されないなら補助的な辞書が構築さ
れるが、単語は、最初に遭遇した時点で圧縮されずに送
られる。次にその同一の単語に遭遇したとき、両方の辞
書がチェックされ、もしその単語が第２の構築された辞
書中に見出されたなら、そのハツシング・アドレスが送
られる。この記述は有効であり有効な技術であると思わ
れるけれども、これは、テキストの利用分野に対応して
注意深く選択され得る多くの辞書の柔軟性を採用せず、
エントリを辞書に割り当てるために点数の重みづけられ
た図式を採用しているようには見えない。

米国特許第４．３８６４１６号は、上述の米国特許第４
２９５１２４号に類似するが、メモリ・ライブラリ・ア
ドレスからのコードと、ライブラリ中に見出されない単
語の異なるエンコード表現のどちらが利用されているか
を表示するエスケープ・コードを利用している。しかし
、やはりこれにおいても、辞書エントリのための点数の
重みづけ図３一式が採用されているようには見えず、また、辞書の特定
のサブセットを識別するためにプリアンプルまたはヘッ
ダを利用する技術が、テキストの所与の圧縮において採
用されていない。

Ｃ１発明が解決しようとする問題点上述の記述から、テキスト圧縮のための方法、技術及び
システムに関して多くの仕事がなされているけれども、
研究者や開発者は今日まで複数の拡張辞書を使用するこ
とを避けていることが明らかである。このことはおそら
く、データ記憶条件を扱うことと、辞書間の切換えの際
の複雑さによるものと思われる。さらに、エントリを辞
書に割当てる発生の重みづけ頻度の初期の研究は、本願
発明の知見とは逆に、辞書エントリの重みづけ頻度の使
用が、純粋の発生頻度はどには有利でないことを見出し
ている。さて、上述の従来技術による最善の圧縮比率は
１：４ないし１：５の範囲であるが、本願発明者らは、
エントリを重みづけした使用頻度に基づき選択して複数
の辞書を使用することにより、１：６以上で１＝８程度
の圧縮比率が定型的に達成可能であることを期待し得な
い知見として見出したのである。

上述の従来技術の欠点に鑑み、本発明の目的は、辞書自
体がそのエントリを、遭遇した単語の重みづけられた使
用頻度によって配列されてなる辞書索引タイプの改善さ
れたテキスト圧縮及び伸張技術を提供することにある。

本発明の別の目的は、圧縮されるテキストの特定の使用
分野に応じて複数の辞書が採用され、圧縮のためにどの
辞書の選択がなされたかを表示するために圧縮において
プリアンプルまたはヘッダが利用されるような改善され
たテキスト圧縮及び伸張技術を提供することにある。

Ｄ１問題点を解決するための手段本発明においては、単語のエントリが、使用される領域
の統計的研究に基づく使用ランキングの重みづけられた
頻度でランクされてなる複数の言語用途特定辞書を与え
ることによって達成される。

例えば、”ｄｏｃｋｅｔ”や１１ｖｅｒｓｕｓ”や”ｃ
ａｓｅ”などの単語は、通常の英語の用途よりも法律文
書により頻度にあられれる。同様の専門的な慣用語は、
工業や、商業や、会計、医療、農業、石油化学など、ど
の専門分野でも見出される。本発明においては、テキス
ト圧縮及び伸張システムのユーザーが、使用分野に個別
に適合化された複数の辞書を構築する。このことは、ユ
ーザー環境からのサンプル・テキストにつき、各個別の
単語のキャラクタ数と、その単語の発生回数をともに計
数することを含む走査および解析技術を利用することに
よって達成される。そのような複数の辞書は、個々のユ
ーザーに対して高い程度の圧縮を達成するように構成さ
れ最大の効果を与えるように適用することができる。ま
た、圧縮テキスト中には、所与のテキスト・ソース入力
に対して圧縮を実行する際に実際に採用された適当な辞
書のユーザーの選択を表示するために、プリアンプルま
たはヘッダが構成される。ヘッダは、受は手に、伸張ル
ーチンおいて使用のためにどの辞書及び制御テーブルが
ロードされるべきかを指令するために使用される。簡単
には、単語が、単一バイト制御テーブル自体以外で見出
される場合に、各個々の単語または単語の群の圧縮され
たテキストにおけるソースを表示するために、制御テー
ブル中の単一バイト・エントリを採用することができる
。制御コード及び辞書セグメント表示子のみならず何ら
かのリストをも含む単一バイト制御テーブルから８０な
いし２２４個の頻繁に遭遇する単語までに亘る辞書の階
層が、圧縮または伸張の検索のための最高優先度の辞書
である。第１のバイトがメモリ中の特定辞書セグメント
を表示し、第２のバイトがセグメント内のオフセットま
たはメモリ・アドレス位置を表示するような２または３
バイトのエンコードされた辞書エントリもまた採用され
る。このシステムは、ディスクまたはカセットなどの大
容量記憶と、大容量記憶機構から読み取ることによって
使用のためさまざまな制御テーブル及び辞書をアセンブ
ルすることができる通常サイズの作業用読み取り／書き
込みメモリをもつ典型的なマイクロプロセッサ・コンピ
ュータ上で実施することができる。尚、圧縮及び伸張の
ための詳細なフローチャートは後で詳細に説明する。

Ｅ、実施例本発明の圧縮技術は、所与の媒体上により多くのデータ
を記憶することを可能ならしめ、あるいは任意の位置の
間の伝送リンクを介して短い時間でより多くのデータを
送ることを可能ならしめる。

これによって達成される圧縮比は、６ないし８の高さで
あり、伝送ヘッダ及び辞書表示子を追加する効果を考慮
に入れても全体的な圧縮比はわずかじか低下しない。デ
ータ処理部門においては、ハード・コピー文書のための
遅延は著しくコストがかかる。そのような多くの部門で
は、別の遠隔部門との間で多量の情報を共有する必要性
により通信ネットワークに莫大な投資がなされている。

ネットワークの拡大と、採用される組織に対する多くの
費用が、効率的なテキスト圧縮及び伸張方法及びシステ
ムの開発を要請する要因である。さらに、画像ディスプ
レイとデスク・トップ・コンピュータが増加してきて、
処理される情報の主要な部分は、スクリーン上に存在す
るテキスト・データである。それゆえ、採用される記憶
スペースまたは伝送媒体の量を最小化する何らかの効率
的な圧縮技術は大きな恩恵となろう。前記従来技術のと
ころで述べたように多くの圧縮技術が開発されているけ
れども、これらの技術のうちのほとんどは、１．５：１
ないし２：ｌ程度の圧縮比をもたらすものにすぎなかっ
た。

本発明のテキスト圧縮技術は、テキストを生成し利用す
る者の基本的言語におけるある単語の長さ及び反復的発
生の程度に関与するものである。

これには多くのオプションが与えられる。それらのオプ
ションは、採用される基本的な辞書のタイプを選択する
ことによって特定の環境及び特定の文書自体に適合され
る。このとき、予め定められた既存の辞書、またはテキ
スト圧縮のために特に生成された辞書、または個々のテ
キスト自体のためにオン・ラインで生成された辞書を、
単独または組合して使用することができる。二九らの辞
書は、処理を簡単化するために、アドレスのパイ１−幅
境界上に配列されている。単一パイｉ〜・アドレスをも
つそれらの辞書は、高い程度の圧縮を利用するが、所与
の８ビツト・バイトには２５６個の異なるエントリしか
存在し得ないので長さが限定される。２バイトの圧縮単
語辞書は、それよりもはるかに多くの単語を定義するこ
とを可能ならしめる。すなわち、６５５３６個の単語ま
たは２バイト・エントリ・アドレスが可能である。３バ
イト・アドレスに拡張すると最大１６７７７２１６個の
エントリが可能となるが、これは英語で遭遇するすべて
の単語の数をはるかに超えている。また、グラフィック
・ディスプレイ及びオーディオ再生のための辞書も可能
である。というのは、これらは、グラフィックまたはオ
ーディオ装置による出力のための特定の信号の単なるデ
ィジタル表示にすぎないからである。実質的には、本発
明の方法によって、キャラクタで綴られた任意の言語を
同様に処理することができる。しかし、ここでは説明の
便宜上英語のみが使用される。

好適なテキスト圧縮技術の基本的な技法は、所与の文書
中にあられれる実際の英語の単語を、１．２または３バ
イト・アドレス・パターンで置きかえることである。尚
ここで使用される″文書〃という用語は、人間のオペレ
ータによって作成されあるいは利用されるエンコードさ
れたテキスト・データ、グラフィック・データまたはオ
ーディオ・データを定義するために使用される。このと
き、キー・ストローク入力が、ディスク・テープなどに
記録され、あるいは典型的な英語のソース・テキストと
してメモリに記憶することができる。そのようなソース
・テキストは実際はＡＳＣＩＩコードのアルファベット
数字キャラクタと、スペース・キャラクタと、句読点と
、大文字化、大文字小文字の切換、行送りなどの制御キ
ャラクタの列である。辞書単語エントリの割り当ては、
使用頻度と長さに従う相対的な重みづけ点数に基づく。

この相対的な重みづけられた点数は、特定の文書または
、法律、技術、医学などの特定の環境内での単語の発生
頻度及び各単語の長さに基づく。圧縮されたビット・パ
ターンをコ１．２または３バイト（８，１６または２４
ビツト）に限定することにより、現在利用可能なバイト
指向コンピュータ上でこれらの技術を実施することがき
わめて実現しやすくなる。

この基本的な圧縮技術は少くとも１つ、通常は複数の辞
書を利用する。最も基本的でコンパクトな辞書は２５６
個のエントリの単一バイト圧縮テーブルである。このテ
ーブルは、所与の圧縮においてどの辞書が採用されてい
るかを知らせる表示子をデコードするために必要な制御
パターンと、問題にしている環境において最も頻繁にあ
られれる単語と、任意の必要なパターンまたは信号を含
むように生成される。単一バイト・アドレス圧縮は明ら
かに、２５６個の固有の２進パターンに限定される。こ
れらのパターンのうちのいくつかは制御シーケンス、及
び所与の圧縮において採用されている個々の辞書セグメ
ントの定義のために留保しなくてはならない。単一バイ
ト圧縮テーブルまたはメモリは、このように、最高の相
対的実績（ｍｅｒｉｔ）をもち、２５６個の可能なパタ
ーンから留保制御パターンの数を引いた数にあてはめら
れる単語に限定されることになる。この技法は。

小さい文書に対して十分な利点を以て使用することがで
きる。小さい文書とは例えばわずか２〜３ページから成
るものである。

もし２バイト圧縮辞書またはメモリが構成されるなら、
そ九は最大６５５３６個のエントリを定義することが可
能である。しかし、１つのピッ１〜は、２バイト・パタ
ーンが使用されていることを示すために留保しなくては
ならず、従って実際には３２７６８個の辞書エントリの
みが可能である。

見方を変えると、２５６個の単語からなる１２８個のセ
グメントが可能である。しかし、多くの場合、会計士ま
たは法律家などの専門家グループで日常的に使用される
語景は数千語程度あろう。もし２バイトまたは６５５３
６個の可能なエントリからなる最大の基本的な辞書サイ
ズが選択されるなら、最初のバイトの少なくとも１ピッ
１−は２バイト・エンコーディング・パターンが採用さ
れているという事実を識別するために使用する必要があ
るだろう。というのは、伸張ルーチンは、圧縮されたバ
イトを２バイトまたは３バイトのどちらかで単一にクル
ープ分けする方法を知らなくてはならないからである。

こうして、最初のバイ１−については２５６個の可能な
バイトではなく、１２８個のパターンしか残されず、実
際には全体で２５６個のパターンからなる１２８個の区
分をめいめい利用できるのみである。各々の例で２バイ
ト辞書のどの２５６個単語セグメントが使用されている
かを表示するために］２８個の８ビツト・パターンが制
御テーブル中で留保されなくてはならない。こうして、
２バイト・アドレスの最初の“バイ１へ”は、制御テー
ブルから入手されなくてはならない。このことは、単一
バイ＋−制御テーブル中のもとの２５６個の可能なパタ
ーンのうち、制御シーケンスや高い実績の単語などに使
用できる１２８個のパターンを残すことになろう。

もし基本的な辞書サイズが恣意的に３２７６８からその
半分、すなわち１６３８４に限定されるなら、単一バイ
ト・テーブルには、制御シーケンスや高実績単語のため
に利用可能な１９２個のビット・パターンが残される。

もしわずか８１９２個のパターンからなる基本的な２バ
イト辞書サイズが選択されるなら（これはおそらく有用
な選択であろう）、２２４ビツト・パターンが単一バイ
ト・テーブル中で制御シーケンス、エンコード・フォー
マット表示子及び高実績単語のために残されることにな
ろう。

一般的には、２５６個のもとの可能なビット・パターン
のうちで単一バイト制御テーブルに残されるビット・パ
ターンの数は、採用される２または３バイト辞書中の単
語を収めるために選択される基本的な辞書サイズを２５
６で割った値で、２５６から引いた値である。すなわち
、本発明においてデータをエンコードする方法は、直接
的なテーブル・エン１−りによるが、どのテーブルを使
用しているかを表示するために圧縮されたテキスト中に
は表示子が配置されなくてはならない。２５６個の可能
なエントりからなる基本的な制御テーブルは、採用し得
る２バイト辞書中の２５６個のエンＩ−り毎に、また各
３バイト辞書中の６５５３６個のエントリ毎に１つのパ
ターンを留保していなくてはならない。これらは“辞書
セグメント″と呼ばれ、各テキスト圧縮例で採用された
各辞書の各セグメント毎に固有の識別パターンが留保さ
れる。もちろん、制御テーブルを２バイト・テーブルに
拡張することも可能であるけれども、このことは全体的
な圧縮比に否定的な影響を及ぼすことになろう。たいて
いの場合、高い圧縮比は、基本単語サイズに少ない数の
エントリを選択することによって達成することができる
。多くの部門または組織は、ｂずか数千の実用語常を有
するのみであろう。それゆえ、圧縮比は８１９２個の単
語領域（２バイト・パターン辞書の可能なサイズの１７
４）を選択することによって最適化することができる。

これには、単一バイト制御テーブルとして３２個の留保
ビット・パターンしか必要としない。というのは３２Ｘ
２５６＝８１９２だからである。ここで示した例におい
ては、単一バイト制御テーブル中でもともと利用可能な
２５６個のうち２２４個の可能なエントリが残る。この
２２４個のエントリは、高使用頻度の単語と、制御キャ
ラクタと、所望ならアルファベット数字キャラクタに好
都合に割当てることができる。

本発明に本質的な柔軟性を手短かに説明することにより
、所与のテキスト圧縮のために選択された可能な辞書の
複合的な集合をどのようにして伸張または圧縮解除のユ
ーザーに伝達されるかが考慮される。このことは、本発
明においては、圧縮されたテキストに対してプリアンプ
ルまたはヘッダを利用することによって達成される。

第６Ａ及び６Ｂ図は、本発明で採用されるヘッダ・エン
コーディング・フォーマットを図式的に示すものである
。これらの図において、ラインＡは、バイトＯとして識
別されるヘッダの開始をあられす。ビットＡＡは本発明
において、使用中の単一バイト圧縮テーブルのタイプを
定義するために利用される。このとき２つのタイプが可
能である。すなわち、単一バイト・テーブル中の２５６
個の可能なパターンに対する割当ての予備配列集合から
なる現存するデフオールド値単−バイト圧縮テーブルが
採用されるか、または別の現存する単一バイＩ〜圧縮テ
ーブルが使用される予定であって、それが予め定義され
た外部記憶媒体上で見出され得る。あるいは、圧縮され
たテキスト・バイト・ストリング内に実際に単一バイト
圧縮テーブルが与えられるか、または２または３バイト
・アドレス・サイズの辞書を伝送することができる。

これら４つの可能な場合は、ビットＡＡの値を次のよう
にセットすることによってエンコードされる。すなわち
、もしビットＡＡがゼロなら、新しいヘッダがあられれ
るまで、そのヘッダに続くテキスト圧縮ストリングの残
りの部分でデフオールド単一バイト圧縮テーブルが使用
される。もしＡＡの値が０１なら、留保された割り当て
られていない代替のテーブルが使用される。このパター
ンは、使用すべき辞書が圧縮されたテキスト中に伝送さ
れる予定であることを表示するために使用され得る。Ａ
Ａの値の１０は、ディスクまたはテープなどの予定の外
部記憶媒体上でユーザーによって見出されなくてはなら
ない既存単一バイト圧縮テーブルを使用すべきであるこ
とを定義する。例を挙げると、医学の分野で、癌の専門
家に最適化された単一バイト圧縮テーブルを、所与のテ
キスト圧縮のために採用すべき場合がある。ビットＡＡ
が１１である場合は、単一バイト圧縮テーブノｋが実際
に生成され、後に続く圧縮ストリング内で供給されるこ
とになっていることを示す。ラインＡの残りのビットＢ
〜Ｇは、他の単語辞書のうちどのタイプが、ヘッダに続
く圧縮されたテキス１−の所与のストリームのための圧
縮ルーチン中で採用されるかを定義するための表示子と
して使用される。

例えば、本発明では、ビットＢが、拡張３バイト幅アド
レス辞書のための表示子であると定義される。もしビッ
トＢの値がＯなら、３バイト辞書は採用されず、もしそ
れが１なら、ある定義可能な３バイト辞書が採用される
。どの３バイト辞書（それが存在するとして）が採用さ
れるかという定義は、後でヘッダ・フォーマットにおい
て扱われるが、これについては後述する。

ビットＣ−Ｇはめいめいが、ビットＢと同様に使用され
る個別のビット表示子であるが、これらは別の２バイト
幅アドレス辞書の使用を示すために使用される。図示の
例では、５個の異なる２バイト幅アドレス辞書を採用す
ることが可能である。

次に、ヘッダの残りのバイトと、それらをバイトＯにお
ける表示子ビットと組み合わせて使用する方法について
説明する。

バイト１は圧縮されたテキストの開始であるかまたは、
デフオールド条件制御テーブル以外の個々の制御テーブ
ルが使用されるならバイト１は制御テーブル番号として
解釈されることになる。もしバイトＯ中のビットＡＡが
００または１１ならバイト１はゼロとなる。もしビット
ＡＡが１０に等しいなら、外部記憶媒体から圧縮解除シ
ステムによってアクセスされるべき特定の制御テーブル
を識別するために、８ビット幅の制御テーブル数がバイ
ト１にあられれることになる。もし、ビットＡＡが１１
に等しいなら、パイ１−１は実際に、圧縮されたテキス
ト・ストリーム中の供給された制御テーブルの開始地点
であり、バイト１〜ｎが、制御テーブル・プラス１０２
４のパイ１〜に割当てられるべきすべての供給された制
御テーブルの長さの和である供給された制御テーブルで
ある。］０２４は２５６Ｘ４に等しく、このとき２５６
個−の４バイト・パターンが書かれる。４バイトの各グ
ループのバイト１は可能な２５６バイト・シーケンスの
長さ表示子である。４バイトの各グループ中の次の３バ
イ１へは、供給された辞書ストリング中の単語のシーケ
ンス番号である。こうして、適当な時期に、パイ１−１
〜ｎによって供給された制御テーブルは、先ず、すべて
の供給された単語エントリと、次に１バイト制御テ一ブ
ル配列の２５６バイト・アレイ内のそれらの割り当てを
含むことになる。その各割り当ては４バイトを要し、そ
のとき４バイトのグループ中の最初のバイトがエントリ
の２５６バイトまでのバイト長をあられし、４バイトの
グループからの次の３バイｌ〜が、制御テーブル定義部
分に続く辞書ストリング内に単語が供給されたときにテ
ーブル・エンＩ〜りに関連づけらるべき実際の単語のシ
ーケンス番号を表示する。

第６Ｂ図において、ヘッダのための３バイト辞書テーブ
ル定義セグメントであるラインＢが始まる。バイトｎ＋
１で、バイト０のビットＭが０であるか１であるかに応
じて３バイト辞書定義が生じることになる。例えば、も
しバイト０のビットＢがゼロであったなら、第６Ｂ図に
おけるバイトｎ＋１及びｎ＋２中のフィールドＢＡ、Ｂ
Ｂ及びＢＣがゼロであり、すなわち詳細に定義する必要
のある３バイト辞書が採用されないので、ビットは存在
しない。しかし、もしバイト０のビットＢが１に等しか
ったなら、フィールドＢＡは１ビット幅であり、バイト
ｎ＋１中のフィールドＢＢは７ビツト幅である。バイト
ＢＢは、採用される３バイト辞書の６５５３６単語セグ
メントの数であると解釈される。バイトｎ＋２であるフ
ィールドＢＣは、どの３バイト辞書が使用されたかを表
示する番号である。フィールドＢＡは、フィールドＢＢ
及びフィールドＢＣが必要かどうかを定義する。もしフ
ィールドＢＡがゼロなら、ＢＣはゼロまたはビットがな
い。というのは、特定の３バイト辞書を定義する必要が
なく、すなわちデフオールド条件または予備配列された
３バイト辞書が使用されるからである。しかしもし、フ
ィールドＢＡが１にセットされているなら、フィールド
ＢＣが、利用すべき選択された３バイト辞書の識別番号
である。

ヘッダ・フォーマットを実現する規則について説明を続
けると、バイトｎ＋３が、場合に応じて採用されること
もある最初の可能な２バイト補助辞書のための定義区域
である。バイト０のピッＩ・Ｃは、１つのタイプの２バ
イト辞書が採用されるかどうかを決定する。もしバイ＋
−０のピッＩ−Ｇが０に等しいなら、それ以」二の定義
は不要であるのでバイトｎ＋３及びｎ＋４中のフィール
ドＣＡ、ＣＢ及びＣＣがすべて０にセットされる。しか
しもし、バイトＯのビットＣが１なら、フィールドＣＡ
はビット１でありフィールドＣＢは幅７ビツトとなる。

ビットＣＡは、デフオールド２バイト辞書、または特に
定義すべき２バイト辞書のどちらが採用されているかを
決定する表示子である。

もしＣＡが０にセットされているなら、デフオールド条
件または予備配列２バイト辞書が使用され、通常は所与
の２バイト辞書のための特定数であるバイｌ”　ｎ　＋
　４フイールドＣＣは、デフオールド条件が呼び出され
ているがゆえに全く与えられる必要がない。しかしもし
、フィールドＣＡが１に等しいなら、フィールドＣＤは
、定義されている最初の２バイト辞書のために利用され
た２Ｂ６単語長セグメン１−の数であり、フィールドＣ
Ｃは、その２バイト辞書のための識別番号である。

このフォーマットまたは規約は、今しがた説明した第６
Ａ図ラインＡのバイ！−０のビットＤ、Ｅ、Ｆ及びＧの
状況に基づきラインＢ、（、＆Ｄに示すバイトｎ＋１〜
ｎ＋１２に対しても同様に続けられる。もしバイトＯに
おける２バイト辞書のための可能なすべての５個の表示
子が採用されるなら、実際の圧縮されたテキストの開始
はラインＤのバイトｎ＋１３まで始まらず、それはライ
ンＤのバイトｎ＋ｎにおいてテキストの終端があられれ
るまで中間番号のバイトに対して続くことになる。

次に、所与のヘッダにおける最初のバイトであるバイト
Ｏのいくつかの例について説明する。

豊企よこの場合、ヘッダのバイト０がすべて０にセットされて
いると仮定しよう。すると、第６Ａ図及びそれに関連す
る説明を参照すると、２及び３バイト表示子ビットＢ−
Ｇのどれもｌにセットされていないので、単一バイト圧
縮技術が使用されるものとして定義されている。さらに
、ビットＡＡが０にセットされているので、デフオール
ド単一バイト圧縮テーブルが利用され、これはデフオー
ルド・テーブルであるので、規約によって既に、受は手
またはユーザーの側の伸張プログラムのためのアドレス
空間中に存在している。このことは、受は手と送り手が
通信を介して前取て、デフオールド・テーブル値を確立
しそれらを双方のシステムに入力するように取決めてい
ることを意味する。

これは１バイ１−幅テーブルであるから、２５６個の可
能なエントリがある。これらのエントリのうちのあるも
のは制御シーケンスに割振られ、あるものは特殊キャラ
クタに、あるものは文字に、そしであるものは数字に、
それぞれ割振られている。

しかし、特殊なユーザー設備語索で出会う高い頻度の単
語には膨大なエントリが留保される。

制御シーケンス、特殊キャラクタ、文字または数字の実
際の数、及び高頻度の単語は、ユーザーの好みと経験に
基づきユーザーによって選択される。これらのパターン
を割当てる方法は典型的にはユーザーが、ユーザーの環
境からさまざまな代表的なテキストを走査して、遭遇す
る相対的に高頻度の単語を作業用語素中に統計的に分離
することである。これを実行するための方法は後述する
。

しかし、２５６個のパターンのうちのいくつかは、遭遇
することになる通常あられれる制御のために割振る必要
があろう。例えば、スペース・キャラクタと、アルファ
ベットの大文字小文字のすべてと、数字キャラクタは通
常別々のエントリで定義される。行の終了及び文書の終
了の制御コードはどの場合にも留保する必要があり、多
重スペース・コードは有用な追加である。カンマとスペ
ースの組み合わせ、またはピリオドとスペースの組み合
わせもまた有用な定義であり、それは、コーディング技
術などの変化を表示するための任意に採用されたエスケ
ープ・キャラクタである。また、規約によって、この特
定のバイト・パターンの発生に続くテキスト中のバイト
が、現在使用中のテーブルの代わりに使用されるべきテ
ーブル番号を示すために使用することのできるテーブル
切換表示子バイト・パターンを留保しなくてはならない
。

バイトＯがすべてＯである」二連の例では、圧縮された
テキストが圧縮されたテキスト・バイト・ストリング中
のバイト１で開始することになり、ヘッダ自体は単一バ
イトである、バイ１−〇である。

第６Ａ及び６Ｂ図に記述されたネーミング及びフォーマ
ツ１〜規約によれば、ヘッダの最初のバイ１へであるバ
イトＯは、使用された辞書の特定のアレイ及びタイプを
定義する制御バイトであり、ヘッダの残りのフォーマッ
トが、エンコードされつ２７一つあるテキストの所与の圧縮で採用された補助的辞書の
個別の特定の長さ及び識別を定義する。

豊査又この場合は、バイト０が１と７個のＯにセットされてい
ると仮定しよう。これは、第６Ａ及び６Ｂ図において確
立された規約によれば、単一バイト圧縮技術自体が採用
されているけれども、非デフオールドあるいは補助単一
バイト定義テーブルが、外部記憶媒体上に在駐するこの
テーブルにアクセスしなくてはならない圧縮解除アルゴ
リズムによって使用されることになることを示す。この
テーブルは通常、ユーザーによって、ＢＡＳＴＡＢなど
の導入選択接頭部とそれに続く、例えばヘッダ・ストリ
ング中のバイト１に含まれる数値の接尾部からなる名称
を与えられている。外部記憶媒体上の単一バイト圧縮テ
ーブルのためのネーミング規約は、例えば、デフオール
ド・テーブル値である”ＢＡＳＴＡＢ、Ｏ”または、圧
縮されたテキスト・バイト・ストリング内に供給された
テーブルである”ＢＡＳＴＡＢ、１”などである。

“ＢＡＳＴＡＢ、ｎ”は、外部記憶媒体上に在駐する追
加的なテーブルであり、ここでｎは２と２５５の間の任
意の値である。圧縮解除の間に、バイトＯの読み取りに
続いて、圧縮解除プログラムが外部記憶媒体上の識別さ
れた単一バイト圧縮テーブルにアクセスし、それを、プ
ロセッサの読取／書込メモリ中の圧縮解除プログラム・
アドレス空間に読み込む。

上述のように、単一バイト圧縮テーブル内のビット・パ
ターンのうちの１つは通常、テーブル切換表示子バイト
のために留保されている。これは、１つの単一バイト圧
縮テーブルから別の単一バイト圧縮テーブルへの切換を
行うために使用される。

圧縮されたバイＩ・・ストリング中でテーブル切換パタ
ーンに遭遇したときは何時でも、規約により次のバイト
がエンコードされ、次に利用すべきテーブルの番号を含
むものとして解釈されることになる。この新しいテーブ
ルは、次に外部記憶媒体から読み出されて、もしそれが
圧縮解除プログラム・アドレス可能メモリ空間に在駐し
ていないなら、それはそのメモリ空間に配置される。

豐介ｙバイｌ−０が１１００００００にセットされていると仮
定する。第６Ａ及び６Ｂ図の記述に基づくこの規約は、
単一バイト圧縮テーブルが採用され、テキストの圧縮解
除のために使用すべき初期テーブルが、相対的バイト位
置番号３で始まる圧縮されたテキス１〜・バイト・スト
リング内に実際に送られるテーブルであることを表示す
る。ヘッダに続くテキスト・ストリング中の相対的バイ
ト位置１及び２は、供給された単一バイト圧縮テーブル
の全体の長さの２進値を含む。そのテーブルは、圧縮さ
れたバイト・ストリング内に供給され、圧縮されたバイ
ト・ストリングから抽出されて圧縮解除プログラムのア
ドレス可能メモリ空間に配置されなくてはならない。圧
縮されたテキスト・テーブルが次にバイト３で始まり、
その後に実際の圧縮されたテキストが続くことになるテ
ーブルの長さによって決定されるカウントで終了する。

場イＬ先バイト０が００１０００００にセラ１−されていると仮
定する。このパターンは、第６Ａ及び６Ｂ図の規約によ
れば、デフオールド制御テーブルとして定義されるタイ
プの単一バイｌ−圧縮テーブルと、フィールドＢＡ中に
定義されるタイプの３バイト辞書の組合せが使用されて
いることを定義する。この場合のバイｔ”　ｎ　＋　１
はバイト１である。

というのは、ここで指定したヘッダの構成では制御テー
ブル番号または供給された制御テーブルが必要とされな
いからである。バイト１の下位７ビツトは、採用された
３バイト辞書中で利用された６５５３６単語長セグメン
１への数（引く１）としての長さである。もし特定の３
バイト辞書が使用されバイト３が圧縮されたテキス１−
の開始点であるなら、バイト２であるフィールドＢＣが
３バイト辞書のための識別番号を定義し、またはフィー
ルドＢＡ（バイト１の最高位ピッｌ−）が、デフオール
ド３バイト・テーブル条件を記述する０であった場合、
バイト２が圧縮されたテキストの開始３１一点となる。

記述された３バイト辞書中の単語の数は、採用された６
５５３６単語群の数である。７ビツトがその長さを決定
し得ると仮定すると、１ないし１２８個のそのような群
を決定することができよう。

それゆえ、３バイト圧縮タイプの辞書の全体の長さにお
ける単語の数は少くとも６５５３６語であるが８３８８
６０８語以上ではない。単一バイト圧縮制御テーブルに
おいては、採用される６５５３６語の群の数に等しい制
御パターンの数が、任意の時点で３バイト辞書のどの区
域が使用されつつあるかを識別するために留保される必
要がある。

このように、３バイト辞書中で見出された単語の出現を
エンコードするために、その識別子の最初の部分は、そ
の単語を含むことが分かっている３バイト辞書のセグメ
ントを表示する制御テーブルからの１バイト識別子とな
る。次の２バイトは、エンコードされる実際の単語が見
出される辞書のセグメント内の相対的オフセットを表示
する。

こうして、もし６５５３６語からなる単一の群が３バイ
ト圧縮テーブル中で使用されたなら、単一バイト圧縮制
御テーブル中の単一１バイト・ビット・パターンが、３
バイト圧縮解除辞書が必要であることを圧縮解除プログ
ラムに知らせるために使用される。圧縮解除ルーチンが
圧縮されたテキスト・バイト・ストリング中で特定の単
一バイト・パターンに遭遇するとき、その後の２バイト
は、６５５３６語３バイト辞書内のどの単語かもとのテ
キストからあられされているかを指定するために、併せ
て読まれなくてはならない。

尚ついでながら、もしそのような６５５　ａ　６語の群
の数が比較的小さいなら、現在の小型システム中のラン
ダム・アクセス・メモリの利用可能性を考慮すると、３
バイト圧縮辞書全体を圧縮解除プログラムのアドレス空
間にロードすることが可能である。６５５３６語の各群
は典型的には１メガバイト記憶の半分よりもやや少ない
領域を占有するので、約５文字の平均単語長を仮定する
と、数メガ・バイトのアドレス空間を圧縮解除プログラ
ムに対して有効に割り振ることが、大型プロセッサ」二
で実現可能である。小型プロセッサ上では、オペレーテ
ィング・プログラムのために十分なアドレス空間を留保
するために通常そのような群を数個収める余地しかない
。

３バイト辞書が圧縮解除プログラムのアドレス空間中に
配置することを要望し得るよりも大きい場合、辞書は、
必要に応じて６５５３６語セグメント中で外部記憶媒体
からアクセスされる。実際の３バイト辞書を収めるため
に必要な外部記憶空間の量を減少させるために利用し得
る技術もある。

これらの技術の多くは、ＩＢＭ及びその他の会社によっ
て利用されている仮想記憶アクセス方法として知られて
いる。この技術は、何らかの外部記憶が使用されている
ときに外部記憶の必要条件を最小限に抑えるためのもの
であるが、本発明には直接関係がないので詳細な説明は
省略する。

前述したように、単一バイト圧縮テーブル内の１ビツト
・パターンが、テーブル切換表示子のために留保されな
くてはならない。もし３バイト・テーブルが採用された
なら、３バイト・テーブル切換表示子が留保されなくて
はならない。こうして、圧縮解除アルゴリズムがこの特
定のパターンに出会うとき、その後のバイトは、外部記
憶媒体上でアクセスすべき特定の３バイト辞書の名前を
含むことができる。

場合５コノ場合は、バイトＯが００１００００．００００１０
００、ＯＯＯＯＯ］、　Ｏ０１ｏｏｏｏｏ。

１０または０００００００１のうちの任意の値をとると
仮定する。この例では、２バイト圧縮辞書の異なる５つ
のタイプのうちのどれかが採用されている。その５つの
タイプに対する制限は随意であり、第６Ａ図のラインＡ
におけるバイトＯのための８ビツト・バイト・フォーマ
ットの使用に基づく。

もし、５つ以上のタイプの２バイｌ−辞書が必要なら、
この説明で使用されているバイｌ−０を、１６ビツト・
フィールドないしそれ以上に拡張することができる。い
かなる場合でも、利用しうる２バイト辞書の数は、以下
に示すタイプまたは他のタイプのうちの１つまたはそれ
以上である。すなわち、文書自体に固有の辞書、すなわ
ち実際にテキスト内に供給される固有の辞書の構築をも
たらす後述する走査および優先化ルーチンによって生成
されるの辞書である。あるいは、特定のユーザー環境の
分野が採用されている特殊なジャーボンまたは固有名詞
を含む補助的な辞書である。あるいは、特定の人間また
は人間集団の固有の語堂のための個人的辞書または、グ
ラフィック辞書あるいはオーディオ辞書である。尚、定
義および利用可能なそのような辞書の数は実質的には無
制限であり、それらを利用しているという事実は圧縮解
除ルーチンまたはユーザーに有効に通信されうろことを
理解されたい。

上述の３バイト辞書の例に関連して、２バイト辞書の各
々は利用中の辞書のタイプのための辞書版切り替え表示
子として利用される単一バイト圧縮制御テーブル内にビ
ット・パターンを持つことができる。もちろん、選択さ
れたすべての２バイト辞書で利用される２５６語のセグ
メントの数の値に等しい単一バイト圧縮制御テーブル中
のビット・パターンの数も同様に留保しておかなくては
ならない。圧縮解除アルゴリズムが圧縮されたテキスト
・バイト・ストリングにおいてこれらのうちの任意のパ
ターンに遭遇するとき、定義によって、アルゴリズムは
、それ以下のパイ１〜を、所与の識別された２バイト辞
書からの最初のバイトによって識別された特定の２５６
語の群内の単語の数を意味するものとみなす。各辞書か
らのそのような各２５６語セグメントは自己の制御パタ
ーンを割り当てられているので、あいまいさがなく、そ
の特定の辞書およびその辞書の特定の２５６語セグメン
トは制御パターン自体から知られ、従って、その群内の
単語の特定の数のみが移送されなくてはならない。結局
、２バイト辞書内にあられれる単語をエンコードするた
めには、２バイＩ−Ｌか必要でない。その最初のバイト
は、単一バイト圧縮制御テーブル内に記憶されている制
御パターンのうちの１つに一致しなくてはならない。第
２のバイトは、見出された２バイト辞書の特定の２５６
語セグメント内のその単語自体の番号またはシーケンス
番号である。

上述の定義と第６Ａ及び６Ｂ図に関連する説明から明ら
かなように、ヘッダのバイトＯにおけるビット・パター
ンの数多くの置換が採用され得る。

事実、バイトＯにつき８ビツト・バイト・フォーマット
を仮定すると、２５６個の異なるパターンが存在する。

ヘッダにおいてバイト０に続くバイトは、第６Ａ及び６
Ｂ図に関連して前述した、採用された辞書の好みの順序
によって決定されるシーケンス中で評価される。例えば
、もしバイトＯが００１０００００としてエンコードさ
れたなら、その圧縮テーブルのためのデフオールド値を
使用する単一バイト圧縮テーブルと、デフオールド３バ
イト圧縮辞書が採用される。バイト１は、規約によって
、デフオールド３バイト圧縮辞書の長さを定義しなくて
はならず、すなわち、第６Ａ及び６Ｂ図のバイトｎ＋１
のフィールドＢＡがＯにセットされ、フィールドＢＢが
、辞書に実際に採用された６５５３６語セグメントの数
としての長さである。

上述の説明から明らかなように、複数の辞書を使用する
ことができ、一般的な場合、各辞書はｊ個までのセグメ
ントを含み得る。所与の辞書のための所与のセグメント
かこうしてＤ　（ｉ、ｊ）によって定義され、それは制
御テーブル内にある特定のビット・パターンによって呼
び出すことができる。所与の圧縮例で使用されているす
べての辞書に採用されたセグメントの数の合計は、セグ
メントが圧縮されたテキスト・ストリング内であられれ
たときにセグメントを識別するために個々のビット・パ
ターン中に留保しなくてはならない。

すなわち、圧縮されたテキスト・ストリング中に採用さ
れる識別された各辞書の各セグメント毎に制御テーブル
に１つのビット・パターンが存在することになる。こう
して、圧縮されたデータ・セット中の単一バイトによっ
てあられされる単語または句の数が、単一バイト中の可
能な全体の数から、制御テーブル中で識別子を留保され
なくてはならないすべてのセグメントの全体の数と、特
殊−３９＝キャラクタ、文字、数字及び制御シーケンスまたは信号
のために制御テーブル内に確保される制御ビット・パタ
ーンの数とを引いた値である。ここで採用されている任
意の規約によると、辞書セグメントを識別するために使
用されるＩＩＩ＃テーブル内のビット・パターンの数に
、制御テーブルの頂部、すなわちすべて１のビット・パ
ターンから始まって順次的に、辞書セグメントの全数に
割当てが行なわれるように下位番号のビット・パターン
の方へ進行して割り当てが行なわれする。次に、制御ビ
ット・パターン、特殊キャラクタ、文字、数字などに残
りの制御テーブル空間が割り当てられ、残りのスペース
があればそれは最高頻度の単語群に渡すことができる。

上述の規約に含意されていることであるが、エンコーデ
ィング側での辞書の検索は圧縮技術を使用する者によっ
て定義された優先順位に従うことになる。検索のための
典型的なシーケンスは、先ず単一バイト圧縮単語パター
ンの制御テーブルを検索し、もし使用されるなら２バイ
ト辞書を検索−４０＝し、その後もし使用されるなら３バイト辞書を検索する
ものである。

前述のように、所与の例における２バイト辞書の数は、
バイトＯのための８ビツト・バイト・フォーマットによ
り任意的に５個に限定されている。

しかし、採用された２バイト辞書の各々と制御テーブル
自体と３バイト辞書は、各自が、辞書のタイプのための
版切替ビットパターンを圧縮されたストリング中に挿入
し、その後、辞書のどの版が次にアクセスされるべきか
を識別するバイトによる規約に従って呼び出し得る２５
６個までの版を有することができる。

制御テーブル割当ての例として、各々が６５５３６語か
らなる１６個のセグメント（全体で１０４８５７６語）
をもつ３バイト辞書が選択され辞書Ａと呼ばれるような
例を考えてみよう。また、各々が２５６語からなる３２
個のセグメントを有する２バイト辞書が選択され、辞書
Ｂと呼ばれると仮定する。さらにまた、各々が２５６個
の単語からなる８個のセグメント（全体で２０４８語）
を有する２バイト辞書が選択され、テキストを圧縮する
ための辞書Ｃと呼ばれると仮定する。すると、単一バイ
ト制御テーブル中に制御ビット・パターンを割振る際に
次のステップが実行されることになる。

先ず、３バイト辞書Ａの１６個のセグメントをあられす
ために、制御テーブル中に１６個の８ビット・パターン
が割振られる。次に、２バイト辞書Ｂの３２個のセグメ
ントをあられすために３２個の８ビツト・パターンが割
振られ、続いて、２バイト辞書Ｃの８個のセグメントを
あられすために、８ビツト・パターンが割振られる。次
に、遭遇すべきさまざまな特殊キャラクタ、制御シーケ
ンス、文字、数字等に複数の８ビツト制御パターンが割
振られる。そして次に、単一バイト幅の制御テーブル中
の２５６個のもとの可能なパターンのうちの残りのビッ
ト・パターンが、この後説明する技術に従って選択され
た高い得点の単語に割振られる。最後に、これらの辞書
の選択を行ったエンコーディング・グループによって示
された特殊な辞書が、圧縮ルーチンを開始するためにメ
モリに読み込まれることになる。

さて、実際の圧縮ルーチンについて説明するために、シ
ステム及びその動作方法について詳しく説明する。

第１図を参照すると、本発明の好適な実施例に基づく典
型的なテキスト圧縮及び伸張動作のための全体的なシス
テム・ブロック図が示されている。

テキストの入力源は典型的な読取／書込ディスク、人間
のオペレータによって制御されるキーボード、カセット
、またはＡＳＣＩＩまたＥＢＣＤＩＣによりエンコード
された入来テキストがある遠隔位置から受信される通信
ネットワーク・アダプタである。このテキスト入力装置
は、第１１図では点線１で囲まれて、テキスト人力１と
総称される。マルチプレクサ２は、マイクロプロセッサ
４からのアドレス・バス上で受は取ったアドレスに従っ
て圧縮または伸張すべきテキストの入力源としての可能
な入力のうちの１．つを受は取り選択するためのもので
ある。尚、記憶媒体からの信号を適正な電圧に変換し、
マルチプレクサ２に与えるためにフォーマットすべく、
ディスク、キーボードまたはカセットのための個別のア
ダプタ、または通信ネットワーク・アダプタが設けられ
ることを理解さ九たい。マルチプレクサ２の他方の側に
は、直列から並列、または並列から直列へのフォーマッ
ト変換を行うためのアダプタ５及び６が接続されており
、これにより、システム中で、直列または並列のアドレ
ス及びデータ・バスの利用が可能となり、また、点線１
の囲み内の直列または並列入出力装置に適正な通信がは
かられる。たいていの場合読取専用である主要制御記憶
７が、制御用マイクロプロセッサ４のアドレスおよびデ
ータ・バスに接続さねている。また、ディスク記憶の形
態である大容量記憶が、大容量記憶８として示されてい
る。残りの囲み９．１０及び１１は、制御プロセッサに
より構成され、その作業用メモリ空間として使用される
読取／書込アドレス可能メモリの部分を示す。ブロック
９は、索引と、辞書セグメン１〜・マツプ及び制御テー
ブルを伴う主要辞書＝４４− を含み、それらすべては、ユーザーによる所与の選択に
従い、または前述のヘッダのバイト０の読取りに応答し
て大容量記憶８から読み込まれたものである。

ブロック１０は、送信■／○バッファであり、ブロック
１１は受信Ｉ１０バッファである。これらのバッファは
、アドレス可能なメモリ空間中で、後述する圧縮または
伸張アルゴリズムの動作の間に、圧縮または伸張すべき
データが一時的にバッファされる領域として構成されて
いる。辞書に対する主要記憶９内の空間の割当てもまた
、後述する辞書セグメント索引と、辞書セグメント・マ
ツプを含む。

所与のユーザーにより示された個々の辞書がメモリ９に
読み込まれていると仮定すると、プロセッサ４は、辞書
検索時間を最小限に抑えるための索引を構築することに
なる。これらは、前取て構築して、辞書自体が大型記憶
８からロードされる時点で読み込むようにしてもよい。

索引セットは、メンバーの集合から成り、その各自メン
バーは、セグメントのために定義すべき制御テーブル中
に留保されるセグメント番号を含むことになる。この索
引番号は、単語の長さに対応するエントリと、使用され
る単語群の照合順序における辞書セグメン１〜の最下位
または最初のセグメントに対応する単語自体のためのエ
ントリの２つのエントリを有する。索引番号はまた、そ
のセグメント中の最後のまたは最高位照合順序単語エン
１−りに対する、その単語の長さ及びその単語自体の２
つのエントリをもつ。言いかえると、辞書セグメント索
引は、定義すべき各セグメント毎に、そのセグメント内
にアルファベット類にあられれる最下位照合順序エント
リの長さ及び実際の単語エントリと、そのセグメント内
にあられれる最高位照合順序エントリの長さ及び実際の
単語エントリを含む。この照合順序は通常アルファベラ
１〜順でよい。照合順の例が第２図に示されている。

第２図の例で仮定されている照合順は、ＩＢＭシステム
／３７０コンピュータ・アーキテクチャで使用されてい
るものである。これは、最初に、特殊キャラクタを、シ
ステムのユーザーに知られている定義された順序に並べ
、次にアルファベットの大文字小文字を並べ、最後にシ
ーケンスの最高位照合順序に数字を並べた、割振られた
階層ソーティング照合順序である。この照合順序は、ソ
ートすべき可能なエン１〜りには、全体的なアルファベ
ット類に等価に見えるかもしれない。各辞書の実際の辞
書エントリは、こうして先ず照合され照合順にソートさ
れる。また、各辞書セグメントは、所与の長さと、所与
のエントリ単語（場合によっては数字または文字）の、
ある低照合順エントリで始まり、セグメント索引は、使
用される辞書のそのセグメント内にあられれる最高位照
合順エントリで終わる。辞書セグメント索引は、後述す
る２分検索技術を用いて辞書検索時間を短縮するために
使用される。

上述の例では、第２図に示すように、辞書セグメント索
クロこは５６個のセグメントが定義されている。内訳は
、３バイト辞書には３２個のセグメント選択された２バ
イト辞書の各々に、１６個及び８個のセグメントである
。単一バイト制御テーブルは、単一バイトに基づき迅速
に検索することができるのでセグメントは全く必要では
ないが、一貫性のため単一バイト・テーブルのためのセ
グメント索引が採用されている。

さらに、実際のセグメント番号とエントリ位置を開始メ
モリ・アドレス位置と相関させるための辞書セグメント
・メモリ・マツプが構成される。

これには、セグメント番号と、キャラクタの数における
最初のエントリの長さと、そのようなエントリがあられ
れる開始メモリ・アドレスが含まれる。そして、その後
には、すべてのセグメントと、すべてのキャラクタ長さ
と、すべての開始メモリ・アドレスが辞書セグメント・
メモリ・マツプにロードされてしまうまで、長さと開始
アドレスをもつセグメント内の次のエントリが続く。こ
れにより、後述のとおり２分検索技術が著しく容易にな
る。というのは、もし辞書エントリを検索するために２
分検索技術が使用されるなら、圧縮または伸張すべき所
与の単語について一致するエントリをきわめて高速で見
出すことが可能だからである。

辞書セグメント・メモリ・マツプはまた、制御テーブル
内の単語に対応するエントリをも含む。上述の例におい
ては、通常の特殊キャラクタ及び辞書セグメント表示子
の割当てが完了した後制御テーブルには１６８個のピッ
ｌ−・パターンが残されていることになる。

もし圧縮ルーチンに従うなら、この圧縮のためになされ
た特定の辞書選択を記述するヘッダが圧縮されたデータ
・セットに書き込まれることになろう。例えばヘッダは
、上述の例では００１１１００に０００１１１１が続き
、それに００１１１１１が続き、それに０００００１１
１が続く。このことは、１６個のセグメン１−からなる
３バイト辞書と、３２個のセグメントからなる２バイト
辞書と、８個のセグメントからなる２バイト辞書が採用
されているという事実を決定する。さらに、次の３バイ
トの各々の最初のピッ１−がその例に示すように０にセ
ットされているので、最初のバイトＯＯ１１１−０００
が、すべての辞書及び制御テ−プルがそのデフオールド
値定義にセットされていることを記述する。

次に、所与のテキスト入力または文書が走査されて単語
が抽出される。このことは、通常、従来技術で知られて
いるように、キャラクタ・コードに続く句読点またはス
ペースに出会うまでテキスト・ストリングを検査するこ
とによって実行される。次に、そのキャラクタ・コード
とスペース・コードの集まりが、辞書エントリに対して
比較すべき″単語″と見なされる。大文字も同様に処理
され、大文字が検出された場合にそのことを表示するコ
ードが圧縮されたデータ・セットに書かれる。圧縮され
たデータ・セットのために適当な制御シーケンスが書か
れ、その最初のキャラクタが、辞書検索のために小文字
に変更されることになる。

″すべてが大文字である″状況も存在し、この状況のた
めに適当なシーケンスが圧縮されたデータ・セットに書
かれ、以て検索のためにすべてのキャラクタが小文字に
変更される。

次に、比較的に高い優先度あるいは高い得点の単語をあ
られす制御テーブル中のエントリに対して単語がチェッ
クされる。このことは、２分検索技術を利用し、第２図
の制御テーブル辞書セグメント・メモリ・マツプを用い
て行なわれれる。もし入力単語と、制御テーブル単語リ
ストの間で一致があられれたなら、この単語をあられす
単一バイト・パターンが圧縮されたデータ・セットに書
き込まれ、処理はこれの直前のステップから続くことに
なる。

もし単一バイト制御テーブル中で一致が見出されなれな
いなら、最初の２バイト辞書中でそれが見出されるはず
である場合に最初の２バイト辞書内のどのセグメントが
その単語を含んでいる可能性があるかを判断するために
索引セットが使用される。第２図の辞書セグメント索引
がこの目的のために利用される。このことは、索引セッ
トの最初のメンバーを選択して、その索引セットがあら
れすセグメント中の最低及び最高エントリに対してその
単語を比較することによって行なわれる。

もしその単語が所与のセグメントの所与の索引セット・
メンバーの最低及び最高エントリの照合シーケンス範囲
内に含まれているなら、圧縮すべきその単語が検索され
ている特定の辞書内に実際に含まれているかどうかを判
断するために、辞書セグメント・メモリ・マツプ中で、
その特定のセグメント内でのその単語の２分検索が実行
されることになる。この２分検索は、目的メモリ・アド
レスを見出すために辞書セグメント・メモリ・マツプを
使用する。そしてもし一致が見出されたなら、そのセグ
メント番号及びそのセグメント内の単一バイト単語番号
が書き込まれる。３バイト辞書の場合、単語番号のため
のオフセットには、セグメント番号に続く２バイトが必
要である。

定義された１つの２バイト辞書中で一致が見出されない
なら、定義されたすべての２バイト辞書が検査されてし
まうまで後の２バイト辞書が検索されることになる。

もしどの辞書にも一致が見出されないなら、２つの方法
のうちの１つを用いてその単語が書き出さ乳る。すなわ
ち、単語が圧縮されないでそのままキャラクタ毎にＥＢ
ＣＤＩＣまたはＡＳＣＩ　Ｉ表示として圧縮されたデー
タ・テキストに送られ、または書かれるか、あるいは、
圧縮されたデータ・テキストに特殊な制御シーケンスが
書かれ、続いて非圧縮キャラクタ表示が書かれ、さらに
続いて、非圧縮部分の終わりに到達したことを表示する
別の制御シーケンス・バイトが書かれる。どちらの技術
を選択するかは任意である。テキストの非圧縮部分の出
現を表示するためのエスケープ・シーケンスまたは制御
シーケンスの使用は、単一バイト制御テーブル中にきわ
めてわずかの制御シーケンスを記述する必要を生じさせ
る。しかし、もし個々のキャラクタ表示が制御テーブル
中に留保さ九でいるなら、圧縮されたテキスｊ・・スト
リーム中に制御シーケンスまたはエスケープ・シーケン
スを入力することによって非圧縮テキストが後に続くこ
とを表示することは不要である。このことは、非圧縮Ｅ
ＢＣＤＩＣまたはＡ、５ＣＩＩキヤラクタが制御テーブ
ル中で一致エントりを見出すことになるがゆえにそれら
が正確に受信されデコードされるので正しい。

さて、次に、マイクロプロセッサとプログラム言語が与
えられたなら、熟練したプログラマをして動作プログラ
ムを書くことを可能ならしめるデータ圧縮アルゴリズム
・フロー・チャートの例を与える。

第４Ａ−１，４Ａ−２，４Ｂ、４Ｃ１４Ｄ、４Ｅ、及び
４Ｆ図は、異なるタイプの辞書を用いたさまざまな圧縮
技術のフローチャートである。これらのフローチャート
は、−見して理解され、またマイクロプロセッサの命令
セットに容易に変換され得るものであるけれども、関与
する圧縮技術について説明を加えておくことにする。

最初のタスクは第４Ａ−１図のブロック１２で始まり、
そこで圧縮ルーチンが開始される。ブロック１３で問わ
れる最初の質問は、ユーザーが圧縮のためのデフオール
ド条件において使用すべき単一バイト・テーブルのみを
選択したかどうかということである。もしその答えがイ
エスなら、ブロック１４で示されているように、すべて
０のへラダが書き込まれ、文書の圧縮がブロック３２（
第４Ｂ図）で開始される。このルーチンは、圧縮すべき
文書のＥＢＣＤＩＣまたはＡＳＣＩＩコードを含む文書
ファイルから単にキャラクタをフェッチすることにある
。キャラクタが単語の終了である場合、すなわちスペー
スまたは句読点マークが見出されるかあるいは文書終了
キャラクタが見出される場合は何時でも、単語が分離さ
れたものとして決定される。この単語の全体は次に、前
述の２分検索技術を用いて単一バイト圧縮テーブルに比
較される。もし一致が見出されると、単一バイト・テー
ブル内のその単語のアドレス位置に対応するビット値が
その単語の圧縮されたバージョンとして書き込まれる。

これは、例えば、送出用圧縮テキストを構築するために
第１図中のバッファ１０に配置してもよく、またはユー
ザーの選択に応じて主メモリ９に配置することもできる
。

ブロック３８（第４Ｂ図）では、分離された最後の単語
にテキスト終了表示子が見出されたか否かが問われ、も
しそうなら、テキスト終了ビット・パターンが、圧縮さ
れたデータ・セットに書き込まれなくてはならず、そう
して圧縮プログラムが終了する。もしブロック３２での
答えがノーなら、第１図のブロック１１中の単語バッフ
ァがクリアされ、プログラム・ルーチンは、文書ファイ
ルから別のキャラクタをフェッチしそれをブロック３３
中の単語バッファ１１に配置することによって開始に戻
る。この処理は、文書中のすべての単語がエンコードさ
れ、あるいは使用されているどの辞書においても一致が
見出されないときに書き出すことによる別の方法で処理
されるまで続く。ルーチンのこの部分は、フローをブロ
ック４３（第４Ｃ図）へ導くブロック３６からの出口に
見出される。もし単一バイト・テーブルが１つのみ使用
されているなら、一致が見出されないという場合に、前
述したようにＦＢＣＤＩＣまたはＡＳＣＩＩキャラクタ
を直接利用することによってその単語を書き出すか、ま
たはブロック４４で示すように圧縮されたデータ・セッ
トにエスケープ・ビット・パターンを書くことによって
エンコードの際にこの変化を表示することのどちらかが
必要である。もしエスケープ・パターンが使用されるな
ら、これに続いて、単語バッファ］−１から各キャラク
タが圧縮されたデータ・セットに書き込まれ、非圧縮キ
ャラクタのストリングが別のエスケープ・ビット・パタ
ーンで完成される。前述のように。

単一バイト・バッファが、通常の文字及びキャラクタの
すべてのコードを含む場合、エスケープ・ビット・パタ
ーンは不要である。単語の比較と、単語のための単一バ
イト・バッファの内容の間に一致が見出されなかった場
合、バッファ中の単語をキャラクタ毎に圧縮されたデー
タ・セットに書き込むべきであると結論することだけが
必要となろう。そして、単一バイト・テーブルの内容に
対してキャラクタ毎に比較することによって単語の一致
が見出されないので、そのことが伸張プログラム中で認
識されることになる。しかし、キャラクタが前取て記憶
されているときは、″キャラクタ″の一致が見出される
。この技術はフローには示されていないけれども、この
説明から明らかである。

第４Ｃ図のブロック４３はまた、このルーチンに含まれ
ている検索の階層をも示す。もし単一バイト・テーブル
が検索される唯一のテーブルでないなら、単語バッファ
の内容が、ブロック４５に示されているように、ユーザ
ーによって選択された任意の２バイト辞書に対して比較
される。もしどの２バイト辞書でも一致が見出されない
なら、ブロック４７で、３バイト辞書が使用されること
になっているかどうかが問われ、もしその答えがイエス
なら、一致が見出されるまで、使用中の３バイト辞書に
対して比較がなされるか、または、一致が見出されない
場合に、プログラムは、非圧縮形式で単語を書くために
ブロック４４に戻る。

第４Ａ−１図のブロック１８に戻って、もし単一バイト
辞書またはテーブルが、圧縮すべき文書の内容に基づき
生成されるべきであるなら、すなわち、もし考察中の文
書のための特殊な辞書が生成されるべきであるなら、ブ
ロック１９において文書を開くことにより、すなわち文
書の処理が単語毎に実行され得るメモリ中の領域を初期
化することによってプログラムが始まり、次にプログラ
ムはブロック２０に進む。ここで文書が走査され、その
文書内で見出された個々の固有の単語のすべてについて
リストがメモリ中に構築される。この処理が完了すると
、各単語の出現回数にその単語のキャラクタの長さを掛
けることによって文書中の各単語に対する相対的な重み
づけ得点が計算される。こうして得られた得点表が大き
さによってソートされ、最大値（最高得点の単語）が、
（アルファベット、数字、特殊キャラクタ及び制御キャ
ラクタの割振り完了後に）単一パイ１〜・テーブル内に
残っているビット位置に割り振られる。ユーザーは、制
御キャラクタ等を妥当に選択することによって、単一バ
イト・テーブル中で何個のビット・パターンが利用可能
となるかを定義する必要があろう。これにより、２５６
個の利用可能なパターンのうちある個数が残される。次
に、圧縮されたデータ・ストリームを開始するために、
ブロック２８（第４Ａ−２図）で固有のヘッダが書＝５
９− き込まれる。この後、ブロック２９に示すように、ブロ
ック２６からの、単一バイト・テーブル中にあられされ
たすべての単語の長さをあられす２バイト・パターンで
あるセグメント・メモリ位置マツプが続き、さらに辞書
で使用されるべき単語の実際のリストが続く。

もし３バイト辞書または２バイト辞書が必要であると定
義されるなら、ブロック５２及び６２が　−事象のシー
ケンスを記述する。圧縮ルーチンを呼び出すユーザーに
よって行なわれた辞書の特定の選択が注目され、特に記
述されている以外の選択のセットの場合、それが辞書構
造として生成される。第４Ａ−１図ないし第４Ｆ図のフ
ローチャートは、単一パイ１〜圧縮テーブル、単一バイ
ト補助圧縮テーブル、または任意のスタイルの２バイト
または３バイト辞書を書くための任意の可能性を処理す
る。どの辞書を使用するかの選択は、完全に、圧縮ルー
チンを呼び出す人間の裁量の余地の範囲にある。その結
果の辞書の選択は、既に詳細に説明したように圧縮され
たデータ・ストリーム＝６０− を開始する情報ヘッダの構成に反映される。ヘッダが構
成されると、圧縮ルーチンは、各単語を、利用すべき辞
書の選択されたリストに対して比較し、第４Ａ−１図な
いし第４Ｆ図の命令に従って圧縮されたデータ・セット
を構成するために、ある解析パターンに従う。

一方、伸張は非常に簡単な動作であって、第３図を参照
して説明される。これにおいては、アドレス可能な主メ
モリ９中の区域として複数のテーブルＡ、Ｂ、Ｃ及びＤ
が定義される。テーブルＤ、Ｃ，Ｂ及びＡにロードされ
る値は、圧縮されたデータ・セットに対応して受は取ら
れたヘッダに応じて書き込まれる。ヘッダの解析により
、マイクロプロセッサ中のプログラムが大容量記憶また
はメモリにアクセスし、第３図に示すようなテーブルＤ
、Ｃ，Ｂ及びＡを初期化するために必要な値をフェッチ
することが可能となる。

第３図に示された記述は、テキストの伸張が、間接アド
レス指定スキームによって達成されつつあることを示す
。伸張プログラムに関連づけられた４つのメモリ・テー
ブルＤ、Ｃ，Ｂ及びＡは次のようにして定義される。す
なわち、テーブルＤは、圧縮されたストリームの第１の
ビット・パターンをテーブルＣ内のオフセットの列にマ
ツプするために使用される。言いかえると、テーブルＣ
は、ヘッダの第１のバイトに対応する可能なすべての順
列組み合わせを含み、テーブルＤは、ヘッダＣを解析し
テーブルＣ中でどのパターンが表示されるべきかを選択
するために使用される。テーブルＣは、各単語、句、制
御シーケンス文字または数字の伸張を処理するために場
合に応じて伸張プログラム内のどのサブルーチンの選択
が呼び出されなくてはならないかを表示する転送ベクト
ル・テーブルである。言いかえると、テーブルＤは、ヘ
ッダを解析しどの辞書が使用されるべきかを解析するた
めに、ヘッダに対する比較として使用される。テーブル
Ｃは、各タイプの伸張を処理するために必要なサブルー
チンに対する方向を含む。

ヘッダ中に記述された各辞書の各固有のバージョンはま
た、そのために定義された２個の追加的なテーブルＡ及
びＢをもつ。テーブルＢは、２バイト留保フイールドと
、２バイト単語長フィールドと、４バイト・アドレス・
フィールドを含む間接アドレス・テーブルである。この
ように、テーブルＢは問題の辞書のためのセグメント・
メモリ位置である。第２のテーブルであるテーブルＡは
、伸張された単語自体を含み、辞書単語リストである。

伸張ルーチンの場合ヘッダは、どの辞書構造が記述され
たかを判断するために解析される。ここで、主メモリ９
中で利用可能な汎用レジスタ空間の存在を仮定する詳細
な例を与える。

もし単一バイト・テーブルのみが使用されるべきなら、
ポインタは、主メモリ９内の汎用レジスタＲ３中で任意
に初期化される。ポインタは、圧縮されたテキスト自体
の第１のバイトが始まる地点である圧縮されたテキスト
中のバイト数を表示するために初期化される。また、別
の任意の汎用レジスタ・メモリＲ４中に別のポインタが
確立される。それは、伸張されたテキスト記憶領域が始
まるメモリ９の記憶空間中のアドレスを指定する。

汎用レジスタ空間Ｒ５で任意に初期化される別のポイン
タが、テーブルＤの開始が位置づけられているメモリ中
でアドレスを指定する。別のポインタが、メモリ内のテ
ーブルＣの開始を指定するために任意の汎用レジスタＲ
６中で初期化される。

さらに別のポインタが汎用レジスタＲ７中で任意に初期
化されてテーブルＢの開始を指定し、別のレジスタＲ８
が初期化されて、テーブルＡの開始へのポインタを含む
。これらのテーブルの値が次に、例えば記憶８からフェ
ッチされ、上述のレジスタ中のポインタにより識別され
た地点で始まる主メモリ中にロードされる。

次に伸張が始まる。すなわち、ポインタによって記述さ
れた位置で始まる圧縮されたテキストから１バイトがフ
ェッチされ、第１図に定義された受信バッファ１１とし
ての汎用レジスタＲ９中に配置される。言いかえると、
Ｒ９には、レジスタＲ３の内容によって表示された位置
からそのバイトがロードされる。テーブルＤの開始アド
レスは一図一次に汎用レジスタＲ９の内容に加えることができる。す
なわち、Ｒ５の値がＲ９に加えられる。これにより、Ｒ
９によって示された位置のバイトに新しい値がもたらさ
れ、その値は汎用レジスタＲ１０にロードされる。これ
は、圧縮されたテキストの第１のバイト中で見出された
パターンの結果として選択されたマツピング・バイトで
あり、そのバイトが、単語、制御キャラクタ、特殊シン
ボル、制御シーケンス、文字または数字などをあられす
かどうかを決定する。

このマツピング・バイトは、４を掛けられ、すなわちＲ
ＩＯは左へ２位置シフトされ、転送ベクトル・テーブル
であるテーブルＣのための開始アドレスがこの積に加え
られる。これにより、今やレジスタＲ１０で示された位
置において転送ベクトル・テーブル中に位置が示されて
なるサブルーチンに対する動作の制御がもたらされる。

サブルーチンのその部分は次に、マツピング・バイト・
テーブルで識別された特殊シンボル、制御シーケンス、
文字または数字を処理するために初期化される。特殊シ
ンボル、制御シーケンス、文字、数字等の各々は固有の
サブルーチンをもつ。しかし、単一バイト圧縮テーブル
中の単語はすべて伸張のための共通のサブルーチンを共
有する。単語伸張のためのサブルーチンはメモリ中に存
在し、単一バイト圧縮テーブル中に見出される単語を処
理する。そのサブルーチンは、Ｒ９に、Ｒ３によって示
された位置からのバイトをロードすることによって、圧
縮されたテキスト・バイト・ストリングから圧縮された
バイトをフェッチする。Ｒ９中の圧縮されたバイトの値
には８が掛けられ、すなわち左へ３ビツト、シフトされ
、テーブルＢの開始アドレスがその結果の積に加えられ
る。言いかえると、Ｒ７の内容がＲ９に加えられて、そ
のことにより、伸張された単語自体の長さ及び位置に対
するポインタがもたらされる。その単語の長さ及び位置
は、Ｒ９の値よりも２つ大きい値と、Ｒ９の値よりも４
つ大きい値によって、そ九ぞれ表示される。これらの値
はそれぞれ、汎用レジスタＲ１０及びＲ１１にロードさ
れる。その結果は、テーブルＡの辞書単語メモリから主
メモリ９中の伸張テキスト作業領域へ移動されることに
なる伸張された単語自体である。上述の例では、ＲＩＯ
の内容によって表示された長さをもつＲ１１中に表示さ
れた位置からの単語がＲ４によって表示される位置へ移
動される。ポインタは次に、次の圧縮されたバイト、及
び次の伸張されたテキスト・エントリの位置に対応して
更新されることになる。

上述では、レジスタＲ３が１、たけ増分され、Ｒ１０の
値がＲ４に加えられる。伸張プログラムは次に、圧縮さ
れたバイト・ストリングから次のバイトをフェッチする
ために戻り、上述の処理を反復する。

伸張ルーチンの制御は、ファイル終了制御キャラクタま
たはシーケンスを認識した時点で、ファイル終了サブル
ーチンに渡される。ファイル終了サブルーチンは次に、
ユーザーによって選択された方法で圧縮されたデータ・
ストリームを処分する。すなわち、圧縮されたデータ・
ストリームは、マルチプレクサ２を介して遠隔位置と通
信するために通信ネットワーク・アダプタに出力され、
または第１図のブロック１中のディスクまたはカセット
上に記憶することができる。あるいは、それはまた、後
の検索のために、ディスク大容量記憶８にロードするこ
ともできる。

別の単一バイト圧縮テーブルを用いた伸張ルーチンの場
合、あるいは圧縮されたテーブル・バイト・ストリング
内で見出された制御シーケンスにテーブル切替キャラク
タが表示されている場合、テーブルＡ、Ｂ、Ｃ及びＤの
ための別のテーブル値が記憶からアクセスされ、現存す
るＡ、Ｂ、Ｃ及びＤのためのテーブル値に重なる作業メ
モリ空間にロードされる。そして伸張ルーチンは上述の
ように進む。単一バイト・テーブルといくつかの追加の
辞書が記述されている場合、ヘッダが、どの単一バイト
圧縮テーブル及び他のどの辞書が記述されているか、及
び、使用すべき他の記述された辞書毎のセグメントの数
を表示する。Ａ、Ｂ、Ｃ及びＤのための適当なテーブル
値が次に所定の外部記憶媒体からロードされ、上述した
伸張プロダラムのアドレス空間に配置され、伸張処理は
上述のように進行する。各辞書の各セグメントは、圧縮
された単数または複数のバイトを、表示された辞書の表
示されたセグメント内の適正な単語にマツプするための
自身の対応するサブルーチンをもつ。例えば、２バイト
辞書の場合、特定の２バイトの特定のセグメントのため
のサブルーチンが、単語辞書であるテーブルＡ内で伸張
された辞書を見出すために、適正なテーブルＢへのオフ
セットとしての単語の２バイト圧縮表現の第２のバイト
を使用することになる。３バイト辞書の場合、３バイト
辞書の特定のセグメントのサブルーチンが、選択したそ
の特定の辞書のためのテーブルＡに配置されている辞書
内で伸張された単語または句を見出すために、その辞書
のための適正なテーブルＢへのオフセットとしての単語
の３バイト圧縮表現の第２及び第３のバイトを使用する
。

第５図を参照すると、圧縮されたテキストのバイト・ス
トリングの図式的な表示が示されている。

このとき、ヘッダは第６Ａ及び６Ｂ図で詳細に扱ねれる
ので、表示されていない。第５図のラインＡにおいて、
エスケープ・ビット・パターンが図示された第２のバイ
トであり、前述したように、エスケープ・ビット・パタ
ーンの使用を回避することもできるけれども、それはこ
の例では使用されている。エスケープ・ビット・パター
ンの後には、通常のＥＢＣＤＩＣまたはＡＳＣＩＩコー
ドであることを除いてはコード化されていない最初のキ
ャラクタが続く。というのは、それは、どの辞書にも見
出されなかった単語をあられすがらである。そして、何
個の介在キャラクタが出現し、どの辞書にも見出されな
かった単語の最後のキャラクタのエンコードのあと、第
２のエスケープ・ビット・パターンが続く。圧縮された
単語が再びラインＢで始まり、これはラインＡの続きで
ある。

ここでは単一バイトの圧縮された単語が先ずあられれ、
それに、２バイト辞書により圧縮された単語が続く。そ
れの２つのフィールドの情報は、所与の２バイト辞書の
セグメント数と、その辞書内の単語の相対的位置をあら
れす。これらの後には、この例では、さらに別の単一バ
イト圧縮単語が続き、さらに多重スペース検出ビット・
パターンが続き、ラインＣで、検出された多重スペース
の数が続く。この後、３バイト辞書の圧縮された単語の
セグメント数と、３バイト辞書の識別されたセグメント
内のその単語の相対的位置を示す２バイトとが続く。

エスケープ・ビット・パターン以外にも、他の制御パタ
ーンも定義され単一バイト圧縮制御テーブル内にロード
されなくてはならない。バージョン切替制御パターンに
ついて前述したが、これは圧縮されたテキスト・ストリ
ーム中で出会うと、次のバイトが、使用されつつある辞
書の新しいバージョン番号を表示するように意図されて
いる。

それは、使用されつつある辞書が同一のタイプの辞書の
別のバージョンに重なるべきときに、圧縮ルーチン中で
エンコードされる。テキスト圧縮で空白スペースが連続
して複数あられれるときは、最良の圧縮のために、認識
されたときに多重スペース制御キャラクタを必要とする
別の事象である。

＝７１− その後には、あられれるべき空白スペースの数を表示す
る別のバイトが続く。１バイト制御キヤラクタを考える
と、次の第２のバイトにおいて制御の２５６個のバージ
ョンを表示できることが明らかである。こうして、辞書
バージョン切替制御キャラクタの場合、次のバイトが、
同一の辞書の２５６個のバージョンのうちの任意の１つ
を記述することができる。これは、単一バイト辞書を他
のバージョンで置き換えることによって、１つのバイト
中であられし得る単語の数を増加させることができる。

以上の記載から、採用される辞書の数及びタイプに多く
の変更がなし得る一方で、受信側に、圧縮を行う際にど
の辞書及びどのサイズの辞書が使用されたかを識別する
ために、同一の基本ヘッダ構成スキームが使用されるこ
とが見てとれる。同様に、辞書中にエントリを確立する
ための使用度合の重みづけられた頻度が、テキストを圧
縮するためのきわめて有効な手段であることが示された
。

尚、″テキスｌ〜”自体は、アルファベット・データで
も、音声データでもよく、または記憶あるいは伝送のた
め接縮すべき他の同様のディジタル・データ・キャラク
タ情報でよい。

Ｆ１発明の効果以上のように、この発明によれば、用途に応じて複数の
辞書の使用を可能ならしめたことにより、テキスト文書
のきわめて効率的な圧縮が行なわれる。

【図面の簡単な説明】

第１図は、本発明に基づくテキスト圧縮及び伸張システ
ムの図式的ブロック図、第２図は、辞書と索引を含むセグメントへのメモリ空間
の割り当てを示す図、第３図は、第１図のプロセッサによる伸張動作を示す図
、第４Ａ図、第４Ａ−１−図、第４Ａ−２図、第４Ｂ図、
第４Ｃ図、第４Ｄ図、第４Ｅ図、第４Ｆ図は第１図のプ
ロセッサによる圧縮動作を示す図、第５図は、圧縮され
たテキストのフォーマットの典型的な例を示す図、第６Ａ図、第６Ｂ図は、圧縮されたデータ・レコード中
のヘッダまたはプリアンプル区域におけるビット位置の
割り当てを示す図である。出願人　　インターナショナル・ビジネス・マシーンズ
・コーポレーション代理人　　弁理士　　山　　本　　仁　　部（外１名）手続補正書動式）昭和６３年１月７日特許庁長官　小　川　邦　夫　殿］、事件の表示昭和６２年　特許願　第２３２７４．１号２、発明の名
称データ圧縮方法３、補正をする者事件との関係　　特許出願人昭和６２年１２月２ｚ日６、補正の対象４、図面の簡単な説明７、補正の内容図面の簡単な説明の欄の記載を別紙のとおりに補正する
。別紙図面の簡単な説明第１図は、本発明に基づくテキスト圧縮及び伸モリ空間
の割り当てを示す図、第３図は、第１図のプロセッサにより伸張動作を示す図
、第４図は、第４Ａ−１図と第４Ａ−２図の結合を示す図
、第４Ａ図、第４Ａ−１図、第４八−２図、第４Ｂ図、第
４Ｃ図、第４Ｄ図、第４Ｅ図、第４Ｆ図は第１図のプロ
セッサによる圧縮動作を示す図、第５図は、圧縮された
テキストのフォーマットの典型的な例を示す図、第６Ａ図、第６Ｂ図は、圧縮されたデータ・レコード中
のヘッダまたはプリアンプル区域におけるピッ１ル位置
の割り当てを示す図である。 −１＝

Claims

【特許請求の範囲】非圧縮のコード化されたデータ・ストリームを複数のユ
ニットに分離し、上記複数のユニットを、上記非圧縮のコード化されたユ
ニットに関連して記憶された各ユニット毎に対応する圧
縮されたコードをもつ複数の辞書のうちの少なくとも１
つのユーザーが選択した辞書と比較し、上記データの圧縮に使用される上記ユーザーが選択した
辞書の各々の識別子を決定するための表示を含む圧縮さ
れたデータ・ヘッダを出力し、上記比較段階で一致が見
出された場合に入来ユニットに対応する圧縮されたコー
ドを出力し、一致が見出されない場合に非圧縮のコード
化されたキャラクタ・ストリームを出力する段階を有す
る、データ圧縮方法。