WO1991013395A1

WO1991013395A1 - Data compression and restoration method and device therefor

Info

Publication number: WO1991013395A1
Application number: PCT/JP1991/000252
Authority: WO
Inventors: Shigeru Yoshida; Yasuhiko Nakano; Yoshiyuki Okada; Hirotaka Chiba
Original assignee: Fujitsu Limited
Priority date: 1990-02-26
Filing date: 1991-02-26
Publication date: 1991-09-05
Also published as: EP0871294B1; DE69133481D1; EP0871294A2; EP0878915A2; DE69133377D1; EP0871295A2; DE69133481T2; EP0472730B1; EP0472730A4; DE69133377T2; EP0472730A1; EP0878915A3; EP0871295A3; EP0871294A3; KR950013228B1; KR920701899A; DE69132187D1; EP0871295B1

Description

明細書データ圧縮および復元の方法および装置技術分野

本発明はデータ圧縮および復元の方法、特にユニバーサル符号化用の増分分解形の符号化に用いられる L Z W方式

(Lempe l-Z i v- We l ch方式）のデータ圧縮および復元の方法に関する。

本発明による方法および装置は例えば、新聞製版システムとして電子計算機化されたタィプセッティング（CTS) における画像データ圧縮システム、電子計算機システムのファイル装置におけるフアイル圧縮、例えば磁気ディスク装置に格納されるデータ圧縮、等に適用可能である。従来技術

従来の L Z W方式のデータ圧縮方法は、データ圧縮のュニバーサル性が重要視され、辞書の状態として、第 1文字のみまたは全一文字のみを登録した空白に近い状態からデータの符号化が開始されるようになっている。

そのため、従来の L Z W方式のデータ圧縮方法は、入力されたデータの最初の部分において学習量が小であり、辞書へ登録される文字列の数が小であり、したがって圧縮率が低いという問題点がある。

L Z W方式の符号化においてユニバーサル性は重要である。しかし種々のデータのうち入力されたデータとして特定の種類だけ特に多く出現するときは、辞書は必ずしも空白に近い状態から符号化する必要はないという点が考慮されるべきである。このことは L Z W方式の復号についても同様である。

また、従来の L Z W符号では、入力文字列の中を相異なる文字列に分けて符号化するとき、現在符号化中の各文字列は以前の文字列とは独立に出現するとして符号化する形をとつている。

従ってこの方法は、文字列中の各文字が以前の文字と独立に出現する情報源、すなわち無記憶情報源、の場合は問題がない。しかし、実際の文章など、多くのデータは以前に出現した文字に依存して出現する情報源、すなわち記憶をもつ情報源、とみなされるため、従来の L Z W符号化では文字列が出現する履歴を十分利用できておらず、データ圧縮後も文字列の出現の従属性については冗長性が残る問題点があった。

なお、本発明の分野においては、データの 1 ヮ一ド単位が文字と称され、データが複数ワード連続したものを文字列と称する。

従来の L Z方式（Lempe l -Z i v方式）または L Z W方式の増分分解形のデータ圧縮および復元の方法は、例えば、特公昭 63 - 56726 号公報、米国特許第 446465号明細書、米国特許第 4558302号明細書等に記載されている。発明の開示

本発明の 1つの目的は、 L Z W方式のデータ圧縮および復元用の符号化および復号において、入力されたデータの最初の部分においても圧縮の度合いが低下しないようにし、それにより増分分解形のデータ符号化における圧縮率を向上させると ((しめる ₀

本発明の他の 1つの目的は、増分分解形のデータ符号化において、参照辞書の規模を犬にしても圧縮の度合いが低下しないようにし、それにより増分分解形のデータ符号化における圧縮率を向上させることにある。

本発明の他の 1つの目的は、符号化が行われた直前文字列の最終の文字との従属関係に基づく索引を用い、複数辞書のうちの 1つを指定して符号化および復号を行うにあたり該従属関係を統合し、複数辞書の初期登録が簡単であるようにし、データ符号化の効率を向上させることにある。

本発明の他の 1つの目的は、直前の文字列の最終の文字のような、直前の文字列との関係において現在の文字列の符号を決定し辞書に登録するにあたり、符号化されるべき文字の部分列に対し直前の文字列の最柊の文字との従属関係を辞書に導入し、文字列間の冗長の度合いを低減させ、それによりデータ符号化における圧縮率を向上させることにある。

本発明においては 1つの形態として、入力された文字列を辞書に登録された符号化ずみの部分列のうち、最長の一致を示す部分列の参照番号を指定するとともに符号語として得られた参照審号に 1文字が付加された部分列に新たな参照蕃号を付与して該辞書に登録することにより符号化を行い、該部分列の参照番号により表わされる符号語により該辞書に登録されている部分列を探索してもとの部分列を復元するとともに以前に処理された符号語に今回復元された部分列の先頭文字が付加された部分列に新たな参照審号を付与して該辞書に登録することにより復号を行う、増分分解形のデータ圧縮および復元方法において、

サンプルのデータを対象とする符号化により辞書登録された部分列のうち出現の頻度の大なる部分列のみを、符号化済みの部分列であるとの判断のもとに、該辞書に初期値として登録することにより、該辞書の初期化を行う、

ことを特徵とするデータ圧縮および復元方法、が提供される _c また、本発明においては 1つの形態として、入力された文字列を辞書に登録された符号化ずみの部分列のうち、最長の一致を示す部分列の参照審号を指定するとともに符号語として得られた参照審号に 1文字が付加された部分列に新たな参照審号を付与して該辞書に登録することにより符号化を行い，該部分列の参照番号により表わされる符号語により該辞書に登録されている部分列を探索してもとの部分列を復元するとともに以前に処理された符号語に今回復元された部分列の先頭文字が付加された部分列に新たな参照番号を付与して該辞書に登録することにより復号を行う、増分分解形のデータ圧縮および復元方法において、

連続する 2つの部分列の最初の部分列の最終の文字ごとに. または最終の文字による群ごとに次位の部分列を登録して登録辞書を作成し、該最終の文字または最終の文字による群ごとに、登録される部分列の登録番号を付与し、該登録審号にもとづいて符号化されるべき部分列の符号語を作成し、さらに、該作成された符号により構成されたデータから、複号された部分列の前位の部分列の最终の文字または最終の文字による群ごとに辞書の復元を行い、該復元された辞書を用いて、該複号された部分列の前位の部分列の最終の文字と今回入力の符号から、入力された符号を文字の部分列に複号することを特徵とするデータ圧縮および復元方法が提供される c 図面の簡単な説明

第 1図は従来形の増分分解形の L Z W方式のデータ圧縮および復元方法を説明する図、

第 2図および第 3図は従来形の増分分解形の L Z W方式の符号化および復号の過程を示す図、

第 4図は本発明の 1つの形態におけるデータ圧縮および復元方法用のシステムの例を示す図、

第 5図は第 4図のシステムに用いられるプログラム用の記憶装置およびデータ用の記憶装置の構成を示す図、

第 6図は第 4図のシステムの動作を説明するフローチヤ一ト図、

第 7図および第 8図はいずれも第 6図のフローチャート図に闋連する動作を説明するフローチャート図、

第 9図はサンプルのデータによる辞書初期値の作成処理を説明するフ口一チャート図、

第 10図は辞書圧縮の処理を説明するフ σ —チャート図、第 11図は符号化処理を説明するフローチャート図、第 12図は復号処理を説明するフローチャート図、

第 13図は追加コ一ドの登録を説明する図、

第 14図は部分列に対応して記憶装置へ登録されるデータを説明する図、

第 15図は復号操作を説明する図、

第 16図は本発明の他の 1つの形態におけるデータ圧縮および復元方法用のシステムの例を示す図、

第 17図は圧縮符号生成の過程を説明するフローチャート図、第 18図は最適符号変換の例を説明する図、

第 19図は参照辞書の単位の最適符号の設定の例を説明する図、

第 20図は最適符号を適用した圧縮符号の例を説明する図、第 21図は文字グループ間での遷移回数の測定の結果を説明する図、

第 22図は文字グループ間での遷移回数の順位を説明する図、第 23図は最適符号の例および遷移コ一ドによる符号語の例を説明する図、

第 24図は本発明の他の 1つの形態におけるデータ圧縮および復元方法用のシステムの例を示す図、

第 25図は第 24図のシステムにおけるプログラム用の記憶装置およびデータ用記憶装置の構成を示す図、

第 26図は符号化のァルゴリズムを説明する図、

第 27図は復号化のアルゴリズムを説明する図、

第 28図は本発明の他の 1つの形態におけるデータ圧縮および復元方法用のシステムの例を示す図、第 29図は直前の文字列の最絡の文字を根とする辞書の木を説明する図、

第 30図はデータ圧縮のコ一ドの文字列への復号を行う構成を示す図、

第 31図は符号化用の装置の例を示す図、

第 32図は符号化用の装置の動作を説明するフローチャート図、

第 33図および第 34図は全体辞書の例および個別辞書の例を示す図、

第 35図は個別辞書の木の例を示す図、

第 36図は符号語の例を示す図、

第 37図は復号のための装置の例を示す図、

第 38図（A )， ( B ) 、および（C ) は符号化の過程を説明するフローチヤ一ト図、

第 39図は辞書の木の例および文字列の符号化の例を説明する図、

第 40図は本発明によるデータ圧縮および復元用の装置についての説明を抄録として記述するための図である。発明を実施するための最良の形態

好適な実施例の説明に先立ち、従来の増分分解形のデータ圧縮システムを第 1図について、従来の L Z W方式による符号化処理の過程を第 2図について、復号処理の過程を第 3図について、それぞれ説明する。

第 1図のデータ圧縮システムは圧縮器 1および辞書 2を有し、文字列、例えば、文字 a , b , cのみから成る、 ababcbababが圧縮器 1 に入力される。入力された文字列について、単独文字の部分例（ストリング） a ， b , cのそれぞれは初期値として蕃号 1 ， 2 ， 3に対応して辞書 2に登録される。文字の連続からなる部分列 ab， ba， abc, cb, bab, baba, aa， aaa, aaa については学習して審号 4〜 12に対応して辞書 2 に登録される。このように部分列の登録された辞書 2に対して圧縮器 1 は検索を行う。圧縮器 1 において辞書 2に登録された部分列を用いて圧縮が行われ、その結果が圧綰データとして出力される。

従来の L Z W方式の符号化処理は、書き替え可能な辞書を持ち、入力された文字列の中を相異なる文字列すなわち部分列に分け、この文字列を出現した順に参照審号を付与して辞書に登録すると共に、現在入力される文字列を辞書に登録してある最長一致の文字列の参照番号で表して符号化するものでめる。

第 2図の L Z W方式の符号化処理では、まずステップ S 1 で予め辞書に全文字につき一文字からなる文字列を初期値として登録してから符号化を始める。 S 1の符号化は入力した最初の文字 Kにより辞書を検索して参照審号 ωを求め、これを語頭文字列（pref i x st r i ng) とする。次に S 2で入力デー夕の次の文字 Kを読み込み、 S 3で全ての文字入力の読込みが終了したか否か点検した後、 S 4に進んで S 1を求めた語頭文字列 ωに S 2で読み込んだ文字 Kを加えた " Κ " が辞書にあるか否か探索する。 S 4で文字列 " Κ" が辞書になければ、 S 6に進んで S 1で求めた文字 Κの参照番号 ωを ωをあらわすコード code (ω) として出力し、また文字列 "ω Κ" に新たな参照番号を付与して辞書に登録し、更に S 2の入力文字 Κを参照審号 ωに置換すると共に辞書ァドレス ηを増分して S 2に戻つて次の文字 Κを読み込む。

一方、 S 4で文字列 "ω Κ" が辞書にあれば S 5で文字列 "ω Κ" を参照審号 ωに置換し、再び S 2に戻って S 4で文字列 " ω Κ " が辞書から探索されることができなくなるまで最長一致の検索を続ける。

第 3図の復号処理は第 2図の符号化の逆の操作を行なう。第 3図の復号では、符号化時と同様に予め辞書に全文字につき一文字からなる文字列を初期値として登録してから復号を始める。

まず S 1で最初の符号すなわち参照番号読み込み、現在のコードを OLDcode とし、最初の符号は既に辞書に登録された一文字の参照番号いずれかに該当することから、入力符号コ — ドに一致する文字コード code (K) を探し出し、文字 Kを出力する。

なお出力した文字 Kは後の例外処理のため FINchar にセットしておく。

次に S 2に進んで次の符号を読み込んでコ一ドに INcodeとしてセットする。 S 3で新たな符号があるか否か、すなわち符号入力の終了の有無を点検して S 4に進み、 S 3で入力された符号コ一ドが辞書に定義すなわち登録されているか否か点検する。通常、入力した符号語は前回までの処理で辞書に登録されているため、 S 5に進んで符号コ一ドに対応する文字列コ一ド code {ω Κ) を辞書から読み出し、 S 6で文字 Κ を一時的にスタックし、参照番号 code ( ω ) を新たな符号コードとして再度 S 5に戻り、この S 5 , S 6の手順を参照番号 ωがー文字 Kに至るまで反復し、最後に S 7に進んで S 6 でスタックした文字を F0(Last In First Out) 型式で出力する。同時に S 7 において、前回使った符号 ωと今回復元した文字列の最初の 1文字 Κを組 " ω， Κ" と表した文字列に、新たな参照審号を付与して辞書に登録する。

本発明の 1つの形態におけるデータ圧縮および復元方法用のシステムの例が第 4図に示される。

第 4図のシステムにおいて、符号化時には、入力文字列を辞書に登録された既に符号化済みの部分列の内、最長一致の部分列の参照蕃号で指定して符号化すると共に参照番号として指定された符号語に次の 1文字を付加した部分列に新たな参照番号を付加して辞書 105 に登録し、復号時には、部分列の参照審号で指定された符号語を辞書 105 に登録された部分列の検索により元の部分列を復元すると共に、前回復元された符号語に今回復号された部分列の最初の 1文字を付加した部分列を新たな参照審号を指定して辞書 105 に登録する増分分解形の符号としての L Z W符号を用いたデータ圧縮方式が対象とされる。

第 4図のシステムにおいては、辞書 105 の初期化時に、所望のサンプルの文字列を対象とした前記符号化により辞書登録された部分列の内、出現頻度の高い部分列を既に符号化済みの部分列と見做して前記辞書 105 に初期値として登録する, 第 4図のシステムにおいては、種々の種類のデータの内、入力されたデータとして特定の種類だけ特に多く現れるデータをサンプルのデータとして準備し、第 6図に示されるように、出現頻度の高いサンプルのデータについて L Z W符号化により辞書を作成し（ S 1 ) 、作成辞書の中の出現頻度の高い部分列のみを残すように辞書を圧縮して辞書の初期値を作り出す（ S 2 ) 。

そして第 7図、第 8図に示されるように、サンプルのデ一タの学習により求めた初期値を辞書に登録する初期化処理を行なった後に、 L Z W符号化及び L Z W復号を行ない、入力データの初めの部分でも十分な量の部分列の登録が辞書に得られていることから、圧縮率が向上する。

具体的には、サンプルのデータの L Z W符号化の際に、辞書の参照蕃号毎に力ゥンタを設け、各参照審号が符号化時に使われた回数を計数するようにし、計数値の小さい文字列を辞書から削除し、高頻度で出現する文字列のみ辞書に残した辞書を求める。そして、予め記憶装置に取り出しておいた高頻度の文字列を初期値として辞書に登録した後、符号化或いは復号する方法、または、予め作成した高頻度の文字列を初期値として辞書の先頭に書き替えをしない固定部分として設定しておき、符号化或いは復号する方法のいずれかの方法で符号化または復号を行う。

第 4図のシステムに用いられるプログラム用の記憶装置およびデータ用の記憶装置の構成が第 5図に示される。

第 5図の構成において、 112は制御手段としての C P Uであり、 CPU112に対してはプログラムメモリ 114 とデータメモリ 126 が接続される。

プログラムメモリ 114 には制御用プログラム 116 、 L Z W 符号を用いた最長一致の検索を行なう最長一致検索用プ口グラム 118 、入力された文字列を L Z W符号に変換する符号化用プログラム 120 、符号化用プログラム 120 でし Z W符号に変換された符号を元の文字列に復元する復号用プログラム 122 、及び所望のサンプルのデータを対象とした L Z W符号化で得られた辞書登録の内の出現頻度の高い部分列を辞書初期值として作り出す辞書初期値作成用プログラム 124 を備え。

一方、データメモリ 126 には、これから符号化しようとする文字列、或いはこれから復号しょうとする符号列を格納するデータバッファ 128 と、 L Z W符号を対象とした符号化及び復号の際に逐次作成されながら使用される辞書 110 を備える。

第 5図の構成におけるデータ圧縮が下記に説明される。まず、符号化及び復号に先立ち、データメモリ 126 のデータバッファ 128 に対しては所望のサンプルのデータが格納される。このサンプルのデータとしては種々の入力されたデ一夕の内、統計的に出現頻度が高い特定種類のデータを使用する。データバッファ 128 にサンプルのデータが格納された状態で CPU112は制御用プログラム 116 による制御のもとに辞書初期値作成ソフト 124 を起動し、辞書初期値作成処理を行なう。具体的には、辞書初期値作成用プログラム 124 は符号化用プログラム 120 を使用してデータバッファ 128 のサンプルのデータを対象とした L Z W符号化処理を実行し、符号化済み文字列に参照番号を付加したデータを辞書 110 に順次登録していく。この辞書登録に際しては参照審号毎に力ゥンタが設けられており、符号化時に、或る参照番号の文字列を経由した最長一致の検索が行なわれると、その都度カウンタが増分され、各文字列の出現頻度が計数される。

サンプルのデータを対象とした Z W符号化が終了すると、データメモリ 126 に得られた辞書 110 の内、カウンタのカウントがしきい値 T以上出現した文字列のみを残すように辞書 110 を圧縮することで辞書初期値を作成する。

このように作成された辞書初期値はデータメモリ 126 の特定の領域に保存しておき、符号化または復号を行なう初期化処理の際に辞書 110 に登録する。また、辞書初期値を符号化及び復号に使用する辞書 110 の先頭部分にそのまま残しておき、この辞書初期値の部分を書き替え禁止領域とするようにすることが可能である。

次に、サンプルのデータによる辞書初期値の作成処理が第 9図を参照して説明される。

まずステップ S 1でサンプルのデータを構成する文字列の第 1審目の文字を舍むように辞書を初期化する。すなわち、第 1審目の文字コ一ド i を辞書のァドレス i に登録する。次に、辞書への現在の登録文字列の数を示す力ゥント πを一文字全体の文字数 nとし、続いて入力された最初の一文字 Kの辞書検索で得られた参照番号 ωを、語頭文字列 ωとする。

ステップ S 1の初期化にあっては、サンプルのデータを構成する文字列の全一文字を参照番号を付けて辞書に登録するようにすることが可能である。

次に S 2に進み、次の入力文字 Κを読み込み、 S 3で文字 Κがあるか否か、すなわち入力された文字列の読込みが終了したか否か点検して S 4に進む。 S 4においては、第 1蕃目に入力された文字の参照番号 ω、即ち語頭文字列に 2蕃目の入力された文字 Κを組み合わせた文字列 "ω Κ" が辞書にあるか否か検索する。

このとき、 2文字目までしか入力していないので辞書には文字列 ^κω Κ" が存在せず、従って S 5に進み、文字列 αω Κ" を辞書アドレス ηに登録し、 2番目の文字 Κを語頭文字列 ωに置き換え、更に参照審号 ωの出現頻度を示すカウント cnt(n ) を作成して零にリセットし、辞書への現在登録している文字列の数を示す力ゥント nを増分する。

S 4で文字列 "ω Κ" が辞書に存在した場合には S 5に進み、文字列 "ω Κ" を語頭文字列 ωに置換し、それにより参照審号 ωの文字列が使用されたことになるので、参照番号 ω の文字列を示すカウント cnt((y) を増分する。

以上の S 2〜 S 6にわたる処理の反復により入力された全文字の処理が終了すると S 3から S 7に進み、その時点で得られた辞書の最終ァドレス nと辞書の内容を記憶装置に書き込んで一連の辞書作成処理を終了する。このようにして作成された辞書について、高頻度の文字列のみを辞書に残す辞書圧縮の処理のフローチャートが第 10図に示される。

まず S 1で第 9図の処理で得られた辞書の最^ァドレス n と辞書の内容をメモリに書き込み、辞書ァドレス i を零にリセットする。

続いて S 2で辞書アドレスを増分し、 S 3で最終アドレスに達したか否か点検した後、 S 4に進んで辞書ァドレス i のカウント cnt ( i ) が予め定められた出現頻度を示すしきい値 Tより小さいか否か点検する。

もし、カウント cnt ( i ) がしきい値 Tより小さければ S 5 に進んで、現在の辞書ァドレス i を削除して次の辞書ァドレス j に置き換える削除処理を行なう。次いで S 6に進み、削除された辞書ァドレス i に続く次の辞書ァドレス〗が最終ァドレス n以内にあるか点検し、最終ァドレス n以内にあれば S 7 に進んで、辞書ァドレス i 以降に i = より大きい参照審号 ωをもつ文字列が存在するか否か点検する。

削除された辞書ァドレス〗以降に参照審号 ωより大きい参照審号をもつ文字列が存在したならば S 8に進んで、文字列の中の参照番号 ωの値を減分により 1つ減らし、 S 9に進んで辞書ァドレス j の文字列 " ω K " を 1つ前の辞書ァドレス j 一 1 に登録する。そして、処理が済んだ辞書ァドレス j を次の処理のために j + 1 と増分して S 6に戻り、辞書ァドレス j が最終ァドレス nを越えるまで S 6 . S 7 . S 8及び S 9の処理を反復する。すなわち、しきい値 Tより小さい出現頻度の文字列を削除した場合には、削除した文字列のァドレス以降に存在する文字列の中の参照審号を 1 つ減らし、且つ登録ァドレスを 1つ変位させる処理を反復する。

S 6〜S 9の処理が終了すると S 6から S 10に進み、文字列を 1つ削除したことから最終ァドレス nを 1つ減分し、再び S 2に戻って辞書アドレス i を増分して次の文字列に対する出現頻度の計数僚の点検を行ない、 S 3で最終アドレス n が判別するまで反復する。

S 3で最終ァドレス nへの到達が判別されると S 11に進んで辞書の最終ァドレス nと辞書の内容を記憶装置に書き込み、これにより圧縮された辞書初期値の形成が完了する。

このようにして得られた辞書初期値を使用した符号化処理のフローチャートが第 11図に示される。

符号化においては、まず S 1で予めサンプルのデータに基づいて生成されている辞書初期値を記憶装置から読み出し、読み出した辞書の最終ァドレス IIと辞書の内容を辞書として使用するメモリに書込む。この辞書初期値の書込みが従来の符号化処理と異なる点である。続いて S 1 においては入力した最初の文字 Kにより辞書を検索して一致した文字列の参照番号 ωを取り出して語頭文字列とし、 S 2で次の文字 Κを入力し、 S 3で入力文字の終了の有無を点検した後、語頭文字列 ωに今回入力した文字 Κを組み合われた文字列 " ω Κ " が辞書にあるか否か点検する。

従来の方法においては、入力データの初期段階で文字列 ( ω Κ ) が辞書に存在する割合は少なかった。第 9図のフロ一においては、 S Iでサンプルのデータの学習により得られた辞書初期値としての文字列を既に格納しているため、 S 4 で文字列 " ω Κ" が辞書にあることが判別されて S 5 に進み、文字列 "_ωκ" を語頭文字列 ωに置換して再び S 2に戻り、以下、辞書の検索結果が得られなくなるまで最長一致の部分列を検索する処理を反復する。この結果、入力データの参照についても辞書から検索できる部分列の連鎖数が増加し、圧縮率が向上する。

勿論、 S 4で部分列（ω Κ) が辞書になかったときは S 6 に進んで、そのときの参照番号 ωを符号語 code ( ω ) として出力し、今回処理した参照番号 ωに次の文字 Κを付加した文字列 " ω Κ" を、新たな参照審号を付与して辞書に登録し、 1文字 Κを新たな語頭文字列に置換し、 S 2に戻って新たな部分列の最長一致を求める符号化処理を行なう。

復号処理のフローが第 12図に示される。 S 1 で第 9図、第 10図のフ口一における処理で得られた辞書初期値をメモリから読み出して、読み出した辞書の最終アドレス ηと辞書の内容を復号時に辞書として使用するメモリに書き込む。

S 1で既に得られた辞書初期値の辞書の登録が終了すると、 S 2で最初の符号を読み取り、 S 3で符号入力の読み取りが全て終了したか否か点検して S 4に進み、符号が辞書に定義されているか否か点検する。 S 4で辞書に定義されていることが判別されると S 5に進み、符号語に対応する参照審号をもつ文字列 " ω Κ " を読み出し、文字列 " ω Κ " が得られれば S 6 に進んで文字 Κをスタックし、文字 Κを除いた参照番号の検索により次の文字列 " Κ " を S 5で求め、参照蕃号 ωが文字 Κに帰着するまで S 5 , S 6の処理を行なった後、 S 7 に進み、 S 6でスタックした一連の文字を L I F0型式で出力する。

S 4で符号が辞書に定義されていない場合の S 8における例外処理は、 S 1 における辞書初期値の登録により発生頻度がかなり低減しており、ほとんど例外処理に移行することなく符号から文字列を復号することが可能となる。

このように、復号については入力した最初の符号から辞書に文字列として既に登録されているため、従来の復号にあつては、最初、まず 1文字から復元していたが、第 12図のフロ一における復号においては最初の符号から文字列に復元するなお、第 11図、第 12図の符号化及び復号の処理にあっては、辞書の初期値を記憶装置から登録してから符号化あるいは復号を始めるようにしているが、これに限らず、学習により得られた初期値を辞書の先頭に格納して書き替えしない禁止部分として設定して、辞書初期化による消去を禁止することで符号化あるいは復号するようにすることが可能である。

また、前記においては辞書の初期値をサンプルのデータを構成している 1つの文字列から作成しているが、これに限らず、これ以外に複数個のサンプルのデータをつないだものを入力して辞書の初期値を作成するようにすることが可能である。また、 1つのサンプルのデータから作成した初期値を登録した後に、次のサンプルのデータを使用して辞書を作り、この辞書の中の高頻度の文字列のみを取り出すという処理を反復し、累積して複数のサンプルのデータに共通な辞書の初期値を作成するようにすることが可能である。

本発明の他の形態におけるデータ圧縮および復元方法用のシステムの例が第 16図に示される。

第 16図のシステムにおいて、 201は文字列供給部、 202は入力された文字列を一時格納する入力バッファ、 203は符号化装置であって、入力データを参照辞書に照合する参照辞書照合部 209 、符号語作成部 210 、文字列を参照辞書に登録する参照辞書登録部 211 、参照辞書単位の最適符号を定める最適符号変換部 212 、参照辞書単位ごとに登録文字数を計数する登録文字列数計数部 213 、参照辞書単位の最適符号を設定する最適符号設定部 214 とよりなるもの、 204は参照辞書単位を表わす符号を最適値に設定する前に仮に定める参照辞書単位の仮符号設定部、 205は複数の参照辞書単位より構成される参照辞書であって、 16グループの参照辞書単位で構成した場合について例示されたもの、で、例えば、参照辞書単位 205 - 1 は文字列の先頭文字が aよりなるもの、参照辞書単位 205— 2は文字列の先頭文字が bよりなるもの等の異なる文字グループについて文字列に対応させて文字列の符号語を登録してあるもの、 206は圧縮された入力文字列の符号を出力する圧縮符号出力部である。

第 16図のシステムの動作に関して、符号語の形式について仮符号から最適符号への変換の例が第 18図に示される。符号語形式 217 について、参照辞書単位の符号 218 と参照辞書単位の登録位置を示すィンデックス 219 からなるものが示される。参照辞書単位の仮符号による符号語の形式 220 について、参照辞書単位の蕃号が最適値に変換された後の符号語 221 が示される。

第 16図のシステムの動作は次の通りである。

まず、入力された文字列 201 は入力バッファ 202 に格納され、参照辞書照合手段により、文字列を参照辞書単位

205— 1 , 05 - 2 , … 205— 16を参照して過去に登録された文字列のうちから最大長の文字列を選択する。

そして、符号語作成部 210 は選択した文字列の参照辞書単位の審号 218 と選択した文字列の参照辞書単位での登録位置を示すィンデックス 219 よりなる符号語形式 217 を作成する c その際、 1回に送信する入力文字列の全ての文字について圧縮処理が終わるまでは、参照辞書単位の識別符号は仮符号設定手段 204 の設定した仮の符号を設定しておく。

そこで、参照辞書登録部 211 は選択された過去に登録された最大文字列に一致する入力文字列部分に次の一文字を付加した文字列を新たな文字列成分として参照辞書単位に登録す o

ここで、登録文字列数計数部 213 は、各参照辞書に文字列が登録される度に登録文字列数すなわち例えば aで始まる辞書に登録されるデータの個数もしくは任意の文字列の一つ前の文字列の最 ^文字の属する参照辞書単位から続く文字列の属する参照辞書単位へ遷移する回数を各参照辞書単位ごとに計数する。

1回に送信する全入力文字について圧縮処理がなされると最適符号設定部 214 は各参照辞書単位に登録されている登録文字列数をまたは、参照辞書間の上記遷移回数より遷移確率を求め、登録文字列数が大または遷移確率が高い参照辞書単位に付す符号語については登録文字列数が小または遷移確率の低い符号語より短い符号を設定する。

このように求められた最適符号により、最適符号変換部 212 は参照辞書単位の仮符号により作成した符号語を最適符号に変換する。

参照辞書単位の仮符号により表わした符号語の例 220 が示されている。また、符号語 220 を参照辞書単位の最適符号に変換した例 221 が示されている。

圧縮符号生成過程のフローチャートが第 17図に示される。第 17図において、は登録文字列であり、 Κは入力された文字列のうちの参照辞書の登録文字列 ωに一致する部分の次の文字シンボルを表わす。過程は下記のとおりである。

( S 1 ) 参照辞書を初期化する。

( S 2 ) 参照辞書単位に、例えば、均等に仮符号を付与する。続く処理は入力された文字列の先頭文字を処理する場合

(第 1 ) と第 2文字目以降の場合（第 2 ) とに分けて説明される。

(第 1 ) 入力文字列の先頭文字を読み取る処理。

( S 3 ) 入力文字の先頭文字を読み取る。

( S 4 ) 読み取った文字の次に文字があるかないか判断し、あれば、その文字を読み取る。次に（ S 4 ) において無しに進む場合は、全入力文字を読み取って圧縮処理を終了した場合であるから、一文字のみを伝送する場合をのぞいて、通常は（ S 5 ) に進む。

( S 5 ) 入力文字列の先頭文字を読み取るステップでは当然辞書に書き込みはないので（ S 7 ) に進む。

( S 7 ) 参照辞書に登録文字列、いまの場合は入力された文字列の先頭文字である、を対応させて、符号を登録する。

( S 8 ) 文字列を登録した文字列数あるいは 1つ前の文字列の最終文字の属する参照辞書単位から続く文字列の属する参照辞書単位へ遷移する回数を計数するため、登録数をプラス 1する。そこで、（ S 3 ) に戻って、次の文字を読み取り、

( S 4 ) を繰り返す。

(第 2 ) 入力文字列の第 2蕃目の文字以降の処理。

( S 3 ) 次の文字 Kを読み取る。

( S 4 ) で文字がない場合は、伝送する文書の最終文字まで，すべて処理した場合である。

( S 5 ) ( S 4 ) で読み取った文字があれば、（ S 5 ) に進む。文字列 ω Κがなければ、（ S 7 )，（S 8 ) を再度行って，

( o 3 ) る。

( S 6 ) ( S 5 ) で <oKが辞書にある場合は、その文字列は登録済であるので、文字列を参照辞書に照合するために用いる文字列の Κをに置換する。再び（ S 3 ) に戻って次の文字を読み取り、同様の処理を反復する。（ S 4 ) で読み取る文字が無くなれば、すべての文字の処理を終えたので、

( S 9 ) に進む。

( S 9 ) 各参照辞書単位に登録されている文字列数もしくは参照辞書単位間の遷移数を数える。

( 5 10) 参照辞書単位に登録されている文字数をまたは参照辞書単位間の遷移数を考慮して、参照辞書単位の最適符号を設定する。

( 5 11) 符号に付されている参照辞書単位を表わす仮符号を最適符号に変換処理する。

( 5 12) 圧縮符号を出力する。

このように、大規模の参照辞書を用いても、辞書を分割したため、登録文字列のィンデックスを短い符号で表現でき、効率的に符号が生成される。

辞書を分割したことによる符号語の構成が増加するが、参照辞書単位を表わす符号を可変長符号としたことにより、入力された全文字列の圧縮符号における符号語の占める割合を少なくすることができる。

このように、辞書を大規模にすることにより、インデックスの符号が長くなり、圧縮率が低下することがなく、辞書を大規模にするに見合っただけの十分なデータ圧縮が行われる。

参照辞書の単位の最適符号の設定の例が第 19図に示される。第 19図においては参照辞書単位が 3つの場合の登録成分のインデックスの割り当ての例が示される。

例えば、文字列が a , b , cのみより成るような場合、 T , は先頭文字が aよりなる文字列のグループ、 T ₂ は先頭文字が bよりなるグループ、 T ₃ は先頭文字が cよりなる文字グループとするように、各参照辞書単位に文字列の先頭文字に対応して登録する。各節に対応させてィンデックスを割り当てるのではなく、登録順に蕃号をつけていく。

そして、文字列線分を表わす符号語は第 19図に示されるように、参照辞書単位の番号を表わす木の番号（ツリー）番号 224 と登録位置を示すィンデックス 222 により構成する。

例えば、参照辞書単位 3 (T₃)の登録位置 8の文字列は第 19図に示されるように参照辞書単位の番号 Τ ₃ と登録位置に 8を付すことにより表わす。

第 19図においては、参照辞書単位の番号を表わす符号、すなわちッリ一審号、を例示するように、登録文字列数の多いッリ一、すなわち節点数の多いッリ一、は、例えば、節点数 20のには短い符号 " 0 " を付し、登録文字数の少ない Τ₂，Τ ₃ には長い符号 "10", "01" 等を付すようにする。

最適符号を適用した圧縮符号の例が第 20図に示される。

第 20図においては、入力文字列 aabababaaba…を増分分解型 Z L方式（Ziv Lempel方式）に変換する方式が説明される < 第 20図においては、参照辞書単位の審号を仮符号 "000"， "001 "により表した場合の入力文字列を圧縮した場合の圧縮符号が示される。

第 20図においては、参照辞書単位の仮符号を、最適符号に変換した入力文字列の圧縮符号が示される。

第 21図〜第 23図は他の例が示される。

第 21図においては、連続する文字列の成分における最^文字から先頭文字への遷移の一例が示される。第 21図の表には文字グループ間での遷移回数測定の結果が示される。第 21図において、 251は現登録文字列を基準にして、 1つ前の登録文字列、 252は現登録文字列、 253は次の登録文字列、 254は 1つ前の登録文字列 251 の最終文字、 255は現登録文字の先頭文字、 256は現登録文字の最終文字、 257は次の登録文字の先頭文字である。

第 21図においては、参照辞書単位、即ち、第 17図におけるツリーの根を 16個にし、連続する文字列の最終文字から先頭文字への遷移を考え、それぞれ 2

5の文字が属するツリー間の遷移の確率を測定することにより、遷移確率が高い場合には短い符号を設定し、低い場合には長い符号を選定し、遷移コードとしてインデックスとともに符号語として付すものである第 21図においては、 1つ前の登録文字列の最終文字の属するグループナンバー、すなわち 16個、第 3図におけるツリー、から現登録文字の先頭文字の属するグループナンバーへの遷移回数の測定値を表わす。

第 21図においては、各数字が出現回数をあらわす。例えば、グループナンバー 4からグループナンバー 6への遷移は 83回生じたことを表わす。

第 22図は第 21図における測定値を遷移回数の順位に書き直したデータを示す。

第 22図においては、 1個前の登録文字の最終文字の属するグループナンバーから、現登録文字の先頭文字の属するグル —プナンバーへの遷移を任意の 1 個前のグループナンバーについて順位付けされている。

数字 0 は遷移回数が一審多かったことを示し、 15は遷移回数の一番少なかったことを表わす。

例えば、 1つ前の登録文字列のグループナンバーが 4から現登録文字列のグループナンバー 6へ遷移する順位は、 1個前のグループナンバー 4から現登録文字列のグループナンバ一へ遷移するあらゆる場合のうちで 2蕃目に多い順位であることを示す。

第 23図においては、第 21図の結果により、参照辞書単位、すなわち第 21図におけるグループナンバー、に付与する最適符号を設定する方法が示される。

第 23図においては登録文字グループナンバ一間での遷移の頻度の順位により符号語に付与するための符号の例が示され o

出現頻度の高い場合には短い符号を付与し、反対に、出現頻度の低い場合には長い符号を付与する。

いま、現登録文字列のグループナンバー 6、すなわちに対応するもの、で、そのィンデックスが 125の文字列を符号化する場合を考える。

そして、前登録文字列のグループナンバーが 0 とする。

この場合、第 22図に示される表により、頻度は 10であるから、最適符号として 1110101を付す。

第 23図においては、その符号語が示される。

このように、符号語を解釈するために、 1つ前の文字列の最終文字の属する参照辞書単位を必要とするが、出力されている圧縮符号列に 1つ前の文字列の最終文字が送られているので、それにより現文字列のグループナンバーが識別される, 本発明の他の形態におけるデータ圧縮および復元方法用のシステムの例が第 24図に示される。

第 24図のシステムにおいては、入力文字列を辞書 310 に登録された既に符号化済みの部分列の内、最長一致の部分列の参照蕃号で指定して L Z W方式の符号に符号化することが行われる。

第 24図のシステムにおいては、辞書 310 を、処理対象となる全文字種の数より少ない所定数の辞書 310— 1〜 310— N から成る辞書群で構成して各辞書 310— ：！〜 310— Nごとに全文字種を 1文字ごとに参照番号を付与して初期登録する。入力された文字列の符号化時には、以前に符号化済みの文字列との従属関係すなわち履歴を示す索引情報に従って辞書群の中の特定の辞書 310— i を指定して符号化し、同時に指定辞書 310— i に入力文字列がなかった場合には、以前の符号化済み文字列の参照番号に次の 1文字を付加した文字列を新たな参照審号を付与して登録することを特徴とする。

入力された文字列の符号化時には、直前に符号化済みの文字列の最絡文字コ一ドの一部分から得られた索引情報に従つて辞書群の中の特定の辞書 310— 1を指定する。さらに具体的には、直前に符号化済みの文字列の最終文字コ一ドの上位ビットで示される索引情報に従って前記辞書群の中の特定の辞書 310— i を指定する。

一方、入力された文字列の符号化時には、直前に符号化済みの文字列の最終文字コードによりルックアツプテーブルを参照して得られた索引情報に従って前記辞書群の中の特定の辞書 310— 1を指定してもよい。具体的には、直前に符号化済みの文字列の最^文字コ一ドの上位ビットによりルックァップテーブルを参照して得られた索引情報に従って前記辞書群の中の特定の辞書 310— i を指定する。

第 24図のシステムにおいては、入力された文字列を辞書 310 に登録された既に符号化済みの部分列のうち、最長一致の部分列の参照番号で指定して符号化された符号語から元の文字列を復元するデータ復元方式を対象とし、辞書 310 を、処理対象となる全文字種の数より少ない所定数の辞書 310— 1〜 310— Nから成る辞書群で構成して各辞書 310 _ 1〜

310 - Nごとに全文字種を 1文字ごとに参照審号を付けて初期登録する。入力符号語の復元時には、以前に復元済みの文字列との従属関係を示す索引情報に従って前記辞書群の中の特定の辞書 310— 1を指定して復元し、復元毎に、以前に復元済み文字列の参照番号に、今回復元した文字列の最初の 1 文字を付加した文字列を新たな参照審号を付与して登録する。ここで復元時に使用する特定辞書 310— i の指定は、符号化の場合と同様である。

第 24図のシステムによれば、次の作用が得られる。

まず直前文字列の最終文字との従属関係を示す履歴は、そのままだと 256通りの状態があるが、文字の出現には偏りがあり、 256通りのうち出現しない状態もある。そこで、最終文字の履歴をマージして縮小し、有意義な少数通りの状態、例えば 8〜： 16通りに帰着させ、辞書の数を減らす。

履歴の状態数が少数であるため、全文字種 256個の各辞書への初期値として登録数は、履歴数、即ち辞書数 X 256個であり、大きな無駄は出ないようにできる。

履歴をまとめる方法として、例えば、符号化済直前文字列の最終文字の上位 4 ビットを取れば、履歴は 16個の状態にまとめられる。履歴のまとめ方としては、辞書を有効に使う上では均等に出現する状態を用いるのが望ましい。しかし、必ずしも文字中に生のデータのビットを用いる必要はなく、その代りに、データの大まかな性質に合わせて、符号化済直前文字列の最終文字を履歴の状態に対応付けるルツクアツプ* テーブル（LUT) を用意して、直前文字の履歴状態、即ち辞書の索引を指定することが可能である。

第 24図のシステムにおけるプログラム用記憶装置、データ用記憶装置の構成が第 25図に示される。

第 25図において、 312は制御手段としての。 P Uであり、 CPU312に対してはプログラムメモリ 314 とデータメモリ 326 が接続される。

プログラムメモリ 314 にはコントロールプログラ.厶 316 、 L Z W符号を用いた最長一致の検索を行なう最長一致検索プログラム 318 、入力文字列を L Z W方式の符号に変換する符号化プログラ厶 320 、符号化プログラム 320 で Z W符号に変換された符号を元の文字列に復元する復号プログラム 322 、及び処理対象となる全文字種、例えば 256個の文字種を初期登録する辞書初期値作成プログラム 324 を備える。

データメモリ 326 〖こは、これから符号化しょうとする文字列、またはこれから復号しょうとする符号列を格納するデータバッファ 328 と、 L Z W方式の符号を対象とした符号化及び復号の際に逐次作成されながら使用される辞書 310 を備える o

辞書 310 は、例えば符号化済み文字列の最終文字コードの上位 4 ビットでなる従属関係を示す索引情報により分類される場合を例にとると、 256個の全文字種に対し 16個の辞書 310 一 1 ~ 310— 16で構成される。符号化文字列の最終文字コードの上位 4 ビットによる辞書の索引指定は、直接指定しても良いが、以下の説明にあっては、ルックアップテーブル（LUT) を参照して辞書の索引を読出して指定する場合を例にとる。データ圧縮及び復元の概略が以下に説明される。

CPU312はコントロールプログラ厶 316 による制御のもとに辞書初期値作成プログラム 324 を起動し、辞書初期値作成処理を行なう。具体的には、辞書初期値作成プログラム 324 はすべての文字種 256 に 1文字ごとに参照審号を付与して辞書を構成する 16個の辞書 310 _ 1 〜 310— 16のそれぞれに登録する。

データメモリ 326 のデータバッファ 328 は符号化すべきデ一夕を外部から一定長の複数文字分を一時に格納し、符号化プログラム 320 の要求に従って一文字ずつ受渡す。そして、データバッファ ₃₂₈ の文字が空になるたびに、同様に外部から複数文字分を取込む。

符号化のァルゴリズムが第 26図のフ口一チャートにより説明される。

まず S 1 においては次の処理を行う。 ( i ) 直前文字列の最終文字で選択する N個の各辞書 D i 、ここに i = 1 , …， N、に一文字からなる文字列全種を初期値として予め登録する。すべての文字種 256 に対し辞書の総数 Nは N = 16個と少なくなっている。

( ϋ ) 各辞書 D i の参照審号の総数を ri i で管理し、初期化のとき、辞書数: N個の n i に

Ή i =文字種 + 1

をセッ卜する。

(iii) 直前の文字列からの履歴、即ち直前文字列の最絡文字コ一ドの上位 4 ビットを P Kとし、初期値として P Kに P K = 0をセットする。

(iv) 最初の文字を入力 Kとし、これを参照審号すなわち語頭文字列 ωに直す。

( V ) 直前文字列の最終文字 Κ 1から履歴状態に対応つけるルックァップテーブルをセットする。但し、最初は直前文字列はないので、直前文字列の最終文字を示す Κ 1 は Κ 1 == 0 にセットすると共に、 Κ 1 = 0でルックアップテーブルから得られる索引 Ρ Κは P K= 0 となるようにルックアップテーブルをセットしておく。

このような S 1の処理が終了すると S 4〜 S 7の手順に従つて符号化する。この S 4 ~ S 7の手順は、従来と同じであ o

しかし、従来の L ZW符号化において辞書は 1個だけだつたのに代えて、最初は S 1、それ以降は S 6 に示す符号化済みの文字列の最終文字 K 1 によりルックアツプテーブルを参照して得られた履歴状態 LUT(Kl) = P Kによって複数個の辞書から特定の辞書 D_PKを選択して、選択した辞書 D_PKに登録されている文字列と照合して最長一致文字列を探索し、最長一致を一文字延長した文字列 ω Kを選択した辞書 D_PKに登録するようになつている。

S 6で辞書 D_PKに登録した後は、辞書 D_PKの参照番号を管理する力ゥンタ n _PKが n _PK= n _PK+ l と 1つ増分される。また、前述したように次の文字列の辞書を選ぶために最終文字 Κ 1よりルックアツプテーブルを用いて新たな履歴状態 Ρ Κ が求められる。

復号ァルゴリズムが第 27図のフローチャートを参照して説明される。

復号は、符号化の逆の動作となる。まず S 1 (Α) に示す辞書の初期化は符号化の場合と同様である。 S I (Β) ~ S 9の手順は、従来と同様である。しかし、入力したコードから S 4で参照審号 ωを復号した後、直前の文字列の最終文字から求めた履歴状態 Ρ Κを使用して辞書 D_PKを選び、選択した辞書 D_PKの中から参照審号 ωに対応する文字列を求めるようになつている。

辞書への新たな文字列の登録は、 L ZW符号化の場合と同様であるが、符号化のときょり 1テンポ遅れて行なわれる。即、符号化の際には注目文字列の符号化を終了した時点で一文字伸ばした文字列 ωΚ、すなわち注目文字列プラス次の 1 文字、を辞書に登録しているが、復号では、注目文字列 ωを一文字延長するときは次の文字列の先頭文字と合わせて辞書に登録するため、次の文字列の復元が^了した時点で登録を行なう。

具体的には S 9に示すように、直前文字列の参照番号

OLD roと復元文字列の第 1文字 1の組を、直前の前の文字列の最終文字からの履歴状態 P K 1で選ばれた辞書 D _{P K I} に登録する。そこで、復元した文字列を延長して次に登録するときのために現在の履歴状態 P Kを P K 1 に移しておき、復元文字列の最終文字 K 2より、新たな履歴状態を求める。

なお前記においては、全文字種 256個に対し辞書を履歴状態に従って 16個で構成する場合を例にとるものであつたが、それに限らず、全て文字種の総数以下の適宜の辞書数とすることができる。

また文字種の数も必要に応じて適宜に選定されることが可 tsである。

本発明の他の形態におけるデータ圧縮および復元方法用のシステムの例が第 28図に示される。

第 28図のシステムにおいて、文字列が 3文字 a , b , cのみより成る文字列において、直前文字列の最^文字ごとに辞書を作成し、辞書に初期値を登録しておかない状態から始める場合について、例示的に示したものである。

第 28図のシステムにおいて、 401は入力文字列、 402は最終文字を根とする木ごとに登録文字部分列のィンデックス

" I (Π) "を登録した辞書、例えば、 aを根とする木における文字部分列 ab, abc のインデックスはそれぞれ 0 ， 1等であることを示すもの、 403は一文字ずつ入力文字列を読み出す文字読出し部、 404は対象とする現文字部分列、 405は現文字部分列を辞書を参照して、登録されている文字部分列より現文字部分列と一致する最大長の文字部分列を読み取る辞書参照部、 408は読み出した文字列の最長一致文字部分を辞書に登録されているィンデックスに基づいてコード化し、最長一致文字列に文字列の次の一文字を延長した新しく現れた現文字部分列に、直前文字列の最終文字ごとにィンデックスを定める符号化部、 409は現文字列部分辞書に登録する辞書登録部、 410は最長一致文字部分列の最終文字部分を記憶する最終文字記憶部、 411は直前文字列の最終文字を根とする辞書の木の例である。

入力文字列 " ababct^- " を符号化する場合を例として、第 28図のシステムの作用を具体的に説明する。

直前文字列の最終文字を根とする辞書の木は、第 29図に示されるように、例えば、文字部分列として aを出力する場合- 直前文字部分列の最終文字が aに続く aと、 bに続く aではそれぞれ aを拫とする木の aと bを根とする木の aとして区別して出力しなければならない。

そのような各根につく 1文字を出力するためには、（ i ) 木の根となる各文字と 1文字との組合せ " aa, ab, ac， ba〜^: 等を符号化側、復号側の両方に、あらかじめ初期値として作成しておき、このコードにより aに続く a、 bに続く a等を区別して出力する前述の方法をとるか、（ ii ) そのような木の根につく 1文字があらたに現れた場合には生データとしての 1文字を出力するようにする方法をとらなければならない, ここでは、直前の文字列の最絡文字を辞書の木の根とし、木の根につながる初期値を登録しておかず、木の根に直接つながる 1文字を生のデータとして出力する後者の場合を例として説明する。

(第 1 ) 文字列読出し部 403 は最初の文字 aを読み出し、文字部分列 404 とする。辞書参照部 405 は辞書を参照し、 a が未登録であることを確認する。

符号化部 408 は、生データを指定するコ一ドとしてィンデックス 0を設定する。

辞書登録部 409 は、直前文字列の最終文字 0の木に aを辞書の登録位置 " n = l " に登録する。

同時に、インデックス 0 と文字 aを出力する。

そして、直前文字列の最終文字として aを記憶する。

(第 2 ) 第 2番目の文字 bを読み取る。

そこで、直前文字列の最終文字 a と入力された文字 bとによる文字列 a bを辞書を参照する。 a bは未登録であるので、文字列 " _a b " を辞書の登録位置 " 2 " に、 aを根とする木の第 1蕃目の登録文字部分列として登録する。

そして、いま入力された bは aを根とする木に現れた 1文字であるので、インデックス 0 と bを生のデータとして出力し、直前の文字列の最終文字として、 bを記憶する。

(第 3 ) 第 3番目の文字 aを入力する。

そこで、直前の文字列の最終文字 bと読み取った a とによる文字列 " b a " を辞書を参照する。

b aは無いので、文字部分列 " b a " を直前文字列の最終文字 bを根とする木の最初の文字として辞書の登録位置 κ n = 3 " に登録する。

出力された文字部分列の最終文字 aを直前文字列の最終文字として記憶する。

(第 4 ) 第 4審目に文字 bを読み取る。

そこで、直前文字列の最終文字 a と読み取った bとによる文字列 " a b " を辞書と参照する。

" a b " は登録位置 " 3 " に登録されているので、さらに次の文字 cを読み取る。

文字列 " abc "は辞書に未登録であるので、符号化部 408 は、最長一致文字列 ^K a b " を、 aを根とする木における " a b " のィンデックス 1 により第 4審目の文字 bを表わすコ一ドとしてコード化して出力し、同時に、辞書の登録位置 " 4 " に新しく現れた文字列 " abc"を aを根とする木の 2審目の文字列として登録する。

出力された最長一致文字列の最終文字 bを直前文字列の最終文字として記憶する。

(第 5 ) 第 5審目の文字 cを読み取る。

記憶してある最終文字 cと読み取った bとの文字列 b cは未登録であるので文字列 b cを、 bを根とする木の最初の文字部分列として辞書の登録位置 " 5 " 、すなわち "ィンデックス 5 " で登録する。

そして、 cは直前の文字列の最終文字 bを根とする辞書の木の根につながる文字であるので、インデックス 0 と文字 c を生のデータにより出力する。以下、同様の手続きを進め、出力コード" OaObOa lOc—" を得る。

第 28図のシステムにおける、データ圧縮のコ一ドの文字列への復号を行う構成が第 30図に示される。

第 30図の構成において、 421は入力コ一ド、 422は入力コ — ドより復元した辞書、 423は入力コード読み取り手段、 424 は入力コ一ドの表わすィンデックスと復元された直前文字列の最終文字、 425は辞書参照部、 426はィンデックスと直前文字列の最終文字に対応する辞書の登録文字列より文字列を復号する文字部分列復号部、 427は復元文字列より復号文字を出力する復元文字出力部、 428は復元した文字部分列の最終文字を記憶する最終文字記憶部、 429は復号文字列と次に復号される復号文字列の第 1文字により構成される文字部分列を直前文字列の最終文字の木にィンデックスにより登録する辞書復元部である。

符号化したコード " OaObOa lO—" を復号する場合を例として具体的に説明する。

(第 1 ) 入力コード読み取り部 423 は入力コード aを読み取る。生データであるので、文字部分列復号部 426 は文字 a を復号し、出力する。そして、復号辞書 422 の登録位置 " 1 " に文字 aを直前文字列の最終文字 0の木として、インデックス " 1 " で登録する。同時に、復号文字列の最終文字 aを記

1思 3 る o

(第 2 ) 同様に、次のコード l bを読み取り、生データであるので、文字 bを復号して出力し、記憶してある文字 aといま読み取った bとの文字列 a bを aを根とする木の辞書の登録位置 " 2 " にィンデックス " 1 " で登録する。さらに、復号した文字部分列の最終文字 bを記憶する。

(第 3 ) 次のコード aを読み出し、文字列 aを復元し、記憶してある最終文字 bといま読み取った bとの文字列 b aを bを根とする木の辞書に登録位置 " 3 " 、インデックス " 1 ' で登録する。そして、復元した aを記憶する。

(第 4 ) 第 4番目のコード 1を読み取る。いま、直前の文字部分列の最終文字は aで入力符号は 1であるから、辞書参照部 425 は辞書を参照し、文字部分列 a bを読み出す。そして、文字部分列復号部 426 は文字部分列 ^K a b " を復号する _c さらに、その復号文字部分列と直前の最終文字列の最終文字 aに基づいて、復号文字出力部 427 は文字 bを出力する。最文字記憶部 428 は復号した文字列の最終文字 bを記憶する _c (第 5 ) 第 5番目のコード cを読み取る。

生のデータであるので、文字 cを復号するとともに、前の (第 4 ) の項で復号した文字部分列 a bといま復号した文字 cにより文字列 a b cを aを根とする木の辞書に登録位置 " 4 " 、ィンデックス " 2 " で登録し辞書を復元する。

上記の説明においては、直前文字列の最終文字ごとに辞書の木を作成する場合について、説明したが、それに限らず、最終文字をその種類等によりグループにまとめて、グループごとに辞書の木を作成し、続く文字部分列を登録するようにすることが可能である。

第 28図のシステムに用いられる符号化用の装置の例が第 31 図に示される。

第 31図の装置においては、辞書を文字部分列を登録する全体辞書と、直前の文字列の最^文字ごとに、続く文字部分列を全体辞書の登録位置に対応付けてィンデックスにより登録した個別辞書とに分けて作成している。

第 31図の装置において、 430は入力文字列を符号化するための入力文字列 Kを格納するメモリ、 431は文字部分列コ一ド ωを格納するメモ、J、 432は直前文字部分列の最終文字 P Kの格納メモリ、 433は符号化の対象としている現文字列の最終文字 K 1の格納メモリ、 434はメモリより成る全体辞書 D ( n ) 、 435はメモリより成る個別辞書で 0 , a , b , c…等 256の各文字ごとに構成されるもの、 436は辞書の木における文字部分列の登録階層の深さを計測する力ゥンタ、 437 - 0〜 437 - 255 は個別辞書 0〜255 の各ィンデックス m ( 0 ) 〜m (255) のカウンタ、 438は全体辞書の登録番号 ηのカウンタ、 439は辞書を参照しさらに辞書を作成する辞書参照および作成手段、 440は読み取った文字部分列を符号化する符号作成手段、 441は作成した文字部分列の符号を出力する符号出力手段、 442はプログラムに従ってデータの符号化処理の実行、制御を行う C P Uである。

第 31図の装置における符号化のための動作の過程が第 32図に示される。

文字列として" ababcbaba—" を符号化した場合の全体辞書と個別辞書の例が第 33図および第 34図に示される。

文字列を符号化した場合の個別辞書の木の例が第 35図に示される。

第 35図の例においては、直前の文字列の最終文字の木の根に直接つながる文字が最初に現れた場合には生のデータとしてのその 1文字を送るようにしている。

符号語の例が第 36図に示される。モード 1 は、上記の各個別辞書の木の根に直接繋がる文字が新たに出現した場合を示す。

モード 1では、ィンデックス 0、すなわち生のデータを指定、と文字の生のデータの組を符号語として送ることとする。

モード 1以外の文字または文字列が出現したときは、第 36 図に示されるように、各木におけるその文字列のィンデックスを符号語として送ることとする。

第 32図のフロ一が以下に説明される。

初期条件の設定ステップ S 1 は、個別辞書を 256個備える場合を示しているが、説明を簡単にするため、文字列として、文字 a , b , cの 3文字のみよりなる文字列" aba bc；…" を符号化する場合を考える。

まず、 S 1 において装置の全体を初期化する。

初期条件として、（条件 1 ) 直前文字列の最終文字 P Kを 0 とする。（条件 2 ) 文字列コード格納メモリの初期値をいまの場合 0 とする。この例においては、 256としてある。

(条件 3 ) 辞書の木の深さ D Pの測定カウンタを 0 とする。

(条件 4 ) 全体辞書の先頭の登録位置を示す先頭アドレスを今の場合 4 とする。この例においては、 256としてある。個別辞書のインデックスの個数をそれぞれ 0 とする。いまの場合、個別辞書は 0 , a ' b . cの 4つよりなるので、それぞれの辞書に登録されるィンデックスの個数 m (0), m (a), m (b), m (C) を 0 とする。

(第 1 ) S 2において、入力文字列 ababcbaba…の先頭文字 aを読み取る。

S 3における判断は文字列を全部読み取って、処理を終了するかの判断であるので、 S 4に進む。

直前文字列 0に続く文字列 aは全体辞書に未登録であるかり、 S Dに進む。

いま、深さ D Pは 0であるから S 12に進む。

いまの場合、上記のモード 1 に該当する場合であるので、

S 12において、 m ( 0 ) = 0 と生のデータ aにより符号語として 0 aを出力する。

そこで、 S 13において、全体辞書 D (n = 4 ) にいま入力した文字列 _a、ここに ωの初期値を 0 としてあるので 0 aである、を登録し、個別辞書 0 ( P K = 0 ) にインデックス I

( η = 4 ) とし、個別辞書 0の登録ィンデックス個数 m ( 0 ) を 1つ増分し、 1、すなわち、個別辞書 0の木には登録文字はなかった、を登録する。

次に、 S 14において、全体辞書の登録位置 nを 1つ増分する o

次に、最終文字列 P Kをいま読み取った a とし、文字列コ — ドを読み取った文字 aのコード、すなわち初期条件において設定した 1、とする。

(第 2 ) 次の第 2番目の文字 bを読み取る。 K = 1 bは、辞書に未登録であるので、 S 6に進み、 DP= 0であるから、ステップ（12) に進む。

そこで、いまは、 m (a) = 0、生の文字 bのモード 1の場合であるから、 O bを外部に出力する。

そこで、 S13において、 wK= l bを辞書 D ( n = 5 ) に登録し、さらに、個別辞書にも個別辞書 a (PK= a) にィンデックス I (n = 5 ) とし、個別辞書 aのィンデックスの登録個数 m (a) を 1つ増分し、 1、すなわち、個別辞書 a の木には登録文字はなかった、を登録する。 S 14において、 nを 1増分する。そして、最終文字 P Kをいま読み取った b とし、入力文字コード ωを初期条件としてさだめた bのコード 2とする。

(第 3 ) 次に、第 3番目の文字 aを読み取る。

ωΚ= 2 bは未登録であるので、 S 6に進み、 DP= 0であるから、 S 12でモード 1として、 m ( b ) = 0、すなわち. bの個別辞書の木には文字列はまだない、であるから、生のデータ bとの組 1 bを出力する。

そこで、 S 13において、全体辞書に ω K = 2 bを

D (n = 6 ) に登録し、同時に、個別辞書 b (PK= b) にインデックス I (n = 6 ) として m ( b ) を 1つ増分し、 1. すなわち、個別辞書 bの木には登録文字はなかった、を登録する。次に、 S14において、 mを 1つ増分とし、 PKを a、 ω= 1として次の文字 bを読み取る。

(第 4) 次に、第 4番目の文字 bを読み取る。

S 4の判断において、 ωΚ = 1 bは、全体辞書を参照すると、コード η = 5で登録済であるから、 S 5に進む。

そこで、を今全体辞書から読み取った η = 5とし、階層の深さ D Ρを 1つ増分して D Ρ = 1、いま読み取った bを最 ^文字格納メモリ K 1に格納する。

(第 5 ) 次の第 5番目の文字 cを読み取る。

次に、 S 4において、 ωΚ= 5 cが全体辞書に登録されているか判断する。

Κ= 5 cは未登録であるから、 S 6に進む。

いま、 DP = 1であるから、 S 7に進む。

S 7において、 ω= 5 ( η = 5 ) に対応する個別辞書を参照し、インデックス I (η = 5 ) = 1を直前文字列の最綏文字 aに続く bの符号語を、モード 2として、出力する。

次に、 S 8において、 wK= 5 b (abc) を全体辞書の n = 7の登録位置に登録する。同時に個別辞書 aに n = 7に対応させて in (P K) を 1つ増分し、インデックス 1 = 2、ここに n = 7である、を登録する。すなわち、個別辞書 aにおける 2審目に登録された文字列である。

そして、 ' nを 1つ増分し、深さ DPを 0とする。

さらに、 P Kを最終文字格納メモリ K 1に格納されている bとし、 ωを K 1のコード 2とする。そして S 4において、再度いま読み取った第 5審目の文字 cを Κとして ωΚ= 2 c が全体辞書に登録されているかどうか判断する。

2 cは全体辞書に未登録であるので、 S 6に進み、

D P= 0であるから、 S12に進み、文字 cを生データとしてモード 1の符号語 0 bを出力する。そこで、 S 13において、全体辞書に ωΚ= 2 cを η = 8で登録し、いま P K= bであるから、個別辞書 bに n = 8、 m ( b ) を 1つ増分し、 1 = 1、すなわち n = 8、 bの木の 2審目の文字列、を登録する。

さらに、 nを 1つ増分し、 P Kをいま読み取った c とし、 cの初期条件における値としての、 ω = 3として、次の文字を読み取る。

以下同様にして、入力文字列 "ababcbabaa—" の出力符号として "0a0b0al0c0bll3—" を得る。

次に、上記の符号からの文字列の復号を説明する。復号のための装置の構成の例が第 37図に示される。

第 37図の装置において、 471は入力コード格納メモリ、 472 は個別辞書のィンデックスにより符号語で送られてくる入力コ一ドを全体辞書における文字列のコードに復元した復元コードを格納するメモリ（ΙΝω) 、 473は復元された直前の文字部分列を格納するメモリ（OLDo 、 474は復元された直前の文字部分列の最終文字を格納するメモリ（P K) 、 475は直前のさらに直前の文字部分列の最終文字格納メモリ（PK1)

476は復元文字列の第 1文字格納メモリ（K l ) 、 477は入力符号より復元された文字部分列より随時復元する全体辞書 D (η ) 、 478は復元文字列より随時復元する個別辞書 q、すなわち P Kのィンデックス、 479_ 0〜 479— 255 は 255 個の個別辞書のィンデックス個数の力ゥンタ、 480は入力コ一ドより個別辞書を参照する辞書参照手段、 481は全体辞書より文字部分列を復号する文字部分列復号手段、 482は復号文字部分列より文字部分列を全体辞書および対応する個別辞書を復元する辞書復元手段、 483はプログラムに従って、復号処理を進める C P Uである。

符号化の過程が第 38図 (Ah (B), (C) に示される。第 38図（A) に示されるように、初期化から入力符号が定義されているかどうかを判断し、入力符号が定義されている場合には、個別辞書を参照して全体辞書における文字列を表わすコ一ドに変換する。

第 38図（B) のフローにおいては、モード 1の符号を復号する。

第 38図（C ) のフローにおいては、全体辞書の登録符号より、文字列を復号する。

入力符号として前記の符号" OaObOalOc：…" が入力された場合を例として、下記に説明される。

先ず、装置の初期化を行う。

初期条件においては、個別辞書を 256備える場合を示し、 256個の一文字については 0〜255 の初期条件を与えてある場合を示す。初期条件は、 Ρ Κ= 0、 ωの初期値を 256 、 ΡΚ 1 = 0、全体辞書の先頭ァドレスを η = 256 、 OLDw = 0、各個別辞書の in ( 0 ) 〜m (255) を 0 とする。

説明を簡単にするため a , b , cの 3文字のみよりなる場合について考え、 a , b , cについて初期条件でそれぞれコード 1 , 2 , 3を設定する。さらに ωの初期値を 0 とする。

(第 1 ) S 2において先頭の入力コード 0 aを入力する。

S の判断においてコ一ドが未定義であるので、 S 6に進む。

S 6の判断は、直前の文字列の辞書の木の根に直接つく符号をあらわすモード 1か、あるいは、 L ZW符号化処理において例外的に生じる符号の未定義なコ一ド入力のあった場合かを判定する。

いまは、モード 1であるので、第 38図（B) の S 7に進む S 7において、入力符号 0 aが生データ K = aとして入力されるのにもとづき、文字 aを出力する。

ここで、直前の文字列はないので、 S12に進み、復元した文字列 aと P K= 0より全体辞書 D、すなわち n = 4、に、 0 aを登録し、全体辞書を復元する。さらに、 m ( 0 ) を増分し P K= 0と m ( 0 ) = 0、 n = 4により個別辞書 1を復兀す。

さらに、 S13において、 nを増分し、 PKにいま復元した a、 P K = 0を OLDwに移す。

(第 2 ) 第 2番目の入力コード 0 bを読み取る。

この場合も、モード 1のコードであるから、 S 4から S 6 に進み、さらに S 7に進む。

第 38図（B) のフローにおいて前記の（第 1 ) において 0 aを処理した場合と同様に、生のデータ bを出力し、全体辞書の登録位置 π = 5に a bを登録する。さらに、直前文字部分列の最終文字 aに対応する個別辞書 aに、 n = 5、インデックス = 1を登録して個別辞書を復元する。

(第 3 ) 第 3の入力コード 0 aを入力する。符号 0 aは、同様にモード 1であるから、前記の処理をくり返し、復元コードとして aを出力し、全体辞書に b aを書き込み、個別辞書 bに n = 6、インデックス = 1を書き込む。

そこで、 m ( b ) = 1 , n - 7 . P K = a . OLDa) = bとして、次の符号を読み取る。

(第 4) 第 4番目のコードは 1である。

符号 1は定義されているので、第 38図（A) における S 5 に進、

直前の文字列が aで、入力符号が 1であるので、復元された個別辞書を参照し、対応する全体辞書の登録位置を確認する

その結果、 n = 5 , <oK = 1 bに入力コ一ドを変換し、 Ι Νωに書き込み第 38図（C) の S 15に進む。

第 38図（C) は、 L ZW符号における復号処理のフローである。

S16, S 17は従来の復号と同様である。

すなわち、 S 16でコ一ド 1 bを順次スタックに符号 b , a の順に格納し、 S 17で最後に格納した aを残して、上部の b を出力する。

直前の文字部分列は辞書に登録されているので、 S 21に進み、直々前の文字列の最終文字格納メモリに PK= a、復号文字の列 _a bの最終文字 bを PKに書き込み、復号文字部分列の第 1文字 aを K 1に書き込む。

同時に、 OLDa)を復号コード l b (ΙΝ ) を書き込み、次のコードを読み取る。

(第 5 ) 第 5番目の符号 0 cを読み取る。モード 1のコードであるので、第 38図（B ) の S 7に進み, S 8において、 cを出力する。

この場合、直前文字文字列が辞書に未登録の状態であるので、 S 10において、 0しの 1 bといま入力した c とにより，全体辞書の n = 7の位置に文字列 a b cを登録し、同時に m ( a ) を 1つ増分し個別辞書 aにインデックス = 2を書き込、。

S 11において、 nを 1つ増分し、 S 12において、現在の文字列、すなわち最終文字 bにおいて cを読み込んだ時点における文字列 b c、の登録処理をする。同時に個別辞書 bへの登録処理をする。

以下同様の手順により、入力コードを全部読み取り、復号する。

なお、第 38図（B ) のフローにおける S 10 , S 11のステツプは、従来技術において、 L Z W符号化の例外として説明された場合の処理と同様である。

なお、前記においては、各個別辞書の木の根につく 1文字については、生のデータを出力する場合について説明したが, これに限らず、各個別辞書の木の根に続く一文字の可能な組合わせについて、あらかじめ、符号化側、復号側において作成しておき、その作成コ一ドにより上記 1文字については出力するようにすることが可能である。

また、出力する符号語は、常に "注目文字列の個別ィンデックス ω、次の 1文字 K " の組であらわし、この "次の 1文字" を直前文字列の最終文字として用い次の 1文字を符号化するようにし、符号化、復号の過程を簡単なものにすることが可能である。

第 28図のシステムにおける辞書の木の構成および字列の符号化方法が第 39図を参照しつつ説明される。

第 39図に示されるように、直前の最終文字との従属関係において、現文字部分列の符号を付与する。

そして、直前の文字列の最終文字ごとに先頭文字およびその展開文字で木を構成するようにし、各木毎に、各文字列の審号を付与する。

例えば、直前の文字が aに対して、一文字 aがつくときは、その aをその木におけるィンデックス 1 とし、直前の文字 a に対する文字列 " a b " はインデックス 7、直前の文字 aに对する一文字 bはインデックス 2 とする。また、直前の文字列が bの場合の一文字 aは直前文字列 bの木のィンデックス 1、 " a b " はその木におけるインデックス 4、というように、直前文字列を根とする木毎に各文字列のィンデックスを付与する。

このようにすることにより、各文字が等確率で出現する場合には、インデックス、すなわち各辞書の木における各部分文字列の登録審号、の長さを 256分の 1 とすることができる。通常、個別の木の大きさは、個別の木を全部合わせた全体の木の大きさの 10数分の一になり、文字部分列を識別する符号の長さが短くなり、圧縮率が大になる。

本発明によるデータ圧縮および復元用の装置についての説明を抄録として記述するための図が第 40図に示される。第 40 図の装置においては、供給される文字列を 1字ずつ読み出し符号化の対象となる現文字部分列を保持する文字部分列保持部（404)、直前文字列の最^文字ごとに文字部分列を該最終文字に従属させて記憶する辞書（402)、現文字部分列を直前の文字列の最終文字との関係で辞書に登録ずみ文字部分列の中から現文字部分列と一致する最大長の文字部分列を読み取る辞書参照部（405)、読み出した文字列の最大一致文字部分を符号化する符号化部（408)、最大一致文字列に次の一文字を伸ばした新しく現れた現文字部分列に、直前文字列の最終文字ごとにィンデックスを定めて辞書に登録する辞書登録部 ( 409)、最大一致文字部分列の最文字部分を記憶する最終文字記憶部（410)、供給されるコードを 1つずつ読み取るコ一ド読取部（423)、入力コードより復元した辞書（422)、入カコードの表すィンデックスと復元された直前文字列の最終文字（424)、辞書参照部（425)、インデックスと直前文字列の最^文字に関係付けた辞書の登録文字列より文字列を複号する複号部（426)、複号した文字部分列の最終文字を記憶する最終文字記憶部（428)、および復元文字列と次に複号される複号文字列の第 1文字により構成される文字部分列を直前の最終文字に従属させて辞書に登録する辞書復元部（429)、が設けられている。

Claims

請求の範囲

1. 入力された文字列を辞書に登録された符号化ずみの部分列のうち、最長の一致を示す部分列の参照審号を指定するとともに符号語として得られた参照番号に 1文字が付加された部分列に新たな参照番号を付与して該辞書に登録することにより符号化を行い、

該部分列の参照蕃号により表わされる符号語により該辞書に登録されている部分列を探索してもとの部分列を復元するとともに以前に処理された符号語に今回復元された部分列の先頭文字が付加された部分列に新たな参照審号を付与して該辞書に登録することにより復号を行う、

増分分解形のデータ圧縮および復元方法において、

ことを特徴とするデータ圧縮および復元方法。

2. 該サンプルのデータを符号化して得られる辞書の初期値を辞書に登録し、その後に符号化および復号を行う、請求の範囲第 1項記載の方法。

3. 該サンプルのデータを符号化して得られる辞書の初期値を該辞書の初めの書き替えが禁止されている部分に固定的に設定する、

請求の範囲第 1項記載の方法。

4. サンプルのデータを供給するサンプルデータ供給部、該供給されるサンプルのデータの符号化を行う符号化部、該符号化されたデータを文字の部分列と出現の頻度を対応させつつ記憶する記憶部、および該記憶されたデータにつき出現の頻度が予め定められたしきい値より犬なるものを選別する選別部を有する辞書初期化用手段、

該辞書初期化用手段の出力を受け初期値登録部とデータ登録部に区分して登録を行う辞書記憶手段、および該辞書記憶装置と協働してデータの符号化および復号を行う符号化手段および復号手段、

を具備し、それにより、サンプルのデータを対象とする符号化により辞書登録された部分列のうち出現の頻度の犬なる部分列のみが、符号化済みの部分列であるとの判断のもとに、該辞書に初期値として登録され、それにより該辞書の初期化が行われる、

ことを特徴とするデータ圧縮および復元装置。

5. 入力された文字列を辞書に登録された符号化ずみの部分列のうち、最長の一致を示す部分列の参照蕃号を指定するとともに符号語として得られた参照審号に 1文字が付加された部分列に新たな参照番号を付与して該辞書に登録することにより符号化を行い、

該部分列の参照番号により表わされる符号語により該辞書に登録されている部分列を検索してもとの部分列を復元するとともに以前に処理された符号語に今回復元された部分列の先頭文字が付加された部分列に新たな参照番号を付与して該辞書に登録することにより復号を行う、

増分分解形のデータ圧縮および復元方法において、

それぞれ相異なる先頭文字の群からなる複数の参照辞書単位により参照辞書を作成し、

参照辞書単位を表わす記号と参照辞書に登録されている部分列のうち最長の一致を示す部分列の登録位置を表わす記号により符号語を構成することにより入力された文字列の順次の相異なる部分列を符号化し、

部分列の先頭文字とその前位の部分列の最終文字の間の遷移確率を文字群相互間において求め参照辞書単位相互間の遷移確率を算出し、そして、

部分列が前位の部分列からの遷移確率が大であるとき、符号語を、可変長符号語として、遷移確率の小なる部分列に付与する符号語より短い記号により表わす、

ことを特徴とする、増分分解形のデータ圧縮および復元方法。

6. 出現可能な文字を複数の文字群に分割し該文字群ごとに参照辞書単位を作成する過程をさらに具備する、

請求の範囲第 5項記載の方法。

7. 使用頻度の犬なる参照辞書単位を表わす符号を、使用頻度の小なる参照辞書単位を表わす符号よりも短い記号で表わす過程をさらに具備する、

請求の範囲第 5項記載の方法。

8. 入力された文字列を辞書に登録された符号化ずみの部分列のうち、最長の一致を示す部分列の参照審号を指定するとともに符号語として得られた参照番号に 1文字が付加された部分列に新たな参照番号を付与して該辞書に登録することにより符号化を行い、

増分分解形のデータ圧縮および復元方法において、

処理されるべき文字の種類の全部の数より小なる数の辞書から成る辞書群により該辞書を作成し、各辞書ごとに、 1文字ごとの全文字種の 1つの文字、または 1文字ごとの全文字種を含む複数の文字からなる、高い頻度で出現する文字列を，参照番号を付与して初期登録し、

符号化ずみの文字列に対する従属関係を示す索引情報にしたがって該辞書群のなかの特定の辞書を指定することにより入力された文字列を符号化し、そして、

該指定された辞書に入力された文字列が存在しないときは- 符号化ずみの文字列の参照審号に次位の 1つの文字を付加した文字列に新たな参照審号を付与して登録する、

ことを特徴とする増分分解形のデータ圧緒および復元方法。

9. 直前に符号化済みの文字列の最^文字コードの一部分から得られた索引情報に従って前記辞書群の中の特定の辞書を指定することにより λ力された文字列の符号化を行う、請求の範囲第 8項記載の方法。

10. 直前に符号化済みの文字列の最終文字コードの上位ビッ卜で示される索引情報に従って前記辞書群の中の特定の辞書を指定することにより入力された文字列の符号化を行う、請求の範囲第 9項記載の方法。

11. 直前に符号化済みの文字列の最終文字コードによりルックアツプテーブルを参照して得られた索引情報に従って前記辞書群の中の特定の辞書を指定することにより入力された文字列の符号化を行う、

請求の範囲第 8項記載の方法。

12. 直前に符号化済みの文字列の最終文字コ一ドの上位ビットから作成された索引情報に従って前記辞書群の中の特定の辞書を指定することにより入力された文字列の符号化を行

Ό、

請求の範囲第 11項記載の方法。

13. 入力された文字列を辞書に登録された符号化ずみの部分列のうち、最長の一致を示す部分列の参照審号を指定するとともに符号語として得られた参照番号に 1文字が付加された部分列に新たな参照番号を付与して該辞書に登録することにより符号化を行い、

該部分列の参照審号により表わされる符号語により該辞書に登録されている部分列を探索してもとの部分列を復元するとともに以前に処理された符号語に今回復元された部分列の先頭文字が付加された部分列に新たな参照審号を付与して該辞書に登録することにより復号を行う、

増分分解形のデータ圧縮および復元方法において、

符号化ずみの文字列に対する従属関係を示す索引情報にしたがって該辞書群のなかから特定の辞書を指定することにより入力コードを復号し、そして、

復元ずみの文字列の参照審号に今回復元した文字列の最初の 1つの文字を付加した文字列に新たな参照審号を付与して登録する、

ことを特徴とする増分分解形のデータ圧縮および復元方法。

14. 直前に復元済みの文字列の最終文字コードの一部分から得られた索引情報に従って辞書群の中の特定の辞書を指定することにより入力された符号の復号を行う、

請求の範囲第 13項記載の方法。

15. 直前に復元済みの文字列の最終文字コードの上位ビットで示される索引情報に従って辞書群の中の特定の辞書を指定することにより入力された符号の復号を行う、

請求の範囲第 14項記載の方法。

16. 直前に復元済みの文字列の最終文字コードによりルツクアツプテーブルを参照して得られた索引情報に従って辞書群の中の特定の辞書を指定することにより入力符号の復号を行う、

請求の範囲第 13項記載の方法。

17. 直前に復元済みの文字列の最終文字コードの上位ビットによりルックアツプテーブルを参照して得られた索引情報に従って辞書群の中の特定の辞書を指定することにより入力符号の復号を行う、

請求の範囲第 16項記載の方法。

18. 入力された文字列を辞書に登録された符号化ずみの部分列のうち、最長の一致を示す部分列の参照審号を指定するとともに符号語として得られた参照審号に 1文字が付加された部分列に新たな参照蕃号を付与して該辞書に登録することにより符号化を行い、

該部分列の参照審号により表わされる符号語により該辞書に登録されている部分列を検索してもとの部分列を復元するとともに以前に処理された符号語に今回復元された部分列の先頭文字が付加された部分列に新たな参照審号を付与して該辞書に登録することにより復号を行う、

増分分解形のデータ圧縮および復元方法において、

連続する 2つの部分列の最初の部分列の最鉻の文字ごとに、または最終の文字による群ごとに次位の部分列を登録して登録辞書を作成し、

該最終の文字または最終の文字による群ごとに、登録される部分列の登録番号を付与し、そして、

該登録番号にもとづいて符号化されるべき部分列の符号語を作成する、

19. 該作成された符号により構成されたデータから、復号された部分列の前位の部分列の最終の文字または最終の文字による群ごとに辞書の復元を行い、そして、

該復元された辞書を用いて、該復号された部分列の前位の部分列の最终の文字と今回入力の符号から、入力された符号を文字の部分列に復号する、

請求の範囲第 18項記載の方法。