JPS61242122A

JPS61242122A - 文字データ・ストリームの適応的圧縮方法

Info

Publication number: JPS61242122A
Application number: JP61044273A
Authority: JP
Inventors: ジエラルド・ゴーツエル
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1985-04-17
Filing date: 1986-03-03
Publication date: 1986-10-28
Also published as: DE3688517T2; DE3688517D1; US4672539A; JPH0358207B2; EP0199035B1; EP0199035A2; EP0199035A3; CA1241760A

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［産業上の利用分野コ本発明は、一般的には計算機のデータ・ファイルの圧縮
方法、よシ具体的にはデータがワード及び区切わに分割
されているような文字データを適応的に圧縮する方法に
関する。本発明によるファイル・コンプレッサは、計算
機プログラム又は自然言語のいずれかの、言語を含むフ
ァイルに対して使用する事が意図されている。

［従来技術及びその問題点ココンプレッサを設計する問題は、２つの部分に分けられ
る。第１は、原文書のモデルの構築である。そのような
モデル毎に、圧縮された文書に関する理論的な最小の大
きさ、いわゆるエントロピー限界が存在する。次に、実
際の圧縮がその理論値に接近するような実用的な符号化
方式を定式化する必要がある。

非適応型のモデル、即ち伝送される文書に対してその特
性が独立的であるモデルに関しては、ハフマン符号化が
しばしば、かなり効率的である。

適応型のモデルに関しては、符号化処理中に符号化方式
も変化しなければならない。従って適応型のハフマン符
号化が必要になる。既にそのような方式が構成され且つ
使用されているが、より高速の符号化方式が望まれてい
る。

従って、本発明の目的は、従来技術で知られているより
も高速で且つ圧縮率の高い新規なファイル圧縮方法を提
供する事である。

［問題点を解決するための手段］本発明によれば、書かれた言語はワードと区切りとが交
互になったストリームと考える事ができる事に注目する
ことによって、適応的なファイル圧縮方法が実現される
。最初、ワード及び区切り用の空白の辞書が形成される
。そしてデータ・ストリーム中の各事象毎に、その事象
がワードか区切りかが判定される。もし事象がワードで
あれば、そのワードが、以前に出会ったワードから編集
されたワード用の辞書中に存在するか又は、そのワード
が新しいワードかが判定される。もし事象が区切りであ
れば、区切り用の辞書を用いて同様の判定が行なわれる
。もしも事象が新しいワードか又は新しい区切シであれ
ば、事象は事前に定められていた新しいワード又は新し
い区切シの記号を用いて符号化され、そしてワード又は
区切りの各文字が続いて符号化される。これらの事象が
符号化される時、全てのワード事象の計数値が維持され
、且つ全ての区切り事象の計数値が維持される。

さらに、各ワードの生起した回数及び各区切りの生起し
た回数が維持される。あるワードの生起回数とワードの
全数との比がそのワードの確率を評価するために使用さ
れる。同様に、ある区切りの生起回数と区切シの全数と
の比が、その区切りの確率を評価せるために使用される
。それらの確率は、２つの辞書でワード及び区切シを符
号化するために効率的な符号化方式と共に使用される。

゛ファイル・コンプレッサの実用的な実施においては算
術符号化が使用される。

［実施例］本発明を実施する時に使用するモデルは次の特性を有し
ている。伝送されるデータは、事象の系列よシ構成され
、事象は最初の事象から始まって、次に２番目のもの、
等々と１度に１つづつ符号化されるものと仮定する。ｎ
番目の事象を符号化する時、モデルは、（１）関連する
事象の集合及び（２）各事象の確率を形成する。それを
行なう時、モデルは、それ以前の全ての事象についての
知識を利用し得るが、そのｎ番目の事象又はまだ符号化
されていない事象を考慮に入れてはならない。この制限
は、デコーダにおけるモデルのコピーが、エン　　・コ
ーグにおけるそれと同じ情報を有し得る事を意味してい
る。

モデルは適応的であシ、即ち事象の頻度がファイルの符
号化と共に蓄積されてゆく。確率は有理数であって、与
えられた事象の確率は、関連する事象の集合に関する全
計数値に対する、その、事象の計数値の比である。従っ
て、使われる確率は、符号化処理中に変化する。

このモデルの１つの特徴は、符号化処理中のステップで
使われる適切な事象集合の選択である。

このモデルは有限状態機械と考える事もできる。

辞書モデルにおいて、ファイルはレコードの系列として
取シ扱われる。各レコードは、「ワード」及び「区切り
」の交互の系列を含んでいる。ワードとは英数字のスト
リングであり、区切りとは英数字以外の文字のストリン
グである。多くの文書では、１個のスペースが主な区切
りである。

符号化処理工程が第１図に図示されている。レコードは
入力ファイルが読取られる。レコードは区切り又はワー
ドで始まる。従って最初の事象は２つの可能性、即ち開
始ワード又は開始区切りより成る。適当な事象の対が符
号化される。出会った事象の計数値は１つづつ増加する
。ワードが予期される時、可能な事象は下記のうち１つ
である。

新しいワード　　（符号「新ワード」）古いワードＮ（
Ｎ＝１．２、・・・）（符号［ワードＮＪ）レコード終了　　（符号「レコード終了」）適当な事象
が符号化された後、その事象に関する計数値は１つだけ
増加する。

古いワードの事象とは、符号化すべきワードに以前に出
会っており、それが辞書中に記憶されているものである
。Ｎは取得番号である。新しいワードの事象は、さらに
別の動作を必要とする。即ちそのワードを辞書の中に入
れ、１の計数値を与え、そして符号化しなければならな
い。ワードの符号化処理は第２図に示す。第２図は区別
わにも適用される。従って一般的な用語「記号」を用い
た。記号は１度に１文字づつ符号化される。事象の集合
は次のようなものである。

文字Ｎ　　　（以前に出会った文字）（符号［文字ＮＪ）新しい文字　（符号「新しい文字」）記号終了　　（記号中にそれ以上の文字がない）（符号
「記号終了」）事象が符号化された後、適当な計数値が１つ増加される
。新しい文字に出会った時、それも符号化しなければな
らない。これは全ての新しい文字（０〜２５５）が一様
にあシそうであると仮定する事によって行なわれる。特
定の文字に関する計数値は１にセットされる。ワード中
の文字及び区切り中の文字については、別個のテーブル
が保持されている事に注意すべきである。ワードの後に
は、レコードの終シに出会わなければ、区切りが予期さ
れる。区切りはワードと同様に扱われるが、それらはそ
れ自身の辞書と統計を持っている。

プログラムは、入力レコードの終シに至るまで、ワード
と区切りとの間をスイッチする。レコード終了の事象は
符号化され、新しいレコードが読み取られる。そして、
レコードがワードで始まるか又は区切りで始まるかを示
すための符号で始まり、符号化処理が反復される。ファ
イル終了の時、開始ワード及びレコード終了の事象が伝
送される。

これは空レコードを示し、ファイルの終了として用いら
れる。

本発明を実用的に実施したものは、算術符号を使用する
。最初に、あたかも算術演算が無限の精度で行ない得る
かのように、算術符号化処理を説明する。実際的なアル
ゴリズムの詳細は後に与える。

事象を符号化するために、必要な入力データは、ある任
意の順序（これはコンプレッサとデコンプレツサの両者
に知られている）に配列された可能な事象の各々の計数
値と、符号化すべき特定の事象である。変数ｎは事象の
番号を示す。ｎは１で始まり、各事象が符号化される毎
に１つづつ増加する。

ｃ　（ｔ、　　ｎ　）＞Ｏ（但しｉ　＝　１．２、・・
・、Ｉ　（ｎ）　’）を、ｎ番目の事象に関するＩ　（
ｎ）個の可能な選択に関する計数値とする。累積計数値
を次のように定義する。

Ｃ（ｉ、ｎ）＝ｃ（１、ｎ　）＋・”＋ｃ　（ｉ、　ｎ
　）　　（１）但し、ｉ＝ｉ、２、・・・、Ｉ　（ｎ）
及び、Ｃ（Ｏｌｎ）＝ＯＣは定義により、ｉの単調増加関数である。算術符号化
手段への入力は、数Ｃ及び特定の事象ｉの組である。

Ｘ　（、）及びｒ　（ｎ）を、最初のｎ個の事象を符号
化した結果を示す実数の対であるとする。開始値はｘ　
（０）　＝　０及びｒ（０）＝１である。ｎ番目の事象
（事象ｉはＣによって記述される集合の中にある）を符
号化するための公式は次の通シである。

この公式は、評価確率及び累積分布関数を次のように定
義すると、一層明瞭になるであろう。

Ｆ（１％　ｎ）　＝　ｐ（１、ｎ）＋ｐ（２、ｎ）＋　
−＋ｐ（ｉ、ｎ）Ｆ（０、ｎ）二〇上記の定義を用いると、式（りは次のようになる。

ｘ（ｎ）　＝　ｘ（ｎ−１）　＋　ｒ（ｎ−１）　Ｆ（
ｉ−１、ｎ）　　（２ａ）ｒ（ｎ）−ｒ（ｎ−１）　ｐ
（ｔ、　ｎ）＝ｒ（ｎ−１）［Ｆ（ｉ、　ｎ）−Ｆ（ｉ
−１、ｎ）］第３図はこれらの公式の幾何学的関係を示
している。但し、第６図ではＩ（ｎ）＝４、ｉ　＝　３
と仮定されている。

もしファイル全体がＮの事象を符号化することによって
記述されるならば、文書はｘ　（Ｎ）の値によって表現
される。デコーダはｘ（Ｎ）を与えられ、そしてエンコ
ーダと同じモデルを用いて、Ｎ個の事象の系列を推論す
る事ができる。このデコーディングの可能性は次式から
導かれる。

ｘ（ｎ−１）≦ｘ（ｎ）（ｘ（ｎ−１）＋ｒ（ｎ−１）
　　（４）但しｎ＝１．２、・・・　Ｎ従って１、　（、）≦ｘ　（Ｎ）（ｘ　（ｎ）＋ｒ　（ｎ）　　
　　　　　（５）この式は次のように書く事ができる。

＜Ｃ（ｉ、ｎ）　　　　　　　　　　　（６）Ｃはｉの
単調増加関数なので、１つだけのｉの値がこの不等式を
満足できる。

符号化されたファイルはｘ　（Ｎ）の値によって表現さ
れる。充分な精度でｘ（Ｎ）を表現するのに必要なビッ
ト数は、容易に評価される。次式によって定義される間
隔Ｘ中の任意の点が与えられれば、ファイルのデコーデ
ィングは充分に可能であろう。

ｘ（Ｎ）≦Ｘ（ｘ（Ｎ）　＋　ｒ（Ｎ）従って、ちょう
どその間隔の中にＸを位置付けるのに充分なＸΩビット
を伝送しさえすれば良い。

ｌｏｇ２（１／ｒ（Ｎ））＋２ビツトを用いれば、それ
が成しとげられる。

ｒの計算に関する公式を調べてみると、ｒは個々の事象
の確率の積である事がわかる。従って、１ａｇ２（１／
ｐ（ｉ、ｎ））の全ての事象に関する和よりも２つ余分
にビットが必要である。

上記アルゴリズムは、５個の事象の組及び５個の計数値
の組を維持しなければならない。それらは下記の表に与
えられている。

組１．　新しいレコードの開始項　目　　　　　　初期値開始ワード　　　　　　１開始区切り　　　　　　　１組２．　ワードの予期項　目　　　　　初期値レコードの終了　　　　１新しいワード　　　　　１ワード１０ワード２０組６．新しいワード中の文字の予期ワードの終了　　　　　１新しい文字　　　　　　１文字１０文字２０組４０区切シの予期項　目　　　　　初期値レコードの終了　　　　１新しい区切シ　　　　　１区切シ１゜区切り２゜組５．新しい区切シ中の文字の予期項　目　　　　　初期値区切シの終了　　　　　１新しい文字　　　　　　１文字１０文字２０上記のどの組の中の事象に関しても、その事象は、それ
についての計数値、符号化される事象に関する組の中の
全ての事象に関する計数値の総和、及びその組の中の事
象の総数を用いて符号化される。事象が符号化された後
、その事象に関する計数値は１つだけ増加される。もし
事象が新しいワード、区切り、又は文字であれば、新し
い項目に関する計数値が１にセットされる。これは以前
はゼロであった。この場合、その組の中の事象の総数は
２つ増加する事に注意されたい。というのは各々の新し
い項目は組の中の２重の事象だからである。

組４の中で、単一のスペース（空白文字）は別個に取シ
扱われる。これは実行速度のためである。

なぜなら多くの文書において単一のスペースは主要な区
切りだからである。

組３及び５中の文字の計数値は、文字に関する対応する
ＥＢＣＤＩＣ符号によってインデックスされる。ワード
の文字は０又は１の符号を有するものを含まないので、
これらは各々ワードの終了及び新しい文字のために使用
される。区切り文字に関しては、任意の英数字文字を区
切りの終了及び新しい文字を示すために使用できる。例
えば、文字「ｘ」及びｒｙＪを選ぶことができる。

これらの計数値の表（組１に関するもの以外）はかなり
大規模である。各組中の項目の最大数は下記のようにな
っている。

組番号　　　　項目数辞書（組２及び組４）の大きさは任意である。上記の選
択は実際のファイルを圧縮する時には妥当なようである
。組３及び５に関しては、各々の表の中に２５６個の項
目を記入できるようにすると便利である。もつともその
多くは使われないであろう。これは計算のスピードのた
めである。

事象に関する計数値を更新するのは単純な計算である。

問題は累積計数値が必要な時に生じる。

累積計数値は式（１）で定義されている。辞書が一杯に
なれば、累積計数値を得るために４０９６回に至る加算
が必要であろう。また各々の新しい事象のためにＣ（ｉ
、ｎ）を維持することも時間のかかる事である。しかし
この問題を解決する技術が利用可能である。その方法は
第４図に示されている。これは８つの事象の事象集合に
関して構成されている。第４図のＣ（ｉ）は式（１）の
Ｃ（ｉ、ｎ）に相当するものである。各ノードには適当
なＣ（ｉ）の差が記憶されている。事象の計数値は根か
ら葉へ木をトラバースする事によって更新される。この
時に同時に累積計数値も計算される。各ノードの数値は
、経路がそのノードから左側へ行くならば１だけ増加さ
れる。また葉の計数値は１だけ増加される。事象ｉに関
するＣ（ｉ−１）の値は、経路がそのノードを通り右側
へ行ったノードの数値の和によって与えられる。ｉ　＝
５の場合、Ｃ（５）−Ｃ（０）　＝　［Ｃ（４）　−Ｃ
（０）］　＋　［Ｃ（５）−Ｃ（４）］である。Ｃ（６
）　−Ｃ（４）及びＣ（＋５）　−Ｃ（５）は１だけ増
やされる。

木の深さは木の葉の数よりもずっと小さい事に注意され
たい。従って更新動作にはずっと少ないステップ数しか
必要でない。実際、木は上部から所望の葉又は事象まで
１度トラバースされるだけである。最初に、累積計数値
はゼロにセットされる。トラバースの間、もし左側に行
けば、そのノードの計数値は１つだけ増やされる。一方
、もし右側に行けば、そのノードの値が累積計数値に加
算される。木の底部に達した時、葉は所望のＣ（ｉ、ｎ
）の値を有し、累積計数値はＣ（ｉ　−１、ｎ）に関す
る値を有している。

大規模なファイルの場合、計数値が大きくなりすぎるの
を防ぐため又は辞書を限界内に保つために、計数値の再
正規化が必要になる事がある。また再正規化は古い統計
の強調緩和も生じさせる。

再正規化の手続きは次の通シである。もし、事象が処理
される前にその事象の組に関する計数値合計が１６００
０よりも大きいか、又はその事象がワード又は区切りで
あってその事象の組に関する辞書が殆んど一杯であれば
、再正規化が起こる。

各計数値は２で割り算される。ワード及び区切シの場合
、剰余は捨てられる。他の計数値については、丸めが行
なわれる。ワード及び区切シの場合、ある記入項目は計
数値が１から０になる。それらの項目は辞書から切り捨
てられる。もしそのような項目に再び出会ったならば、
それは新しいワード又は新しい区切わになる。

上述した符号化方式は、３２ピツト・ワードの機械に関
してインプリメントされた。重み及び切り捨ての詳細は
、デコーディング処理を誤シなしに行なう事ができ、元
のファイルを復元できるように注意すべきである。

全ての計算は整数で行なわれる。数Ｘ及びｒは両方共整
数である。初期値は次の通りである。

ｘ　（０）　＝　Ｏｒ　（０）　＝　２”　−１ｒのこの値は６２ビツト・ワード及び２の補数の演算を
用いた機械における最大の正の値である。

Ｘは任意の長さのアキュムレータとして取り扱わ。

れるが、Ｘへの加算は常に、ｒの初期値に等しいか又は
それよりも小さな数のものである。

式（２）によれば、ｒは次第に小さくなる。精度を維持
するために、ｒが小さくなりすぎるたびに、ｒは２５６
を乗算される。Ｘの値も２５６を乗算しなければならな
い。従って下記のスケーリング動作が導かれる。これは
符号化処理中の最初のステップである。

ｒ（ｎ−１）（２ならば　　　　　（７）ｒ（ｎ−１）
＝２５６ｒ（ｎ−１）ｘ（ｎ−１）＝２５６ｘ（ｎ　　１）繰り返し、ここで事象ｉを符号化する用意が整った。式（２）の代
わわに、次式を用いる。但し［・・・コは・・・の整数
部を表わす。

ｘ（ｎ）＝ｘ（ｎ−１）＋ｚｒ（ｎ）　＝ｒ　（ｎ　−１）　（ｕ−ｚ　）ｒ及びＸ
に２５６を乗算する時、Ｘの下位桁の４バイトから左側
にシフト・アウトされたＸのバイトを伝送するという誘
惑にかられるかもしれない。

この処理は多くの時には正しい。しかし不幸なことに、
ｘ（ｎ−１）から、　（、）を計算すると、Ｘの４つの
下位桁バイトから左へキャリーが生じる事がある。この
キャリーは、Ｘ及びｒの各スケーリング毎に高々１回生
じる。このキャリーを処理するために、Ｘは８バイトの
数値として維持され、これら８バイトの最上位バイトが
２５６を掛ける前に伝送される。ここで問題は、Ｘの４
つの上位桁バイトの各々が２５５の値を持つという特殊
な場合に還元された。このまれな場合が生じるたびに、
Ｘの上位４バイトは真の最上位バイトを伝送した後に２
５６を乗算される。Ｘが変化した時はいつでもこのテス
トが行なわれる。

このアルゴリズムは、もしｒがゼロになると、失敗する
。式（８）から、もしｕ＝ｚであればその時に限ってこ
れが起きる事が明らかである。

もしもＣ（Ｉ　（ｎ）、ｎ　）　（ｒ　（ｎ　−１）で
あれば安全である。

ｒは符号化の前にスケーリングされるので、ｒの取り得
る最小値は２　　である。従ってＣ（Ｉ（ｎ）、ｎ）く
２　　でありさえすればよい。デコーディングのために
使われる下記の不等式（１２）の証明中で、条件２Ｃ（
Ｉ（ｎ）、ｎ）（ｒ（ｎ　　１）が使われる。従ってＣ
（Ｉ　（ｎ）、ｎ）く２　　を要求する必要がある。既
に述べたように、Ｃ（Ｉ（ｎ）、ｎ）に関して許された
最大の値は１６０００であり、これは明らかに条件を満
足する。

復号の処理は符号化処理と並行している。Ｘの値は圧縮
されたデータから得られる。圧縮されたデータの最初の
４バイトはＸの初期値を与える。

ｒの初期値は、符号化で使われたものである。種々の事
象の組に関する統計は、エンコーダと同様にデコーダに
おいても維持されている。従って、事象が復号される毎
に、適当な事象の組がＣの正しい値と共に知られる。Ｘ
及びｒの再正規化及びスケーリングは符号化の時と同様
に行なわれる。

復号の時、Ｘの値は可能な限シ減少されるが、ゼロより
も小さくなる事は許されない。従って、基本的な復号公
式は、次式のようにｉを決定する事に基づいている。

とのｉは事象集合から選択すべき事象を特定する。

ｒ及びＸの新しい値は次式から計算される。

ｘ（ｎ）＝ｘ　（ｎ−１）−ｚｒ（ｎ）：＝ｒ　（ｎ−１）　（ｕ−ｚ　）式（７）に
従ってＸ及びｒがスケーリングされる時、符号化された
ファイルから新しいバイトがＸに付加され、右揃えされ
る。もし符号化されたメツセージ中の４つの最近に使用
された連続したバイトが各々２５５の値を持てば、次の
バイトもＸに付加され、右揃えされる。これは、キャリ
ーを管理するために使われた機構を反転する。

不等式（９）からのｉの決定は、計算上望ましくない。

というのは累積計数値及び多数回のテストが必要だから
である。そこで統計値を管理するために使用した木構造
がデコーダでも使用される。計数値Ｃを次式のように見
つける事を試みる。

Ｃ（ｉ−１、ｎ）≦ｃ（Ｃ（ｉ、　　ｎ　）　　　（１
１）そのようなＣは事象を見つけるために第４図の木を
検索するために容易に使用できる。Ｃの決定は次のよう
に行なわれる。

最初に、Ｃ≧（（ｉ−１，ｎ）である事を示す。

下記において、ｄ及びｆは１よりも小さく且つゼロに等
しいか又はそれよりも大きな変数である。

変数ｅは０及び０，５の正の値を持つ。

不等式（９）から、次式が得られる。

従って）Ｃ（ｉ−１、ｎ）Ｃ及びＣは整数であり、ｄは１よりも小さいので、Ｃ≧
Ｃ（ｉ　−１、ｎ）が得られる。次に、Ｃ６０（ｉ、ｎ
）である事を示す。以前に次式が得られている。

不等式（９）から１従って、Ｃ及びＣ（ｉ、ｎ）は整数であシ、右辺の第１項は１よ
シも小さいので、次の結論が得られる。

Ｃ６０（ｉ％　ｎ）従って、Ｃ（ｉ−１、ｎ）≦Ｃ≦Ｃ（ｉ％　ｎ）である
事が示された。もしｃ＝ｃ（ｉ、ｎ）であれば、不等式
（９）から、ｒ　（ｎ　　１　）　Ｃ＜　Ｉ＜・）、・）〉８この場
合、我々はＣの試行値を１だけ減少させている。その結
果、我々は不等式（１１）を満足するＣの値を得る。こ
のＣの値は、符号化された事象を見い出し且つ式（１０
）の計算のために必要な関連した計数値を見い出すため
に計数値水をトラバースする時に使われる。

［発明の効果］本発明により、従来技術よシも高速且つ圧縮率の高い新
規なファイル圧縮技術が提供された。

【図面の簡単な説明】

第１図は本発明によるファイル・コンプレッサの流れ図
、第２図は新しいワード及び区切りを符号化する過程を示
す流れ図、第６図はｎ番目の事象の符号化を説明するだめの図、第４図は事象の計数値に関する木構造を説明する図であ
る。

Claims

【特許請求の範囲】ワード及び区切りより成る文字データを圧縮する方法で
あつて、全ての計数値を初期設定し、空白のワード用の辞書及び
区切り用の辞書を形成し、データ・ストリーム中の事象毎に上記事象がワードか又
は区切りかを判定し、各ワード事象毎に上記ワードが、以前に出会つたワード
から編集されたワード用の辞書中にあるか又は新しいワ
ードかを判定し、各区切り事象毎に上記区切りが、以前に出会つた区切り
から編集された区切り用の辞書中にあるか又は新しい区
切りかを判定し、上記事象が新しいワード又は新しい区切りの場合は、所
定の新しいワード又は新しい区切りの記号で上記事象を
符号化し、続いて上記ワード又は区切り中の文字を符号
化し、上記事象が符号化される時に全てのワード事象及び全て
の区切り事象の計数値を維持し、各ワード及び各区切わに関する個々の計数値を維持し、上記全ワードの計数値に対する上記各ワードの計数値の
比を上記各ワードの確率評価値として用い、上記ワードの確率評価値を用いて上記ワード事象を符号
化し、上記全区切りの計数値に対する上記各区切りの計数値の
比を上記各区切りの確率評価値として用い、上記区切りの確率評価値を用いて上記区切り事象を符号
化し、上記データ・ストリーム中の全ての事象に関して上記ス
テップを反復する事より成る文字データの適応的圧縮方
法。