JPS61242122A - 文字データ・ストリームの適応的圧縮方法 - Google Patents

文字データ・ストリームの適応的圧縮方法

Info

Publication number
JPS61242122A
JPS61242122A JP61044273A JP4427386A JPS61242122A JP S61242122 A JPS61242122 A JP S61242122A JP 61044273 A JP61044273 A JP 61044273A JP 4427386 A JP4427386 A JP 4427386A JP S61242122 A JPS61242122 A JP S61242122A
Authority
JP
Japan
Prior art keywords
word
event
delimiter
new
events
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP61044273A
Other languages
English (en)
Other versions
JPH0358207B2 (ja
Inventor
ジエラルド・ゴーツエル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPS61242122A publication Critical patent/JPS61242122A/ja
Publication of JPH0358207B2 publication Critical patent/JPH0358207B2/ja
Granted legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/40Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code
    • H03M7/42Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code using table look-up for the coding or decoding process, e.g. using read-only memory
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/40Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code
    • H03M7/4006Conversion to or from arithmetic code

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野コ 本発明は、一般的には計算機のデータ・ファイルの圧縮
方法、よシ具体的にはデータがワード及び区切わに分割
されているような文字データを適応的に圧縮する方法に
関する。本発明によるファイル・コンプレッサは、計算
機プログラム又は自然言語のいずれかの、言語を含むフ
ァイルに対して使用する事が意図されている。
[従来技術及びその問題点コ コンプレッサを設計する問題は、2つの部分に分けられ
る。第1は、原文書のモデルの構築である。そのような
モデル毎に、圧縮された文書に関する理論的な最小の大
きさ、いわゆるエントロピー限界が存在する。次に、実
際の圧縮がその理論値に接近するような実用的な符号化
方式を定式化する必要がある。
非適応型のモデル、即ち伝送される文書に対してその特
性が独立的であるモデルに関しては、ハフマン符号化が
しばしば、かなり効率的である。
適応型のモデルに関しては、符号化処理中に符号化方式
も変化しなければならない。従って適応型のハフマン符
号化が必要になる。既にそのような方式が構成され且つ
使用されているが、より高速の符号化方式が望まれてい
る。
従って、本発明の目的は、従来技術で知られているより
も高速で且つ圧縮率の高い新規なファイル圧縮方法を提
供する事である。
[問題点を解決するための手段] 本発明によれば、書かれた言語はワードと区切りとが交
互になったストリームと考える事ができる事に注目する
ことによって、適応的なファイル圧縮方法が実現される
。最初、ワード及び区切り用の空白の辞書が形成される
。そしてデータ・ストリーム中の各事象毎に、その事象
がワードか区切りかが判定される。もし事象がワードで
あれば、そのワードが、以前に出会ったワードから編集
されたワード用の辞書中に存在するか又は、そのワード
が新しいワードかが判定される。もし事象が区切りであ
れば、区切り用の辞書を用いて同様の判定が行なわれる
。もしも事象が新しいワードか又は新しい区切シであれ
ば、事象は事前に定められていた新しいワード又は新し
い区切シの記号を用いて符号化され、そしてワード又は
区切りの各文字が続いて符号化される。これらの事象が
符号化される時、全てのワード事象の計数値が維持され
、且つ全ての区切り事象の計数値が維持される。
さらに、各ワードの生起した回数及び各区切りの生起し
た回数が維持される。あるワードの生起回数とワードの
全数との比がそのワードの確率を評価するために使用さ
れる。同様に、ある区切りの生起回数と区切シの全数と
の比が、その区切りの確率を評価せるために使用される
。それらの確率は、2つの辞書でワード及び区切シを符
号化するために効率的な符号化方式と共に使用される。
゛ファイル・コンプレッサの実用的な実施においては算
術符号化が使用される。
[実施例] 本発明を実施する時に使用するモデルは次の特性を有し
ている。伝送されるデータは、事象の系列よシ構成され
、事象は最初の事象から始まって、次に2番目のもの、
等々と1度に1つづつ符号化されるものと仮定する。n
番目の事象を符号化する時、モデルは、(1)関連する
事象の集合及び(2)各事象の確率を形成する。それを
行なう時、モデルは、それ以前の全ての事象についての
知識を利用し得るが、そのn番目の事象又はまだ符号化
されていない事象を考慮に入れてはならない。この制限
は、デコーダにおけるモデルのコピーが、エン  ・コ
ーグにおけるそれと同じ情報を有し得る事を意味してい
る。
モデルは適応的であシ、即ち事象の頻度がファイルの符
号化と共に蓄積されてゆく。確率は有理数であって、与
えられた事象の確率は、関連する事象の集合に関する全
計数値に対する、その、事象の計数値の比である。従っ
て、使われる確率は、符号化処理中に変化する。
このモデルの1つの特徴は、符号化処理中のステップで
使われる適切な事象集合の選択である。
このモデルは有限状態機械と考える事もできる。
辞書モデルにおいて、ファイルはレコードの系列として
取シ扱われる。各レコードは、「ワード」及び「区切り
」の交互の系列を含んでいる。ワードとは英数字のスト
リングであり、区切りとは英数字以外の文字のストリン
グである。多くの文書では、1個のスペースが主な区切
りである。
符号化処理工程が第1図に図示されている。レコードは
入力ファイルが読取られる。レコードは区切り又はワー
ドで始まる。従って最初の事象は2つの可能性、即ち開
始ワード又は開始区切りより成る。適当な事象の対が符
号化される。出会った事象の計数値は1つづつ増加する
。ワードが予期される時、可能な事象は下記のうち1つ
である。
新しいワード  (符号「新ワード」)古いワードN(
N=1.2、・・・) (符号[ワードNJ) レコード終了  (符号「レコード終了」)適当な事象
が符号化された後、その事象に関する計数値は1つだけ
増加する。
古いワードの事象とは、符号化すべきワードに以前に出
会っており、それが辞書中に記憶されているものである
。Nは取得番号である。新しいワードの事象は、さらに
別の動作を必要とする。即ちそのワードを辞書の中に入
れ、1の計数値を与え、そして符号化しなければならな
い。ワードの符号化処理は第2図に示す。第2図は区別
わにも適用される。従って一般的な用語「記号」を用い
た。記号は1度に1文字づつ符号化される。事象の集合
は次のようなものである。
文字N   (以前に出会った文字) (符号[文字NJ) 新しい文字 (符号「新しい文字」) 記号終了  (記号中にそれ以上の文字がない)(符号
「記号終了」) 事象が符号化された後、適当な計数値が1つ増加される
。新しい文字に出会った時、それも符号化しなければな
らない。これは全ての新しい文字(0〜255)が一様
にあシそうであると仮定する事によって行なわれる。特
定の文字に関する計数値は1にセットされる。ワード中
の文字及び区切り中の文字については、別個のテーブル
が保持されている事に注意すべきである。ワードの後に
は、レコードの終シに出会わなければ、区切りが予期さ
れる。区切りはワードと同様に扱われるが、それらはそ
れ自身の辞書と統計を持っている。
プログラムは、入力レコードの終シに至るまで、ワード
と区切りとの間をスイッチする。レコード終了の事象は
符号化され、新しいレコードが読み取られる。そして、
レコードがワードで始まるか又は区切りで始まるかを示
すための符号で始まり、符号化処理が反復される。ファ
イル終了の時、開始ワード及びレコード終了の事象が伝
送される。
これは空レコードを示し、ファイルの終了として用いら
れる。
本発明を実用的に実施したものは、算術符号を使用する
。最初に、あたかも算術演算が無限の精度で行ない得る
かのように、算術符号化処理を説明する。実際的なアル
ゴリズムの詳細は後に与える。
事象を符号化するために、必要な入力データは、ある任
意の順序(これはコンプレッサとデコンプレツサの両者
に知られている)に配列された可能な事象の各々の計数
値と、符号化すべき特定の事象である。変数nは事象の
番号を示す。nは1で始まり、各事象が符号化される毎
に1つづつ増加する。
c (t、  n )>O(但しi = 1.2、・・
・、I (n) ’)を、n番目の事象に関するI (
n)個の可能な選択に関する計数値とする。累積計数値
を次のように定義する。
C(i、n)=c(1、n )+・”+c (i、 n
 )  (1)但し、i=i、2、・・・、I (n)
及び、C(Oln)=O Cは定義により、iの単調増加関数である。算術符号化
手段への入力は、数C及び特定の事象iの組である。
X (、)及びr (n)を、最初のn個の事象を符号
化した結果を示す実数の対であるとする。開始値はx 
(0) = 0及びr(0)=1である。n番目の事象
(事象iはCによって記述される集合の中にある)を符
号化するための公式は次の通シである。
この公式は、評価確率及び累積分布関数を次のように定
義すると、一層明瞭になるであろう。
F(1% n) = p(1、n)+p(2、n)+ 
−+p(i、n)F(0、n)二〇 上記の定義を用いると、式(りは次のようになる。
x(n) = x(n−1) + r(n−1) F(
i−1、n)  (2a)r(n)−r(n−1) p
(t、 n)=r(n−1)[F(i、 n)−F(i
−1、n)]第3図はこれらの公式の幾何学的関係を示
している。但し、第6図ではI(n)=4、i = 3
と仮定されている。
もしファイル全体がNの事象を符号化することによって
記述されるならば、文書はx (N)の値によって表現
される。デコーダはx(N)を与えられ、そしてエンコ
ーダと同じモデルを用いて、N個の事象の系列を推論す
る事ができる。このデコーディングの可能性は次式から
導かれる。
x(n−1)≦x(n)(x(n−1)+r(n−1)
  (4)但しn=1.2、・・・ N 従って1 、 (、)≦x (N)(x (n)+r (n)  
     (5)この式は次のように書く事ができる。
<C(i、n)           (6)Cはiの
単調増加関数なので、1つだけのiの値がこの不等式を
満足できる。
符号化されたファイルはx (N)の値によって表現さ
れる。充分な精度でx(N)を表現するのに必要なビッ
ト数は、容易に評価される。次式によって定義される間
隔X中の任意の点が与えられれば、ファイルのデコーデ
ィングは充分に可能であろう。
x(N)≦X(x(N) + r(N)従って、ちょう
どその間隔の中にXを位置付けるのに充分なXΩビット
を伝送しさえすれば良い。
log2(1/r(N))+2ビツトを用いれば、それ
が成しとげられる。
rの計算に関する公式を調べてみると、rは個々の事象
の確率の積である事がわかる。従って、1ag2(1/
p(i、n))の全ての事象に関する和よりも2つ余分
にビットが必要である。
上記アルゴリズムは、5個の事象の組及び5個の計数値
の組を維持しなければならない。それらは下記の表に与
えられている。
組1. 新しいレコードの開始 項 目      初期値 開始ワード      1 開始区切り       1 組2. ワードの予期 項 目     初期値 レコードの終了    1 新しいワード     1 ワード10 ワード20 組6.新しいワード中の文字の予期 ワードの終了     1 新しい文字      1 文字10 文字20 組40区切シの予期 項 目     初期値 レコードの終了    1 新しい区切シ     1 区切シ1゜ 区切り2゜ 組5.新しい区切シ中の文字の予期 項 目     初期値 区切シの終了     1 新しい文字      1 文字10 文字20 上記のどの組の中の事象に関しても、その事象は、それ
についての計数値、符号化される事象に関する組の中の
全ての事象に関する計数値の総和、及びその組の中の事
象の総数を用いて符号化される。事象が符号化された後
、その事象に関する計数値は1つだけ増加される。もし
事象が新しいワード、区切り、又は文字であれば、新し
い項目に関する計数値が1にセットされる。これは以前
はゼロであった。この場合、その組の中の事象の総数は
2つ増加する事に注意されたい。というのは各々の新し
い項目は組の中の2重の事象だからである。
組4の中で、単一のスペース(空白文字)は別個に取シ
扱われる。これは実行速度のためである。
なぜなら多くの文書において単一のスペースは主要な区
切りだからである。
組3及び5中の文字の計数値は、文字に関する対応する
EBCDIC符号によってインデックスされる。ワード
の文字は0又は1の符号を有するものを含まないので、
これらは各々ワードの終了及び新しい文字のために使用
される。区切り文字に関しては、任意の英数字文字を区
切りの終了及び新しい文字を示すために使用できる。例
えば、文字「x」及びryJを選ぶことができる。
これらの計数値の表(組1に関するもの以外)はかなり
大規模である。各組中の項目の最大数は下記のようにな
っている。
組番号    項目数 辞書(組2及び組4)の大きさは任意である。上記の選
択は実際のファイルを圧縮する時には妥当なようである
。組3及び5に関しては、各々の表の中に256個の項
目を記入できるようにすると便利である。もつともその
多くは使われないであろう。これは計算のスピードのた
めである。
事象に関する計数値を更新するのは単純な計算である。
問題は累積計数値が必要な時に生じる。
累積計数値は式(1)で定義されている。辞書が一杯に
なれば、累積計数値を得るために4096回に至る加算
が必要であろう。また各々の新しい事象のためにC(i
、n)を維持することも時間のかかる事である。しかし
この問題を解決する技術が利用可能である。その方法は
第4図に示されている。これは8つの事象の事象集合に
関して構成されている。第4図のC(i)は式(1)の
C(i、n)に相当するものである。各ノードには適当
なC(i)の差が記憶されている。事象の計数値は根か
ら葉へ木をトラバースする事によって更新される。この
時に同時に累積計数値も計算される。各ノードの数値は
、経路がそのノードから左側へ行くならば1だけ増加さ
れる。また葉の計数値は1だけ増加される。事象iに関
するC(i−1)の値は、経路がそのノードを通り右側
へ行ったノードの数値の和によって与えられる。i =
5の場合、C(5)−C(0) = [C(4) −C
(0)] + [C(5)−C(4)]である。C(6
) −C(4)及びC(+5) −C(5)は1だけ増
やされる。
木の深さは木の葉の数よりもずっと小さい事に注意され
たい。従って更新動作にはずっと少ないステップ数しか
必要でない。実際、木は上部から所望の葉又は事象まで
1度トラバースされるだけである。最初に、累積計数値
はゼロにセットされる。トラバースの間、もし左側に行
けば、そのノードの計数値は1つだけ増やされる。一方
、もし右側に行けば、そのノードの値が累積計数値に加
算される。木の底部に達した時、葉は所望のC(i、n
)の値を有し、累積計数値はC(i −1、n)に関す
る値を有している。
大規模なファイルの場合、計数値が大きくなりすぎるの
を防ぐため又は辞書を限界内に保つために、計数値の再
正規化が必要になる事がある。また再正規化は古い統計
の強調緩和も生じさせる。
再正規化の手続きは次の通シである。もし、事象が処理
される前にその事象の組に関する計数値合計が1600
0よりも大きいか、又はその事象がワード又は区切りで
あってその事象の組に関する辞書が殆んど一杯であれば
、再正規化が起こる。
各計数値は2で割り算される。ワード及び区切シの場合
、剰余は捨てられる。他の計数値については、丸めが行
なわれる。ワード及び区切シの場合、ある記入項目は計
数値が1から0になる。それらの項目は辞書から切り捨
てられる。もしそのような項目に再び出会ったならば、
それは新しいワード又は新しい区切わになる。
上述した符号化方式は、32ピツト・ワードの機械に関
してインプリメントされた。重み及び切り捨ての詳細は
、デコーディング処理を誤シなしに行なう事ができ、元
のファイルを復元できるように注意すべきである。
全ての計算は整数で行なわれる。数X及びrは両方共整
数である。初期値は次の通りである。
x (0) = O r (0) = 2” −1 rのこの値は62ビツト・ワード及び2の補数の演算を
用いた機械における最大の正の値である。
Xは任意の長さのアキュムレータとして取り扱わ。
れるが、Xへの加算は常に、rの初期値に等しいか又は
それよりも小さな数のものである。
式(2)によれば、rは次第に小さくなる。精度を維持
するために、rが小さくなりすぎるたびに、rは256
を乗算される。Xの値も256を乗算しなければならな
い。従って下記のスケーリング動作が導かれる。これは
符号化処理中の最初のステップである。
r(n−1)(2ならば     (7)r(n−1)
=256r(n−1) x(n−1)=256x(n  1) 繰り返し、 ここで事象iを符号化する用意が整った。式(2)の代
わわに、次式を用いる。但し[・・・コは・・・の整数
部を表わす。
x(n)=x(n−1)+z r(n) =r (n −1) (u−z )r及びX
に256を乗算する時、Xの下位桁の4バイトから左側
にシフト・アウトされたXのバイトを伝送するという誘
惑にかられるかもしれない。
この処理は多くの時には正しい。しかし不幸なことに、
x(n−1)から、 (、)を計算すると、Xの4つの
下位桁バイトから左へキャリーが生じる事がある。この
キャリーは、X及びrの各スケーリング毎に高々1回生
じる。このキャリーを処理するために、Xは8バイトの
数値として維持され、これら8バイトの最上位バイトが
256を掛ける前に伝送される。ここで問題は、Xの4
つの上位桁バイトの各々が255の値を持つという特殊
な場合に還元された。このまれな場合が生じるたびに、
Xの上位4バイトは真の最上位バイトを伝送した後に2
56を乗算される。Xが変化した時はいつでもこのテス
トが行なわれる。
このアルゴリズムは、もしrがゼロになると、失敗する
。式(8)から、もしu=zであればその時に限ってこ
れが起きる事が明らかである。
もしもC(I (n)、n ) (r (n −1)で
あれば安全である。
rは符号化の前にスケーリングされるので、rの取り得
る最小値は2  である。従ってC(I(n)、n)く
2  でありさえすればよい。デコーディングのために
使われる下記の不等式(12)の証明中で、条件2C(
I(n)、n)(r(n  1)が使われる。従ってC
(I (n)、n)く2  を要求する必要がある。既
に述べたように、C(I(n)、n)に関して許された
最大の値は16000であり、これは明らかに条件を満
足する。
復号の処理は符号化処理と並行している。Xの値は圧縮
されたデータから得られる。圧縮されたデータの最初の
4バイトはXの初期値を与える。
rの初期値は、符号化で使われたものである。種々の事
象の組に関する統計は、エンコーダと同様にデコーダに
おいても維持されている。従って、事象が復号される毎
に、適当な事象の組がCの正しい値と共に知られる。X
及びrの再正規化及びスケーリングは符号化の時と同様
に行なわれる。
復号の時、Xの値は可能な限シ減少されるが、ゼロより
も小さくなる事は許されない。従って、基本的な復号公
式は、次式のようにiを決定する事に基づいている。
とのiは事象集合から選択すべき事象を特定する。
r及びXの新しい値は次式から計算される。
x(n)=x (n−1)−z r(n):=r (n−1) (u−z )式(7)に
従ってX及びrがスケーリングされる時、符号化された
ファイルから新しいバイトがXに付加され、右揃えされ
る。もし符号化されたメツセージ中の4つの最近に使用
された連続したバイトが各々255の値を持てば、次の
バイトもXに付加され、右揃えされる。これは、キャリ
ーを管理するために使われた機構を反転する。
不等式(9)からのiの決定は、計算上望ましくない。
というのは累積計数値及び多数回のテストが必要だから
である。そこで統計値を管理するために使用した木構造
がデコーダでも使用される。計数値Cを次式のように見
つける事を試みる。
C(i−1、n)≦c(C(i、  n )   (1
1)そのようなCは事象を見つけるために第4図の木を
検索するために容易に使用できる。Cの決定は次のよう
に行なわれる。
最初に、C≧((i−1,n)である事を示す。
下記において、d及びfは1よりも小さく且つゼロに等
しいか又はそれよりも大きな変数である。
変数eは0及び0,5の正の値を持つ。
不等式(9)から、次式が得られる。
従って )C(i−1、n) C及びCは整数であり、dは1よりも小さいので、C≧
C(i −1、n)が得られる。次に、C60(i、n
)である事を示す。以前に次式が得られている。
不等式(9)から1 従って、 C及びC(i、n)は整数であシ、右辺の第1項は1よ
シも小さいので、次の結論が得られる。
C60(i% n) 従って、C(i−1、n)≦C≦C(i% n)である
事が示された。もしc=c(i、n)であれば、不等式
(9)から、 r (n  1 ) C< I<・)、・)〉8この場
合、我々はCの試行値を1だけ減少させている。その結
果、我々は不等式(11)を満足するCの値を得る。こ
のCの値は、符号化された事象を見い出し且つ式(10
)の計算のために必要な関連した計数値を見い出すため
に計数値水をトラバースする時に使われる。
[発明の効果] 本発明により、従来技術よシも高速且つ圧縮率の高い新
規なファイル圧縮技術が提供された。
【図面の簡単な説明】
第1図は本発明によるファイル・コンプレッサの流れ図
、 第2図は新しいワード及び区切りを符号化する過程を示
す流れ図、 第6図はn番目の事象の符号化を説明するだめの図、 第4図は事象の計数値に関する木構造を説明する図であ
る。

Claims (1)

  1. 【特許請求の範囲】 ワード及び区切りより成る文字データを圧縮する方法で
    あつて、 全ての計数値を初期設定し、空白のワード用の辞書及び
    区切り用の辞書を形成し、 データ・ストリーム中の事象毎に上記事象がワードか又
    は区切りかを判定し、 各ワード事象毎に上記ワードが、以前に出会つたワード
    から編集されたワード用の辞書中にあるか又は新しいワ
    ードかを判定し、 各区切り事象毎に上記区切りが、以前に出会つた区切り
    から編集された区切り用の辞書中にあるか又は新しい区
    切りかを判定し、 上記事象が新しいワード又は新しい区切りの場合は、所
    定の新しいワード又は新しい区切りの記号で上記事象を
    符号化し、続いて上記ワード又は区切り中の文字を符号
    化し、 上記事象が符号化される時に全てのワード事象及び全て
    の区切り事象の計数値を維持し、 各ワード及び各区切わに関する個々の計数値を維持し、 上記全ワードの計数値に対する上記各ワードの計数値の
    比を上記各ワードの確率評価値として用い、 上記ワードの確率評価値を用いて上記ワード事象を符号
    化し、 上記全区切りの計数値に対する上記各区切りの計数値の
    比を上記各区切りの確率評価値として用い、 上記区切りの確率評価値を用いて上記区切り事象を符号
    化し、 上記データ・ストリーム中の全ての事象に関して上記ス
    テップを反復する事より成る文字データの適応的圧縮方
    法。
JP61044273A 1985-04-17 1986-03-03 文字データ・ストリームの適応的圧縮方法 Granted JPS61242122A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US724234 1985-04-17
US06/724,234 US4672539A (en) 1985-04-17 1985-04-17 File compressor

Publications (2)

Publication Number Publication Date
JPS61242122A true JPS61242122A (ja) 1986-10-28
JPH0358207B2 JPH0358207B2 (ja) 1991-09-04

Family

ID=24909595

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61044273A Granted JPS61242122A (ja) 1985-04-17 1986-03-03 文字データ・ストリームの適応的圧縮方法

Country Status (5)

Country Link
US (1) US4672539A (ja)
EP (1) EP0199035B1 (ja)
JP (1) JPS61242122A (ja)
CA (1) CA1241760A (ja)
DE (1) DE3688517T2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06131152A (ja) * 1992-04-13 1994-05-13 Compaq Computer Corp セパレータが無いか少ない言語を表わすコンピュータファイルのためのデータ圧縮方法

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8618093D0 (en) * 1986-07-24 1986-09-03 Serif Software Ltd Data compression
US4935882A (en) * 1986-09-15 1990-06-19 International Business Machines Corporation Probability adaptation for arithmetic coders
US4899148A (en) * 1987-02-25 1990-02-06 Oki Electric Industry Co., Ltd. Data compression method
US5374928A (en) * 1987-05-25 1994-12-20 Megaword International Pty. Ltd. Method of processing a text in order to store the text in memory
US5625773A (en) * 1989-04-05 1997-04-29 Xerox Corporation Method of encoding and line breaking text
JPH0778799B2 (ja) * 1989-04-05 1995-08-23 ゼロックス コーポレーション テキストコーディング方法
IL91158A (en) * 1989-07-28 1993-01-31 Ibm Israel Method and system for arithmetic coding and decoding
GB2251097B (en) * 1990-12-08 1995-05-10 Dowty Information Systems An adaptive data compression system
GB9103080D0 (en) * 1991-02-14 1991-04-03 British And Foreign Bible The Analysing textual documents
AU659639B2 (en) * 1992-05-11 1995-05-25 British And Foreign Bible Society, The Analysing textual documents
US5533051A (en) * 1993-03-12 1996-07-02 The James Group Method for data compression
US5546080A (en) * 1994-01-03 1996-08-13 International Business Machines Corporation Order-preserving, fast-decoding arithmetic coding arithmetic coding and compression method and apparatus
US5778374A (en) * 1995-08-03 1998-07-07 International Business Machines Corporation Compressed common file directory for mass storage systems
US5787446A (en) * 1995-08-03 1998-07-28 International Business Machines Corporation Sub-volume with floating storage space
GB2305746B (en) * 1995-09-27 2000-03-29 Canon Res Ct Europe Ltd Data compression apparatus
US5771011A (en) * 1996-07-15 1998-06-23 International Business Machines Corporation Match detect logic for multi-byte per cycle hardware data compression
US6226628B1 (en) * 1998-06-24 2001-05-01 Microsoft Corporation Cross-file pattern-matching compression

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3643226A (en) * 1969-06-26 1972-02-15 Ibm Multilevel compressed index search method and means
US3694813A (en) * 1970-10-30 1972-09-26 Ibm Method of achieving data compaction utilizing variable-length dependent coding techniques
US4103287A (en) * 1973-12-17 1978-07-25 Bell Telephone Laboratories, Incorporated Variable length codes for high quality image encoding
US3984833A (en) * 1973-12-26 1976-10-05 International Business Machines Corporation Apparatus for encoding extended run-length codes
US4410916A (en) * 1979-08-24 1983-10-18 Compression Labs, Inc. Dual mode facsimile coding system and method
US4355306A (en) * 1981-01-30 1982-10-19 International Business Machines Corporation Dynamic stack data compression and decompression system
US4420771A (en) * 1981-02-09 1983-12-13 Bell Telephone Laboratories, Incorporated Technique for encoding multi-level signals
US4369463A (en) * 1981-06-04 1983-01-18 International Business Machines Corporation Gray scale image data compression with code words a function of image history
US4545032A (en) * 1982-03-08 1985-10-01 Iodata, Inc. Method and apparatus for character code compression and expansion

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06131152A (ja) * 1992-04-13 1994-05-13 Compaq Computer Corp セパレータが無いか少ない言語を表わすコンピュータファイルのためのデータ圧縮方法

Also Published As

Publication number Publication date
DE3688517T2 (de) 1993-12-23
DE3688517D1 (de) 1993-07-08
US4672539A (en) 1987-06-09
JPH0358207B2 (ja) 1991-09-04
EP0199035B1 (en) 1993-06-02
EP0199035A2 (en) 1986-10-29
EP0199035A3 (en) 1989-11-29
CA1241760A (en) 1988-09-06

Similar Documents

Publication Publication Date Title
JPS61242122A (ja) 文字データ・ストリームの適応的圧縮方法
US5933104A (en) Method and system for compression and decompression using variable-sized offset and length fields
JP3009727B2 (ja) 改良形データ圧縮装置
JP3553106B2 (ja) テキスト圧縮駆動部構築方法及び入力テキスト列圧縮方法
US5229768A (en) Adaptive data compression system
EP0462363A2 (en) Apparatus and method for very high data rate-compression incorporating lossless data compression and expansion
JPH03204233A (ja) データ圧縮方法
JP3302210B2 (ja) データ符号化/復号化方法及び装置
JPS6356726B2 (ja)
JP3241788B2 (ja) データ圧縮方式
JPH08167852A (ja) データ圧縮方法及び装置
JP3241787B2 (ja) データ圧縮方式
JP2954749B2 (ja) データ圧縮方式
JP2590287B2 (ja) データ圧縮方法およびデータ圧縮装置
JP3018990B2 (ja) 算術符号化装置
JPH05152971A (ja) データ圧縮・復元方法
Plantinga An asymmetric, semi-adaptive text compression algorithm
JPH06161705A (ja) データ符号化方式及びデータ復元方式
Pathak et al. Data compression scheme of dynamic Huffman code for different languages
Robert et al. New algorithms for random access text compression
JP2003273746A (ja) 可変長符号復号装置
JP3100206B2 (ja) データ圧縮方法
JP3051501B2 (ja) データ圧縮方法
JPH06202844A (ja) データ圧縮復元処理装置
JP3083329B2 (ja) データ圧縮復元方式