JPS63209229A

JPS63209229A - デ−タ文圧縮符号化方法

Info

Publication number: JPS63209229A
Application number: JP4045487A
Authority: JP
Inventors: Yoshihito Shimazaki; 良仁島崎; Takuro Sato; 拓朗佐藤; Manabu Kawabe; 学川辺
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1987-02-25
Filing date: 1987-02-25
Publication date: 1988-08-30

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（産業上の利用分野）本発明はデータ文伝送における圧縮符号化方法に関する
。

（従来の技術）圧縮符号化方法の一つとして、アダプティブ／・フマン
符号化方法が知られていて、例えば、文献ｒ　ＩＥＥＥ
　Ｔｒａｎｓａｃｔｉｏｎｓ　ｏｎ　Ｉｎｆｏｒｍａｔ
ｉｏｎ　ｔｈｅｏｒｙＶｏｌ、　ＩＴ−２４、Ａ　６　
、第６６８頁〜第６７４頁、１９７８年１１月」におい
て、開示されている。

第２図は、データ単語Ａ１〜Ａ６を対象とした、アダゾ
ティブハフマン符号化方法の木構造を示したものである
。

第２図を参照するに、符号ｏ、１を枝とし、ルー）　（
ｒｏｏｔ　）　ｒを除く各節点に生起確率の高い順番に
節点番号を割シ当で、この節点番号ｑ１〜ｑＩＯを階層
的にシブリングベア（ｓｉｂｌｉｎｇ　ｐａｉｒ　）ｑ
ｔ　　Ｉ　ｑ２　　：ｑ３　　ｒ　ｑ４　　：”””　
９９９　　ｐ　ｑｔｏに分けて、木構造を構成する。

今、文字コードの組み合せで表現した単語Ａ６が入力と
して与えられた場合、その単語ａ６が連らなるｉｆ？）
ムの節点番号ｑｉｏからルートｒまで探索して圧縮コー
ドを発生させると共に、節点番号ｑｉｏにおける発生頻
度に１を加算して更新する。

そして、単語Ａ６の属するシブリングベアよシもレベル
が１だけ上にあるシブリングベアｑｓ　　＋９６の発生
頻度を調べて、更新後の前述の発生頻度と比較し、大小
関係が逆転していると、その部分のボトムの節点番号ｑ
５と節点番号ｑｌＯとの間で単語及び発生頻度を交換し
、その後、節点番号ｑｔｏからルートｒに至る途中の節
点番号ｑ２　　＋ｑ６の発生頻度に１を加算して更新す
る。この交換によって、伝送データの統計的な性質を含
んで、初期値として割シ当てられた圧縮符号を交換して
いくことになる。

（発明が解決すべき問題点）一般的には、アダプティブハフマン符号化によると、単
語の数すなわちボトムの数を増加させると指数関数的に
木の枝の数は増大し１．ｒｐ　）ムの探索と木構造トレ
ースによる符号の生成に時間がかがシ、それに伴ない装
置規模も大きくせざるを得ない。

本発明の目的は、制約された条件のもとに圧縮符号化す
る方法を提供することにあり、これを木構造のｙＪｒ）
ムにない単語を圧縮符号化する過程を採用することによ
って達成したものである。

（問題点を解決するための手段）本発明は、普通の単語の外に、１文字長と２文字長とを
含む複数種類の一定文字長の疑似単語を登録した辞書を
備え、辞書に登録されていない普通の単語が入力された
場合、その単語を一定数の文字数に分割して前記辞書を
探索し、前記辞書で検出されるまで、分割する文字数を
減らして探索し、検出された単語に関し、辞書に記憶し
ている圧縮符号を出力し、辞書に記憶されている圧縮符
号を発生頻度に応じて変更するものである。

（実施例）第１図は、この発明の実施例を示す状態遷移図であシ、
送信すべきデータ英文は、状態１θにおいて、一定の規
則に従って単語に区切られる。この状態１０では、入力
されてきたデータ英文をスペースもしくは他の記号によ
って区切り、スに一スが続く場合は、スペース記号及び
ス被−スの数で表現する。即ち、大文字、小文字を区別
せずにアルファベント２６文字が続く間は、１つの単語
とする。状態１０で区切られた単語は、状態１１におい
て、辞書Ａにその単語があるか探索される。

辞書Ａで単語が見つかった場合は、状態１２において圧
縮符号化即ち圧縮された符号を生成し、出力し、状態１
２の後又は並行して、状態１３において、発生頻度に応
じた圧縮符号の交換その他の辞書データのアダプティブ
な変化を行なう。

辞書Ａに単語がない場合は、状態１４での単語の追加登
録に移る。この追加登録は探索で用いられる辞書Ａに登
録し、追加登録される単語の数は一定数寸でとし、一定
数を越える場合は、今回のデータ英文で発生頻度の低い
ものから切シ捨てを行い、新規の単語を代わシに割シ当
てることによシ補っている。

次に、単語を一定数の文字ごとに分割する状態１５に移
シ、分割した各組で状態１０．１１に移り、そこで辞書
Ａにあった場合は状態１２．１３へ移ｐ１ｏに戻る。な
い場合はその組をさらに少数の一定数の文字ごとに分割
する。即ち、辞書データにない場合は分割をして辞書デ
ータを探索し、ない場合はさらに分割をする。この分割
は単語の最少構成単位になるまで繰シ返される。最終的
に辞書Ａには伝送するデータの最小構成単位を全て登録
しであるので、この単位で圧縮符号化される。

この実施例では、一定数の文字ごとの分割を、第１回目
は２文字長で、第２回目は１文字長で行々っている。第
３図は、初期データとして読出専用メモｊＪ　（ＲＯＭ
　）に記憶している辞書の記憶内容を示すものであり、
この実施例では、アルファベット２６文字を含む２１０
０語の良く使われる普通の単語を記憶し、又第１図の状
態１５における一定数分割を２文字長と１文字長で行な
うために、２文字の組み合せからなる８００語の疑似単
語と文字種類に対応した１２６語の１文字長の疑似単語
とを単語と見做して記憶している。

なお２文字長の疑似単語にはアルファベット２６文字の
組み合せの２６Ｘ２６語を含む。

各単語Ａ１〜Ａ６は、そのデータとして、圧縮符号Ｂ１
〜Ｂ６と、種々の英文の単語の生起確率を調べて設定し
た発生頻度Ｃ１〜Ｃ６と、３種類の重みＷｏ　　、Ｗ、
、Ｗ２のいずれかを有する。

なお、各圧縮符号Ｂ１〜Ｂ６は、アダプティブハフマン
符号化方法によって予め設定したものであシ、Ｐｏ　、
Ｐｌ　、Ｂ２は説明の便宜上示したもので、それぞれ普
通の単語、１文字の疑似単語、２文字の疑似単語の区別
を示す単語種別記号である。重みＷ。、Ｗｌ　、Ｗ２は
、単語種別Ｐｏ〜Ｐ２の生起確率に従って設定したもの
であり、２１００語の普通の単語として見つかる場合と
見つから力い場合との比が７対２程度であり、後者の見
つからなかった場合において、８００語の２文字長の疑
似単語として見つかる場合と見つからない場合（この場
合は１文字長の疑似単語として見つける）との比が９対
２程度であるので、簡単な整数比として、Ｗ（１：　Ｗ
ｌ　　：　Ｗ２　＝　１６　：　１　：５としている。

又、２文字長以上の単語は、一定の規則に従って階層的
に分類し、単語の探索時間を短縮している。

この実施例では、アルファベット２６文字の２文字の組
を最上位の見出しとし、文字長を次位の見出しとし、そ
れぞれ、各文字長に関するアドレス、文字長を同じくす
る同族のうちの最初の単語のアドレスを記憶されること
によって、階層化している。

第４図は、第１図の状態１３におけるアダプティブな変
化を説明するための図であり、そこでのｂ１〜ｂ４、Ｃ
１〜Ｃ４、ｗｏＡ−ｗ２は第３図のＢ１〜Ｂ４、Ｃ１〜
Ｃ４、Ｗｏ−Ｗ４に対応するものであるが、１回のデー
タ英文の伝送毎に、辞書データを読出専用メモリから読
出書込メモリに取り込んで処理しているので、小文字で
表わしている。

第４図において、テーブルＴ１は、発生頻度の順番に（
同位同志は任意で）全ての単語のアドレスを記憶してい
るものであり、テーブルＴ２はとり得ｂｓ頻度の全てに
関して発生頻度の順位のアドレス（同位のものはその先
頭のアドレス）を記憶しているものであり、ここでは、
単語ＡＩが辞書Ａで見つかシ、この時点の発生頻度はｃ
　４　）　ｃ　２）ｃｌ）Ｃ３と仮定している。

アダプティブな変化においては、単語Ａ１について、ま
ず、その発生頻度Ｃ１にその重みＷ２（＝５）を加算し
た値を検出する。

その結果、仮にｃｌ＋ｗ２＝＝ｃ４になったとすると、
テーブルＴ２において、発生頻度Ｃ１。

Ｃ４に対応した順位のアドレスＮ、Ｍを検出する。

次に、テープ／ｌ／　Ｔ　Ｉ　を参照して、順位Ｎに対
応した単語Ａ４、順位Ｎ＋１に対応した単語Ａ２、最後
に順位Ｍに対応した単語Ａ１を検出し、Ａ４−Ａ２−Ａ
、の順に発生頻度が高いことを検知する。

そして、これら３個の単語のうちで新しく使った単語を
最上位頻度のものと見做して、単語Ａ、１　　＋Ａ　４
　　ｒ　Ａ２の圧縮符号をＢ４　　＋　Ｂ２　　ｒ　Ａ
Ｉに変更することによって圧縮符号の交換を行ない、単
語Ａ１の発生頻度をｃ１＋ｗ２と更新して、アダプティ
ブな変化を終了する。

なお、この実施例では、重みＷ　Ｏ”　Ｗ　３　自体も
アダプティブに変更するようにしている。

すなわち、現時点では、２２回（＝ｗｏ十ｗ１＋ｗ２）
に１６回は辞書Ａにおいて普通の単語が見つかることを
規定しているが、これを大きく外れた状態が続いた場合
には、重みを変更しており、普通の単語が見つかった回
数及び２文字長の疑似単語が見つかった回数を７７”７
ントして′８さ、それにもとすいて変更している。

第５図は、６万２千語の二−−ズウイーク誌を対象とし
て圧縮した結果を示すものであり、原文ビット長に対し
て、ラインフィード（Ｌｉｎｅ　Ｆｅｅｄ）記号を含む
場合で平均４０チ、含まない場合で平均３７チの圧縮率
が得られたことを示すものである。

なお、この実施例では、２文字長と１文字長とによる一
定数分割を採用しているが、３文字長〜１文字長などの
比較的少数のによる一定数分割を採用することができる
。

又辞書探索を短縮するだめの単語の同族化は、アルファ
ベットの組み合せや文字長の観点の外に、漢字の場合に
はへんやつ＜シ、講文情報が得られることが想定される
場合には品詞、などの観点から分類することもできる。

（発明の効果）以上の説明から明らかなように、本発明によれば、単語
の発生頻度に応じて圧縮符号を割り当てることによる利
点を維持しつつ、一定数分割によって普通の単語として
辞書にないものも圧縮符号化しているため、メモリ容量
の小規模化と辞書データの探索の高速化、更に、伝送デ
ータの高圧縮の効果が期待出来る。次に、以上の状態遷
移を送信側、受信側にもたせることによシ、データ通信
分野への適用と初期データを秘筐することによシ送信デ
ータの暗号装置と高能率圧縮装置化が可能なので専用初
期辞書データをもたせることによりＩＣカードの記録装
置にも適用できる。

【図面の簡単な説明】

第１図は本発明の一実施例を示す状態遷移図、第２図は
従来のアダプティブハフマン符号の木構造を示す図、第
３図は辞書の説明図、第４図はアダプティブな変化を説
明するための図、第５図は圧縮結果例を示す図である。１０・・・入力文字列の単語化、１１・・・単語の辞書
データ探索、１２・・・データ圧縮符号化、１３・・・
アダプティブ変化、１４・・・単語の新規登録、１５・
・・単語の分割化、Ａ・・・辞書データ。特許出願人　　　沖電気工業株式会社１、事件の表示昭和６２年　特　　許　願第０４０４５４　号２、発明
の名称データ文圧縮符号化方法３、補正をする者事件との関係　　　　　　　特　許　出　願　人住　所
（〒１０５）　　東京都港区虎ノ門１丁目７番１２号別
紙の通シロ、補正の内容（１）明細書第６頁第１６行目に「１２６語の」とある
のを「１２８語の」と補正する。（２）同書第９頁第１６行目にｒＢ４．Ｂ２．Ａ、に変
更」とあるのを「ｂ４．ｂ２．ｂｌに変更」と補正する。（３〕　　同書第１０頁第１７行目に「比較的少数のに
よる」とあるのを「比較的少数による」と補正する。（４）図面「第４図」を別紙の通シ補正する。

Claims

【特許請求の範囲】普通の単語の外に、１文字長と２文字長とを含む複数種
類の一定文字長の疑似単語を登録した辞書を備え、辞書に登録されていない普通の単語が入力された場合、
その単語を一定数の文字数に分割して前記辞書を探索し
、前記辞書で検出されるまで、分割する文字数を減らして
探索し、検出された単語に関し、辞書に記憶している圧縮符号を
出力し、辞書に記憶されている圧縮符号を発生頻度に応じて変更
する、ことを特徴としたデータ文圧縮符号化方法。