JPS63209229A - デ−タ文圧縮符号化方法 - Google Patents

デ−タ文圧縮符号化方法

Info

Publication number
JPS63209229A
JPS63209229A JP4045487A JP4045487A JPS63209229A JP S63209229 A JPS63209229 A JP S63209229A JP 4045487 A JP4045487 A JP 4045487A JP 4045487 A JP4045487 A JP 4045487A JP S63209229 A JPS63209229 A JP S63209229A
Authority
JP
Japan
Prior art keywords
dictionary
word
words
compressing
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4045487A
Other languages
English (en)
Inventor
Yoshihito Shimazaki
良仁 島崎
Takuro Sato
拓朗 佐藤
Manabu Kawabe
学 川辺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP4045487A priority Critical patent/JPS63209229A/ja
Priority to US07/157,691 priority patent/US4899148A/en
Priority to CA000559752A priority patent/CA1291829C/en
Priority to DE88301626T priority patent/DE3882738T2/de
Priority to EP88301626A priority patent/EP0280549B1/en
Publication of JPS63209229A publication Critical patent/JPS63209229A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明はデータ文伝送における圧縮符号化方法に関する
(従来の技術) 圧縮符号化方法の一つとして、アダプティブ/・フマン
符号化方法が知られていて、例えば、文献r IEEE
 Transactions on Informat
ion theoryVol、 IT−24、A 6 
、第668頁〜第674頁、1978年11月」におい
て、開示されている。
第2図は、データ単語A1〜A6を対象とした、アダゾ
ティブハフマン符号化方法の木構造を示したものである
第2図を参照するに、符号o、1を枝とし、ルー) (
root ) rを除く各節点に生起確率の高い順番に
節点番号を割シ当で、この節点番号q1〜qIOを階層
的にシブリングベア(sibling pair )q
t  I q2  :q3  r q4  :””” 
999  p qtoに分けて、木構造を構成する。
今、文字コードの組み合せで表現した単語A6が入力と
して与えられた場合、その単語a6が連らなるif?)
ムの節点番号qioからルートrまで探索して圧縮コー
ドを発生させると共に、節点番号qioにおける発生頻
度に1を加算して更新する。
そして、単語A6の属するシブリングベアよシもレベル
が1だけ上にあるシブリングベアqs  +96の発生
頻度を調べて、更新後の前述の発生頻度と比較し、大小
関係が逆転していると、その部分のボトムの節点番号q
5と節点番号qlOとの間で単語及び発生頻度を交換し
、その後、節点番号qtoからルートrに至る途中の節
点番号q2  +q6の発生頻度に1を加算して更新す
る。この交換によって、伝送データの統計的な性質を含
んで、初期値として割シ当てられた圧縮符号を交換して
いくことになる。
(発明が解決すべき問題点) 一般的には、アダプティブハフマン符号化によると、単
語の数すなわちボトムの数を増加させると指数関数的に
木の枝の数は増大し1.rp )ムの探索と木構造トレ
ースによる符号の生成に時間がかがシ、それに伴ない装
置規模も大きくせざるを得ない。
本発明の目的は、制約された条件のもとに圧縮符号化す
る方法を提供することにあり、これを木構造のyJr)
ムにない単語を圧縮符号化する過程を採用することによ
って達成したものである。
(問題点を解決するための手段) 本発明は、普通の単語の外に、1文字長と2文字長とを
含む複数種類の一定文字長の疑似単語を登録した辞書を
備え、辞書に登録されていない普通の単語が入力された
場合、その単語を一定数の文字数に分割して前記辞書を
探索し、前記辞書で検出されるまで、分割する文字数を
減らして探索し、検出された単語に関し、辞書に記憶し
ている圧縮符号を出力し、辞書に記憶されている圧縮符
号を発生頻度に応じて変更するものである。
(実施例) 第1図は、この発明の実施例を示す状態遷移図であシ、
送信すべきデータ英文は、状態1θにおいて、一定の規
則に従って単語に区切られる。この状態10では、入力
されてきたデータ英文をスペースもしくは他の記号によ
って区切り、スに一スが続く場合は、スペース記号及び
ス被−スの数で表現する。即ち、大文字、小文字を区別
せずにアルファベント26文字が続く間は、1つの単語
とする。状態10で区切られた単語は、状態11におい
て、辞書Aにその単語があるか探索される。
辞書Aで単語が見つかった場合は、状態12において圧
縮符号化即ち圧縮された符号を生成し、出力し、状態1
2の後又は並行して、状態13において、発生頻度に応
じた圧縮符号の交換その他の辞書データのアダプティブ
な変化を行なう。
辞書Aに単語がない場合は、状態14での単語の追加登
録に移る。この追加登録は探索で用いられる辞書Aに登
録し、追加登録される単語の数は一定数寸でとし、一定
数を越える場合は、今回のデータ英文で発生頻度の低い
ものから切シ捨てを行い、新規の単語を代わシに割シ当
てることによシ補っている。
次に、単語を一定数の文字ごとに分割する状態15に移
シ、分割した各組で状態10.11に移り、そこで辞書
Aにあった場合は状態12.13へ移p1oに戻る。な
い場合はその組をさらに少数の一定数の文字ごとに分割
する。即ち、辞書データにない場合は分割をして辞書デ
ータを探索し、ない場合はさらに分割をする。この分割
は単語の最少構成単位になるまで繰シ返される。最終的
に辞書Aには伝送するデータの最小構成単位を全て登録
しであるので、この単位で圧縮符号化される。
この実施例では、一定数の文字ごとの分割を、第1回目
は2文字長で、第2回目は1文字長で行々っている。第
3図は、初期データとして読出専用メモjJ (ROM
 )に記憶している辞書の記憶内容を示すものであり、
この実施例では、アルファベット26文字を含む210
0語の良く使われる普通の単語を記憶し、又第1図の状
態15における一定数分割を2文字長と1文字長で行な
うために、2文字の組み合せからなる800語の疑似単
語と文字種類に対応した126語の1文字長の疑似単語
とを単語と見做して記憶している。
なお2文字長の疑似単語にはアルファベット26文字の
組み合せの26X26語を含む。
各単語A1〜A6は、そのデータとして、圧縮符号B1
〜B6と、種々の英文の単語の生起確率を調べて設定し
た発生頻度C1〜C6と、3種類の重みWo  、W、
、W2のいずれかを有する。
なお、各圧縮符号B1〜B6は、アダプティブハフマン
符号化方法によって予め設定したものであシ、Po 、
Pl 、B2は説明の便宜上示したもので、それぞれ普
通の単語、1文字の疑似単語、2文字の疑似単語の区別
を示す単語種別記号である。重みW。、Wl 、W2は
、単語種別Po〜P2の生起確率に従って設定したもの
であり、2100語の普通の単語として見つかる場合と
見つから力い場合との比が7対2程度であり、後者の見
つからなかった場合において、800語の2文字長の疑
似単語として見つかる場合と見つからない場合(この場
合は1文字長の疑似単語として見つける)との比が9対
2程度であるので、簡単な整数比として、W(1: W
l  : W2 = 16 : 1 :5としている。
又、2文字長以上の単語は、一定の規則に従って階層的
に分類し、単語の探索時間を短縮している。
この実施例では、アルファベット26文字の2文字の組
を最上位の見出しとし、文字長を次位の見出しとし、そ
れぞれ、各文字長に関するアドレス、文字長を同じくす
る同族のうちの最初の単語のアドレスを記憶されること
によって、階層化している。
第4図は、第1図の状態13におけるアダプティブな変
化を説明するための図であり、そこでのb1〜b4、C
1〜C4、woA−w2は第3図のB1〜B4、C1〜
C4、Wo−W4に対応するものであるが、1回のデー
タ英文の伝送毎に、辞書データを読出専用メモリから読
出書込メモリに取り込んで処理しているので、小文字で
表わしている。
第4図において、テーブルT1は、発生頻度の順番に(
同位同志は任意で)全ての単語のアドレスを記憶してい
るものであり、テーブルT2はとり得bs頻度の全てに
関して発生頻度の順位のアドレス(同位のものはその先
頭のアドレス)を記憶しているものであり、ここでは、
単語AIが辞書Aで見つかシ、この時点の発生頻度はc
 4 ) c 2)cl)C3と仮定している。
アダプティブな変化においては、単語A1について、ま
ず、その発生頻度C1にその重みW2(=5)を加算し
た値を検出する。
その結果、仮にcl+w2==c4になったとすると、
テーブルT2において、発生頻度C1。
C4に対応した順位のアドレスN、Mを検出する。
次に、テープ/l/ T I を参照して、順位Nに対
応した単語A4、順位N+1に対応した単語A2、最後
に順位Mに対応した単語A1を検出し、A4−A2−A
、の順に発生頻度が高いことを検知する。
そして、これら3個の単語のうちで新しく使った単語を
最上位頻度のものと見做して、単語A、1  +A 4
  r A2の圧縮符号をB4  + B2  r A
Iに変更することによって圧縮符号の交換を行ない、単
語A1の発生頻度をc1+w2と更新して、アダプティ
ブな変化を終了する。
なお、この実施例では、重みW O” W 3 自体も
アダプティブに変更するようにしている。
すなわち、現時点では、22回(=wo十w1+w2)
に16回は辞書Aにおいて普通の単語が見つかることを
規定しているが、これを大きく外れた状態が続いた場合
には、重みを変更しており、普通の単語が見つかった回
数及び2文字長の疑似単語が見つかった回数を77”7
ントして′8さ、それにもとすいて変更している。
第5図は、6万2千語の二−−ズウイーク誌を対象とし
て圧縮した結果を示すものであり、原文ビット長に対し
て、ラインフィード(Line Feed)記号を含む
場合で平均40チ、含まない場合で平均37チの圧縮率
が得られたことを示すものである。
なお、この実施例では、2文字長と1文字長とによる一
定数分割を採用しているが、3文字長〜1文字長などの
比較的少数のによる一定数分割を採用することができる
又辞書探索を短縮するだめの単語の同族化は、アルファ
ベットの組み合せや文字長の観点の外に、漢字の場合に
はへんやつ<シ、講文情報が得られることが想定される
場合には品詞、などの観点から分類することもできる。
(発明の効果) 以上の説明から明らかなように、本発明によれば、単語
の発生頻度に応じて圧縮符号を割り当てることによる利
点を維持しつつ、一定数分割によって普通の単語として
辞書にないものも圧縮符号化しているため、メモリ容量
の小規模化と辞書データの探索の高速化、更に、伝送デ
ータの高圧縮の効果が期待出来る。次に、以上の状態遷
移を送信側、受信側にもたせることによシ、データ通信
分野への適用と初期データを秘筐することによシ送信デ
ータの暗号装置と高能率圧縮装置化が可能なので専用初
期辞書データをもたせることによりICカードの記録装
置にも適用できる。
【図面の簡単な説明】
第1図は本発明の一実施例を示す状態遷移図、第2図は
従来のアダプティブハフマン符号の木構造を示す図、第
3図は辞書の説明図、第4図はアダプティブな変化を説
明するための図、第5図は圧縮結果例を示す図である。 10・・・入力文字列の単語化、11・・・単語の辞書
データ探索、12・・・データ圧縮符号化、13・・・
アダプティブ変化、14・・・単語の新規登録、15・
・・単語の分割化、A・・・辞書データ。 特許出願人   沖電気工業株式会社 1、事件の表示 昭和62年 特  許 願第040454 号2、発明
の名称 データ文圧縮符号化方法 3、補正をする者 事件との関係       特 許 出 願 人住 所
(〒105)  東京都港区虎ノ門1丁目7番12号別
紙の通シ ロ、補正の内容 (1)明細書第6頁第16行目に「126語の」とある
のを 「128語の」と補正する。 (2)同書第9頁第16行目にrB4.B2.A、に変
更」とあるのを 「b4.b2.blに変更」と補正する。 (3〕  同書第10頁第17行目に「比較的少数のに
よる」とあるのを 「比較的少数による」と補正する。 (4)図面「第4図」を別紙の通シ補正する。

Claims (1)

  1. 【特許請求の範囲】 普通の単語の外に、1文字長と2文字長とを含む複数種
    類の一定文字長の疑似単語を登録した辞書を備え、 辞書に登録されていない普通の単語が入力された場合、
    その単語を一定数の文字数に分割して前記辞書を探索し
    、 前記辞書で検出されるまで、分割する文字数を減らして
    探索し、 検出された単語に関し、辞書に記憶している圧縮符号を
    出力し、 辞書に記憶されている圧縮符号を発生頻度に応じて変更
    する、 ことを特徴としたデータ文圧縮符号化方法。
JP4045487A 1987-02-25 1987-02-25 デ−タ文圧縮符号化方法 Pending JPS63209229A (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP4045487A JPS63209229A (ja) 1987-02-25 1987-02-25 デ−タ文圧縮符号化方法
US07/157,691 US4899148A (en) 1987-02-25 1988-02-19 Data compression method
CA000559752A CA1291829C (en) 1987-02-25 1988-02-24 Data compression method
DE88301626T DE3882738T2 (de) 1987-02-25 1988-02-25 Datenkomprimierungsverfahren und -vorrichtung.
EP88301626A EP0280549B1 (en) 1987-02-25 1988-02-25 Data compression method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4045487A JPS63209229A (ja) 1987-02-25 1987-02-25 デ−タ文圧縮符号化方法

Publications (1)

Publication Number Publication Date
JPS63209229A true JPS63209229A (ja) 1988-08-30

Family

ID=12581085

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4045487A Pending JPS63209229A (ja) 1987-02-25 1987-02-25 デ−タ文圧縮符号化方法

Country Status (1)

Country Link
JP (1) JPS63209229A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03201827A (ja) * 1989-12-28 1991-09-03 Mitsubishi Electric Corp 符号化復号化器
JPH04219818A (ja) * 1990-12-19 1992-08-10 Nec Corp 適応的データ圧縮方式

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59231683A (ja) * 1983-06-01 1984-12-26 インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン データ圧縮方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59231683A (ja) * 1983-06-01 1984-12-26 インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン データ圧縮方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03201827A (ja) * 1989-12-28 1991-09-03 Mitsubishi Electric Corp 符号化復号化器
JPH04219818A (ja) * 1990-12-19 1992-08-10 Nec Corp 適応的データ圧縮方式

Similar Documents

Publication Publication Date Title
CA1291829C (en) Data compression method
Navarro Wavelet trees for all
CN107463666B (zh) 一种基于文本内容的敏感词过滤方法
Bille et al. Random access to grammar-compressed strings
Grassberger Estimating the information content of symbol sequences and efficient codes
Porwal et al. Data compression methodologies for lossless data and comparison between algorithms
US8712977B2 (en) Computer product, information retrieval method, and information retrieval apparatus
US5585793A (en) Order preserving data translation
US8725509B1 (en) Back-off language model compression
JP3238854B2 (ja) データ圧縮方法及びデータ圧縮装置、並びにデータ復元方法及びデータ復元装置
US7026962B1 (en) Text compression method and apparatus
US11334609B2 (en) Semantic structure search device and semantic structure search method
JP2979106B2 (ja) データ圧縮
CN111339382A (zh) 字符串数据检索方法、装置、计算机设备及存储介质
Fischer et al. Lempel–Ziv factorization powered by space efficient suffix trees
US9720976B2 (en) Extracting method, computer product, extracting system, information generating method, and information contents
EP0127815B1 (en) Data compression method
Ferragina et al. On the bit-complexity of Lempel--Ziv compression
WO2010108373A1 (zh) 一种对词库压缩编码及解码的方法和系统
Prezza Optimal rank and select queries on dictionary-compressed text
Díaz-Domínguez et al. A grammar compressor for collections of reads with applications to the construction of the BWT
EP3136607A1 (en) A method and a system for encoding and decoding of suffix tree and searching within encoded suffix tree
CN112182353A (zh) 用于信息搜索的方法、电子设备和存储介质
JPS63209229A (ja) デ−タ文圧縮符号化方法
Ghuge Map and Trie based Compression Algorithm for Data Transmission