JPS61232724A - 文字コ−ドデ−タの圧縮方式 - Google Patents

文字コ−ドデ−タの圧縮方式

Info

Publication number
JPS61232724A
JPS61232724A JP7272985A JP7272985A JPS61232724A JP S61232724 A JPS61232724 A JP S61232724A JP 7272985 A JP7272985 A JP 7272985A JP 7272985 A JP7272985 A JP 7272985A JP S61232724 A JPS61232724 A JP S61232724A
Authority
JP
Japan
Prior art keywords
code
word
character
data
byte
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7272985A
Other languages
English (en)
Inventor
Saneo Hasegawa
長谷川 実郎
Yoshihiro Hibino
日比野 吉弘
Tetsumi Yanagida
柳田 哲美
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NIPPON DENKI OFF SYST KK
Original Assignee
NIPPON DENKI OFF SYST KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NIPPON DENKI OFF SYST KK filed Critical NIPPON DENKI OFF SYST KK
Priority to JP7272985A priority Critical patent/JPS61232724A/ja
Publication of JPS61232724A publication Critical patent/JPS61232724A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は固定長コードでコード化さnている文字コード
データを語のコードデータに変換圧縮する方式に関する
ものである。
(従来の技術とその問題点) 一般的に、データ処理の分野では、データは、JIS標
準規格、あるいは、国際的な標準規格に則った固定長バ
イトの文字コード列で表わされてんどの場合、データは
この文字コード列の形で記憶、伝送、されている。
このデータ処理の効率をあげる丸めには、データの圧縮
が必要であり、従来よりいくつかの方式が提案されてい
るが、その多くハ、データを構成している各文字コード
単位についてのものであり、以下、対比のため例をあげ
て説明する。
第1図は、その圧縮方式の一例を説明する友めの図であ
り、1は圧縮前の文字データ列、2は一つの方式による
圧縮後のデータ列、3は他の方式による圧縮後のデータ
列である。
紡記圧縮紡の文字データ列1は、JI8規格に則ってす
べての文字が2バイトでコード化さ九ており、圧縮後の
データ列2#″t1漢字文字は2バイトで、かな文字は
1バイトでコードfヒし、それぞれの間にはバイト長切
多換えの制御コード4,5を挿入している。圧縮後のデ
ータ列3は、データ列2の中の各漢字部・かな部のそれ
ぞれに対して各文字の出現頻度に基すいた可変長コーP
に変換する方式である。
これらの方法はいづれも文字データを1文字コード単位
に処理するものであ勺、変換の圧m率は、2の場合で約
8513の場合で約80〜60%程度である。なお3の
場合は圧a率は少しよいが可変長コード処理が複雑とな
る欠点がある。
また、文字列をコード化する例として、ワードプロセッ
サ等の入力処理で用いられている熟語辞書の方式がある
。この方式はよく卸られているように、入力データをカ
ナ漢字変換、あるいは、文字指定によシ入力する場合に
、一部の高装置で出現する文字列(熟語)に対して、予
めその熟語文字列とそれに対応し九熟語ナンバ・コード
を熟語辞書に登録しておき、入力時にその熟語があられ
れたとき、その熟語ナンバ・コード金入力して熟語辞書
を検索し、それに対応し危熟語文字列を得ることにより
、入力速度の向上を計ったものでbす1本発明のように
文字データ情報全体に対応し要語の辞書を用い1文字コ
ードデータとの自動一致によシ文字コード列を語のコー
ドに圧縮変換し。
データの記憶、伝送、処理の効率向上を計ったものとは
基本的に異なる。
さらに、語のコード化の例として古くから笑用化嘔れて
いる暗号方式がめる。この暗号方式は、本発明と同じよ
うに、データの文字列t&:語の暗号コードに変換する
ものではあるが、その暗号コードからは藺単にそのコー
ドに対応した語の文字列に解読変換できないように、複
雑な演算や乱数を用いて語の文字列から語のコードを決
めており。
本発明のようにデータ圧at目的とした語のコードの決
めかたではなく圧縮の効果は期待できない。
本発明は、従来方式の以上の問題点を解消し。
文字コードデータを語のコード辞書を用い簡単に、高速
で、データ圧縮効果の大1!−語のコードデータに変換
する方式を提供することを目的とする。
(問題点を解決するための手段) この目的を達成させる丸めに、この発明は次のよりな方
式を採っている。
すなわち、第1の発明は、各文字毎に対して固定長コー
ドでコード化されている漢字、かな、英数字、および記
号等からなる文字コードデータを圧縮する方式にお込て
、その文字コードデータを構成するところの、高頻度に
出現する1文字、あるtnh、複数文字からなる文字列
(以下、語という)に対して、第1バイトのピットのう
ち1ビット、あるいは、複数ビラトラ用いて、1バイト
長か2バイト長かを区別した手段によυ、1バイトか2
バイトの語のコードに予め付与し要語のコード辞書の手
段を備え、文字コードデータの文字列と語のコード辞書
との一致をとる手段により、自動的に文字コードデータ
を語のコードデータに圧縮変換することt−特徴とする
文字コードデータの圧縮方式である。
また、$2の発明は前記、語のコードに対し、語のコー
ド辞書の数を増やし文字コードデータの圧縮率を高める
ために%前記、1バイト及び2パイトの語のコード辞書
に登録されていない語に対して、更に1語の第1バイト
に語のコード長が3バイトであることを示す拡張制御コ
ードをもうけ、この拡張制御コードに引き続く1バイト
のコードで構成される3バイト長の語のコードを予め付
与し、前記、語のコード辞書に追加し要語のコード辞書
の手段を備え1文字コードデータの文字列と語のコ、−
ド辞書との一致をとる手段にょシ、自動的に文字コード
データt−gのコードデータに圧縮変換することe*徴
とする文字コードデータの圧縮方式でるる。
(実施例〉 次に本発明の実施例について図面を用い詳細に説明する
本発明では、前述のように語のコードのバイト長を区別
するのに用いられる語の第1バイトのビット(以下フラ
グビットと云う〕の数は1ビット。
あるいは、幾つかのビットを用iることになっているが
1本発明の方式の面にお−てはその両者では基本的な差
にないので、王な已明は2ビットの場合についておこな
い、最後で、1ビットの場合につめて、2ビットの場合
との相違を含めて説明する。
第2図は、一般的なJI806226に則った2バイト
固定長の日本語文字コードデータの例をその文字コード
と16進で表わしたコードデータを示すものでめる。
第3図は、本発明によるところの語のコード構成を示し
、6は1バイト長、7.8.9はそれぞれ2バイト長の
語のコードを示す。
図にみられるように1語のコードの第1バイトのビット
のうち2ビットを用−2語のコードが1バイト長か2バ
イト長かを判定できるように区別している。
10がその判定用の2ビットの一例である。6の′S→
ド例ではjl!1バイトの判定2ビットが(o。
O)の場合&語のコードが1バイト長であることを示し
、第1バイトの残96ピツト(図ではX印)で64種の
語のコードを示すようになってしる。
また?、8.9のコード例は第1バイトの判定ビットが
(0,0)でない他の(0,1ハ(1,0)(1,1)
の場合で、語のコードが2バイト長であることを示して
いる。この2バイト長の7,8゜9の場合、それぞれ、
第1バイトの残り6ビットと第2バイトの8ビットとの
計14ピットで16に種の語のコードを示すようになっ
てお9.2バイト長の語の総数は48に種となる。
第4図は1本発明による語のコード辞書の一部の例を示
す。11は語のコード、12はその語の文字コード列を
しめす。文字コードデータから曙のコードデータへ高圧
縮率で変換するために、−バイト長の語のコードには日
本語データ中に最高頻度で出現する語1例えば、(の、
を、に、は、が、・−1この、その、である、・・・)
等や記号の(1,)等や%語のコード用制御コード(各
種コードシフト用)等を割り当てである。また、2バイ
ト長の語のコードには、引き続いて高頻度で出現する語
1例えば、(テレビジョン、コンビエータ。
・・・シかしながら、している、・・・政治、経済、委
員会、国際問題、取り扱い、お父さん、・・・)等を割
シ当てて6シ、全体として語のコード辞−Vは1文字コ
ード列から容易に語のコードを検索できるように、6語
のM1文字、第2文字、−1のコード順にソートされて
いる。
第5図は1本発明1−5!施する装置の一例を表わすブ
pツク図でろシ、14は変換前の文字コードデータ記憶
メモリ、15は変洪処理のための文字コードデータ、1
3は語のコード辞書メモリ、11は語のコード、Biそ
の語の文字コード列、16は文字コードデータと語のコ
ード辞書との一致回路、17は変換結果の語のコードレ
ジスタ、18は変換後の語のコーPデータ記憶メモリで
ろる。
この装置の動作は、まず、2バイトの固定長コードでコ
ード化されている文字コードデータ14よシ% 1文字
コードを読みだして文字コードレジスタ1Sに蓄え、次
に、一致回路16は文字コードレジスタ15の文字コー
ドを読みだし1語のコード辞書メモリ13の文字コード
列12の第1文字との一致をとシ、順次1文字コードデ
ータ14より次の文字コードを読みだして語のコード辞
書の文字コード列12の次の文字との一致をとることを
繰シ返し1文字コード列と一致した語のコード1lt−
:ff−ドレジスタ17に読みだして、変換結果の語の
コードデータ記憶メモリ18に出力することにより、文
字コードデータを語のコードデータに圧縮変換する↓の
である。
本発明の実施例により、Mz図の文字コードデータ金#
のコードデータに圧縮変換した結果を第6図に示す。こ
の例の場合には%第2図の18バイトの文字コードデー
タが第6図に示されるように7バイトの語のコードデー
タに変換されておシ。
−例ではあるが、データの圧縮率は39%と向上してい
る。また、本発明による日本語文字コードデータの語の
;−ドデータに変換する多くの実施例の圧縮率の平均値
は、約50〜35Xとなってお#)、従来の圧縮率に比
べ、大幅に圧縮率が向上しておシ、本発明の方式による
データの記憶、伝送、処理の性能向上が大幅に期待され
る。
日本語の用語分析の文献によると、一般日本語文章の用
語が約4万語で95%以上の出現軍となっており、本発
明による語のコードの長さfI:第3図に示したように
1バイトと2バイトの長さに設定し、総計で約4万B千
語を表現できるようにしていることに大きな特長がらる
ということができる。また、この約4万語の単位用語の
文字列の長さf:1日本文の場合、約2.2文字とする
と、文字コードデータのデータ長は4.4バイトとな九
本発明の方式による変換後の語のコードデータ長は多く
て2バイトであるから、2÷4.4−0.45で約45
Nのデータ圧縮率が得られることが論理的にも推定でき
る。
第7図は、さらに、データの変換圧m軍を高めるために
1語の=−ド辞書の数を増加させる手段として、前記の
1バイト及び2バイト長の語のコードでは最大約4万8
千語しか表現できないのに対して、3バイト長の語のコ
ード金追加し九場合を示すものでこの方式によると、約
6万4千曙の語を増加することができ、縛計で語のコー
ド辞書の総数は約11万2千語となり1文字コードデー
タから語のニードデータへの変換圧縮率をさらに高める
ことができる。なお、図の19は語の1バイトコードの
1つを、3バイト長の語であることを示す拡張制御コー
ドとした一例の第1バイトでロシ、これに引き続く20
の2バイトの計3ノ9イトで拡張された語のコード21
′f:表現している。
以上、説明したように1本発明の方式は、固定長バイト
の文字コードで表わされて勝る一般的な日本語文字コー
ドデータに対し、語のコード辞書との一致金とり、コン
ピュータで敗り扱い易いバイト形式の、1バイト、2バ
イト、うるいは%3バイトの可変長の語のコードデータ
に変換することにより、データ長を大幅に圧縮すること
ができ、データ記憶メモリの節減、データ伝送速度の向
上等、データ処理の効率化を計ることができる特長をも
って−る。
最後に、前述したように、語のコードバイト長を区別す
る語の第1バイトのフラグビット数がトピクトの場合に
ついて説明する。フラグビット数が1ビットの場合と2
ビットの場合とでは、1バイト、2バイトのそnぞれで
表わされる語の総数が異なるのみで、方式の動作には基
本的な相違はない。
第8図に、フラグビットが2ビットの場合の語のコード
構成を示した第3図に対応して、フラグビットが1ビッ
トの場合の語のコード構成の一例を示す毛ので、22は
1バイト長、23は2バイト長の語のコードをしめす。
図にみられるように、この例では、語のコードの第1ビ
ットが7ラグビットになっており、フラグビット0の場
合が1バイト長、1の場合が2バイト長の語のコードで
あるように区別している。
従って、1バイト長の語の総数は128種、2バイト長
の語の総数は32に種となり、フラグビットが1ビット
の場合と比較して、1バイト長の語が多く、2バイト長
の語が少ないことになる。
フラグビットを1ビットにするか、2ビットにするかは
、上記の両者の特性全治かし、使用するデータの高頻度
に出現するコード変換の対象となる語の総数が40に種
にくらべ少ない場合は1ビットの方式、多い場合は2ピ
ツトの方式を採用したほうが、データの圧縮変換率を高
くすることができる。−例として、英文は1ビット、日
本語は2ビットの方式が効果的であると考えらnる。
【図面の簡単な説明】
第1図は従来の文字コードデータの圧縮方式の原理を説
明するための図、第2図は一般的な文字コードデータの
例を示した図、第3図は本発明による語のコードを説明
するための図、第4肉は本発明による語のコード辞書を
説明するための図、第5図は本発明の実施例の装置の一
例を表わすブロック1、第6■は第2図の文字コードデ
ータを本発明の方式により圧縮変換した例を示す図、第
7図は本発明の拡張方式を説明するための図、第8図は
本発明の異なる実施例における語のコードを説明するた
めの図である。 1は圧縮前の文字データ列、2及び3は他の方式による
圧縮例、4及び5はその方式で用いている制御コード、
6,7.8,9.22及び23は語のバイトコード、1
0はフラグビット、11はコード辞書の語のコード部、
12はその文字列部、13はコード辞gF、14及び1
8μコードデータメモリ、15及び17はコードレジス
タ、16は一致回路、19.20及び21は3バイト長
の語のコードの例を示す。 第1図 第   2   図 第   3   図 第   4     図 第5図 d

Claims (1)

  1. 【特許請求の範囲】 1、各文字毎に対して固定長コードでコード化されてい
    る漢字、かな、英数字、および記号等からなる文字コー
    ドデータを圧縮する方式において、その文字コードデー
    タを構成するところの、高頻度に出現する1文字、ある
    いは、複数文字からなる文字列(以下、語という)に対
    して、第1バイトのビットのうち1ビット、あるいは、
    複数ビットを用いて、1バイト長か2バイト長かを区別
    した手段により、1バイトか2バイトの語のコードに予
    め付与した語のコード辞書の手段を備え、文字コードデ
    ータの文字列と語のコード辞書との一致をとる手段によ
    り、自動的に文字コー ドデータを語のコードデータに圧縮変換することを特徴
    とする文字コードデータの圧縮方式。 2、前記、語のコードに対し、語のコード辞書の数を増
    やし文字コードデータの圧縮率を高めるために、前記、
    1バイト及び2バイトの語のコード辞書に登録されてい
    ない語に対して、更に、語の第1バイトに語のコード長
    が3バイトであることを示す拡張制御コードをもうけ、
    この拡張制御コードに引き続く2バイトのコードで構成
    される3バイト長の語のコードを予め付与し、前記、語
    のコード辞書に追加した語のコード辞書の手段を備え、
    文字コードデータの文字列と語のコード辞書との一致を
    とる手段により、自動的に文字コードデータを語のコー
    ドデータに圧縮変換することを特徴とする文字コードデ
    ータの圧縮方式。
JP7272985A 1985-04-08 1985-04-08 文字コ−ドデ−タの圧縮方式 Pending JPS61232724A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7272985A JPS61232724A (ja) 1985-04-08 1985-04-08 文字コ−ドデ−タの圧縮方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7272985A JPS61232724A (ja) 1985-04-08 1985-04-08 文字コ−ドデ−タの圧縮方式

Publications (1)

Publication Number Publication Date
JPS61232724A true JPS61232724A (ja) 1986-10-17

Family

ID=13497733

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7272985A Pending JPS61232724A (ja) 1985-04-08 1985-04-08 文字コ−ドデ−タの圧縮方式

Country Status (1)

Country Link
JP (1) JPS61232724A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6747582B2 (en) 1998-01-22 2004-06-08 Fujitsu Limited Data compressing apparatus, reconstructing apparatus, and its method
JP2008219264A (ja) * 2007-03-01 2008-09-18 Ntt Communications Kk データ圧縮転送装置、データ圧縮転送システム、データ圧縮転送方法、およびデータ圧縮転送プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5627444A (en) * 1979-08-13 1981-03-17 Nippon Telegr & Teleph Corp <Ntt> Data compression processing system
JPS5819061A (ja) * 1981-07-27 1983-02-03 Nippon Telegr & Teleph Corp <Ntt> 制御信号デ−タ拡張法
JPS5822434A (ja) * 1981-07-31 1983-02-09 Fujitsu Ltd 日本語文章処理システム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5627444A (en) * 1979-08-13 1981-03-17 Nippon Telegr & Teleph Corp <Ntt> Data compression processing system
JPS5819061A (ja) * 1981-07-27 1983-02-03 Nippon Telegr & Teleph Corp <Ntt> 制御信号デ−タ拡張法
JPS5822434A (ja) * 1981-07-31 1983-02-09 Fujitsu Ltd 日本語文章処理システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6747582B2 (en) 1998-01-22 2004-06-08 Fujitsu Limited Data compressing apparatus, reconstructing apparatus, and its method
JP2008219264A (ja) * 2007-03-01 2008-09-18 Ntt Communications Kk データ圧縮転送装置、データ圧縮転送システム、データ圧縮転送方法、およびデータ圧縮転送プログラム

Similar Documents

Publication Publication Date Title
EP0083393B1 (en) Method of compressing information and an apparatus for compressing english text
Silva de Moura et al. Fast and flexible word searching on compressed text
US3675211A (en) Data compaction using modified variable-length coding
US6047298A (en) Text compression dictionary generation apparatus
JPH026252B2 (ja)
US5444445A (en) Master + exception list method and apparatus for efficient compression of data having redundant characteristics
US6834283B1 (en) Data compression/decompression apparatus using additional code and method thereof
Zavadskyi Binary-coded ternary number representation in natural language text compression
JPS61232724A (ja) 文字コ−ドデ−タの圧縮方式
JPH0546358A (ja) テキストデータの圧縮方法
JPH0554077A (ja) 単語辞書検索装置
JPS63263561A (ja) 日本語文の圧縮方法
JPH06290021A (ja) ソースプログラム圧縮方法
Henriques et al. A parallel architecture for data compression
JP2785168B2 (ja) 単語検索のための電子辞書圧縮方法及び装置
JPH0140370B2 (ja)
JPH07182354A (ja) 電子文書の作成方法
JPH05152971A (ja) データ圧縮・復元方法
JPH0338772A (ja) 文字コードデータの圧縮方式
JPS63209228A (ja) デ−タ圧縮方法
JPS5822434A (ja) 日本語文章処理システム
JPH0264770A (ja) 辞書を用いたデータ圧縮復元方式
JPH04167821A (ja) データ符号化及び復号化方法
JP3236747B2 (ja) データ伸長方式
JP2004013680A (ja) 文字コード圧縮・復元装置および同方法