JPS61232724A

JPS61232724A - 文字コ−ドデ−タの圧縮方式

Info

Publication number: JPS61232724A
Application number: JP7272985A
Authority: JP
Inventors: Saneo Hasegawa; 長谷川　実郎; Yoshihiro Hibino; 日比野　吉弘; Tetsumi Yanagida; 柳田　哲美
Original assignee: NIPPON DENKI OFF SYST KK
Current assignee: NIPPON DENKI OFF SYST KK
Priority date: 1985-04-08
Filing date: 1985-04-08
Publication date: 1986-10-17

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（産業上の利用分野）本発明は固定長コードでコード化さｎている文字コード
データを語のコードデータに変換圧縮する方式に関する
ものである。

（従来の技術とその問題点）一般的に、データ処理の分野では、データは、ＪＩＳ標
準規格、あるいは、国際的な標準規格に則った固定長バ
イトの文字コード列で表わされてんどの場合、データは
この文字コード列の形で記憶、伝送、されている。

このデータ処理の効率をあげる丸めには、データの圧縮
が必要であり、従来よりいくつかの方式が提案されてい
るが、その多くハ、データを構成している各文字コード
単位についてのものであり、以下、対比のため例をあげ
て説明する。

第１図は、その圧縮方式の一例を説明する友めの図であ
り、１は圧縮前の文字データ列、２は一つの方式による
圧縮後のデータ列、３は他の方式による圧縮後のデータ
列である。

紡記圧縮紡の文字データ列１は、ＪＩ８規格に則ってす
べての文字が２バイトでコード化さ九ており、圧縮後の
データ列２＃″ｔ１漢字文字は２バイトで、かな文字は
１バイトでコードｆヒし、それぞれの間にはバイト長切
多換えの制御コード４，５を挿入している。圧縮後のデ
ータ列３は、データ列２の中の各漢字部・かな部のそれ
ぞれに対して各文字の出現頻度に基すいた可変長コーＰ
に変換する方式である。

これらの方法はいづれも文字データを１文字コード単位
に処理するものであ勺、変換の圧ｍ率は、２の場合で約
８５１３の場合で約８０〜６０％程度である。なお３の
場合は圧ａ率は少しよいが可変長コード処理が複雑とな
る欠点がある。

また、文字列をコード化する例として、ワードプロセッ
サ等の入力処理で用いられている熟語辞書の方式がある
。この方式はよく卸られているように、入力データをカ
ナ漢字変換、あるいは、文字指定によシ入力する場合に
、一部の高装置で出現する文字列（熟語）に対して、予
めその熟語文字列とそれに対応し九熟語ナンバ・コード
を熟語辞書に登録しておき、入力時にその熟語があられ
れたとき、その熟語ナンバ・コード金入力して熟語辞書
を検索し、それに対応し危熟語文字列を得ることにより
、入力速度の向上を計ったものでｂす１本発明のように
文字データ情報全体に対応し要語の辞書を用い１文字コ
ードデータとの自動一致によシ文字コード列を語のコー
ドに圧縮変換し。

データの記憶、伝送、処理の効率向上を計ったものとは
基本的に異なる。

さらに、語のコード化の例として古くから笑用化嘔れて
いる暗号方式がめる。この暗号方式は、本発明と同じよ
うに、データの文字列ｔ＆：語の暗号コードに変換する
ものではあるが、その暗号コードからは藺単にそのコー
ドに対応した語の文字列に解読変換できないように、複
雑な演算や乱数を用いて語の文字列から語のコードを決
めており。

本発明のようにデータ圧ａｔ目的とした語のコードの決
めかたではなく圧縮の効果は期待できない。

本発明は、従来方式の以上の問題点を解消し。

文字コードデータを語のコード辞書を用い簡単に、高速
で、データ圧縮効果の大１！−語のコードデータに変換
する方式を提供することを目的とする。

（問題点を解決するための手段）この目的を達成させる丸めに、この発明は次のよりな方
式を採っている。

すなわち、第１の発明は、各文字毎に対して固定長コー
ドでコード化されている漢字、かな、英数字、および記
号等からなる文字コードデータを圧縮する方式にお込て
、その文字コードデータを構成するところの、高頻度に
出現する１文字、あるｔｎｈ、複数文字からなる文字列
（以下、語という）に対して、第１バイトのピットのう
ち１ビット、あるいは、複数ビラトラ用いて、１バイト
長か２バイト長かを区別した手段によυ、１バイトか２
バイトの語のコードに予め付与し要語のコード辞書の手
段を備え、文字コードデータの文字列と語のコード辞書
との一致をとる手段により、自動的に文字コードデータ
を語のコードデータに圧縮変換することｔ−特徴とする
文字コードデータの圧縮方式である。

また、＄２の発明は前記、語のコードに対し、語のコー
ド辞書の数を増やし文字コードデータの圧縮率を高める
ために％前記、１バイト及び２パイトの語のコード辞書
に登録されていない語に対して、更に１語の第１バイト
に語のコード長が３バイトであることを示す拡張制御コ
ードをもうけ、この拡張制御コードに引き続く１バイト
のコードで構成される３バイト長の語のコードを予め付
与し、前記、語のコード辞書に追加し要語のコード辞書
の手段を備え１文字コードデータの文字列と語のコ、−
ド辞書との一致をとる手段にょシ、自動的に文字コード
データｔ−ｇのコードデータに圧縮変換することｅ＊徴
とする文字コードデータの圧縮方式でるる。

（実施例〉次に本発明の実施例について図面を用い詳細に説明する
。

本発明では、前述のように語のコードのバイト長を区別
するのに用いられる語の第１バイトのビット（以下フラ
グビットと云う〕の数は１ビット。

あるいは、幾つかのビットを用ｉることになっているが
１本発明の方式の面にお−てはその両者では基本的な差
にないので、王な已明は２ビットの場合についておこな
い、最後で、１ビットの場合につめて、２ビットの場合
との相違を含めて説明する。

第２図は、一般的なＪＩ８０６２２６に則った２バイト
固定長の日本語文字コードデータの例をその文字コード
と１６進で表わしたコードデータを示すものでめる。

第３図は、本発明によるところの語のコード構成を示し
、６は１バイト長、７．８．９はそれぞれ２バイト長の
語のコードを示す。

図にみられるように１語のコードの第１バイトのビット
のうち２ビットを用−２語のコードが１バイト長か２バ
イト長かを判定できるように区別している。

１０がその判定用の２ビットの一例である。６の′Ｓ→
ド例ではｊｌ！１バイトの判定２ビットが（ｏ。

Ｏ）の場合＆語のコードが１バイト長であることを示し
、第１バイトの残９６ピツト（図ではＸ印）で６４種の
語のコードを示すようになってしる。

また？、８．９のコード例は第１バイトの判定ビットが
（０，０）でない他の（０，１ハ（１，０）（１，１）
の場合で、語のコードが２バイト長であることを示して
いる。この２バイト長の７，８゜９の場合、それぞれ、
第１バイトの残り６ビットと第２バイトの８ビットとの
計１４ピットで１６に種の語のコードを示すようになっ
てお９．２バイト長の語の総数は４８に種となる。

第４図は１本発明による語のコード辞書の一部の例を示
す。１１は語のコード、１２はその語の文字コード列を
しめす。文字コードデータから曙のコードデータへ高圧
縮率で変換するために、−バイト長の語のコードには日
本語データ中に最高頻度で出現する語１例えば、（の、
を、に、は、が、・−１この、その、である、・・・）
等や記号の（１，）等や％語のコード用制御コード（各
種コードシフト用）等を割り当てである。また、２バイ
ト長の語のコードには、引き続いて高頻度で出現する語
１例えば、（テレビジョン、コンビエータ。

・・・シかしながら、している、・・・政治、経済、委
員会、国際問題、取り扱い、お父さん、・・・）等を割
シ当てて６シ、全体として語のコード辞−Ｖは１文字コ
ード列から容易に語のコードを検索できるように、６語
のＭ１文字、第２文字、−１のコード順にソートされて
いる。

第５図は１本発明１−５！施する装置の一例を表わすブ
ｐツク図でろシ、１４は変換前の文字コードデータ記憶
メモリ、１５は変洪処理のための文字コードデータ、１
３は語のコード辞書メモリ、１１は語のコード、Ｂｉそ
の語の文字コード列、１６は文字コードデータと語のコ
ード辞書との一致回路、１７は変換結果の語のコードレ
ジスタ、１８は変換後の語のコーＰデータ記憶メモリで
ろる。

この装置の動作は、まず、２バイトの固定長コードでコ
ード化されている文字コードデータ１４よシ％　１文字
コードを読みだして文字コードレジスタ１Ｓに蓄え、次
に、一致回路１６は文字コードレジスタ１５の文字コー
ドを読みだし１語のコード辞書メモリ１３の文字コード
列１２の第１文字との一致をとシ、順次１文字コードデ
ータ１４より次の文字コードを読みだして語のコード辞
書の文字コード列１２の次の文字との一致をとることを
繰シ返し１文字コード列と一致した語のコード１ｌｔ−
：ｆｆ−ドレジスタ１７に読みだして、変換結果の語の
コードデータ記憶メモリ１８に出力することにより、文
字コードデータを語のコードデータに圧縮変換する↓の
である。

本発明の実施例により、Ｍｚ図の文字コードデータ金＃
のコードデータに圧縮変換した結果を第６図に示す。こ
の例の場合には％第２図の１８バイトの文字コードデー
タが第６図に示されるように７バイトの語のコードデー
タに変換されておシ。

−例ではあるが、データの圧縮率は３９％と向上してい
る。また、本発明による日本語文字コードデータの語の
；−ドデータに変換する多くの実施例の圧縮率の平均値
は、約５０〜３５Ｘとなってお＃）、従来の圧縮率に比
べ、大幅に圧縮率が向上しておシ、本発明の方式による
データの記憶、伝送、処理の性能向上が大幅に期待され
る。

日本語の用語分析の文献によると、一般日本語文章の用
語が約４万語で９５％以上の出現軍となっており、本発
明による語のコードの長さｆＩ：第３図に示したように
１バイトと２バイトの長さに設定し、総計で約４万Ｂ千
語を表現できるようにしていることに大きな特長がらる
ということができる。また、この約４万語の単位用語の
文字列の長さｆ：１日本文の場合、約２．２文字とする
と、文字コードデータのデータ長は４．４バイトとな九
本発明の方式による変換後の語のコードデータ長は多く
て２バイトであるから、２÷４．４−０．４５で約４５
Ｎのデータ圧縮率が得られることが論理的にも推定でき
る。

第７図は、さらに、データの変換圧ｍ軍を高めるために
１語の＝−ド辞書の数を増加させる手段として、前記の
１バイト及び２バイト長の語のコードでは最大約４万８
千語しか表現できないのに対して、３バイト長の語のコ
ード金追加し九場合を示すものでこの方式によると、約
６万４千曙の語を増加することができ、縛計で語のコー
ド辞書の総数は約１１万２千語となり１文字コードデー
タから語のニードデータへの変換圧縮率をさらに高める
ことができる。なお、図の１９は語の１バイトコードの
１つを、３バイト長の語であることを示す拡張制御コー
ドとした一例の第１バイトでロシ、これに引き続く２０
の２バイトの計３ノ９イトで拡張された語のコード２１
′ｆ：表現している。

以上、説明したように１本発明の方式は、固定長バイト
の文字コードで表わされて勝る一般的な日本語文字コー
ドデータに対し、語のコード辞書との一致金とり、コン
ピュータで敗り扱い易いバイト形式の、１バイト、２バ
イト、うるいは％３バイトの可変長の語のコードデータ
に変換することにより、データ長を大幅に圧縮すること
ができ、データ記憶メモリの節減、データ伝送速度の向
上等、データ処理の効率化を計ることができる特長をも
って−る。

最後に、前述したように、語のコードバイト長を区別す
る語の第１バイトのフラグビット数がトピクトの場合に
ついて説明する。フラグビット数が１ビットの場合と２
ビットの場合とでは、１バイト、２バイトのそｎぞれで
表わされる語の総数が異なるのみで、方式の動作には基
本的な相違はない。

第８図に、フラグビットが２ビットの場合の語のコード
構成を示した第３図に対応して、フラグビットが１ビッ
トの場合の語のコード構成の一例を示す毛ので、２２は
１バイト長、２３は２バイト長の語のコードをしめす。

図にみられるように、この例では、語のコードの第１ビ
ットが７ラグビットになっており、フラグビット０の場
合が１バイト長、１の場合が２バイト長の語のコードで
あるように区別している。

従って、１バイト長の語の総数は１２８種、２バイト長
の語の総数は３２に種となり、フラグビットが１ビット
の場合と比較して、１バイト長の語が多く、２バイト長
の語が少ないことになる。

フラグビットを１ビットにするか、２ビットにするかは
、上記の両者の特性全治かし、使用するデータの高頻度
に出現するコード変換の対象となる語の総数が４０に種
にくらべ少ない場合は１ビットの方式、多い場合は２ピ
ツトの方式を採用したほうが、データの圧縮変換率を高
くすることができる。−例として、英文は１ビット、日
本語は２ビットの方式が効果的であると考えらｎる。

【図面の簡単な説明】

第１図は従来の文字コードデータの圧縮方式の原理を説
明するための図、第２図は一般的な文字コードデータの
例を示した図、第３図は本発明による語のコードを説明
するための図、第４肉は本発明による語のコード辞書を
説明するための図、第５図は本発明の実施例の装置の一
例を表わすブロック１、第６■は第２図の文字コードデ
ータを本発明の方式により圧縮変換した例を示す図、第
７図は本発明の拡張方式を説明するための図、第８図は
本発明の異なる実施例における語のコードを説明するた
めの図である。１は圧縮前の文字データ列、２及び３は他の方式による
圧縮例、４及び５はその方式で用いている制御コード、
６，７．８，９．２２及び２３は語のバイトコード、１
０はフラグビット、１１はコード辞書の語のコード部、
１２はその文字列部、１３はコード辞ｇＦ、１４及び１
８μコードデータメモリ、１５及び１７はコードレジス
タ、１６は一致回路、１９．２０及び２１は３バイト長
の語のコードの例を示す。第１図第　　　２　　　図第　　　３　　　図第　　　４　　　　　図第５図ｄ

Claims

【特許請求の範囲】１、各文字毎に対して固定長コードでコード化されてい
る漢字、かな、英数字、および記号等からなる文字コー
ドデータを圧縮する方式において、その文字コードデー
タを構成するところの、高頻度に出現する１文字、ある
いは、複数文字からなる文字列（以下、語という）に対
して、第１バイトのビットのうち１ビット、あるいは、
複数ビットを用いて、１バイト長か２バイト長かを区別
した手段により、１バイトか２バイトの語のコードに予
め付与した語のコード辞書の手段を備え、文字コードデ
ータの文字列と語のコード辞書との一致をとる手段によ
り、自動的に文字コードデータを語のコードデータに圧縮変換することを特徴
とする文字コードデータの圧縮方式。２、前記、語のコードに対し、語のコード辞書の数を増
やし文字コードデータの圧縮率を高めるために、前記、
１バイト及び２バイトの語のコード辞書に登録されてい
ない語に対して、更に、語の第１バイトに語のコード長
が３バイトであることを示す拡張制御コードをもうけ、
この拡張制御コードに引き続く２バイトのコードで構成
される３バイト長の語のコードを予め付与し、前記、語
のコード辞書に追加した語のコード辞書の手段を備え、
文字コードデータの文字列と語のコード辞書との一致を
とる手段により、自動的に文字コードデータを語のコー
ドデータに圧縮変換することを特徴とする文字コードデ
ータの圧縮方式。