JPS63263561A

JPS63263561A - 日本語文の圧縮方法

Info

Publication number: JPS63263561A
Application number: JP62097289A
Authority: JP
Inventors: Shiyou Imasato; 詔今郷
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1987-04-22
Filing date: 1987-04-22
Publication date: 1988-10-31

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】技術分野本発明は、所定のコード系に従ってコード化された日本
語の文を圧縮し、また圧縮された文を元のコード系で表
わされた文に復元するための、特にデータベースシステ
ムに使用可能な圧縮・復元方法に関する。

従来技術従来の日本語の文の圧縮は、１文字を単位としたハフマ
ン法又はその変形によって行なわれている。しかし、圧
縮率を高めるためには、何文字かを１単位の文字列とし
て、この文字列の組が出現頻度に基いたコード化法が有
効である。

たとえば、出現頻度の高い文字列は長さの比較的短いコ
ードによって表わすようにすることが望ましい。一般に
用いられる日本語表記では分ち書きしないので、このよ
うな文字列に日本語の文を区切る場合に、各々１つの意
味を表わす名詞などの単語、または副詞節のような文節
を単位として区切ろうとすると、構文解析が必要となり
、圧縮・復元処理が一層複雑なものとなる。

目的本発明の目的は、処理を複雑化することなく高い圧縮率
の達成できる日本語文の圧縮方法を提供することにある
。

構成本発明は、上記の目的を達成するために、符号圧縮の対
象であるコード化された日本語文を所定の単位にて区切
り、所定の単位は、ひとまとまりの連続した漢字列、ひ
とまとまりの連続したカタカナ列、ひとまとまりの連続
した数字列、ひとまとまりの連続したアルファベット列
、ひとまとまりの連続したひらがな列、および１１　　
　　文字の記号のうちの少なくともいずれかを含み、区
切った文字列のそれぞれについて日本語文における出現
頻度を判定し、区切った文字列のうち出現頻度の相対的
に高いものは相対的に短いコードで表わし、出現頻度の
相対的に低いものは相対的に長いコードで表わす日本語
文の圧縮方法を特徴とする。

なお、本明細書において「単語」とは、１以上の漢字の
連続列、長音記号を含めた１以上の片仮名の連続列、ｌ
以゛上の数字の連続列、ノ・イフンやアポストロフィー
を含めた１以上のアルファベットの連続列、１以上の平
仮名の連続列、並びに、各々１文字からなる記号を意味
するものとする。なお平仮名の連続列はその長さを制限
してもよい。

次に本発明の一実施例を示した図面を参照して更に説明
する。

第１図は、本発明によるデータ圧縮方法及び復元方法を
実施するために必要なノ・−ドウエアの構成例を示して
いる。本実施例は、日本語の文書を記憶するための通常
の書換え可能な日本語文書メモリ１を有し、このメモリ
１には、日本語の文書が本実施例ではシフトＪＩＳコー
ドに従ってコード化された形で記憶される。この文書は
、たとえばＡｓ（ＪＩコードで表わされた英語などの表
音文字を分かち書きする外国語で書かれた部分、又は１
文字ずつの記号、例えば日本語のｎＪ＆や英語の引用符
、「＋」その他の記号が含まれていてもよい。本装置は
また、後述する上位単語表及び下位単語衣を記憶するた
めの単語表メモリ２と、圧縮された文書を記憶するため
の圧縮文書メモリ３とを有する。この圧縮文書は、たと
えば翻訳支援システムの辞書データとして利用される。

日本語文の圧縮・復元処理を実行するために必要な種々
の演算を含む操作は中央処理装置（ＣＰＵ）　４で行な
われる。中央処理装置４における圧縮および復元処理は
その処理プログラムに従って実行され、これらのプログ
ラムは読出し専用メモリ（ＲＯＭ）５に格納されている
。同図において実線の矢印は、文書を圧縮する際のデー
タの流れる方向を、また破線の矢印は、圧縮文書を復元
する際のデータの流れる方向を、それぞれ表わしている
。これらのメモリ１，２および３は、ＲＡＭ　、または
フロンピーディスクなどの外部記憶装置が有利に適用さ
れる。また、予め圧縮した文書を復元するだけの装置な
らば、即ちデータが破線の矢印の方向にしか流れない装
置構成の場合には、単語表メモリ２と圧縮文書メモリ３
とはいずれも読出し専用メモリとしてもよい。

中央処理装置４はＲＯＭ　５の処理プログラムに従って
次のように日本語文の圧縮処理を行なう。

文書メモＩＪ　ｌから読み出された日本語の文は、順に
、単語を単位として区切られる。これら区切シ操作の単
位としての単語は、以前に定義した概念を含み、必らず
しも文法的な意味での単語（名詞、動詞など）と一致し
なくてもよく、またハフマン法を用いた場合のように１
文字ずつの漢字又は平仮名を単位とするのでもない。

より詳細には、本実施例では、符号圧縮の対象とする日
本語文字列について次の規則にて文字列の区切シ操作を
行なう。すなわち区切り操作の単位は、ひとまとまりの
連続した漢字列、ひとまとまりの連続したカタカナ列（
長音「−」を含む）、ひとまとまりの連続した数字列、
ひとまとまりの連続したアルファベット列（ハイフン、
アポストロフィを含む）、ひとまとまりの連続したひら
がな列、１文字の記号である。

これらのいずれかが日本語文中に現われると、それをひ
とまとまりの区切シの単位、すなわち以前に定義した「
単語」として以降の圧縮処理の単位とする。なお、ひら
がなについては、通常の日本語文はこれが長く続くこと
が多いので、その区切シの字数に上限を設定してもよい
。

次に文書中に出現するすべての単語の表を作成し、この
表を出現頻度の順に組分けする（第５図、ステップ１Ｇ
）。この実施例によれば、単語表のすべての単語を、出
現頻度の高い順に、１〜１２６位の第１組と、１２７〜
３２８９４位の第２組と、３２８９６位以下の第３組と
に組分けする。第１組の１２６個の単語の表（上位単語
表）２Ｇは、第２図に示すようになる。この場合各々の
単語は、１〜３語長を有し、１語長が２バイトずつのデ
ータとして上位単語テーブル２０に収容される。上位単
語テーブル２ｏの各エントリは、２バイト長の索引テー
ブル２２によって指定される。これらの単語には、表２
０の１番目の単語から順に、圧縮コード′０２’　ｈ、
’０３’ｈ、・・・Ａ７Ｆ’ｈが割当てられる（ステッ
プ１１）。これらの圧縮コード２４は、第３図に示すよ
うに最上位ピットＭＳＢが「０」の１バイト長コードで
ある。なお“ｈ”は、１６進法表記であることを示し、
例えばコード′０２″　ｈは、２進法で表わすとｒｏｏ
ｏｏｏｏｉｏＪ　テある。コード’０１″　ｈはシフト
コードであり、これは、日本語の文書に外国語データが
混在する場合、日本語の部分から外国語の部分へ、及び
外国語部分から日本語部分へのそれぞれの境目に挿入さ
れ、これから先は外国語の部分又は日本語の部分として
処理すべきことが示される。このシフトコードＡ０１″
ｈと、後述の全０のバイト′″ｏｏ’ｈは上位圧縮コー
ド２４では定義されない。

次の１２７〜３２８９４位の表（上位単語表）２６にお
いては、第４図に示すように、３２７６８個の単語に２
バイト長の°５ｏｏｏ’　ｈ〜’ＦＦＦＦ″ｈの圧縮コ
ード２８（第３図）が割当てられる（ステ、プ１２）。

また、これらの単語は、単語の語長に従って、長さ１の
単語、長さ２の単語・・・長さｎの単語に分類され、こ
れらの各々のグループにおいて、出現頻度が最も高い単
語、すなわち各グループの先頭単語に対応する圧縮コー
ドが２バイトのコードとして第４図の索引テーブル３０
の左側の欄３２に記録される。索引テーブル３０の右側
の４バイトの欄３４には、このグループに属する先頭単
語のテーブル２６におけるアドレスを示すポインタが記
録される。

第４図の単語表（上位単語表）２６には、１２７〜３２
８９４位のすべての単語が語長に従ってシフトＪＩＳコ
ード又はＡ３０ＩＩコードによってコード化された形で
収容される。

本実施例によれば、この上位単語表２６に含まれる平板
名の文字列（シフ）　ＪＩＳコードで、従って２バイト
で表現されている）は、１バイトのコードに圧縮される
。より詳細には、平板名（ＪＩＳでは８３文字）は、「
あ」のコードとの差分を取った１バイトのコードに変換
される。−ＪＩＳシフトコードによれば、平板名の「あ
」は、第１バイトから第２バイトに亘って、’８２９Ｆ
″によって表現されているが、これを“ｏｏ″ｈとして
表わし、全部の平板名を’ｏｏ’ｈからゝ５３’　ｂｔ
での１６進２桁コードによって表わすようにする。この
ようにすると、全部の平板名は、ＭＳＢが「０」の１バ
イトによって表わすことができるため、データが圧縮さ
れたことになる。また、シフトＪＩＳコードによれば、
漢字、平仮名１炸仮名、アルファベット及び他の１文字
の記号は、第１バイトのＭＳＢが「１」となるようにコ
ード化されるので、　ＭＳＢがｒＯＪの圧縮コードとは
ＭＳＢによって識別することができる。これらの作成さ
れた単語表２０および２６は、中央処理装置４から単語
表メモリ２に蓄積される。

上位単語表２０と上位単語表２６が作成された後、まず
、前記のように区切られた日本語の文書の１区切シずつ
の文字列を取出しくステップ１３）、第１の文字列即ち
最初の単語が１２６位までの出願頻度に含まれるか否か
を判定する（ステップ１４）。１２６位までの単語は下
位単語表２０の検索によって、′″０２’ｈ−Ａ７Ｆ’
ｈまでの１バイトの圧縮コード２４　（ＭＳＢは「０」
となる）に置換して、圧縮された日本語の文の第１の文
字列とする（ステップ１５）。

含まれないときは、３２８９４位までに含まれるか否か
を定め（ステップ１６　）、３２８９４位までの単語は
、下位単語表２６の検索によって、’５ｏｏｏ’　　ｈ
から°ＦＦＦＦ’　　ｈまでの２バイトの圧縮コード２
８（第１バイトのＭＳＢは「１」となる）にして、圧縮
された日本語の文の第１番目の文字列とする。３２８９
５位以下の出現類１　　　度の単語は、圧縮しても、全
体としての圧縮効果にはほとんど寄与しないので、圧縮
コードを使用せず、その語を表わすコード（シフ）　Ｊ
Ｉ８コード又はＡＳＣ！ＩＩコード）の前に「オールＯ
」の１バイ）３６ａと、これに続くその文字列の長さす
なわち単語長を示す１バイト３６ｂとを付加したコード
３６（第３図）を第１の文字列とする（ステップ１゛７
）。このため、上位圧縮コード２４にヌルコード００″
ｈは使用しない。これを終ると次の語を取シ出しくステ
ップ１９）、このようＫして順次日本語の文を最後の区
切シまで圧縮コードによって表されたデータに変換する
。このように圧縮されたデータは、中央処理装置４によ
シ圧縮文書メモリ３に格納される。

このように１、圧縮処理では、下位単語表２０と下位単
語表２６と圧縮された日本語の文書との３種類の文書が
作成される。

次に第６図を参照して圧縮データを復元して元のデータ
とする操作について説明する。圧縮されたデータを元の
シフ）　ＪＩＳコード及びＡＳＣＩＩコードの文字列に
復元するには、圧縮データの第１の区切シからデータを
取出し、このデータに基づいて、下位単語表２６及び下
位単語表２０から対応する文字列を取出し、以下順に最
後の区切ｂｔでこの操作を反復する。

先ずステップ４０では、圧縮文書メモリ３よシ読み出さ
れた圧縮データから１バイトを取出し、ステップ４１で
そのＭＳＢが「１」か否かを定める。ＭＳＢが「１」な
らば、この単語は下位単語表２６に含まれており、次の
バイトに亘ってその単語の圧縮コードが書込まれている
。そこで、このＭＳＢがｒｌＪのバイトと共に、次のバ
イトも取出し、圧縮コード２８を見出し、単語表メモリ
２に格納されている第４図の索引テーブル３０を検索す
る。これによって、この圧縮コード２８に対応する単語
と同じ語長の先頭の単語のコードと、単語テーブル２６
での位置及び語長が得られるので、これらの情報から元
の単語の最初のバイトを単語テーブル２６から切出すこ
とができる（ステ、プ４２）。

ところで、日本語データ部分から取出した圧縮されない
単語は、シフ）ＪＩＳコードで、従って第１バイトのＭ
ＳＢが「１」となるような２バイトで表わされているが
、平板名の文字列は前記のように「あ」をＡｏｏ’　ｈ
とした１バイトのコードで、従ってＭＳＢが「０」とな
るような１バイトのコードで表わされている。従って最
初に取出した１バイト（文字列の第１バイトに相当する
）のＭＳＢが「０」であ為かがステップ４３で判定され
る。「０」ならば、このバイトは平板名の文字列のうち
１つの平板名を表わしているので、ステップ４４におい
てこれに「あ」のコードｌ’−８２９Ｆ　Ｊを加えて元
の２バイトのシフトＪＩＳコードに復元する。前記バイ
トのＭＳＢがｒｌＪならば、ステップ４５において、次
のバイトと共に、平仮名以外の文字列又は記号のシフト
ＪＩＳコードとして切出す。

ところで、ステ、プ４１でＭＳＢが「１」でなければ、
ステップ４６で、そのバイトが「オール０」か否かが定
められ、「オール０」ならば、ステップ４−７に進み、
次のバイトで指定された数のバイト数だけ以降のバイト
から切出す。

「オール０」でなければ、ステ、プ４８に進み、そのバ
イトに示された順位の文字列を上位単語表２０から切出
す。これによシ元の日本語文書の第１文字列すなわち最
初の単語が復元される。

ステップ４４，４５．４７及び４８からはいずれもステ
ップ４０の前の段階に戻り、前記の手順が圧縮文書メモ
リ３の文書の末尾まで反復される。このようにして復元
された文書は、文書メモリＩ　Ｋ蓄積され、また出力装
置（図示せず）から出力される。

なお、本実施例では、単語表２０および２６の作成は圧
縮すべき日本語文における単語出現頻度を基礎としてい
たが、一般的な日本語文の統計的処理により単語出現頻
度を確立し、それに基づいて単語表２０および２６を作
成してもよい。

効果１　　　　　以上のように、本発明によれば、従来のよ
うに１文字を単位としてその出現頻度に基づいてコード
化を行なった場合に比べて、高い圧縮率が達成される。

また、文法上の単語を単位とした頻度算出は行なわない
ので、構文解析を行なわなくてよい。平仮名の文字列は
、実施例では「あ」のコードとの差分をとった１バイト
のコードとして処理することによって、シフ）　ＪＩＳ
コードをそのまま用いた場合に比べて圧縮率が更に高く
なる。また、平仮名の文字列については、動詞の語尾に
助動詞を続ける場合のように、語長が相当に長くな勺、
種類も多くなる。そのような場合は、例えば４字又は５
字のような所定の長さに制限を設けることにより、文字
列の種類が少なくなり、圧縮率が高まる可能性も提供さ
れる。本発明は、日本語のみならず、分かち書き表記を
しない自然言語の文データにも効果的に適用される。

【図面の簡単な説明】

第１図は、本発明による日本語文書の圧縮・復元方式に
用いるハードウェアの構成例を示すブロック図、第２図は、上位単語表を示す説明図、第３図は、圧縮コードの例を示す図、第４図は下位単語衣を示す説明図、第５図は、日本語文書の圧縮処理を説明するための流れ
図、第６図は、圧縮処理された文書を元の圧縮処理前の状態
に復元するための流れ図である。１・・・・・・日本語文書メモリ２・・・・・・単語表メモリ３・・・・・・圧縮文書メモリ４・・・・・・中央処理装置

Claims

【特許請求の範囲】１、符号圧縮の対象であるコード化された日本語文を所
定の単位にて区切り、該所定の単位は、ひとまとまりの
連続した漢字列、ひとまとまりの連続したカタカナ列、
ひとまとまりの連続した数字列、ひとまとまりの連続し
たアルファベット列、ひとまとまりの連続したひらがな
列、および１文字の記号のうちの少なくともいずれかを
含み、前記区切った文字列のそれぞれについて前記日本語文に
おける出現頻度を判定し、該区切った文字列のうち出現頻度の相対的に高いものは
相対的に短いコードで表わし、出現頻度の相対的に低い
ものは相対的に長いコードで表わすことを特徴とする日
本語文の圧縮方法。２、特許請求の範囲第１項記載の方法において、前記ひ
とまとまりの連続したひらがな列は、その最大の字数が
制限されていることを特徴とする日本語文の圧縮方法。