JPS63263561A - 日本語文の圧縮方法 - Google Patents

日本語文の圧縮方法

Info

Publication number
JPS63263561A
JPS63263561A JP62097289A JP9728987A JPS63263561A JP S63263561 A JPS63263561 A JP S63263561A JP 62097289 A JP62097289 A JP 62097289A JP 9728987 A JP9728987 A JP 9728987A JP S63263561 A JPS63263561 A JP S63263561A
Authority
JP
Japan
Prior art keywords
japanese
code
appearance
word
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP62097289A
Other languages
English (en)
Inventor
Shiyou Imasato
詔 今郷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP62097289A priority Critical patent/JPS63263561A/ja
Publication of JPS63263561A publication Critical patent/JPS63263561A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 技術分野 本発明は、所定のコード系に従ってコード化された日本
語の文を圧縮し、また圧縮された文を元のコード系で表
わされた文に復元するための、特にデータベースシステ
ムに使用可能な圧縮・復元方法に関する。
従来技術 従来の日本語の文の圧縮は、1文字を単位としたハフマ
ン法又はその変形によって行なわれている。しかし、圧
縮率を高めるためには、何文字かを1単位の文字列とし
て、この文字列の組が出現頻度に基いたコード化法が有
効である。
たとえば、出現頻度の高い文字列は長さの比較的短いコ
ードによって表わすようにすることが望ましい。一般に
用いられる日本語表記では分ち書きしないので、このよ
うな文字列に日本語の文を区切る場合に、各々1つの意
味を表わす名詞などの単語、または副詞節のような文節
を単位として区切ろうとすると、構文解析が必要となり
、圧縮・復元処理が一層複雑なものとなる。
目的 本発明の目的は、処理を複雑化することなく高い圧縮率
の達成できる日本語文の圧縮方法を提供することにある
構成 本発明は、上記の目的を達成するために、符号圧縮の対
象であるコード化された日本語文を所定の単位にて区切
り、所定の単位は、ひとまとまりの連続した漢字列、ひ
とまとまりの連続したカタカナ列、ひとまとまりの連続
した数字列、ひとまとまりの連続したアルファベット列
、ひとまとまりの連続したひらがな列、および11  
  文字の記号のうちの少なくともいずれかを含み、区
切った文字列のそれぞれについて日本語文における出現
頻度を判定し、区切った文字列のうち出現頻度の相対的
に高いものは相対的に短いコードで表わし、出現頻度の
相対的に低いものは相対的に長いコードで表わす日本語
文の圧縮方法を特徴とする。
なお、本明細書において「単語」とは、1以上の漢字の
連続列、長音記号を含めた1以上の片仮名の連続列、l
以゛上の数字の連続列、ノ・イフンやアポストロフィー
を含めた1以上のアルファベットの連続列、1以上の平
仮名の連続列、並びに、各々1文字からなる記号を意味
するものとする。なお平仮名の連続列はその長さを制限
してもよい。
次に本発明の一実施例を示した図面を参照して更に説明
する。
第1図は、本発明によるデータ圧縮方法及び復元方法を
実施するために必要なノ・−ドウエアの構成例を示して
いる。本実施例は、日本語の文書を記憶するための通常
の書換え可能な日本語文書メモリ1を有し、このメモリ
1には、日本語の文書が本実施例ではシフトJISコー
ドに従ってコード化された形で記憶される。この文書は
、たとえばAs(JIコードで表わされた英語などの表
音文字を分かち書きする外国語で書かれた部分、又は1
文字ずつの記号、例えば日本語のnJ&や英語の引用符
、「+」その他の記号が含まれていてもよい。本装置は
また、後述する上位単語表及び下位単語衣を記憶するた
めの単語表メモリ2と、圧縮された文書を記憶するため
の圧縮文書メモリ3とを有する。この圧縮文書は、たと
えば翻訳支援システムの辞書データとして利用される。
日本語文の圧縮・復元処理を実行するために必要な種々
の演算を含む操作は中央処理装置(CPU) 4で行な
われる。中央処理装置4における圧縮および復元処理は
その処理プログラムに従って実行され、これらのプログ
ラムは読出し専用メモリ(ROM)5に格納されている
。同図において実線の矢印は、文書を圧縮する際のデー
タの流れる方向を、また破線の矢印は、圧縮文書を復元
する際のデータの流れる方向を、それぞれ表わしている
。これらのメモリ1,2および3は、RAM 、または
フロンピーディスクなどの外部記憶装置が有利に適用さ
れる。また、予め圧縮した文書を復元するだけの装置な
らば、即ちデータが破線の矢印の方向にしか流れない装
置構成の場合には、単語表メモリ2と圧縮文書メモリ3
とはいずれも読出し専用メモリとしてもよい。
中央処理装置4はROM 5の処理プログラムに従って
次のように日本語文の圧縮処理を行なう。
文書メモIJ lから読み出された日本語の文は、順に
、単語を単位として区切られる。これら区切シ操作の単
位としての単語は、以前に定義した概念を含み、必らず
しも文法的な意味での単語(名詞、動詞など)と一致し
なくてもよく、またハフマン法を用いた場合のように1
文字ずつの漢字又は平仮名を単位とするのでもない。
より詳細には、本実施例では、符号圧縮の対象とする日
本語文字列について次の規則にて文字列の区切シ操作を
行なう。すなわち区切り操作の単位は、ひとまとまりの
連続した漢字列、ひとまとまりの連続したカタカナ列(
長音「−」を含む)、ひとまとまりの連続した数字列、
ひとまとまりの連続したアルファベット列(ハイフン、
アポストロフィを含む)、ひとまとまりの連続したひら
がな列、1文字の記号である。
これらのいずれかが日本語文中に現われると、それをひ
とまとまりの区切シの単位、すなわち以前に定義した「
単語」として以降の圧縮処理の単位とする。なお、ひら
がなについては、通常の日本語文はこれが長く続くこと
が多いので、その区切シの字数に上限を設定してもよい
次に文書中に出現するすべての単語の表を作成し、この
表を出現頻度の順に組分けする(第5図、ステップ1G
)。この実施例によれば、単語表のすべての単語を、出
現頻度の高い順に、1〜126位の第1組と、127〜
32894位の第2組と、32896位以下の第3組と
に組分けする。第1組の126個の単語の表(上位単語
表)2Gは、第2図に示すようになる。この場合各々の
単語は、1〜3語長を有し、1語長が2バイトずつのデ
ータとして上位単語テーブル20に収容される。上位単
語テーブル2oの各エントリは、2バイト長の索引テー
ブル22によって指定される。これらの単語には、表2
0の1番目の単語から順に、圧縮コード′02’ h、
’03’h、・・・A7F’hが割当てられる(ステッ
プ11)。これらの圧縮コード24は、第3図に示すよ
うに最上位ピットMSBが「0」の1バイト長コードで
ある。なお“h”は、16進法表記であることを示し、
例えばコード′02″ hは、2進法で表わすとroo
ooooioJ テある。コード’01″ hはシフト
コードであり、これは、日本語の文書に外国語データが
混在する場合、日本語の部分から外国語の部分へ、及び
外国語部分から日本語部分へのそれぞれの境目に挿入さ
れ、これから先は外国語の部分又は日本語の部分として
処理すべきことが示される。このシフトコードA01″
hと、後述の全0のバイト′″oo’hは上位圧縮コー
ド24では定義されない。
次の127〜32894位の表(上位単語表)26にお
いては、第4図に示すように、32768個の単語に2
バイト長の°5ooo’ h〜’FFFF″hの圧縮コ
ード28(第3図)が割当てられる(ステ、プ12)。
また、これらの単語は、単語の語長に従って、長さ1の
単語、長さ2の単語・・・長さnの単語に分類され、こ
れらの各々のグループにおいて、出現頻度が最も高い単
語、すなわち各グループの先頭単語に対応する圧縮コー
ドが2バイトのコードとして第4図の索引テーブル30
の左側の欄32に記録される。索引テーブル30の右側
の4バイトの欄34には、このグループに属する先頭単
語のテーブル26におけるアドレスを示すポインタが記
録される。
第4図の単語表(上位単語表)26には、127〜32
894位のすべての単語が語長に従ってシフトJISコ
ード又はA30IIコードによってコード化された形で
収容される。
本実施例によれば、この上位単語表26に含まれる平板
名の文字列(シフ) JISコードで、従って2バイト
で表現されている)は、1バイトのコードに圧縮される
。より詳細には、平板名(JISでは83文字)は、「
あ」のコードとの差分を取った1バイトのコードに変換
される。−JISシフトコードによれば、平板名の「あ
」は、第1バイトから第2バイトに亘って、’829F
″によって表現されているが、これを“oo″hとして
表わし、全部の平板名を’oo’hからゝ53’ bt
での16進2桁コードによって表わすようにする。この
ようにすると、全部の平板名は、MSBが「0」の1バ
イトによって表わすことができるため、データが圧縮さ
れたことになる。また、シフトJISコードによれば、
漢字、平仮名1炸仮名、アルファベット及び他の1文字
の記号は、第1バイトのMSBが「1」となるようにコ
ード化されるので、 MSBがrOJの圧縮コードとは
MSBによって識別することができる。これらの作成さ
れた単語表20および26は、中央処理装置4から単語
表メモリ2に蓄積される。
上位単語表20と上位単語表26が作成された後、まず
、前記のように区切られた日本語の文書の1区切シずつ
の文字列を取出しくステップ13)、第1の文字列即ち
最初の単語が126位までの出願頻度に含まれるか否か
を判定する(ステップ14)。126位までの単語は下
位単語表20の検索によって、′″02’h−A7F’
hまでの1バイトの圧縮コード24 (MSBは「0」
となる)に置換して、圧縮された日本語の文の第1の文
字列とする(ステップ15)。
含まれないときは、32894位までに含まれるか否か
を定め(ステップ16 )、32894位までの単語は
、下位単語表26の検索によって、’5ooo’  h
から°FFFF’  hまでの2バイトの圧縮コード2
8(第1バイトのMSBは「1」となる)にして、圧縮
された日本語の文の第1番目の文字列とする。3289
5位以下の出現類1   度の単語は、圧縮しても、全
体としての圧縮効果にはほとんど寄与しないので、圧縮
コードを使用せず、その語を表わすコード(シフ) J
I8コード又はASC!IIコード)の前に「オールO
」の1バイ)36aと、これに続くその文字列の長さす
なわち単語長を示す1バイト36bとを付加したコード
36(第3図)を第1の文字列とする(ステップ1゛7
)。このため、上位圧縮コード24にヌルコード00″
hは使用しない。これを終ると次の語を取シ出しくステ
ップ19)、このようKして順次日本語の文を最後の区
切シまで圧縮コードによって表されたデータに変換する
。このように圧縮されたデータは、中央処理装置4によ
シ圧縮文書メモリ3に格納される。
このように1、圧縮処理では、下位単語表20と下位単
語表26と圧縮された日本語の文書との3種類の文書が
作成される。
次に第6図を参照して圧縮データを復元して元のデータ
とする操作について説明する。圧縮されたデータを元の
シフ) JISコード及びASCIIコードの文字列に
復元するには、圧縮データの第1の区切シからデータを
取出し、このデータに基づいて、下位単語表26及び下
位単語表20から対応する文字列を取出し、以下順に最
後の区切btでこの操作を反復する。
先ずステップ40では、圧縮文書メモリ3よシ読み出さ
れた圧縮データから1バイトを取出し、ステップ41で
そのMSBが「1」か否かを定める。MSBが「1」な
らば、この単語は下位単語表26に含まれており、次の
バイトに亘ってその単語の圧縮コードが書込まれている
。そこで、このMSBがrlJのバイトと共に、次のバ
イトも取出し、圧縮コード28を見出し、単語表メモリ
2に格納されている第4図の索引テーブル30を検索す
る。これによって、この圧縮コード28に対応する単語
と同じ語長の先頭の単語のコードと、単語テーブル26
での位置及び語長が得られるので、これらの情報から元
の単語の最初のバイトを単語テーブル26から切出すこ
とができる(ステ、プ42)。
ところで、日本語データ部分から取出した圧縮されない
単語は、シフ)JISコードで、従って第1バイトのM
SBが「1」となるような2バイトで表わされているが
、平板名の文字列は前記のように「あ」をAoo’ h
とした1バイトのコードで、従ってMSBが「0」とな
るような1バイトのコードで表わされている。従って最
初に取出した1バイト(文字列の第1バイトに相当する
)のMSBが「0」であ為かがステップ43で判定され
る。「0」ならば、このバイトは平板名の文字列のうち
1つの平板名を表わしているので、ステップ44におい
てこれに「あ」のコードl’−829F Jを加えて元
の2バイトのシフトJISコードに復元する。前記バイ
トのMSBがrlJならば、ステップ45において、次
のバイトと共に、平仮名以外の文字列又は記号のシフト
JISコードとして切出す。
ところで、ステ、プ41でMSBが「1」でなければ、
ステップ46で、そのバイトが「オール0」か否かが定
められ、「オール0」ならば、ステップ4−7に進み、
次のバイトで指定された数のバイト数だけ以降のバイト
から切出す。
「オール0」でなければ、ステ、プ48に進み、そのバ
イトに示された順位の文字列を上位単語表20から切出
す。これによシ元の日本語文書の第1文字列すなわち最
初の単語が復元される。
ステップ44,45.47及び48からはいずれもステ
ップ40の前の段階に戻り、前記の手順が圧縮文書メモ
リ3の文書の末尾まで反復される。このようにして復元
された文書は、文書メモリI K蓄積され、また出力装
置(図示せず)から出力される。
なお、本実施例では、単語表20および26の作成は圧
縮すべき日本語文における単語出現頻度を基礎としてい
たが、一般的な日本語文の統計的処理により単語出現頻
度を確立し、それに基づいて単語表20および26を作
成してもよい。
効果 1     以上のように、本発明によれば、従来のよ
うに1文字を単位としてその出現頻度に基づいてコード
化を行なった場合に比べて、高い圧縮率が達成される。
また、文法上の単語を単位とした頻度算出は行なわない
ので、構文解析を行なわなくてよい。平仮名の文字列は
、実施例では「あ」のコードとの差分をとった1バイト
のコードとして処理することによって、シフ) JIS
コードをそのまま用いた場合に比べて圧縮率が更に高く
なる。また、平仮名の文字列については、動詞の語尾に
助動詞を続ける場合のように、語長が相当に長くな勺、
種類も多くなる。そのような場合は、例えば4字又は5
字のような所定の長さに制限を設けることにより、文字
列の種類が少なくなり、圧縮率が高まる可能性も提供さ
れる。本発明は、日本語のみならず、分かち書き表記を
しない自然言語の文データにも効果的に適用される。
【図面の簡単な説明】
第1図は、本発明による日本語文書の圧縮・復元方式に
用いるハードウェアの構成例を示すブロック図、 第2図は、上位単語表を示す説明図、 第3図は、圧縮コードの例を示す図、 第4図は下位単語衣を示す説明図、 第5図は、日本語文書の圧縮処理を説明するための流れ
図、 第6図は、圧縮処理された文書を元の圧縮処理前の状態
に復元するための流れ図である。 1・・・・・・日本語文書メモリ 2・・・・・・単語表メモリ 3・・・・・・圧縮文書メモリ 4・・・・・・中央処理装置

Claims (1)

  1. 【特許請求の範囲】 1、符号圧縮の対象であるコード化された日本語文を所
    定の単位にて区切り、該所定の単位は、ひとまとまりの
    連続した漢字列、ひとまとまりの連続したカタカナ列、
    ひとまとまりの連続した数字列、ひとまとまりの連続し
    たアルファベット列、ひとまとまりの連続したひらがな
    列、および1文字の記号のうちの少なくともいずれかを
    含み、 前記区切った文字列のそれぞれについて前記日本語文に
    おける出現頻度を判定し、 該区切った文字列のうち出現頻度の相対的に高いものは
    相対的に短いコードで表わし、出現頻度の相対的に低い
    ものは相対的に長いコードで表わすことを特徴とする日
    本語文の圧縮方法。 2、特許請求の範囲第1項記載の方法において、前記ひ
    とまとまりの連続したひらがな列は、その最大の字数が
    制限されていることを特徴とする日本語文の圧縮方法。
JP62097289A 1987-04-22 1987-04-22 日本語文の圧縮方法 Pending JPS63263561A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62097289A JPS63263561A (ja) 1987-04-22 1987-04-22 日本語文の圧縮方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62097289A JPS63263561A (ja) 1987-04-22 1987-04-22 日本語文の圧縮方法

Publications (1)

Publication Number Publication Date
JPS63263561A true JPS63263561A (ja) 1988-10-31

Family

ID=14188345

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62097289A Pending JPS63263561A (ja) 1987-04-22 1987-04-22 日本語文の圧縮方法

Country Status (1)

Country Link
JP (1) JPS63263561A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09212395A (ja) * 1996-01-30 1997-08-15 Sharp Corp テキスト圧縮用辞書作成装置およびテキスト圧縮装置
JP2007087016A (ja) * 2005-09-21 2007-04-05 Fuji Xerox Co Ltd 表示装置及び文字列データベース再定義方法
US7212679B2 (en) 2001-02-27 2007-05-01 Telefonaktiebolaget Lm Ericsson (Publ) Font compression and retrieval
JP2008084341A (ja) * 1999-06-21 2008-04-10 Fujitsu Ltd 構造化文書の圧縮方法および圧縮装置並びに構造化文書圧縮プログラムを記録したコンピュータ読取可能な記録媒体
JP2017022602A (ja) * 2015-07-13 2017-01-26 富士通株式会社 符号化プログラム、符号化方法、符号化装置、復号化プログラム、復号化方法および復号化装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09212395A (ja) * 1996-01-30 1997-08-15 Sharp Corp テキスト圧縮用辞書作成装置およびテキスト圧縮装置
JP2008084341A (ja) * 1999-06-21 2008-04-10 Fujitsu Ltd 構造化文書の圧縮方法および圧縮装置並びに構造化文書圧縮プログラムを記録したコンピュータ読取可能な記録媒体
US7212679B2 (en) 2001-02-27 2007-05-01 Telefonaktiebolaget Lm Ericsson (Publ) Font compression and retrieval
JP2007087016A (ja) * 2005-09-21 2007-04-05 Fuji Xerox Co Ltd 表示装置及び文字列データベース再定義方法
JP4735155B2 (ja) * 2005-09-21 2011-07-27 富士ゼロックス株式会社 表示装置及び文字列データベース再定義方法
JP2017022602A (ja) * 2015-07-13 2017-01-26 富士通株式会社 符号化プログラム、符号化方法、符号化装置、復号化プログラム、復号化方法および復号化装置

Similar Documents

Publication Publication Date Title
Silva de Moura et al. Fast and flexible word searching on compressed text
EP0083393B1 (en) Method of compressing information and an apparatus for compressing english text
JP3566441B2 (ja) テキスト圧縮用辞書作成装置
JP3234104B2 (ja) 圧縮データをサーチする方法及びシステム
EP0294950B1 (en) A method of facilitating computer sorting
JP3277792B2 (ja) データ圧縮方法および装置
US5006849A (en) Apparatus and method for effecting data compression
JP3421700B2 (ja) データ圧縮装置及び復元装置並びにその方法
JP3333549B2 (ja) 文書検索方式
Alhawiti Adaptive models of Arabic text
JPS63263561A (ja) 日本語文の圧縮方法
Al-Fedaghi et al. Morphological compression of Arabic text
JP4057681B2 (ja) 文書情報格納装置及び文書情報格納方法並びに文書情報検索装置及び文書情報検索方法並びに文書情報格納プログラムを記録した記録媒体及び文書情報検索プログラムを記録した記録媒体
Awajan et al. Hybrid Technique for Arabic Text Compression
EP1631920B1 (en) System and method of creating and using compact linguistic data
JP2729416B2 (ja) テキストデータの復元方法
JPH0546358A (ja) テキストデータの圧縮方法
JPH07182354A (ja) 電子文書の作成方法
Nguyen et al. A syllable-based method for vietnamese text compression
JPH0554077A (ja) 単語辞書検索装置
CN100410852C (zh) 字处理方法和装置
Mokter et al. An Efficient Technique for Representation and Compression of Bengali Text
JPH0140372B2 (ja)
JPH07282040A (ja) 日本語情報圧縮方式
JP2785168B2 (ja) 単語検索のための電子辞書圧縮方法及び装置