JPS6382061A - デ−タ圧縮方式 - Google Patents

デ−タ圧縮方式

Info

Publication number
JPS6382061A
JPS6382061A JP61225892A JP22589286A JPS6382061A JP S6382061 A JPS6382061 A JP S6382061A JP 61225892 A JP61225892 A JP 61225892A JP 22589286 A JP22589286 A JP 22589286A JP S6382061 A JPS6382061 A JP S6382061A
Authority
JP
Japan
Prior art keywords
phrase
transmission
dictionary
data
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61225892A
Other languages
English (en)
Inventor
Yasuyuki Shirai
康之 白井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP61225892A priority Critical patent/JPS6382061A/ja
Publication of JPS6382061A publication Critical patent/JPS6382061A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 技術分野 本発明はデータ圧縮方式に関し、特に文書を対象とする
データ伝送において、伝送するデータ量の減少、その結
果としての回線使用効率の向上を可能とするデータ圧縮
方式に関する。
従来技術 従来の計算機間等における文書伝送では、文書を単なる
文字の列として認識していたため、実際の文書が特定の
字句パターン、すなわち、単語。
計算機プログラム言語における予約語、変数名等のパタ
ーンの集合という限られた要素から構成されているにも
かかわらず、常に冗長なデータを伝送していた。
従って、文書の内容が全く意味を持たない文字列(例:
“BQ I S#2R・・・・”)であっても、英語や
日本語あるいは計算機言語というような、特定の字句パ
ターンの列(例:“I 1ove you・・・・′り
であっても、元の文書の長さが同じであれば、伝送にも
同じだけの時間を要し1通信回線料等を増大させている
という問題があった。
目     的 本発明は上記事情に鑑みてなされたもので、その目的と
するところは、従来のデータ伝送方式における上述の如
き問題を解消し、従来「文字列」として認識して処理し
ていたものを「字句列」として認識することで、データ
を圧縮し、実際に伝送するデータ量を大幅に削減するよ
うにした。データ圧縮方式を提供することにある。
構   成 本発明の上記目的は、記号化された文書データを圧縮し
て通信手段を介して伝送し、伝送先で元の文書データに
再現するデータ伝送システムにおけるデータ圧縮方式に
おいて、伝送対象となる前記文書データを所定字句単位
に分解した後、該所定字句毎に、予め伝送相手方に伝送
済みの標準字句を登録してある辞書を参照してこれを辞
書中の位置を示す数値コードに変換し、該数値コードの
列を前記伝送相手方に伝送することを特徴とするデータ
圧縮方式によって達成される。
以下、まず1本発明の原理について簡単に説明した後、
実施例に基づいて、本発明の構成をより詳細に説明する
本発明のデータ圧縮方式は、前述の如く、文書データ伝
送時に、伝送するデータ量を相対的に減少させ、伝送効
率を向上させるものである。
一般に、計算機やワードプロセッサ等で作成される文書
の多くは、英文、和文、計算機言語等、ある特定の様式
に従って構成されている。このため、それらの構成要素
は、単語、計算記言語の予約語等、予め広く認識された
ものであることが多い。そこで、それらの1語」を、伝
送に先立って整理しておき、送信側、受信側の双方で辞
書として保持すれば、実際の伝送は上述の「語」(以下
、「字句」と呼ぶ)を指定するコード(字句コード)で
行うことが可能になる。
上述の字句は、多くの場合、複数の文字コード(ASC
II、JIS、EBCDIC等)で表わされているから
、それを1つの字句コードに置換えることで、伝送する
文書データの量を大幅に削減することかできる。すなわ
ち、伝送しようとする文書に含まれる字句が、すべて上
記辞書中に登録されているとすれば、伝送するデータは
、確実に減少する。
一方、字句が上記辞書中に登録されていなければ、送信
側はその字句を新たに上記辞書に追加登録することがで
きる。この場合、追加登録した字句とそれに対応する字
句コードを受信側に知らせなければならない。受信側で
は、受取った字句を新たに受信側の辞書に追加すること
になる。
追加辞書部分の伝送は1文書本体の伝送に先立って行っ
ても良いし1文書の伝送途中に行うことも可能である。
辞書への追加が行われた場合は、字句コードだけでなく
、字句そのものも伝送しなければならないので1元の文
書の伝送と比較すると、字句コードの分だけ伝送データ
量が増加することになる。
しかし、辞書への追加登録が行われるのは、元の文書中
にその字句が表われる最初の1回目だけであり、以後、
同じ字句が表われても字句コーンのみの伝送で済むこと
から、実質的な増加とはならない、一般に、1つの文書
中に同じ字句が繰り返し登場する可能性は高いから、全
体として、本発明による伝送データ量の減少が大きい。
以上が本発明の原理である。以下、実施例に基づいて、
具体的に説明する。
第3図は本発明の一実施例であるデータ圧縮方式を用い
るデータ伝送システムの構成概念図である。図において
、Aは送信側ユニット、Bは受信側ユニットを示してお
り、送信側ユニットAは、後述する如き、本実施例に基
づく文書圧縮を行うための計算機プログラム10.標準
的な字句を格納している標準辞書11.受信側Bへの伝
送手段12゜圧縮前後の伝送用文書デーを格納する文書
ファイル13.14等から構成されている。また、上記
受信側ユニットBは、同じく後述する如き、本実施例に
基づく圧縮文書を再生するための計算機プログラム20
.前記送信側ユニットAと同様の標準辞書21、受信手
段22.再生した文書デーを格納する文書ファイル23
等から構成される装置 以下、本実施例の動作を説明する。以下に説明する実施
例においては、ASCII7ビツトコードを用いて作成
された文書について、上記字句コードを構成する例を示
す。
第4図に示す例は、データ伝送を8ビット単位で行った
場合、ASCII7ビツトコードでは上位1ビツトが余
るので、これを利用して、字句コードであるか(a)1
通常のASCIIコードであるか(b)を識別するよう
にしたものである。
第4図(a)の例では、3文字(3バイト)以上のデー
タ量を必要、とする字句は、すべて2バイトに置換える
ことができるので1文書全体のデータ量を減少させるこ
とが可能である。
第1図に送信側の動作の詳細を、第2図に受信側の動作
の詳細を示した。
第1図に示した送信側の動作は、まず、文書ファイルか
ら1字句分を切出しく処理31)、切出した字句が標準
辞書に含まれているか否かをチェックする(処理32)
、含まれていれば、直接、処理34に進み、含まれてい
ない場合には、当該字句を辞書に追加登録した(処理3
3)後、処理34に進む。
処理34では、上記字句を当該字句が登録されている辞
書中の位置を示す数値コードに置換え、処理35では、
上記数値コードを前記圧縮文書ファイル14に書き込む
。文書ファイルに文書がなくなるまで処理31〜35を
繰り返しく処理36)、辞書の追加部分をまず送信した
(処理37)後、圧縮文書ファイル14の内容を受信側
に伝送する(処理38)。
第2図に示した受信側の動作は、上記辞書の追加部分を
受信した(処理41)後、圧縮された数値コードを順次
受取り、受取った数値コードを辞書を利用して元の字句
に復元しく処理42.43)、文書ファイル23に書き
出す(処理44)、全部の圧縮文書が終了すれば(処理
45)、処理を終了する。
上記実施例によれば、前述の如き、英文、和文または計
算機言語によるプログラム等の特定の様式に従った文書
については、それに見合った標準辞書を用意することで
、伝送するデータ量を減少させることができる。特に、
英文(欧文)または計算機言語の如く、字句の分離個所
が明確な文書は処理も容易で、データ圧縮の効果も大き
い。
これに対して、文書の内容が全くランダムな文字列の場
合、および、字句の分離個所がはっきりせず、字句の切
出しが困難な文書の場合は、効果は小さくなるのは、や
むを得ない。
なお、本発明は上記実施例に示した範囲に限定されるべ
きものではなく、種々の応用が可能であることは言うま
でもない。
効   果 以上述べた如く、本発明によれば、記号化された文書デ
ータを圧縮して、通信手段を介して伝送し、伝送先で元
の文書データに再現するデータ伝送システムにおけるデ
ータ圧縮方式において、伝送対象となる前記文書データ
を所定字句単位に分解した後、該所定字句毎に、予め伝
送相手方に伝送済みの標準字句を登録してある辞書を参
照してこれを辞書中の位置を示す数値コードに変換し、
該数値コードの列を前記伝送相手方に伝送するようにし
たので、実際に伝送するデータ量を大幅に削減するよう
にした。データ圧縮方式を実現できるという顕著な効果
を奏するものである。
【図面の簡単な説明】
第1図、第2図は本発明の一実施例である。送信側、受
信側の動作を示すフローチャート、第3図は本発明の一
実施例であるデータ圧縮方式を用いるデータ伝送システ
ムの構成概念図、第4図は伝送データの構成例を示す図
である。 A:送信側ユニット、B:受信側ユニット、10:計算
機プログラム、11:s準辞書、12:伝送手段、13
:文書ファイル、14:圧縮文書ファイル、20;計算
機プログラム、21:標準辞書、22:受信手段、23
:文書ファイル、31〜38.41〜45:処理ステッ
プ。 第     1     図 第     2    図

Claims (2)

    【特許請求の範囲】
  1. (1)記号化された文書データを圧縮して通信手段を介
    して伝送し、伝送先で元の文書データに再現するデータ
    伝送システムにおけるデータ圧縮方式において、伝送対
    象となる前記文書データを所定字句単位に分解した後、
    該所定字句毎に、予め伝送相手方に伝送済みの標準字句
    を登録してある辞書を参照してこれを辞書中の位置を示
    す数値コードに変換し、該数値コードの列を前記伝送相
    手方に伝送することを特徴とするデータ圧縮方式。
  2. (2)前記辞書を参照した際、該辞書に登録されていな
    い字句が含まれていた場合には、該字句を新たに辞書に
    登録した後、これを前記数値コードに変換して対として
    、前記既登録済み字句の変換された数値コードとともに
    前記伝送相手先に伝送することを特徴とする、特許請求
    の範囲第1項記載のデータ圧縮方式。
JP61225892A 1986-09-26 1986-09-26 デ−タ圧縮方式 Pending JPS6382061A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61225892A JPS6382061A (ja) 1986-09-26 1986-09-26 デ−タ圧縮方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61225892A JPS6382061A (ja) 1986-09-26 1986-09-26 デ−タ圧縮方式

Publications (1)

Publication Number Publication Date
JPS6382061A true JPS6382061A (ja) 1988-04-12

Family

ID=16836510

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61225892A Pending JPS6382061A (ja) 1986-09-26 1986-09-26 デ−タ圧縮方式

Country Status (1)

Country Link
JP (1) JPS6382061A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05127865A (ja) * 1991-10-31 1993-05-25 Sharp Corp テキスト圧縮装置およびテキスト圧縮用辞書の自動構築装置
JP2005301663A (ja) * 2004-04-12 2005-10-27 Fuji Xerox Co Ltd 画像辞書作成装置、符号化装置、画像辞書作成方法及びそのプログラム
JP2005301662A (ja) * 2004-04-12 2005-10-27 Fuji Xerox Co Ltd 画像辞書作成装置、符号化装置、画像辞書作成方法及びそのプログラム
JP2005301664A (ja) * 2004-04-12 2005-10-27 Fuji Xerox Co Ltd 画像辞書作成装置、符号化装置、データファイル、画像辞書作成方法及びそのプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05127865A (ja) * 1991-10-31 1993-05-25 Sharp Corp テキスト圧縮装置およびテキスト圧縮用辞書の自動構築装置
JP2005301663A (ja) * 2004-04-12 2005-10-27 Fuji Xerox Co Ltd 画像辞書作成装置、符号化装置、画像辞書作成方法及びそのプログラム
JP2005301662A (ja) * 2004-04-12 2005-10-27 Fuji Xerox Co Ltd 画像辞書作成装置、符号化装置、画像辞書作成方法及びそのプログラム
JP2005301664A (ja) * 2004-04-12 2005-10-27 Fuji Xerox Co Ltd 画像辞書作成装置、符号化装置、データファイル、画像辞書作成方法及びそのプログラム
US7889926B2 (en) 2004-04-12 2011-02-15 Fuji Xerox Co., Ltd. Image dictionary creating apparatus, coding apparatus, image dictionary creating method

Similar Documents

Publication Publication Date Title
JP3277792B2 (ja) データ圧縮方法および装置
EP0168814B1 (en) Language processing dictionary for bidirectionally retrieving morphemic and semantic expressions
EP0083393B1 (en) Method of compressing information and an apparatus for compressing english text
US4939639A (en) Method of facilitating computer sorting
JP3152868B2 (ja) 検索装置および辞書/テキスト検索方法
JPH0689304A (ja) テキスト処理システムにより使用されるテキストを準備する方法及び装置
JPS58101365A (ja) 機械翻訳システム
US6166666A (en) Method and apparatus for compression and encoding of unicode strings
EP0268069B1 (en) Method of forming a message file in a computer
JPH1153349A (ja) タグ文書の圧縮装置および復元装置,圧縮方法および復元方法,圧縮/復元装置および圧縮/復元方法並びに圧縮,復元もしくは圧縮/復元プログラムを記録したコンピュータ読み取り可能な記録媒体
Severance A practitioner's guide to data base compression tutorial
JPS6382061A (ja) デ−タ圧縮方式
US8463759B2 (en) Method and system for compressing data
JPH0580972A (ja) データ圧縮装置
JPH0546357A (ja) テキストデータの圧縮方法および復元方法
JPS63263561A (ja) 日本語文の圧縮方法
JPH0969785A (ja) データ圧縮方法及びデータ圧縮装置
JPS5822434A (ja) 日本語文章処理システム
JPH03206533A (ja) データ圧縮方式
Rincy et al. Preprocessed text compression method for Malayalam text files
JP2004013680A (ja) 文字コード圧縮・復元装置および同方法
JPS60241157A (ja) 電子辞書を利用した文章デ−タ圧縮方法
JPS6371767A (ja) 文書作成装置
JP2004342029A (ja) 構造化文書圧縮方法及び装置
JPH09312574A (ja) 情報処理装置