JPS62165238A - 電子辞書の検索方法 - Google Patents

電子辞書の検索方法

Info

Publication number
JPS62165238A
JPS62165238A JP61007712A JP771286A JPS62165238A JP S62165238 A JPS62165238 A JP S62165238A JP 61007712 A JP61007712 A JP 61007712A JP 771286 A JP771286 A JP 771286A JP S62165238 A JPS62165238 A JP S62165238A
Authority
JP
Japan
Prior art keywords
word
character
data
remainder
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP61007712A
Other languages
English (en)
Other versions
JPH0436429B2 (ja
Inventor
Yoshizo Saito
斎藤 佳三
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP61007712A priority Critical patent/JPS62165238A/ja
Publication of JPS62165238A publication Critical patent/JPS62165238A/ja
Priority to US07/646,358 priority patent/US5297038A/en
Publication of JPH0436429B2 publication Critical patent/JPH0436429B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明はワードプロセッサ、タイプライタ等を含む種々
の言語処理装置に付随する電子辞書の検索方法に関する
(従来の技術) 欧文ワードプロセッサ、欧文タイプライタ等に付属され
る電子式単語辞書において、スペルチェツク機能は重要
であり、かつこのようなスペルチェック処理はできる限
り迅速に行いたいという要請がある。そこでスペルチェ
ックを行うに当り、例えば第9表に例示するように、辞
書に登録する単語群を頭文字及び文字数によって2次元
的にグループ分けし、該当する単語が属するグループ内
でのみ検索することが考えられる。
(発明が解決しようとする問題点) ところが上記検索方法によれば、電子辞書に登録される
単語群をグループ分けしているにもかかわらず、なお個
々のグループに属する単語の個数がかなりの多数にのぼ
るので(例えば頭文字が“C”で8文字単語は1154
語)、該当する単語の検索に要する時間が長くなるとい
う問題があった。そのため、タイプライタにおけるリア
ルタイム処理には供し難い。
父上記検索方法においては、各単語が1文字単位でコー
ド化されて電子辞書に登録されるようになっているので
、1語当りの記憶に要する容量が文字数によって変動し
、特に文字数の多い単語の場合、1語当りの記憶容量が
大きくなるという問題がある。しかも文字数の多い単語
では、1語当りの検索時間もかなり長時間となる。
更に又、上記検索方法によれば、万−誤ったスペルの単
語が入力された場合、該当グループ内の全ての単語と照
合した後でなければミススペルと判定することができな
いので、判定時間が長くなるという問題もある。
(問題点を解決するための手段) 本発明は上述した種々の不具合を解消することを目的と
している。そのため、本発明に係る電子辞書の検索方法
は、メモリ装置からなる電子辞書に複数の単語を格納し
て検索を行うに当り、予め各アルファベット文字に対し
文字ウェイトを定めるとともに単語内に各位置ウェイト
を定め、各単語における語頭の文字について文字ウェイ
トと位置ウェイトを乗算した値を予め定めた所定素数で
除算して剰余を求め、引続き後続する各文字について文
字ウェイトと位置ウェイトの乗算値に前回の剰余を加算
した値を前記所定素数で除算して剰余を求める操作を語
尾の文字まで1文字毎に繰り返し行い、語尾の文字に対
する最終剰余として得られたハツシュ値を上位一定桁数
からなり単語の文字数が奇数列の場合と偶数列の場合と
を区別するインテ・ノクスと下位一定桁数のデータに分
割して各単語のデータを前記電子辞書にインデックスが
共通なグループ毎に登録しておき、検索すべき単語につ
いて前記ハツシュ値を算出し、該検索単語のデータと前
記電子辞書内の検索単語のインデックスに対応するグル
ープのデータ群との一致又は不一致を照合するようにし
たものである。
その場合、各グループに属するデータ群を数値の小さい
順に登録することが好適である。
(実施例) 以下、本発明の実施例について添付図面及び添付図表を
参照して説明する。
図面は本発明に係る検索方法を適用しうる言語処理装置
を示すブロック図である。同図において、1は言語処理
装置に文字、単語情報を入力するための入力装置であっ
て、具体的には例えば鍵盤装置、タブレット装置、OC
R(光学的文字読取装置)、磁気テープ装置等が使用さ
れる。
2は入力装置lに接続され、入力装置1によって入力さ
れて編集された文字、単語情報を保存する記憶装置であ
って、例えばコアメモリ、ICメモリ、磁気ディスク装
置等が使用される。
3は記憶装置2に接続され、記憶装置2で保存された情
報を出力する出力装置であって、例えば各種プリンタ、
ディスプレイ装置、磁気テープ装置、磁気ディスク装置
等が使用される。
4は記憶装置2に接続されるスペルチェック用電子辞書
であって、例えばコアメモリ、ICメモリ、ROM、磁
気ディスク装置等により構成される。後述するように該
辞書4はスペルチェ7り処理専用の演算処理部を備え、
記憶装置2がらの間合せに応じて、入力された単語のス
ペルが正しいか否かの情報を提供しうるようになってい
る。
又、5は各装置1〜4に接続される制御装置で、例えば
コンピュータによって構成され、各装置1〜4間におけ
る信号の授受の制御を行う。
次に、本発明におけるハツシュ法による欧文単語コード
化について述べる。
このコード化に際しては、まず第3表に大文字のアルフ
ァベットの一部を例示するように、各文字にそれぞれ2
進数からなる固有の文字ウェイト(便宜上10進表示で
表す)を定める。なお第3表では省略しているが、小文
字のアルファベット、数字等に対しても同様に文字ウェ
イトが定められる。
それとともに第4表に示すように、単語内の各文字位置
に対し、それぞれ2進数からなる固有の位置ウェイト(
便宜上16進表示で表す)を定める。なお、第4表には
1番目〜6番目の位置ウェイトが例示されているが、7
番目以降についても同様の位置ウェイトが定められる。
次に、上記文字ウェイト及び位置ウェイトに基いて、下
記の手順で各単語のハツシュ値を算出する。
(i)すなわち、まず各単語の1文字目(語頭)の文字
の文字ウェイトと位置ウェイトを乗算する。例えば“A
IR”という単語の場合、“A”の文字ウェイト“60
”と1文字目の位置ウェイト”00080000”を乗
算する。その場合、文字ウェイトを3ビット単位に分割
して位置ウェイトに乗算することが好適である。そして
、その乗算値を22?に最も近い素数で除算して剰余を
求め、該剰余を記憶する。
(ii )引続き、2文字目の文字の文字ウェイトと位
置ウェイトを乗算した値I5こ1文字目について求めた
剰余を加算してその値を上記素数で除算し、新たな剰余
を算出する。以下、最後(語尾)の文字まで1文字毎に
同様の算出を繰り返し、最終的に求めた剰余をその単語
のハツシュ値とする。ここでは、各回の除算における除
数として227に最も近い素数を選定しているので、上
記ハツシュ値は全て27桁以内の2進数で表現される。
なお、次数を変えることによって、ハツシュ値の桁数を
任意に変更できる。
第5表にアルファベットの冒頭部分について上記手順で
ハツシュ値を算出した結果を例示する。
このようにして求めたハツシュ値を昇り順(数値の小さ
い順)に並べ換えたものの先頭部分を第6表に示す。こ
れら第5,6表においては、便宜乗ハツシュ値を8進表
示で表わしている。
上記のようにしてハツシュ法によるコード化が終了すれ
ば、次に各単語のハツシュ値を上位11桁(2進表示の
場合)のインデックス部分く以下単にインデックスとい
う)と下位16桁のデータ部分(以下単にデータという
)に分割し、インデックスの共通な単語毎にグループ分
けを行う。インデックスは単語の文字数が奇数列の場合
と偶数列の場合とで区別されている。例えば、第6表に
示す単語群のうち、ハツシュ値が2”(8進表示におけ
る2 00000)未満の43個の単語群nevus−
accommodatorはインデックス“0”として
第1番目のグループに分類される。又、ハツシュ値が2
16以上でかつ217未満の単語群はインデックス“1
″として第2番目のグループに分類される。このように
して、全ての単語がインデックスの桁数に対応して分類
される。さらに単語の文字数が奇数か偶数かによって区
別され、奇数文字列、偶数文字列のそれぞれが2048
 (=2”)通りのグループに分類される。なお、イン
デックスの桁数を換えるこによりグループ数を任意に増
減することができる。
第1表及び第2表に各グループに属する単語の個数(便
宜上10進表示で表す)を示す、これら表の欄外の縦軸
には、グループ番号の上位3I?i(各桁を16進表示
で表す)が、欄外の横軸にはグループ番号の最下位の1
桁(8進表示で表す)が示されている。同表から明らか
なように、本性ではグループ数を増加させることにより
、個々のグループに属する単語の個数が減少している。
ちなみに、本例では、グループ内の登録個数が最大43
H=67であるか、50回以上アクセスするのが409
6グル一プ中5個とばらつきが平均化され、平均して3
0個以内のアクセスで探索が完了する。
以上のようにグループ化された単語のデータは、各グル
ープ毎にそれぞれ昇り順に辞書4に格納される。又、第
1表及び第2表に示される各グループの単語数に基いて
各グループの先頭アドレスが求められて記憶される(第
7表参照)。これらのアドレスはスペルチェック時にお
ける該当グループの選択に利用される。
以下、上記辞書4によるスペルチェック処理について述
べる。
記憶装置2から辞書4にスペルチェックを行うべき単語
(以下検索単語という)が送られると、辞書4内の図示
しない演算処理部により上述と同様の演算方法で検索単
語のハツシュ値が算出される。
引続き、検索単語のインデックスにより該当グループが
判別された後、上記検索単語のデータと該当グループに
属するデータ群との一致又は不一致が順次照合される。
照合の結果、検索単語のデータが8亥当グループのいず
れかのデータと一致すれば、記憶装置2に正しいスペル
である旨を示す信号が送信される。一方、検索単語のデ
ータが該当グループのいずれのデータとも一致しなけれ
ば、記憶装置2にミススペルである旨を示す信号が送信
される。末法では各グループのデータが昇り順に配列さ
れているので、特にミススペルの場合、検索単語のデー
タが該当グループのデータ群のうちいずれかのデータよ
り小さくなり、かつそれまでのいずれのデータとも一致
しなければ、その時点でミススペルの判定を下すことが
でき、処理時間の短縮化が図れる。
ところで第8表に例示するように、末法においてはシノ
ニム(同義語)が発生する。ここでシノニムとは、2語
以上の単語のハツシュ値が同一になることをいう。しか
しながら、このようにシノニムは辞書4に格納する単語
の総数72000語中32語のみであり、誤認識は35
00語に対し1語と極めて稀にしか生じない。
コ0ロロ0ロロ0ロロロロロロ ロロロロロ0口0口で
口(9)口co co t−ロヘ01−ト0へ0 の口
■0わ−=へ〇−ロロ0ローー〇−〇(:l Q cX
3マヘー −一(へ)(へ)−一一一ロ0ロ0ロロロロ
ロOo口0ロロロロ 0ロ0ロロOロ0ロロロロe10
ロロロロ0ロooOロo 0000000口0eX)(
3)ロロ0ωトヘω口〈lロローの ト0υロー<!−
−−ロー0−m elロー−ロー++l−o−m  −
−F−I C:r +−1−1−1−C1ロ0ロロロロ
ロロロ0ロロロロロ0000000000000000
0000口00oOロ ロロ0ロCロロC口第3表 第4表 第7表 第8表 (発明の効果) 以上述べたように、本発明によれば、単語群をグループ
分けして辞書に登録するに当り、ハツシュ値のインデッ
クスの桁数を増減することによってグループ数、換言す
ればグループ当りの単語の個数を調整することができる
。その場合、インデックスの桁数を充分大きく設定する
ことにより、前記頭文字及び文字数によるグループ分け
の場合よりもグループ数を増やして、それだけグループ
当りの単語数を減少させることができる。従って、スペ
ルチェックの所要時間を短縮することができる。
又前述したように、従来は各単語を1文字車位でコード
化して辞書に登録していたのに対し、本発明ではハツシ
ュ法の採用により単語単位でコード化して登録するよう
にしたので、1語当りの記憶容量を一定にするとともに
該1語当りの記憶容量を充分小さくすることができる。
従って全辞書容量も低減する。
【図面の簡単な説明】
図面は本発明に係る電子辞書の検索方法に適用しうる言
語処理装置の実施例を示すブロック図である。 l・・・入力装置   2・・・記憶装置3・・・出力
装置   4・・・辞書 5・・・制御装置

Claims (1)

  1. 【特許請求の範囲】 1)メモリ装置からなる電子辞書に複数の単語を格納し
    て検索を行うに当り、 予め各アルファベット文字に対し文字ウェ イトを定めるとともに単語内に各位置ウェイトを定め、 各単語における語頭の文字について文字ウ ェイトと位置ウェイトを乗算した値を予め定めた所定素
    数で除算して剰余を求め、引続き後続する各文字につい
    て文字ウェイトと位置ウェイトの乗算値に前回の剰余を
    加算した値を前記所定素数で除算して剰余を求める操作
    を語尾の文字まで1文字毎に繰り返し行い、語尾の文字
    に対する最終剰余として得られ たハッシュ値を上位一定桁数からなり単語の文字数が奇
    数列の場合と偶数列の場合とを区別するインデックスと
    下位一定桁数のデータに分割して各単語のデータを前記
    電子辞書にインデックスが共通なグループ毎に登録して
    おき、 検索すべき単語について前記ハッシュ値を 算出し、該検索単語のデータと前記電子辞書内の検索単
    語のインデックスに対応するグループのデータ群との一
    致又は不一致を照合するようにしたことを特徴とする電
    子辞書の検索方法。 2)各グループに属するデータ群を数値の小さい順に登
    録した特許請求の範囲第1項記載の電子辞書の検索方法
JP61007712A 1985-09-27 1986-01-16 電子辞書の検索方法 Granted JPS62165238A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP61007712A JPS62165238A (ja) 1986-01-16 1986-01-16 電子辞書の検索方法
US07/646,358 US5297038A (en) 1985-09-27 1991-01-25 Electronic dictionary and method of codifying words therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61007712A JPS62165238A (ja) 1986-01-16 1986-01-16 電子辞書の検索方法

Publications (2)

Publication Number Publication Date
JPS62165238A true JPS62165238A (ja) 1987-07-21
JPH0436429B2 JPH0436429B2 (ja) 1992-06-16

Family

ID=11673354

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61007712A Granted JPS62165238A (ja) 1985-09-27 1986-01-16 電子辞書の検索方法

Country Status (1)

Country Link
JP (1) JPS62165238A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09101965A (ja) * 1995-10-06 1997-04-15 Fuji Xerox Co Ltd 情報登録方法および情報検索方法
GB2327831B (en) * 1997-07-23 2002-10-09 Chantilley Corp Ltd Document or message security arrangements
JP4911028B2 (ja) * 2005-02-24 2012-04-04 富士ゼロックス株式会社 単語翻訳装置、翻訳方法および翻訳プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09101965A (ja) * 1995-10-06 1997-04-15 Fuji Xerox Co Ltd 情報登録方法および情報検索方法
GB2327831B (en) * 1997-07-23 2002-10-09 Chantilley Corp Ltd Document or message security arrangements
JP4911028B2 (ja) * 2005-02-24 2012-04-04 富士ゼロックス株式会社 単語翻訳装置、翻訳方法および翻訳プログラム

Also Published As

Publication number Publication date
JPH0436429B2 (ja) 1992-06-16

Similar Documents

Publication Publication Date Title
US4384329A (en) Retrieval of related linked linguistic expressions including synonyms and antonyms
US3995254A (en) Digital reference matrix for word verification
US4383307A (en) Spelling error detector apparatus and methods
US6470347B1 (en) Method, system, program, and data structure for a dense array storing character strings
CN107704102B (zh) 一种文本输入方法及装置
US4498148A (en) Comparing input words to a word dictionary for correct spelling
US4092729A (en) Apparatus for automatically forming hyphenated words
JPS5921058B2 (ja) デ−タを基準デ−タ項目の1群と反復的同時的に比較する方法および装置
JPH08211987A (ja) 曖昧さの解決論理を備えたキーボード
US5475767A (en) Method of inputting Chinese characters using the holo-information code for Chinese characters and keyboard therefor
JPH0218514B2 (ja)
US5297038A (en) Electronic dictionary and method of codifying words therefor
US4747053A (en) Electronic dictionary
US8024319B2 (en) Finite-state model for processing web queries
JPS62165238A (ja) 電子辞書の検索方法
CN108763468B (zh) 字典排序处理方法、装置及电子学习设备
JPH0378667B2 (ja)
US5404517A (en) Apparatus for assigning order for sequential display of randomly stored titles by comparing each of the titles and generating value indicating order based on the comparison
JP3045886B2 (ja) 手書き入力機能付き文字処理装置
JPH0623973B2 (ja) 文字処理装置の頻度変更方式
JPH0342774A (ja) 情報処理装置
CN114637405A (zh) 汉字输入方法、系统、计算机设备及存储介质
JPH06251204A (ja) 文字認識装置
JPS62278689A (ja) 単語検索方式
JPH03137768A (ja) 文書処理装置