JPS62165238A

JPS62165238A - 電子辞書の検索方法

Info

Publication number: JPS62165238A
Application number: JP61007712A
Authority: JP
Inventors: Yoshizo Saito; 斎藤　佳三
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1986-01-16
Filing date: 1986-01-16
Publication date: 1987-07-21
Also published as: JPH0436429B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（産業上の利用分野）本発明はワードプロセッサ、タイプライタ等を含む種々
の言語処理装置に付随する電子辞書の検索方法に関する
。

（従来の技術）欧文ワードプロセッサ、欧文タイプライタ等に付属され
る電子式単語辞書において、スペルチェツク機能は重要
であり、かつこのようなスペルチェック処理はできる限
り迅速に行いたいという要請がある。そこでスペルチェ
ックを行うに当り、例えば第９表に例示するように、辞
書に登録する単語群を頭文字及び文字数によって２次元
的にグループ分けし、該当する単語が属するグループ内
でのみ検索することが考えられる。

（発明が解決しようとする問題点）ところが上記検索方法によれば、電子辞書に登録される
単語群をグループ分けしているにもかかわらず、なお個
々のグループに属する単語の個数がかなりの多数にのぼ
るので（例えば頭文字が“Ｃ”で８文字単語は１１５４
語）、該当する単語の検索に要する時間が長くなるとい
う問題があった。そのため、タイプライタにおけるリア
ルタイム処理には供し難い。

父上記検索方法においては、各単語が１文字単位でコー
ド化されて電子辞書に登録されるようになっているので
、１語当りの記憶に要する容量が文字数によって変動し
、特に文字数の多い単語の場合、１語当りの記憶容量が
大きくなるという問題がある。しかも文字数の多い単語
では、１語当りの検索時間もかなり長時間となる。

更に又、上記検索方法によれば、万−誤ったスペルの単
語が入力された場合、該当グループ内の全ての単語と照
合した後でなければミススペルと判定することができな
いので、判定時間が長くなるという問題もある。

（問題点を解決するための手段）本発明は上述した種々の不具合を解消することを目的と
している。そのため、本発明に係る電子辞書の検索方法
は、メモリ装置からなる電子辞書に複数の単語を格納し
て検索を行うに当り、予め各アルファベット文字に対し
文字ウェイトを定めるとともに単語内に各位置ウェイト
を定め、各単語における語頭の文字について文字ウェイ
トと位置ウェイトを乗算した値を予め定めた所定素数で
除算して剰余を求め、引続き後続する各文字について文
字ウェイトと位置ウェイトの乗算値に前回の剰余を加算
した値を前記所定素数で除算して剰余を求める操作を語
尾の文字まで１文字毎に繰り返し行い、語尾の文字に対
する最終剰余として得られたハツシュ値を上位一定桁数
からなり単語の文字数が奇数列の場合と偶数列の場合と
を区別するインテ・ノクスと下位一定桁数のデータに分
割して各単語のデータを前記電子辞書にインデックスが
共通なグループ毎に登録しておき、検索すべき単語につ
いて前記ハツシュ値を算出し、該検索単語のデータと前
記電子辞書内の検索単語のインデックスに対応するグル
ープのデータ群との一致又は不一致を照合するようにし
たものである。

その場合、各グループに属するデータ群を数値の小さい
順に登録することが好適である。

（実施例）以下、本発明の実施例について添付図面及び添付図表を
参照して説明する。

図面は本発明に係る検索方法を適用しうる言語処理装置
を示すブロック図である。同図において、１は言語処理
装置に文字、単語情報を入力するための入力装置であっ
て、具体的には例えば鍵盤装置、タブレット装置、ＯＣ
Ｒ（光学的文字読取装置）、磁気テープ装置等が使用さ
れる。

２は入力装置ｌに接続され、入力装置１によって入力さ
れて編集された文字、単語情報を保存する記憶装置であ
って、例えばコアメモリ、ＩＣメモリ、磁気ディスク装
置等が使用される。

３は記憶装置２に接続され、記憶装置２で保存された情
報を出力する出力装置であって、例えば各種プリンタ、
ディスプレイ装置、磁気テープ装置、磁気ディスク装置
等が使用される。

４は記憶装置２に接続されるスペルチェック用電子辞書
であって、例えばコアメモリ、ＩＣメモリ、ＲＯＭ、磁
気ディスク装置等により構成される。後述するように該
辞書４はスペルチェ７り処理専用の演算処理部を備え、
記憶装置２がらの間合せに応じて、入力された単語のス
ペルが正しいか否かの情報を提供しうるようになってい
る。

又、５は各装置１〜４に接続される制御装置で、例えば
コンピュータによって構成され、各装置１〜４間におけ
る信号の授受の制御を行う。

次に、本発明におけるハツシュ法による欧文単語コード
化について述べる。

このコード化に際しては、まず第３表に大文字のアルフ
ァベットの一部を例示するように、各文字にそれぞれ２
進数からなる固有の文字ウェイト（便宜上１０進表示で
表す）を定める。なお第３表では省略しているが、小文
字のアルファベット、数字等に対しても同様に文字ウェ
イトが定められる。

それとともに第４表に示すように、単語内の各文字位置
に対し、それぞれ２進数からなる固有の位置ウェイト（
便宜上１６進表示で表す）を定める。なお、第４表には
１番目〜６番目の位置ウェイトが例示されているが、７
番目以降についても同様の位置ウェイトが定められる。

次に、上記文字ウェイト及び位置ウェイトに基いて、下
記の手順で各単語のハツシュ値を算出する。

（ｉ）すなわち、まず各単語の１文字目（語頭）の文字
の文字ウェイトと位置ウェイトを乗算する。例えば“Ａ
ＩＲ”という単語の場合、“Ａ”の文字ウェイト“６０
”と１文字目の位置ウェイト”０００８００００”を乗
算する。その場合、文字ウェイトを３ビット単位に分割
して位置ウェイトに乗算することが好適である。そして
、その乗算値を２２？に最も近い素数で除算して剰余を
求め、該剰余を記憶する。

（ｉｉ　）引続き、２文字目の文字の文字ウェイトと位
置ウェイトを乗算した値Ｉ５こ１文字目について求めた
剰余を加算してその値を上記素数で除算し、新たな剰余
を算出する。以下、最後（語尾）の文字まで１文字毎に
同様の算出を繰り返し、最終的に求めた剰余をその単語
のハツシュ値とする。ここでは、各回の除算における除
数として２２７に最も近い素数を選定しているので、上
記ハツシュ値は全て２７桁以内の２進数で表現される。

なお、次数を変えることによって、ハツシュ値の桁数を
任意に変更できる。

第５表にアルファベットの冒頭部分について上記手順で
ハツシュ値を算出した結果を例示する。

このようにして求めたハツシュ値を昇り順（数値の小さ
い順）に並べ換えたものの先頭部分を第６表に示す。こ
れら第５，６表においては、便宜乗ハツシュ値を８進表
示で表わしている。

上記のようにしてハツシュ法によるコード化が終了すれ
ば、次に各単語のハツシュ値を上位１１桁（２進表示の
場合）のインデックス部分く以下単にインデックスとい
う）と下位１６桁のデータ部分（以下単にデータという
）に分割し、インデックスの共通な単語毎にグループ分
けを行う。インデックスは単語の文字数が奇数列の場合
と偶数列の場合とで区別されている。例えば、第６表に
示す単語群のうち、ハツシュ値が２”（８進表示におけ
る２　０００００）未満の４３個の単語群ｎｅｖｕｓ−
ａｃｃｏｍｍｏｄａｔｏｒはインデックス“０”として
第１番目のグループに分類される。又、ハツシュ値が２
１６以上でかつ２１７未満の単語群はインデックス“１
″として第２番目のグループに分類される。このように
して、全ての単語がインデックスの桁数に対応して分類
される。さらに単語の文字数が奇数か偶数かによって区
別され、奇数文字列、偶数文字列のそれぞれが２０４８
　（＝２”）通りのグループに分類される。なお、イン
デックスの桁数を換えるこによりグループ数を任意に増
減することができる。

第１表及び第２表に各グループに属する単語の個数（便
宜上１０進表示で表す）を示す、これら表の欄外の縦軸
には、グループ番号の上位３Ｉ？ｉ（各桁を１６進表示
で表す）が、欄外の横軸にはグループ番号の最下位の１
桁（８進表示で表す）が示されている。同表から明らか
なように、本性ではグループ数を増加させることにより
、個々のグループに属する単語の個数が減少している。

ちなみに、本例では、グループ内の登録個数が最大４３
Ｈ＝６７であるか、５０回以上アクセスするのが４０９
６グル一プ中５個とばらつきが平均化され、平均して３
０個以内のアクセスで探索が完了する。

以上のようにグループ化された単語のデータは、各グル
ープ毎にそれぞれ昇り順に辞書４に格納される。又、第
１表及び第２表に示される各グループの単語数に基いて
各グループの先頭アドレスが求められて記憶される（第
７表参照）。これらのアドレスはスペルチェック時にお
ける該当グループの選択に利用される。

以下、上記辞書４によるスペルチェック処理について述
べる。

記憶装置２から辞書４にスペルチェックを行うべき単語
（以下検索単語という）が送られると、辞書４内の図示
しない演算処理部により上述と同様の演算方法で検索単
語のハツシュ値が算出される。

引続き、検索単語のインデックスにより該当グループが
判別された後、上記検索単語のデータと該当グループに
属するデータ群との一致又は不一致が順次照合される。

照合の結果、検索単語のデータが８亥当グループのいず
れかのデータと一致すれば、記憶装置２に正しいスペル
である旨を示す信号が送信される。一方、検索単語のデ
ータが該当グループのいずれのデータとも一致しなけれ
ば、記憶装置２にミススペルである旨を示す信号が送信
される。末法では各グループのデータが昇り順に配列さ
れているので、特にミススペルの場合、検索単語のデー
タが該当グループのデータ群のうちいずれかのデータよ
り小さくなり、かつそれまでのいずれのデータとも一致
しなければ、その時点でミススペルの判定を下すことが
でき、処理時間の短縮化が図れる。

ところで第８表に例示するように、末法においてはシノ
ニム（同義語）が発生する。ここでシノニムとは、２語
以上の単語のハツシュ値が同一になることをいう。しか
しながら、このようにシノニムは辞書４に格納する単語
の総数７２０００語中３２語のみであり、誤認識は３５
００語に対し１語と極めて稀にしか生じない。

コ０ロロ０ロロ０ロロロロロロ　ロロロロロ０口０口で
口（９）口ｃｏ　ｃｏ　ｔ−ロヘ０１−ト０へ０　の口
■０わ−＝へ〇−ロロ０ローー〇−〇（：ｌ　Ｑ　ｃＸ
３マヘー　−一（へ）（へ）−一一一ロ０ロ０ロロロロ
ロＯｏ口０ロロロロ　０ロ０ロロＯロ０ロロロロｅ１０
ロロロロ０ロｏｏＯロｏ　０００００００口０ｅＸ）（
３）ロロ０ωトヘω口〈ｌロローの　ト０υロー＜！−
−−ロー０−ｍ　ｅｌロー−ロー＋＋ｌ−ｏ−ｍ　　−
−Ｆ−Ｉ　Ｃ：ｒ　＋−１−１−１−Ｃ１ロ０ロロロロ
ロロロ０ロロロロロ００００００００００００００００
００００口００ｏＯロ　ロロ０ロＣロロＣ口第３表第４表第７表第８表（発明の効果）以上述べたように、本発明によれば、単語群をグループ
分けして辞書に登録するに当り、ハツシュ値のインデッ
クスの桁数を増減することによってグループ数、換言す
ればグループ当りの単語の個数を調整することができる
。その場合、インデックスの桁数を充分大きく設定する
ことにより、前記頭文字及び文字数によるグループ分け
の場合よりもグループ数を増やして、それだけグループ
当りの単語数を減少させることができる。従って、スペ
ルチェックの所要時間を短縮することができる。

又前述したように、従来は各単語を１文字車位でコード
化して辞書に登録していたのに対し、本発明ではハツシ
ュ法の採用により単語単位でコード化して登録するよう
にしたので、１語当りの記憶容量を一定にするとともに
該１語当りの記憶容量を充分小さくすることができる。

従って全辞書容量も低減する。

【図面の簡単な説明】

図面は本発明に係る電子辞書の検索方法に適用しうる言
語処理装置の実施例を示すブロック図である。ｌ・・・入力装置　　　２・・・記憶装置３・・・出力
装置　　　４・・・辞書５・・・制御装置

Claims

【特許請求の範囲】１）メモリ装置からなる電子辞書に複数の単語を格納し
て検索を行うに当り、予め各アルファベット文字に対し文字ウェイトを定めるとともに単語内に各位置ウェイトを定め、各単語における語頭の文字について文字ウェイトと位置ウェイトを乗算した値を予め定めた所定素
数で除算して剰余を求め、引続き後続する各文字につい
て文字ウェイトと位置ウェイトの乗算値に前回の剰余を
加算した値を前記所定素数で除算して剰余を求める操作
を語尾の文字まで１文字毎に繰り返し行い、語尾の文字
に対する最終剰余として得られたハッシュ値を上位一定桁数からなり単語の文字数が奇
数列の場合と偶数列の場合とを区別するインデックスと
下位一定桁数のデータに分割して各単語のデータを前記
電子辞書にインデックスが共通なグループ毎に登録して
おき、検索すべき単語について前記ハッシュ値を算出し、該検索単語のデータと前記電子辞書内の検索単
語のインデックスに対応するグループのデータ群との一
致又は不一致を照合するようにしたことを特徴とする電
子辞書の検索方法。２）各グループに属するデータ群を数値の小さい順に登
録した特許請求の範囲第１項記載の電子辞書の検索方法
。