JPS6118071A

JPS6118071A - 辞書検索方式

Info

Publication number: JPS6118071A
Application number: JP59137130A
Authority: JP
Inventors: Hideaki Shinohara; 篠原　英彰; Hiroyuki Kaji; 梶　博行
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1984-07-04
Filing date: 1984-07-04
Publication date: 1986-01-25

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔発明の利用分野〕本発明は翻訳処理等の言語処理において多量の辞書デー
タを扱う場合に必要となる、比較的処理速度の遅い大容
量データセットへのアクセス回数をおさえ、辞書検索処
理を高速化する方式に関するものである。

〔発明の背景〕

従来から言語処理（例えば言語間の単語の変換処理）に
おいては、辞書が用いられている。この辞書は多量のデ
ータを記憶しておく必要があり、大容量データセットを
用いることが多い。ところが大容量データセットは比較
的処理速度が遅い。

また、処理対象となる言語データ中には同じ単語が重複
して出現することがあり、それらを出現回数だけ検索し
ていたのでは処理時間が無駄である。

そこで、特開昭５５−１３４４７７号公報に示されるよ
うに、一般に用いられる辞書の他に比較的高速の補助辞
書を用意し、一度検索した辞書データは補助辞書に記憶
しておき、辞書検索の際にはこの補助辞書を先に検索す
るという方式が知られていた。

しかし、前述した重複して出現する単語とは、文章に依
存しない基本語と文章の主題に関係する専問語に分けら
れ、後者の場合未登録語であることが多い。従来技術で
は、後者の場合については単語の出現回数だけ辞書検索
を行っていた。

〔発明の目的〕

本発明の目的は、辞書に登録されていない単語データに
対し、重複してアクセスを行うという無意味な処理を防
止した辞書検索方式を提供することにある。

〔発明の概要〕

上記目的は辞書検索処理において、処理速度の速い第２
の辞書を用意し、その中に検索済データ及び、未登録だ
ったデータに対しても未登録を示すマークを付加した後
同様に記憶し、検索の際には第２の辞書を先に検索する
ことにより達成される。

〔発明の実施例〕

以下、本発明を一実施例を用いて詳細に説明する。第１
図において１はプロセッサ、２は辞書アクセスプロセッ
サ、３はディスク装置等を用いた和英辞書メモリ（１次
辞書）、４は検索済辞書デ−タを記憶する高速の記憶装
置（２次辞書）、５は翻訳処理のための内部テーブル、
６はディスプレイ装置、７はキーボード等の入力装置を
表わし１　ている。第２図は本発明の一実施例を説明す
るためフローチャート図を示す。以下、第２図のフロー
チャート図に従い、第１図を用いて実施例の動作説明を
行う。

キーボード６より入力された和文データはプロセッサ１
内に取り込まれ（２０１）、単語の分割処理が行われる
。入力された文字列は区切り記号により分割され（２０
２）、その文字列をキーとして辞書アクセスが試みられ
る。その際、まず高速アクセス可能な２次辞書４の検索
を行い（２０３）、データが得られた場合は内部処理テ
ーブル５に格納する（２０９）。もし、２次辞書４中で
所望のデータが得られなかった場合（２０４）は１次辞
書３の検索を試みる（２０５）。この１次辞書３でデー
タが得られた場合は２次辞書４に辞書データを記憶しく
２０８）、１次辞書３でも所望のデータを得ることが出
来なかった場合（２０６）には、今アクセスした単語は
未登録語であることを示すマークを付加しく２０７）、
２次辞書４に記憶する（２０８）。そのデータを内部処
理テーブル５に格納する臣と（２’０９）は、前述と同
様である。

こうして単語分割が終了した後（２１０）、内部テーブ
ル５のデータを用いてプロセッサ１は翻訳処理を行う（
２１１）。

こうすることにより、重複して現われる単語、その中で
も辞書に登録されていない単語に対するアクセスを防ぎ
辞書検索処理に要する時間を短縮する効果がある。

ここで、２次辞書としてはプロセッサ１内のメモリ空間
あるいはＲＡＭ　（Ｒａｎｄａｍ　Ａｃｃｅｓｓ　Ｍｅ
ｍｏｒｙ）等が考えられ、そのアクセス法としては検索
用文字列を表す内部コード（例えばＪＩＳ漢字コード）
を数値とみなし、ハツシングにより格納アドレスを決定
する等が考えられる。また、２次辞書に記憶しておくデ
ータの管理方法としてはＬＲＵ法（Ｌｅａｓｔ　Ｒｅｃ
ｅｎｔｒｙ　Ｕｇｅｄｒｕｌｅ）等が考えられる・その
他、２次辞書４に単語データを格納する際に、後の翻訳
処理で利用しやすい形態に編集後、格納しておき、内部
処理テーブル５では各単語の入力文中での位置と２次辞
書４中での記憶位置のみを記憶するようにし、プロセッ
サ１は内部処理テーブル５の内容を基に２次辞書４から
必要なデータを得るようにすることも可能である。

（発明の効果〕以上説明したごとく本発明によれば、一度検索した辞書
データは登録されていたもの、未登録だったもの共に高
速の２次辞書に記憶しておくことにより、同一検索単位
の大容量データセットへの重複検索を防ぐことが可能と
なる０例えば入力和文データとして第３図のごときデー
タを扱う場合、図中′１′で区切られた文字列をキーと
して辞書検索を行うと、従来の方式では出現単語総数で
ある６２回の大容量データセットへの検索を行う必要が
あるが、本発明によれば重複出現単語（図中０印を付加
したもの）数を除いた４２回の検索のみでよく、さらに
この中の単語１ガウス′が未登録だつた場合４回の無意
味な検索を防ぐことが可能となったわけである。

このように、本発明によれば大容量データセットへのア
クセス回数を削減することが可能となり、辞書検索時間
を大幅に短縮することが可能である。

特に本発明は大容量データセットが複数個（例えば、基
本語辞書と専門語辞書等）存在し、順次検索してゆく場
合に効果が大きい。

【図面の簡単な説明】

第１図は本発明の一実施例の構成を示すブロック図、第
２図は本発明の一実施例の動作を説明するためのフロー
チャート図、第３図犬セ棗十畳は本発明の詳細な説明す
めための一例を示す。１・・・プロセッサ、２・・・辞書アクセスプロセッサ
、３・・・ディスク装置等を用いた和英辞書メモリ（１
次辞書）、４・・・検索済辞書データを記憶する高速の
記憶装置（２次辞書）、５・・・翻訳処理のための内部
テーブル、６・・・ディスプレイ装置、７・・・キー第
　１　　目

Claims

【特許請求の範囲】

言語処理過程において必要となる辞書検索装置において
、処理単位となる文字列（以後単語という）を検索キー
とし、処理に必要なデータを取り出せるようにした大容
量の第１の辞書と、検索された辞書データを一時的に記
憶しておく比較的高速の第２の辞書を備え、検索に際し
初めに第２の辞書を検索し、所望の単語データが得られ
なかつた場合に第１の辞書を検索し、第１の辞書から単
語データが得られた場合にはその内容を第２の辞書に記
憶し、第１の辞書からも単語データが得られなかつた場
合には（以後この単語を未登録語という）、この単語が
未登録語であつたことを示すマークを付加し第２の辞書
に記憶することを特徴とする辞書検索方式。