JPS6118071A - 辞書検索方式 - Google Patents
辞書検索方式Info
- Publication number
- JPS6118071A JPS6118071A JP59137130A JP13713084A JPS6118071A JP S6118071 A JPS6118071 A JP S6118071A JP 59137130 A JP59137130 A JP 59137130A JP 13713084 A JP13713084 A JP 13713084A JP S6118071 A JPS6118071 A JP S6118071A
- Authority
- JP
- Japan
- Prior art keywords
- dictionary
- data
- word
- access
- stored
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔発明の利用分野〕
本発明は翻訳処理等の言語処理において多量の辞書デー
タを扱う場合に必要となる、比較的処理速度の遅い大容
量データセットへのアクセス回数をおさえ、辞書検索処
理を高速化する方式に関するものである。
タを扱う場合に必要となる、比較的処理速度の遅い大容
量データセットへのアクセス回数をおさえ、辞書検索処
理を高速化する方式に関するものである。
従来から言語処理(例えば言語間の単語の変換処理)に
おいては、辞書が用いられている。この辞書は多量のデ
ータを記憶しておく必要があり、大容量データセットを
用いることが多い。ところが大容量データセットは比較
的処理速度が遅い。
おいては、辞書が用いられている。この辞書は多量のデ
ータを記憶しておく必要があり、大容量データセットを
用いることが多い。ところが大容量データセットは比較
的処理速度が遅い。
また、処理対象となる言語データ中には同じ単語が重複
して出現することがあり、それらを出現回数だけ検索し
ていたのでは処理時間が無駄である。
して出現することがあり、それらを出現回数だけ検索し
ていたのでは処理時間が無駄である。
そこで、特開昭55−134477号公報に示されるよ
うに、一般に用いられる辞書の他に比較的高速の補助辞
書を用意し、一度検索した辞書データは補助辞書に記憶
しておき、辞書検索の際にはこの補助辞書を先に検索す
るという方式が知られていた。
うに、一般に用いられる辞書の他に比較的高速の補助辞
書を用意し、一度検索した辞書データは補助辞書に記憶
しておき、辞書検索の際にはこの補助辞書を先に検索す
るという方式が知られていた。
しかし、前述した重複して出現する単語とは、文章に依
存しない基本語と文章の主題に関係する専問語に分けら
れ、後者の場合未登録語であることが多い。従来技術で
は、後者の場合については単語の出現回数だけ辞書検索
を行っていた。
存しない基本語と文章の主題に関係する専問語に分けら
れ、後者の場合未登録語であることが多い。従来技術で
は、後者の場合については単語の出現回数だけ辞書検索
を行っていた。
本発明の目的は、辞書に登録されていない単語データに
対し、重複してアクセスを行うという無意味な処理を防
止した辞書検索方式を提供することにある。
対し、重複してアクセスを行うという無意味な処理を防
止した辞書検索方式を提供することにある。
上記目的は辞書検索処理において、処理速度の速い第2
の辞書を用意し、その中に検索済データ及び、未登録だ
ったデータに対しても未登録を示すマークを付加した後
同様に記憶し、検索の際には第2の辞書を先に検索する
ことにより達成される。
の辞書を用意し、その中に検索済データ及び、未登録だ
ったデータに対しても未登録を示すマークを付加した後
同様に記憶し、検索の際には第2の辞書を先に検索する
ことにより達成される。
以下、本発明を一実施例を用いて詳細に説明する。第1
図において1はプロセッサ、2は辞書アクセスプロセッ
サ、3はディスク装置等を用いた和英辞書メモリ(1次
辞書)、4は検索済辞書デ−タを記憶する高速の記憶装
置(2次辞書)、5は翻訳処理のための内部テーブル、
6はディスプレイ装置、7はキーボード等の入力装置を
表わし1 ている。第2図は本発明の一実施例を説明す
るためフローチャート図を示す。以下、第2図のフロー
チャート図に従い、第1図を用いて実施例の動作説明を
行う。
図において1はプロセッサ、2は辞書アクセスプロセッ
サ、3はディスク装置等を用いた和英辞書メモリ(1次
辞書)、4は検索済辞書デ−タを記憶する高速の記憶装
置(2次辞書)、5は翻訳処理のための内部テーブル、
6はディスプレイ装置、7はキーボード等の入力装置を
表わし1 ている。第2図は本発明の一実施例を説明す
るためフローチャート図を示す。以下、第2図のフロー
チャート図に従い、第1図を用いて実施例の動作説明を
行う。
キーボード6より入力された和文データはプロセッサ1
内に取り込まれ(201)、単語の分割処理が行われる
。入力された文字列は区切り記号により分割され(20
2)、その文字列をキーとして辞書アクセスが試みられ
る。その際、まず高速アクセス可能な2次辞書4の検索
を行い(203)、データが得られた場合は内部処理テ
ーブル5に格納する(209)。もし、2次辞書4中で
所望のデータが得られなかった場合(204)は1次辞
書3の検索を試みる(205)。この1次辞書3でデー
タが得られた場合は2次辞書4に辞書データを記憶しく
208)、1次辞書3でも所望のデータを得ることが出
来なかった場合(206)には、今アクセスした単語は
未登録語であることを示すマークを付加しく207)、
2次辞書4に記憶する(208)。そのデータを内部処
理テーブル5に格納する臣と(2’09)は、前述と同
様である。
内に取り込まれ(201)、単語の分割処理が行われる
。入力された文字列は区切り記号により分割され(20
2)、その文字列をキーとして辞書アクセスが試みられ
る。その際、まず高速アクセス可能な2次辞書4の検索
を行い(203)、データが得られた場合は内部処理テ
ーブル5に格納する(209)。もし、2次辞書4中で
所望のデータが得られなかった場合(204)は1次辞
書3の検索を試みる(205)。この1次辞書3でデー
タが得られた場合は2次辞書4に辞書データを記憶しく
208)、1次辞書3でも所望のデータを得ることが出
来なかった場合(206)には、今アクセスした単語は
未登録語であることを示すマークを付加しく207)、
2次辞書4に記憶する(208)。そのデータを内部処
理テーブル5に格納する臣と(2’09)は、前述と同
様である。
こうして単語分割が終了した後(210)、内部テーブ
ル5のデータを用いてプロセッサ1は翻訳処理を行う(
211)。
ル5のデータを用いてプロセッサ1は翻訳処理を行う(
211)。
こうすることにより、重複して現われる単語、その中で
も辞書に登録されていない単語に対するアクセスを防ぎ
辞書検索処理に要する時間を短縮する効果がある。
も辞書に登録されていない単語に対するアクセスを防ぎ
辞書検索処理に要する時間を短縮する効果がある。
ここで、2次辞書としてはプロセッサ1内のメモリ空間
あるいはRAM (Randam Access Me
mory)等が考えられ、そのアクセス法としては検索
用文字列を表す内部コード(例えばJIS漢字コード)
を数値とみなし、ハツシングにより格納アドレスを決定
する等が考えられる。また、2次辞書に記憶しておくデ
ータの管理方法としてはLRU法(Least Rec
entry Ugedrule)等が考えられる・その
他、2次辞書4に単語データを格納する際に、後の翻訳
処理で利用しやすい形態に編集後、格納しておき、内部
処理テーブル5では各単語の入力文中での位置と2次辞
書4中での記憶位置のみを記憶するようにし、プロセッ
サ1は内部処理テーブル5の内容を基に2次辞書4から
必要なデータを得るようにすることも可能である。
あるいはRAM (Randam Access Me
mory)等が考えられ、そのアクセス法としては検索
用文字列を表す内部コード(例えばJIS漢字コード)
を数値とみなし、ハツシングにより格納アドレスを決定
する等が考えられる。また、2次辞書に記憶しておくデ
ータの管理方法としてはLRU法(Least Rec
entry Ugedrule)等が考えられる・その
他、2次辞書4に単語データを格納する際に、後の翻訳
処理で利用しやすい形態に編集後、格納しておき、内部
処理テーブル5では各単語の入力文中での位置と2次辞
書4中での記憶位置のみを記憶するようにし、プロセッ
サ1は内部処理テーブル5の内容を基に2次辞書4から
必要なデータを得るようにすることも可能である。
(発明の効果〕
以上説明したごとく本発明によれば、一度検索した辞書
データは登録されていたもの、未登録だったもの共に高
速の2次辞書に記憶しておくことにより、同一検索単位
の大容量データセットへの重複検索を防ぐことが可能と
なる0例えば入力和文データとして第3図のごときデー
タを扱う場合、図中′1′で区切られた文字列をキーと
して辞書検索を行うと、従来の方式では出現単語総数で
ある62回の大容量データセットへの検索を行う必要が
あるが、本発明によれば重複出現単語(図中0印を付加
したもの)数を除いた42回の検索のみでよく、さらに
この中の単語1ガウス′が未登録だつた場合4回の無意
味な検索を防ぐことが可能となったわけである。
データは登録されていたもの、未登録だったもの共に高
速の2次辞書に記憶しておくことにより、同一検索単位
の大容量データセットへの重複検索を防ぐことが可能と
なる0例えば入力和文データとして第3図のごときデー
タを扱う場合、図中′1′で区切られた文字列をキーと
して辞書検索を行うと、従来の方式では出現単語総数で
ある62回の大容量データセットへの検索を行う必要が
あるが、本発明によれば重複出現単語(図中0印を付加
したもの)数を除いた42回の検索のみでよく、さらに
この中の単語1ガウス′が未登録だつた場合4回の無意
味な検索を防ぐことが可能となったわけである。
このように、本発明によれば大容量データセットへのア
クセス回数を削減することが可能となり、辞書検索時間
を大幅に短縮することが可能である。
クセス回数を削減することが可能となり、辞書検索時間
を大幅に短縮することが可能である。
特に本発明は大容量データセットが複数個(例えば、基
本語辞書と専門語辞書等)存在し、順次検索してゆく場
合に効果が大きい。
本語辞書と専門語辞書等)存在し、順次検索してゆく場
合に効果が大きい。
第1図は本発明の一実施例の構成を示すブロック図、第
2図は本発明の一実施例の動作を説明するためのフロー
チャート図、第3図犬セ棗十畳は本発明の詳細な説明す
めための一例を示す。 1・・・プロセッサ、2・・・辞書アクセスプロセッサ
、3・・・ディスク装置等を用いた和英辞書メモリ(1
次辞書)、4・・・検索済辞書データを記憶する高速の
記憶装置(2次辞書)、5・・・翻訳処理のための内部
テーブル、6・・・ディスプレイ装置、7・・・キー第
1 目
2図は本発明の一実施例の動作を説明するためのフロー
チャート図、第3図犬セ棗十畳は本発明の詳細な説明す
めための一例を示す。 1・・・プロセッサ、2・・・辞書アクセスプロセッサ
、3・・・ディスク装置等を用いた和英辞書メモリ(1
次辞書)、4・・・検索済辞書データを記憶する高速の
記憶装置(2次辞書)、5・・・翻訳処理のための内部
テーブル、6・・・ディスプレイ装置、7・・・キー第
1 目
Claims (1)
- 言語処理過程において必要となる辞書検索装置において
、処理単位となる文字列(以後単語という)を検索キー
とし、処理に必要なデータを取り出せるようにした大容
量の第1の辞書と、検索された辞書データを一時的に記
憶しておく比較的高速の第2の辞書を備え、検索に際し
初めに第2の辞書を検索し、所望の単語データが得られ
なかつた場合に第1の辞書を検索し、第1の辞書から単
語データが得られた場合にはその内容を第2の辞書に記
憶し、第1の辞書からも単語データが得られなかつた場
合には(以後この単語を未登録語という)、この単語が
未登録語であつたことを示すマークを付加し第2の辞書
に記憶することを特徴とする辞書検索方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP59137130A JPS6118071A (ja) | 1984-07-04 | 1984-07-04 | 辞書検索方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP59137130A JPS6118071A (ja) | 1984-07-04 | 1984-07-04 | 辞書検索方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS6118071A true JPS6118071A (ja) | 1986-01-25 |
Family
ID=15191518
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP59137130A Pending JPS6118071A (ja) | 1984-07-04 | 1984-07-04 | 辞書検索方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS6118071A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6190270A (ja) * | 1984-10-09 | 1986-05-08 | Sharp Corp | 辞書機能を用いた翻訳方式 |
JPS63120285A (ja) * | 1986-11-08 | 1988-05-24 | 日本サ−モスタツト株式会社 | サ−モエレメント |
JPH0728614A (ja) * | 1993-07-15 | 1995-01-31 | Toshiba Corp | 系統図表示システム |
-
1984
- 1984-07-04 JP JP59137130A patent/JPS6118071A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6190270A (ja) * | 1984-10-09 | 1986-05-08 | Sharp Corp | 辞書機能を用いた翻訳方式 |
JPS63120285A (ja) * | 1986-11-08 | 1988-05-24 | 日本サ−モスタツト株式会社 | サ−モエレメント |
JPH0728614A (ja) * | 1993-07-15 | 1995-01-31 | Toshiba Corp | 系統図表示システム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5551049A (en) | Thesaurus with compactly stored word groups | |
US5201048A (en) | High speed computer system for search and retrieval of data within text and record oriented files | |
US5950184A (en) | Indexing a database by finite-state transducer | |
US4943933A (en) | Method for translating data base to knowledge and apparatus therefor | |
JPS6118071A (ja) | 辞書検索方式 | |
JPH0991303A (ja) | データ管理装置 | |
JP2002132789A (ja) | 文書検索方法 | |
JPH03118661A (ja) | 単語検索装置 | |
JPH0447864B2 (ja) | ||
JPH0353378A (ja) | 同音異字および異字同音の姓を検索する氏名検索方式 | |
JPH0830631A (ja) | 辞書検索方式 | |
Kelly et al. | Glossary Lookup Made Easy | |
JPH01292576A (ja) | 電子化辞書の構成法及びそのメンテナンス方式 | |
JPH05165889A (ja) | 文書検索装置 | |
JPH10222540A (ja) | 文書検索方法、装置及び記録媒体 | |
JPH07168848A (ja) | 単語辞書検索装置 | |
JPS6091443A (ja) | 情報検索方式 | |
JPH0991304A (ja) | 情報検索方法、情報検索システム及び情報検索用記憶媒体 | |
JPH0969113A (ja) | 文書管理方式 | |
JPS6198475A (ja) | 日本語文章入力装置 | |
JPS6349973A (ja) | 辞書アクセス方式 | |
JPS59214978A (ja) | 辞書検索方式 | |
JPS60122463A (ja) | 文字処理装置 | |
JPS62211728A (ja) | 日本語情報検索システム | |
JPH01106223A (ja) | 多層化辞書のレコード検索方式 |