JPS6286461A - 仮想辞書検索方式 - Google Patents

仮想辞書検索方式

Info

Publication number
JPS6286461A
JPS6286461A JP60226556A JP22655685A JPS6286461A JP S6286461 A JPS6286461 A JP S6286461A JP 60226556 A JP60226556 A JP 60226556A JP 22655685 A JP22655685 A JP 22655685A JP S6286461 A JPS6286461 A JP S6286461A
Authority
JP
Japan
Prior art keywords
word
main storage
area
storage area
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP60226556A
Other languages
English (en)
Inventor
Tadashi Hoshiai
忠 星合
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP60226556A priority Critical patent/JPS6286461A/ja
Publication of JPS6286461A publication Critical patent/JPS6286461A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔概要〕 自然言語文解析装置の辞書検索部において、同一単語の
単語辞書検索を一度のみに限定し、以後主記憶に常駐さ
せ、アクセスの古い単語を二次記憶上に仮想化させるこ
とを特徴とする仮想辞書検索方式である。
〔産業上の利用分野〕
本発明は、自然言語文解析装置に関わり、特に同一単語
の単語検索を一度のみに限定し、以後主記憶上に単語を
常駐させ、主記憶領域の限界近くでは、アクセスの古い
単語を二次記憶上に仮想化させるような仮想辞書検索方
式に関するものである。
(従来技術と問題点〕 従来の辞書検索方式では、その形態素解析の過程におい
て文章中に同一単語が何度出現しても、その度に二次記
憶上の単語辞書を検索するが、毎回二次記憶へのアクセ
スを行うため、単語辞書検索の時間的効率が低いという
欠点がある。
〔発明の目的〕
本発明の目的は、同一単語の辞書検索を一度のみに限定
し、以後主記憶上に単語を常駐させることにより、単語
の辞書検索の時間的効率を高めると共に、主記憶領域の
限界近くでは、アクセスの古い単語を二次記憶上に仮想
化することにより、単語の所在が主記憶上か二次記憶上
かを意識することなく、単語の可能処理数を事実上無制
限にすることにある。
〔目的を達成するための手段〕
本発明の仮想辞書検索方式は、単語辞書の検索を一度の
みに制限し、以後主記憶上に単語を常駐化させることに
より、従来技術ではアクセス効率が低いとされていた単
語検索を高速化したものである。また、主記憶領域の制
限に触れるような単語数を処理する場合でも扱える。よ
うに、主記憶領域の限界近くでは、アクセスの古い単語
を自動的に二次記憶上に格納し、以後再びアクセスがあ
ったときには、自動的に二次記憶上から主記憶上へ復元
することにより、単語の格納場所が主記憶上か二次記憶
上かを意識しないで良いようにしたちのでる。
〔発明の実施例〕
以下、本発明を図面を参照しつつ説明する。
第1図は本発明の動作原理を説明する図である。
第1図において、Aは文字列、Bは制御部、Cは出力単
語、Dは二次記憶上の単語辞書、Eは主記憶領域、Fは
仮想化領域をそれぞれ示す。また、矢印■は単語検索に
おいて単語辞書から単語を検索し主記憶領域上に読み込
むこと、矢印■は主記憶領域上の単語を仮想化領域に待
避すること、矢印■は単語を仮想化領域から主記憶領域
上へ復元することをそれぞれ示す。更に小さい四角枠は
単語を示す。
制御部Bは、入力文字列Aを入力すると、その文字列の
先頭部分と一致する単語を見つけようとする。先ず、先
頭部分のn文字(1≦n≦入力文字列Aの文字長;nは
最大値から順次より小さい値へと繰り返し実行される。
)に相当する単語が一致するか否かを分析する。その単
語が初出の単語(単語辞書りから1回も読まれていない
単語)ならば、矢印■のように単語辞書りを検索して、
見つかれば、それを上記i!TJ域E上に格納し、出力
単語Cとして出力する。見つからなければ、次の単語候
補(先頭のn−1文字に相当する単語)の一致の有無を
調べる。
上記先頭n文字に相当する単語が既出の単語(単語辞書
りから一度検索された単語)ならば、主記憶領域E上に
探しに行く。主記憶領域E上にあれば、そのまま出力単
語Cとして出力する。主記憶領域E上になければ、その
単語は仮想化領域Fに必ず存在するので、矢印■のよう
に、仮想化領域Fから主記憶領域Eへ読み出し、出力単
語Cとして出力する。
上のうち矢印■及び■で行われる主記憶領域E上への単
語の格納に際し、既に主記憶領域Eの限界近くまで主記
憶領域Eを専有している場合には、重要度の低い単語、
即ちアクセスの古い順に矢印■のように主記憶領域Eか
ら二次記憶上の仮想化領域Fに単語を待避させて、主記
憶領域E上に空き領域を十分に確保する。以上のことを
「1≦n≦入力文字列Aの文字長」の範囲のnについて
繰り返して行い、得られた出力単語を全て単語候補とし
て出力する。なお、単語の切分けには、後述する接続情
報をも参照する。
第2図は自然言語文解析装置の概要を示す図である。べ
た書きの日本語入力文字列Aが入力されると、形態素解
析部がこの日本語入力文字列Aを単語列に変換する。次
いで、構文解析部が単語列を解析し、構文木を作成する
。構文解析部はパーサとも呼ばれる。次いで、意味解析
部が構文木の意味解析を行う。本発明は形態素解析に関
するものである。
第3図は単語辞書を説明するための図である。
単語辞書りは例えば関係型データベースから構成されて
いる。各単語情報は、見出し及び内容から構成されてい
る。見出しとは「商品」、「販売」とか言う単語の文字
表現そのものである。勿論、これらは例えばJIS漢字
コードで表現されている。内容は、品詞基や接続情報、
パーサ用情報、使用頻度情報、複合語か否かを示す情報
等から構成されている。接続情報とは、例えば名詞の右
側に格助詞が接続可能であるとか、或いは助詞の右側に
助動詞が接続不可能であるとかを示すものである。
第4図は単語辞書から読み出された単語のデー夕構造を
示すものである。単語辞書りから読み出されかつ主記憶
上に存在する単語は、アクセスの新しさの順にオンコア
リストGを構成している。
今、単語辞書りから例えば「商品」と言う単語が新たに
読み出されたとすると、オンコアリストGの1番新しい
要素の左側に「商品」と言う単語Hが接続され、この「
商品」と言う見出しを持つ単語I]の下に、単語情報I
、即ちブロック番号、オン・コアか(主記憶上か)を示
す情報及び内容を持つ要素が接続される。単語の内容が
主記憶領域E上にあるときはオン・コアの欄は真の値を
持つ。
単語の内容が仮想化領域F上にあるときにはオン・コア
の欄は偽の値を持ち、そしてブロック番号の欄には、単
語の内容が格納されている仮想化領域F上のブロックの
番号が書き込まれる。仮想化領域FはBSAMデータセ
ットを構成しており、アクセス法としてはBSAMが採
用されている。
なお、仮想記憶領域Fに対するアクセスは、単語辞書り
に対するアクセスよりも速い。
ユーザに対しては例えば4MBの主記憶領域が割当られ
ており、そして形態素解析のためにその内の例えばIM
Bの主記憶領域Eが割当てられている。形態素解析のた
めの領域Eに(1)単語辞書りから読み出された単語情
報もしくは(2)仮想化領域Fから読み出された単語情
報が書き込まれていくが、単語情報が書き込まれた領域
が例えば900KBを越えると、オンコアリストGの一
定数の古い単語(H,、・・・、H7)の内容が仮想化
領域Fに吐き出され、そして該当する単語Hi(但し、
1≦i≦n)によってポイントされる単語情報Ij(但
し、1≦j≦n)のブロック番号の欄には当該単語の内
容が格納されたブロックの番号が書き込まれ、そしてオ
ン・コアの欄に偽の値が書き込まれる。
〔発明の効果〕
以上の説明から明らかなように、本発明によれば、自然
言語文の解析の単語検索において、単語辞書の検索を同
一単語については一度のみに限定し、以後その単語を主
記憶上に常駐させることにより、単語検索の効率を上げ
ることができる。また、主記憶領域の限界付近では単語
を仮想化することにより、単語の所在が主記憶上か否か
を意識することなく、多数の単語であっても処理が続行
出来るようにすることが出来る。
【図面の簡単な説明】
第1図は本発明の動作原理を説明する図、第2図は自然
言語文解析装置の概要を示す図、第3図は単語辞書を説
明するための図、第4図は単語辞書から読み出された単
語のデータ構造を示す図である。 A・・・文字列、B・・・制御部、C・・・出力単語、
D・・・二次記憶上の単語辞書、E・・・主記憶領域、
F・・・仮想化領域、G・・・オンコアリスト、H・・
・単語、■・・・単語情報。

Claims (1)

    【特許請求の範囲】
  1. 辞書検索部に、二次記憶上の単語辞書を備えると共に二
    次記憶上の仮想化領域を備えた自然言語文解析装置にお
    いて、同一の単語辞書検索は1度のみ行い、以後主記憶
    に単語を常駐させ、主記憶領域の限界近くでは、アクセ
    スの古い単語を二次記憶に仮想化させることを特徴とす
    る仮想辞書検索方式。
JP60226556A 1985-10-11 1985-10-11 仮想辞書検索方式 Pending JPS6286461A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60226556A JPS6286461A (ja) 1985-10-11 1985-10-11 仮想辞書検索方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60226556A JPS6286461A (ja) 1985-10-11 1985-10-11 仮想辞書検索方式

Publications (1)

Publication Number Publication Date
JPS6286461A true JPS6286461A (ja) 1987-04-20

Family

ID=16847011

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60226556A Pending JPS6286461A (ja) 1985-10-11 1985-10-11 仮想辞書検索方式

Country Status (1)

Country Link
JP (1) JPS6286461A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03135666A (ja) * 1989-10-20 1991-06-10 Nec Corp 機械翻訳方式

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58164079A (ja) * 1982-03-25 1983-09-28 Fujitsu Ltd 仮想フレ−ム管理方式
JPS60204065A (ja) * 1984-03-28 1985-10-15 Hitachi Ltd 個人辞書方式

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58164079A (ja) * 1982-03-25 1983-09-28 Fujitsu Ltd 仮想フレ−ム管理方式
JPS60204065A (ja) * 1984-03-28 1985-10-15 Hitachi Ltd 個人辞書方式

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03135666A (ja) * 1989-10-20 1991-06-10 Nec Corp 機械翻訳方式

Similar Documents

Publication Publication Date Title
US5890103A (en) Method and apparatus for improved tokenization of natural language text
US5099426A (en) Method for use of morphological information to cross reference keywords used for information retrieval
JPH0724055B2 (ja) 単語分割処理方法
JPH06131398A (ja) 複数の文書検索方法
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
KR20020053968A (ko) 자연어를 이용한 이미지 데이터 색상 및 형태 검색 장치및 그 방법
JPH04274557A (ja) フルテキストサーチ方法
JPS6286461A (ja) 仮想辞書検索方式
JPS63198124A (ja) 文例検索装置
JP2005122444A (ja) 形態素解析システム、形態素解析方法及びプログラム
JPH02129756A (ja) 単語照合装置
KR100371135B1 (ko) 용언 굴절사전을 이용한 용언 형태소 분석장치 및 방법
US20050102278A1 (en) Expanded search keywords
JP2001344256A (ja) 単語クラス自動決定装置、用例文検索装置、媒体及び情報集合体
JPS63221475A (ja) 構文解析方法
JPS6389976A (ja) 言語解析装置
JP3585944B2 (ja) データ処理方法及びその装置
JP2001202388A (ja) フルテキストサーチ方法および装置
JPH0831096B2 (ja) 単語辞書装置
JPS6118071A (ja) 辞書検索方式
JPH11259487A (ja) 類似文書検索装置、類似文書検索方法、および類似文書検索のためのプログラムが記録された記録媒体
JPS63103378A (ja) 言語解析装置
JPH0766380B2 (ja) かな漢字変換装置
JPH0830631A (ja) 辞書検索方式
JPH0447864B2 (ja)