JPS62221027A - 単語分割装置における単語候補検索方式 - Google Patents

単語分割装置における単語候補検索方式

Info

Publication number
JPS62221027A
JPS62221027A JP61063667A JP6366786A JPS62221027A JP S62221027 A JPS62221027 A JP S62221027A JP 61063667 A JP61063667 A JP 61063667A JP 6366786 A JP6366786 A JP 6366786A JP S62221027 A JPS62221027 A JP S62221027A
Authority
JP
Japan
Prior art keywords
search
character string
word
prefix
control flag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61063667A
Other languages
English (en)
Inventor
Masayuki Kameda
雅之 亀田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP61063667A priority Critical patent/JPS62221027A/ja
Publication of JPS62221027A publication Critical patent/JPS62221027A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 単語分割装置において、辞書に対する前方一致検索を利
用することにより、効率的に単語候補の検索を行う方式
である。
〔産業上の利用分野〕
本発明は、単語分割装置に係わり、辞書に対する完全一
致検索機能の外に前方一致検索機能を含む単語候補検索
方式に関するものである。
〔従来の技術〕
一般の単語分割装置における部分対象文字列からの単語
の切出しは、順次に文字長を増加して全ての長さの先頭
からの部分文字列を辞書から検索している。
〔解決しようとする問題点〕
このような従来の方式では、文字長が長くなるにつれて
、そのヒント率が下がり、無効な検索が多く行うと言う
問題点がある。
本発明は、このような点に鑑みて創作されたものであっ
て、部分対象文字列の先頭から切出した文字列が辞書か
ら検索されなかった場合、その長さを1だけ増加した次
の切出し文字列については、前方検索を行うことにより
、無効な検索回数を減らし、比較的高速で且つ効率的な
単語切出しを行い得るようにした単語分割装置における
単語候補検索方式を提供することを目的としている。但
し、辞書にはエントリに応じ昇順に格納されており、連
続的検索を行う場合は、前回検索したエントリの次から
検索するものとする。
〔問題点を解決するための手段〕
第1図は本発明の1実施例構成の機能ブロック図である
。第1図において、1は初期設定手段、2は検索前制御
部、3は完全一致検索手段、4は前方一致検索手段、5
は検索後制御部、6は辞書、7は作業用記憶部、8は部
分対象文字列格納部、9は切出し数n格納部、10は制
御フラグ格納部、1)は候補単語格納部、12は処理装
置をそれぞれ示している。処理装置12内のブロック1
ないし5は、処理装置12の機能を示すものであって、
これらはプログラムによって実現可能である。また、処
理装置12内の矢印は制御の流れを示す。
辞書6は単語辞書であって、例えば磁気ディスク装置の
中に格納されている。部分対象文字列格納部8には、対
象文字列又は部分対象文字列が格納され、単語の分割が
行われると、その部分が対象文字列又は部分対象文字列
から除去される。切出し数n格納部9には切出し数nが
格納される。切出し数nは、対象文字列又は部分対象文
字列の先頭から切り出すべき文字列の文字数を指定する
ものである。制御フラグ格納部10には、制御フラグf
が格納される。制御フラグrは、完全一致検索を行うべ
きか、或いは前方一致検索を行うべきかを指示するもの
である。候補単語格納部1)には、候補単語が格納され
る。
第2図は本発明の1実施例の処理の流れを説明するフロ
ーチャートである。第2図において、部分対象文字列の
先頭からn文字目までの文字列を[’n]で表すことに
する。第1図の初期設定手段1は第2図の■の処理を行
い、検索前制御部2は■ないし■の処理を行い、完全一
致検索手段3は■の処理を行い、前方一致検索手段4は
[相]の処理を行い、検索後制御部5は■ないし■及び
0ないし■の処理を行う。
■ 部分対象文字列の長さnoを求め、文字列切出しの
終端を示すnに初期値O1制御フラグfに完全一致検索
を指示する値Aに設定する。なお、前方一致検索を指示
する値はBである。
■ n+1をnとする。
■ nがn(1より大であるか否かを調べ、Yesのと
きは■の処理を行い、Noのときは終了とする。
■ fがAかBかを調べ、Aのときは■の処理を行い、
Bのときは[相]の処理を行う。
■ [n)について完全一致検索を行う。
■ 検索の成否を調べる。成(成功)のときは■の処理
を行い、否(不成功)ときは[相]の処理を行う。
■ 検索単語を候補単語とする。
■ fの値をAにする。次に■に戻る。
■ 検索単語長をnにセットする。次に■の処理を行う
[相] [n]の前方一致検索を行う。
■ 検索の成否を調べる。成の場合には@の処理を行い
、否の場合には強制終了とする。
■ [検索単語長]が検索単語と等しいか否かを調べる
。成のときには■の処理を行い、否のときには0の処理
を行う。なお、[検索単語長]とは、検索単語(辞書か
ら検索された単語)の文字数をmとするとき、部分対象
文字列における先頭(第1番目)から第m番目(第m番
目も含む)までの文字列を意味している。
On−1をnにする。
@l fを已にする。次に■に戻る。
第3図は対象文字列の例を示す図、第4図は単語候補検
索の経過を示す図、第5図は辞書の内容の例を示す図で
ある。第3図に示す部分対象文字列を文字列を第5図の
ような内容を持つ辞書の下で、単語候補検索を行うと、
単語候補検索の経過は第4図のようになる。
完全一致で””1+  2.3について「冨」、「富士
」、「富士:×」を候補単語として採用した後、n=4
の場合は完全一致検索で失敗するので、n=5の「冨肉
×株式」を前方一致で検索する。この場合、「富士×株
式A」を検索してくるが、「富士X株式A」は6文字で
あり、部分対象文字列の先頭から6文字目までの文字列
は「富士X株式会」であり、両者は一致しないので、再
び前方一致検索を行うと、「冨士×株式会社」を検索し
、これは候補単語として採用される。この「富士×株式
会社」の文字数は7であり、文字数を+1すると8にな
り、部分対象文字列の先頭から8文字目までの文字列は
「冨士×株式会社は」となる。
n=8の「冨士×株式会社は」で完全一致検索をするが
、失敗し、更にn=9の「富士×株式会社は新」で前方
一致検索を行うが、失敗し、ここにおいて強制終了とな
る。
〔発明の効果〕
以上の説明から明らかなように、本発明によれば、無効
な辞書検索の回数を減らすことが出来るので、処理効率
の向上の効果がある。本発明は、単語分割装置を持つ様
々な装置に対して適用し、処理効率を向上させることが
出来、特に日本語のようなべた書き形式の文に対する単
語分割装置においては早期に長い文字列の検索を強制終
了出来るので効果が大きい。
【図面の簡単な説明】
第1図は本発明の1実施例の機能ブロック図、第2図は
本発明の1実施例の処理の流れを説明するフローチャー
ト、第3図は対象文字列の例を示す図、第4図は単語候
補検索の経過を示す図、第5図は辞書の内容の例を示す
図である。 1・・・初期設定手段、2・・・検索前制御部、3・・
・完全一致検索手段、4・・・前方一致検索手段、5・
・・検索前制御部、6・・・辞書、7・・・作業用記憶
部、8・・・部分対象文字列格納部、9・・・切出し数
n格納部、lO・・・制御フラグ格納部、1)・・・候
補単語格納部、12・・・処理装置 特許出願人   富士通株式会社 代理人弁理士  京 谷 四 部 岑発Bハの欠艶例 処1図

Claims (1)

  1. 【特許請求の範囲】 辞書(6)を検索することにより対象文字列を単語に分
    割する単語分割装置における単語候補検索方式であって
    、 初期設定手段(1)と、 検索前制御部(2)と、 完全一致検索手段(3)と、 前方一致検索手段(4)と、 検索後制御部(5)と、 を具備し、 初期設定手段(1)は、部分対象文字列の長さn_0を
    求め、文字列切出し終端を示す切出し数nに初期値を設
    定し、制御フラグに完全一致検索を指示する値Aを設定
    し、しかる後に検索前制御部(2)を起動するように構
    成され、 検索前制御部(2)は、切出し数nを+1し、切出し数
    nが部分対象文字列の長さn_0より大になった場合に
    は検索終了とし、切出し数nが部分対象文字列の長さn
    _0以下の場合には制御フラグの値を調べ、制御フラグ
    が完全一致検索を指示している場合には完全一致検索手
    段(3)を起動し、制御フラグが前方一致検索を指示し
    ている場合には前方一致検索手段(4)を起動するよう
    に構成され、完全一致検索手段(3)は、部分対象文字
    列における先頭からn文字目までの文字列[n]の完全
    一致検索を行うように構成され、 前方一致検索手段(4)は、部分対象文字列における先
    頭からn文字目までの文字列[n]の前方一致検索を行
    うように構成され、 検索後制御部(5)は、 (a)完全一致検索手段(3)による完全一致検索が成
    功した場合には、検索単語を候補単語とし、制御フラグ
    の値を完全一致検索を指示する値Aのままとして検索前
    制御部(2)を起動し、 (b)完全一致検索手段(3)による完全一致検索が失
    敗した場合には、制御フラグを前方一致検索を指示する
    値Bにして、検索前制御部(2)を起動し、(c)前方
    一致検索手段(4)による前方一致検索が失敗した場合
    には、強制終了とし、 (d)前方一致検索手段(4)による前方一致検索が成
    功した場合には、検索単語が部分対象文字列の先頭から
    の文字列と一致しているか否かを調べ、一致していると
    きには切出し数nを当該検索単語長に設定し、当該検索
    単語を候補単語とし、制御フラグを完全一致検索を指示
    する値Aに設定し、検索前制御部(2)を起動し、否の
    ときには切出し数nを−1し、制御フラグを前方一致検
    索を指示する値Bのままとし、検索前制御部(2)を起
    動するように構成され ていることを特徴とする単語分割装置における単語候補
    検索方式。
JP61063667A 1986-03-20 1986-03-20 単語分割装置における単語候補検索方式 Pending JPS62221027A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61063667A JPS62221027A (ja) 1986-03-20 1986-03-20 単語分割装置における単語候補検索方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61063667A JPS62221027A (ja) 1986-03-20 1986-03-20 単語分割装置における単語候補検索方式

Publications (1)

Publication Number Publication Date
JPS62221027A true JPS62221027A (ja) 1987-09-29

Family

ID=13235926

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61063667A Pending JPS62221027A (ja) 1986-03-20 1986-03-20 単語分割装置における単語候補検索方式

Country Status (1)

Country Link
JP (1) JPS62221027A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01145773A (ja) * 1987-12-01 1989-06-07 Fujitsu Ltd 電子辞書の検索方式
JPH06168270A (ja) * 1992-01-27 1994-06-14 Fujitsu Ltd インデックスを用いた文字列検索システム及びそのインデックスの作成装置
JP2002123541A (ja) * 2000-10-13 2002-04-26 Cannac:Kk 問題解決データベース検索システム及び問題解決データベース検索プログラムを記録したコンピュータ読み取り可能な記憶媒体
JP2014085874A (ja) * 2012-10-24 2014-05-12 Ntt Docomo Inc 情報検索装置、情報検索システム、及び情報検索方法
JP5497230B1 (ja) * 2013-06-10 2014-05-21 株式会社バイトルヒクマ 翻訳システム及び翻訳プログラム、並びに翻訳方法
JP5586772B1 (ja) * 2013-11-22 2014-09-10 株式会社バイトルヒクマ 翻訳システム及び翻訳プログラム、並びに翻訳方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01145773A (ja) * 1987-12-01 1989-06-07 Fujitsu Ltd 電子辞書の検索方式
JPH06168270A (ja) * 1992-01-27 1994-06-14 Fujitsu Ltd インデックスを用いた文字列検索システム及びそのインデックスの作成装置
JP2002123541A (ja) * 2000-10-13 2002-04-26 Cannac:Kk 問題解決データベース検索システム及び問題解決データベース検索プログラムを記録したコンピュータ読み取り可能な記憶媒体
JP2014085874A (ja) * 2012-10-24 2014-05-12 Ntt Docomo Inc 情報検索装置、情報検索システム、及び情報検索方法
JP5497230B1 (ja) * 2013-06-10 2014-05-21 株式会社バイトルヒクマ 翻訳システム及び翻訳プログラム、並びに翻訳方法
JP2014238772A (ja) * 2013-06-10 2014-12-18 株式会社バイトルヒクマ 翻訳システム及び翻訳プログラム、並びに翻訳方法
JP5586772B1 (ja) * 2013-11-22 2014-09-10 株式会社バイトルヒクマ 翻訳システム及び翻訳プログラム、並びに翻訳方法
JP2014238808A (ja) * 2013-11-22 2014-12-18 株式会社バイトルヒクマ 翻訳システム及び翻訳プログラム、並びに翻訳方法

Similar Documents

Publication Publication Date Title
US7526497B2 (en) Database retrieval apparatus, retrieval method, storage medium, and program
JPH06131398A (ja) 複数の文書検索方法
JPS62221027A (ja) 単語分割装置における単語候補検索方式
JP2007286742A (ja) 文書検索装置
JP2001109754A (ja) 索引ファイルを使用した検索方法及びそれに用いる装置
JPH067385B2 (ja) キ−ワ−ド自動抽出方式
JPH07319920A (ja) 文書検索方法及び装置
JP2002132789A (ja) 文書検索方法
JP3628565B2 (ja) 辞書検索方法、装置、および辞書検索プログラムを記録した記録媒体
JPH09288682A (ja) 情報選択音声出力装置
JPH11282842A (ja) 日本語解析装置および日本語解析プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH07200622A (ja) 情報管理システム
JP4355470B2 (ja) 言語処理装置およびその制御方法ならびにプログラム
JP2000348059A (ja) 文書検索方法
JPH08314970A (ja) キーワード抽出装置
JPH0785033A (ja) 文書検索装置
JPH0766380B2 (ja) かな漢字変換装置
JPS59100939A (ja) 日本語入力装置
JPH07219946A (ja) 文書作成装置
JP2684138B2 (ja) 日本語形態素解析システム及び見出し切り出し方法
JPH06274701A (ja) 単語照合装置
JPH11175564A (ja) 文書検索システム
JP2739823B2 (ja) 形態素解析装置
JPH11259487A (ja) 類似文書検索装置、類似文書検索方法、および類似文書検索のためのプログラムが記録された記録媒体
JPS6027010A (ja) ワ−ドプロセツサ