JPS63213062A - 送り仮名検索装置 - Google Patents

送り仮名検索装置

Info

Publication number
JPS63213062A
JPS63213062A JP62044108A JP4410887A JPS63213062A JP S63213062 A JPS63213062 A JP S63213062A JP 62044108 A JP62044108 A JP 62044108A JP 4410887 A JP4410887 A JP 4410887A JP S63213062 A JPS63213062 A JP S63213062A
Authority
JP
Japan
Prior art keywords
dictionary
word
kanji
kana
headword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP62044108A
Other languages
English (en)
Other versions
JPH0833892B2 (ja
Inventor
Takashi Nakamura
俊 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP62044108A priority Critical patent/JPH0833892B2/ja
Publication of JPS63213062A publication Critical patent/JPS63213062A/ja
Publication of JPH0833892B2 publication Critical patent/JPH0833892B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔概要〕 これらの発明は、日本語で書かれた文の中の単語を電算
機上に構築された辞書から検索する際、辞書中から見つ
け出した見出しと、検索しようとする単語の送り仮名の
っけかたとが異なる場合、この単語を検索し得ない問題
を解決するため、単語中から抽出した漢字と、この漢字
を含む見出しを辞書から読み出して単語を検索すること
、およびこの辞書から読み出した見出しと、単語の送り
仮名との関係から送り仮名の分類を行って単語を検索す
ることにより、例え辞書中に同一の送り仮名が見つから
なくても所望の単語の検索を行い得るようにしたもので
ある。
〔産業上の利用分野〕
本発明は、文中の単語から抽出した漢字と、この漢字を
含む見出しを辞書から読み出して所望の単語の検索を行
うよう構成、および読み出した見出しと、単語の送り仮
名との関係を分類して単語の検索を行うよう構成した送
り仮名検索方式に関するものである。
〔従来の技術と発明が解決しようとする問題点〕自然言
語処理の分野、特に機械翻訳、自然言語インタフェース
(例えば自然言語によるデータベース検索等)などでは
、コンピュータに文章を理解させる必要がある。その第
1段階では、辞書を引いて文を文節に分解し、同時に単
語の意味を取り出すことが行われている。
従来、コンピュータを用いて辞書を検索するとき、ある
単語の送り仮名の付は方が辞書中の見出しのそれと異な
る場合、その単語を引くことができないという問題点が
あった。強いてその単語を引けるようにするには、辞書
中の見出しとして引こうとする単語に対して考えられる
全ての送り仮名を予め登録しておく必要があり、極めて
辞書の容量が大きくなり、現実的でないと共に、必ずし
も全ての送り仮名について辞書に登録し得ないという問
題点があった。このため、単語の全ての考えられる送り
仮名を辞書に予め登録するのではなくて、単語から抽出
した漢字および送り仮名の分類に基づいて例え辞書中に
合致するものがなくても所望の単語の検索を行い得るよ
うにすることが望まれている。
〔問題点を解決するための手段〕
本発明は、前記問題点を解決するために、単語中から抽
出した漢字と、この漢字を含む見出しを辞書から読み出
して単語を検索すること、およびこの読み出した見出し
と、単語の送り仮名との関係から送り仮名の分類を行っ
て単語を検索することにより、例え辞書中に同一の送り
仮名が見つからなくても所望の単語の検索を行い得るよ
うにしている。
第1図は本発明の原理構成図を示す。図中検索部1は入
力データである文中に含まれる単語に合致する見出しを
辞書6中から検索するものである。
開始位置検出部2は、本発明に係わる検索方式の適用が
可能と推定される文字列の開始位置を検出するものであ
る。
漢字抽出部3は、開始位置検出部2によって検出された
文字列中の漢字のみを抽出するものである。
照合部4は、照合開始位置検索部4−1、辞書読出部4
−2、照合判定部4−3から構成され、漢字抽出部3に
よって抽出された漢字を含む見出しを辞書6中から見つ
け出すものである。
照合開始位置検索部4−1は、単語中から抽出した漢字
を含む見出しを登録した辞書6の例えば先頭ページを検
出するものである。
辞書読出部4−2は、照合開始位置検索部4−1によっ
て検出された例えば先頭ページから順次該当する見出し
を読み出すものである。
照合判定部4−3は、辞書読出部4−2によって読み出
した見出しが、単語中から抽出した漢字を含む適切なも
のであるあるか否かを判定するものである。
分類処理部5は、単語と、照合部4によって見つけ出さ
れた辞書6の見出しとから送り仮名の分類を行うもので
ある。
〔作用〕
次に、動作を説明する。
第1図において、文の入力データは、検索部1によって
辞書6中から合致する見出しが文頭から順次検索され、
見つかった場合には、その見出しを出力データとして出
力する。一方、合致するものが見つからなかった場合、
開始位置検出部2は、送り仮名の違いにより検出不能と
なったと推定される文字列の開始位置を見つけ出す。漢
字抽出部3はこの見つけ出した位置から始めて単語を構
成すると推定される長さの文字列に含まれる漢字のみを
抽出する。照合開始位置検索部4−1は、この抽出した
漢字を含む見出しが格納されている辞書6中の先頭ペー
ジを検出する。辞書読出部4−2は、この先頭ページか
ら見出しを順次読み出す。
照合判定部4−3は、この読み出した見出しが漢字抽出
部3によって抽出された漢字を含む適切なものであるか
否かが判定する。分類処理部5は、この適切なものであ
ると判定された見出しと、文の送り仮名との関係を分類
して類型化し、単語の検索を行わせる。
以上のように、辞書6中の見出しと合致しない文字列を
含む単語に対して、抽出された漢字部分を含む見出しを
辞書6中から読み出して単語の検索を行うこと、および
この読み出した見出しと、単語と推定される文字列の送
り仮名との間の関係から分類を行って単語の検索を行う
ことにより、例え辞書6中に登録されていない見出しに
対しても単語の検索を行うことが可能となる。
〔実施例〕
次に、第2図ないし第6図を用いて本発明の1実施例の
構成および動作を詳細に説明する。
まず、第2図を用いて第1図構成の全体の動作を説明す
る。
第2図において、図中■は、データ入力を行う状態を示
す。これは、仮名漢字まじりの“文字列″ (文字配列
)を入力することを意味している。
図中■は、辞書検索を行う状態を示す。これは、入力さ
れた“文字列中に含まれる単語に対応する見出しが辞書
6中に予め登録されているかを検索することを意味して
いる。これは、第1図検索部lが実行する。
図中■は、検索した結果、入力された“文字列”に含ま
れる単語に合致する見出しが見つかったか否かを判別す
る状態を示す。YESの場合には、所望の文を構成する
全ての単語に該当するものが辞書6中から見つかったの
で、この見つかった見出しを図中■でデータ出力する。
Noの場合には、本発明に係わる図中■以下の処理を実
行する。
図中■は、合致しないものが漢字まじりの文字列か調べ
、漢字まじりなら単語の先頭と思われる部分を辞書6を
見ずに検出する状態を示す。これは、図中■で辞書中に
登録されていないと判別された“文字列”が、漢字まじ
りであるか調べ、漢字まじりの場合に、送り仮名の違い
を除けば辞書に見出しが存在するであろうと推定される
文字列の先頭部分を検出することを意味している。
図中■は、「送り仮名照合」用の漢字を抜き出す状態を
示す。これは、第1図漢字抽出部3によ゛ って実行さ
れ、図中■で検出した文字列の先頭から単語を構成する
と推定される範囲のうちの漢字のみを抽出することを意
味している。
図中■は、辞書6から図中■で抽出した漢字と平仮名と
からなる単語群(見出し)を取り出すことを意味してい
る。これは、第1図照合部4によって実行されるもので
ある(第3図を用いて後述する)。
図中■は、分類を行う状態を示す。これは、第1図分類
処理部5によって実行されるものである(第4図を用い
て後述する)。
図中■は、前の単語に連続するか否かを判別する状態を
示す。YESの場合には、図中■で分類した結果を出力
して終了する。NOの場合には、図中[相]で該当デー
タなしとして終了する。
第3図は、文字列から抽出した漢字を含む見出しを辞書
6中から読み出す処理を説明するフローチャートであっ
て、第1図漢字抽出部3、および照合部4によって実行
されるものを表す。
第3図において、図中■は、漢字抽出部3が、文字列の
先頭位置情報を取得する状態を示す。これは、第1図開
始位置検出部2が一連の文字列から単語を構成する先頭
の位置を検出して漢字抽出部3に通知することを意味し
ている。
図中[相]は、漢字を抽出する状態を示す。これは、第
1図漢字抽出部3が、単語を構成すると推定される漢字
のみを抽出することを意味している。
図中0は、先頭文字で始まるページを開く状態を示す。
これは、単語から抽出した漢字を格納した辞書6の先頭
ページを開くことを意味している。
図中[相]は、そのページから始めて単語(見出し)を
1つづつ取り出す状態を示す。
図中■は、合致か否かを判定する状態を示す。
これは、図中[相]で取り出した見出しが、単語から抽
出した漢字を含んでいる適切なものであるか否かを判定
することを意味している。YESの場合には、図中[相
]でこの見出しを取り出して第1図分類処理部5に通知
し、図中0を実行する。NOの場合には、図中0を実行
する。
図中0は、終了か否かを判別する状態を示す。
YESの場合には、終了する(END)。NOの場合に
は、図中[相]以下の処理を繰り返す。
以上のように、漢字仮名混じりの文字列から抽出した漢
字を含む適切な見出しを読み出し、この読み出した見出
しと、文字列との関係に基づいて単語の検索を行うこと
が可能となる。
第4図は分類処理部5における動作を表す。図中0は、
送り仮名合致可能型(以下0+型という)であるか否か
を判別する状態を示す。このO゛型は、辞書中の見出し
が“口・口・・・・口・○”の形で登録されており、文
中には、口の一部を送りすぎているか、あるいは・Oの
一部が直前の口に取り込まれている単語として存在する
ものを表す。例えば第5図(ニ)図中(a)を用いて示
す辞書6中の見出し“必ず”は“口○”からなり、単語
“必らず”は“口00″とからなり、単語中の“ら”の
仮名が1つ送りすぎになっている。この“ら”は“・”
としてその有無を問われないので“必ず”は、0°型に
該当する。YESの場合にはO+型として分類する。N
oの場合には図中○を実行する。
図中0は、見出しの語尾が仮名であるか否かを判別する
状態を示す。これは 単純型(以下A型という)である
か否かを判別することを意味し、照合部4の機能により
暗に含まれている選別側と複合して辞書6中から読み出
した見出しが“口・・・口・○”の形であり、文中では
、“・○”の部分が省略されている単語として出現する
か否かを判別することを意味している。例えば第5図(
イ)図中(b)を用いて示す辞書6中の見出し“著し”
は“口○”からなり、単語“著い”は辞書6中の見出し
の“○”に相当する“し”が省略されているので、これ
は、A型に該当する。YESの場合にはA型として分類
する。NOの場合には図中@を実行する。
図中■は、漢字語尾送り型(以下B型という)であるか
否かを判別する状態を示す。これは、辞書中の見出しが
“★口”の形であり、文中では“口”の最後の音が余分
に送られている単語として出現するものであるか否かを
判別することを意味している。例えば第5図(ロ)図中
(C1を用いて示すように、辞書6中の見出し“憤”は
“口”からなり、単語“憤おる”は辞書6中の見出しに
音“お”が余分に送られている単語に活用語尾“る”が
付加しているので、これは、B型に該当する。YESの
場合にはB型として分類する。N。
の場合には図中[相]を実行する。
図中@は、連用形語尾付加型(以下R型という)である
か否かを判別する状態を示す。これは、辞書中には、見
出しが“★口”の形の動詞しか登録されておらず、連用
形語尾があれば、形態素解析以降の解析で名詞として扱
うものである。例えば第5図(ハ)図中(d)を用いて
示すように、辞書6中の見出し“間”は“口”からなり
、これは、動詞として登録されており、文中で名詞“間
”(例えば“間1”など)として出現する場合には当該
R型に分類される。YESの場合にはR型として分類す
る。NOの場合には仮名抜き単純型(以下〇−型という
)に分類する。この〇−型は、辞書中には、10・口・
・・・口・”の形で登録されており、単語中では“・”
の部分が任意に増減するものである。例えば第6図(ホ
)図中(f)に示すように、辞書中の見出し“寒空”は
“ロロ”からなり、単語中の“寒む空”は“む”の部分
が増大したものであって、〇−型と分類される。
その他に、第6図(へ)に示すように、R・〇−複合型
がある。これは、R型と〇−型とを複合したものである
以上のように、辞書中の見出しと、単語との間の送り仮
名の関係から上述したように分類することが可能になり
、例え辞書中に予め登録された見出しがなくてもその単
語の検索を行うことができる。
第5図および第6図において、左欄に示す単語は、従来
の方式では、解析不能となったものを示し、中央の欄は
正しく分解されるような表記であって辞書6中に予め登
録されているものを示す。
図中“ 1”は辞書6中の別の単語として登録されてい
る区切りを表す。尚、右欄は従来の辞書6を用いて失敗
した失敗パターン例を示す。図中■は誤った単語を表し
、◎は偶然正しい単語を引いたことを表し、■は未登録
語として処理されたものを示す。
〔発明の効果〕
以上説明したように、本発明によれば、単語中から抽出
した漢字を含む見出しを辞書から読み出して単語を検索
する構成を採用、およびこの辞書から読み出した見出し
と、単語の送り仮名との関係から送り仮名の分類を行っ
て単語を検索する構成を採用しているため、例え辞書中
に同一の送り仮名を含む見出しが見つからなくても所望
の単語の検索を行うことができる。
【図面の簡単な説明】
第1図は本発明の原理構成図、第2図は第1図構成の動
作説明フローチャート、第3図は本発明に係わる見出し
取り出し処理フローチャート、第4図は本発明に係わる
分類処理部の動作説明フローチャート、第5図および第
6図は本発明に係わる分類説明図を示す。 図中、1は検索部、2は開始位置検出部、3は漢字抽出
部、4は照合部、4−1は照合開始位置検索部、4−2
は辞書読出部、4−3は照合判定部、5は分類処理部、
6は辞書を表す。

Claims (2)

    【特許請求の範囲】
  1. (1)入力された仮名混じり文中に含まれる単語の検索
    を行う送り仮名検索方式において、 入力された仮名混じり文中の単語の開始位置から漢字を
    抽出する漢字抽出部(3)と、 この漢字抽出部(3)によって抽出された漢字が格納さ
    れている辞書(6)の先頭ページを検索する照合開始位
    置検索部(4−1)と、 この照合開始位置検索部(4−1)によって検索された
    辞書(6)中の先頭ページから順次見出しを読み出す辞
    書読出部(4−2)と、 この辞書読出部(4−2)によって読み出した見出し中
    の漢字部分と、単語の漢字部分とが合致するか否かを判
    定する照合判定部(4−3)とを備え、この照合判定部
    (4−3)によって判定された結果に基づいて単語を検
    索するよう構成したことを特徴とする送り仮名検索方式
  2. (2)入力された仮名混じり文中に含まれる単語の検索
    を行う送り仮名検索方式において、 入力された仮名混じり文中の単語から抽出した漢字を含
    む辞書(6)に格納されている見出しを照合して読み出
    す照合部(4)と、 この照合部(4)によって辞書(6)から読み出した見
    出しと、単語の送り仮名との関係から送り仮名の分類を
    行う分類処理部(5)とを備え、 この分類処理部(5)によって分類された型から単語を
    検索するよう構成したことを特徴とする送り仮名検索方
    式。
JP62044108A 1987-02-28 1987-02-28 送り仮名検索装置 Expired - Lifetime JPH0833892B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62044108A JPH0833892B2 (ja) 1987-02-28 1987-02-28 送り仮名検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62044108A JPH0833892B2 (ja) 1987-02-28 1987-02-28 送り仮名検索装置

Publications (2)

Publication Number Publication Date
JPS63213062A true JPS63213062A (ja) 1988-09-05
JPH0833892B2 JPH0833892B2 (ja) 1996-03-29

Family

ID=12682417

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62044108A Expired - Lifetime JPH0833892B2 (ja) 1987-02-28 1987-02-28 送り仮名検索装置

Country Status (1)

Country Link
JP (1) JPH0833892B2 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62144269A (ja) * 1985-12-18 1987-06-27 Matsushita Electric Ind Co Ltd 情報検索装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62144269A (ja) * 1985-12-18 1987-06-27 Matsushita Electric Ind Co Ltd 情報検索装置

Also Published As

Publication number Publication date
JPH0833892B2 (ja) 1996-03-29

Similar Documents

Publication Publication Date Title
Evans et al. A framework for named entity recognition in the open domain.
US7269547B2 (en) Tokenizer for a natural language processing system
US5890103A (en) Method and apparatus for improved tokenization of natural language text
Grefenstette Tokenization
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
US7212963B2 (en) System for distinguishing names in Asian writing systems
JP3594701B2 (ja) キーセンテンス抽出装置
Hollingsworth et al. Retrieving hierarchical text structure from typeset scientific articles–a prerequisite for e-science text mining
JPS63213062A (ja) 送り仮名検索装置
JPS61248160A (ja) 文書情報登録方式
JP3932912B2 (ja) 文字列整形装置、方法及びプログラム
JP2599973B2 (ja) 日本文訂正候補文字抽出装置
JPS63213061A (ja) 単語検索装置における送り仮名分類装置
JPH04188364A (ja) 日本文固有用語抽出装置
JP3109187B2 (ja) 形態素解析方式
JPS63213064A (ja) 単語検索装置における送り仮名判定装置
JP2004102856A (ja) 形態素列処理装置および方法
JP2005189955A (ja) 文書処理方法、文書処理装置、制御プログラム及び記録媒体
JPS6395573A (ja) 日本語文形態素解析における未知語処理方法
JPH05225183A (ja) 日本文単語誤り自動検出装置
JPS63213063A (ja) 単語検索装置における送り仮名判定装置
Grefenstette et al. Expanding lexicons by inducing paradigms and validating attested forms
JPH06215198A (ja) 文字認識後処理方式
Cowie CRL’s Approach to MET
JPH01156869A (ja) 日本文解析処理装置