JPS6395572A - 日本語文形態素解析における未知語処理方法 - Google Patents

日本語文形態素解析における未知語処理方法

Info

Publication number
JPS6395572A
JPS6395572A JP61242529A JP24252986A JPS6395572A JP S6395572 A JPS6395572 A JP S6395572A JP 61242529 A JP61242529 A JP 61242529A JP 24252986 A JP24252986 A JP 24252986A JP S6395572 A JPS6395572 A JP S6395572A
Authority
JP
Japan
Prior art keywords
word
character
detected
unknown
hiragana
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61242529A
Other languages
English (en)
Inventor
Satoshi Okugawa
奥川 聡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP61242529A priority Critical patent/JPS6395572A/ja
Publication of JPS6395572A publication Critical patent/JPS6395572A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 技術分野 この発明は1日本語文形態素解析における未知語処理方
法に関するものであり、漢字かな混じりの日本語文を英
語文に自動翻訳する日英翻訳機をはじめ、光学的文字読
取装置(○CR)や音声ワープロなどにも応用し得るも
のである。
従来技術 日英翻訳機等においては、入力された日本語文の形態素
解析を行なって、その解析結果として日本語構文解析等
に必要な情報を辞書システムより検索して構文解析部へ
送出する処理がなされている。
そして、この形態素解析処理において、その解析用単語
辞書に登録されていない文字列があった場合には、それ
を「未知語」として処理しなければならない。
このような日本語文の形態素解析方法については1例え
ば、工業技術院 電子技術総合研究所発行(昭和59年
1月)の「日英科学技術文献の速報システムに関する研
究、日本記形態素解析システム説明i (Symbol
icS3600版)Version、 I Jに記載さ
れている。
しかしながら、このような従来の漢字かな混じ゛りの日
本語文の形態素解析における未知語処理方法では、辞書
検索に失敗した際、直前単語を変更できなかったら一意
的に、その直前単語の先頭を未知語部の先頭としていた
ため、「ひらがな列」に対する解析に尤度がないという
問題点があった。
目   的 この発明は上記の点に鑑みてなされたものであり、漢字
かな混じりの日本語文の形態素解析における未知語処理
に際して、未知語は自立語であるという前提のもとに、
「ひらがな列」の未知語を的確に決定できるようにする
ことを目的とする。
眉二」父 この発明は上記の目的を達成するため、漢字かな混じり
の日本語文から解析対象文字列を切り出し、その解析対
象文字列に対して単語辞書を検索して候補単語を抽出し
、その候補単語のいずれかを選択して確定処理を行なう
と共に、候補単語を抽出できず、且つ先行単語の変更が
不可能となった時には未知語の処理を行なう日本語文形
態素解析において、 未知語部0先頭文字がひらがなであったとき、その先頭
文字の次の文字からひらがな以外の字種を探索し。
ひらがな以外の字種が検出できたら、その検出文字から
単語抽出を行ない、1つでも候補単語を検出できたら上
記先頭文字から上記検出文字の直前の文字までを未知語
とし、 ひらがな以外の字種が検出できなかったら、上記先頭文
字の次の文字から順に単語抽出を行なって、自立語であ
る候補単語を検出できたらその自立語の直後の文字から
さらに単語抽出を行ない、1つでも候補単語が検出でき
たら上記先頭文字から上記自立語の直前の文字までを未
知語と決定するようにしたものである。
以下、この発明の一実施例に基づいて具体的に説明する
第1図はこの発明を実施した形態素解析処理のブロック
図であり、1は解析対象文字列作成部。
2は単語抽出部、3は単語選択部、4は確定処理部であ
る。
解析対象文字列作成部1は、入力された漢字かな混じり
の日本語文から単語選択部3で選択した単語の区切りま
でを除いた残りの文字列を「解析対象文字列」とする。
単語抽出部2は、形態素解析用辞書(単語辞書)2aを
検索すると共に12品詞分類表2b、活用語尾表2C,
接続重み行列表2d、及び文節末可否表28を用いて解
析対象文字列に対する候補単語を抽出し、「候補単語り
スト」を作成する。
単語選択部3は、単語抽出部2によって作成された「候
補単語りスト」が空でなかったら、そのリストの直前単
語を「単語リスト」に積む。
そして、「候補単語りスト」の各単語に対して評価式に
より評価値を求め、その中で最大の評価値をもつ単語を
第一候補とする。
もし「候補単語りスト」が空であって、先行単語の変更
が不可能となった時には未知語処理を行なうが、その詳
細は後述する。
確定処理部4は、単語選択部3によって作成された「単
語りスト」から「確定単語リスト」を作成する処理を行
なって次のプロセスに移る。
次に、第2図のフローチャートによって、単語選択部3
におけるこの発明による「ひらがな列」に関する未知語
処理について説明する。
なお、第2図において、Pは文字列のポインタで、先頭
は「0」である、Qは単語の表記の長さであり、KKR
は先行単語の掛りコード(接続重み行列表の検索に利用
)であって、未知語のデフォルト値はrloOJとする
解析対象文字列に対する「候補単語りスト」が空で、且
つ先行単語の変更が不可能である場合に未知語処理を行
なうが、その際に未知語部(未知語処理の対象となる文
字列)の先頭文字がひらがなであった時に、この第2図
のフローチャートに従って未知語処理を行なう。
まず、ステップ1ではポインタPは「0」で、ステップ
2でQをrOJにする。 次いで、ステップ3でポイン
タPを+1すると共にKKRを「100」にする。
そして、ステップ4(11J断1)でポインタPの゛指
す位置の字種を判定する。
その結果、「ひらがな以外」の字種であれば、ステップ
15へ進んでその文字(以下「検出文字」という9から
単語抽出処理を行ない、その結果をステップ16(判断
2)で判定する。
この判定で候補単語リストが「空」でなければ、すなわ
ち候補単語が1つ以上検出できていれば。
ステップ17でP=OからP=P(現在値)−1まで、
すなわち先頭文字から検出文字の直前の文字までの文字
列を未知語と決定してこのルーチンを抜ける。
候補単語リストが「空」であれば、候補単語が1つも検
出できなかったので、ステップ3へ戻って、ポインタP
をさらに1つ進めて同様の処理を繰り返す。
一方、ステップ4でポインタPの指す位はの字種が「ひ
らがなJであった時には、ステップ5へ進んで単語抽出
処理を行なう。
すなわち、未知語部の先頭文字の次の文字から。
第1図の形態素解祈用辞書2 a、品詞分類表2b。
活用語尾表2c、及び接続重み行列表2dを検索して候
補単語の抽出を行ない、「候補単語りストJを作成する
そして、ステップ6でその結果が「空」であるか否かを
判断し、「空」であればステップ3へ戻り、ポインタP
をさらに1進めて同様の処理を繰り返す。
ステップ6で「空」でなければ候補単語があるので、ス
テップ7でその中に助詞が有るか否かを判断し、無けれ
ばステップ18 (判断3)へ進んで、候補単語中に自
立語(名詞、動詞、形容詞。
形容動詞、副詞など)があるか否かを判断する。
その結果、自立語がなければステップ3へ戻るが、自立
語があればステップ19へ進み、その自立語の単語の表
記の長さをQとし、その掛りコードをKKRとして、ス
テップ20でポインタPをP十〇にする(Qだけ進める
)。
そして、ステップ21で上記自立語の直後の文字から単
語抽出処理を行なって、その結果をステップ22(判断
4)で判定し、候補単語リストが「空」でなければ、後
述するステップ14へ進み、「空」であればステップ2
3へ進んでポインタPをP−Qにして(Qだけ戻して)
ステップ3へ戻る。
ステップ14では、p=oからP=P(現在値)−Q−
1まで、すなわち先頭文字から自立語の直前の文字まで
の文字列を未知語と決定してこのルーチンを抜ける。
ステップ7で助詞が有と判断すると、ステップ8へ進ん
でその助詞の表記の長さをQにし、ステップ9でその助
詞の掛りコードをKKRにし、さらにステップIOでポ
インタPをQだけ進めてP十〇にする。
そして、ステップ11でポインタPの指す文字の字種を
判定する。すなわち、探索された助詞の直後の文字が字
種変化を起こしているか否かを判断する。
その文字が「ひらがな以外」であれば1字種変化を起こ
しているのでステップ14へ進み、P=0〜P=P(現
在値)−Q−1の文字列、すなわち先頭文字から助詞の
直前の文字までの文字列を未知語と決定する。
ステップ11の判断で「ひらがな」であれば。
字種変化を起こしていないのでステップ12へ進み、助
詞の直後の文字からステップ5と同様な単語抽出処理を
行なう。
そして、ステップ13でその結果を判断して。
「候補単語リスト」が「空」であれば、候補単語が見つ
からなかったので、ステップ24でポインタをP−Q(
助詞の先頭文字)にしてステップ3へ戻り、ポインタを
1つ進めて同様な処理を繰り返す。
ステップ13で「候補単語リスト」が「空」でなければ
、候補単語があったのでステップ14へ進み、前述のよ
うにP=OからP=P(現在値)−fl−1まで、この
場合は先頭文字から助詞の直前の文字までの文字列を未
知語と決定してこのルーチンを抜ける。
ここで、具体的な例として、「我社はごがん路線を歩ま
ない。」という日本語文が入力された場合について説明
する。
形態素解析用辞書に「ごかん」が登録されてなかったと
すると、未知語部(未知語処理対象の文字列)の先頭文
字が「ご」となり、その未知語部の文字列とポインタP
との関係は次のようになる。
P−+012345678910 どかん路線を歩まない。
そして、第2図の処理がP=3まで進んだところで字種
変化が起き、ステップ4 (判断l)からとステップ1
5へ進んで単語抽出処理を行なう。
それによって、候補単語として「路線」(名詞)が抽出
できるので、ステップ16(判断2)からステップ17
へ進んで、P=0の「ご」からP=P(現在値)−1=
3−1=2の「ん」までの文字列「ごかん」が未知語と
決定される。
次に、他の具体例として、「この列車はしなかわどまり
だ。」という日本語文が入力され、形態素解析用辞書に
「しなかわ」が登録されていなかった場合、未知語部の
先頭文字が「シ」となり。
その文字列とポインタPとの関係は次のようになる。
P→0 1 2345678 しながわどまりだ。
この場合、第2図のステップ3〜6の処理がP=2まで
進んだところで、格助詞「が」(Q=1)が検出でき、
ステップ7〜12へ進んで、ポインタPを3 (P+1
11=2+1=3) にして、「わ」から単語抽出処理
(ステップ12)を行なうが。
その結果は候補単語が見つからす「空Jとなる。
そこで、ステップ13からステップ24へ進んでポイン
タPをQだけ戻して2にし、ステップ3へ戻って「わど
・・・」の未知語処理を進める。
そして、P=4のときのステップ5の単語抽出処理で、
候補単語としてrどまり」(動詞:自立語、Q=3)が
検出される。
それによりステップ18〜21へ進み、ポインタPを7
 (P+12=4+3=7)にして単語抽出処理(ステ
ップ21)を行なう。
ここで、候補単語として断定の助動詞「だ」が検出され
るので、ステップ22(判断4)からステップ14へ進
み、P=0の先頭文字「シ」からP=P(現在値) −
Q −1= 7−3−1 = 3の「わ」(自立語「ど
まり」の直前の文字)までの文字列、すなわち「しなが
わ」を未知語と決定する。
効果 以上説明してきたように、この発明によれば、漢字かな
混りの日本語文の形態素解析における未知語処理に際し
、「ひらがな列」の未知語を的確に決定することができ
る。
【図面の簡単な説明】
第1図はこの発明を実施した形態素解析処理のブロック
図、 第2図はその単語選択部におけるこの発明に係る「ひら
がな列」に関する未知語処理のフロー図である。 1・・・解析対象文字列作成部

Claims (1)

  1. 【特許請求の範囲】 1 漢字かな混じりの日本語文から解析対象文字列を切
    り出し、その解析対象文字列に対して単語辞書を検索し
    て候補単語を抽出し、その候補単語のいずれかを選択し
    て確定処理を行なうと共に、候補単語を抽出できず、且
    つ先行単語の変更が不可能となつた時には未知語の処理
    を行なう日本語文形態素解析において、 未知語部の先頭文字がひらがなであつたとき、その先頭
    文字の次の文字からひらがな以外の字種を探索し、 ひらがな以外の字種が検出できたら、その検出文字から
    単語抽出を行ない、1つでも候補単語を検出できたら上
    記先頭文字から上記検出文字の直前の文字までを未知語
    とし、 ひらがな以外の字種が検出できなかつたら、上記先頭文
    字の次の文字から順に単語抽出を行なつて、自立語であ
    る候補単語を検出できたらその自立語の直後の文字から
    さらに単語抽出を行ない、1つでも候補単語が検出でき
    たら上記先頭文字から上記自立語の直前の文字までを未
    知語とすることを特徴とする未知語処理方法。
JP61242529A 1986-10-13 1986-10-13 日本語文形態素解析における未知語処理方法 Pending JPS6395572A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61242529A JPS6395572A (ja) 1986-10-13 1986-10-13 日本語文形態素解析における未知語処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61242529A JPS6395572A (ja) 1986-10-13 1986-10-13 日本語文形態素解析における未知語処理方法

Publications (1)

Publication Number Publication Date
JPS6395572A true JPS6395572A (ja) 1988-04-26

Family

ID=17090467

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61242529A Pending JPS6395572A (ja) 1986-10-13 1986-10-13 日本語文形態素解析における未知語処理方法

Country Status (1)

Country Link
JP (1) JPS6395572A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01296373A (ja) * 1988-05-25 1989-11-29 Ricoh Co Ltd 未登録語処理方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01296373A (ja) * 1988-05-25 1989-11-29 Ricoh Co Ltd 未登録語処理方法

Similar Documents

Publication Publication Date Title
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JPS6211932A (ja) 情報検索方法
Stamatatos et al. A practical chunker for unrestricted text
Roche Text disambiguation by finite state automata, an algorithm and experiments on corpora
Jha et al. Inflectional morphology analyzer for Sanskrit
Grefenstette et al. Modifying a natural language processing system for European languages to treat Arabic in information processing and information retrieval applications
Saito et al. Multi-language named-entity recognition system based on HMM
JPS6395572A (ja) 日本語文形態素解析における未知語処理方法
JPS6395573A (ja) 日本語文形態素解析における未知語処理方法
JPH06266770A (ja) 文書情報検索装置及び検索装置及び機械翻訳装置及び文書作成装置
JP3348872B2 (ja) 日本語形態素解析装置
Walker Computational linguistic techniques in an on-line system for textual analysis
JP4262529B2 (ja) 全文検索装置、方法、プログラム及び記録媒体
JPH0244462A (ja) 自然言語処理装置
JP3508312B2 (ja) キーワード抽出装置
Tanev et al. LINGUA: a robust architecture for text processing and anaphora resolution in Bulgarian
Otair et al. An Arabic retrieval system with native language rather than SQL queries
Kadam Develop a Marathi Lemmatizer for Common Nouns and Simple Tenses of Verbs
JPS63109572A (ja) 派生語処理方式
JPH0612453A (ja) 未知語抽出登録装置
JPH04188364A (ja) 日本文固有用語抽出装置
Dash Morphological processing of words in bangla corpus
Morris A review of recent developments in term conflation approaches for Arabic text information retrieval
JPH02110771A (ja) 電訳機