JPS6395573A - 日本語文形態素解析における未知語処理方法 - Google Patents

日本語文形態素解析における未知語処理方法

Info

Publication number
JPS6395573A
JPS6395573A JP61242530A JP24253086A JPS6395573A JP S6395573 A JPS6395573 A JP S6395573A JP 61242530 A JP61242530 A JP 61242530A JP 24253086 A JP24253086 A JP 24253086A JP S6395573 A JPS6395573 A JP S6395573A
Authority
JP
Japan
Prior art keywords
word
character
unknown
particle
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61242530A
Other languages
English (en)
Inventor
Satoshi Okugawa
奥川 聡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP61242530A priority Critical patent/JPS6395573A/ja
Publication of JPS6395573A publication Critical patent/JPS6395573A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 韮豊欠互 この発明は、日本語文形態素解析における未知語処理方
法に関するものであり、漢字かな混じりの日本語文を英
語文に自動翻訳する日英翻訳機をはじめ、光学的文字読
取装置(○CR)や音声ワープロなどにも応用し得るも
のである。
従来技術 日英翻訳機等においては、入力された日本語文の形態素
解析を行なって、その解析結果として日本語構文解析等
に必要な情報を辞書システムより検索して構文解析部へ
送出する処理がなされている。
そして、この形態素解析処理において、その解析用単語
n?に登録されていない文字列があった場合には、それ
を「未知語」として処理しなければならない。
このような日本語文の形態素解析方法については、例え
ば、工業技術院 電子技術総合研究所発行(昭和59年
1月)の「日英科学技術文献の速報システムに関する研
究、日本語形態素解析システム説明書(SyIIlbo
lics 3600版)Version、 I Jに記
載されている。
しかしながら、このような従来の漢字かな混じりの日本
語文の形態素解析における未知語処理方法では、辞書検
索に失敗した際、直前単語を変更′できなかったら一意
的に、その直前単語の先頭を未知語部の先頭としていた
ため、「ひらがな列」に対する解析に尤度がないという
開面点があった。
旦−煎 この発明は上記の点に2みてなされたものであり、漢字
かな混じりの日本語文の形態素解析における未知語処理
に際して、未知語は自立語であるという前提で、「ひら
がな列Jの未知語を的確に決定できるようにすることを
目的とする。
構成 この発明は上記の目的を達成するため、漢字かな混じり
の日本語文から解析対象文字列を切り出し、その解析対
象文字列に対して単語辞書を検索して候補単語を抽出し
、その候補単語のいずれかを選択して確定処理を行なう
と共に、候補単語を抽出できず、且つ先行単語の変更が
不可能となった時には未知語の処理を行なう日本語文形
態素解析において。
未知語部の先頭文字がひらがなであったとき、その先頭
文字の次の文字から単語抽出を行なって助詞を探索し。
探索できたら、その助詞の直後の文字が字種変化を起こ
しているか否かを判断して1字種変化を起こしている場
合には上記先頭文字から上記助詞の直前の文字までを未
知語とし、 字種変化を起こしていない場合には、上記助詞の直後の
文字から単語抽出を行なって、1つでも候補単語が検出
できたら上記先頭文字から上記助詞の直前の文字までを
未知語と決定するようにしたものである。
以下、この発明の一実施例に基づいて具体的に説明する
第1図はこの発明を実施した形態素解析処理のブロック
図であり、1は解析対象文字列作成部。
2は単語抽出部、3は単語選択部、4は確定処理部であ
る。
解析対象文字列作成部1は、入力された漢字がな混じり
の日本語文から、単語選択部3で選択した単語の区切り
までを除いた残りの文字列を「解析対象文字列」とする
単語抽出部2は、形態素解析用辞書(単語辞書)2aを
検索すると共に11品詞分類表2b、活用語尾表2c、
接続重み行列表2d、及び文節末可否表28を用いて解
析対象文字列に対する候補単語を抽出し、「候補単語り
スト」を作成する。
単語選択部3は、単語抽出部2によって作成された「候
補単語りスト」が空でなかったら、そのリストの直前単
語を「単語りスト」に積む。
そして、「候補単語りスト」の各単語に対して評価式に
より評価値を求め、その中で最大の評価値をもつ単語を
第一候補とする。
もし「候補単語りストJが空であって、先行単語の変更
が不可能となった時には未知語処理を行た「単語りスト
Jから「確定単語りスト」を作成する処理を行なって次
のプロセスに移る。
次に、第2図のフローチャートによって、単語選択部3
におけるこの発明による「ひらがな列」に関する未知語
処理について説明する。
なお、第2図において、Pは文字列のポインタで、先頭
は「0」である。Qは単語の表記の長さであり、KKR
は先行単語の掛りコード(接続重み行列表の検索に利用
)であって、未知語のデフォルト値はrloOJ とす
る。
解析対象文字列に対する「候補単Hiリスト」が空で、
且つ先行単語の変更が不可能である場合に未知語処理を
行なうが、その際に未知語部の先頭文字がひらがなであ
った時に、この第2図のフローチャートに従って未知語
処理を行なう。
まず、ステップ1ではポインタPは「0」で。
ステップ2でaをrOJにする。そして、ステップ3で
ポインタPを+1し、ステップ4でKKRをrloOJ
にして、ステップ5で単語抽出処理を行なう。
すなわち、未知語部の先頭文字の次の文字から、第1図
の形態素M析用辞杏2 a +品詞分類表2b。
活用語尾衣2C,及び接続重み行列表2dを検索して候
補単語の抽出を行ない、「候補単語りスト」を作成する
そして、ステップ6でその結果が「空」であるか否かを
判断し、「空」であればステップ3へ戻り、ポインタを
さらに+1して同様の処理を繰り返す。
ステップ6で「空」でなければ候補単語があるので、ス
テップ7でその中に助詞が有るか否かを判断し、無けれ
ばやはりステップ3へ戻る。
助詞が有れば、ステップ8へ進んでその助詞の表記の長
さをQにし、ステップ9でその助詞の掛りコードをKK
Rにし、さらにステップ10でポインタPを現在のPに
αを加えた値(p+12)にする6 そして、ステップ11(判断l)でポインタPの指す文
字の字種を判定する。すなわち、探索された助詞の直後
の文字が字種変化を起こしているか否かを判断する。
その文字が「ひらがな以外」であれば1字種変化を起こ
しているのでステップ14へ進み、P=0〜p=p(現
在値)−Q −1の文字列、すなわち先頭文字から助詞
の直前の文字までの文字列を未知語と決定する。
ステップ11の判断で「ひらがな」であれば、字種変化
を起こしていないのでステップ12へ進み、助詞の直後
の文字からステップ5と同様な単語抽出処理を行なう。
そして、ステップ13(判断2)でその結果を判断し、
「候補単語りスト」が「空」であれば、候補単語が見つ
からなかったので、ステップ15でポインタをP−u(
助詞の先頭文字)にしてステップ3へ戻り、ポインタを
+1して同様な処理を繰り返す。
「候補単語りスト」が「空」でなければ、候補単語があ
ったのでステップ14へ進み、前述のようにP=0−P
=P(現在値)−Q−1の文字列を未知語と決定する。
ここで、具体的な例として、「この事実が世の中にえい
きようを多大に与えた。」という日本語文が入力された
場合について説明する。
形態素解析用辞書に「えいきよう」が登録されてなかっ
たとすると、未知語部(未知語処理対象の文字列)の先
頭文字が「え」となり、その未知語部の文字列とポイン
タPとの関係は次のようになる。
P→0123456789+011 えいきようを多大に与えた。
そして、第2図の処理がP=5まで進むと、ステップ5
の単語抽出処理で助詞「を」(n=1)を探索でき、ス
テップ10でPを「6」にする(P−1G=5+1=6
)。
このP=6の文字「多」は漢字であるため、ステップ1
1(判断1)で「ひらがな以外」と判断され、ステップ
14へ進んで、P=0の「え」からP=P(現在値)−
Q−1=6−1−1=4の「う」までの文字列「えいき
ょう」が未知語と決定される。
また、例えばrこの事実は世の中にえいきようがある。
」という日本語文が入力された場合、やはり形態素解析
用辞書に「えいきよう」が登録されていなかったとする
と、未知語部の先頭文字が「え」となり、その文字列と
ポインタPとの関係は次のようになる。
P→012345678 えいきょうがある。
この場合も、第2図の処理がP=5まで進むと助詞「が
」(n=1)を探索でき、ステップ10でポインタPを
6  (P+n=5+1=6)にする。
このP=6の文字「あJはひらがなのため、ステップ1
1(判断1)の判断で「ひらがなJとなり、ステップ1
2へ進んでP=6からの文字列に対して単語抽出処理を
行なう。
それによって、動詞rあるJが抽出できるので、ステッ
プ14へ進んで、P=0の「え」からP=P(現在値)
−Q−1=6−1−1=4の「う」までの文字列「えい
きよう」が未知語と決定される。
効果 以上説明してきたように、この発明によれば。
漢字かな混りの日本語文の形態素解析における未知語処
理に際し、「ひらがな列」の未知語を的確に決定するこ
とができる。
【図面の簡単な説明】
第1図はこの発明を実施した形態素解析処理のブロック
図、 第2図はその単語選択処理部におけるこの発明による「
ひらがな列」に関する未知語処理のフロー図である。 1・・・解析対象文字列作成部 2・・・単語抽出部   2a・・・形態素解析用辞書
3・・・単語選択部   4・・・確定処理部第1図 入力日本語文 構文解析処理へ

Claims (1)

  1. 【特許請求の範囲】 1 漢字かな混じりの日本語文から解析対象文字列を切
    り出し、その解析対象文字列に対して単語辞書を検索し
    て候補単語を抽出し、その候補単語のいずれかを選択し
    て確定処理を行なうと共に、候補単語を抽出できず、且
    つ先行単語の変更が不可能となつた時には未知語の処理
    を行なう日本語文形態素解析において、 未知語部の先頭文字がひらがなであつたとき、その先頭
    文字の次の文字から単語抽出を行なつて助詞を探索し、 探索できたら、その助詞の直後の文字が字種変化を起こ
    しているか否かを判断して、字種変化を起こしている場
    合には上記先頭文字から上記助詞の直前の文字までを未
    知語とし、 字種変化を起こしていない場合には、上記助詞の直後の
    文字から単語抽出を行なつて、1つでも候補単語が検出
    できたら上記先頭文字から上記助詞の直前の文字までを
    未知語とすることを特徴とする未知語処理方法。
JP61242530A 1986-10-13 1986-10-13 日本語文形態素解析における未知語処理方法 Pending JPS6395573A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61242530A JPS6395573A (ja) 1986-10-13 1986-10-13 日本語文形態素解析における未知語処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61242530A JPS6395573A (ja) 1986-10-13 1986-10-13 日本語文形態素解析における未知語処理方法

Publications (1)

Publication Number Publication Date
JPS6395573A true JPS6395573A (ja) 1988-04-26

Family

ID=17090482

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61242530A Pending JPS6395573A (ja) 1986-10-13 1986-10-13 日本語文形態素解析における未知語処理方法

Country Status (1)

Country Link
JP (1) JPS6395573A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02155073A (ja) * 1988-12-07 1990-06-14 Matsushita Electric Ind Co Ltd 未知語認定装置
US9763556B2 (en) 2012-12-21 2017-09-19 Electrolux Home Products Corporation N.V. Cutlery rack
US10149596B2 (en) 2012-12-21 2018-12-11 Electrolux Home Products Corporation N.V. Cutlery tray module for a dishwasher and dishwasher comprising at least one cutlery tray module

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02155073A (ja) * 1988-12-07 1990-06-14 Matsushita Electric Ind Co Ltd 未知語認定装置
US9763556B2 (en) 2012-12-21 2017-09-19 Electrolux Home Products Corporation N.V. Cutlery rack
US10149596B2 (en) 2012-12-21 2018-12-11 Electrolux Home Products Corporation N.V. Cutlery tray module for a dishwasher and dishwasher comprising at least one cutlery tray module

Similar Documents

Publication Publication Date Title
US5890103A (en) Method and apparatus for improved tokenization of natural language text
US7269547B2 (en) Tokenizer for a natural language processing system
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JPH09190449A (ja) 索引自動生成方法とその利用方法
EP0645720A2 (en) Dictionary creation supporting system
JP2002215617A (ja) 品詞タグ付けをする方法
JPH0351020B2 (ja)
JPH0724055B2 (ja) 単語分割処理方法
JPS6395573A (ja) 日本語文形態素解析における未知語処理方法
JPS61248160A (ja) 文書情報登録方式
JP2621999B2 (ja) 文書処理装置
JPS63228326A (ja) キ−ワ−ド自動抽出方式
JPS6395572A (ja) 日本語文形態素解析における未知語処理方法
JPH0561902A (ja) 機械翻訳システム
JPH0652151A (ja) 共起学習装置及びこれを用いたかな漢字変換装置
JPH02110771A (ja) 電訳機
JPH0612453A (ja) 未知語抽出登録装置
JPH04188364A (ja) 日本文固有用語抽出装置
JPS6395574A (ja) 日本語文の形態素解析方法
JPH0687239B2 (ja) 文字処理装置
Cowie CRL’s Approach to MET
JPH02297151A (ja) 文書編集装置
JPS62226270A (ja) 文章作成装置
JPH08241315A (ja) 文書処理装置の単語登録機構
JPH0576658B2 (ja)