JPS6395573A - 日本語文形態素解析における未知語処理方法 - Google Patents
日本語文形態素解析における未知語処理方法Info
- Publication number
- JPS6395573A JPS6395573A JP61242530A JP24253086A JPS6395573A JP S6395573 A JPS6395573 A JP S6395573A JP 61242530 A JP61242530 A JP 61242530A JP 24253086 A JP24253086 A JP 24253086A JP S6395573 A JPS6395573 A JP S6395573A
- Authority
- JP
- Japan
- Prior art keywords
- word
- character
- unknown
- particle
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 24
- 238000012545 processing Methods 0.000 title description 18
- 238000000034 method Methods 0.000 title description 13
- 239000002245 particle Substances 0.000 claims description 22
- 230000000877 morphologic effect Effects 0.000 claims description 17
- 235000016496 Panda oleosa Nutrition 0.000 claims description 7
- 240000000220 Panda oleosa Species 0.000 claims description 7
- 238000003672 processing method Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 description 8
- 239000000284 extract Substances 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000012790 confirmation Methods 0.000 description 2
- 230000021615 conjugation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
韮豊欠互
この発明は、日本語文形態素解析における未知語処理方
法に関するものであり、漢字かな混じりの日本語文を英
語文に自動翻訳する日英翻訳機をはじめ、光学的文字読
取装置(○CR)や音声ワープロなどにも応用し得るも
のである。
法に関するものであり、漢字かな混じりの日本語文を英
語文に自動翻訳する日英翻訳機をはじめ、光学的文字読
取装置(○CR)や音声ワープロなどにも応用し得るも
のである。
従来技術
日英翻訳機等においては、入力された日本語文の形態素
解析を行なって、その解析結果として日本語構文解析等
に必要な情報を辞書システムより検索して構文解析部へ
送出する処理がなされている。
解析を行なって、その解析結果として日本語構文解析等
に必要な情報を辞書システムより検索して構文解析部へ
送出する処理がなされている。
そして、この形態素解析処理において、その解析用単語
n?に登録されていない文字列があった場合には、それ
を「未知語」として処理しなければならない。
n?に登録されていない文字列があった場合には、それ
を「未知語」として処理しなければならない。
このような日本語文の形態素解析方法については、例え
ば、工業技術院 電子技術総合研究所発行(昭和59年
1月)の「日英科学技術文献の速報システムに関する研
究、日本語形態素解析システム説明書(SyIIlbo
lics 3600版)Version、 I Jに記
載されている。
ば、工業技術院 電子技術総合研究所発行(昭和59年
1月)の「日英科学技術文献の速報システムに関する研
究、日本語形態素解析システム説明書(SyIIlbo
lics 3600版)Version、 I Jに記
載されている。
しかしながら、このような従来の漢字かな混じりの日本
語文の形態素解析における未知語処理方法では、辞書検
索に失敗した際、直前単語を変更′できなかったら一意
的に、その直前単語の先頭を未知語部の先頭としていた
ため、「ひらがな列」に対する解析に尤度がないという
開面点があった。
語文の形態素解析における未知語処理方法では、辞書検
索に失敗した際、直前単語を変更′できなかったら一意
的に、その直前単語の先頭を未知語部の先頭としていた
ため、「ひらがな列」に対する解析に尤度がないという
開面点があった。
旦−煎
この発明は上記の点に2みてなされたものであり、漢字
かな混じりの日本語文の形態素解析における未知語処理
に際して、未知語は自立語であるという前提で、「ひら
がな列Jの未知語を的確に決定できるようにすることを
目的とする。
かな混じりの日本語文の形態素解析における未知語処理
に際して、未知語は自立語であるという前提で、「ひら
がな列Jの未知語を的確に決定できるようにすることを
目的とする。
構成
この発明は上記の目的を達成するため、漢字かな混じり
の日本語文から解析対象文字列を切り出し、その解析対
象文字列に対して単語辞書を検索して候補単語を抽出し
、その候補単語のいずれかを選択して確定処理を行なう
と共に、候補単語を抽出できず、且つ先行単語の変更が
不可能となった時には未知語の処理を行なう日本語文形
態素解析において。
の日本語文から解析対象文字列を切り出し、その解析対
象文字列に対して単語辞書を検索して候補単語を抽出し
、その候補単語のいずれかを選択して確定処理を行なう
と共に、候補単語を抽出できず、且つ先行単語の変更が
不可能となった時には未知語の処理を行なう日本語文形
態素解析において。
未知語部の先頭文字がひらがなであったとき、その先頭
文字の次の文字から単語抽出を行なって助詞を探索し。
文字の次の文字から単語抽出を行なって助詞を探索し。
探索できたら、その助詞の直後の文字が字種変化を起こ
しているか否かを判断して1字種変化を起こしている場
合には上記先頭文字から上記助詞の直前の文字までを未
知語とし、 字種変化を起こしていない場合には、上記助詞の直後の
文字から単語抽出を行なって、1つでも候補単語が検出
できたら上記先頭文字から上記助詞の直前の文字までを
未知語と決定するようにしたものである。
しているか否かを判断して1字種変化を起こしている場
合には上記先頭文字から上記助詞の直前の文字までを未
知語とし、 字種変化を起こしていない場合には、上記助詞の直後の
文字から単語抽出を行なって、1つでも候補単語が検出
できたら上記先頭文字から上記助詞の直前の文字までを
未知語と決定するようにしたものである。
以下、この発明の一実施例に基づいて具体的に説明する
。
。
第1図はこの発明を実施した形態素解析処理のブロック
図であり、1は解析対象文字列作成部。
図であり、1は解析対象文字列作成部。
2は単語抽出部、3は単語選択部、4は確定処理部であ
る。
る。
解析対象文字列作成部1は、入力された漢字がな混じり
の日本語文から、単語選択部3で選択した単語の区切り
までを除いた残りの文字列を「解析対象文字列」とする
。
の日本語文から、単語選択部3で選択した単語の区切り
までを除いた残りの文字列を「解析対象文字列」とする
。
単語抽出部2は、形態素解析用辞書(単語辞書)2aを
検索すると共に11品詞分類表2b、活用語尾表2c、
接続重み行列表2d、及び文節末可否表28を用いて解
析対象文字列に対する候補単語を抽出し、「候補単語り
スト」を作成する。
検索すると共に11品詞分類表2b、活用語尾表2c、
接続重み行列表2d、及び文節末可否表28を用いて解
析対象文字列に対する候補単語を抽出し、「候補単語り
スト」を作成する。
単語選択部3は、単語抽出部2によって作成された「候
補単語りスト」が空でなかったら、そのリストの直前単
語を「単語りスト」に積む。
補単語りスト」が空でなかったら、そのリストの直前単
語を「単語りスト」に積む。
そして、「候補単語りスト」の各単語に対して評価式に
より評価値を求め、その中で最大の評価値をもつ単語を
第一候補とする。
より評価値を求め、その中で最大の評価値をもつ単語を
第一候補とする。
もし「候補単語りストJが空であって、先行単語の変更
が不可能となった時には未知語処理を行た「単語りスト
Jから「確定単語りスト」を作成する処理を行なって次
のプロセスに移る。
が不可能となった時には未知語処理を行た「単語りスト
Jから「確定単語りスト」を作成する処理を行なって次
のプロセスに移る。
次に、第2図のフローチャートによって、単語選択部3
におけるこの発明による「ひらがな列」に関する未知語
処理について説明する。
におけるこの発明による「ひらがな列」に関する未知語
処理について説明する。
なお、第2図において、Pは文字列のポインタで、先頭
は「0」である。Qは単語の表記の長さであり、KKR
は先行単語の掛りコード(接続重み行列表の検索に利用
)であって、未知語のデフォルト値はrloOJ とす
る。
は「0」である。Qは単語の表記の長さであり、KKR
は先行単語の掛りコード(接続重み行列表の検索に利用
)であって、未知語のデフォルト値はrloOJ とす
る。
解析対象文字列に対する「候補単Hiリスト」が空で、
且つ先行単語の変更が不可能である場合に未知語処理を
行なうが、その際に未知語部の先頭文字がひらがなであ
った時に、この第2図のフローチャートに従って未知語
処理を行なう。
且つ先行単語の変更が不可能である場合に未知語処理を
行なうが、その際に未知語部の先頭文字がひらがなであ
った時に、この第2図のフローチャートに従って未知語
処理を行なう。
まず、ステップ1ではポインタPは「0」で。
ステップ2でaをrOJにする。そして、ステップ3で
ポインタPを+1し、ステップ4でKKRをrloOJ
にして、ステップ5で単語抽出処理を行なう。
ポインタPを+1し、ステップ4でKKRをrloOJ
にして、ステップ5で単語抽出処理を行なう。
すなわち、未知語部の先頭文字の次の文字から、第1図
の形態素M析用辞杏2 a +品詞分類表2b。
の形態素M析用辞杏2 a +品詞分類表2b。
活用語尾衣2C,及び接続重み行列表2dを検索して候
補単語の抽出を行ない、「候補単語りスト」を作成する
。
補単語の抽出を行ない、「候補単語りスト」を作成する
。
そして、ステップ6でその結果が「空」であるか否かを
判断し、「空」であればステップ3へ戻り、ポインタを
さらに+1して同様の処理を繰り返す。
判断し、「空」であればステップ3へ戻り、ポインタを
さらに+1して同様の処理を繰り返す。
ステップ6で「空」でなければ候補単語があるので、ス
テップ7でその中に助詞が有るか否かを判断し、無けれ
ばやはりステップ3へ戻る。
テップ7でその中に助詞が有るか否かを判断し、無けれ
ばやはりステップ3へ戻る。
助詞が有れば、ステップ8へ進んでその助詞の表記の長
さをQにし、ステップ9でその助詞の掛りコードをKK
Rにし、さらにステップ10でポインタPを現在のPに
αを加えた値(p+12)にする6 そして、ステップ11(判断l)でポインタPの指す文
字の字種を判定する。すなわち、探索された助詞の直後
の文字が字種変化を起こしているか否かを判断する。
さをQにし、ステップ9でその助詞の掛りコードをKK
Rにし、さらにステップ10でポインタPを現在のPに
αを加えた値(p+12)にする6 そして、ステップ11(判断l)でポインタPの指す文
字の字種を判定する。すなわち、探索された助詞の直後
の文字が字種変化を起こしているか否かを判断する。
その文字が「ひらがな以外」であれば1字種変化を起こ
しているのでステップ14へ進み、P=0〜p=p(現
在値)−Q −1の文字列、すなわち先頭文字から助詞
の直前の文字までの文字列を未知語と決定する。
しているのでステップ14へ進み、P=0〜p=p(現
在値)−Q −1の文字列、すなわち先頭文字から助詞
の直前の文字までの文字列を未知語と決定する。
ステップ11の判断で「ひらがな」であれば、字種変化
を起こしていないのでステップ12へ進み、助詞の直後
の文字からステップ5と同様な単語抽出処理を行なう。
を起こしていないのでステップ12へ進み、助詞の直後
の文字からステップ5と同様な単語抽出処理を行なう。
そして、ステップ13(判断2)でその結果を判断し、
「候補単語りスト」が「空」であれば、候補単語が見つ
からなかったので、ステップ15でポインタをP−u(
助詞の先頭文字)にしてステップ3へ戻り、ポインタを
+1して同様な処理を繰り返す。
「候補単語りスト」が「空」であれば、候補単語が見つ
からなかったので、ステップ15でポインタをP−u(
助詞の先頭文字)にしてステップ3へ戻り、ポインタを
+1して同様な処理を繰り返す。
「候補単語りスト」が「空」でなければ、候補単語があ
ったのでステップ14へ進み、前述のようにP=0−P
=P(現在値)−Q−1の文字列を未知語と決定する。
ったのでステップ14へ進み、前述のようにP=0−P
=P(現在値)−Q−1の文字列を未知語と決定する。
ここで、具体的な例として、「この事実が世の中にえい
きようを多大に与えた。」という日本語文が入力された
場合について説明する。
きようを多大に与えた。」という日本語文が入力された
場合について説明する。
形態素解析用辞書に「えいきよう」が登録されてなかっ
たとすると、未知語部(未知語処理対象の文字列)の先
頭文字が「え」となり、その未知語部の文字列とポイン
タPとの関係は次のようになる。
たとすると、未知語部(未知語処理対象の文字列)の先
頭文字が「え」となり、その未知語部の文字列とポイン
タPとの関係は次のようになる。
P→0123456789+011
えいきようを多大に与えた。
そして、第2図の処理がP=5まで進むと、ステップ5
の単語抽出処理で助詞「を」(n=1)を探索でき、ス
テップ10でPを「6」にする(P−1G=5+1=6
)。
の単語抽出処理で助詞「を」(n=1)を探索でき、ス
テップ10でPを「6」にする(P−1G=5+1=6
)。
このP=6の文字「多」は漢字であるため、ステップ1
1(判断1)で「ひらがな以外」と判断され、ステップ
14へ進んで、P=0の「え」からP=P(現在値)−
Q−1=6−1−1=4の「う」までの文字列「えいき
ょう」が未知語と決定される。
1(判断1)で「ひらがな以外」と判断され、ステップ
14へ進んで、P=0の「え」からP=P(現在値)−
Q−1=6−1−1=4の「う」までの文字列「えいき
ょう」が未知語と決定される。
また、例えばrこの事実は世の中にえいきようがある。
」という日本語文が入力された場合、やはり形態素解析
用辞書に「えいきよう」が登録されていなかったとする
と、未知語部の先頭文字が「え」となり、その文字列と
ポインタPとの関係は次のようになる。
用辞書に「えいきよう」が登録されていなかったとする
と、未知語部の先頭文字が「え」となり、その文字列と
ポインタPとの関係は次のようになる。
P→012345678
えいきょうがある。
この場合も、第2図の処理がP=5まで進むと助詞「が
」(n=1)を探索でき、ステップ10でポインタPを
6 (P+n=5+1=6)にする。
」(n=1)を探索でき、ステップ10でポインタPを
6 (P+n=5+1=6)にする。
このP=6の文字「あJはひらがなのため、ステップ1
1(判断1)の判断で「ひらがなJとなり、ステップ1
2へ進んでP=6からの文字列に対して単語抽出処理を
行なう。
1(判断1)の判断で「ひらがなJとなり、ステップ1
2へ進んでP=6からの文字列に対して単語抽出処理を
行なう。
それによって、動詞rあるJが抽出できるので、ステッ
プ14へ進んで、P=0の「え」からP=P(現在値)
−Q−1=6−1−1=4の「う」までの文字列「えい
きよう」が未知語と決定される。
プ14へ進んで、P=0の「え」からP=P(現在値)
−Q−1=6−1−1=4の「う」までの文字列「えい
きよう」が未知語と決定される。
効果
以上説明してきたように、この発明によれば。
漢字かな混りの日本語文の形態素解析における未知語処
理に際し、「ひらがな列」の未知語を的確に決定するこ
とができる。
理に際し、「ひらがな列」の未知語を的確に決定するこ
とができる。
第1図はこの発明を実施した形態素解析処理のブロック
図、 第2図はその単語選択処理部におけるこの発明による「
ひらがな列」に関する未知語処理のフロー図である。 1・・・解析対象文字列作成部 2・・・単語抽出部 2a・・・形態素解析用辞書
3・・・単語選択部 4・・・確定処理部第1図 入力日本語文 構文解析処理へ
図、 第2図はその単語選択処理部におけるこの発明による「
ひらがな列」に関する未知語処理のフロー図である。 1・・・解析対象文字列作成部 2・・・単語抽出部 2a・・・形態素解析用辞書
3・・・単語選択部 4・・・確定処理部第1図 入力日本語文 構文解析処理へ
Claims (1)
- 【特許請求の範囲】 1 漢字かな混じりの日本語文から解析対象文字列を切
り出し、その解析対象文字列に対して単語辞書を検索し
て候補単語を抽出し、その候補単語のいずれかを選択し
て確定処理を行なうと共に、候補単語を抽出できず、且
つ先行単語の変更が不可能となつた時には未知語の処理
を行なう日本語文形態素解析において、 未知語部の先頭文字がひらがなであつたとき、その先頭
文字の次の文字から単語抽出を行なつて助詞を探索し、 探索できたら、その助詞の直後の文字が字種変化を起こ
しているか否かを判断して、字種変化を起こしている場
合には上記先頭文字から上記助詞の直前の文字までを未
知語とし、 字種変化を起こしていない場合には、上記助詞の直後の
文字から単語抽出を行なつて、1つでも候補単語が検出
できたら上記先頭文字から上記助詞の直前の文字までを
未知語とすることを特徴とする未知語処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61242530A JPS6395573A (ja) | 1986-10-13 | 1986-10-13 | 日本語文形態素解析における未知語処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61242530A JPS6395573A (ja) | 1986-10-13 | 1986-10-13 | 日本語文形態素解析における未知語処理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS6395573A true JPS6395573A (ja) | 1988-04-26 |
Family
ID=17090482
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP61242530A Pending JPS6395573A (ja) | 1986-10-13 | 1986-10-13 | 日本語文形態素解析における未知語処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS6395573A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02155073A (ja) * | 1988-12-07 | 1990-06-14 | Matsushita Electric Ind Co Ltd | 未知語認定装置 |
US9763556B2 (en) | 2012-12-21 | 2017-09-19 | Electrolux Home Products Corporation N.V. | Cutlery rack |
US10149596B2 (en) | 2012-12-21 | 2018-12-11 | Electrolux Home Products Corporation N.V. | Cutlery tray module for a dishwasher and dishwasher comprising at least one cutlery tray module |
-
1986
- 1986-10-13 JP JP61242530A patent/JPS6395573A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02155073A (ja) * | 1988-12-07 | 1990-06-14 | Matsushita Electric Ind Co Ltd | 未知語認定装置 |
US9763556B2 (en) | 2012-12-21 | 2017-09-19 | Electrolux Home Products Corporation N.V. | Cutlery rack |
US10149596B2 (en) | 2012-12-21 | 2018-12-11 | Electrolux Home Products Corporation N.V. | Cutlery tray module for a dishwasher and dishwasher comprising at least one cutlery tray module |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5890103A (en) | Method and apparatus for improved tokenization of natural language text | |
US7269547B2 (en) | Tokenizer for a natural language processing system | |
WO1997004405A9 (en) | Method and apparatus for automated search and retrieval processing | |
JPH09190449A (ja) | 索引自動生成方法とその利用方法 | |
EP0645720A2 (en) | Dictionary creation supporting system | |
JP2002215617A (ja) | 品詞タグ付けをする方法 | |
JPH0351020B2 (ja) | ||
JPH0724055B2 (ja) | 単語分割処理方法 | |
JPS6395573A (ja) | 日本語文形態素解析における未知語処理方法 | |
JPS61248160A (ja) | 文書情報登録方式 | |
JP2621999B2 (ja) | 文書処理装置 | |
JPS63228326A (ja) | キ−ワ−ド自動抽出方式 | |
JPS6395572A (ja) | 日本語文形態素解析における未知語処理方法 | |
JPH0561902A (ja) | 機械翻訳システム | |
JPH0652151A (ja) | 共起学習装置及びこれを用いたかな漢字変換装置 | |
JPH02110771A (ja) | 電訳機 | |
JPH0612453A (ja) | 未知語抽出登録装置 | |
JPH04188364A (ja) | 日本文固有用語抽出装置 | |
JPS6395574A (ja) | 日本語文の形態素解析方法 | |
JPH0687239B2 (ja) | 文字処理装置 | |
Cowie | CRL’s Approach to MET | |
JPH02297151A (ja) | 文書編集装置 | |
JPS62226270A (ja) | 文章作成装置 | |
JPH08241315A (ja) | 文書処理装置の単語登録機構 | |
JPH0576658B2 (ja) |