JPS62219160A - 単語分割処理方式 - Google Patents

単語分割処理方式

Info

Publication number
JPS62219160A
JPS62219160A JP61062408A JP6240886A JPS62219160A JP S62219160 A JPS62219160 A JP S62219160A JP 61062408 A JP61062408 A JP 61062408A JP 6240886 A JP6240886 A JP 6240886A JP S62219160 A JPS62219160 A JP S62219160A
Authority
JP
Japan
Prior art keywords
word
dictionary
registered
unit
division
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61062408A
Other languages
English (en)
Inventor
Akira Ochitani
亮 落谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP61062408A priority Critical patent/JPS62219160A/ja
Publication of JPS62219160A publication Critical patent/JPS62219160A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔概要〕 入力文について1つまたは複数の文字よりなる単位に分
割し、構文解析を行うデータ処理装置において1分割処
理が行われる都度、それまでの分割結果を最長分割リス
トに登録しておき、未登録語が見出された場合に、当該
最長分割リストの内容をそのままにしてバックトラック
を行うようにして、未登録語を含めて分割処理を行い、
その間に、未登録語についての品詞決定と辞書への登録
を行うようにし1分割処理効率を向上させた単語分割処
理方式が開示されている。
〔産業上の利用分野〕
本発明は、単語分割処理方式、特に機械翻訳システムな
どにおいて、入力文を辞書との照合により単語分割を行
うに当って、入力文中に辞書に未登録語が現われた場合
に効率よく処理を行う単語分割処理方式に関する。
入力文を例えば左から右に走査して照合を行う際、辞書
中に入力文中の文字列に対応する単語が存在しない場合
には未登録語の処理として、未登録語に相当する入力文
字列の範囲の決定及び未登録語に対する品詞の推定等の
処理が必要とされる。
この処理は、未登録語処理として単語分割そのものとは
独立に処理することもできるが、未登録語の品詞情報を
単語分割に反映できること、入力文又は分割単語列の走
査回数が入力文に対する1回の走査で良い等の理由で、
単一の処理によって分割処理の間に未登録語処理を行う
方式が有効である。
〔従来の技術〕 従来の技術における未登録語を含む卑語分割処理の例を
第4図に示す。入力文は左から右に走査され、辞書と照
合される。ステップiでは、Xで始まる未登録文字列が
存在するために、処理が以前にバックトラックし、他の
分割候補が探索される。ステップjでは、バックトラッ
ク打切条件(バックトラックのレベル等)により、1字
′並。
が未登録文字の候補として切り出される。次に処理は′
並°の次の“列”から続行される。再びXまで辞書との
照合が行われるが、Xが未登録のため、バックトラック
が起き、最終的に“列゛を切り出す。以下同様にXまで
の文字列がバラバラに切り出され、 “として゛から再
び正しい単語分割が行われる。最後にステップmの状態
まで分割が行われると、未登録語処理ステップにより 
′並°。
“列゛、“処′、“理”および“X I、“Y゛が1つ
にまとめられ“並列処理゛、“XY” とされる。各単
語それぞれの分割時には、直前の分割によって得られた
単語との間に、単語の品詞間の隣接可能性のチェックが
行われるが、 “並゛、“列′・・・のようにバンクト
ラック打切りによって切り出された直後の単語について
は、隣接関係のチェックは行われない。
〔発明が解決しようとする問題点〕
従来の単語分割処理においては、第1に、前に遡って別
の単語分割の候補を調べるための、バックトラックを行
い、バックトラックの打切り条件が成立することで、未
登録語の発生を検出し、打切り条件成立時に照合を行っ
ていた文字列を未登録語としている。この方式で検出さ
れる未登録語は、実際に未登録語が存在する位置よりも
、以前にあるものが多く抽出されるという欠点があった
第2に、辞書照合が失敗した際に未登録語の品詞決定を
行っていない。このために、未登録語と認定された部分
以降についての単語分割を行う際に、未登録語に対して
品詞情報が推定できるにも拘らず、これを上記分割のた
めに反映することができず、未登録語以降の単語の品詞
の決定や分割処理に誤りが導入される場合が生じた。
第3に、第1回目の辞書照合の後に9分割された単語中
の未登録部分に対して未登録語品詞の決定が行われるた
め1分割された単語をもう一度走査する必要がある等の
効率上の欠点があった。
〔問題点を解決するための手段〕
本発明は上記の点を解決しており、最長分割リストに記
録をとる方式を用いて、効率よく処理するようにしてい
る。
第1図は本発明の原理構成図を示し2図中の符号lは辞
書、2は単位切出し部、3はデータ部。
4−1は見出し語登録部、4−2は隣接関係情報登録部
、5は辞書検索部、6は隣接関係チェック部、7は未登
録語処理部、8は最長分割リストを表わしている。
辞書検索部5は、辞書1の内容を検索照合しつつ1例え
ば「この−計算機−は一並列処理−を−XY・・・」の
如く、入力文の文字を単語単位(あるいは必要に応じて
文節単位)に分割する。
隣接関係チェック部6は9分割された単位について、隣
接する単位との文法関係をチェックしてゆ(。即ち文法
的に正しくなるように、上記単位を選び直すなどして、
正しい分割が行われるようにする。
最長分割リスト8は、上記分割処理が行われる間にそれ
までの分割結果を退避するようにされ。
未登録語が見出された際のバックトラック(前に遡って
分割をやり直す)を行う必要が生じた際に。
それまでの分割処理の結果が残るようにする。そして未
登録語処理に活かすようにされる。
未登録語処理部7は、上記未登録語について仮に既に登
録されているものとみなす形で分割処理が行われるが、
その際に得られている品詞を付して、辞書l内に登録を
行う。
〔作用〕
上記の例で言えば、「この−計算機−は−並列処理−を
−X」となったとき、Xが未登録語であるだめに、辞書
検索部5と隣接関係チェック部6とは、上記ハックトラ
ックを行う。このとき、それまで得られている所の上記
「この−計算機−は−並列処理−を」が上記最長分割リ
スト8に保持され、その上で上記バンクトラックが行わ
れる。
バックトラックが行われた場合には、一般に。
例えば上記「並列処理を」などは、「並−列一処理一を
」の如く分割されるが、再びXに達してしまう。このと
き、上記最長分割リスト8の内容が復活され、Xが未登
録語として抽出されかつXについての品詞が決定される
次に、上記の例で言えば、Yが現われ、未登録語である
ために、上記バックトラックが行われる。
そして同様にYも未登録語として決定され、先の未登録
語Xと組にされて、XYを1つの単位とみて登録処理や
品詞決定を行うようにする。
〔実施例〕
第2図は本発明による単語分割の処理例を示す。
ステップ1では2文頭との間に文法的関係が成立する単
語“この”が選ばれる。次々と直前の単語との文法的関
係をチェックしながら、ステップ2・・・の如く、辞書
中の単語が選ばれる。ステップiで未登録語が存在する
ためにバックトラックを開始するが、このとき最長分割
リスト8にステップiまでの単語分割「文頭−この−・
・・−並列処理−を」を入れる。バックトラックの結果
、他の候補がステップi+1のように選ばれ、最終的に
ステップi+jでバックトラック打切条件が成立し。
i+j+lで最長分割リストに格納されている分割が正
しかったこととなり、その内容を回復する。
このときリスト最後の“を゛との文法的関係の正しい品
詞を“X゛の品詞として選ぶ(この場合名詞)。ステッ
プt+j+2では次の文字“Yoから辞書との照合が続
行されるが、 “Yoは辞書にないのでハックトラック
が開始される。i+j+にでバックトラック打切条件が
成立し、最長分割リストの後に“Yoが結合される。こ
のとき、 “X″が未登録語であったため、XとYは連
結されて1つの未登録語になる。 ’xy’ の品詞が
゛を° との隣接可能性によって決定され1次に“とし
て゛以降の分割が始まる。このとき、 “XY’を“と
して°との間でも9文法的関係のチェックが行われ、 
“XY” と隣接可能な品詞の“とじて”が選ばれる。
第3図は本発明の一実施例処理フローを示す。
図中のルート■は、最長分割リスト8に分割結果を残す
ようにして2分割処理を行ってゆく状態に対応している
。ルート■は、他の候補を試行すべくバックトラックを
行う状態に対応している。ルート■は、最長分割リスト
8の内容を復帰させて。
未登録語についての処理を行う状態に対応している。
〔発明の効果〕
以上説明した如く9本発明によれば、未登録語が存在し
ていても、既登録語であるかの如く分割処理を行ってゆ
き、その間に、未登録語の品詞が決定され、かつ辞書に
登録されるようにしている。
このために、処理効率が大幅に向上される。
【図面の簡単な説明】
第1図は本発明の原理構成図、第2図は本発明による単
語分割の処理例、第3図は本発明の一実施例処理フロー
、第4図は従来の場合の処理例を示す。 図中、1は辞書、2は単位切出し部、5は辞書検索部、
6は隣接関係チェック部、7は未登録語処理部、8は最
長分割リストを表わしている。

Claims (1)

  1. 【特許請求の範囲】 入力文を読取り、辞書(1)の内容と照合を行うことに
    よって、上記入力文を1つまたは複数の文字よりなる単
    位に分割し、次いで分割された単位にもとづいて構文解
    析を行うデータ処理装置において、 上記辞書(1)は、上記単位に対応して隣接する単位と
    の接続関係を指示する隣接文法関係情報を格納されると
    共に、 上記辞書(1)の内容を照合しつつ上記単位に分割する
    単位切出し部(2)をそなえ、 該単位切出し部(2)は、 上記辞書の内容を検索照合する辞書検索部(5)と切出
    された単位について、隣接文法関係情報をチェックする
    隣接関係チェック部(6)と、得られた分割結果を退避
    しておく最長分割リスト(8)と、 辞書中に登録されていない単位が見出された際に当該登
    録語を仮に登録されているものとみなして処理した結果
    の上記分割結果にもとづいて、上記未登録語についての
    品詞を決定し、かつ上記辞書中に登録を行う未登録語処
    理部(7) をそなえた ことを特徴とする単語分割処理方式。
JP61062408A 1986-03-20 1986-03-20 単語分割処理方式 Pending JPS62219160A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61062408A JPS62219160A (ja) 1986-03-20 1986-03-20 単語分割処理方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61062408A JPS62219160A (ja) 1986-03-20 1986-03-20 単語分割処理方式

Publications (1)

Publication Number Publication Date
JPS62219160A true JPS62219160A (ja) 1987-09-26

Family

ID=13199283

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61062408A Pending JPS62219160A (ja) 1986-03-20 1986-03-20 単語分割処理方式

Country Status (1)

Country Link
JP (1) JPS62219160A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01296373A (ja) * 1988-05-25 1989-11-29 Ricoh Co Ltd 未登録語処理方法
JP2008176392A (ja) * 2007-01-16 2008-07-31 Nec Corp 新語収集装置、方法およびプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01296373A (ja) * 1988-05-25 1989-11-29 Ricoh Co Ltd 未登録語処理方法
JP2008176392A (ja) * 2007-01-16 2008-07-31 Nec Corp 新語収集装置、方法およびプログラム

Similar Documents

Publication Publication Date Title
US6185524B1 (en) Method and apparatus for automatic identification of word boundaries in continuous text and computation of word boundary scores
US5890103A (en) Method and apparatus for improved tokenization of natural language text
US7269547B2 (en) Tokenizer for a natural language processing system
CA1288871C (en) Method for verifying spelling of compound words
US7353165B2 (en) Example based machine translation system
JPS6140671A (ja) 単語分割処理方法
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JPH0211934B2 (ja)
JPS62219160A (ja) 単語分割処理方式
KR100420474B1 (ko) 부분문틀을 이용한 장문 번역 장치 및 그 방법
JP2807236B2 (ja) 形態素解析方法
JPS61204771A (ja) 形態素解析装置
Zupeng et al. An improved approach for Chinese parsing
JPH0248938B2 (ja)
JP2595043B2 (ja) 日本文誤り自動検定装置
Shishibori et al. Improvement of the LR parsing table and its application to grammatical error correction
JPH02155073A (ja) 未知語認定装置
JPH05135094A (ja) 言語解析装置
JPS63103378A (ja) 言語解析装置
JPH10240736A (ja) 形態素解析装置
JPS63213064A (ja) 単語検索装置における送り仮名判定装置
JPH01255957A (ja) 漢字変換装置
JPH02253370A (ja) 形態素解析装置
JPH0695330B2 (ja) 文書作成装置
JPH0432958A (ja) 日本文誤り語検出装置