JPS61204771A - 形態素解析装置 - Google Patents

形態素解析装置

Info

Publication number
JPS61204771A
JPS61204771A JP60043662A JP4366285A JPS61204771A JP S61204771 A JPS61204771 A JP S61204771A JP 60043662 A JP60043662 A JP 60043662A JP 4366285 A JP4366285 A JP 4366285A JP S61204771 A JPS61204771 A JP S61204771A
Authority
JP
Japan
Prior art keywords
morpheme
storage means
morphemes
train
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP60043662A
Other languages
English (en)
Other versions
JPH0332104B2 (ja
Inventor
Yoshinori Hara
良憲 原
Takao Miyabe
宮部 隆夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP60043662A priority Critical patent/JPS61204771A/ja
Publication of JPS61204771A publication Critical patent/JPS61204771A/ja
Publication of JPH0332104B2 publication Critical patent/JPH0332104B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、対象文字列が複合語及び未登録語を含むとき
にも簡便且つ精度よく形態素への分解が行える形態素解
析装置に関する。
〔従来技術とその問題点〕
従来形態素解析方式においては、最長一致法、二文節最
長一致法、文節数最小法等に基づいて、形態素候補を辞
書引きし、最尤の形態素列を得るという方式がとられる
。最長一致法は処理が単純であり、二文節最長一致法及
び文節数最小法は精度が向上するという利点を有する。
また、これらの辞書引き方式に加えて、接続情報及び隣
接行列を用いて接続検定を行う方式(特開昭58−18
3434号公報)等も知られている。このような接続検
定を用いる方式では、形態素解析失敗回復コストを大幅
に低減することができ、且つ隣接する形態素間の接続情
報の曖昧さを集合として管理できるという利点を有する
しかしながら、反面、前記最長一致法は精度が悪く、二
文節最長一致法及び文節数最小法は処理が複雑化すると
いう欠点を有する。また、上記方式に接続検定を加えた
ものにおいては、処理コストに対する精度は改善される
ものの、自立語連続列である複合語の接続検定、辞書に
存在しない文字列である未登録語の処理については検定
の効力が発揮されず、処理コストが格段に増大するとい
う欠点を有する。
〔発明の目的〕
本発明の目的は、上記問題点を解決すべくなされたもの
であり、形態素解析において、簡便に且つ精度よく入力
文字列を形態素に分解することができ、また入力文字列
中に複合語や未登録語を含む場合においても適用可能で
有効な検定を行うことのできる形態素解析方式を実現す
る形態素解析装置を提供することにある。
〔発明の構成〕
本発明は、対象文字列を入力して記憶する文字列入力・
記憶゛手段と、形態素辞書を格納・し入力文字列に従っ
て当該文字列の形態素及びその接続情報を検索する辞書
格納・検索手段と、形態素の接続関係を保持し形態素の
前記接続情報に従って接続関係を検定する接続検定手段
と、前記接続検定に成功した形態素に対して部分木を作
成し記憶する部分木作成・記憶手段と、前記部分木に対
して複合語をなす形態素を検定する複合語区間検定手段
と、前記辞書格納・検索手段における形態素の検索に失
敗した場合に未登録語の推定を行う未登録語区間推定手
段と、文節に相当する一定区間の処理を終えた時点に前
記部分木・記憶手段及び前記未登録語区間推定手段から
当該時点における最尤の形態素列を複写し記憶する確定
形態素列記憶手段と、前記対象文字列の解析がすべて終
了した時点で前記確定形態素列記憶手段の内容を出力す
る出力手段とから成ることを特徴としている。
〔実施例〕
以下に、図面を用いて本発明の詳細な説明する。
第1図は本発明に係る形態素解析装置の全体構成を示す
ブロック図であり、本図に基づき全体構成及びその作用
を説明する。第1図において、文字列入力・記憶手段1
は、形態素解析の対象となる文字列を入力し、記憶する
。辞書格納・検索手段2は、形態素辞書を格納しており
、データ線3を介して現在対象としている文字列を得、
この文字列の先頭より辞書に登録済み形態素の中で最長
文字列の形態素を検索し、併せて当該形態素に関する接
続情報を得る。かかる検索に成功して前記形態素が存在
する場合には、データ線4を介して当該形態素及びその
接続情報が出力される。前記検索に失敗した場合で且つ
バックトラックが可能な場合には1つ前の形態素に戻り
、次善の形態素を検索する。また、前記検索に失敗した
場合で且つバックトラックが不可能な場合には、データ
線5−を介して前記文字列を未登録語区間推定手段6に
転送する。
接続検定手段7は、検索に成功した形態素及びその接続
情報が入力され、入力された形態素について隣接行列を
用いて1つ前に隣接する形態素との接続検定を行う。詳
細は特開昭58−183434号公報に記載されている
。前記接続検定に成功した場合には、データ線8を介し
て、前記形態素とその接続情報が、部分木作成・記憶手
段9に転送される。また前記接続検定に失敗した場合に
は、データ線10を介して、失敗した旨を辞書格納・検
索手段2に知らせ、辞書格納・検索手段2において次善
の形態素の検索を行う。
部分木作成・記憶手段9は、バックトラックの行える範
囲において、前記形態素列及びその接続情報を頂点に、
また隣接関係を枝とする部分木の作成をし、しかる後に
記憶を行う。ここでバンクトランクの行える範囲は、た
とえば文節に相当する単位とする。このような単位が存
在すると認められた場合には、データ線11を介して前
記部分木を確定形態素列記憶手段12に送り、確定形態
素列記憶手段12において、前記部分木の中で最尤のバ
スのみを抽出し、複写して記憶を行う。しかる後に、デ
ータ線13を介して複写終了データが送られると、部分
木作成・記憶手段における前記部分木はクリアされ、バ
ックトラックを行う範囲の更新が行われる。
また、複合語区間検定手段14は、データ線15を介し
て得られた前記部分木に関して、複合語内の形態素に対
して隣接行列以外の接続検定を行う。これは、自立語連
続の形態素間の接続検定については、接続検定手段7に
おける検定では、はぼすべて成功となり検定の効果がな
いためである。
ここで、隣接行列以外の検定とは、たとえば語構成パタ
ンによる検定や接辞語情報を用いた検定などのことをい
う。前記複合語区間検定を行った後成功した場合は成功
の旨を、また失敗した場合は失敗の旨を、データ線16
を介して辞書格納・検索手段2に告げ、前記部分木にお
ける次の形態素候補の選択に移る。
更に、未登録語区間推定手段6は、前記したように、形
態素検索に失敗し且つバックトラックが不可能である場
合に起動する。この時は未登録語が存在するものと仮定
して、たとえば同字種列区間を未登録語として抽出した
り、あるいは部分木が存在する場合にはその中で最尤の
形態素列を選択抽出などをする。このような状況は、隣
接行列による検定には成功したが、複合語内の検定には
失敗した場合であり、出現頻度は小であるが、正解の可
能性があるためである。ここで得られた文字列は、デー
タ線17を介して確定形態素列記憶手段12に転送され
、形態素として記憶される。
しかる後にデータ線19を介して記憶終了データが送ら
れると、データ線20を介して辞書格納・検索手段2に
次の処理を行う旨を伝える。
そして、前記対象文字列のすべてに処理が行われると、
確定形態素記憶手段12に出力情報として記憶されてい
るデータ、すなわち形態素列とその接続情報をデータ線
21を介して出力手段22に転送し、この出力手段22
で実際に出力を行う。
第2図は、前記構成を有する形態素解析装置によって実
行される形態素解析方式の一例を詳細に示したフローチ
ャートであり、このフローチャートは(a)〜(d)の
4つの部分から成り、対応する結合子A−Eで結合され
ている。以下、形態素解析方式を詳述する。
第2図(a)に示す如く、文字列入力・記憶手段゛lに
て対象文字列を入力すると、前処理23において各文字
ごとに字種(漢字、ひらがな、カタカナ、英字、数字、
特殊記号等)の区別をする情報を与える。次に初期値設
定24において各種の初期状態を設定する。ここで、第
2図(a)における変数iは現時点での形態素が先頭か
ら何番目であるかを示すためのものである。次に、辞書
格納・検索手段2における最長−成性による辞書引き2
5と、接続検定手段7における隣接行列による接続検定
26の処理は、特開昭58−183434号公報におけ
る実施例と同様の処理を行うものである。次に、第2図
(b)に示す如く、たとえばひらがな以外の自立語列が
選ばれた場合には文節の切れ目にきたとみなすことがで
きるので、もし部分木が既に存在する時には、部分木作
成・記憶手段9においてその中で最尤のパス、たとえば
パスの形態素列の長さが最長のものを抽出し、確定形態
素列記憶手段12において確定形態素列として格納処理
27を行う。しかる後に部分木作成・記憶手段9では部
分木をクリアしバックトラックの範囲を更新する。また
文節の切れ目と確定できない場合には、何も処理を行わ
ない(フロー28)。次に部分木作成・記憶手段9で前
記形態素に対して部分木の作成29を行う。次に複合語
区間検定手段14において、前記部分木に対して、複合
語すなわち自立語連続語であれば下記の検定を行い、そ
うでない場合には検定にすべて成功したものとみなし、
何も処理を行わず次へ進む(判断30)。複合語内の検
定に際しては、語構成バタン検定31と、接辞情報検定
3°2を行う。前者31は、複合語内において、1文字
形態素が連続して出現する頻度は小なので、もしこのよ
うな状態が生起した場合、(i−2)番目の形態素に対
する最長−成性による辞書引きが誤っていたものと判断
し、バンクトラック33を行うものである。
また、後者32は、接辞語辞書を用いて意味的に不合理
な分解が行われたかどうかをチェックし、不合理と判断
された場合には、(i −1)番目の形態素に対する最
長−成性による辞書引きが誤っていたものと判断し、バ
ンクトラック34を行う。
前記の検定31.32にすべて成功した場合には、第2
図(c)に示す如く、文の終わりかどうかを判断する(
判断35)。もし終わりでなければ、第2図(a)の最
長−成性による辞書引きの処理25に戻り、(i + 
1)番目の形態素の処理を行う。もし文の終わりであれ
ば、出力手段22において前記確定形態素列及び対応す
る接続情報を出力して終了する。
次に、最長−成性による辞書引き25が失敗した場合の
処理は、第2図(d)に示すとおりである。もし、判断
36でバックトラックが可能ならば、(i−1)番目に
戻って次善の形態素候補を選択する。また、バックトラ
ックが不可能で且つ部分木が存在するならば(判断37
)、最尤のパスを走査しく処理38)、確定形態素とし
て格納処理39を行う。この時パスの長さがαならば、
次の処理は(i+α)番目から処理を行う。また、バン
クトラックが不可能且つ部分木も存在しない時には(判
断37)、未登録語が存在するものと仮定し、その長さ
を推定する(処理40)。カタカナ、英字、数字に対し
ては、同−文字種列を未登録語であると推定する。また
、それ以外の文字種に対しては、(同一文字種列数−β
)を未登録語区間と推定する。ここで、βは、たとえば
O≦β≦3程度とし、次に辞書引きされる形態素の長さ
を考慮して発見的に選ぶものとする。そして、推定され
た未登録語区間は確定形態素として格納処理41を行う
。判断36でバックトラックが不可能である場合には、
第2図(C)における文の終了判定35に進んで以降の
処理を続行する。
〔発明の効果〕
以上の説明で明らかなように本発明によれば、形態素解
析を行う際に従来の最長−成性等による辞書引きに対し
部分木の実現によりバックトラックの範囲を限定してい
るため、処理時間が従来方式に比較して短くすることが
できる。また、接続情報及び隣接行列を用いた接続検定
に加えて、複合語区間における語構成バタンの検定や接
辞語情報による検定を行うようにしたため、接続検定の
精度及び信頼性を向上することができる。更に、部分的
なバンクトラックが不可能になった時点で未登録語の区
間を推定することにより形態素の分割が可能であるため
、たとえ辞書の見出し語数が小さい場合においても、あ
る程度の形態素解析が可能であるという汎用的効果を有
する。
【図面の簡単な説明】
第1図は本発明に係る形態素解析装置の全体構成を示す
ブロック図、 第2図は本発明に係る形態素解析方式の一例を示すフロ
ーチャートで、(a)〜(d)の4つの部分に分けて示
すものである。 ■・・・・・文字列入力・記憶手段 2・・・・・辞書格納・検索手段 6・・・・・未登録語区間推定手段 7・・・・・接続検定手段 9・・・・・部分木作成・記憶手段 12・・・・確定形態素列記憶手段 14・・・・複合語区間検定手段 22・・・・出力手段

Claims (1)

    【特許請求の範囲】
  1. (1)対象文字列を入力して記憶する文字列入力・記憶
    手段と、形態素辞書を格納し入力文字列に従って当該文
    字列の形態素及びその接続情報を検索する辞書格納・検
    索手段と、形態素の接続関係を保持し形態素の前記接続
    情報に従って接続関係を検定する接続検定手段と、前記
    接続検定に成功した形態素に対して部分木を作成し記憶
    する部分木作成・記憶手段と、前記部分木に対して複合
    語をなす形態素を検定する複合語区間検定手段と、前記
    辞書格納・検索手段における形態素の検索に失敗した場
    合に未登録語の推定を行う未登録語区間推定手段と、文
    節に相当する一定区間の処理を終えた時点に前記部分木
    ・記憶手段及び前記未登録語区間推定手段から当該時点
    における最尤の形態素列を複写し記憶する確定形態素列
    記憶手段と、前記対象文字列の解析がすべて終了した時
    点で前記確定形態素列記憶手段の内容を出力する出力手
    段とから成ることを特徴とする形態素解析装置。
JP60043662A 1985-03-07 1985-03-07 形態素解析装置 Granted JPS61204771A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60043662A JPS61204771A (ja) 1985-03-07 1985-03-07 形態素解析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60043662A JPS61204771A (ja) 1985-03-07 1985-03-07 形態素解析装置

Publications (2)

Publication Number Publication Date
JPS61204771A true JPS61204771A (ja) 1986-09-10
JPH0332104B2 JPH0332104B2 (ja) 1991-05-09

Family

ID=12670062

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60043662A Granted JPS61204771A (ja) 1985-03-07 1985-03-07 形態素解析装置

Country Status (1)

Country Link
JP (1) JPS61204771A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6290760A (ja) * 1985-10-16 1987-04-25 Fujitsu Ltd 文章解析方式
JPH06301722A (ja) * 1993-04-13 1994-10-28 Matsushita Electric Ind Co Ltd 形態素解析装置及びキーワード抽出装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6290760A (ja) * 1985-10-16 1987-04-25 Fujitsu Ltd 文章解析方式
JPH06301722A (ja) * 1993-04-13 1994-10-28 Matsushita Electric Ind Co Ltd 形態素解析装置及びキーワード抽出装置

Also Published As

Publication number Publication date
JPH0332104B2 (ja) 1991-05-09

Similar Documents

Publication Publication Date Title
Vylomova et al. Word representation models for morphologically rich languages in neural machine translation
US5890103A (en) Method and apparatus for improved tokenization of natural language text
Park et al. Hybrid text mining for finding abbreviations and their definitions
US6816830B1 (en) Finite state data structures with paths representing paired strings of tags and tag combinations
EP0583083B1 (en) Finite-state transduction of related word forms for text indexing and retrieval
JP4568774B2 (ja) 手書き文字認識で使用されるテンプレートを生成する方法
US7676358B2 (en) System and method for the recognition of organic chemical names in text documents
US20030139921A1 (en) System and method for hybrid text mining for finding abbreviations and their definitions
JPH09153047A (ja) テキストのトークン分割方法
Bellare et al. Learning extractors from unlabeled text using relevant databases
JPH0211934B2 (ja)
Noya et al. Generation of hypergraphs from the N-best parsing of 2D-probabilistic context-free grammars for mathematical expression recognition
Li et al. Chinese word segmentation
JPH06301722A (ja) 形態素解析装置及びキーワード抽出装置
Doush et al. Improving post-processing optical character recognition documents with Arabic language using spelling error detection and correction
Nguyen et al. Example-based sentence reduction using the hidden markov model
JPS61204771A (ja) 形態素解析装置
Ibtehaz et al. A partial string matching approach for named entity recognition in unstructured bengali data
Liang Spell checkers and correctors: A unified treatment
JP3080066B2 (ja) 文字認識装置、方法及び記憶媒体
Patrick et al. An active learning process for extraction and standardisation of medical measurements by a trainable FSA
JP3396734B2 (ja) コーパス誤りの検出・修正処理装置,コーパス誤りの検出・修正処理方法およびそのプログラム記録媒体
Sam et al. Combining proper name-coreference with conditional random fields for semi-supervised named entity recognition in Vietnamese text
KR100420474B1 (ko) 부분문틀을 이용한 장문 번역 장치 및 그 방법
Lu et al. Hierarchical conditional random fields (HCRF) for Chinese named entity tagging

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term