JPS63113668A - 言語解析装置 - Google Patents

言語解析装置

Info

Publication number
JPS63113668A
JPS63113668A JP61248432A JP24843286A JPS63113668A JP S63113668 A JPS63113668 A JP S63113668A JP 61248432 A JP61248432 A JP 61248432A JP 24843286 A JP24843286 A JP 24843286A JP S63113668 A JPS63113668 A JP S63113668A
Authority
JP
Japan
Prior art keywords
analysis
sentence
language
block
syntactic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61248432A
Other languages
English (en)
Inventor
Toshihiko Yokogawa
横川 壽彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Publication of JPS63113668A publication Critical patent/JPS63113668A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 技術分野 本発明は言語解析装置、とくに自動翻訳装置に有用な言
語解析装置に関する。
従来技術 たとえば英語などの外国語の文からそれに対応する日本
語の文を作成する場合、入力された英文の形態素を解析
し、その構文を解析し、その文構造を変換し、そののち
日本語の訳文を生成する。
機械翻訳などの自動システムでは、構文上のまとめあげ
や熟語の認定などは轟然自動処理にて行なわれる。これ
は一般に誤りを伴うことが多い。
cfg文法(context−free gramma
r:文脈自由文法〕において、bottom−up解析
手法やtop−down解析手法であっても文中で部分
的に文法に適合する解析解も出力される。そこで、最終
的に使用できない無駄な解も多数出力されるのが欠点で
ある。
このような無駄な解は、人間がこれを読んだときに明ら
かに誤りであるとわかるものも多い。
このような表面的に誤りとわかる解を多く含む解析結果
が構文解析で多数得られると、その後の工程である構造
変換や訳文生成の効率が低下することになる。つまり、
無駄な解についても構造変換を行ない、あるいは訳文生
成を実行し、それらの結果の適切性をそれぞれの処理過
程で判断することになり、処理時間を浪費する結果を招
く。
そこで、目動翻訳プロセス全体の効率を向上させるには
、このような無駄な解の数を減らして解析の効率を高く
するとともに、解析結果をより確からしいものにするこ
とが要求される。
たとえば、熟語や固有名詞の範囲などを自動的に認定す
るシステムを考える。自然言語では、例外的な現象や個
別的現象が多々みられる。それらをアルゴリズムで扱う
ようにシステムを構成すると、例外的処理や個別的処理
をすべてアルゴリズムに記述しなければならない。
従来のシステムにはまた、文のなかのかっこや引用符な
どを他の語句と同じに扱って構文解析を行なうものがあ
った。このようなシステムでは構文解析の処理が複雑で
あった。より具体的には、第1に、かっこや引用符など
、文中の位置を自由にとり得るものを扱う文法を必要と
した。第2に、たとえばかっこなどによって囲まれてい
るか否かなどの文中の位置関係を常に考慮にいれた処理
を構文変換や構文生成などに必要としていた。
したがって、処理が複雑であった。
目   的 本発明はこのような要求に鑑み、構文解析を効率的に行
なうことのできる言語解析装置を提供することを目的と
する。
構  成 本発明は上記の目的を達成させるため、入力された所定
の言語の文について形態素解析を行なう第1の解析手段
と、第1の解析手段からの形態素解析結果をもとにその
言語の文について構文解析を行なう第2の解析手段と、
7n1および第2の解析手段の解析に使用するその言語
の辞書データを格納した辞書手段と、辞書手段を索引し
て第1およびff12の解析手段に解析を行なわせる制
御手段とを有し、第1の解析手段は、辞書手段を索引し
、入力文の形態上の特徴を識別して構文上のまとまりを
識別し、第2の解析手段は、文法ルールを適用してその
文の表層構造を解析しその文に含まれる構成要素の可能
性のある従属関係を解析する際、その文にまとまりが含
まれていればそのまとまりについて他に優先して解析を
行なう言語解析装置を特徴としたものである。
本発明はまた、入力された所定の言語の文について形態
素解析を行なう第1の解析手段と、第1の解析手段から
の形態素解析結果をもとに前記言語の文について構文解
析を行なう第2の解析手段と、第1および第2の解析手
段の解析に使用するその言語の辞書データを格納した辞
書手段と、前記言語の文における構文上のまとまりを指
示する指示手段と、辞書手段を索引して第1および第2
の解析手段に解析を行なわせる制御手段とを有し、第1
の解析手段は、辞書手段を索引し、前記入力された言語
の文の形態上の特徴を識別して構文上のまとまりを判別
し、第2の解析手段は、文法ルールを適用してその言語
の文の表層構造を解析しその文に含まれる構成要素の可
能性のある従属関係を解析する際、その文に前記まとま
りが含まれていればそのまとまりについて他に優先して
解析を行ない、第1の解析手段は、前記言語の文につい
て形態素解析を行なう際、指示手段によって前記構文上
のまとまりが指示されると、この指示されたまとまりを
他に優先させる形態素解析情報を第2の解析手段に与え
る言語解析装置を特徴としたものである。
本発明はさらに、入力された所定の言語の文について形
態素解析を行なう第1の解析手段と、第1の解析7段か
らの形態素解析結果をもとに前記言語の文について構文
解析を行なう第2の解析手段と、第1および第2の解析
手段の解析に使用するその言語の辞書データを格納した
辞書手段と、辞書手段を索引して第1および第2の解析
手段に解析を行なわせる制御手段とを有し、第1の解析
手段は、辞書手段を索引し、その入力された言語の文の
形態上の特徴を識別して構文上のまとまりを判別し、第
2の解析手段は、文法ルールを適用してその言語の文の
表層構造を解析しその文に含まれる構成要素の可能性の
ある従属関係を解析する際、この文に前記まとまりが含
まれていればそのまとまりについて他に優先して解析を
行ない、iiの解析手段は、前記言語の文について形態
素解析を行なう際、その言語の文に含まれる引用符号類
を識別し、この識別した引用符号類から構文上のまとま
りを形成し、形成されたまとまりを示す形態素解析情報
を第2の解析手段にかえ、第2の解析7段は、識別され
た引用符号類を構文解析の対象から除外する言語解析装
置を特徴としたものである。
以t、本発明の¥施例に基づいて具体的に説明する。
第1図を参照すると1本発明による言語解析間とを英日
目動翻訳装置に適用した実施例の全体構成が示されてい
る。なお本発明は、英語を日本語に翻訳する英日目動翻
訳装置のみならず、ある1つの言語を他の言語に翻訳す
る自動翻訳装置にも効果的に適用されることは、言うま
でもない。
同天施例は入力部10を有し、日本語に翻訳すべき英文
テキス)12がこれにより入力される。入力部lOはた
とえば、英数字キーなどの文字キーや機能キーなどを有
するキーボード、紙に記録された構文テキストを読み取
る光学的文字読取装置(OCR) 、および(または)
磁気ディスクなどの記憶媒体に記録された英文テキスト
を読み込むファイル記憶装置などを含んでよい。
入力部lOにより入力された英文テキストは、前編集部
14に読み込まれ、翻訳の前処理が行なわれる。ここで
は、主として文の認定と未知語の処理を行なう、これは
形態素解析の一部として機能する。
前編集された英文データは、前編集で得られた情報とと
もに形態素解析部16に転送される。形態素解析部16
では、単語辞書18を索引して文に分割し、英文の形態
素を解析し、未知語の処理、固有名詞、時の表現、数の
表現などの各種のまとめあげを行ない、付加疑問、同格
の認定などの文全体の処理を行なう、その形態素解析ル
ールは解析ルールファイル38に格納されている。
こうして形態素解析された英文データは、形態素解析で
得られた辞書情報とともに構文解析工部20に転送され
る。構文解析1部20は、本実施例ではcfg文法ルー
ルを英文データに適用して文についてbottom−u
p、 right−to−1eHに表層構造の解析を行
ない、すべての構文的可能性を見つけ出す機能部である
構文解析1部20で構文解析(バーズ)された英文デー
タは、その解析情報とともに構文解析11部22に送ら
れる。ここでは、構文解析Iによる表層 。
的なバーズ結果から、構造記述を適用して解を選択する
。これによって英語文の確からしい解析木を作成し、そ
の構造を作る。これらの構文解析ルールはやはり、解析
ルールファイル36に格納されている。
構文解析された英文データは、解析木のデータとして構
造変換部24に転送される。構造変換部24では、英語
文の中間的構造である構文木から対応する日本語文の構
文木を作成し1日本語文を訳出しやすい日本語基底構造
に変換する。
こうして構造変換された日本語の基底構造を示す構文木
データは訳文生成部2Bに送出され、後者にて訳文の生
成が行なわれる。これは、日本語の基底構造から日本語
の文を生成する機能である。
まず、語順を日本語のそれに一致させるため、順序の入
換えを行なって木構造を変更する構文生成を行ない1次
に形態素生成を行なって構文木においてtop−dow
n、 left−to−rightに訳文を生成する。
訳文生成された日本語文データ、すなわち訳文データは
、後編集部30に送られる。後編集部30では、翻訳処
理に利用した情報を使用し、辞書18を索引して訳文デ
ータを修正し、より自然な日本語文を完成する。この日
本語文データは出力部32に転送され、翻訳された日本
語文34として出力部32から出力される。出力部32
は、たとえばプリンタ、ディスプレイ、および(または
)磁気ディスクなどのファイル記憶装置を含む。
これらの一連の翻訳処理の流れは、本装置全体の制御を
統括する制御部3日によって制御される。
単語辞書18には、本実施例では英語および日本語の単
語についての辞書データが格納され、解析ルールファイ
ル36には、形態素解析および構文解析のルールデータ
が格納されている。
制御部38には、操作表示部40が接続されている。操
作表示部40は、操作者から本装置に様々な指示を与え
る、たとえば翻訳指示キー、カーソルキーなどの操作キ
ーや、入力英語文テキスト、翻訳結果の日本語文、辞書
情報などの中間データ、操作者に対する様々な指示など
を可視表示するディスプレイやインジケータを有する。
なお、それらの操作表示機能の多くは、入力Filli
oにキーボードを備えている場合はそのキーボードに、
また出力部32にディスプレイを備えている場合はその
ディスプレイに含まれるように構成してよい。
ところで構文解析1部20では、形態素解析された英文
データについて、英文にcfg文法ルールをbotto
m−up、 rigbt−to−1eftに適用してそ
の文について可能性のあるすべての構文解を導出する。
この解は一般に構造木の形で理解される。これは、1つ
の文ごとにそれに含まれる単語または句が修飾関係およ
び格関係などの従属ないしは共起関係によって相互に関
連づけられ、たとえば親、子、孫といった相互の従属関
係を示すものである。各単語または句は、構造木の節点
すなわちノードの位置を占める。
本実施例では、構文解析に先立って、文の形態上および
語檗上の特徴を識別して構文上のまとまりを判別する。
この構文上のまとまりをここでは「ユニット」および「
ブロック」と称する。
「ユニット」は、翻訳プロセスの最小単位となる語の集
まりであり、バーズの際には、これを−語と同等に扱い
、それに含まれる各構成要素の辞書情報を使用しない。
また「ブロック」は、その内部での解析を外部における
解析より優先させて行ない、ブロック外に対してはその
ブロックをユニット2同等に扱う構文的なまとまりであ
る。たとえば、節、句などの他、cfg文法で用いる中
間的なシンボルに相当するものでもよい、また、入れ子
になり得る。すなわちブロック内にさらにブロックが含
まれていてもよい。さらに、ブロックの概念に、文手段
落、文章全体をも含め、これらをそれぞれ1つのブロッ
クとみなしてもよい、この、部分的解析を優先させる処
理をここでは「部分バーズ」と称する。これによって、
前述の無駄な構文解が減少し、解析の効率が向上してよ
り確からしい解析結果が得られる。
第1図に示す実施例について、入力英文の構文上のまと
まりをブロックとして認識する機能部分をまとめると、
第2図に示すようになる。これかられかるように、前編
集部14で前編集された英文データの構文上のまとまり
の識別は、単語辞書18および解析ルールファイル38
を使用して形態素解析部1Bにて行なわれる。
単語辞書18には、英語の単語や熟語についての辞書情
報が格納されている。たとえば$5図に示すように、本
実施例では各語の変化形ごとにエントリが形成され、そ
のすべての情報が展開されている。たとえば品詞情報に
ついては、同図に示すように複数の品詞の情報を持つこ
とができる。なお辞書18の構成の仕方は、この例に限
定されないことは明らかであろう。
解析ルールファイル36には、ブロックの先頭を示す先
頭条件、および末尾を示す終了条件のデータがテーブル
として格納されている。その例を第6図に示す、たとえ
ば、「、接続詞」によって1つのブロックが開始し、こ
れは文末にて終了する。また「、関係間」にて他のブロ
ックが開始し、これは、「、」または文末にて終了する
。後者のように、1つの先頭条件について複数の終了条
件の可脂性を許容する。これらは1通常の現代英語文に
て現われる句、節ないしは文を形成する条件によってい
る。なお同図において、記号「Ll」はスペースを示す
ところで形態素解析部18では、前編集部14から入力
される英文をまず、翻訳単位である文に分割する。その
際、スペルの誤りや未登録語の検出を行なう0文単位に
辞書18を索引し、各構成要素の辞書情報をフェッチす
る。それらの辞書情報に従って各種のまとめあげ処理を
行なう。
形態素解析部1Bにて行なわれるブロックについてのま
とめあげ処理のフローを第3図に示す、まず、1つの英
語文の読出し位置を示す位置ポインタを先頭にセットす
る (100)、先頭位置とは、先頭の語ではなく、そ
の直前の(仮想的な)文頭を意味する。その位置で単語
取出し処理101を実行する。第4図に示すように、単
語取出し処理101では、文の終了でないかぎり(11
0)、位置を1つ進めて単語を取り出しく111)、そ
の単語について辞書18を検索して(112)、単語情
報を書き出す(113)。
こうして単語取出し処理101で単語情報が取り出され
ると、ブロックの先頭、終了条件テーブル38を参照し
、先頭条件にマツチするものがあるか否かを判定する 
(102)、こうして、先頭条件にマツチするものが検
出されるまで、これらのステップ101および102を
繰り返す。
先頭条件にマツチすると、次の単語に続いて必要な数だ
け単語を順次取り出し、ブロックの先頭条件との一致を
照合する (104)、その際、必要ならば、それぞれ
の語について辞書を検索する。なお、位置のポインタは
歩進させない。
ステップ104でブロックの先頭条件にマツチすると、
その先頭条件についてのブロック終了条件に合致する語
を探す(105)、終了条件に合致するものが見つかる
までステップ104〜10Bを循環する。終了条件に一
致すると(10B)、その語までをブロックと認定し、
ブロックの書出しを行なう(107)、より詳細には、
処理103で歩進を停止させた位置のポインタの示す語
の位tをブロックの先頭位置とし、それ以降で最初に出
現する終了条件を満たす語の位置をそのブロックの終了
位置とする。
このようなブロック認識の結果、i7図に例示するよう
に、英文中にたとえばr、、、、接続詞80.」があれ
ば、文頭から「、」の前までを1つのブロック、「、接
続詞」から文末までを他の1つのブロックとして認識す
る。同図において[」内が1つのブロックを示している
。なお「、」を含まない位置からブロックとしてもよい
、また、句読点の類は、ブロックのもつ情報として構文
解析の対象からはずしてもよい。
同様に、たとえばr、、、、関係詞、、、、Jがあれば
、「、関係詞、、、、Jを1つのブロックとして認識す
る。ブロックは、勿論入れ子にすることもあり得る。た
とえば第8図に示すように、英文が「(文頭)  、、
、、接続詞00.、関係詞、、、、、、、 (文末)」
のような構成であると、「、接続詞」から文末までが1
つのブロックBLI〜BLIを形成し、その中に「、関
係詞、、、、Jが他のブロックBL2〜BL2として包
含されている。
このように形7B素解析部16では、文の形態上および
語朶上の特徴を識別して構文上のまとまりをブロックと
して判別する。なお形態素解析部18では、このような
ブロックの認識の他に、たとえば固有名詞、派生語、未
知語、省略語、数、時の表現、ハイフン語、アポストロ
フィ「′」なとの処理や、同格の推定、付加疑問の処理
などの様々な処理を行なって、形態素解析データを作成
する。
こうして形態素解析された英文は、その解析情報ととも
に構文解析1部20へ転送される。その出力データの例
を第9図に示す、これは、英文I 5aid、 ”Wh
ite House iSn’t wbite、”が入
力部10から入力され、形態素解析部16で解析された
結果を示す。ブロック1が語位置雲4で開始して位1t
10で終了し、同様にブロック2が位置首5で開始して
位置雪6で終了している。つまり、”Wb i teH
ouse iSn’t vhite、’のブロックの中
に他のブロックWhite Houseが入れ子になっ
ている。英文データは、このようなブロックの情報とと
もに、単語辞書18を索引した単語情報が付加されて形
Tfj素解析部16から構文解析工部20へ送出される
。なお、White Houseはユニットとして扱っ
てもよい。
構文解析1部20では、解析ルールファイル3日に格納
されている文脈自由文法ルールを適用して英文の表層構
造を解析し、可能性のあるすべての構文木を見つけだす
。その際、ブロックが含まれていれば前述の部分バーズ
を行ない、局所的解析を優先させる。これによって、解
析の効率と正確さが向上する。
より詳細には、ブロックの位置情報からブロックの包含
関係を作成する。そこで、最も内側のブロー2りをバー
ズする。パージングを終了したブロックはユニー/ )
とみなしてその内側はそれ以上処理しない。こうして順
次、外側のブロックヘバーズ範囲を拡大してゆく。最後
に文全体をバーズする。なおバーズは、cfg文法ルー
ルに基づき、英文においテbottom−up、 ri
ght−to−1eftニ行なう0文法ルールの許す可
使性をすべて保持した形でバーズする。
このようなパージング処理フローの例を第10図に示す
。まず、構文解析1部20に供給された英文データに基
づき、1つの文について構文上のまとまりをすべてブロ
ックとして認識する (120)、このまとめ方は、第
7図に例示した通りである。そこで、こうしたまとまり
の中にブロックが存在しなければ(121)、その文を
解析しく125)、1つの文のシンボルとしてまとまっ
たものだけを選択してその文の解析を終了する (12
El)。なお、処理125および12Bは、文全体を1
つのブロックとして扱う処理方式をとれば、処理121
〜124に含まれるので、不要である。
ブロックが存在すると、まず、最も内側のブロックから
解析する (122)、第8図の例では、まずブロック
BL2〜BL2の内部を解析する。この解析によって一
般に様々な解が得られるが、それらの解のうち、1つの
cfgシンボルとしてまとまったもののみを選択する 
(123)、そこで、このように選択したものを単一の
まとまりとして扱うように処理する (124)、この
処理121〜124を順次繰り返す。
こうして、第8図の例では、まずブロックBL2〜BL
2の内部が解析され1次にブロックBLI〜BLIの内
部が解析される。その際、ブロックBL2〜BL2は単
一の単語と同等に扱われ、それに含まれる構成要素のそ
れぞれについての解析は行なわない。
こうして構文上のまとまりと従属関係を規定するデータ
が得られると、これは構文解析11部22に送られる。
このデータは、前述した構文木の形で容易に理解される
。これは、さらに構造変換部24で日本語文の構造に変
換され、訳文生成部26では、それに含まれる各ノード
ごとに訳文を生成してゆく、構造木におけるノードの処
理は、top−down、 left−to−righ
tで行なう。
こうして生成された訳文は、後編集部30で後処理が行
なわれ、操作表示部40に可視表示されるとともに、出
力fl132にて日本文34としてたとえば印字出力さ
れる。
このように本実施例によれば、英文の形態上および語少
上の特徴を識別して構文上のまとまりをブロックとして
判別する。そこで文脈自由文法ルールを適用して英文の
表層構造を解析し、可能性のあるすべての構文木を見つ
けだし、その際、ブロックが含まれていれば部分バーズ
を行なって局所的解析を優先させる。これによって、無
駄な解の数を減らし、解析の効率効率が向上するととも
に、解析結果がより確からしいものとなる。
第11図を参照すると、本発明の他の実施例が示されて
いる。同実施例では、構文上のまとまりや熟語に関する
指定情報を入力部lOまたは操作表示部40かも入力す
ると、構文解析を行なうまえに、この指定情報に矛盾す
る辞書情報、たとえば熟語についての辞書情報や、まと
めあげ方、たとえば固有名詞などのまとめあげ方を許容
しないようにすることによって、より正しい解析結果を
得ることができるものである。
この目的のため本実施例では、前編集部14と形7態素
解析部16の間にユーザブロック解析部200が設けら
れている。その関連部分をまとめて示したのが第12図
である。これらの図において、第1図に示す構成要素と
同様の要素は同じ参照符号で示されている。
形態素解析部1Bでは、形態素解析を行なう際、前編集
からの情報は優先して扱う、たとえば、固有名詞の処理
は次の2段階にて行なわれる。まず、入力文字列におけ
る固有名詞を認定する。これは、辞書18に登録されて
いる語の場合は、その形態素起動情報に固有名詞が表示
されていることによる。また辞書18に登録されていな
い語の場合は、先頭の1文字が英字の大文字であること
による。たとえば、”John″やU、S、”などであ
る。
次に、固有名詞連は、まとめあげを行なって全体を単一
の固有名詞とする。辞書情報から固有名詞であると認定
されると、次の辞書引き単位をみてこれも固有名詞であ
るときは、全体をまとめて1つの固有名詞に合成する。
たとえば”M、 Weber”は全体で1つの固有名詞
として解析される。この解析結果は、局所解析における
固有名詞を含んだ慣用表現のまとめげ候補となる。
また、ハイフン付きの語は、それが辞書18に登録され
ていない未登録語であると、全体を1つのブロックとし
てブロック情報を送り、ブロックのなかは各構成要素ご
とに辞書引きを行なってそのユニット情報をそれぞれ出
す。そのなかにハイフンは含めない。この辞書引きにお
ける未登録語については、未知語処理のなかの語尾推定
処理を行なう。
次に必要な局所解析を行なう、これは1局所解析ルール
に基づいて各解析単位の形態素起動情報から起動される
連続した解析単位を1つの解析単位にまとめあげる。た
とえば、通貨記号と数字”¥1,000”はr 1oo
o円」に、また数字と単位”1.5km″は「1.5キ
ロメートル」にまとめあげる。時の表現については、”
11:30 a、m、″は「午前11時30分」に、”
Oct、 1B”はrlO月18日」としてまとめあげ
る。
たとえば、称号による氏名のまとめあげを行なう。たと
えば“Mr、 Brown″はrBrown氏」にまと
められる。また、地名の一部になる語もまとめあげられ
る。たとえば”Lake Biwa”は「琵琶湖」にま
とめあげる。同様に団体名の一部になる語もまとめられ
る。たとえば”Yale University”はr
Yale大学」として解析される。
本装置の操作者は、入力文中におけるユニットおよびブ
ロックの範囲を指定することができる。
本実施例では、ユニットまたはブロックについてし始点
 ユニットまたはブロック である旨の表示 終点] なる記号形式で指定される。このような操作者による指
定ブロックおよびユニットは、以下これを総称して「ユ
ーザブロック」と称するが、入力された原文に現われな
いような文字の組合せで指定される。好ましくは、2な
いし3個の文字からなる。たとえば、ユニットは「\(
U  \〕」なるフォーマットで、またブロックは 「\(B  \)」なるフォーマットでそれぞれ指定す
る。これらは、前編集部14にて入力文すなわち英文テ
キスト中に埋め込まれる。これらの範囲と交差する形で
のユニットまたはブロックのまとめあげがあっても、そ
れらは破棄する。
たとえば”、、、at New York Tom B
rown was、、、′なる入力文では、通常のまと
めあげが行なわれると、大文字で開始する語の連続が固
有名詞連としてまとめあげられ、固有名詞連”New 
York TollBrown”が認識される。しかし
ユーザブロックとして「\(B at New Yor
k\)」が指定されると、固有名詞処理によるこのまと
めあげ”Nev、York TomBrown“を破棄
し、ユーザブロックの指定”at NewYork”と
他の固有名詞処理によるまとめあげ“TomBrown
”が最終的に選択される。
このようなユーザブロックの処理は、第13図に例示す
る処理フローに従ってユーザブロック処理部200にて
行なわれる。まず、位置を先頭にセットシ1位置記号n
に「0」をセットする (300)。
位置記号nをインクリメントしく302) 、さらに歩
進させて単語を取り出す(302)。文の終了でなけれ
ば(303) 、ブロックの先頭か(300終rか(3
05)を判別する。ブロックの先頭であればブロック先
順位との表に記号nの値を記録する (30B)、ブロ
ックの末尾であればブロック終了位置の表に記号n−1
の値を記録する (307J、これを文の終了まで行な
う (303)。
文の終了であると、ブロック先頭位置の表から最大のイ
1のものを取り出し、終了位置の表から最小の値のもの
を取り出す(30B)、その際、先頭位置の表に要素が
なくなると、文の先順位t「1」をかえす。同様に、終
了位置の表に要素がなくなると、文の終了位置のrnJ
をかえす0次に、2つの値をそれぞれ開始位置および終
了位置とするブロックを記録しく310)、これら2つ
の値をそれぞれの表から削除する (311)、雨衣に
ついてこれを行なう (309)。
ユーザブロックが指定された入力文字列を形態素解析部
16で処理する際の処理フローの例を第14A図および
第14B図に示す、第14A図は1Ts3図のステップ
100から1Of3までと同じでよい*Ei114B図
は、ステップ10Bと107の間に3つのステップ32
0〜322が挿入されている点が第3図のフローと相違
する。ブロックの終了条件があると(4oe)、終了条
件にマツチした先頭条件の先頭位置をPsとし、終了条
件の終了位置をPeとする。そこで、Ps<開始≦Pe
となる開始位置を有し、かつ終了>Peとなるブロック
があれば(320)、単語取出し処理101に戻る。そ
のようなブロックがなければ、Ps≦開始<Peとなり
、かつ開始<Psとなるブロックがあれば(321)、
fti語取出し処理101に戻る。そのようなブロック
がなければ、Ps=開始、Pe=終了となるブロックの
存否をみる (322)、そのようなブロックが存在し
ないと単語取出し処理101に戻る。そのようなブロッ
クがあればブロックの書出し107に移行する。
このように本実施例では、構文上のまとまりや熟語に関
する指定情報を入力すると、構文解析を行なうまえに、
この指定情報に矛盾する辞書情報やまとめあげ方を許容
しないようにすることによって、より正しい解析結果を
得ることができる。
第15図を参照すると1本発明のさらに他の実施例が示
されている。同実施例では、引用符やかっこを語句や文
のまとまりを指示している記号と考え、構文上のまとま
りを形成する位置情報として扱うものである。これによ
って、引用符やかっこそれ目体は構文解析の対象からは
ずし、そのうえでまとめあげたまとまりのもつ情報とす
ることによって、解析処理の煩雑さを避けている。また
後の翻訳処理においても、右かっこや左かっこなどの記
号、すなわち「引用符号類」と、実際のかっこの中の要
素との位置関係を考慮せずに、構造変換を行なうことが
できる。したがって構成が簡略化される。
形態素解析では、入力文テキストの整形が行なわれるが
、そのなかでブロックの認定も行なわれる0本実施例で
は、引用符はrQJで、またかっこは「P」で指定され
る。たとえば。
°910.′は\(Q’ 、、、、\)′で、“109
.”は\(Q“005.\)″で、(、、、、)は(\
(p、、、−\))で、<、、、、>はく\(p、、、
、\)〉で、t、、、lは(\(P、、、、\))で、
またり、、、、Jは[\(P、、、、\)]でそれぞれ
規定される。このような形でブロックの認定が行なわれ
る。
ブロックの開始記号、終了記号はそれぞれ、当該記号に
よるブロックが閉じているか開いているかの文脈下での
み適用される。開始記号の直前と終了記号の直後は英数
字以外でなければならない、これらの該出しない同記号
は単なるシンボルとして扱われる0以上のブロックは互
いに交差しないことを条件にネストすることもある。ま
た、ブロックの中で文末と認定された場合、閉じていな
いブロックに対して終了の制御コードを順に補い、次の
文に対しては、開始の制御コードを補う、また、文ブロ
ックに対してはブロックインの状態というフラグを送る
。この処理は文末認定処理のあとで行なわれる。
この目的のため、第15図に示す実施例では、形態素解
析部16と構文解析1部20の間に引用符号順処理部2
10が設けられている。その関連部分をまとめて示した
のが第16図である。これらの図において、第1図に示
す構成要素と同様の要素は同じ参照符号で示されている
引用符号順処理部210は、形態素解析部1Bから入力
英文とともに形態素解析結果を受け、第18図に示すよ
うに、解析情報中のブロックの情報に付加情報として引
用符号類に関する情報を付加する機能を有する。その際
、引用符号類口体は単語の情報から削除する。付加情報
は、ブロック作成の際には初期値としてrなし」がセッ
トされる。
引用符号順処理部210は、入力文中にブロックが存在
すると、まず、最も内側のブロックから解析する。この
解析によって一般に様々な解が得られるが、それらの解
のうち、1つのcfgシンボルとしてまとまったものの
みを選択する。このcfgシンボルを保存するとともに
、それに対応する付加情報にはブロックについての情報
を記入する。
そこで、このように選択したものを単一のまとまりとし
て扱うように処理する。
このような引用符号類の処理は、第17A図および第1
7B図に例示する処理フローに従って引用符号順処理部
210にて行なわれる。まず、ポインタを先頭ブロック
にセットしく330) 、ブロックの先頭の位この語を
チェックする (332)、これが引用符号類でなけれ
ばポインタを歩進させて(334)次の語に移る。
引用符号類であれば、ブロックの付加情報にその引用符
号類を書き込み(335) 、ブロックの先頭位置の語
を単語の情報から削除する (337)。ついで、ブロ
ック終了位置の語をチェックしく337) 、これが引
用符号類であればブロックの終了位置の語を単語の情報
から削除する (339)、そこでポインタを歩進させ
て(334)次の語に移る。これを最終位置の語まで実
行する (332)。
このような引用符号類の処理を、第1図に示す実施例に
ついて説明した入力文例15aid、”Wh i te
House isn’t white、”について実行
した解析結果の例を第19図に示す、形態素解析部16
から引用符号順処理部210には、第1図の実施例の場
合と同様な内容の第9図に示す解析結果データが転送さ
れる。引用符号順処理部210では、これに付加情報を
加えるが、その初期値は、第18図に示すようにrなし
」に設定される。
引用符号順処理部210では、この入力文に含まれる引
用符号類についてステップ335〜339の処理を実行
する。その結果、第19図に示すように、ブロック1の
付加情報として引用符「”」が書き込まれる。これとと
もに、単語の情報から引用符「″」に関するデータ、す
なわち語位置雲4および雲10に関する項目のデータが
削除される。構文解析1部20へは、第19図に示す形
で形態素解析結果のデータが出力される。
このように本実施例では、引用符号類を語句や文のまと
まりを指示している記号として認識し、構文上のまとま
りを形成する位置情報として扱っている。これによって
、引用符号類それ自体は構文解析の対象からはずしたう
えで、まとめあげたまとまりのもつ情報とすることによ
って、解析処理の煩雑さを避けている。また、後の翻訳
処理においても、引用符号類と引用符号類で実際にくく
られた中の要素との位置関係を考慮せずに構造変換を行
なうことができる。したがって構成が簡略化される。
効  果 本発明によれば、所定の言語の文の形態上ないしは語堂
上の特徴を識別して構文上のま゛とまりを判別する。こ
れに文脈自由文法ルールを適用して文の表層構造を解析
し、可使性のあるすべての構文木を見つけだす、その際
、ブロックが含まれていれば部分バーズを行なって局所
的解析を優先させる。これによって、無駄な解の生成を
最小化し、解析の効率と正確さを向上させている。
また、構文上のまとまりや熟語に関する指定情報を入力
すると、構文解析を行なうまえに、この指定情報に矛盾
する辞書情報やまとめあげ方を許さないようにすること
によって、より正しい解析結果を得ることができる。
さらに、引用符号類を語句や文のまとまりを指示してい
る記号として認識し、構文上のまとまりを形成する位置
情報として扱うことによって、引用符号類それ自体を構
文解析の対象からはずし、まとまりのもつ情報とするこ
とによって、解析処理の煩雑さを回避している。また、
後の翻訳処理でも、引用符号類とその中の要素との位置
関係を考慮せずに構造変換を行なうことができる。した
がって構成が簡略化される。
【図面の簡単な説明】
第1図は、本発明による言語解析装置を英日自動翻訳装
置に適用した実施例の全体構成を示す機能ブロック図、 第2図は、第1図に示す実施例について、入力英文の構
文上のまとまりをブロックとして認識する機能をまとめ
た機能ブロック図、 第3図は、入力英文についてブロックのまとめあげ処理
のフローの例を示すフロー図、第4図は、第3図の処理
フローにおける中詰取出し処理の詳細を示すフロー図、 第5図は、同実施例における単語辞書に格納されている
英語の単語や熟語についての辞書情報の例を示す説明図
、 第6図は、同実施例における解析ルールファイルに格納
されているブロック先頭条件および終了条件のテーブル
データの例を示す説明図、第7図は、同実施例における
構文上のまとめあげの例を示す説明図、 第8図は、ブロックのまとめあげの例を示す説明図、 第9図は、ブロックにまとめあげた英文のブロック情報
および単語情報の例を示す説明図、第1O図は、同実施
例における構文解析部で実行される構文解析処理の例を
示すフロー図、第11図は、本発明による言語解析装置
の他の実施例の全体構成を示す第1図と同様の機能ブロ
ック図。 第12図は、第11図に示す実施例について、入力英文
のユーザブロックを解析するJa fEをまとめた第2
図と同様のa能ブロック図、 第13図は、入力英文についてユーザブロックの解析処
理のフローの例を示すフロー図、第14A図および第1
4B図は、入力英文についてユーザブロックのまとめあ
げ処理のフローの例を示す第3図と同様のフロー図、 第15図は5本発明による言語解析装置のさらに他の実
施例の全体構成を示す第1図と同様の機能ブロー2り図
、 第16図は、第15図に示す実施例について、入力英文
の引用符号類を解析する機能をまとめた第2図と同様の
機能ブロック図、 第17A図および第17B図は、入力英文について引用
符号類の解析処理のフローの例を示すフロー図。 第18図および第19図は、引用符号類を含む英文をブ
ロックにまとめあげたブロック情報および単語情報の例
を示す第9図と同様の説明図である。 開部分の符号の説明 10、、、入力部 1B、、、形態素解析部 18、、、単語辞書 20.22. 、構文解析部 24、、、構造変換部 2B、、、訳文生成部 32、、、出力部 3Ei、、、解析ルール 38、、、制御部 40、、、操作表示部 200、、、ユーザブロック解析部 210、、、引用符号順処理部

Claims (1)

  1. 【特許請求の範囲】 1、入力された所定の言語の文について形態素解析を行
    なう第1の解析手段と、 第1の解析手段からの形態素解析結果をもとに前記言語
    の文について構文解析を行なう第2の解析手段と、 第1および第2の解析手段の解析に使用する該言語の辞
    書データを格納した辞書手段と、 該辞書手段を索引して第1および第2の解析手段に解析
    を行なわせる制御手段とを有し、 第1の解析手段は、前記辞書手段を索引し、前記入力さ
    れた言語の文の形態上の特徴を識別して構文上のまとま
    りを判別し、 第2の解析手段は、文法ルールを適用して該言語の文の
    表層構造を解析し該文に含まれる構成要素の可能性のあ
    る従属関係を解析する際、該文に前記まとまりが含まれ
    ていれば該まとまりについて他に優先して解析を行なう
    ことを特徴とする言語解析装置。 2、入力された所定の言語の文について形態素解析を行
    なう第1の解析手段と、 第1の解析手段からの形態素解析結果をもとに前記言語
    の文について構文解析を行なう第2の解析手段と、 第1および第2の解析手段の解析に使用する該言語の辞
    書データを格納した辞書手段と、 前記言語の文における構文上のまとまりを指示する指示
    手段と、 前記辞書手段を索引して第1および第2の解析手段に解
    析を行なわせる制御手段とを有し、第1の解析手段は、
    前記辞書手段を索引し、前記入力された言語の文の形態
    上の特徴を識別して構文上のまとまりを判別し、 第2の解析手段は、文法ルールを適用して該言語の文の
    表層構造を解析し該文に含まれる構成要素の可能性のあ
    る従属関係を解析する際、該文に前記まとまりが含まれ
    ていれば該まとまりについて他に優先して解析を行ない
    、 第1の解析手段は、前記言語の文について形態素解析を
    行なう際、前記指示手段によって前記構文上のまとまり
    が指示されると、該指示されたまとまりを他に優先させ
    る形態素解析情報を第2の解析手段に与えることを特徴
    とする言語解析装置。 3、入力された所定の言語の文について形態素解析を行
    なう第1の解析手段と、 第1の解析手段からの形態素解析結果をもとに前記言語
    の文について構文解析を行なう第2の解析手段と、 第1および第2の解析手段の解析に使用する該言語の辞
    書データを格納した辞書手段と、 前記辞書手段を索引して第1および第2の解析手段に解
    析を行なわせる制御手段とを有し、第1の解析手段は、
    前記辞書手段を索引し、前記入力された言語の文の形態
    上の特徴を識別して構文上のまとまりを判別し、 第2の解析手段は、文法ルールを適用して該言語の文の
    表層構造を解析し該文に含まれる構成要素の可能性のあ
    る従属関係を解析する際、該文に前記まとまりが含まれ
    ていれば該まとまりについて他に優先して解析を行ない
    、 第1の解析手段は、前記言語の文について形態素解析を
    行なう際、該言語の文に含まれる引用符号類を識別し、
    該識別した引用符号類から構文上のまとまりを形成し、
    該形成されたまとまりを示す形態素解析情報を第2の解
    析手段に与え、第2の解析手段は、前記識別された引用
    符号類を構文解析の対象から除外することを特徴とする
    言語解析装置。
JP61248432A 1986-05-15 1986-10-21 言語解析装置 Pending JPS63113668A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP10963286 1986-05-15
JP61-109632 1986-05-15

Publications (1)

Publication Number Publication Date
JPS63113668A true JPS63113668A (ja) 1988-05-18

Family

ID=14515198

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61248432A Pending JPS63113668A (ja) 1986-05-15 1986-10-21 言語解析装置

Country Status (1)

Country Link
JP (1) JPS63113668A (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59201172A (ja) * 1983-04-28 1984-11-14 Nec Corp 曖味さ解析方式
JPS60215282A (ja) * 1984-04-11 1985-10-28 Hitachi Ltd 自然言語解析構文方式及び装置
JPS6180358A (ja) * 1984-09-26 1986-04-23 Sharp Corp 翻訳装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59201172A (ja) * 1983-04-28 1984-11-14 Nec Corp 曖味さ解析方式
JPS60215282A (ja) * 1984-04-11 1985-10-28 Hitachi Ltd 自然言語解析構文方式及び装置
JPS6180358A (ja) * 1984-09-26 1986-04-23 Sharp Corp 翻訳装置

Similar Documents

Publication Publication Date Title
EP0266001B1 (en) A parser for natural language text
US5640575A (en) Method and apparatus of translation based on patterns
US5895446A (en) Pattern-based translation method and system
JP2002215617A (ja) 品詞タグ付けをする方法
JPH0447364A (ja) 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法
US20070011160A1 (en) Literacy automation software
JPH0351020B2 (ja)
JPH0447440A (ja) 語の変換方式
JPH09190453A (ja) データベース装置
JP2632806B2 (ja) 言語解析装置
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
JPS63113668A (ja) 言語解析装置
JPH07244669A (ja) 文書検索方式
US20220004708A1 (en) Methods and apparatus to improve disambiguation and interpretation in automated text analysis using structured language space and transducers applied on automatons
JP3680489B2 (ja) 機械翻訳装置および機械翻訳処理プログラムを記録したコンピュータ読み取り可能な記録媒体
Bhowmik et al. Development of A Word Based Spell Checker for Bangla Language
JPH0561902A (ja) 機械翻訳システム
JPS61187077A (ja) 日本語解析装置
JPS63113669A (ja) 言語解析装置
JPS63109572A (ja) 派生語処理方式
JPS6389976A (ja) 言語解析装置
JPS62267873A (ja) 言語解析装置
JPH05225232A (ja) テキスト自動前編集装置
Daybelge Improving the precision of example-based machine translation by learning from user feedback
JPS63106867A (ja) 言語解析装置