JPS63113668A

JPS63113668A - 言語解析装置

Info

Publication number: JPS63113668A
Application number: JP61248432A
Authority: JP
Inventors: Toshihiko Yokogawa; 横川　壽彦
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1986-05-15
Filing date: 1986-10-21
Publication date: 1988-05-18

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】技術分野本発明は言語解析装置、とくに自動翻訳装置に有用な言
語解析装置に関する。

従来技術たとえば英語などの外国語の文からそれに対応する日本
語の文を作成する場合、入力された英文の形態素を解析
し、その構文を解析し、その文構造を変換し、そののち
日本語の訳文を生成する。

機械翻訳などの自動システムでは、構文上のまとめあげ
や熟語の認定などは轟然自動処理にて行なわれる。これ
は一般に誤りを伴うことが多い。

ｃｆｇ文法（ｃｏｎｔｅｘｔ−ｆｒｅｅ　ｇｒａｍｍａ
ｒ：文脈自由文法〕において、ｂｏｔｔｏｍ−ｕｐ解析
手法やｔｏｐ−ｄｏｗｎ解析手法であっても文中で部分
的に文法に適合する解析解も出力される。そこで、最終
的に使用できない無駄な解も多数出力されるのが欠点で
ある。

このような無駄な解は、人間がこれを読んだときに明ら
かに誤りであるとわかるものも多い。

このような表面的に誤りとわかる解を多く含む解析結果
が構文解析で多数得られると、その後の工程である構造
変換や訳文生成の効率が低下することになる。つまり、
無駄な解についても構造変換を行ない、あるいは訳文生
成を実行し、それらの結果の適切性をそれぞれの処理過
程で判断することになり、処理時間を浪費する結果を招
く。

そこで、目動翻訳プロセス全体の効率を向上させるには
、このような無駄な解の数を減らして解析の効率を高く
するとともに、解析結果をより確からしいものにするこ
とが要求される。

たとえば、熟語や固有名詞の範囲などを自動的に認定す
るシステムを考える。自然言語では、例外的な現象や個
別的現象が多々みられる。それらをアルゴリズムで扱う
ようにシステムを構成すると、例外的処理や個別的処理
をすべてアルゴリズムに記述しなければならない。

従来のシステムにはまた、文のなかのかっこや引用符な
どを他の語句と同じに扱って構文解析を行なうものがあ
った。このようなシステムでは構文解析の処理が複雑で
あった。より具体的には、第１に、かっこや引用符など
、文中の位置を自由にとり得るものを扱う文法を必要と
した。第２に、たとえばかっこなどによって囲まれてい
るか否かなどの文中の位置関係を常に考慮にいれた処理
を構文変換や構文生成などに必要としていた。

したがって、処理が複雑であった。

目　　　的本発明はこのような要求に鑑み、構文解析を効率的に行
なうことのできる言語解析装置を提供することを目的と
する。

構　　成本発明は上記の目的を達成させるため、入力された所定
の言語の文について形態素解析を行なう第１の解析手段
と、第１の解析手段からの形態素解析結果をもとにその
言語の文について構文解析を行なう第２の解析手段と、
７ｎ１および第２の解析手段の解析に使用するその言語
の辞書データを格納した辞書手段と、辞書手段を索引し
て第１およびｆｆ１２の解析手段に解析を行なわせる制
御手段とを有し、第１の解析手段は、辞書手段を索引し
、入力文の形態上の特徴を識別して構文上のまとまりを
識別し、第２の解析手段は、文法ルールを適用してその
文の表層構造を解析しその文に含まれる構成要素の可能
性のある従属関係を解析する際、その文にまとまりが含
まれていればそのまとまりについて他に優先して解析を
行なう言語解析装置を特徴としたものである。

本発明はまた、入力された所定の言語の文について形態
素解析を行なう第１の解析手段と、第１の解析手段から
の形態素解析結果をもとに前記言語の文について構文解
析を行なう第２の解析手段と、第１および第２の解析手
段の解析に使用するその言語の辞書データを格納した辞
書手段と、前記言語の文における構文上のまとまりを指
示する指示手段と、辞書手段を索引して第１および第２
の解析手段に解析を行なわせる制御手段とを有し、第１
の解析手段は、辞書手段を索引し、前記入力された言語
の文の形態上の特徴を識別して構文上のまとまりを判別
し、第２の解析手段は、文法ルールを適用してその言語
の文の表層構造を解析しその文に含まれる構成要素の可
能性のある従属関係を解析する際、その文に前記まとま
りが含まれていればそのまとまりについて他に優先して
解析を行ない、第１の解析手段は、前記言語の文につい
て形態素解析を行なう際、指示手段によって前記構文上
のまとまりが指示されると、この指示されたまとまりを
他に優先させる形態素解析情報を第２の解析手段に与え
る言語解析装置を特徴としたものである。

本発明はさらに、入力された所定の言語の文について形
態素解析を行なう第１の解析手段と、第１の解析７段か
らの形態素解析結果をもとに前記言語の文について構文
解析を行なう第２の解析手段と、第１および第２の解析
手段の解析に使用するその言語の辞書データを格納した
辞書手段と、辞書手段を索引して第１および第２の解析
手段に解析を行なわせる制御手段とを有し、第１の解析
手段は、辞書手段を索引し、その入力された言語の文の
形態上の特徴を識別して構文上のまとまりを判別し、第
２の解析手段は、文法ルールを適用してその言語の文の
表層構造を解析しその文に含まれる構成要素の可能性の
ある従属関係を解析する際、この文に前記まとまりが含
まれていればそのまとまりについて他に優先して解析を
行ない、ｉｉの解析手段は、前記言語の文について形態
素解析を行なう際、その言語の文に含まれる引用符号類
を識別し、この識別した引用符号類から構文上のまとま
りを形成し、形成されたまとまりを示す形態素解析情報
を第２の解析手段にかえ、第２の解析７段は、識別され
た引用符号類を構文解析の対象から除外する言語解析装
置を特徴としたものである。

以ｔ、本発明の￥施例に基づいて具体的に説明する。

第１図を参照すると１本発明による言語解析間とを英日
目動翻訳装置に適用した実施例の全体構成が示されてい
る。なお本発明は、英語を日本語に翻訳する英日目動翻
訳装置のみならず、ある１つの言語を他の言語に翻訳す
る自動翻訳装置にも効果的に適用されることは、言うま
でもない。

同天施例は入力部１０を有し、日本語に翻訳すべき英文
テキス）１２がこれにより入力される。入力部ｌＯはた
とえば、英数字キーなどの文字キーや機能キーなどを有
するキーボード、紙に記録された構文テキストを読み取
る光学的文字読取装置（ＯＣＲ）　、および（または）
磁気ディスクなどの記憶媒体に記録された英文テキスト
を読み込むファイル記憶装置などを含んでよい。

入力部ｌＯにより入力された英文テキストは、前編集部
１４に読み込まれ、翻訳の前処理が行なわれる。ここで
は、主として文の認定と未知語の処理を行なう、これは
形態素解析の一部として機能する。

前編集された英文データは、前編集で得られた情報とと
もに形態素解析部１６に転送される。形態素解析部１６
では、単語辞書１８を索引して文に分割し、英文の形態
素を解析し、未知語の処理、固有名詞、時の表現、数の
表現などの各種のまとめあげを行ない、付加疑問、同格
の認定などの文全体の処理を行なう、その形態素解析ル
ールは解析ルールファイル３８に格納されている。

こうして形態素解析された英文データは、形態素解析で
得られた辞書情報とともに構文解析工部２０に転送され
る。構文解析１部２０は、本実施例ではｃｆｇ文法ルー
ルを英文データに適用して文についてｂｏｔｔｏｍ−ｕ
ｐ、　ｒｉｇｈｔ−ｔｏ−１ｅＨに表層構造の解析を行
ない、すべての構文的可能性を見つけ出す機能部である
。

構文解析１部２０で構文解析（バーズ）された英文デー
タは、その解析情報とともに構文解析１１部２２に送ら
れる。ここでは、構文解析Ｉによる表層　。

的なバーズ結果から、構造記述を適用して解を選択する
。これによって英語文の確からしい解析木を作成し、そ
の構造を作る。これらの構文解析ルールはやはり、解析
ルールファイル３６に格納されている。

構文解析された英文データは、解析木のデータとして構
造変換部２４に転送される。構造変換部２４では、英語
文の中間的構造である構文木から対応する日本語文の構
文木を作成し１日本語文を訳出しやすい日本語基底構造
に変換する。

こうして構造変換された日本語の基底構造を示す構文木
データは訳文生成部２Ｂに送出され、後者にて訳文の生
成が行なわれる。これは、日本語の基底構造から日本語
の文を生成する機能である。

まず、語順を日本語のそれに一致させるため、順序の入
換えを行なって木構造を変更する構文生成を行ない１次
に形態素生成を行なって構文木においてｔｏｐ−ｄｏｗ
ｎ、　ｌｅｆｔ−ｔｏ−ｒｉｇｈｔに訳文を生成する。

訳文生成された日本語文データ、すなわち訳文データは
、後編集部３０に送られる。後編集部３０では、翻訳処
理に利用した情報を使用し、辞書１８を索引して訳文デ
ータを修正し、より自然な日本語文を完成する。この日
本語文データは出力部３２に転送され、翻訳された日本
語文３４として出力部３２から出力される。出力部３２
は、たとえばプリンタ、ディスプレイ、および（または
）磁気ディスクなどのファイル記憶装置を含む。

これらの一連の翻訳処理の流れは、本装置全体の制御を
統括する制御部３日によって制御される。

単語辞書１８には、本実施例では英語および日本語の単
語についての辞書データが格納され、解析ルールファイ
ル３６には、形態素解析および構文解析のルールデータ
が格納されている。

制御部３８には、操作表示部４０が接続されている。操
作表示部４０は、操作者から本装置に様々な指示を与え
る、たとえば翻訳指示キー、カーソルキーなどの操作キ
ーや、入力英語文テキスト、翻訳結果の日本語文、辞書
情報などの中間データ、操作者に対する様々な指示など
を可視表示するディスプレイやインジケータを有する。

なお、それらの操作表示機能の多くは、入力Ｆｉｌｌｉ
ｏにキーボードを備えている場合はそのキーボードに、
また出力部３２にディスプレイを備えている場合はその
ディスプレイに含まれるように構成してよい。

ところで構文解析１部２０では、形態素解析された英文
データについて、英文にｃｆｇ文法ルールをｂｏｔｔｏ
ｍ−ｕｐ、　ｒｉｇｂｔ−ｔｏ−１ｅｆｔに適用してそ
の文について可能性のあるすべての構文解を導出する。

この解は一般に構造木の形で理解される。これは、１つ
の文ごとにそれに含まれる単語または句が修飾関係およ
び格関係などの従属ないしは共起関係によって相互に関
連づけられ、たとえば親、子、孫といった相互の従属関
係を示すものである。各単語または句は、構造木の節点
すなわちノードの位置を占める。

本実施例では、構文解析に先立って、文の形態上および
語檗上の特徴を識別して構文上のまとまりを判別する。

この構文上のまとまりをここでは「ユニット」および「
ブロック」と称する。

「ユニット」は、翻訳プロセスの最小単位となる語の集
まりであり、バーズの際には、これを−語と同等に扱い
、それに含まれる各構成要素の辞書情報を使用しない。

また「ブロック」は、その内部での解析を外部における
解析より優先させて行ない、ブロック外に対してはその
ブロックをユニット２同等に扱う構文的なまとまりであ
る。たとえば、節、句などの他、ｃｆｇ文法で用いる中
間的なシンボルに相当するものでもよい、また、入れ子
になり得る。すなわちブロック内にさらにブロックが含
まれていてもよい。さらに、ブロックの概念に、文手段
落、文章全体をも含め、これらをそれぞれ１つのブロッ
クとみなしてもよい、この、部分的解析を優先させる処
理をここでは「部分バーズ」と称する。これによって、
前述の無駄な構文解が減少し、解析の効率が向上してよ
り確からしい解析結果が得られる。

第１図に示す実施例について、入力英文の構文上のまと
まりをブロックとして認識する機能部分をまとめると、
第２図に示すようになる。これかられかるように、前編
集部１４で前編集された英文データの構文上のまとまり
の識別は、単語辞書１８および解析ルールファイル３８
を使用して形態素解析部１Ｂにて行なわれる。

単語辞書１８には、英語の単語や熟語についての辞書情
報が格納されている。たとえば＄５図に示すように、本
実施例では各語の変化形ごとにエントリが形成され、そ
のすべての情報が展開されている。たとえば品詞情報に
ついては、同図に示すように複数の品詞の情報を持つこ
とができる。なお辞書１８の構成の仕方は、この例に限
定されないことは明らかであろう。

解析ルールファイル３６には、ブロックの先頭を示す先
頭条件、および末尾を示す終了条件のデータがテーブル
として格納されている。その例を第６図に示す、たとえ
ば、「、接続詞」によって１つのブロックが開始し、こ
れは文末にて終了する。また「、関係間」にて他のブロ
ックが開始し、これは、「、」または文末にて終了する
。後者のように、１つの先頭条件について複数の終了条
件の可脂性を許容する。これらは１通常の現代英語文に
て現われる句、節ないしは文を形成する条件によってい
る。なお同図において、記号「Ｌｌ」はスペースを示す
。

ところで形態素解析部１８では、前編集部１４から入力
される英文をまず、翻訳単位である文に分割する。その
際、スペルの誤りや未登録語の検出を行なう０文単位に
辞書１８を索引し、各構成要素の辞書情報をフェッチす
る。それらの辞書情報に従って各種のまとめあげ処理を
行なう。

形態素解析部１Ｂにて行なわれるブロックについてのま
とめあげ処理のフローを第３図に示す、まず、１つの英
語文の読出し位置を示す位置ポインタを先頭にセットす
る　（１００）、先頭位置とは、先頭の語ではなく、そ
の直前の（仮想的な）文頭を意味する。その位置で単語
取出し処理１０１を実行する。第４図に示すように、単
語取出し処理１０１では、文の終了でないかぎり（１１
０）、位置を１つ進めて単語を取り出しく１１１）、そ
の単語について辞書１８を検索して（１１２）、単語情
報を書き出す（１１３）。

こうして単語取出し処理１０１で単語情報が取り出され
ると、ブロックの先頭、終了条件テーブル３８を参照し
、先頭条件にマツチするものがあるか否かを判定する　
（１０２）、こうして、先頭条件にマツチするものが検
出されるまで、これらのステップ１０１および１０２を
繰り返す。

先頭条件にマツチすると、次の単語に続いて必要な数だ
け単語を順次取り出し、ブロックの先頭条件との一致を
照合する　（１０４）、その際、必要ならば、それぞれ
の語について辞書を検索する。なお、位置のポインタは
歩進させない。

ステップ１０４でブロックの先頭条件にマツチすると、
その先頭条件についてのブロック終了条件に合致する語
を探す（１０５）、終了条件に合致するものが見つかる
までステップ１０４〜１０Ｂを循環する。終了条件に一
致すると（１０Ｂ）、その語までをブロックと認定し、
ブロックの書出しを行なう（１０７）、より詳細には、
処理１０３で歩進を停止させた位置のポインタの示す語
の位ｔをブロックの先頭位置とし、それ以降で最初に出
現する終了条件を満たす語の位置をそのブロックの終了
位置とする。

このようなブロック認識の結果、ｉ７図に例示するよう
に、英文中にたとえばｒ、、、、接続詞８０．」があれ
ば、文頭から「、」の前までを１つのブロック、「、接
続詞」から文末までを他の１つのブロックとして認識す
る。同図において［」内が１つのブロックを示している
。なお「、」を含まない位置からブロックとしてもよい
、また、句読点の類は、ブロックのもつ情報として構文
解析の対象からはずしてもよい。

同様に、たとえばｒ、、、、関係詞、、、、Ｊがあれば
、「、関係詞、、、、Ｊを１つのブロックとして認識す
る。ブロックは、勿論入れ子にすることもあり得る。た
とえば第８図に示すように、英文が「（文頭）　　、、
、、接続詞００．、関係詞、、、、、、、　（文末）」
のような構成であると、「、接続詞」から文末までが１
つのブロックＢＬＩ〜ＢＬＩを形成し、その中に「、関
係詞、、、、Ｊが他のブロックＢＬ２〜ＢＬ２として包
含されている。

このように形７Ｂ素解析部１６では、文の形態上および
語朶上の特徴を識別して構文上のまとまりをブロックと
して判別する。なお形態素解析部１８では、このような
ブロックの認識の他に、たとえば固有名詞、派生語、未
知語、省略語、数、時の表現、ハイフン語、アポストロ
フィ「′」なとの処理や、同格の推定、付加疑問の処理
などの様々な処理を行なって、形態素解析データを作成
する。

こうして形態素解析された英文は、その解析情報ととも
に構文解析１部２０へ転送される。その出力データの例
を第９図に示す、これは、英文Ｉ　５ａｉｄ、　”Ｗｈ
ｉｔｅ　Ｈｏｕｓｅ　ｉＳｎ’ｔ　ｗｂｉｔｅ、”が入
力部１０から入力され、形態素解析部１６で解析された
結果を示す。ブロック１が語位置雲４で開始して位１ｔ
１０で終了し、同様にブロック２が位置首５で開始して
位置雪６で終了している。つまり、”Ｗｂ　ｉ　ｔｅＨ
ｏｕｓｅ　ｉＳｎ’ｔ　ｖｈｉｔｅ、’のブロックの中
に他のブロックＷｈｉｔｅ　Ｈｏｕｓｅが入れ子になっ
ている。英文データは、このようなブロックの情報とと
もに、単語辞書１８を索引した単語情報が付加されて形
Ｔｆｊ素解析部１６から構文解析工部２０へ送出される
。なお、Ｗｈｉｔｅ　Ｈｏｕｓｅはユニットとして扱っ
てもよい。

構文解析１部２０では、解析ルールファイル３日に格納
されている文脈自由文法ルールを適用して英文の表層構
造を解析し、可能性のあるすべての構文木を見つけだす
。その際、ブロックが含まれていれば前述の部分バーズ
を行ない、局所的解析を優先させる。これによって、解
析の効率と正確さが向上する。

より詳細には、ブロックの位置情報からブロックの包含
関係を作成する。そこで、最も内側のブロー２りをバー
ズする。パージングを終了したブロックはユニー／　）
とみなしてその内側はそれ以上処理しない。こうして順
次、外側のブロックヘバーズ範囲を拡大してゆく。最後
に文全体をバーズする。なおバーズは、ｃｆｇ文法ルー
ルに基づき、英文においテｂｏｔｔｏｍ−ｕｐ、　ｒｉ
ｇｈｔ−ｔｏ−１ｅｆｔニ行なう０文法ルールの許す可
使性をすべて保持した形でバーズする。

このようなパージング処理フローの例を第１０図に示す
。まず、構文解析１部２０に供給された英文データに基
づき、１つの文について構文上のまとまりをすべてブロ
ックとして認識する　（１２０）、このまとめ方は、第
７図に例示した通りである。そこで、こうしたまとまり
の中にブロックが存在しなければ（１２１）、その文を
解析しく１２５）、１つの文のシンボルとしてまとまっ
たものだけを選択してその文の解析を終了する　（１２
Ｅｌ）。なお、処理１２５および１２Ｂは、文全体を１
つのブロックとして扱う処理方式をとれば、処理１２１
〜１２４に含まれるので、不要である。

ブロックが存在すると、まず、最も内側のブロックから
解析する　（１２２）、第８図の例では、まずブロック
ＢＬ２〜ＢＬ２の内部を解析する。この解析によって一
般に様々な解が得られるが、それらの解のうち、１つの
ｃｆｇシンボルとしてまとまったもののみを選択する　
（１２３）、そこで、このように選択したものを単一の
まとまりとして扱うように処理する　（１２４）、この
処理１２１〜１２４を順次繰り返す。

こうして、第８図の例では、まずブロックＢＬ２〜ＢＬ
２の内部が解析され１次にブロックＢＬＩ〜ＢＬＩの内
部が解析される。その際、ブロックＢＬ２〜ＢＬ２は単
一の単語と同等に扱われ、それに含まれる構成要素のそ
れぞれについての解析は行なわない。

こうして構文上のまとまりと従属関係を規定するデータ
が得られると、これは構文解析１１部２２に送られる。

このデータは、前述した構文木の形で容易に理解される
。これは、さらに構造変換部２４で日本語文の構造に変
換され、訳文生成部２６では、それに含まれる各ノード
ごとに訳文を生成してゆく、構造木におけるノードの処
理は、ｔｏｐ−ｄｏｗｎ、　ｌｅｆｔ−ｔｏ−ｒｉｇｈ
ｔで行なう。

こうして生成された訳文は、後編集部３０で後処理が行
なわれ、操作表示部４０に可視表示されるとともに、出
力ｆｌ１３２にて日本文３４としてたとえば印字出力さ
れる。

このように本実施例によれば、英文の形態上および語少
上の特徴を識別して構文上のまとまりをブロックとして
判別する。そこで文脈自由文法ルールを適用して英文の
表層構造を解析し、可能性のあるすべての構文木を見つ
けだし、その際、ブロックが含まれていれば部分バーズ
を行なって局所的解析を優先させる。これによって、無
駄な解の数を減らし、解析の効率効率が向上するととも
に、解析結果がより確からしいものとなる。

第１１図を参照すると、本発明の他の実施例が示されて
いる。同実施例では、構文上のまとまりや熟語に関する
指定情報を入力部ｌＯまたは操作表示部４０かも入力す
ると、構文解析を行なうまえに、この指定情報に矛盾す
る辞書情報、たとえば熟語についての辞書情報や、まと
めあげ方、たとえば固有名詞などのまとめあげ方を許容
しないようにすることによって、より正しい解析結果を
得ることができるものである。

この目的のため本実施例では、前編集部１４と形７態素
解析部１６の間にユーザブロック解析部２００が設けら
れている。その関連部分をまとめて示したのが第１２図
である。これらの図において、第１図に示す構成要素と
同様の要素は同じ参照符号で示されている。

形態素解析部１Ｂでは、形態素解析を行なう際、前編集
からの情報は優先して扱う、たとえば、固有名詞の処理
は次の２段階にて行なわれる。まず、入力文字列におけ
る固有名詞を認定する。これは、辞書１８に登録されて
いる語の場合は、その形態素起動情報に固有名詞が表示
されていることによる。また辞書１８に登録されていな
い語の場合は、先頭の１文字が英字の大文字であること
による。たとえば、”Ｊｏｈｎ″やＵ、Ｓ、”などであ
る。

次に、固有名詞連は、まとめあげを行なって全体を単一
の固有名詞とする。辞書情報から固有名詞であると認定
されると、次の辞書引き単位をみてこれも固有名詞であ
るときは、全体をまとめて１つの固有名詞に合成する。

たとえば”Ｍ、　Ｗｅｂｅｒ”は全体で１つの固有名詞
として解析される。この解析結果は、局所解析における
固有名詞を含んだ慣用表現のまとめげ候補となる。

また、ハイフン付きの語は、それが辞書１８に登録され
ていない未登録語であると、全体を１つのブロックとし
てブロック情報を送り、ブロックのなかは各構成要素ご
とに辞書引きを行なってそのユニット情報をそれぞれ出
す。そのなかにハイフンは含めない。この辞書引きにお
ける未登録語については、未知語処理のなかの語尾推定
処理を行なう。

次に必要な局所解析を行なう、これは１局所解析ルール
に基づいて各解析単位の形態素起動情報から起動される
連続した解析単位を１つの解析単位にまとめあげる。た
とえば、通貨記号と数字”￥１，０００”はｒ　１ｏｏ
ｏ円」に、また数字と単位”１．５ｋｍ″は「１．５キ
ロメートル」にまとめあげる。時の表現については、”
１１：３０　ａ、ｍ、″は「午前１１時３０分」に、”
Ｏｃｔ、　１Ｂ”はｒｌＯ月１８日」としてまとめあげ
る。

たとえば、称号による氏名のまとめあげを行なう。たと
えば“Ｍｒ、　Ｂｒｏｗｎ″はｒＢｒｏｗｎ氏」にまと
められる。また、地名の一部になる語もまとめあげられ
る。たとえば”Ｌａｋｅ　Ｂｉｗａ”は「琵琶湖」にま
とめあげる。同様に団体名の一部になる語もまとめられ
る。たとえば”Ｙａｌｅ　Ｕｎｉｖｅｒｓｉｔｙ”はｒ
Ｙａｌｅ大学」として解析される。

本装置の操作者は、入力文中におけるユニットおよびブ
ロックの範囲を指定することができる。

本実施例では、ユニットまたはブロックについてし始点
　ユニットまたはブロックである旨の表示　終点］なる記号形式で指定される。このような操作者による指
定ブロックおよびユニットは、以下これを総称して「ユ
ーザブロック」と称するが、入力された原文に現われな
いような文字の組合せで指定される。好ましくは、２な
いし３個の文字からなる。たとえば、ユニットは「＼（
Ｕ　　＼〕」なるフォーマットで、またブロックは「＼（Ｂ　　＼）」なるフォーマットでそれぞれ指定す
る。これらは、前編集部１４にて入力文すなわち英文テ
キスト中に埋め込まれる。これらの範囲と交差する形で
のユニットまたはブロックのまとめあげがあっても、そ
れらは破棄する。

たとえば”、、、ａｔ　Ｎｅｗ　Ｙｏｒｋ　Ｔｏｍ　Ｂ
ｒｏｗｎ　ｗａｓ、、、′なる入力文では、通常のまと
めあげが行なわれると、大文字で開始する語の連続が固
有名詞連としてまとめあげられ、固有名詞連”Ｎｅｗ　
Ｙｏｒｋ　ＴｏｌｌＢｒｏｗｎ”が認識される。しかし
ユーザブロックとして「＼（Ｂ　ａｔ　Ｎｅｗ　Ｙｏｒ
ｋ＼）」が指定されると、固有名詞処理によるこのまと
めあげ”Ｎｅｖ、Ｙｏｒｋ　ＴｏｍＢｒｏｗｎ“を破棄
し、ユーザブロックの指定”ａｔ　ＮｅｗＹｏｒｋ”と
他の固有名詞処理によるまとめあげ“ＴｏｍＢｒｏｗｎ
”が最終的に選択される。

このようなユーザブロックの処理は、第１３図に例示す
る処理フローに従ってユーザブロック処理部２００にて
行なわれる。まず、位置を先頭にセットシ１位置記号ｎ
に「０」をセットする　（３００）。

位置記号ｎをインクリメントしく３０２）　、さらに歩
進させて単語を取り出す（３０２）。文の終了でなけれ
ば（３０３）　、ブロックの先頭か（３００終ｒか（３
０５）を判別する。ブロックの先頭であればブロック先
順位との表に記号ｎの値を記録する　（３０Ｂ）、ブロ
ックの末尾であればブロック終了位置の表に記号ｎ−１
の値を記録する　（３０７Ｊ、これを文の終了まで行な
う　（３０３）。

文の終了であると、ブロック先頭位置の表から最大のイ
１のものを取り出し、終了位置の表から最小の値のもの
を取り出す（３０Ｂ）、その際、先頭位置の表に要素が
なくなると、文の先順位ｔ「１」をかえす。同様に、終
了位置の表に要素がなくなると、文の終了位置のｒｎＪ
をかえす０次に、２つの値をそれぞれ開始位置および終
了位置とするブロックを記録しく３１０）、これら２つ
の値をそれぞれの表から削除する　（３１１）、雨衣に
ついてこれを行なう　（３０９）。

ユーザブロックが指定された入力文字列を形態素解析部
１６で処理する際の処理フローの例を第１４Ａ図および
第１４Ｂ図に示す、第１４Ａ図は１Ｔｓ３図のステップ
１００から１Ｏｆ３までと同じでよい＊Ｅｉ１１４Ｂ図
は、ステップ１０Ｂと１０７の間に３つのステップ３２
０〜３２２が挿入されている点が第３図のフローと相違
する。ブロックの終了条件があると（４ｏｅ）、終了条
件にマツチした先頭条件の先頭位置をＰｓとし、終了条
件の終了位置をＰｅとする。そこで、Ｐｓ＜開始≦Ｐｅ
となる開始位置を有し、かつ終了＞Ｐｅとなるブロック
があれば（３２０）、単語取出し処理１０１に戻る。そ
のようなブロックがなければ、Ｐｓ≦開始＜Ｐｅとなり
、かつ開始＜Ｐｓとなるブロックがあれば（３２１）、
ｆｔｉ語取出し処理１０１に戻る。そのようなブロック
がなければ、Ｐｓ＝開始、Ｐｅ＝終了となるブロックの
存否をみる　（３２２）、そのようなブロックが存在し
ないと単語取出し処理１０１に戻る。そのようなブロッ
クがあればブロックの書出し１０７に移行する。

このように本実施例では、構文上のまとまりや熟語に関
する指定情報を入力すると、構文解析を行なうまえに、
この指定情報に矛盾する辞書情報やまとめあげ方を許容
しないようにすることによって、より正しい解析結果を
得ることができる。

第１５図を参照すると１本発明のさらに他の実施例が示
されている。同実施例では、引用符やかっこを語句や文
のまとまりを指示している記号と考え、構文上のまとま
りを形成する位置情報として扱うものである。これによ
って、引用符やかっこそれ目体は構文解析の対象からは
ずし、そのうえでまとめあげたまとまりのもつ情報とす
ることによって、解析処理の煩雑さを避けている。また
。

後の翻訳処理においても、右かっこや左かっこなどの記
号、すなわち「引用符号類」と、実際のかっこの中の要
素との位置関係を考慮せずに、構造変換を行なうことが
できる。したがって構成が簡略化される。

形態素解析では、入力文テキストの整形が行なわれるが
、そのなかでブロックの認定も行なわれる０本実施例で
は、引用符はｒＱＪで、またかっこは「Ｐ」で指定され
る。たとえば。

°９１０．′は＼（Ｑ’　、、、、＼）′で、“１０９
．”は＼（Ｑ“００５．＼）″で、（、、、、）は（＼
（ｐ、、、−＼））で、＜、、、、＞はく＼（ｐ、、、
、＼）〉で、ｔ、、、ｌは（＼（Ｐ、、、、＼））で、
またり、、、、Ｊは［＼（Ｐ、、、、＼）］でそれぞれ
規定される。このような形でブロックの認定が行なわれ
る。

ブロックの開始記号、終了記号はそれぞれ、当該記号に
よるブロックが閉じているか開いているかの文脈下での
み適用される。開始記号の直前と終了記号の直後は英数
字以外でなければならない、これらの該出しない同記号
は単なるシンボルとして扱われる０以上のブロックは互
いに交差しないことを条件にネストすることもある。ま
た、ブロックの中で文末と認定された場合、閉じていな
いブロックに対して終了の制御コードを順に補い、次の
文に対しては、開始の制御コードを補う、また、文ブロ
ックに対してはブロックインの状態というフラグを送る
。この処理は文末認定処理のあとで行なわれる。

この目的のため、第１５図に示す実施例では、形態素解
析部１６と構文解析１部２０の間に引用符号順処理部２
１０が設けられている。その関連部分をまとめて示した
のが第１６図である。これらの図において、第１図に示
す構成要素と同様の要素は同じ参照符号で示されている
。

引用符号順処理部２１０は、形態素解析部１Ｂから入力
英文とともに形態素解析結果を受け、第１８図に示すよ
うに、解析情報中のブロックの情報に付加情報として引
用符号類に関する情報を付加する機能を有する。その際
、引用符号類口体は単語の情報から削除する。付加情報
は、ブロック作成の際には初期値としてｒなし」がセッ
トされる。

引用符号順処理部２１０は、入力文中にブロックが存在
すると、まず、最も内側のブロックから解析する。この
解析によって一般に様々な解が得られるが、それらの解
のうち、１つのｃｆｇシンボルとしてまとまったものの
みを選択する。このｃｆｇシンボルを保存するとともに
、それに対応する付加情報にはブロックについての情報
を記入する。

そこで、このように選択したものを単一のまとまりとし
て扱うように処理する。

このような引用符号類の処理は、第１７Ａ図および第１
７Ｂ図に例示する処理フローに従って引用符号順処理部
２１０にて行なわれる。まず、ポインタを先頭ブロック
にセットしく３３０）　、ブロックの先頭の位この語を
チェックする　（３３２）、これが引用符号類でなけれ
ばポインタを歩進させて（３３４）次の語に移る。

引用符号類であれば、ブロックの付加情報にその引用符
号類を書き込み（３３５）　、ブロックの先頭位置の語
を単語の情報から削除する　（３３７）。ついで、ブロ
ック終了位置の語をチェックしく３３７）　、これが引
用符号類であればブロックの終了位置の語を単語の情報
から削除する　（３３９）、そこでポインタを歩進させ
て（３３４）次の語に移る。これを最終位置の語まで実
行する　（３３２）。

このような引用符号類の処理を、第１図に示す実施例に
ついて説明した入力文例１５ａｉｄ、”Ｗｈ　ｉ　ｔｅ
Ｈｏｕｓｅ　ｉｓｎ’ｔ　ｗｈｉｔｅ、”について実行
した解析結果の例を第１９図に示す、形態素解析部１６
から引用符号順処理部２１０には、第１図の実施例の場
合と同様な内容の第９図に示す解析結果データが転送さ
れる。引用符号順処理部２１０では、これに付加情報を
加えるが、その初期値は、第１８図に示すようにｒなし
」に設定される。

引用符号順処理部２１０では、この入力文に含まれる引
用符号類についてステップ３３５〜３３９の処理を実行
する。その結果、第１９図に示すように、ブロック１の
付加情報として引用符「”」が書き込まれる。これとと
もに、単語の情報から引用符「″」に関するデータ、す
なわち語位置雲４および雲１０に関する項目のデータが
削除される。構文解析１部２０へは、第１９図に示す形
で形態素解析結果のデータが出力される。

このように本実施例では、引用符号類を語句や文のまと
まりを指示している記号として認識し、構文上のまとま
りを形成する位置情報として扱っている。これによって
、引用符号類それ自体は構文解析の対象からはずしたう
えで、まとめあげたまとまりのもつ情報とすることによ
って、解析処理の煩雑さを避けている。また、後の翻訳
処理においても、引用符号類と引用符号類で実際にくく
られた中の要素との位置関係を考慮せずに構造変換を行
なうことができる。したがって構成が簡略化される。

効　　果本発明によれば、所定の言語の文の形態上ないしは語堂
上の特徴を識別して構文上のま゛とまりを判別する。こ
れに文脈自由文法ルールを適用して文の表層構造を解析
し、可使性のあるすべての構文木を見つけだす、その際
、ブロックが含まれていれば部分バーズを行なって局所
的解析を優先させる。これによって、無駄な解の生成を
最小化し、解析の効率と正確さを向上させている。

また、構文上のまとまりや熟語に関する指定情報を入力
すると、構文解析を行なうまえに、この指定情報に矛盾
する辞書情報やまとめあげ方を許さないようにすること
によって、より正しい解析結果を得ることができる。

さらに、引用符号類を語句や文のまとまりを指示してい
る記号として認識し、構文上のまとまりを形成する位置
情報として扱うことによって、引用符号類それ自体を構
文解析の対象からはずし、まとまりのもつ情報とするこ
とによって、解析処理の煩雑さを回避している。また、
後の翻訳処理でも、引用符号類とその中の要素との位置
関係を考慮せずに構造変換を行なうことができる。した
がって構成が簡略化される。

【図面の簡単な説明】

第１図は、本発明による言語解析装置を英日自動翻訳装
置に適用した実施例の全体構成を示す機能ブロック図、第２図は、第１図に示す実施例について、入力英文の構
文上のまとまりをブロックとして認識する機能をまとめ
た機能ブロック図、第３図は、入力英文についてブロックのまとめあげ処理
のフローの例を示すフロー図、第４図は、第３図の処理
フローにおける中詰取出し処理の詳細を示すフロー図、第５図は、同実施例における単語辞書に格納されている
英語の単語や熟語についての辞書情報の例を示す説明図
、第６図は、同実施例における解析ルールファイルに格納
されているブロック先頭条件および終了条件のテーブル
データの例を示す説明図、第７図は、同実施例における
構文上のまとめあげの例を示す説明図、第８図は、ブロックのまとめあげの例を示す説明図、第９図は、ブロックにまとめあげた英文のブロック情報
および単語情報の例を示す説明図、第１Ｏ図は、同実施
例における構文解析部で実行される構文解析処理の例を
示すフロー図、第１１図は、本発明による言語解析装置
の他の実施例の全体構成を示す第１図と同様の機能ブロ
ック図。第１２図は、第１１図に示す実施例について、入力英文
のユーザブロックを解析するＪａ　ｆＥをまとめた第２
図と同様のａ能ブロック図、第１３図は、入力英文についてユーザブロックの解析処
理のフローの例を示すフロー図、第１４Ａ図および第１
４Ｂ図は、入力英文についてユーザブロックのまとめあ
げ処理のフローの例を示す第３図と同様のフロー図、第１５図は５本発明による言語解析装置のさらに他の実
施例の全体構成を示す第１図と同様の機能ブロー２り図
、第１６図は、第１５図に示す実施例について、入力英文
の引用符号類を解析する機能をまとめた第２図と同様の
機能ブロック図、第１７Ａ図および第１７Ｂ図は、入力英文について引用
符号類の解析処理のフローの例を示すフロー図。第１８図および第１９図は、引用符号類を含む英文をブ
ロックにまとめあげたブロック情報および単語情報の例
を示す第９図と同様の説明図である。開部分の符号の説明１０、、、入力部１Ｂ、、、形態素解析部１８、、、単語辞書２０．２２．　、構文解析部２４、、、構造変換部２Ｂ、、、訳文生成部３２、、、出力部３Ｅｉ、、、解析ルール３８、、、制御部４０、、、操作表示部２００、、、ユーザブロック解析部２１０、、、引用符号順処理部

Claims

【特許請求の範囲】１、入力された所定の言語の文について形態素解析を行
なう第１の解析手段と、第１の解析手段からの形態素解析結果をもとに前記言語
の文について構文解析を行なう第２の解析手段と、第１および第２の解析手段の解析に使用する該言語の辞
書データを格納した辞書手段と、該辞書手段を索引して第１および第２の解析手段に解析
を行なわせる制御手段とを有し、第１の解析手段は、前記辞書手段を索引し、前記入力さ
れた言語の文の形態上の特徴を識別して構文上のまとま
りを判別し、第２の解析手段は、文法ルールを適用して該言語の文の
表層構造を解析し該文に含まれる構成要素の可能性のあ
る従属関係を解析する際、該文に前記まとまりが含まれ
ていれば該まとまりについて他に優先して解析を行なう
ことを特徴とする言語解析装置。２、入力された所定の言語の文について形態素解析を行
なう第１の解析手段と、第１の解析手段からの形態素解析結果をもとに前記言語
の文について構文解析を行なう第２の解析手段と、第１および第２の解析手段の解析に使用する該言語の辞
書データを格納した辞書手段と、前記言語の文における構文上のまとまりを指示する指示
手段と、前記辞書手段を索引して第１および第２の解析手段に解
析を行なわせる制御手段とを有し、第１の解析手段は、
前記辞書手段を索引し、前記入力された言語の文の形態
上の特徴を識別して構文上のまとまりを判別し、第２の解析手段は、文法ルールを適用して該言語の文の
表層構造を解析し該文に含まれる構成要素の可能性のあ
る従属関係を解析する際、該文に前記まとまりが含まれ
ていれば該まとまりについて他に優先して解析を行ない
、第１の解析手段は、前記言語の文について形態素解析を
行なう際、前記指示手段によって前記構文上のまとまり
が指示されると、該指示されたまとまりを他に優先させ
る形態素解析情報を第２の解析手段に与えることを特徴
とする言語解析装置。３、入力された所定の言語の文について形態素解析を行
なう第１の解析手段と、第１の解析手段からの形態素解析結果をもとに前記言語
の文について構文解析を行なう第２の解析手段と、第１および第２の解析手段の解析に使用する該言語の辞
書データを格納した辞書手段と、前記辞書手段を索引して第１および第２の解析手段に解
析を行なわせる制御手段とを有し、第１の解析手段は、
前記辞書手段を索引し、前記入力された言語の文の形態
上の特徴を識別して構文上のまとまりを判別し、第２の解析手段は、文法ルールを適用して該言語の文の
表層構造を解析し該文に含まれる構成要素の可能性のあ
る従属関係を解析する際、該文に前記まとまりが含まれ
ていれば該まとまりについて他に優先して解析を行ない
、第１の解析手段は、前記言語の文について形態素解析を
行なう際、該言語の文に含まれる引用符号類を識別し、
該識別した引用符号類から構文上のまとまりを形成し、
該形成されたまとまりを示す形態素解析情報を第２の解
析手段に与え、第２の解析手段は、前記識別された引用
符号類を構文解析の対象から除外することを特徴とする
言語解析装置。