JPS62262178A - 言語解析装置 - Google Patents

言語解析装置

Info

Publication number
JPS62262178A
JPS62262178A JP61103845A JP10384586A JPS62262178A JP S62262178 A JPS62262178 A JP S62262178A JP 61103845 A JP61103845 A JP 61103845A JP 10384586 A JP10384586 A JP 10384586A JP S62262178 A JPS62262178 A JP S62262178A
Authority
JP
Japan
Prior art keywords
analysis
word
dependency
speech
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61103845A
Other languages
English (en)
Inventor
Hideki Hirakawa
秀樹 平川
Masaie Amano
天野 真家
Hiromi Saito
裕美 斎藤
Shigemi Nakazato
茂美 中里
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP61103845A priority Critical patent/JPS62262178A/ja
Publication of JPS62262178A publication Critical patent/JPS62262178A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [発明の目的] (産業上の利用分野) 本発明は自然言語で記述された文章を、対応する解析構
造に変換する言語解析装置に関する。
(従来の技術) 日本語の文を入力し、それを英語の文に翻訳したり、デ
ータベースのアクセスをしたりする(QAシステムにお
いて)場合、すなわち計算機により自然言語の処理を行
う場合、入力文の解析が必要である。この言語解析の一
般的な方法は、単語の品詞、意味等を格納した単語辞書
と、文の構造を解析するための規則を格納した文法辞書
を設け、入力文を単語辞書を参照して単語単位に分割し
、しかる後にこの単語列に対して文法辞書を参照して文
の解析構造を生成するものである。この解析構造の生成
に際しては、単語の品詞に関する構文的な情報のみでな
く、単語の意味マーカを用いた意味的な情報も同時に利
用する方法が知られている。例えば富士通(株)の提案
している日本語解析システムでは、日本語文の単語間の
関係について先ず構文情報を用いて解析構造を生成する
と同時に意味情報を用いて意味的な関係の正当性をチェ
ックする。しかしながらこの方法では成る文に対しては
正しく解析できるが、別の文に対しては誤った解析を施
してしまうという欠点があった。例えば、今 「太部 は  正量 と  本  を  読む・・・・
・・・・・■ という日本語文に対し、「(名詞+助詞)の文節は動詞
へ係る。又、(並列助詞「と」)を間にはさんだ双方の
名詞は結び付けられる」という一般的な文法規則(構文
情報)を適用する事により、先ず第7図に示す解析構造
が生成される。これでは「正量と本」が「読む」の対象
物となり意味的に正しくない。これに対し第13図に示
す共起関係表(意味情報)を合せて用いる事により「並
列助詞「と」で結び付けられた意味マーカ(人)と(物
)には係り受けが成立しない」ことが判明し、「正量」
と「本」の係り受けが切断され、「正量」は「読む」へ
結び付けられ(〜といっしょに)と解析される。この方
式を用いれば上記例文の場合には正しく解析できるが、
例えば 「太部 は 正量 と 本 を 知っている」・・・・
・・・・・■ という文の場合には、■と■が構文的に同一の解析構造
となり、意味的にも同一のチェックが施され、「正量」
は「知っている」に結びつけられ(、〜といっしょに)
と解析される。しかしこれは誤りで「正量と本」は「知
っている」の対象物とするのが正しい。この方式の問題
点は、「正量」という人の名詞と「本」という物の名詞
が並列関係にある意味的確からしさと、「正量と」が動
詞[読む]或いは「知っている」と結び付いて「正量と
いっしょに」と解釈する場合の意味的確からしさの比較
が夫々の場合でできない点にある。これは構文解析と意
味解析を同時に行う方式であるため、°意味情報の参照
が画一的になる事から由来する。
(発明が解決しようとする問題点) このように従来の言語解析装置は、構文解析と意味解析
を同時に行うものであるため、解析結果に内在する複数
の係り受けに対して、夫々を評価比較し、最も妥当なも
のを選択する機能が欠けていた。
そこで本発明は構文解析と意味解析を分離する。
この意味解析では、構文解析結果に対して内在する係り
受けを見い出し、夫々の係り受けに対して評価比較して
最も妥当な係、・り受けを選択する事により、いかなる
文についても正しい解析結果を得ることを目的とする。
[発明の構成] (問題点を解決するための手段) 本発明は、自然言語で記述された文章を入力するための
入力手段と、この入力手段より入力された文章に対し文
1節等の処理単位を抽出する処理単位抽出手段と、自然
言語で用いられる単語に対応し=て品詞基、意味マーカ
、評価データ及び係りルールを格納した単語辞書と、処
理単位を構成する品詞の接続条件を記述した接続条件テ
ーブルと、前記処理単位抽出手段より抽出された処理単
位に対し前記単語辞書を検索して単語単位に分割すると
共に夫々に品詞基、意味マ〒力等を付随させた単語列を
生成し、この単語列に対して前記接続条件テーブルを参
照して品詞の接続関係を検定する辞書検索手段と、処理
単位中の品詞の係り受けに関する規則を格納した構文解
析規則辞書と、前記辞書検索手段により正しいと検定さ
れた単語列に対し、品詞基に基いて前記構文解析規則辞
書を参照す°ることにより単語間の係り受け関係を表し
た解析構造を生成する構文解析手段と、この構文解析手
段より生成された解析構造を構成する各単語に対しその
品詞及び係りルールに従い内在していた係り受け関係を
見出し新たに設定する手段と、この手段により新たに設
定された係り受け及びこれに対応する前記解析構造の係
り受けに対し夫々を構成する単語の意味マーカ及び評価
データを用いて得点評価を行いその高い係り受けを選択
する手段とを具備したことを特徴とするものである。
(作用) 本発明では、予め単語辞書中に品詞基、意味マーカと共
に係り受けの発見に用いる係りルール、得点付けに用い
る評価データを格納しておく。そして入力文に対して辞
書引きを行い単語単位に分割すると共に夫々の単語につ
いて上記データを付属させた単語列を生成する。この単
語列に対して先ず構文解析規則を適用して、文法的な解
析構造を生成する。この構文解析後に行う意味解析にお
いて、文法的な解析構造中の単語の品詞基及び係りルー
ルに従い内在された係り受けを見い出す。
この見い出された係り受け及び文法的な解析構造におい
て生成された係り受けに対してその単語の意味マーカ及
び評価データを用いて夫々の評価比較を行い、最も評価
の高い係り受けを選択するようにしている。
(実施例) 以下、本発明の一実施例を図面を参照して説明する。第
1図は本発明の一実施例を示すブロック図である。この
第1図において、1はキーボード等からなり言語文章を
入力するための言語入力部、2はこの言語入力部1から
の言語文章に対応した文字コード列から文9節1句等の
所定の処理単位を抽出する処理単位抽出部、3は言語文
に対応した文字コード列から文1節1句等を抽出するた
めの規則を格納したもので処理単位抽出部2が参照すべ
き単位抽出規則、4は言語文に用いられる単語をその品
詞基、意味マーカ、及び必要に応じて係りルール、評価
データ(これらについては後述する)と共に格納した単
語辞書、5は処理単位を構成する単語列に対し、その品
詞の接続条件を記述した接続条件テーブル、6は文9句
等の処理単位に対し単語辞書4を検索して単語単位に分
割し夫々の単語に品詞基、意味マーカ等を付随させた単
語列を形成し、更にこの単語列の品詞に対して接続条件
テーブル5を参照して品詞の接続条件を検定し文法的に
正しい単語列を出力する辞書検索部、7は単語列を構成
する夫々の品詞に対し、それらの係り受け関係をネット
ワーク状で記述した構文解析規則、8は辞書検索部6よ
り出力された単語列に対し構文解析規則7を参照して単
語間の係り受け関係を表わした解析構造を生成する構文
解析部、9は構文解析部8より生成された解析構造に対
しその単語に付随した品詞基、係りルールを用いて内在
された係り受けを発見し、これらの係り受けに対して意
味マーカ、評価データを用いて夫々評価比較して最も正
当なものを選ぶ解釈変換部、10はこの解釈変換部9よ
り出力された最も正しいと思われる解析構造結果である
次に本発明の一実施例の動作について詳細に説明する。
オペレータが入力部1上のキーボードより入力した自然
言語文章(以後は日本語文とする)は、この入力部1よ
りカナ漢字コード列として出力される。処理単位抽出部
2はこのカナ漢字コード列に対し、次の様な規則に従っ
て文等の処理単位に分割する。
(:)句読点“。″は文の区切りであり、1つの、処理
単位として出力する。
(i;)“数字° “ピリオド″ “文字列”改行。
はタイトルであり、1つの処理単位として出力する。
これらの規則は単位抽出規則3において第2図に示すよ
うな条件部とアクション部(マツチングバタンとして記
述した条件部とその時の処理単位抽出部の動作を表わし
たアクション部)として記述される。第2図の条件部に
おいて°#*°は任意の文字列に、“#N°は任意の数
字にマツチする特殊記号である。この処理単位抽出部2
によりカナ漢字コード列は文、タイトル等の処理単位に
分割され、辞書検索部6へ供給される。
辞書検索部6では処理単位抽出部2から渡されるコード
列に対し、その先頭文字コードから単語辞書4を検索し
ての辞書引きを行う。第3図はこの単語辞書の構成図で
あり、単語に対応して品詞名、意味マーカ、及び場合に
より係りルール、評価データ(これらについては後述す
る)が格納されている。第4図は辞書検索部6の動作を
示すフローチャートであり、第5図は辞書検索結果の様
子を示す図である。辞書検索部は先ず文字コード列に対
し文字ポインタを文頭にセットする(第4図41)。文
字ポインタは第5図51.52に示すように文字コード
列中の位置を示すものであり、ここから始まる単語につ
いて辞書検索が行われる(第4図42)。辞書検索では
マツチする全ての単語をその品詞名、意味マーカ等と共
にセットする。これらの単語に対し、その品詞が動詞、
形容詞等の用言である場合にはその活用形が正しいが否
か判定される(第4図44.45)。次に単語間におけ
るその品詞の接続検定が行われ、接続不可能な品詞が隣
接している場合にはその単語が棄てられる(第4図46
.47)。この接続検定には接続条件テーブル5が用い
られる。このテーブルには品詞列における組み合せの可
否が記述されている。(例えば、名詞十接尾−〇1名詞
+終助詞−×)こうして接続条件を満たした単語は、正
しい辞書検索結果として、その内部レジスタに登録され
(第4図48)、続いて文字列ポイントを辞書検索結果 ントしく第4図49)、文字コード列の全てについて辞
書検索結果が得られるまで続行する(第4図50)。
例えば第5図に示すように、カナ漢字系列「電話などの
ような」に対して文字列ポインタは、先ず「電」の位置
51にセットされる。そして辞書検索の結果、「電話(
名詞)」が得られるがこれは名詞であるため活用判定は
行われず、又先頭の単語であるため接続検定も行われず
、辞書引き結果として登録される。次に文字列ポインタ
は「な」の位置52にセットされて、辞書検索の結果「
など(接尾)」、「な(終助詞)」の2つが得られる。
しかしながら(名詞)+(終助詞)は接続否と検定され
て「な」が廃却され、「など」が正しい検索結果として
登録される。このようにして第5図に示すように、接続
検定で正しいとされた「電話(名詞)十など(接尾)十
の(格助詞)士ような(比状助動詞)」が最終的な辞書
検索結果として構文解析部7へ出力される。この際に、
夫々の単託(品詞名)には意味マーター、係りルール、
評価データ(これらは存在する場合のみ)が付随されて
出力される。
構文解析部8では、辞書検索結果(単語列)に対し構文
解析規則7を参照して解析構造を生成する。その手法と
しては、拡張遷移網文法やDCG(De fine c
lause Grdmmar)等を用いる事ができる。
第6図は拡張遷移網文法による文法規則の例である。こ
の文法は入力単語列に対してその末尾から先頭へ向って
規則(S、B格)を適用するようにネットワーク形式で
記述されている。第6図でrSJとラベル付けされたネ
ットワークは「述語終止形」すなわち動詞等の終止形の
前にrBr6Jすなわち格助詞十名詞の形をした文節が
結合されるという形になっている。例えば今、送られて
きた単語列が (以下未白) 「太部  が  正午  と 本     を     読む であるとすると、先ず第6図の「S」ネットワークを適
用して「読むJ=V+ となり、その以降の単語列には
「B格」のネットワーク(「S」ネット、ワークのpu
shでrBmjネットネットワーク)が適用されて、「
本をJ−eB、、r正午と」−B2.「太部がJ =B
3となる。ここで「太部が」「本を」については「S」
ネットワーク上に書かれた規則により動詞「読む」に結
合される。しかしながら「正午と」については「B格」
ネットワーク上に書かれた規則(並列助詞「と」は名詞
同志を結合する)により名詞「本を」に結合される。
これらの解析結果に基いて第7図に示すように、係り受
け構造を表現した解析構造が生成される。
この第7図に示す解析構造(一般的な構文解析規則を用
いたもの)では、「正午」と「本」が並列関係になって
おり、ともに「読む」の対象格となって意味的に正しく
ない。この解析構造ではこの係り受け以外に、「正午と
」が「読む」に結び付く係り受け、つまり「正午といっ
しょに」とする意味解釈が内在している。本発明におい
てこの構文解析と分離して行われる意味解析では、一般
的な解析構造に対して内在している係り受けを見つけ出
し、この係り受けと元の係り受けとを評価し比較して正
当なものを選択する。以下ではこの意味解析を行う解釈
変換部9について述べる。
第8図は解釈変換部の動作の処理フローチャートである
。先ず構文解析部8より受け取った解析構造に対し、そ
の下位ノードからアークを上方にたどり、係り先(上位
)ノードの品詞に対して係りルール(辞書検索で得られ
ている)を用いて係り受けの可能性にあるノードを見つ
ける。そしてそのノードに対してアークで接続する(第
8図81)。次に下位ノドからでている複数のアーク(
新たに見つけた係り受け及び解析構造に元からある係り
受け)に対し、得点付けを行う(第8図82)。このた
めにはノードが動詞であれば格バタンデータ、助詞であ
れば意味バタンデータ(これらも辞書検索で得られてい
る)を用い、これらと下位ノード(名詞)の意味マーカ
に基いて得点付けを行う。更に夫々のアークに付加され
た得点を比較し、最も高い得点のアークを選ぶ(第8図
83)。(格パターンデータと意味バタンデータを合せ
て評価データと云う)例えば1、第7・図に示「と」の
上位ノードとして「本」と「読む」が存在する。この場
合に「と」の係りルールを参照すると(この係りルール
は単語「と」に付随している)、第3図に示すように「
係り先(上位)ノードが名詞又は動詞であれば接続せよ
」とあることから、第9図に示すように「正午」ノード
から「読む」ノードへ新たにアークが接続される。次に
「正午」ノードからでている複数のアーク、つまり「正
午」から「と」アークで接続された「読む」、「正午」
から「と」アークで接続された「本」に対して得点付け
を行う。前者のアークにおいては動詞「読む」の格パタ
ーンデータがり照されるが、これには「(人)が(人)
と(物を)読む」と書かれている。下位ノード「正午(
人)と」はこれにマツチングしてこのアークに10点プ
ラスされる(これは「正午といっしょに」という意味を
表わす)。又、後者のアークにおいては並列助詞「と」
の意味バタンデータが参照されるが、この「と」アーク
に結び付けられた「正午(人)」と「本(物)」は意味
マーカが一致しない。従って10点マイナスされる。こ
れらの両アークの得点を比較すると、「読む」へ係る「
と」アークの方が高得点であるため、こちらか選択され
る。その結果、第9図の解析構造は第10図の様に変更
される。
一方「太部が圧子と本を知る」の場合には、動詞「知る
」には「人といっしょに」という意味が存在しないため
、「知る」の格バタンデータの「(人)と」には非常に
大きな負の得点が付される。つまり第11図に示す解析
構造において、ノード「知る」に接続されたアーク「と
」には100点マイナスされる。この場合には「圧子(
人)」と「本(物)」を結ぶ並列助詞「と」アークの得
点の方が、「圧子(人)」と「知る」を結ぶアークの得
点を上回る。従って並列助詞「と」の係り受けが選択さ
れ、第11図に示す解析構造は第12図に示す様に変更
される。つまり「圧子」と「本」は「知る」の対象洛と
なるのである。  °。
以上本実施例では、日本語解析について述べてきたが、
本発明が日本語以外の言語に有効な事は云うまでもない
。例えばr It transf’ers theda
ta to the machlne Jという英文に
おいては、r to the machineJという
前置詞句がr dataJに係る場合とr trans
fers Jに係る場合の2通りの解釈が可能である。
従来装置においては、−律に該前置詞句から近い単語に
係る解釈を優先させていた。これに対し本発明を用いる
と、r the datato the machin
eJという解釈とr transfers t。
the IIachlne Jという解釈を夫々得点付
けして比較することにより、正当な意味解釈の施された
解析結果を得ることができる。
また本実施例では、解析構造を各単語(ノード)間の関
係をアークで結んで表現したが、これは言語解析装置の
応用によって他のいかなる構造としても良い。例えばデ
ータベースアクセス言語、プログラミング言語、知識表
現言語、句構造木など応用に応じて変更することが可能
である。
〔発明の効果] 以上説明したように、本発明によれば言語解析装置にお
いて、構文解析と意味解析を分離して行う。つまり一般
的な構文解析規則を用いて生成された解析構造に対し、
内在している係り受けを見い出し、それを含めた複数の
係り受けに対して得点付けし、比較することにより意味
的に正当な解析結果を得ることができる。従って正確な
翻訳文を得たり、QAシステムで質問文の意味を理解さ
せる場合には、その正当率が階段に向上する。
【図面の簡単な説明】
第1図は本発明の一実施例のブロック図、第2図は単位
抽出規則の構成図、第3図は単語辞書の内部構成図、第
4図は辞書検索部の処理フロー図、第5図は辞1i検索
結果の様子を示す図、第6図は構文解析規則の表現形式
を示す図、第7図は構文解析部で生成された解析構造を
示す図、第8図は解析変換部の処理フロー図、第9図・
第11図は解析構造に内在した係り受けを見い出した図
、第10図・第12図は係り受けの評価比較を行って解
析構造を変換した図、第13図は従来方式における共起
関係表を示す図である。 1・・・入力部、  2・・・処理単位抽出部。 3・・・単位抽出規則、  4・・・単語辞書5・・・
接続条件テーブル、6・・・辞書検索部7・・・構文解
析規則、  8・・・構文解析部9・・・解析構造、I
O・・・解析構造第  2 図 第  4 図 LΩ包 第  5 図

Claims (2)

    【特許請求の範囲】
  1. (1)自然言語で記述された文章を入力するための入力
    手段と、解析処理に使用する知識情報を収容した単語辞
    書と、この単語辞書の内容を用いて前記入力された文章
    の解析処理を実行する解析手段とを具備した言語解析装
    置において、前記単語辞書は、構文解析に使用する係り
    受け等を格納した構文解析規則と、意味解析に使用する
    評価データ及び係りルール等を格納した意味情報を備え
    、前記解析手段は解析処理において構文解析規則を使用
    した構文解析と意味情報を使用した意味解析と分離させ
    て行うことを特徴とする言語解析装置。
  2. (2)自然言語で記述された文章を入力するための入力
    手段と、この入力手段より入力された文章に対し文、節
    等の処理単位を抽出する処理単位抽出手段と、自然言語
    で用いられる単語に対応して品詞名、意味マーカ及び場
    合に応じて評価データ、係りルールを格納した単語辞書
    と、処理単位を構成する品詞の接続条件を記述した接続
    条件テーブルと、前記処理単位抽出手段より抽出された
    処理単位に対し前記単語辞書を検索して単語単位に分割
    すると共に夫々に品詞名、意味マーカ等を付随させた単
    語列を生成し、この単語列に対して前記接続条件テーブ
    ルを参照して品詞の接続関係を検定する辞書検索手段と
    、処理単位中の品詞の係り受けに関する規則を格納した
    構文解析規則辞書と、前記辞書検索手段より正しいと検
    定された単語列に対して前記構文解析規則辞書を参照す
    ることにより単語間の係り受けを表した解析構造を生成
    する構文解析手段と、この構文解析手段より生成された
    解析構造に対し、その単語の品詞名及び係りルールに従
    い新たな係り受けを設定する手段と、この手段により設
    定された係り受け及びこれに対応する前記解析構造の係
    り受けに対し夫々を構成する単語の意味マーカ及び評価
    データを用いて得点評価を行いその高い係り受けを選択
    する手段とを具備したことを特徴とする言語解析装置。
JP61103845A 1986-05-08 1986-05-08 言語解析装置 Pending JPS62262178A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61103845A JPS62262178A (ja) 1986-05-08 1986-05-08 言語解析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61103845A JPS62262178A (ja) 1986-05-08 1986-05-08 言語解析装置

Publications (1)

Publication Number Publication Date
JPS62262178A true JPS62262178A (ja) 1987-11-14

Family

ID=14364768

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61103845A Pending JPS62262178A (ja) 1986-05-08 1986-05-08 言語解析装置

Country Status (1)

Country Link
JP (1) JPS62262178A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63219069A (ja) * 1987-03-09 1988-09-12 Nippon Telegr & Teleph Corp <Ntt> 日本語文節間係り受け解析装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63219069A (ja) * 1987-03-09 1988-09-12 Nippon Telegr & Teleph Corp <Ntt> 日本語文節間係り受け解析装置

Similar Documents

Publication Publication Date Title
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
EP0645720B1 (en) Dictionary creation supporting system
EP1217533A2 (en) Method and computer system for part-of-speech tagging of incomplete sentences
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
US6876963B1 (en) Machine translation method and apparatus capable of automatically switching dictionaries
US20070011160A1 (en) Literacy automation software
US20110040553A1 (en) Natural language processing
Liyanapathirana et al. Sinspell: A comprehensive spelling checker for sinhala
Silberztein Text indexation with INTEX
Hughes et al. Automatic extraction of tagset mappings from parallel-annotated corpora
JPS5892063A (ja) イデイオム処理方式
JPS62262178A (ja) 言語解析装置
Sankaravelayuthan et al. A Comprehensive Study of Shallow Parsing and Machine Translation in Malaylam
Moruz et al. Interlinking and Extending Large Lexical Resources for Romanian
Galicia-Haro Using electronic texts for an annotated corpus building
Todiraşcu et al. French text preprocessing with TTL
JPS63228326A (ja) キ−ワ−ド自動抽出方式
JPH0561902A (ja) 機械翻訳システム
Walker Computational linguistic techniques in an on-line system for textual analysis
Salim Elsheikh et al. TIMELINE OF THE DEVELOPMENT OF ARABIC POS TAGGERS AND MORPHOLOGICALANALYSERS
Jolly et al. A Detailed Analysis of Core NLP for Information Extraction
JP3680489B2 (ja) 機械翻訳装置および機械翻訳処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2954592B2 (ja) 言語解析装置
KR20010004090A (ko) 에이치티엠엘 기반 한글 용어/약어 하이퍼링크 생성기
Bhadra et al. Sanskrit analysis system (SAS)