JPS61221874A

JPS61221874A - 自然言語のデ−タベ−ス化方式

Info

Publication number: JPS61221874A
Application number: JP60046776A
Authority: JP
Inventors: Shigeki Kuga; 空閑　茂起; Taro Morishita; 森下　太朗; Nobuo Nakamura; 信夫中村; Mikio Osaki; 大崎　幹雄
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1985-03-08
Filing date: 1985-03-08
Publication date: 1986-10-02

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】く技術分野〉本発明は、たとえば自然言語（日本語等）を用いて装置
（コンピータ）と対話できる所謂自然言語による質問応
答システムに好適な自然言語のデータベース化方式に関
するものである。

〈従来技術〉従来提案されている対話形式のコンピュータシステムで
は、そのシステムのデータペース特有の操作用言語とか
コンピュータの操作用言語を理解できなければ全く使用
することができない。しかも、その操作用言語を習得す
るには多大の時間が必要である。

そこで、近年はコンピュータとの対話に自然言語すなわ
ち人間が使用している言葉を直接使用することができる
ようなシステムが考えられている。

〈目　的〉本発明は上記した点に鑑みて成されたもので、自然言語
による対話形式（質問応答形式）のコンピュータシステ
ムに好適な自然言語のデー９　／＜　−ス化方式を提供
することを目的とする。

〈実施例〉以下図にもとづいて本発明の詳細な説明する。

第１図は本発明に係る自然言語のデータベース化方式を
採用した質問応答装置のブロック構成図である。

図において、１はカナ文字列等を入力するためのキーボ
ード、２はＣＲＴ表示装置、３は中央演算処理装置、４
は内部メモリ、５は外部メモリである。また、６はコマ
ンド対応表メモリ、７はカナ漢字システム辞書メモリ、
８はパーザ用辞書メモリ、９はパーザ用文法メモリであ
る。

本装置はベタ入力カナ漢字変換部、パーザ部（文章解析
部）、質問応答部から構成されており、キーボード１で
タイプしたベタ入力のカナ列はカナ漢字変換部において
辞書及びテープ／Ｌ／７の使用によシ、カナ漢字混シ文
に変換され、さらにこの変換過程で同時に各単語の区切
り情報（こ−で単語とは、名詞、助詞、活用語尾といっ
た形態素を指す）や品詞情報の形態素情報が得られる。

そしてパーザ部ではこの形態素情報を利用するとともに
パーザ用文法規則メモリ９とパーザ用辞書メモリ８を使
用して各単語の構文解析を行ない入力文の構文解析木を
生成する。さらにパーザ部は得られた解析木から後の質
問応答部が利用可能な形式である単文化及び単文間の関
係を生成する。第２図は「もし彼が赤いＹを買うならば
私もＹを買う」を例とした場合の単文化及び単文間の関
係スタックの様子を示すもので、この単文化スタック及
び単文間の関係スタックは後述する質問応答部で使用さ
れる。

第３図は質問応答部の処理フローであり、機能的に分け
ると次の５つに分かれる。

１）単文間の関係スタックからａｎｄ文ｏｒ文に展開す
る。

２）入力文を質問文、命令文、平叙文、仮定文に応じて
データベース化する。

８）事実、ルー〜のデータベースから解を求める（ユニ
フィケーション）。

４）　コマンドの解釈と実行。

５）自然言語による応答。

次に上記の各機能を順に説明する。

１）単文間の関係スタックからａｎｄ文ｏｒ文への展開
について、ただし、と＼で言う単文とは用言（動詞、形
容詞、形容動詞）が一つしか含まれていない文をいう。

一般に文章というのは複数個の単文かａｎｄ　＊ｏｒ、
ｉｆや連体関係で構成されており、そのま＼の形で処理
することは非常に難しい。

但し、Ａ−Ｄはそれぞれ単文である。

第１表例えば、第１表（ａ）では単文Ａ、Ｂ、Ｃがａｎｄ＊ｏ
ｒで連結され、さらにＡ、Ｂ、Ｃで構成された文は単文
りとｉｆで連結されている。一方、第１表（ｂ）は第１
表（ａ）の文をａｎｄ、ｏｒに展開したもので、数学で
いう二項展開に相当する。すなわち、論理的にａｎｄで
連結するものをまとめておシ、このようにすることによ
って後の処理が楽になる。

第４図は実際のスタック構成を示す図であシ、図中１０
は関係スタック、１１はａｎｄ・Ｏｒスタックを示して
いる。こ＼で関係スタック１０は単文間の関係を示して
いる（第１表（ａ））。この例では単文ＢとＣはＯｒの
関係、単文ＡとＯｒで構成される文はａｎｄの関係、ａ
ｎｄで構成される文は単文りとｉｆの関係になっている
。

またａｎｄ・Ｏｒスタック１１は前記関係スタックの中
からａｎｄ、Ｏｒ＋　　ｉｆ量関係単文を抽出するもの
である。例えば、ｉｆが親ノードの場合、左子ノードは
条件部と判断され、右子ノードは結論部と判断される。

図から明らかなように、まずｉｆの左子ノードのａｎｄ
、　ｏｒ量関係調べてＡ　ａｎｄ（Ｂ　ｏｒ　Ｃ）を見
つける。これは二項展開によって（Ａ　ａｎｄＢ）ｏｒ
（ＡａｎｄＣ）になり、ａｎｄ−Ｏｒスタック１１の条
件部ＢＫＡ、ＢとＡ、Ｃがスタックされる。次に右子ノ
ードは単文りなので、そのま−ａｎｄ・Ｏｒスタック１
１の結論部１２に積まれ前記第１表（ｂ）の関係を導き
出している。

１１）データベース化について、パーザ部（文章解析部）で解析された文は深層構造を持
った単文に変換されておシ、更に賀間応答部の前処理部
で各単文に対してａｎｄ、ｏｒ等の関係を抽出している
。これらの処理結果を用いて、たとえば平叙文（仮定文
も含む）ならば事実、ルールとしてデータベース化され
、疑問文ならば一旦データベース化されて機械特有のコ
マンド群に変換されるか、事実、ルールのデータベース
に対してパターンマツチ、バックトラックを行なって解
を求めている。

データベースの構造はｌ）情報の追加、削除、拡張性２）パターンマツチのやりやすさを考慮して次の形式にしている。

述部（ＩＤ、状況１．深層格、格体言、状況２）述部は、通常は用言の終止形で表現しているが、連体詞
“その“等が文中にあれば後続の格体言をキーにして前
文と関連付けを行なっている。

但し、ｒ　Ｏ＝　ｒ　３は定数、ＲＯ〜Ｒ１及びＸｏ−
ＸＩは変数第２表例えば、第２表のａ）では、“その”に続く格体言は“
ポール“であシ、ｒＯＯ文番号に同じ格体言があるので
、その文と関連付けを行なっている。この時「述部」は
ｒｅｆｅｒになシ深層格としてはｒｅｎｔａｉを入れて
いる。又、述部は変数で表記することも可能である。ｒ
Ｉ　ＤＪは第２表ａ）に示すよう仮定文等を除く平叙文
に対してはｆａｃｔを割り当てて事実としてデータベー
ス化している。仮定文は第２表Ｃ）に示すように条件部
の文に対してはｇｏａｌ、結論部の文に対してはｈｅａ
ｄをそれぞれ与えている。

さらに、疑問文は第２表ｂ）に示すようにｇｏａｌが与
えられる。これらのＩＤは後のユニフィケーーション処
理のときに三段論法の推論で必要となる。

「状況１」は単文化された文番号で、ＩＤがｈｅａｄ及
びｆａｃｔに対してはｒＯからｒｎを割シ当て、ＩＤが
ｇｏａ　１のものに対してはＲＯ〜Ｒｎ与えている。ま
たｒＯ〜ｒｎは定数、ＲＯ〜Ｒｎは変数と定義されてい
て、後のユニフィケーシ冒ン処理でも使用される。

「深層格」はａｇｅｎｔ　＋　　５ｕｂｊ　、　　ｏｂ
ｊ、　ｒｅｎｔａｉなど１０数格用意している。格体言
は深層格に入る体言であシ、通常は“彼゛、“学校゛が
格納されるが、疑問代名詞“誰”、“何１やＸ′″。

′Ｙ″が文中にあると第２表ｂ）、ｃ）のように変数と
してＸＯ，Ｘｉ、Ｘ２が格納される。

「状況２」はｒｅｆ　ｅｒ等の関係子で関連付けされた
文番号が入る。ｒｅｆｅｒ以外の通常の述部を持ってい
る場合はｎｉｌである。

データベースは後でユニフィケーション処理においてパ
ーターンマツチの対象となるので、パターンマツチの処
理が高速になるようにデータベースの構造を工夫してい
る。

なお、１）述部や格体言の漢字データは単語領域に登録
しておき、登録しているアドレスを述部、格体言に格納
しているため、パターンマツチの際アドレスポインター
の比較で済む。また２）各単文において述部、ＩＤ、状
況１は同一なので一つにまとめている。

１１ｉ　）　　ユニフィケーションについて、ユニフィ
ケーション処理は第５図の概略フローに示す通シであり
、その基本動作はゴール側（疑問文データベース）とソ
ース側（平叙文データベース）とのパターンマツチとバ
ックトラックのくシ返しである。

例えば、第２表ａ）、　　ｃ）、　ｄ）が既にソース側
にスタックされていた時に質問として第２表ｂ）を入力
するとユニフィケーションの結果として「ポール」、「
りんご」が得られる。この動作は第３表に示している様
に、ゴール側の５）。

６）がソース側の１）、　２）とユニファイし変数ＸＯ
にボールがバインド（結合）されて解が一つ求まる。さ
らに次の解を求めるために変数ＲＯ，ＸＯの値をアンバ
インドして置き、ソー７側の８）、９）とユニファイす
る。この時、ＲＯ＝ｒ２ＸＯ＝Ｘ１がバインドされる。８）、　　９）はｈｅａｄであるの
で副目標としてＩＤがｇｏａ　１である。７）をセット
して、さらにソース側の１０）とユニファイを試みる。

この時、Ｒ１＝　ｒ３Ｘ１＝りんごがバインドされＸ０＝Ｘ１＝りんごのリンクよシ別の解として「りんご」が求まる。

尚、Ｉ）、　２）等は第２表と対応する。

第３表 ■）コマンドの解釈と実行について、命令文や疑問文は−Ｈデータベース化されるが、述部が
システムコマンドになければ平叙文のデータベースとの
ユニフィケーションカ行なわれる。またシステムコマン
ドにあれば平叙文のデータベースとのユニフィケーショ
ンは行なわれない。

第６図はコマンド用の引数テープ／ｌ／１４であり、構
成要素としてプリントとかコピーのようなコマンド名、
コマンドに対する引数の種類、コマンド本体のプログラ
ムが格納されているメモリへのアドレスからなる。

第４表はコマンドの解釈と実行の例を示すものであり、
たとえば日本語で入力した文はデータベース化され、そ
の述部とコマンドテーブルのコマンド名とを比較する。

一致すれば次に深層格とコマンドテープｐに記述されて
いる引数の格との比較をとる。この例では引数１と一致
しており、“ファイ／Ｌ／１″が引数１に渡される。

コマンドテーブルに満たすべき引数がなければプログラ
ムの本体に引数を渡して実行される。

もし最低限必要な引数がそろっていないとき或いは引数
の格に一致しなければ、その旨をユーザにＣＲＴ２を通
じて知らせる。

第４表 ■）自然言語による応答について、第３表は、「彼は何を買うか」の質問に対するユニフィケーションの例で、６）か何を
買うかを表現している。更に、ｏｂｊが“を１ＸＯが“何” に対応しており、ユニフィケーションの結果ＸＯ＝ポー
ｌｖ、りんごが解として求まるので、“何”に対して６ポール”、“
りんご”で置き換えて疑問の“が゛を取り除けば日本語
で応答が生成されろうすなわち・「彼はボールを買う」「彼はりんごを買う」の文が生成されＣＲＴ２上に表示されろうこのように本
発明方式によれば、キーボード等によυ入力した日本語
を容易にデータベース化することができ、したがって日
本語による対話形式のコンピュータシステム化に効果的
に寄与することが出来る。

〈効　果〉以上詳細に説明したように本発明に係る自然言語のデー
タベース化方式は、自然言語の文章を入力する手段と、
単語の区切り情報と品詞情報を得る形態素解析手段と、
品詞間の係り受けを決める構文解析手段と、意味的に正
しい係シ受けを決める意味解析手段と、埋込み文を単文
に分解する単文化処理手段とを備え、カナ漢字変換処理
を利用して形態素解析を行うとともに、前記構文解析、
意味解析及び単文化処理後に得られた単文化された文章
に含まれる事実を入力文章の種類に応じて抽出蓄積する
ようにしたから、入力した自然言語を容易にデータベー
ス化することが出来る。

【図面の簡単な説明】

第１図は本発明方式を採用した質問応答装置の１０ツク
構成図、第２図は単文化及び単文間の関係スタックを示
す図、第３図は質問応答部での処理フローを示す図、第
４図はａｎｄ文、ｏｒ文〜の展開を説明する図、第５図
はユニフィケーション処理フローを示す図、第６図はコ
マンド用の引数テーブルを示す図である。１はキーボード、２はＣＲＴ、３はＣＰＵ、４は内部メ
モリ、５は外部メモリ、６はコマンド対応表、７はカナ
漢字システム辞書メモリ、８はパーザ用軸メモリ、９は
パーザ用文法規則メモリ享１図第２　図１ＩＩａ５　　図第６図

Claims

【特許請求の範囲】

１、自然言語の文章を入力する入力手段と、単語の区切
り情報と品詞情報を得る形態素解析手段と、品詞間の係
り受けを決める構文解析手段と、意味的に正しい係り受
けを決める意味解析手段と、埋込み文を単文に分解する
単文化処理手段とを有し、カナ漢字変換処理を利用して
形態素解析を行うと共に前記、構文解析、意味解析及び
単文化処理後に得られた単文化された文章に含まれる事
実を、入力文章の種類に応じて抽出蓄積するようにした
ことを特徴とする自然言語のデータベース化方式。