WO2019111410A1

WO2019111410A1 - 係り受け解析装置および係り受け解析方法

Info

Publication number: WO2019111410A1
Application number: PCT/JP2017/044223
Authority: WO
Inventors: 伍井　啓恭
Original assignee: 三菱電機株式会社
Priority date: 2017-12-08
Filing date: 2017-12-08
Publication date: 2019-06-13
Also published as: JPWO2019111410A1

Abstract

形態素解析部（１０）は、テキストデータに含まれる文を形態素ごとに分割する。チャンキング部（１１）は、文の形態素列を文節列に変換する。全文解析部（１２）は、テキストデータに含まれる全ての文について文節数が少ない文から順に文節と文節の係り受けを解析し、解析により決定した文節と文節の係り受け構造を示す係り受け規則および文節と文節の係り受け頻度の統計量をツリーコーパスに設定する。抽出部（１３）は、ツリーコーパスから、係り受け規則と統計量を抽出する。

Description

係り受け解析装置および係り受け解析方法

　この発明は、自然言語で記述されたテキストにおける単語列と単語列の係り受けを解析する係り受け解析装置および係り受け解析方法に関する。

　自然言語で記述されたテキストを解析する技術のうち、係り受け解析処理は、テキストにおける単語列と単語列との関係を解析してテキストの意味構造を特定する技術である。係り受け解析処理は、文書の要約、機械翻訳および対話システムといった自然言語処理の応用システムを実現する上で必須となる重要な技術である。ここでは、構文解析を含めて広く“係り受け解析”と呼ぶ。

　自然言語の処理には、テキストが使用される分野に特有の言い回しまたは語義の曖昧さといった問題があるため、単語列と単語列の係り受けの規則を人手で作成することは困難であることが知られている。係り受け規則は、係り受けの言語モデルといえる。

　前述した問題に対し、従来から、計算機を用いた様々なテキスト解析方法が提案されている。例えば、非特許文献１に記載される従来の方法は、人手をかけて学習用のテキストを構文解析し、その解析結果から構文規則を文法規則として取得して尤度を付与し、この尤度に応じて適用する文法規則を選択している。文法規則に付与する尤度は、学習用の構文解析済みテキストデータに使われている文法規則の統計量によって決定される。

工藤　拓，　松本　裕治．　チャンキングの段階適用による日本語係り受け解析，　情報処理学会論文誌，　Ｖｏｌ．４３，　ＮＯ．６，　ｐｐ．１８３４－１８４２，　２００２．

　非特許文献１に記載される従来の方法は、人手で学習用の構文解析済みテキストデータを作成する必要があったため、データ作成に莫大なコストがかかるという課題があった。

　この発明は上記課題を解決するものであり、精度の高い係り受け規則を作成することができる係り受け解析装置および係り受け解析方法を得ることを目的とする。

　この発明に係る係り受け解析装置は、形態素解析部、チャンキング部、全文解析部および抽出部を備える。形態素解析部は、自然言語で記述された複数の文を含むテキストデータを入力し、テキストデータに含まれる複数の文のそれぞれを形態素ごとに分割する。チャンキング部は、形態素解析部から出力された形態素列を文節列に変換する。全文解析部は、チャンキング部により文節列に変換された複数の文を、文節数が少ない文から順に文節と文節の係り受けを解析し、解析によって決定した文節と文節の係り受け関係を示す係り受け規則および文節と文節の係り受け頻度の統計量をツリーコーパスに設定する。抽出部は、ツリーコーパスから、係り受け規則および統計量を抽出する。

　この発明によれば、テキストデータに含まれる複数の文を、文節数が少ない文から順に文節と文節の係り受けを解析し、解析により決定された文節と文節の係り受け関係を示す係り受け規則および文節と文節の係り受け頻度の統計量を、ツリーコーパスに設定する。これにより、係り受け解析装置が、精度の高い係り受け規則を作成することができる。

この発明の実施の形態１に係る係り受け解析装置の構成を示すブロック図である。図２Ａは、実施の形態１に係る係り受け解析装置の機能を実現するハードウェア構成を示すブロック図である。図２Ｂは、実施の形態１に係る係り受け解析装置の機能を実現するソフトウェアを実行するハードウェア構成を示すブロック図である。実施の形態１に係る係り受け解析方法を示すフローチャートである。テキストデータの一例を示す図である。図４のテキストデータに含まれる文の形態素解析結果を示す図である。図５のデータのチャンキング処理結果を示す図である。図３のステップＳＴ３の処理の詳細を示すフローチャートである。図６における文節列を文節数が少ない順に並べ替えた文節列情報を示す図である。図９Ａは、図８の文節列情報における文節列Ｂの係り受け解析結果を示す図である。図９Ｂは、文節列Ｂの係り受け規則を示す図である。図１０Ａは、図８の文節列情報における文節列Ａの係り受け解析結果を示す図である。図１０Ｂは、文節列Ａの係り受け規則を示す図である。ツリーコーパスから抽出された係り受け規則に関する抽出情報を示す図である。図７のステップＳＴ５ａの処理の詳細を示すフローチャートである。処理対象の文節列Ｂ（２文節）の一例を示す図である。図１３の文節の区切り情報に係り先番号を付与した文節列情報を示す図である。文節列Ｂから係り先が決定している文節を削除した文節列情報を示す図である。処理対象の文節列Ａ（３文節）の一例を示す図である。図１６の文節の区切り情報に係り先番号を付与した文節列情報を示す図である。文節列Ａから係り先が決定している文節を削除した文節列情報を示す図である。図１８の文節の係り受け解析結果を示す図である。図１６の文節列Ａの係り受け解析結果を示す図である。この発明の実施の形態２に係る係り受け解析装置の構成を示すブロック図である。実施の形態２に係る係り受け解析方法を示すフローチャートである。図２２のステップＳＴ５ｃの処理の詳細を示すフローチャートである。この発明の実施の形態３に係る係り受け解析装置の構成を示すブロック図である。実施の形態３に係る係り受け解析方法を示すフローチャートである。

　以下、この発明をより詳細に説明するため、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態１．
　図１は、この発明の実施の形態１に係る係り受け解析装置１の構成を示すブロック図である。図１において、係り受け解析装置１は、入力したテキストデータに含まれる文の係り受けを解析する装置であり、形態素解析部１０、チャンキング部１１、全文解析部１２および抽出部１３を備える。

　形態素解析部１０は、自然言語で記述された複数の文を含むテキストデータを入力し、テキストデータに含まれる複数の文のそれぞれを形態素ごとに分割する。例えば、形態素解析部１０は、文を形態素の単位に分割すると、形態素ごとの品詞および読みを示すタグ情報を付与する。

　チャンキング部１１は、形態素解析部１０から出力された形態素列を文節列に変換する。例えば、チャンキング部１１は、文節接続規則１１ａを参照して、文の形態素列から文節を構成する形態素を推定し、推定した形態素が連続している部分を文節とみなしてチャンキングすることで、形態素列を文節列に変換する。
　なお、文節接続規則１１ａには、例えば、文節を構成しやすい単語と単語との接続規則が設定されている。

　全文解析部１２は、チャンキング部１１によって文節列に変換された複数の文を、文節数が少ない文から順に文節と文節との係り受けを解析する。例えば、全文解析部１２は、文節列に変換された複数の文を文節数が少ない順にソートし、文節数が少ない文から文節と文節の係り受けを解析する。係り受け解析の方法は、図４を用いて後述する。

　全文解析部１２は、文節と文節の係り受け解析により決定した係り受け規則および統計量をツリーコーパス１２ａに設定する。係り受け規則は、文節と文節との係り受け関係を示す情報（言語モデル）であり、統計量は、テキストデータに含まれる複数の文における文節と文節の係り受け頻度の統計量である。

　抽出部１３は、ツリーコーパス１２ａから係り受け規則および統計量を抽出する。
　抽出部１３によって抽出された係り受け規則および統計量は、係り受け規則データ１４に設定される。

　図２Ａは、係り受け解析装置１の機能を実現するハードウェア構成を示すブロック図である。図２Ａにおいて、入力回路１００は、テキストデータの入力を受け付ける回路であり、処理対象のテキストデータを入力するための入力インタフェースを有する。出力回路１０１は、係り受け規則データ１４を出力する回路であって、係り受け規則データ１４を出力するための出力インタフェースを有する。ハードディスク１０２は、処理回路１０３に使用されるデータを記憶する記憶装置である。例えば、入力回路１００によって入力が受け付けられた処理対象のテキストデータ、係り受け解析装置１の機能を実現するためのプログラム、文節接続規則１１ａ、ツリーコーパス１２ａおよび係り受け規則データ１４が記憶される。処理回路１０３は、係り受け解析装置１として機能する専用回路である。

　図２Ｂは、係り受け解析装置１の機能を実現するソフトウェアを実行するハードウェア構成を示すブロック図である。入力インタフェース１００ａは、テキストデータの入力を受け付けるインタフェースであり、図２Ａに示した入力回路１００の構成要素である。出力インタフェース１０１ａは、係り受け規則を出力するためのインタフェースであって、図２Ａに示した出力回路１０１の構成要素である。プロセッサ１０４およびメモリ１０５は、信号バスを介して接続されている。図２Ｂにおいて、ハードディスク１０２は、プロセッサ１０４に使用されるデータを記憶する記憶装置である。例えば、図２Ａと同様に、入力回路１００によって入力が受け付けられた処理対象のテキストデータ、係り受け解析装置１の機能を実現するためのプログラム、文節接続規則１１ａ、ツリーコーパス１２ａおよび係り受け規則データ１４が記憶される。

　図１に示した、文節接続規則１１ａ、ツリーコーパス１２ａおよび係り受け規則データ１４は、ハードディスク１０２またはメモリ１０５に記憶される。すなわち、ハードディスク１０２またはメモリ１０５には、文節接続規則１１ａ、ツリーコーパス１２ａ、係り受け規則および統計量が記憶される。

　係り受け解析装置１における形態素解析部１０、チャンキング部１１、全文解析部１２および抽出部１３のそれぞれの機能は、処理回路によって実現される。すなわち、係り受け解析装置１は、図３を用いて後述するステップＳＴ１からステップＳＴ４までの処理を実行するための処理回路を備える。処理回路は、専用のハードウェアであってもよいが、メモリに記憶されたプログラムを実行するＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）であってもよい。

　処理回路が図２Ａに示す専用のハードウェアの処理回路１０３である場合、処理回路１０３は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）、ＦＰＧＡ（Ｆｉｅｌｄ－Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）またはこれらを組み合わせたものが該当する。
　形態素解析部１０、チャンキング部１１、全文解析部１２および抽出部１３のそれぞれの機能を別々の処理回路で実現してもよいし、これらの機能をまとめて１つの処理回路で実現してもよい。

　処理回路が図２Ｂに示すプロセッサ１０４である場合、形態素解析部１０、チャンキング部１１、全文解析部１２および抽出部１３のそれぞれの機能は、ソフトウェア、ファームウェアまたはソフトウェアとファームウェアとの組み合わせによって実現される。
　ソフトウェアまたはファームウェアは、プログラムとして記述されて、メモリ１０５に記憶される。

　プロセッサ１０４は、メモリ１０５に記憶されたプログラムを読み出して実行することによって、形態素解析部１０、チャンキング部１１、全文解析部１２および抽出部１３のそれぞれの機能を実現する。すなわち、係り受け解析装置１は、プロセッサ１０４により実行されるときに、図３に示すステップＳＴ１からステップＳＴ４までの処理が結果的に実行されるプログラムを記憶するためのメモリ１０５を備える。これらのプログラムは、形態素解析部１０、チャンキング部１１、全文解析部１２および抽出部１３の手順または方法をコンピュータに実行させるものである。
　メモリ１０５は、コンピュータを、形態素解析部１０、チャンキング部１１、全文解析部１２および抽出部１３として機能させるためのプログラムが記憶されたコンピュータ可読記憶媒体であってもよい。

　メモリ１０５には、例えば、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、フラッシュメモリ、ＥＰＲＯＭ（Ｅｒａｓａｂｌｅ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＥＥＰＲＯＭ（Ｅｌｅｃｔｒｉｃａｌｌｙ－ＥＰＲＯＭ）などの不揮発性または揮発性の半導体メモリ、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、ＤＶＤなどが該当する。

　形態素解析部１０、チャンキング部１１、全文解析部１２および抽出部１３のそれぞれの機能について一部を専用のハードウェアで実現し、一部をソフトウェアまたはファームウェアで実現してもよい。例えば、形態素解析部１０、チャンキング部１１および全文解析部１２については、専用のハードウェアとしての処理回路で機能を実現する。そして、抽出部１３については、プロセッサ１０４がメモリ１０５に記憶されたプログラムを読み出して実行することにより機能を実現してもよい。
　このように、処理回路は、ハードウェア、ソフトウェア、ファームウェアまたはこれらの組み合わせにより上記機能のそれぞれを実現することができる。

　次に動作について説明する。
　図３は、実施の形態１に係る係り受け解析方法を示すフローチャートである。
　形態素解析部１０は、テキストデータの形態素解析処理を行う（ステップＳＴ１）。
　テキストデータには、自然言語で記述された複数の文が含まれ、形態素解析部１０は、複数の文のそれぞれの形態素を解析して形態素の単位に分割する。これにより、テキストデータに含まれる複数の文のそれぞれは形態素列に変換されてチャンキング部１１に出力される。

　例えば、形態素解析部１０が、図４に示すテキストデータ２００に含まれる文２００ａおよび文２００ｂを入力すると、不図示の形態素解析辞書を参照して、文２００ａを形態素の単位に分割して、形態素ごとの品詞および読みを示すタグ情報を付与する。同様に、形態素解析部１０は、形態素解析辞書を参照して、文２００ｂを形態素の単位に分割し、形態素ごとの品詞および読みを示すタグ情報を付与する。これにより、図５に示す形態素解析結果２１０が得られる。

　図５に示す形態素解析結果２１０では、１行に１つの形態素に関する情報が設定されており、先頭カラムが形態素の見出し表層形であり、これに後続するカラムにはタグ情報が設定されている。タグ情報は、“，”によって情報が項目分けされており、図５の左から“品詞，品詞細分類１，品詞細分類２，品詞細分類３，活用型，活用形，原形，読み，発音”が設定される。設定する情報がない項目には“＊”が設定される。

　図５に示す例では、１行目の見出し表層形に形態素２１０ａが設定されており、見出し表層形に続くカラムに、形態素２１０ａの品詞に関するタグ情報２１０ｂと読みに関するタグ情報２１０ｃが付与される。形態素解析結果２１０には、文末を示す特殊な文字列として“ＥＯＳ”が設定される。文２００ａは、６つの形態素に分割され、これらの形態素から構成される形態素列に変換される。文２００ｂは、４つの形態素に分割され、これらの形態素から構成される形態素列に変換される。

　チャンキング部１１は、形態素解析部１０から入力したデータに対しチャンキング処理を行う（ステップＳＴ２）。チャンキング部１１によって複数の文のそれぞれの形態素列が文節列に変換されて全文解析部１２に出力される。

　図６は、図５に示した形態素解析結果２１０に対してチャンキング処理を行った結果である。チャンキング部１１は、図５に示した形態素解析結果２１０に対して文節の区切り情報を付与したチャンキング処理結果２２０を生成する。ここで、文節の区切り情報は、図６に示すように、アスタリスク“＊”、文節番号、係り先番号、および文字“Ｄ”から構成された文字列であり、文節の開始位置を意味する行に付与される。

　アスタリスク“＊”に続く文節番号は、０から始まる整数の番号であって、文の先頭の文節から順に付与される通し番号である。係り先番号は、係り元となる文節の区切り情報に設定される番号であり、係り先の文節があれば、係り先の文節の文節番号が設定され、係り先がないまたは未定であれば、“－１”が設定される。文字“Ｄ”は、区切り情報であることを示す文字である。

　文２００ａの形態素列は、文節２２０ａ、文節２２０ｂおよび文節２２０ｃという３つの文節から構成された文節列Ａに変換されている。文節列Ａの文節２２０ａは、文２００ａの先頭の文節であることから、文節２２０ａの文節番号は“０”であり、係り受け解析前で係り先の文節が未決定のため、文節２２０ａの係り先番号は“－１”である。これにより、文節列Ａの文節２２０ａの区切り情報は“＊０－１Ｄ”となり、図６に示すように、文節２２０ａに関する情報の開始位置の行に付与される。

　文節２２０ｂは、文２００ａの２番目の文節であるので、文節２２０ｂの文節番号は“１”であり、係り先が未決定であることから、文節２２０ｂの係り先番号は“－１”である。これにより、文節列Ａの文節２２０ｂの区切り情報は“＊１－１Ｄ”となり、図６に示すように、文節２２０ｂに関する情報の開始位置の行に付与される。文節２２０ｃは、文２００ａの３番目の文節であるので、文節２２０ｃの文節番号は“２”であり、係り先が未決定であることから、文節２２０ｃの係り先番号は“－１”である。これにより、文節列Ａの文節２２０ｃの区切り情報は“＊２－１Ｄ”となり、図６に示すように、文節２２０ｃに関する情報の開始位置の行に付与される。

　文２００ｂの形態素列は、文節２２０ａおよび文節２２０ｃという２つの文節から構成される文節列Ｂに変換される。文節列Ｂの文節２２０ａは、文２００ｂの先頭の文節であることから、文節２２０ａの文節番号は“０”であり、係り受け解析前で係り先が未決定であるので、文節２２０ａの係り先番号は“－１”である。これにより、文節列Ｂにおける文節２２０ａの区切り情報は“＊０－１Ｄ”となり、文節２２０ａに関する情報の開始位置の行に付与される。文節２２０ｃは、文２００ｂの２番目の文節であるので、文節２２０ｃの文節番号は“１”であり、係り先が未決定であるので文節２２０ｃの係り先番号は“－１”である。これにより、文節列Ｂにおける文節２２０ｃの区切り情報は“＊１－１Ｄ”となり、文節２２０ｃに関する情報の開始位置の行に付与される。

　ステップＳＴ３において、全文解析部１２は、チャンキング部１１から入力した全ての文を、文節数が少ない文から順に文節と文節の係り受けを解析する。そして、全文解析部１２は、解析により決定した文節と文節の係り受け構造を示す係り受け規則および文節と文節の係り受け頻度の統計量をツリーコーパス１２ａに設定する。

　抽出部１３は、ツリーコーパス１２ａから、係り受け規則および統計量を抽出する（ステップＳＴ４）。抽出部１３によって抽出された係り受け規則および統計量は、係り受け規則データ１４に設定される。

　次に、係り受け解析およびツリーコーパス作成の詳細について説明する。
　図７は、図３のステップＳＴ３の処理の詳細を示すフローチャートである。
　以下、図６に示したチャンキング処理結果２２０が全文解析部１２に入力されたものとして説明を行う。

　まず、全文解析部１２は、チャンキング部１１から入力したデータに含まれる複数の文を、文節列の文節数が少ない順（昇順）に並べる（ステップＳＴ１ａ）。このとき、全文解析部１２は、チャンキング処理された複数の文における最大の文節数（以下、最大文節数と呼ぶ）を特定して記憶する。例えば、最大文節数をハードディスク１０２またはメモリ１０５に記憶してもよい。

　図８は、図６に示すチャンキング処理結果２２０を、文節数の昇順に並べ替えた結果を示している。チャンキング処理結果２２０では、文２００ａの文節列Ａは、文節２２０ａと文節２２０ｂと文節２２０ｃとから構成される文節列であって、文節数が３つである。文２００ｂの文節列Ｂは、文節２２０ａおよび文節２２０ｃから構成され、文節数は２である。このため、最大文節数が３となる。このとき、全文解析部１２は、図８に示すように、文節列Ａと文節列Ｂとを並べ替えた文節列情報２３０を作成する。なお、文節列情報２３０は、上段に記述された文節列から処理対象となるので、文節列Ｂから先に係り受け解析が実行される。

　次に、全文解析部１２は、文節列ごとに文節数が１文節以下であるか否かを確認する（ステップＳＴ２ａ）。このとき、文節数が１つであるか、文節がない空文である場合（ステップＳＴ２ａ；ＹＥＳ）、全文解析部１２は、この文節列を解析対象から除外して（ステップＳＴ３ａ）、次の文節列に対してステップＳＴ２ａの処理を行う。
　一方、文節列の文節数が２文節以上である場合（ステップＳＴ２ａ；ＮＯ）、全文解析部１２は、処理対象の文節数Ｎに“２”を設定する（ステップＳＴ４ａ）。

　次に、全文解析部１２は、文節数Ｎの文節列について文節ごとに係り受け解析を行う（ステップＳＴ５ａ）。このとき、Ｎ＝２の文節列Ｂが処理対象となる。
　なお、ステップＳＴ５ａの処理の詳細は、図１２を用いて後述する。

　ステップＳＴ５ａの処理が完了すると、全文解析部１２は、処理対象の文節列における全ての文節の係り受けを決定したか否かを確認する（ステップＳＴ６ａ）。
　係り受けが未決定の文節がある場合（ステップＳＴ６ａ；ＮＯ）、全文解析部１２は、ステップＳＴ５ａに戻って、係り受けが未決定の文節に対して係り受け解析を行う。
　処理対象の文節列における全ての文節の係り受けを決定した場合（ステップＳＴ６ａ；ＹＥＳ）、全文解析部１２は、処理対象の文節列に関する係り受け解析結果を、係り受け規則としてツリーコーパス１２ａに設定する（ステップＳＴ７ａ）。

　図９Ａは、図８の文節列情報２３０における文節列Ｂの係り受け解析結果２４０を示す図である。全文解析部１２は、文節列Ｂの係り受け解析により文節２２０ａから文節２２０ｃへ係るという係り受けを決定すると、文節２２０ｃの文節番号が“１”であることから、文節２２０ａの区切り情報における係り先番号を“－１”から“１”に変更する。
　文節２２０ｃの係り先の文節は未決定であるため、全文解析部１２は、文節２２０ｃの区切り情報における係り先番号を“－１”のままとする。

　図９Ｂは、文節列Ｂの係り受け規則２５０を示す図である。図９Ｂに示すように、係り受け規則２５０は、規則番号、非係り度数、係り度数、係り受け区分（係り元文節、係り先文節）および文節情報から構成される情報である。
　規則番号は、１から始まる整数の番号であって、係り受け解析が施された順に文節列に付与される通し番号である。例えば、係り受け規則２５０は、最初に解析された文節列Ｂの係り受け規則であることから、規則番号は“１”となる。全文解析部１２は、文節２２０ａおよび文節２２０ｃの文節情報（品詞を示すタグ情報と読みを示すタグ情報）をツリーコーパス１２ａに設定する。

　非係り度数は、解析対象の文節列において、係り受けのない文節が出現する頻度に相当する度数であり、係り度数は、解析対象の文節列において、係り受けがある文節が出現する頻度に相当する度数である。これらの度数は、解析対象の文節列における文節と文節との係り受け頻度の統計量に相当する。

　次に、全文解析部１２は、文節列Ｂにおける文節２２０ａと文節２２０ｃとの係り受け頻度の統計量を算出する（ステップＳＴ８ａ）。例えば、全文解析部１２は、文節列Ｂにおいて文節２２０ａから文節２２０ｃへ係っているので、文節２２０ａと文節２２０ｃとの係り受け頻度の統計量として、係り度数２５０ａに“１”を設定し、係り受けのない文節は存在しないので、非係り度数２５０ｂに“０”を設定する。全文解析部１２は、係り度数２５０ａおよび非係り度数２５０ｂをツリーコーパス１２ａに設定する。

　次に、全文解析部１２は、処理対象がＮ（＝２）番目の文節であったか否かを確認する（ステップＳＴ９ａ）。このとき、１番目の文節を処理した後である場合（ステップＳＴ９ａ；ＮＯ）、全文解析部１２は、ステップＳＴ５ａに戻って、２番目の文節に対して、前述した処理を繰り返す。

　処理対象が２番目の文節であった場合（ステップＳＴ９ａ；ＹＥＳ）、全文解析部１２は、文節数Ｎ（＝２）を＋１だけ増加させる（ステップＳＴ１０ａ）。文節列Ｂにおける２番目の文節２２０ｃを処理した場合、全文解析部１２は、ステップＳＴ１１ａの処理に移行する。

　ステップＳＴ１１ａにおいて、全文解析部１２は、Ｎが最大文節数より大きいか否かを確認する。Ｎが最大文節数よりも大きくなった場合（ステップＳＴ１１ａ；ＹＥＳ）、図３のステップＳＴ４の処理に移行する。一方、Ｎが最大文節数以下である場合（ステップＳＴ１１ａ；ＮＯ）、全文解析部１２は、ステップＳＴ５ａに戻る。

　Ｎ＝３、最大文節数（＝３）以下であるので、全文解析部１２は、図８に示した文節列情報２３０における文節数が３つの文節列Ａを処理対象として、ステップＳＴ５ａからの一連の処理を実行する。

　図１０Ａは、図８の文節列情報２３０における文節列Ａの係り受け解析結果２６０を示す図である。全文解析部１２は、文節列Ａを対象とした係り受け解析により文節２２０ａが文節２２０ｃに１回係るという係り受けを決定する。文節列Ａの文節２２０ｃの文節番号は“２”であることから、全文解析部１２は、文節列Ａの文節２２０ａの区切り情報の係り先番号を“－１”から“２”に変更する。

　また、全文解析部１２は、文節列Ａを対象とした係り受け解析によって文節２２０ｂが文節２２０ｃに１回係るという係り受けを決定する。文節列Ａの文節２２０ｃの文節番号は“２”であることから、全文解析部１２は、文節列Ａの文節２２０ｂの係り先番号を“－１”から“２”に変更する。さらに、文節２２０ｃには係り先の文節がないので、全文解析部１２は、文節２２０ｃの係り先番号を“－１”のままとする。

　自然言語で記述されたテキストでは、文節数が１つであれば、係り受けの可能性がないため、係り受けの組み合わせは０通りとなる。文節数が２つである場合、係り元と係り先の係り受けの可能性が１通りとなり、文節と文節との係り受け関係を曖昧性なく決定することができる。一方、文節数が３つであると、係り元と係り先の係り受けの組み合わせは２通りとなり、文節と文節との係り受け関係の曖昧性が増大する。このように、文節数の増加に伴って係り受けの組み合わせの数も増大するため、正しい係り受けの組み合わせを推定することが困難になる。
　そこで、実施の形態１に係る係り受け解析装置１が、前述したような自然言語の傾向を考慮して、係り受け関係を曖昧性なく決定可能な２文節から順に係り受け頻度の統計量を算出することで、係り受け解析装置１のユーザが係り受け頻度の統計量を確実に取得することができる。

　図１０Ｂは、文節列Ａの係り受け規則２７０を示す図である。文節列Ａの係り受け規則２７０において、規則番号“１”の規則は、従前に解析された文節列Ｂの係り受け規則に相当する。このため、文節列Ｂの係り受け解析結果をそのまま設定している。規則番号“２”の規則は、文節列Ａにおける文節２２０ｂと文節２２０ｃとの係り受け規則であり、規則番号“３”の規則は、文節列Ａにおける文節２２０ａと文節２２０ｂとの係り受け規則である。全文解析部１２は、文節２２０ａから文節２２０ｃまでの文節情報（品詞を示すタグ情報および読みを示すタグ情報）をツリーコーパス１２ａに設定する。

　文節列Ａにおいて文節２２０ｂ（係り元文節）から文節２２０ｃ（係り先文節）へ１回係っているので、全文解析部１２は、文節２２０ｂと文節２２０ｃとの係り度数２７０ａに“１”を設定し、文節列Ａにおいて係り受けのない文節は存在しないので、非係り度数２７０ｂに“０”を設定する。

　また、文節列Ａにおいて、文節２２０ａを係り元文節とし、文節２２０ｂを係り先文節とする係り受け関係は存在しないので、全文解析部１２は、文節２２０ａと文節２２０ｂとの係り度数２７０ｃに“０”を設定し、文節２２０ａと文節２２０ｂとの非係り度数２７０ｄに“１”を設定する。

　文節列Ｂに続いて、文節列Ａにおける係り度数および非係り度数の設定が完了すると、全文解析部１２は、文節列Ａおよび文節列Ｂ（入力されたテキストデータ）における文節と文節との係り受け頻度の統計量を算出する。
　例えば、入力されたテキストデータにおける文節と文節の係り受け頻度の統計量Ｐ_Ｄが算出される。統計量Ｐ_Ｄは、係り度数および非係り度数を用いて、下記式（１）から算出することができる。
　Ｐ_Ｄ＝（係り度数－非係り度数）／（係り度数＋非係り度数）　　　・・・（１）

　図３のステップＳＴ４において、抽出部１３は、文節と文節との係り受け規則および文節と文節の係り受け頻度の統計量Ｐ_Ｄをツリーコーパス１２ａから抽出する。
　図１１は、ツリーコーパス１２ａから抽出された係り受け規則に関する抽出情報２８０を示す図である。抽出情報２８０には、文節列Ａおよび文節列Ｂにおける文節と文節との係り受け規則および文節と文節との係り受け頻度の統計量Ｐ_Ｄが含まれる。

　図１１において、規則番号“１”の係り受け規則では、係り度数が“１”であり、非係り度数が“０”であるので、上記式（１）から統計量Ｐ_Ｄ＝１．０となる。
　また、規則番号“２”の係り受け規則では、係り度数が“１”であり、非係り度数が“０”であるので、上記式（１）から統計量Ｐ_Ｄ＝１．０となる。
　規則番号“３”の係り受け規則では、係り度数が“０”であり、非係り度数が“１”であるので、上記式（１）から統計量Ｐ_Ｄ＝－１．０となる。

　図１１に示すように、抽出情報２８０には、文節２２０ａから文節２２０ｃまでの文節情報が設定されている。また、抽出情報２８０には、文節２２０ａ、文節２２０ｂおよび文節２２０ｃのそれぞれの係り受け構造（係り元と係り先の係り受け関係）が設定され、さらに、係り受け頻度の統計量Ｐ_Ｄが設定されている。これにより、係り受け解析装置１のユーザは、ツリーコーパスを事前に手作業で作成しなくても、精度の高い係り受け規則を取得できる。

　次に、係り受け解析の具体的な処理について説明する。
　図１２は、図７のステップＳＴ５ａの処理の詳細を示すフローチャートである。
　全文解析部１２は、ステップＳＴ４ａにおいて文節数Ｎに２を設定すると、文節数Ｎ＝２の文節列を入力して、入力した文節列のコピーを作成する（ステップＳＴ１ｂ）。

　図１３は、処理対象の文節列（２文節）の一例を示す図であって、文節２２０ａおよび文節２２０ｃから構成された文節列Ｂを示す文節列情報３００である。例えば、全文解析部１２は、文節列情報３００を入力すると、図２Ａおよび図２Ｂに示したハードディスク１０２またはメモリ１０５に文節列情報３００を記憶して、文節列Ｂと同じ内容の情報を作成する。

　全文解析部１２は、入力した文節列が２文節であるか否かを確認する（ステップＳＴ２ｂ）。入力した文節列が３文節以上である場合（ステップＳＴ２ｂ；ＮＯ）、全文解析部１２は、ステップＳＴ６ｂの処理に移行する。
　一方、入力した文節列が２文節である場合（ステップＳＴ２ｂ；ＹＥＳ）、全文解析部１２は、入力した文節列における文節と文節との係りに対応する係り先番号を、コピーの文節列の文節の区切り情報とコピー元の文節列の文節の区切り情報との両方に付与する（ステップＳＴ３ｂ）。

　文節列Ｂでは、文節２２０ａおよび文節２２０ｃの両方の係り先の文節が未決定であることから、図１３に示すように、両方の文節の係り先番号は“－１”となっている。
　ただし、２文節の文節列では、文節番号が小さい文節（文頭の文節）が係り元文節となり、文節番号が大きい文節（文末の文節）が係り先文節となる。このため、２文節の文節列Ｂでは、文節番号“０”の文節２２０ａが、文節番号“１”の文節２２０ｃに係ることになる。

　図１４は、図１３の文節の区切り情報に係り先番号を付与した文節列情報３１０を示す図である。前述したように、文節番号“０”の文節２２０ａは、文節番号“１”の文節２２０ｃに係っている。このため、全文解析部１２は、文節２２０ａの係り先番号“－１”に対して、係り先文節（文節２２０ｃ）の文節番号である“１”を付与する。
　なお、文節２２０ｃの係り先の文節は未決定であるので、文節２２０ｃの係り先番号は“－１”のままである。これにより、文節列Ｂにおいて、文節２２０ａの区切り情報は“＊０１Ｄ”となり、文節２２０ｃの区切り情報は“＊１－１”となる。

　続いて、全文解析部１２は、係り先が決定している文節をコピーの文節列から削除する（ステップＳＴ４ｂ）。ここでは、係り先番号が“－１”である文節以外の文節が削除される。例えば、図１４に示す文節列Ｂでは、文節２２０ａから文節２２０ｃへ係りが決定しているので、全文解析部１２は、コピーの文節列Ｂから文節２２０ａを削除する。
　図１５は、文節列Ｂから文節２２０ａを削除した文節列情報３２０を示している。図１５に示すように、文節２２０ａが削除された文節列Ｂには、区切り情報が“＊１－１Ｄ”である文節２２０ｃのみが残っている。

　全文解析部１２は、コピーの文節列が１文節になったか否かを確認する（ステップＳＴ５ｂ）。このとき、コピーの文節列が２文節以上であれば（ステップＳＴ５ｂ；ＮＯ）、全文解析部１２は、ステップＳＴ２ｂに戻って、前述した処理を繰り返す。コピーの文節列が１文節であれば（ステップＳＴ５ｂ；ＹＥＳ）、全文解析部１２は、図７のステップＳＴ６ａの処理に移行する。

　ステップＳＴ３ｂにおいて、係り先番号の付与は、コピーの文節列の文節の区切り情報とコピー元の文節列の文節の区切り情報の両方に行われるので、コピーの文節列に反映された文節と文節の係り受け解析の結果はコピー元の文節列にも反映される。これにより、全文解析部１２は、文節と文節の係り受け解析が反映されたコピー元の文節列に対して、ステップＳＴ６ａからの一連の処理を実行することができる。

　一方、入力した文節列が３文節以上である場合（ステップＳＴ２ｂ；ＮＯ）、全文解析部１２は、入力した文節列における係り先が未定の文節が直後の文節に係るか否かを判定する（ステップＳ６ｂ）。ここで、係り先が未定の文節が直後の文節に係る場合（ステップＳＴ６ｂ；ＹＥＳ）、全文解析部１２は、ステップＳＴ３ｂに移行し、当該文節の区切り情報に係り先番号を付与して、前述した一連の処理を繰り返す。
　係り先が未定の文節が直後の文節に係らない場合（ステップＳＴ６ｂ；ＮＯ）、全文解析部１２は、ステップＳＴ４ｂに移行して、前述した一連の処理を繰り返す。

　図１６は、処理対象の文節列（３文節）の一例を示す図であり、文節２２０ａ、文節２２０ｂおよび文節２２０ｃから構成された文節列Ａを示す文節列情報４１０である。ステップＳＴ１ｂにおいて、全文解析部１２は、文節列情報４１０を入力すると、文節列Ａと同じ内容の情報を作成する。

　次に、全文解析部１２は、文節列Ａが３文節であるので（ステップＳＴ２ｂ；ＮＯ）、ステップＳＴ６ｂに移行する。ステップＳＴ６ｂにおいて、全文解析部１２は、文節列Ａにおいて、係り先が未定の文節が直後の文節に係るか否かを判定する。
　例えば、全文解析部１２は、文末の文節を除く係り先番号が“－１”の文節を特定し、抽出部１３によってツリーコーパスから抽出された係り受け規則および統計量Ｐ_Ｄを参照して、この文節がその直後にある文節へ係るか否かを解析する。なお、文末から２文節目の文節は、文末の文節に無条件で係るものとする。

　図１７は、図１６の文節２２０ｂの区切り情報に係り先番号を付与した文節列情報４２０を示す図である。文節列Ａでは、文節番号“１”の文節２２０ｂが文節番号“２”の文節２２０ｃに係っている。全文解析部１２は、ステップＳＴ３ｂに戻り、図１７に示すように、文節２２０ｂの係り先番号“－１”に対して、係り先文節の文節番号である“２”を付与する。

　ステップＳＴ４ｂにおいて、全文解析部１２は、係り先が決定している文節をコピーの文節列Ａから削除する。例えば、文節列Ａから、係り先番号が“－１”である文節以外の文節２２０ｂが削除されるので、図１８に示す文節列情報４３０が得られる。
　図１８に示すように、コピーの文節列Ａには、文節２２０ａと文節２２０ｃの２文節が残っており、１文節ではないので（ステップＳＴ５ｂ；ＮＯ）、全文解析部１２は、ステップＳＴ２ｂの処理に移行する。

　全文解析部１２は、コピーの文節列Ａが２文節であるので（ステップＳＴ２ｂ；ＹＥＳ）、文節番号“０”の文節２２０ａが、文節番号“２”の文節２２０ｃに係っていると判定する。全文解析部１２は、文節２２０ａの係り先番号“－１”に対して、係り先文節の文節番号である“２”を付与する。これにより、図１９に示す文節列情報４４０が得られる。この後、全文解析部１２が、文節列Ａに対し、ステップＳＴ４ｂからの一連の処理を実行することで、図２０に示す文節列Ａの係り受け解析結果４５０が得られる。

　以上のように、実施の形態１に係る係り受け解析装置１は、テキストデータに含まれる複数の文を、文節数が少ない文から順に文節と文節の係り受けを解析して、解析によって決定した文節と文節の係り受け規則および文節と文節の係り受け頻度の統計量を、ツリーコーパス１２ａに設定する。このように構成することで、係り受け解析装置１が、文節と文節の係り受け規則を作成し、係り受け規則に対応する文節と文節の係り受け頻度の統計量を算出することができる。

　特に、全文解析部１２は、曖昧性がなく係り受け関係を決定可能な２文節から順に係り受け頻度の統計量を算出する。例えば、テキストデータに２文節の短い文が大量に含まれていた場合、全文解析部１２は、大量の２文節の文を用いて、文節と文節の係り受け頻度の統計量を算出することができる。さらに、全文解析部１２は、大量の２文節の文から算出した確かな統計量を用いて、続く３文節の文における係り受け関係の曖昧性を解消しつつ、３文節の文を用いて係り受け頻度の統計量を算出し、同様に、４以上の文節数の文における係り受け関係の曖昧性を漸進的に解消しながら、４以上の文節数の文を用いて係り受け頻度の統計量を算出する。このように、全文解析部１２は、人間が幼児から成長するにつれて徐々に扱える言語の語数を増やしていくような言語習得の自然な流れを模した形で、文節と文節との係り受け頻度の統計量を算出している。

実施の形態２．
　実施の形態１では、文節数が少ない、すなわち短い文から順に単語と単語の係り受けを解析して係り受け規則および統計量を得る係り受け解析方法を示した。この解析方法は、テキストデータに短い文が含まれている場合に有効であるが、実際のテキストには短い文が含まれていない場合もある。そこで、実施の形態２では、文末にある文節から順に文節の係り受けを解析する方法について説明する。

　図２１は、この発明の実施の形態２に係る係り受け解析装置１Ａの構成を示すブロック図である。図２１において、図１と同一構成要素には同一符号を付して説明を省略する。係り受け解析装置１Ａは、入力したテキストデータに含まれる文の係り受けを解析する装置であり、形態素解析部１０、チャンキング部１１、全文解析部１２Ａおよび抽出部１３を備える。全文解析部１２Ａは、チャンキング部１１により文節列に変換された複数の文を、文末にある文節から順に文節の係り受けを解析し、解析によって決定した文節の係り受け構造を示す係り受け規則および文節の係り受け頻度の統計量をツリーコーパス１２ａに設定する。

　係り受け解析装置１Ａにおける、形態素解析部１０、チャンキング部１１、全文解析部１２Ａおよび抽出部１３のそれぞれの機能は、処理回路によって実現される。すなわち、係り受け解析装置１Ａは、図２２を用いて後述するステップＳＴ１ｃからステップＳＴ１１ｃまでの処理を実行するための処理回路を備える。処理回路は、専用のハードウェアであってもよいが、メモリに記憶されたプログラムを実行するプロセッサであってもよい。

　次に動作について説明する。
　図２２は、実施の形態２に係る係り受け解析方法を示すフローチャートである。図２２のステップＳＴ１ｃからステップＳＴ４ｃまでは、図７のステップＳＴ１ａからステップＳＴ４ａまでの処理と同じである。また、図２２のステップＳＴ６ｃからステップＳＴ１１ｃまでは、図７のステップＳＴ６ａからステップＳＴ１１ａまでの処理と同じである。
　ステップＳＴ５ｃにおいて、全文解析部１２Ａは、文末からＮ文節目の文節の係り受け解析を行う。

　図２３は、図２２のステップＳＴ５ｃの処理の詳細を示すフローチャートである。
　全文解析部１２Ａは、ステップＳＴ４ｃにおいて文節数Ｎに２を設定すると、文節数Ｎ＝２の文節列を入力して、入力した文節列のコピーを作成する（ステップＳＴ１ｄ）。
　次に、全文解析部１２Ａは、入力した文節列が文末から２文節の文節列であるか否かを確認する（ステップＳＴ２ｄ）。入力した文節列が文末から２文節の文節列ではない場合（ステップＳＴ２ｄ；ＮＯ）、全文解析部１２Ａは、ステップＳＴ６ｄに移行する。

　入力した文節列が文末から２文節の文節列である場合（ステップＳＴ２ｄ；ＹＥＳ）、全文解析部１２Ａは、ステップＳＴ３ｄに移行する。
　ステップＳＴ３ｄにおいて、全文解析部１２Ａは、入力した文節列の文末から２文節目の文節が文末の文節に係るように、係り先番号を、コピーの文節列の文節の区切り情報とコピー元の文節列の文節の区切り情報とに付与する。さらに、全文解析部１２Ａは、この係り受けの解析結果を一時的に記憶する。例えば、係り受け解析結果は、ハードディスク１０２またはメモリ１０５に一時的に記憶される。

　全文解析部１２Ａは、係り先が決定している文節をコピーの文節列から削除する（ステップＳＴ４ｄ）。ここで、係り先番号が“－１”である文節以外の文節が削除される。
　次に、全文解析部１２Ａは、コピーの文節列が１文節になったか否かを確認する（ステップＳＴ５ｄ）。コピーの文節列が２文節以上である場合（ステップＳＴ５ｄ；ＮＯ）、全文解析部１２Ａは、ステップＳＴ２ｄに戻って、前述した処理を繰り返す。
　コピーの文節列が１文節であれば（ステップＳＴ５ｄ；ＹＥＳ）、全文解析部１２Ａは、図２２のステップＳＴ６ｃの処理に移行する。

　ステップＳＴ３ｄにおいて、係り先番号の付与は、コピーの文節列の文節の区切り情報とコピー元の文節列の文節の区切り情報との両方に行われるので、コピーの文節列に反映された係り受け解析の結果は、コピー元の文節列にも反映される。さらに、この係り受けの解析結果は一時的に記憶されるので、全文解析部１２Ａは、一次記憶した係り受け解析結果を参照しながら文末から文頭へ向けて文節ごとに係り受け解析を行うことができる。これにより、図２３の一連の処理が完了すると、全文解析部１２Ａは、文末から文頭へ向けて文節ごとに行われた係り受け解析結果を用いて、ステップＳＴ６ｃからの一連の処理を行うことになる。

　一方、入力した文節列が文末から３文節以上の文節列である場合（ステップＳＴ２ｄ；ＮＯ）、全文解析部１２Ａは、入力した文節列において、係り先が未定の文節が、直後の文節に係るか否かを判定する（ステップＳＴ６ｄ）。係り先が未定の文節が直後の文節に係る場合（ステップＳＴ６ｄ；ＹＥＳ）、全文解析部１２Ａは、ステップＳＴ３ｄの処理に移行して、当該文節の区切り情報に係り先番号を付与して、前述した一連の処理を繰り返す。係り先が未定の文節が、直後の文節に係らない場合（ステップＳＴ６ｄ；ＮＯ）、全文解析部１２Ａは、ステップＳＴ４ｄに移行して、前述した一連の処理を繰り返す。

　以上のように、実施の形態２に係る係り受け解析装置１Ａは、テキストデータに含まれる複数の文を文末から順に文節の係り受けを解析し、解析によって決定した係り受け規則および文節の係り受け頻度の統計量をツリーコーパス１２ａに設定する。
　このように構成することで、学習用のテキストデータに短い文がない場合であっても、係り受け解析装置１Ａが、精度の高い係り受け規則を作成することができる。

実施の形態３．
　実施の形態２では、文末から順に文節と文節の係り受け解析を行ったが、学習用のテキストデータに含まれる文の数が少ない、すなわち解析対象の文の数が少ない場合、解析の精度を高めることができなくなる。そこで、実施の形態３では、特定の文字を基準として文を分割することで、文の数を増加させている。

　図２４は、この発明の実施の形態３に係る係り受け解析装置１Ｂの構成を示すブロック図である。図２４において、図１および図２１と同一構成要素には同一符号を付して説明を省略する。係り受け解析装置１Ｂは、入力したテキストデータに含まれる文の係り受けを解析する装置であって、形態素解析部１０、チャンキング部１１、全文解析部１２Ａ、抽出部１３および文分割処理部１５を備える。

　文分割処理部１５は、特定の文字を基準として、テキストデータに含まれる文を分割する。特定の文字とは、文の区切りであることが予想される文字であり、例えば、“。”、“？”、“！”といった記述記号、“（”および“）”といった括弧記号が挙げられる。分割された文は、文分割処理部１５から形態素解析部１０に出力される。

　係り受け解析装置１Ｂにおける、形態素解析部１０、チャンキング部１１、全文解析部１２Ａ、抽出部１３および文分割処理部１５のそれぞれの機能は、処理回路によって実現される。すなわち、係り受け解析装置１Ｂは、図２５を用いて後述するステップＳＴ１ｅからステップＳＴ５ｅまでの処理を実行するための処理回路を備える。処理回路は、専用のハードウェアであってもよいが、メモリに記憶されたプログラムを実行するプロセッサであってもよい。

　次に動作について説明する。
　図２５は、実施の形態３に係る係り受け解析方法を示すフローチャートである。
　図２５のステップＳＴ２ｅからステップＳＴ５ｅまでの処理は、図１のステップＳＴ１からステップＳＴ４までの処理と同じである。
　なお、ステップＳＴ４ｅでは、図２２に示した一連の処理が実行される。

　ステップＳＴ１ｅにおいて、文分割処理部１５は、係り受け解析装置１Ｂに入力されたテキストデータに含まれる文を、特定の文字を基準として分割する。
　例えば、文分割処理部１５は、“。”、“？”、“！”といった特定の文字の後に文字が続いていても改行を追加して文を分割する。括弧記号の中に文がある場合、文分割処理部１５は、括弧内を１文として取り出す。これにより、等価的に文の数が増加する。

　以上のように、実施の形態３に係る係り受け解析装置１Ｂは、文分割処理部１５を備える。文分割処理部１５は、特定の文字を基準として、テキストデータに含まれる文を分割する。全文解析部１２Ａは、分割された文を含む文を文末から順に文節と文節の係り受けを解析する。このように構成することで、学習用のテキストデータに文が少ない場合であっても、係り受け解析装置１Ｂが、精度の高い係り受け規則を作成することができる。

　実施の形態３では、実施の形態２に示した係り受け解析装置の構成に文分割処理部１５を適用した場合を示したが、文分割処理部１５は、実施の形態１に示した係り受け解析装置に適用してもよい。このように構成しても、学習用のテキストデータに含まれる文の数を増やすことができるので、最終的に得られる係り受け規則は精度の高いものとなる。

　なお、本発明は上記実施の形態に限定されるものではなく、本発明の範囲内において、実施の形態のそれぞれの自由な組み合わせまたは実施の形態のそれぞれの任意の構成要素の変形もしくは実施の形態のそれぞれにおいて任意の構成要素の省略が可能である。

　この発明に係る係り受け解析装置は、精度の高い係り受け規則を自動で作成することができるので、様々なテキスト解析システムに利用することができる。

　１，１Ａ，１Ｂ　係り受け解析装置、１０　形態素解析部、１１　チャンキング部、１１ａ　文節接続規則、１２，１２Ａ　全文解析部、１２ａ　ツリーコーパス、１３　抽出部、１４　係り受け規則データ、１５　文分割処理部、１００　入力回路、１００ａ　入力インタフェース、１０１　出力回路、１０１ａ　出力インタフェース、１０２　ハードディスク、１０３　処理回路、１０４　プロセッサ、１０５　メモリ、２００　テキストデータ、２００ａ，２００ｂ　文、２１０　形態素解析結果、２１０ａ　形態素、２１０ｂ，２１０ｃ　タグ情報、２２０　チャンキング処理結果、２２０ａ～２２０ｃ　文節、２３０，３００，３１０，３２０，４１０，４２０，４３０，４４０　文節列情報、２４０，２６０，４５０　係り受け解析結果、２５０，２７０　係り受け規則、２５０ａ，２７０ａ，２７０ｃ　係り度数、２５０ｂ，２７０ｂ，２７０ｄ　非係り度数、２８０　抽出情報。

Claims

　自然言語で記述された複数の文を含むテキストデータを入力し、前記テキストデータに含まれる前記複数の文のそれぞれを形態素ごとに分割する形態素解析部と、
　前記形態素解析部から出力された形態素列を文節列に変換するチャンキング部と、
　前記チャンキング部により文節列に変換された複数の文を、文節数が少ない文から順に文節と文節の係り受けを解析し、解析によって決定した文節と文節の係り受け関係を示す係り受け規則および文節と文節の係り受け頻度の統計量をツリーコーパスに設定する全文解析部と、
　前記ツリーコーパスから、前記係り受け規則および前記統計量を抽出する抽出部と
　を備えたことを特徴とする係り受け解析装置。
　自然言語で記述された複数の文を含むテキストデータを入力し、前記テキストデータに含まれる前記複数の文のそれぞれを形態素ごとに分割する形態素解析部と、
　前記形態素解析部から出力された形態素列を文節列に変換するチャンキング部と、
　前記チャンキング部により文節列に変換された複数の文を、文末から順に文節と文節の係り受けを解析し、解析によって決定した文節と文節の係り受け関係を示す係り受け規則および文節と文節の係り受け頻度の統計量をツリーコーパスに設定する全文解析部と、
　前記ツリーコーパスから、前記係り受け規則および前記統計量を抽出する抽出部と
　を備えたことを特徴とする係り受け解析装置。
　特定の文字を基準として、前記テキストデータに含まれる文を分割する文分割処理部を備え、
　前記形態素解析部は、前記文分割処理部により分割された文を含む複数の文のそれぞれを形態素ごとに分割すること
　を特徴とする請求項１または請求項２記載の係り受け解析装置。
　形態素解析部が、自然言語で記述された複数の文を含むテキストデータを入力し、前記テキストデータに含まれる前記複数の文のそれぞれを形態素ごとに分割するステップと、
　チャンキング部が、前記形態素解析部から出力された形態素列を文節列に変換するステップと、
　全文解析部が、前記チャンキング部により文節列に変換された複数の文を、文節数が少ない文から順に文節と文節の係り受けを解析し、解析によって決定した文節と文節の係り受け関係を示す係り受け規則および文節と文節の係り受け頻度の統計量をツリーコーパスに設定するステップと、
　抽出部が、前記ツリーコーパスから、前記係り受け規則および前記統計量を抽出するステップと
　を備えたことを特徴とする係り受け解析方法。