WO2007015505A1

WO2007015505A1 - データ処理装置、データ処理方法、データ処理プログラム

Info

Publication number: WO2007015505A1
Application number: PCT/JP2006/315274
Authority: WO
Inventors: Yousuke Sakao; Takahiro Ikeda; Kenji Satou
Original assignee: Nec Corporation
Priority date: 2005-08-04
Filing date: 2006-08-02
Publication date: 2007-02-08
Also published as: US8775158B2; JP4992715B2; US20100063795A1; JPWO2007015505A1

Abstract

【課題】入力データの中に同一の内容を指す複数の語あるいは意味的に関連のある複数の語が含まれている場合にも、特徴構造を正しく抽出することができる、テキストマイニングなどのデータ処理を行う装置等を提供すること【解決手段】テキストマイニング装置１０の関連節点抽出手段２２が、構文解析の結果得られたグラフから、意味的に関連する語を含む関連節点を抽出する。関連節点接合手段２３は、関連節点の一部または全部を接合することによりグラフを変形する。特徴構造抽出手段２４は、節点接合手段により変形されたグラフから、特徴構造を抽出する。

Description

明細書

データ処理装置、データ処理方法、データ処理プログラム

技術分野

[0001] 本発明は、コンピュータ上に蓄積される電子化テキストなどの入力データを構文解析などの手段により構造ィ匕して分析を行う、テキストマイニングやテキスト要約、テキスト検索、テキスト分類などのデータ処理に関し、特に、構文解析などの手段により得られた入力データの構造を表すグラフを節点同士の関係に基づいて変形し、変形後のグラフから特徴構造を抽出するデータ処理装置、データ処理方法、データ処理プログラムに関する。

背景技術

[0002] テキストマイニング装置の一例として、特許文献 1には、図 24に示すような構成が開示されている。この従来のテキストマイニング装置は、基本辞書記憶部と、文書データ記憶部と、分野依存辞書記憶部と、言語特徴分析装置と、言語解析装置と、バターン抽出装置と、頻出パターン表示装置とを備えている。

図 24のテキストマイニング装置は、おおまかには、次のように動作する。まず、言語特徴分析装置が、基本辞書と文書データとから分野依存辞書を作成する。次に、言語解析装置が基本辞書と分野依存辞書と文書データから 1文毎に構文木などの文構造を作成する。ここで、文構造とは、テキストを構文解析することで得られるテキストを表現するグラフ構造を指す。その次に、パターン抽出装置が、この文構造を用いて特徴構造を抽出し、この特徴構造に合致する文書データ中の文書を頻出パターン適合文書記憶部に記憶させると同時にこの特徴構造を出力する。ここで、特徴構造とは、文構造の部分構造に対してテキストマイニング処理を適用して抽出される頻出バターンなどのテキスト集合を特徴付ける部分構造を指す。

[0003] 特許文献 1 :特開 2001— 84250号公報

発明の開示

発明が解決しょうとする課題

[0004] 上記のような従来のマイニング装置は、テキストの中に同一の内容を指す複数の語あるいは意味的に関連のある複数の語が含まれている場合に、特徴構造を正しく抽出することができないという問題がある。ここで言う「同一の内容を指す語」とは、たとえば照応関係にある代名詞またはゼロ代名詞と先行詞である。

[0005] 従来のテキストマイニング装置は、たとえば、意味の同じ一つの内容について、 1テキスト内で単一の語を用いて書かれている場合と、 1テキスト内で同一の内容を指す複数の語 (テキスト中で省略されて、るゼロ代名詞等を含む）を用いて書かれて!/、る場合とを同一視してテキストマイニングを行うことができない。

これは、従来のテキストマイニング装置は、意味の同じ一つの内容について、 1テキスト内で単一の語を用いて書かれている場合と、 1テキスト内で同一の内容を指す複数の語を用いて書かれて、る場合とを同一視する手段を備えて、な、ためである。

[0006] 図 25は、「車種 Aは安くて高性能だ。」（テキスト S 100)と「車種 Aは安い。し力も高性能だ。」（テキスト S101)という二つのテキストを構文解析して得られる文構造と、その文構造に対して従来技術によるテキストマイニングを行った際にそれぞれの文構造から抽出される特徴構造の例である。

テキスト S100を構文解析すると文構造 T100が得られ、これがそのまま特徴構造 P T101として抽出される（図 25 (a) )。テキスト S101を構文解析すると文構造 T101と文構造 T102が得られ、特徴構造として特徴構造 PT101および PT102が抽出される（図 25 (b) )。

[0007] テキスト S100は、「車種 A」という単一の語を用いて、テキスト S101は「車種 A」および「高性能だ」の前に省略されて!、る「ゼロ代名詞」と!、う二つの語を用いて、「車種 A は安く且つ高性能だ」という同一の内容について述べている。従って、この内容を表現する図 26の部分構造 PT103が二つのテキストから特徴構造として抽出されることが望ましい。

し力し、この内容を「車種 A」と!、う単一の語で述べて、るテキスト S 100の文構造 T 100と、この内容を先行詞「車種 A」と「ゼロ代名詞」を用、て述べて!/、るテキスト S 10 1の文構造 T101および T102では、異なる構造となってしまっている。その結果、既存のテキストマイニング手法では同じ意味内容を表す両者の文の構造を同一視できず、別々の特徴部分構造として抽出されてしまう。 [0008] また、従来のテキストマイニング装置は、たとえば、一つのテキスト中で、意味的に関連のある複数の語を用いて一つの内容を述べて、る場合に、その内容を一つの構造にまとめて抽出することができない。

これは、従来のテキストマイニング装置は、一つのテキスト中で、意味的に関連のある複数の語を用いて一つの内容を述べて、る場合に、その内容を一つの構造にまとめて抽出する手段を備えて、な、ためである。

「意味的に関連のある語」には、例えば、同表層の語、シソーラス中で同義語の関係にある語、ユーザ指定の同義語、上位概念と下位概念などシソーラス中で相互に関係を持つ語 (シソーラス中での関連語)、ユーザ指定の関連語などの意味的に関連するが同じ内容を指さない語が挙げられる。なお、ユーザ指定の同義語とは、同一の内容を指し得る複数の語としてユーザが指定する語で、頻出パターンなどの特徴構造抽出時に同一の語として判定される。また、ユーザ指定の関連語とは、相互に関連するが必ずしも同一の内容を指さない語としてユーザが指定する語である。

[0009] 図 27に、一つのテキスト中で、意味的に関連のある複数の語を用いて一つの内容を述べている場合に、従来技術では、その内容を一つの構造にまとめて抽出を行うことが出来ない例を示す。図 27は、「軽自動車は一般に安いが、 B社の軽自動車は高い。」（テキスト S 102)と「軽自動車は安い。 B社の軽自動車は高いが。」（テキスト S1 03)という二つのテキストを構文解析して得られる文構造と、その文構造に対して従来技術によるテキストマイニングを行った際にそれぞれの文構造力抽出される構造の例である。テキスト S102を構文解析すると、文構造 T103が得られ、部分構造 PT1 04および PT105が特徴部分構造として抽出される（図 27 (a) )。テキスト S103を構文解析すると、文構造 T104および T105が得られ部分構造 PT106および PT107 が特徴部分構造として抽出される（図 27 (b) )。

[0010] どちらのテキストも一般の軽自動車と B社の軽自動車を比較して述べて、る。従つて、この比較を表現する図 28の PT108のような構造力この二つのテキストから特徴構造として抽出されることが望まし、。

しかし、テキスト S102の文構造 T103では、一般の軽自動車と B社の軽自動車の意味的な関係が文構造上で表現されて、な、ため、既存のテキストマイニング手法ではこの比較を表す構造を一つの構造にまとめて抽出を行うことができない。また、テキスト S 103の文構造では、この比較を表す構造が文構造 T104および T105の 2つに分割されてしまっているため、既存のテキストマイニング手法では一つの構造にまとめて抽出を行うことができない。

その結果として、二つのテキストには同表層の複数の語「軽自動車」を用いて書かれた関連する内容があるのに、一般の軽自動車につ!、て述べた内容の構造 (PT10 4および PT106)と B社の軽自動車につ、て述べた内容の構造（PT105および PT1 07)が別々に抽出されてしまう。

[0011] そこで、本発明は、テキストなどの入力データの中に同一の内容を指す複数の語あるいは意味的に関連のある複数の語が含まれている場合にも、特徴構造を正しく抽出することができるデータ処理装置および方法並びにプログラムを提供することを目的とする。

課題を解決するための手段

[0012] 本発明に係るデータ処理装置は、関連節点抽出手段を備え、構文解析などの結果得られたグラフ力意味的に関連する語を含む関連節点を抽出する。

関連節点接合手段は、関連節点の一部または全部を接合することによりグラフを変形する。ここで、「接合」とは、複数の節点を一つの節点に結合すること、または、ダラフ中のある節点と他の節点を新たな枝で接続することを意味する。

特徴構造抽出手段は、関連節点接合手段により変形されたグラフから、特徴構造を抽出する（請求項 1)。

[0013] 上記データ処理装置によれば、関連節点接合手段が関連節点を接合することによりグラフを変形する。この変形は、意味的に関連のある語を含む関連節点を結合したり、新たな枝で結ぶことにより行われるから、本来は同じ意味を表しているにもかかわらず、構文解析で得られた最初のグラフでは、そのように認識できない複数の部分構造を関連付けることができる。

そのため、入力データの中に同一の内容を指す複数の語あるいは意味的に関連のある複数の語が含まれている場合にも、特徴構造を正しく抽出することができる。

[0014] 上記データ処理装置において、関連節点接合手段が、関連節点を意味的関連性の強弱により強関連節点と弱関連節点に分類し、強関連節点を一つの節点に結合するようにしても良ヽ (請求項 2)。

このようにすれば、同一の内容を指す節点を一つの節点に結合するようにグラフを変形することができる。すなわち、 1つの入力データ内で単一の語を用いて書かれている場合の構造と、 1つの入力データ内で同一の内容を指す複数の語を用いて書かれている場合の構造とを同一の形に変形することができる。

特徴構造抽出手段は、このように変形した後のグラフから特徴構造を抽出するから、意味の同じ一つの内容について、 1つの入力データ内で単一の語を用いて書かれている場合と、 1つの入力データ内で同一の内容を指す複数の語 (たとえば、先行詞とそれに照応する代名詞)を用いて書かれている場合とを、同一視して特徴構造を抽出することができる。

[0015] 上記データ処理装置において、関連節点接合手段が、関連節点を意味的関連性の強弱により強関連節点と弱関連節点に分類して、弱関連節点を意味的関連枝で接続し、特徴構造抽出手段が、前記グラフの部分構造が、意味的関連枝で接続された節点を含み、かつ、その中の少なくとも 1の節点が係り受け枝により他の節点と接続されて！/、な！/、場合は特徴構造として抽出しな、ようにしても良ヽ (請求項 3)。なお、特徴構造抽出処理の際には、この意味的関連枝はグラフ構造中の係り受け関係を表す枝とは区別される。

[0016] このようにすれば、互いに意味的に関連する節点どうしを意味的関連枝により結んで構造変形することで、一つの入力データが意味的に関連のある複数の語を用いて一つの内容を述べている場合に、その語に対応する節点を意味的関連枝により結び一つの部分構造にまとめるようにグラフを変形することができる。

特徴構造抽出手段は、このように変形したグラフカゝら特徴構造を抽出するから、一つの入力データの中で、意味的に関連のある複数の語を用いて一つの内容を述べている場合に、その内容を一つの構造にまとめて抽出することができる。

[0017] 前記データ処理装置において、関連節点抽出手段が、代名詞またはゼロ代名詞と照応関係にある先行詞を含む節点である照応節点を関連節点として抽出し、前記関連節点接合手段が、照応節点を強関連節点として分類するようにしてもよい (請求項 4) ₀

[0018] 前記データ処理装置において、関連節点抽出手段が、表層が同じである語を含む節点である同表層節点を関連節点として抽出し、関連節点接合手段が、同表層節点を弱関連節点として分類するようにしてもょ、 (請求項 5)。

[0019] 前記データ処理装置において、関連節点抽出手段が、シソーラスで同義語とされている語を含む節点である同義語節点を関連節点として抽出し、関連節点接合手段は、同義語節点を弱関連節点として分類するようにしてもょヽ (請求項 6)。

[0020] 前記データ処理装置において、関連節点抽出手段が、使用者が指定した同義語を含む節点である指定同義語節点を関連節点として抽出し、関連節点接合手段が、指定同義語節点を弱関連節点として分類するようにしてもょ、 (請求項 7)。

[0021] 前記データ処理装置において、関連節点抽出手段が、シソーラスで関連語とされている語を含む節点である関連語節点を関連節点として抽出し、関連節点接合手段力関連語節点を弱関連節点として分類するようにしてもよ!ヽ (請求項 8)。

[0022] 前記データ処理装置において、関連節点抽出手段が、使用者が指定した関連語を含む節点である指定関連語節点を関連節点として抽出し、関連節点接合手段が、指定関連語節点を弱関連節点として分類するようにしてもょ、 (請求項 9)。

[0023] 前記データ処理装置において、意味的関連度計算手段が関連節点に含まれる語の意味的な関連性の強弱を示す意味的関連度を計算し、関連節点接合手段は、意味的関連度に基づいて関連節点を強関連節点と弱関連節点に分類するようにしてもよい (請求項 10)。

このようにすれば、強関連節点と弱関連節点の分類を、定量的な指標に基づいて行うことができる。

[0024] 前記データ処理装置において、関連節点接合手段が、意味的関連度が第 1の閾値より小さい関連節点を弱関連節点として分類し、意味的関連度が第 1の閾値以上である関連節点は強関連節点として分類するようにしてもょヽ（請求項 11)。

さらに、意味的関連度が第 2の閾値 (第 1の閾値より小)よりも小さい関連節点に対しては接合を行わな、ようにしてもょヽ（請求項 12)。

このようにすれば、マイニングなどのデータ処理の目的や対象の入力データの性質に応じて閾値を適切に定めて関連節点接合手段の動作を調整し、特徴構造抽出手段により抽出される特徴構造を調整することができる。

[0025] 本発明に係る、データ処理方法では、文章の構造を表すグラフの節点から意味的に関連する節点である関連節点を抽出し、関連節点の一部または全部を接合することにより前記グラフを変形し、この変形されたグラフから特徴構造を抽出する（請求項 13)。

[0026] 上記データ処理方法によれば、関連節点を接合することによりグラフを変形する。この変形は、意味的に関連のある語を含む関連節点を結合したり、新たな枝で結ぶことにより行われるから、本来は同じ意味を表しているにもかかわらず、構文解析で得られた最初のグラフでは、そのように認識できない複数の部分構造を関連付けることができる。

[0027] 本発明に係るデータ処理プログラムでは、コンピュータに、入力データの構造を表すグラフの節点力意味的に関連する節点である関連節点を抽出するステップと、関連節点の一部または全部を接合することにより前記グラフを変形するステップと、この変形されたグラフから特徴構造を抽出ステップとを実行させる（請求項 14)。

[0028] 上記データ処理プログラムによれば、コンピュータに、関連節点を接合することによりグラフを変形するステップを実行させる。この変形は、意味的に関連のある語を含む関連節点を結合したり、新たな枝で結ぶことにより行われるから、本来は同じ意味を表しているにもかかわらず、構文解析で得られた最初のグラフでは、そのように認識できない複数の部分構造を関連付けることができる。

そのため、入力データの中に同一の内容を指す複数の語あるいは意味的に関連のある複数の語が含まれている場合にも、特徴構造を正しく抽出することができる。発明の効果

[0029] 本発明のデータ処理装置等によれば、関連節点抽出手段が意味的に関連のある節点を関連節点として抽出し、関連節点接合手段が関連節点を接合することによりマイニングなどのデータ処理の対象となる入力データを解析して得られたグラフを変形する。特徴構造抽出手段は、変形後のグラフから特徴構造を抽出する。

そのため、データ処理の対象となる入力データの中に同一の内容を指す複数の語あるいは意味的に関連のある複数の語が含まれて、る場合にも、特徴構造を正しく抽出することができる。

発明を実施するための最良の形態

[0030] 次に、図を参照しながら本発明の第 1の実施形態であるテキストマイニング装置 10 の構成と動作につ!、て説明する。

(テキストマイニング装置 10の構成）

図 1は、テキストマイニング装置 10の構成を示す機能ブロック図である。テキストマイニング装置 10は、たとえばパーソナルコンピュータで構成され、情報を記憶する記憶装置 1と、プログラム制御により動作するデータ処理装置 2と、検出された部分構造を表示する出力装置 3とを備えている。記憶装置 1にはテキストデータべース（DB) 11が格納されている。テキスト DB11には、テキストマイニングの対象となるテキストの集合が記憶されて、る。

[0031] データ処理装置 2は、言語解析手段 21と、関連節点抽出手段 22と、関連節点接合手段 23と、特徴構造抽出手段 24を備えている。

言語解析手段 21は、テキスト DB11からテキスト集合を読み込み、集合中の各テキストを解析して文構造を生成する。

関連節点抽出手段 22は、言語解析手段 21から送られてきた文構造の集合中の各文構造から、互いに意味的に関連する節点（関連接点)の抽出を行う。意味的に関連のある節点としては、例えば、照応関係にある代名詞またはゼロ代名詞と先行詞の関係にある節点、表層が同じである節点、シソーラス中で同義語の関係にある節点、ユーザ指定の同義語の関係にある節点、シソーラス中で関連語の関係にある節点、ユーザ指定の関連語の関係にある節点などが挙げられる。

[0032] なお、関連節点の抽出には、例えば、照応解析、 2つの文節の表層のパターンマツチング、ユーザ指定の同義語や関連語の表層と文節の表層とのパターンマッチング、シソーラス中の語と文節の表層とのパターンマッチングなどの公知技術が用いられる。 [0033] 関連節点接合手段 23は、関連節点抽出手段 22から文構造の集合と関連節点の情報を受け取り、各文構造の変形を行う。

例えば、関連節点接合手段 23は、関連節点抽出手段 22から文構造の集合と関連節点の情報を受け取り、各文構造中の互いに関連のある節点どうしを結合して一つの節点として各文構造の変形を行う。

別の例としては、関連節点接合手段 23は、関連節点抽出手段 22から文構造の集合と関連節点の情報を受け取り、各文構造中の意味的に互いに関連のある節点どうしを意味的関連枝で結ぶことで各文構造の変形を行う。

[0034] さらに別の例としては、関連節点接合手段 23は、関連節点抽出手段 22から文構造の集合と関連節点の情報を受け取り、各文構造中の抽出された関連節点について、節点間の関係を分類する。たとえば、関連節点として抽出された複数の節点が同一の内容を指す場合 (強関連節点）と意味的に関連があるが必ずしも同一の内容を指さなヽ場合 (弱関連節点)の 2種類に分類する。

そして、強関連節点については、関連のある節点どうしを結合して一つの節点に結合し、弱関連節点については、関連のある節点どうしを意味的関連枝で結ぶ。

[0035] 関連節点を強関連節点と弱関連節点に分類するには、たとえば次のようにする。

照応関係にある代名詞またはゼロ代名詞の節点と先行詞の節点を強関連節点とする。

表層が同じである節点、シソーラス中で同義語の関係にある節点、ユーザ指定の同義語の関係にある節点、シソーラス中で関連語の関係にある節点、ユーザ指定の関連語の関係にある節点を弱関連節点とする。

[0036] また、ある文構造中の節点 A、 B、 Cについて、節点 Aと節点 Bが関連節点であり、節点 Bと節点 Cも関連節点である場合に、節点 Aと節点 Cも関連節点としても良い。その場合の節点 Aと節点 Cの関係の分類は、例えば、節点 Aと節点 Bが強関連節点で、かつ、節点 Bと節点 Cも強関連節点である場合は、節点 Aと節点 Cを強関連節点とし、その他の場合は、節点 Aと節点 Cを弱関連節点とすることにより行う。

[0037] 文構造から、一つの節点に結合するべき強関連節点の組が複数抽出され、且つある節点がその複数の強関連連節点の組に含まれる場合がある。そのような場合の例として、図 2に「車種 Aは安い。これは速い。これは人気だ。」（テキスト S20)というテキストの文構造を示す。テキスト S20からは、構造 T20— A、 T20— B、 T320— Cが得られる。なお、図 2中に 2つ存在する「これ」という節点を区別するために、テキスト S2 0中での出現順に A, Bの添え字を振っている。

関連節点接合手段 23により、照応関係にある代名詞またはゼロ代名詞の節点と先行詞の節点が一つの節点に結合される場合、図 2中の「車種 A」と「これ」（添え字 A) 、「車種 A」と「これ」（添え字 B)がそれぞれ一つの節点に結合するべき関連節点の組となり、「車種 A」はその両方に含まれることになる。

[0038] このような場合の節点接合は、たとえば、全ての関連節点を一つの節点に結合 (方法 1)してもょ、し、 1組の関連節点を結合した節点を関連節点の組の数だけ生成 (方法 2)してちよい。

[0039] 図 2の文構造に方法 1を適用し関連節点の接合を行った結果の文構造 T21を図 3 に示す。構造 T21では、図 2の 3つの節点「車種 A」、「これ」（添え字 A)、「これ」（添え字 B)がーつの節点に結合され、図 3の節点「車種 A」となっている。

図 2の文構造に方法 2を適用し、関連節点の接合を行った結果の文構造 T22を図 4に示す。構造 T22では、図 2の節点「車種 A」と「これ」（添え字 A)がーつの節点に結合され、図 4の節点「車種 A」（添え字 A)となっている。また、図 2の節点「車種 A」と「これ」（添え字 B)がーつの節点に結合され、図 4の節点「車種 A」（添え字 B)となっている。

なお、図 4の各接点を結ぶ枝は、いずれも係り受けを示す通常の枝である。

[0040] また、文構造から、意味的関連枝で結ぶべき弱関連節点の組が複数抽出され、且つある節点がその複数の弱関連連節点の組に含まれる場合が存在する。そのような場合の例として図 5に「関東の車種と関西の車種と中部の車種の比較。」（テキスト S2 1) t 、うテキストの文構造 T23を示す。なお、 T23中に 3つ存在する「車種」と、う節点を区別するために、テキスト S21中での出現順に A、 B、 Cの添え字を振っている。関連節点接合手段 23により、同表層の関係にある節点が意味的関連枝で結ばれる場合、 T23中の節点「車種」（添え字 A)と「車種」（添え字 B)、「車種」（添え字 A)と「車種」（添え字 C)、「車種」（添え字 B)と「車種」（添え字 C)がそれぞれ意味的関連枝で結ばれるべき弱関連節点の組となり、「車種」（添え字 A)、「車種」（添え字 B)、「車種」（添え字 C)はそれぞれ複数の弱関連節点の組に含まれることになる。

[0041] このような場合は、たとえば、全ての関連節点の組について、関連節点どうしを意味的関連枝で結ぶ方法 (方法 3)がある。

また、複数の関連節点の組に含まれる各節点について、関連節点のうち最もテキスト内での距離が近い文節に対応する節点と意味的関連枝で結んでもよい (方法 4)。ただし、関連節点のうち最もテキスト内での距離が近い文節に対応する節点が複数ある場合は、その全てに意味的関連枝を結ぶ。

[0042] 図 5の文構造 T23に方法 3を適用し関連節点の接合を行った結果の文構造 T24を

、図 6に示す。図 6の文構造 T24中の点線は、意味的関連枝を示す。図 5の関連節点「車種」（添え字 A)と「車種」（添え字 B)、「車種」（添え字 A)と「車種」（添え字 C)、「車種」（添え字 B)と「車種」（添え字 C)の 3組全てについて意味的関連枝が張られ、文構造 T24となっている。

[0043] 図 5の文構造 T23に方法 4を適用し関連節点の接合を行った結果の文構造 T25を

、図 7に示す。図 7の文構造 T25中の点線は、意味的関連枝を示す。

図 7の節点「車種」（添え字 A)からは、二つある関連節点「車種」（添え字 B)、「車種

」（添え字 C)のうち、文内距離がより短い文節に対応する「車種」（添え字 B)に意味的関連枝を結ぶ。

図 7の節点「車種」（添え字 B)からは、二つある関連節点「車種」（添え字 A)、「車種」（添え字 C)が等距離にあるため、双方に意味的関連枝を結ぼうとするが、「車種」（添え字 A)と「車種」（添え字 B)は既に意味的関連枝で結ばれているため、「車種」（添え字 B)と「車種」（添え字 C)のみが意味的関連枝で結ばれる。

図 7の節点「車種」（添え字 C)からは、二つある関連節点「車種」（添え字 A)、「車種」（添え字 B)のうち、文内距離がより短い文節に対応する「車種」（添え字 B)に意味的関連枝を結ぼうとするが、「車種」（添え字 B)と「車種」（添え字 C)は既に意味的関連枝で結ばれて、るため何も行われな!/、。

このようにして、図 5の「車種」（添え字 A)と「車種」（添え字 B)、「車種」（添え字 B)と「車種」（添え字 C)がそれぞれ意味的関連枝で結ばれ、図 7の文構造 T25となる。 [0044] 特徴構造抽出手段 24は、関連節点接合手段 23から送られた関連節点の接合により変形された文構造の集合から特徴的な部分構造を抽出し、出力装置 3へ送る。ただし、関連節点接合手段 23により意味的関連枝で結ばれた節点の少なくとも一方から、係り受けの枝が他の節点に結ばれていない構造を、特徴構造抽出手段 24は特徴構造として抽出しない。

[0045] (テキストマイニング装置 10の動作）

図 8は、テキストマイニング装置 10の動作を説明するための流れ図である。まず、言語解析手段 21が、テキスト DB11からテキスト集合を読み込む。言語解析手段 21は、テキスト集合中の各テキストに対し解析を行い、解析結果として文構造を生成し、関連節点抽出手段 22に送る（図 8のステップ Al)。

[0046] 関連節点抽出手段 22は、与えられた文構造の集合中の各文構造力も互いに関連する節点の抽出を行い、文構造の集合と各文構造中の関連節点の情報を関連節点接合手段 23に送る（図 8のステップ A2 :関連節点抽出ステップ)。

[0047] 関連節点接合手段 23は、与えられた文構造の集合と各文構造中の関連節点の情報から、各文構造中の互いに関連のある節点の接合を行うことで、文構造の集合中の各文構造の変形を行!ヽ、変形結果として得た構造の集合を特徴構造抽出手段 24 に送る（図 8のステップ A3：関連節点接合ステップ)。

[0048] 特徴構造抽出手段 24は、与えられた関連節点の接合による変形後の文構造の集合から、特徴的な部分構造の抽出を行う（図 8のステップ A4 :特徴構造抽出ステップ

) o

最後に、特徴構造抽出手段 24は、抽出した特徴構造を出力装置 3に出力する（図 8のステップ A5)。

[0049] 次に、テキストマイニング装置 10の具体的な動作例について説明する。

この動作例においては、関連節点抽出手段 22は照応関係にある先行詞と代名詞またはゼロ代名詞を関連節点として抽出し、関連節点接合手段 23は関連節点を一つの節点に結合することで文構造の構造変形を行う。

[0050] 図 9に示したテキスト S1乃至テキスト S3は、図 1のテキスト DB11に記憶されているテキスト集合の一部である。言語解析手段 21は、図 9の各テキストに対して言語解析を行い、各テキストの文構造を得る（図 8のステップ Al)。図 10に、言語解析手段 21による解析の結果得られる文構造を示す。図 9のテキスト S1の文構造が図 10の構造 Tl、図 9のテキスト S2の文構造が図 10の構造 Τ2— Αおよび Τ2— B、図 9のテキスト S 3の文構造が図 10の構造 T3— Aおよび T3— Bである。なお、図 10の構造 T1については言語解析手段 21による並列処理が適用されており、図 10の構造 T2— Bについては言語解析手段 21によるゼロ代名詞抽出処理が適用されて、る。

[0051] 関連節点抽出手段 22は、図 10に示される各文構造力も意味的に関連する節点の抽出を行う（図 8のステップ A2)。本実施例では、照応する先行詞と代名詞の関係にある構造 T2— Aの「車種 A」と構造 T2— Bの「（ゼロ代名詞）」および照応する先行詞と代名詞の関係にある構造 T3— Aの「車種 A」と構造 T3— Bの「その」「車種」（1節点力^節点に照応する）の 2組が関連節点としてそれぞれ抽出される。

[0052] 関連節点接合手段 23は、図 10に示す文構造の集合中の各文構造に対して、関連節点抽出手段 22が抽出した関連節点の情報を元に、関連節点の接合による文構造の変形を行う（図 8のステップ A3)。図 11に、関連節点接合手段 23により得られる変形後の構造を示す。

図 10の構造 T1には、関連節点が存在しな!、ので特に変形が行われず図 11の構造 T1 'となる。

図 10の構造 T2— Aと T2— Bでは、関連節点である構造 T2— Aの「車種 A」と構造 T2— 「（ゼロ代名詞）」は照応関係にある先行詞とゼロ代名詞に対応する節点であるので、これらの節点が一つの節点に結合され、図 10の構造 T2—Aと T2— Bは接合されて図 11の構造 T2'となる。

図 10の構造 T3— Aと T3— Bでは、関連節点である構造 T3— Aの「車種 A」と構造 T3— Bの「その」「車種」は照応関係にある先行詞と代名詞に対応する節点であるので、これらの節点が一つの節点に結合され、図 10の構造 T3— Aと 3— Bは接合されて図 11の構造 T3'となる。

[0053] 特徴構造抽出手段 24は、図 11に示される変形後の文構造の集合から特徴構造の抽出を行う（図 8のステップ A4)。ここでは、 3回以上出現している部分構造を特徴構造として抽出する。図 11を参照すると、抽出される頻出部分構造は図 12の頻出部分構造 PT1な!、し PT6のようになる。

最後に、抽出された特徴構造を出力装置 3に表示する（図 2のステップ A5)。

[0054] このようにして照応関係にある代名詞.ゼロ代名詞と先行詞の節点を一つの節点に結合する構造変形を行うことで、図 9のテキスト S2およびテキスト S3で、同一の内容を指す複数の語を用いて書かれている一つの内容を一つの構造にまとめ、図 12の頻出部分構造 PT6を抽出できるようになってヽることが分かる。

「車種 Aは安く高性能だ」という一つの内容について単一の語「車種 A」を用いて述ベている図 9のテキスト S1の文構造では、この内容が一つの部分構造 T1にまとまつている。これに対して、「車種 Aは安く高性能だ」という内容について同一の内容を指す複数の語を用いて述べている図 9のテキスト S2およびテキスト S3では、この内容が複数の部分構造に分割されてしまっているので、既存のマイニング装置では、同一の構造と判定してマイニングを行うことができな力つた。

しかし、テキストマイニング装置 10によれば、関連節点接合手段 23が関連節点を接合することによりテキスト S1乃至テキスト S3の「車種 Aは安く高性能だ」という内容が同一の形の部分構造（図 12の頻出部分構造 6)になり、同一視してマイニングできるようになっている。

[0055] 次に、テキストマイニング装置 10の第 2の具体的動作例について説明する。

この例においては、関連節点抽出手段 22は、表層が同じである節点、ユーザ指定の同義語の関係にある節点およびユーザ指定の関連語の関係にある節点を関連節点として抽出する。関連節点接合手段 23は関連節点を意味的関連枝で結合することで文構造の構造変形を行う。

また、「軽自動車」と「軽」が、ユーザ指定の同義語として、「自動車」と「車種 C」および「自動車」と「軽自動車」が、ユーザ指定の関連語として指定されて、るものとする。このような指定は、たとえば、同義語と関連語を定義するファイルを記憶装置 11に予め作成しておくことにより行う。

ユーザ指定の関連語を、必ずしも同一の内容を指さないが意味的に関連のある語として扱うとする。 [0056] 図 13に示したテキスト S4乃至テキスト S9は、図 1のテキスト DB11に記憶されているテキスト集合の一部である。

言語解析手段 21は、図 13の各テキストに対して言語解析を行い、各テキストの文構造を得る（図 8のステップ Al)。図 14に、言語解析手段 21による解析の結果得られる文構造を示す。図 13のテキスト S4の文構造が図 14の構造 T4である。図 13のテキスト S5の文構造が図 14の構造 T5— Aおよび T5— Bである。図 13のテキスト 6Sの文構造が図 14の構造 T6— Aおよび T6 - Bである。図 13のテキスト S 7の文構造が図 14の構造 T7である。図 13のテキスト S8の文構造が図 14の構造 T8— Aおよび T8 - Bである。図 13のテキスト S9の文構造が図 14の構造 T9— Aおよび T9 - Bである

[0057] 関連節点抽出手段 22は、図 14に示される各文構造力も意味的に関連する節点の抽出を行う（図 8のステップ A2)。

テキスト S4からは、同表層の関係にある構造 T4の二つの「軽自動車」が関連節点として抽出される。

テキスト S5からは、同表層の関係にある構造 T5— Aの「軽自動車」と構造 T5 - Bの「軽自動車」が関連節点として抽出される。

テキスト S6からは、ユーザ指定の同義語の関係にある構造 T6— Aの「軽自動車」と構造 T6— Bの「軽」が関連節点として抽出される。

テキスト S7からは、ユーザ指定の関連語の関係にある構造 T7の「自動車」と「車種 CJが関連節点として抽出される。

テキスト S8からは、ユーザ指定の関連語の関係にある構造 T8— Aの「自動車」と構造 T8— Bの「車種 C」が関連節点として抽出される。

テキスト S9からは、ユーザ指定の関連語の関係にある構造 T9— Aの「自動車」と構造 T9— Bの「車種 C」が関連節点として抽出される。

[0058] 関連節点接合手段 23は、図 14に示す文構造の集合中の各文構造に対して、関連節点抽出手段 22が抽出した関連節点の情報を元に、関連節点の接合による文構造の変形を行う（図 8のステップ A3)。

図 15に、関連節点接合手段 23による処理の結果得られる変形後の文構造を示す図 14の構造 T4では、関連節点である二つの「軽自動車」は同表層の節点であるので、これらの節点が意味的関連枝（図 15では点線で示されている）で結ばれ、図 15 の構造 T4'となる。なお、特徴構造抽出処理の際には、この意味的関連枝は文構造中の係り受け関係を表す枝とは区別される。

図 14の構造 Τ5— Αと Τ5— Bでは、関連節点である構造 T5— Aの「軽自動車」と構造 T5— Bの「軽自動車」は同表層の節点であるので、これらの節点が意味的関連枝で結ばれ、図 14の構造 T5— Aと T5— Bは接合されて図 15の構造 T5'となる。

図 14の構造 T6— Aと T6— Bでは、関連節点である構造 T6— Aの「軽自動車」と構造 T6— Bの「軽」はユーザ指定の同義語の関係にある節点なので、これらの節点が意味的関連枝で結ばれ、図 14の構造 T6— Aと T6— Bは接合されて図 15の構造 T6 ,となる。

図 14の構造 T7では、関連節点である「自動車」と「車種 C」はユーザ指定の関連語の関係にある節点であるので、これらの節点が意味的関連枝で結ばれ、図 15の構造 T7'となる。

図 14の構造 T8— Aと T8— Bでは、関連節点である構造 T8— Aの「自動車」と構造 T8— Bの「車種 C」はユーザ指定の関連語の関係にある節点であるので、これらの節点が意味的関連枝で結ばれ、図 15の構造 T8'となる。

図 14の構造 T9 Aと T9 Bでは、関連節点である構造 T9 Aの「自動車」と構造 T9— Bの「車種 C」はユーザ指定の関連語の関係にある節点であるので、これらの節点が意味的関連枝で結ばれ、図 15の構造 T9'となる。

特徴構造抽出手段 24は、図 15に示される変形後の文構造の集合から特徴構造の抽出を行う（図 8のステップ A4)。ただし、この動作例においては、関連節点接合手段 23が導入した意味的関連枝が結ぶ二つの節点の少なくとも一方から、係り受けの枝が他の節点に結ばれて、な、構造は、意味を持たな、構造であるので特徴構造として抽出しない。

図 16に、このような構造の例を示す。図 16の T26では、対比関係にある二つの「軽自動車」節点の片方（図では左側） 1S 他の節点と係り受けの枝で結ばれておらず、意味を持たな、構造となってしまって、るのが分かる。

ここでは、そのような構造を除き、 3回以上出現している部分構造を特徴構造として抽出する。ユーザ指定の同義語により「軽自動車」と「軽」が同一の語として扱われることに注意して、図 15を参照すると、抽出される頻出部分構造は図 17の頻出部分構造 PT7乃至頻出部分構造 PT23のようになる。

最後に、そのようにして抽出された特徴構造を出力装置 3に出力する（図 2のステツプ A5)。

[0060] このようにして同表層の節点やユーザ指定の同義語の関係にある節点の間に意味的関連枝を張ることで、図 13のテキスト S4とテキスト S5とテキスト S6、および、テキスト S7とテキスト S8とテキスト S9で、意味的に関連する複数の語を用いて分けて書かれている内容を一つの構造にまとめ、図 17の頻出部分構造 PT14、 15、 16、 23を抽出できるようになって!/ヽることが分かる。

図 13のテキスト S4と S5と S6では、一般の軽自動車と Β社の軽自動車とを比較して述べていた内容力また、テキスト S7と S8と S9では、一般の自動車と車種 Cとを比較して述べた内容が、意味的に関連のある複数の語を用いて書いているため、従来のテキストマイニング手法ではこれらの内容が複数の部分構造に分かれて抽出されてしま、、両者を比較して述べて、ることがマイニング結果からは分力もな力つた。この動作例では、関連節点接合手段 23が弱関連節点を意味的関連枝により接続して文構造を変形し一つの部分構造にまとめている。特徴節点集出手段 24は、このような変形後の文構造 T4' (図 15)等力も特徴部分構造を抽出するので、従来のテキストマイニング装置では抽出できな力つた特徴部分構造 ΡΤ14 (図 17)等を抽出することがでさる。

[0061] また本実施例では、別テキストの文構造に存在している意味的に関連する節点を接合することで生成される図 18の Τ27のような構造は特徴構造として抽出されない。特徴構造を抽出してカゝら意味的に関連する節点の接合を行った場合には、図 17〖こ示す特徴構造のうち、頻出部分構造 PT13の節点「軽自動車」と頻出部分構造 ΡΤ2 1の節点「自動車」が意味的関連枝により結ばれ、図 18の構造 Τ27が生成される。しかし、構造 Τ27が表す一般の自動車と Β社の軽自動車を比較して述べて、るような内容を実際に述べて、るテキストは、図 13に示す入力テキスト集合中に存在しな V、ため、この構造 T27は特徴構造として抽出されな、ことが望ま、。

テキストマイニング装置 10は、特徴構造を抽出して力も意味的に関連する節点の接合を行う手法とは異なり、別テキストの文構造に存在している意味的に関連する節点を接合しな、ため、このような誤った特徴構造を抽出しな、。

[0062] 次に、図を参照しながら本発明の第 2の実施形態であるテキストマイニング装置 30 の構成と動作について説明する。テキストマイニング装置 30は、多くの部分がテキストマイニング装置 10と共通するので、テキストマイニング装置 10と同一の部分には同一の符号を付し説明を省略する。

(テキストマイニング装置 30の構成）

図 19は、テキストマイニング装置 30の構成を示す機能ブロック図である。テキストマイニング装置 30は、図 1のテキストマイニング装置 10は備えていない入力装置 5を備えている。また、データ処理装置 4は、図 1のデータ処理装置 2の関連節点接合手段 23の代わりに関連度別関連節点接合手段 (関連節点接合手段) 26を備え、データ処理装置 2は備えて、な、意味的関連度計算手段 25を備えて、る。

[0063] 意味的関連度計算手段 25は、関連節点抽出手段 22から各文構造中の関連節点の情報を受け取り、互いに関連する節点どうしの意味的関連度の計算を行い、各文構造中の関連節点の意味的関連度の情報を関連度別関連節点接合手段 26に送る。意味的関連度とは関連節点の意味的な関連性の指標であり、例えば、関連節点が同一の内容を指す力否力、シソーラス中で関連語の関係にある関連節点のシソーラス中での距離、関連節点に対応する文節のテキスト中での距離のようなパラメータの組み合わせにより計算される。

[0064] また、ある文構造中の節点 A、 B、 Cについて、節点 Aと節点 Bが関連節点であり、節点 Bと節点 Cも関連節点である場合に、節点 Aと節点 Cも関連節点とする場合は、節点 Aと節点 Cの意味的関連度は、たとえば、節点 Aと節点 Bの意味的関連度と、節点 Bと節点 Cの意味的関連度に基づいて求めることができる。

[0065] 入力装置 5は、ユーザから、関連節点の意味的関連度に応じて関連節点を分類するための閾値、たとえば閾値 A (第 2の閾値）と閾値 B (第 1の閾値)の二つ、を入力として受け付け、関連度別関連節点接合手段 26に送る。なお、閾値 Bの値は常に閾値 Aの値以上であることが要求される。

[0066] 関連度別関連節点接合手段 26は、意味的関連度計算手段 25から文構造の集合と関連節点の情報および関連節点の意味的関連度の情報を受け取り、さらに、入力装置 5から閾値 Aと閾値 Bを受け取り、互いに関連する節点の意味的関連度の値と閾値 A、閾値 Bとの大小関係に応じて次のように関連節点の接合をすることで各文構造の構造変形を行う。

意味的関連度の値が閾値 Aより小さい場合は、関連節点について、何ら構造変形を行わない。

意味的関連度の値が閾値 A以上で、閾値 Bより小さい場合は、関連節点を意味的関連枝で結ぶ。

意味的関連度の値が閾値 B以上の場合は、関連節点を結合して一つの節点とする

[0067] また、入力装置 5から入力された閾値が 1個 (これを閾値 Cとする)の場合は、関連度別関連節点接合手段 26は、互いに関連する節点の意味的関連度の値と閾値じとの大小関係に応じて次のように関連節点の接合をすることで各文構造の構造変形を行う。

意味的関連度の値が閾値 Cより小さい場合は、関連節点について、何ら構造変形を行わない。

意味的関連度の値が閾値以上の場合は、関連節点を結合して一つの節点とする。 2個の閾値が入力されたが、それらの値が同一である場合も上記と同様にする。

[0068] (テキストマイニング装置 30の動作）

図 20は、テキストマイニング装置 30の動作を説明するための流れ図である。

テキストマイニング装置 10と異なる点は、図 8のステップ A3のかわりにステップ B3 が実行され、さらにステップ A2とステップ B3の間にステップ Bl、 B2が挿入されることである。図 20のステップ Al、 A2、 A4、 A5で示される処理は、テキストマイニング装置 10における処理と同一であるため、説明は省略する。

[0069] テキストマイニング装置 10では、関連節点接合手段 23は予め定められた接合方法により関連節点の接合を行っていた力テキストマイニング装置 30では、意味的関連度計算手段 25が算出した意味的関連度に応じて関連接点の接合を行う。

意味的関連度計算手段 25は、関連節点抽出手段 22から各文構造中の関連節点の情報を受け取り、互いに関連する節点の意味的関連度の計算を行い、各文構造中の関連節点の意味的関連度の情報を関連度別関連節点接合手段 26に送る（図 2 0のステップ Bl)。

入力装置 5は、関連節点の意味的関連度に応じて関連節点を分類するための 2つの閾値、閾値 Aと閾値 Bを入力として受け付け、関連度別関連節点接合手段 26に送る（図 20のステップ B2)。なお、ステップ B2が実行されるタイミングは、図 20に示した位置に限らず、ステップ A4の前であれば任意の位置でよ!、。

[0070] 関連度別関連節点接合手段 26は、意味的関連度計算手段 25から文構造の集合と関連節点の情報および関連節点の意味的関連度の情報を受け取り、さらに、入力装置 5から閾値 Aと閾値 Bを受け取り、関連節点の意味的関連度の値と閾値 A、閾値 Bとの大小関係に応じて、関連節点の接合をすることで各文構造の構造変形を行う ( 図 20のステップ B3)。

[0071] このように、テキストマイニング装置 10によれば、関連節点抽出手段 22が抽出した文構造中の関連節点を関連節点接合手段 23が接合することで変形してから、特徴構造抽出手段 24が特徴構造抽出を行うように構成されている。

このため、意味の同じ一つの内容について、 1テキスト内で単一の語を用いて書かれて、る場合と、 1テキスト内で同一の内容を指す複数の語を用いて書かれて、る場合とを、同一視してテキストマイニングを行うことができる。さらに、一つのテキスト中で、意味的に関連のある複数の語を用いて一つの内容を述べている場合に、その内容を一つの構造にまとめて抽出することができる。

[0072] 次に、テキストマイニング装置 30の具体的な動作例について説明する。

なお、本実施例においては、関連節点抽出手段 22は、表層が同じである節点、ュ一ザ指定の同義語の関係にある節点およびユーザ指定の関連語の関係にある節点を関連節点として抽出する。

テキストマイニング装置 10の第 2の動作例と同様に、図 13に示したテキスト S4乃至テキスト S9がテキスト DB11に記憶されて、るとする。

[0073] 言語解析手段 21は、テキスト DB11中の図 13に示されるテキスト集合の各テキストに対して言語解析を行い、各テキストの文構造を得る（図 20のステップ Al)。ここで得られる文構造は、図 14のようになる。

[0074] 関連節点抽出手段 22は、図 14に示される各文構造力も意味的に関連する節点の抽出を行う（図 20のステップ A2)。

テキスト S4からは、同表層の関係にある構造 T4の「軽自動車」と「軽自動車」が関連節点として抽出される。

ここまでの動作は、テキストマイニング装置 10の場合と同様である。

[0075] 意味的関連度計算手段 25は、関連節点抽出手段 22から各文構造中の関連節点の情報を受け取り、その意味的関連度の計算を行い、各文構造中の関連節点の意味的関連度の情報を関連度別関連節点接合手段 26に送る（図 20のステップ Bl)。関連節点の意味的関連度は、たとえば、表層が同じである節点の意味的関連度は 4、ユーザ指定の同義語の関係にある節点の意味的関連度は 3、ユーザ指定の関連語の関係にある節点の意味的関連度は 1とする。

図 14に示される各文構造中の関連節点の意味的関連度は、同表層の関係にある構造 4の「軽自動車」と「軽自動車」につ、ては 4、同表層の関係にある構造 T5— A の「軽自動車」と構造 T5— Bの「軽自動車」につ、ては 4、ユーザ指定の同義語の関係にある構造 T6— Aの「軽自動車」と構造 T6— Bの「軽」につ、ては 3、ユーザ指定の関連語の関係にある構造 T7の「自動車」と「車種 C」については 1、ユーザ指定の関連語の関係にある構造 T8— Aの「自動車」と構造 T8 - Bの「車種 C」につ、ては 1 、ユーザ指定の関連語の関係にある構造 T9 Aの「自動車」と構造 T9 Bの「車種 CJについては 1とそれぞれ計算される。

[0076] 入力装置 5は関連節点の意味的関連度に応じて関連節点を分類するための 2つの閾値、閾値 Aと閾値 Bを入力として受け付け、関連度別関連節点接合手段 26に送る (図 20のステップ B2)。ここでは、閾値 Aとして 2が、閾値 Bとして 5が入力されたとする

[0077] 関連度別関連節点接合手段 26は、意味的関連度計算手段 25から文構造の集合と関連節点の情報および関連節点の意味的関連度の情報を受け取り、さらに、入力装置 5から閾値 Aと閾値 Bを受け取り、関連節点の意味的関連度の値と閾値 A、閾値 Bとの大小関係に応じて各文構造の構造変形を行う（図 20のステップ B3)。

[0078] 図 21に、関連節点接合手段 26により得られる変形後の文構造を示す。

図 14の構造 T4では、関連節点である「軽自動車」と「軽自動車」の意味的関連度は 4であり、閾値 A以上で閾値 Bより小さいため、これらの節点が意味的関連枝（図 2 1では点線で示されている）で結ばれ、図 21の構造 T4"となる。なお特徴構造抽出処理の際には、この意味的関連枝は文構造中の係り受け関係を表す枝とは区別される図 14の構造 T5— Aと T5— Bでは、関連節点である構造 T5— Aの「軽自動車」と構造 T5— Bの「軽自動車」の意味的関連度は 4であり、閾値 A以上で閾値 Bより小さ、ため、これらの節点が意味的関連枝で結ばれ、図 21の構造 T5"となる。

図 14の構造 T6— Aと T6— Bでは、関連節点である構造 T6— Aの「軽自動車」と構造 T6— Bの「軽」の意味的関連度は 3であり、閾値 A以上で閾値 Bより小さいため、これらの節点が意味的関連枝で結ばれ、図 21の構造 T6"となる。

図 14の構造 T7では、関連節点である「自動車」と「車種 C」の意味的関連度は 1であり、閾値 Aより小さいため、何ら構造変形は行われず、図 21の構造 T7"となる。図 14の構造 T8— Aと T8— Bでは、関連節点である構造 T8— Aの「自動車」と構造 T8— Bの「車種 C」の意味的関連度は 1であり、閾値 Aより小さいため、何ら構造変形は行われず、図 21の構造 T8 " - Aと T8"— Bとなる。

図 14の構造 T9 Aと T9 Bでは、関連節点である構造 T9 Aの「自動車」と構造 T9— Bの「車種 C」の意味的関連度は 1であり、閾値 Aより小さいため、何ら構造変形は行われず、図 21の構造 T9 " - Aと T9"— Bとなる。

[0079] 特徴構造抽出手段 24は、図 21に示される変形後の文構造の集合から特徴構造の抽出を行う（図 20のステップ A4)。ただし本発明においては、関連度別関連節点接合手段 26により意味的関連枝で結ばれた双方の節点の少なくとも一方力係り受けの枝が他の節点に結ばれて、な、構造は、意味を持たな、構造であるので特徴構造として抽出しない。ここでは、そのような構造を除き、 3回以上出現している部分構造を特徴構造として抽出する。ユーザ指定の同義語により「軽自動車」と「軽」が同一の語として扱われることに注意して、図 21を参照すると、抽出される頻出部分構造は図 22の頻出部分構造 PT7乃至頻出部分構造 PT22のようになる。

最後に、そのようにして抽出された特徴構造を出力装置 3に出力する（図 20のステップ A5)。

[0080] 図 17に示すテキストマイニング装置 10の場合の特徴構造の集合と図 22に示すテキストマイニング装置 30の場合の特徴構造の集合とを比較すると、テキストマイニング装置 10においては抽出されて、た図 17の、ユーザ指定の関連語の関係にある関連節点を意味的関連枝で結ぶことで得られる頻出部分構造 PT23が抽出されなくなつていることが分かる。

[0081] テキストマイニング装置 30によれば、関連度別関連節点接合手段 26が、意味的関連度計算手段 25が計算した関連節点の意味的関連度とユーザが入力した閾値との大小関係に応じて関連節点の接合による文構造の構造変形を行うため、ユーザが、関連節点を、その意味的な関連の深さに応じて、どのように接合してテキストマイニングを行うかを調整することが出来る。

[0082] 図 8に示したテキストマイニング装置 10の動作は、コンピュータとコンピュータプログラムにより実現することができる。図 23は、このような実施例を示す図である。

図 23のコンピュータ 40は、記憶装置 1と出力装置 3と入力装置 5と CPU(Central Pr ocessing Unit)6と主記憶装置 9を備えている。記憶装置 1は、例えばノヽードディスク装置で、テキストデータベース 11を記憶している。主記憶装置 9は、たとえば RAM(Ran dom Access Memory)により構成され、テキストマイニング用プログラム 7を記憶している。テキストマイニング用プログラム 7は、上記に説明したテキストマイニング装置 10の動作を CPU6に実行させるプログラムである。テキストマイニング用プログラム 7は、 C PU6に読み込まれ実行される。

このようにすれば、 CPU6を言語解析手段 21、関連接点抽出手段 22、関連接点結合手段 23、特徴構造抽出手段 24として動作させ、コンピュータ 40をテキストマイニング装置 10として動作させることができる。

上記と同様に、 CPU6を言語解析手段 21、関連接点抽出手段 22、意味的関連度計算手段 25、関連度別関連接点結合手段 26、特徴構造抽出手段 24として動作させ、コンピュータ 40をテキストマイニング装置 30として動作させることもできる。

[0083] ここまででは本発明の実施の形態および具体的な動作例として、テキスト集合を入力データとしたテキストマイニング装置とその動作について説明した力本発明は、テキスト要約やテキスト検索、テキスト分類、音声認識結果を入力とした構造のマイニングなどの、テキストマイニング以外のデータ処理にも応用することができる。

図面の簡単な説明

[0084] [図 1]本発明の第 1の実施形態であるテキストマイニング装置の構成を示すブロック図である。

[図 2]文構造中に一つの節点に結合するべき関連節点の組が複数組存在し、且つある節点がその複数の関連連節点の組に含まれる例を示す図である。

[図 3]図 2の文構造に関連節点の接合を行った結果の文構造を示す図である。

[図 4]図 2の文構造に関連節点の接合を行った結果の文構造を示す図である。

[図 5]文構造中に意味的関連枝で結ぶべき関連節点の組が複数組存在し、且つある節点がその複数の関連連節点の組に含まれる例を示す図である。

[図 6]図 5の文構造に関連節点の接合を行った結果の文構造を示す図である。

[図 7]図 5の文構造に関連節点の接合を行った結果の文構造を示す図である。

[図 8]図 1のテキストマイニング装置の動作を示す流れ図である。 [図 9]テキスト DB中のテキスト集合を示す例である。

圆 10]言語解析手段により、図 9のテキスト集合を言語解析して得られる文構造の集合を示す図である。

圆 11]図 10に示す文構造の集合に対して関連節点接合手段が行う変形を適用して得られる変形後の文構造の集合を示す図である。

[図 12]特徴抽出手段が、図 11に示す変形後の文構造の集合から抽出した特徴構造を示す図である。

[図 13]テキスト DB11中のテキスト集合を示す例である。

圆 14]言語解析手段により、図 13のテキスト集合を言語解析して得られる文構造の集合を示す図である。

圆 15]図 14に示す文構造の集合に対して関連節点接合手段が行う変形を適用して得られる変形後の文構造の集合を示す図である。

[図 16]意味的関連枝で結ばれている節点に係り受けの枝で結ばれる節点がないために、特徴構造として抽出されな、部分構造を示す図である。

[図 17]図 15に示す変形後の文構造の集合から抽出される特徴構造を示す図である圆 18]図 14に示す文書構造の関連節点を意味的関連枝で接合することで得られるが、実際には抽出されない構造を示す図である。

圆 19]本発明の第 2の実施形態であるテキストマイニング装置の構成を示すブロック図である。

[図 20]図 19のテキストマイニング装置の動作を示す流れ図である。

圆 21]図 14に示す文構造の集合に対して関連度別関連節点接合手段が行う変形を適用して得られる変形後の文構造の集合を示す図である。

圆 22]図 21に示す変形後の文構造の集合力も抽出される特徴構造を示す図である

[図 23]本発明のテキストマイニングプログラムの動作を説明する図である。

[図 24]従来のテキストマイニング装置の構成を示すブロック図である。

圆 25]従来技法では正しく特徴構造を抽出できないテキストの例を示す図である。 [図 26]図 25の例において、テキストから抽出されることが望ましい特徴構造の例を示す図である。

[図 27]従来技法ではその内容を一つの構造にまとめて抽出を行うことが出来ないテキストの例を示す図である。

[図 28]図 27の例において、二つのテキストから抽出されることが望ましい特徴構造の例を示す図である。

符号の説明

7 テキストマイニング用プログラム

10、 30 テキストマイニング装置

40 コンピュータ

11 テキスト DB

22 関連節点抽出手段

23 関連節点接合手段

24 特徴構造抽出手段

25 意味的関連度計算手段

26 関連度別関連節点接合手段 (関連節点接合手段）

Claims

請求の範囲

[1] 単語を内容とする複数の節点と前記複数の節点の中で係り受けの関係にある 2個の節点を接続する係り受け枝により入力データの構造を表すグラフを生成し、前記グラフから前記入力データを特徴付ける特徴構造を抽出するデータ処理装置において前記節点の中から意味的に関連する節点である関連節点を抽出する関連節点抽出手段と、

前記関連節点の一部または全部を接合することにより前記グラフを変形する関連節点接合手段と、

前記関連節点接合手段により変形された後のグラフ力前記特徴構造を抽出する特徴構造抽出手段と、を

備えたことを特徴としたデータ処理装置。

[2] 前記関連節点接合手段は、前記関連節点を意味的関連性が強い強関連節点と意味的関連性が弱い弱関連節点に分類する機能と、前記強関連節点を一つの節点に結合する機能とを備えたことを特徴とした請求項 1に記載のデータ処理装置。

[3] 前記関連節点接合手段は、前記弱関連節点を意味的関連枝で接合する機能を備え、

前記特徴構造抽出手段は、前記グラフの部分構造が、前記意味的関連枝で接続された節点を含み、かつ、その中の少なくとも 1の節点が前記係り受け枝により他の節点と接続されて、な、場合は前記特徴構造として抽出しな!/、否抽出機能を備えていることを特徴とした請求項 2に記載のデータ処理装置。

[4] 前記関連節点抽出手段は、代名詞またはゼロ代名詞およびこれらと照応関係にある先行詞を含む節点である照応節点を前記関連節点として抽出する照応節点抽出機能を備え、

前記関連節点接合手段は、前記照応節点を前記強関連節点として分類する節点分類機能を備えたことを特徴とした請求項 3に記載のデータ処理装置。

[5] 前記関連節点抽出手段は、表層が同じである語を含む節点である同表層節点を前記関連節点として抽出する同表層節点抽出機能を備え、前記関連節点接合手段は、前記同表層節点を前記弱関連節点として分類する節点分類機能を備えたことを特徴とした請求項 3または 4に記載のデータ処理装置。

[6] 前記関連節点抽出手段は、シソーラスで同義語とされている語を含む節点である同義語節点を前記関連節点として抽出する同義節点抽出機能を備え、

前記関連節点接合手段は、前記同義語節点を前記弱関連節点として分類する節点分類機能を備えたことを特徴とした請求項 3ないし請求項 5のいずれか一つに記載のデータ処理装置。

[7] 前記関連節点抽出手段は、使用者が指定した同義語を含む節点である指定同義語節点を前記関連節点として抽出する指定同義語節点抽出機能を備え、

前記関連節点接合手段は、前記指定同義語節点を前記弱関連節点として分類する節点分類機能を備えたことを特徴とした請求項 3ないし請求項 6のいずれか一つに記載のデータ処理装置。

[8] 前記関連節点抽出手段は、シソーラスで関連語とされている語を含む節点である関連語節点を前記関連節点として抽出する関連後節点抽出機能を備え、

前記関連節点接合手段は、前記関連語節点を前記弱関連節点として分類する節点分類機能を備えたことを特徴とした請求項 3ないし請求項 7のいずれか一つに記載のデータ処理装置。

[9] 前記関連節点抽出手段は、使用者が指定した関連語を含む節点である指定関連語節点を前記関連節点として抽出する指定関連語節点抽出機能を備え、

前記関連節点接合手段は、前記指定関連語節点を前記弱関連節点として分類する節点分類機能を備えたことを特徴とした請求項 3ないし請求項 8のいずれか一つに記載のデータ処理装置。

[10] 前記関連節点に含まれる語の意味的な関連性の強弱を示す意味的関連度を計算する意味的関連度計算手段を有し、

前記関連節点接合手段は、前記意味的関連度に基づいて前記関連節点を前記強関連節点と前記弱関連節点に分類することを特徴とした請求項 2または 3に記載のデータ処理装置。

[11] 前記関連節点接合手段は、前記意味的関連度が第 1の閾値より小さい前記関連節点を弱関連節点として分類し、前記意味的関連度が前記第 1の閾値以上である前記関連節点は前記強関連節点として分類することを特徴とした請求項 10に記載のデータ処理装置。

[12] 前記関連節点接合手段は、前記意味的関連度が第 2の閾値より小さい前記関連節点に対しては接合を行わな、ことを特徴とした請求項 11に記載のデータ処理装置。

[13] 単語を内容とする複数の節点と前記複数の節点の中で係り受けの関係にある 2個の節点を接続する係り受け枝により入力データの構造を表すグラフを生成し、前記グラフから前記入力データを特徴付ける特徴構造を抽出するデータ処理方法において、前記節点の中から意味的に関連する節点である関連節点を抽出する関連節点抽出ステップと、

前記関連節点の一部または全部を接合することにより前記グラフを変形する関連節点接合ステップと、

前記変形された後のグラフから前記特徴構造を抽出する特徴構造抽出ステップとを

備えたことを特徴としたデータ処理方法。

[14] 単語を内容とする複数の節点と前記複数の節点の中で係り受けの関係にある 2個の節点を接続する係り受け枝により入力データの構造を表すグラフを生成する機能と前記グラフから前記入力データを特徴付ける特徴構造を抽出する機能と、前記節点の中から意味的に関連する節点である関連節点を抽出する関連節点抽出機能と、

前記関連節点の一部または全部を接合することにより前記グラフを変形する関連節点接合機能と、

前記変形された後のグラフから前記特徴構造を抽出する特徴構造抽出機能とを、コンピュータに実行させることを特徴としたデータ処理プログラム。

[15] 文章内の単語間の力かり受けの関係を第 1の種類の枝で表現し、

意味的に類似する単語間の関係を第 2の種類の枝で表現し、

前記第 1の種類と前記第 2の種類の区別をしながら、前記第 1の種類の枝と前記第 2 の種類の枝で構成されるグラフ構造を分析することにより文章の特徴部分を決定することを特徴とするデータ処理装置。

文章内の単語間の力かり受けの関係を分析することにより、文章の特徴部分を決定するデータ処理装置であって、

意味的に類似する複数の単語がある場合に前記類似する複数の単語に対するかかり受けを前記複数の単語のいずれかに統合して、文章の特徴部分を決定する、ことを特徴とするデータ処理方法。