WO2010035455A1

WO2010035455A1 - 情報分析装置、情報分析方法、及びプログラム

Info

Publication number: WO2010035455A1
Application number: PCT/JP2009/004752
Authority: WO
Inventors: 中澤聡; 安藤真一; 河合剛巨; 岡嶋穣
Original assignee: 日本電気株式会社
Priority date: 2008-09-24
Filing date: 2009-09-18
Publication date: 2010-04-01
Also published as: US20110153601A1; JPWO2010035455A1; JP5387578B2

Abstract

　時間情報が付与された文書を含む文書集合に対して情報分析を行う、情報分析装置１は、文書集合毎に生成された複数の時系列データを互いに比較し、各時系列データから、他の時系列データの２以上の区間それぞれに対応して変化する２以上の区間を選別する対応区間選別部３０と、選別された２以上の区間に属する文書から特徴を抽出する特徴抽出部４０と、時系列データ毎に、抽出された特徴から、選別された一の区間と他の区間とにおける特徴間距離を求め、時系列データ毎の特徴間距離を互いに比較する比較部５０と、比較結果から文書集合間の関連度を算出する関連度算出部７０とを備える。

Description

情報分析装置、情報分析方法、及びプログラム

　本発明は、文書集合に対して分析を行う情報分析装置、情報分析方法、及びプログラムに関する。
　本願は、２００８年９月２４日に、日本に出願された特願２００８－２４４７５３号に基づき優先権を主張し、その内容をここに援用する。

　近年、文書データを分析するため、２つの文書集合間の類似度や関連度の判定が行われている。このような類似度の判定は、例えば、２つの文書集合に共通に現れる言語表現の数や、各文書集合に含まれる情報の量に基づいて行われる（例えば、非特許文献１参照）。

　具体的には、非特許文献１には、似ている文書をグループ化し、テキストを整理するため、２つの文書間の類似度を求める技術が開示されている。非特許文献１では、双方の文書に共通して出現する索引語（言語表現の一種）の数を用いた式によって、２つの文書間の類似度が定義される。そして、２つの文書集合（クラスタ）間の類似度として、各文書集合に属する文書間の類似度のうち最大の値が用いられ、最も類似度の高い文書集合のペア（クラスタペア）が併合されて、１つのグループとされる。

　ここで、本明細書において、「言語表現」とは、文書（テキスト）に含まれる、特定の名詞、話題、意見又は事物等を表す記述をいう。「言語表現」としては、例えば、イベント名、事件名、製品名等のいわゆる名詞で表現される名詞的表現や、名詞的表現と述語又は修飾語とを組み合わせた表現等が挙げられる。また、名詞的表現の具体例としては、「レースゲーム」、「食品偽装」、「耐震ジェル」等が挙げられる。組み合わせた表現の具体例としては、「耐震ジェルは有効」、「ディーゼルエンジンは環境によい」等が挙げられる。

　更に、「言語表現」は、文書中に出現する文字列そのものであって良いし、文書に対して、形態素解析、構文解析、係り受け解析、又は同義語処理等の既存の自然言語処理技術を適用し、それによって得られる解析結果であっても良い。例えば「学校」「生徒」などはそれぞれ１単語からなる言語表現である。また、「学校へ行く」、「学校に行った」、「学校に急いで行った」等のテキストに対して、係り受け解析を行って得られる「学校→行く」のような単語間の係り受け解析の結果も、１つのまとまった意味を表す言語表現である。

　また、文書データの分析は、上述した２つの文書集合間の類似度や関連度の判定による分析とは別に、特定の言語表現を含む文書集合の数の時間的な変遷を調べることによっても行われている。この点について以下に説明する。

　近年、インターネット上のブログや、電子メール、コールセンターにおける応答履歴など、発信日時や作成日時、応答日時などの時間情報が付与された大量の文書データが作成され、また、これらの入手が可能となっている。こうした時間情報付き文書の文書集合から、着目する特定の言語表現が記述された文書を抽出し、それを、付与されている時間情報に基づいて順に並べ、時系列分析を行うことで、着目する言語表現の出現回数や、話題に挙がる回数等が調べられる（例えば、非特許文献２参照）。

　具体的には、非特許文献２は、「Ｂｌｏｇ　Ｗａｔｃｈｅｒ」という技術を開示している。この技術では、収集されたブログ全体における、特定の話題語が出現した回数、その話題語が肯定的に記述されている回数、及び否定的に記述されている回数等の時系列変化が、折れ線グラフとしてプロットされる。非特許文献２に開示の技術によれば、ユーザは、着目する話題語のブログにおける出現数の変遷を調べることができ、その着目する話題語が各時点でどの程度流行していたのか、といった分析を行うことができる。

　また、統計分析の基本的な手法に回帰分析がある。これは、ある事象の各時点での出現数や価格といった時系列データが複数組存在するときに、複数の時系列データの時間変化の相関性を調べて、関連性の高い事象を検出する技術である。例えば、ある株価の時間変化と、別の株価の時間変化とに相関性があった場合に、それらの２つの株の時点ごとの価格を、それぞれの時系列データとみなして回帰分析を行うことで、両者の価格にどれくらい関連があったのかを計算することができる。

　ここで、着目する事象が、ある特定の言語表現で表される事象である場合を考える。例えば、株価のような直接的な時系列データでなく、分析対象として、時間情報付の文書の文書集合が与えられた場合は、非特許文献２に開示の技術を用いることで、各言語表現の時系列データを求めることができる。この場合、分析母集団となる文書集合を、時間情報を用いて特定の期間で区切れば、期間毎における、各言語表現を含む文書の数や言語表現の出現回数が、各言語表現の期間毎の時系列データとなる。

　よって、非特許文献２に開示された技術を用いて、２つの時間情報付き文書集合を２つの時系列データに変換し、その後、回帰分析等の統計分析によって両者の相関性を調べれば、両者の関連度が求められる。この場合、この２つの時間情報付き文書集合において、同一又は類似の言語表現が存在しているかどうかは関係が無い。２つの時間情報付き文書集合は時系列データと見なされ、両者の変化パターンの類似性や相関性から、両者の関連度が求められる。

　つまり、必ずしも、双方の文書集合に、同一または類似の言語表現が多数含まれていなくとも、それぞれの時系列データの時間変化に相関性が高く見受けられる場合は、入力された２つの文書集合の関連度は高く計算される。このように、非特許文献２に開示の技術と回帰分析等の統計的分析とを組み合わせれば、２つの時間情報付き文書集合間に対して、類似度や関連度を判定することができる。

　しかしながら、回帰分析等の統計分析を用いて、時系列データの変化パターンの類似性や相関性を調べ、複数の時系列データの関連度を求める場合は、偶然の一致により、誤って関連性を高く評価してしまう問題が存在する。

　例えば、図２に示す時系列データ（１）と時系列データ（２）とが存在したとする。図２は、後述するように、時系列データの一例を示す図である。図２に示す例では、時系列データ（１）と時系列データ（２）とで、２つのピークが同時期に存在している。よって、図２に示された時系列データだけからは、高い関連性が認められる。

　もちろん、時系列データ（１）と時系列データ（２）との間に、一方が他方の変化の原因になっているといった何らかの因果関係が存在し、高い関連性が適切である場合もある。一方で、例えば、時系列データ（１）の２つのピークは、２つの異なる原因によるものであり、それらのピークは独立しているものであるが、時系列データ（２）の２つのピークは、別のある原因による周期的なピークである、といった場合が考えられる。即ち、時系列データ（１）と時系列データ（２）とにおいて、偶然に両者のピークの区間が重なる場合が考えられる。

　これらの点から、非特許文献２に開示された技術を用いて、２つの時間情報付き文書集合を２つの時系列データに変換し、その後、回帰分析等の統計分析によって両者の相関性を調べる場合は、偶然の一致によるのか、本当に関連性があるのかの判断は困難である。

　また、非特許文献１に開示の技術を適用し、一の時系列データの元となった文書集合と他の時系列データの元となった文書集合との類似性を求め、求められた類似性から、時系列データ間の関連度を求める手法も考えられる。この場合、２つの文書集合間の類似度は、同一又は類似の言語表現が双方の文書集合に出現する度合いに基づいて、計算される。

　しかしながら、この場合は、双方の文書集合間に関連性が存在するにも拘わらず、同一又は類似の内容が記述されていないために、関連性を適切に判断できない場合がある。具体的には、一方の文書集合で記述されている事象と他方の文書集合で記述されている事象とに因果関係が存在するが、同一又は類似の言語表現が双方の文書集合で用いられていない場合が挙げられる。また、双方の文書集合それぞれに、共通の原因について記載されているが、共通の原因に対する結果が、各文書集合で異なっている場合等も挙げられる。

長尾真編、「自然言語処理」、岩波書店、１９９６年、ＩＳＢＮ４－００－０１０３５５－５、ｐ．４３６－４３８南野朋之、鈴木泰裕、藤木稔明、奥村学著、「ｂｌｏｇの自動収集と監視」、人工知能学会論文誌、Ｖｏｌ．１９（２００４）、Ｎｏ．６、ｐｐ．５１１－５２０

　本発明の目的は、上記問題を解消し、時間情報付きの複数の文書集合に対して、互いの関連性を判定する際に、各文書集合から得られた時系列データの変化パターンが偶然に一致することによる影響を抑制し得る、情報分析装置、情報分析方法、及びプログラムを提供することにある。

　上記目的を達成するため、本発明の一態様における情報分析装置は、時間情報が付与された文書を含む文書集合に対して、情報分析を実行する情報分析装置であって、
　複数の前記文書集合から、前記文書集合毎に、前記時間情報に基づいて生成された、複数の時系列データを互いに比較し、各時系列データから、他の時系列データの２以上の区間それぞれに対応して変化する２以上の区間を選別する対応区間選別部と、
　複数の前記時系列データそれぞれについて、選別された前記２以上の区間に属する前記文書を前記区間毎に特定し、特定された前記文書の特徴を、前記区間毎に抽出する特徴抽出部と、
　前記時系列データ毎に、選別された前記２以上の区間における、一の区間から抽出された特徴と、他の区間から抽出された特徴との間の特徴間距離を求め、求められた前記時系列データ毎の特徴間距離を互いに比較する比較部と、
　前記比較部による比較の結果に基づいて、前記文書集合間の関連度を算出する関連度算出部とを備える、ことを特徴とする。

　また、上記目的を達成するため、本発明の一態様における情報分析方法は、時間情報が付与された文書を含む文書集合に対して、情報分析を実行するための情報分析方法であって、
（ａ）複数の前記文書集合から、前記文書集合毎に、前記時間情報に基づいて生成された、複数の時系列データを互いに比較し、各時系列データから、他の時系列データの２以上の区間それぞれに対応して変化する２以上の区間を選別するステップと、
（ｂ）複数の前記時系列データそれぞれについて、選別された前記２以上の区間に属する前記文書を前記区間毎に特定し、特定された前記文書の特徴を、前記区間毎に抽出するステップと、
（ｃ）前記時系列データ毎に、選別された前記２以上の区間における、一の区間から抽出された特徴と、前記他の区間から抽出された特徴との間の特徴間距離を求め、求められた前記時系列データ毎の特徴間距離を互いに比較するステップと、
（ｄ）前記（ｃ）のステップによる比較の結果に基づいて、前記文書集合間の関連度を算出するステップとを有する、ことを特徴とする。

　更に、上記目的を達成するため、本発明の一態様におけるプログラムは、時間情報が付与された文書を含む文書集合に対する情報分析をコンピュータに実行させるためのプログラムであって、
　前記コンピュータに、
（ａ）複数の前記文書集合から、前記文書集合毎に、前記時間情報に基づいて生成された、複数の時系列データを互いに比較し、各時系列データから、他の時系列データの２以上の区間それぞれに対応して変化する２以上の区間を選別するステップと、
（ｂ）複数の前記時系列データそれぞれについて、選別された前記２以上の区間に属する前記文書を前記区間毎に特定し、特定された前記文書の特徴を、前記区間毎に抽出するステップと、
（ｃ）前記時系列データ毎に、選別された前記２以上の区間における、前記一の区間から抽出された特徴と、前記他の区間から抽出された特徴との間の特徴間距離を求め、求められた前記時系列データ毎の特徴間距離を互いに比較するステップと、
（ｄ）前記（ｃ）のステップによる比較の結果に基づいて、前記文書集合間の関連度を算出するステップとを実行させる、ことを特徴とする。

　以上のように本発明によれば、時間情報付きの複数の文書集合に対して、互いの関連性を判定する際に、各文書集合から得られた時系列データの変化パターンが偶然に一致することによる影響を抑制できる。

図１は、本発明の実施の形態１における情報分析装置の概略構成を示すブロック図である。図２は、それぞれ、時系列データの一例を示す図である。図３は、それぞれ、時系列データの一例を示す図である。図４は、それぞれ、時系列データの一例を示す図である。図５は、それぞれ、時系列データの一例を示す図である。図６は、共通の原因によって変動する時系列データの例を示す図である。図７は、共通の原因によって変動する時系列データの他の例を示す図である。図８は、異なる原因によって変動する時系列データの他の例を示す図である。図９は、本発明の実施の形態１における情報分析方法における処理の流れを示すフロー図である。図１０は、本発明の実施の形態２における情報分析装置の概略構成を示すブロック図である。図１１は、本発明の実施の形態２における情報分析方法における処理の流れを示すフロー図である。

　（実施の形態１）
　以下、本発明の実施の形態１における情報分析装置、情報分析装置及びプログラムについて、図１～図９を参照しながら説明する。最初に、図１～図５を用いて、本発明の実施の形態１における情報分析装置の構成について説明する。図１は、本発明の実施の形態１における情報分析装置の概略構成を示すブロック図である。図２～図５は、それぞれ、時系列データの一例を示す図である。

　図１に示す情報分析装置１は、時間情報が付与された文書を含む文書集合に対して、情報分析を実行する装置である。図１に示すように、情報分析装置１は、対応区間選別部３０と、特徴抽出部４０と、比較部５０と、関連度算出部７０とを備えている。分析対象となる文書集合は、時間情報が付与された複数の文章データで構成され、外部から情報分析装置１へと入力される。

　また、図１に示すように、本実施の形態１では、情報分析装置１は、更に、入力部１０と、時系列データ生成部２０と、出力部８０とを備えている。また、情報分析装置１には、データベース６０が接続されている。データベース６０は、後述するように、比較部５０による処理に利用される。また、以下においては、２つの文書集合が入力され、それぞれに対応して変化する２つの時系列データが生成される場合について説明する。

　入力部１０は、分析対象とする複数の文書集合の入力を受け付けている。文書集合を構成する文書データは、入力部１０に入力される。このとき、文書集合を構成する文書データは、外部のコンピュータ装置からネットワークを介して、直接、入力部１０に入力されても良いし、記録媒体に格納された状態で提供されても良い。前者の場合は、入力部１０としては、外部と情報分析装置１とを接続するためのインターフェイスが用いられる。後者の場合は、入力部１０としては、読取装置が用いられる。

　また、本実施の形態１では、上述したように、２つの文書集合が入力される。そして、後述するように、入力された２つの文書集合に対して関連度が計算され、最終的に、出力部８０から外部に出力される。なお、本明細書では便宜上、入力される２つの文書集合を区別して説明する必要がある場合は、それぞれ、入力文書集合（１）、入力文書集合（２）、と表記する。また、２つの文書集合が入力される場合に、いずれを入力文書集合（１）とするか、又は入力文書集合（２）とするかについて特に限定は無く、適宜設定できる。

　入力される文書集合は、上述したように、時間情報が付与された文書（文書データ）の集合である。ここで、本発明でいう「時間情報」とは、入力された文書集合に属する各文書に付与されている年月日や時刻といった時間情報を意味する。また、「時間情報」としては、各文書の作成日時、発信日時、公開日時等各文書に直接関係する時間情報を用いることができる。更に「時間情報」としては、文書中の内容で扱われる事項及び事件に関する時間情報を用いることもできる。このような時間情報の具体例としては、コールセンター等で作成される応対記録に記されている通話の着信日時や、警察の事故記録に記されている事故の発生日時等が挙げられる。

　また、本実施の形態１では、１つの文書に複数の時間情報が付与されていても良い。但し、この場合は、事前に、後述する時系列データ生成部２０において、どの時間情報をその文書に対する一意の時間情報として用いるのか、設定されている必要がある。時系列データ生成部２０は、予め設定された種類の時間情報のみを抽出する。

　時間情報の形式は、入力された文書集合に含まれる文書間で、経時的な順序づけが可能な形式であれば良く、西暦による年月日、年月日と時刻との組み合わせ、年月のみ等、いずれの形式であっても良い。また、入力される文書集合の例としては、「お菓子Ａを買った」という言語表現（又はその同義表現）を含んだブログ記事や、「アイドルＢのダンスがいい」という言語表現（又はその同義表現）を含んだブログ記事等が挙げられる。この場合、各ブログ記事の日付が時間情報となる。

　時系列データ生成部２０は、入力部１０で受け付けられた複数の文書集合から、文書集合毎に、時間情報に基づいて、複数の時系列データを生成する。本実施の形態１では、このように、時系列データ生成部２０が備えられているため、情報分析装置１には、文書集合を直接入力すれば良い。また、本実施の形態１では、二つの文書集合が入力されており、時系列データ生成部２０は、二つの時系列データを生成する。なお、本明細書では、便宜上、入力文書集合（１）から生成される時系列データを「時系列データ（１）」と表記し、入力文書集合（２）から生成される時系列データを「時系列データ（２）」と表記する。

　ここで、本発明でいう「時系列データ」とは、時間をある一定の期間で区切り、そして、区切られた各区間、あるいは、各区間の先頭や中点など各区間中の特定の点における任意の計数結果を時間の順に並べ、それによって得られるデータをいう。なお、文書集合から生成された時系列データではないが、年月日毎のある会社の株価は、時系列データの典型的な例である。この場合、ある一定の期間は１日である。その他、気温の時間変化や、特定の道路における交通量の時間変化等も、文書集合から生成された時系列データではないが、時系列データの例として挙げられる。

　また、本実施の形態１では、時系列データ生成部２０は、文書集合から時系列データを生成するため、先ず、各文書に付与されている時間情報を基にして、文書集合をある一定の期間ごとに区切り、複数の部分集合とする。このとき、一定の期間をどの程度とするかは、特に限定されず、一定の期間の長さは、情報分析装置１の用途や使用目的、文書集合を構成している文書に付与された時間情報の性質等に応じて、適宜設定される。

　例えば、文書に付与された時間情報が西暦の年月日であって、一番古い文書が２００５年１月１日であり、ある一定の期間が１ヶ月であったとする。この場合、時系列データ生成部２０は、２００５年１月の時間情報を持つ文書の文書集合、２００５年２月の時間情報を持つ文書の文書集合、２００５年３月の時間情報を持つ文書の文書集合、のように、一つの文書集合を複数の文書集合に分割する。そして、時系列データ生成部２０は、分割によって得られた文書集合（部分集合）毎に、それぞれの部分集合を構成する文書の性質から規定される値（任意の計数結果）を求め、求められた値を時間順にソートし、時系列データとする。

　また、「文書の性質から規定される値」は、各部分集合を構成する文書の性質から、一意に機械的に算出することが可能な値であれば良く、情報分析装置１の目的や用途、各文書に付与されているメタ情報の種類等に応じて適宜設定される。具体的には、「文書の性質から規定される値」としては、各部分集合を構成する文書の数やサイズ、各部分集合を構成する文書のユニーク発信者数等が挙げられる。

　なお、「文書のユニーク発信者数」とは、各文書を発信している発信者の実際の数であり、同一人を複数回カウントする、のべ人数を含まない意である。また、ユニーク発信者数等、文書の内容そのものから機械的に算出不可能な数値を用いる場合は、各文書に、数値を特定する情報（例えば、発信者ＩＤ等の発信者を特定する情報）が、時間情報とは別に、文書のメタ情報として付与されている必要がある。

　ここで、時系列データの例について説明する。図２～図８の例では、入力文書集合（１）から生成された時系列データ（１）と、入力文書集合（２）から生成された時系列データ（２）とが図示されている。時系列データ（１）及び（２）は、共に、横軸を時間、縦軸を計数結果とするグラフによって表すことができ、図２～図８においては、２００４年から２００７年（図３の場合は２００８年）までの計数結果がプロットされている。

　また、図２～図８においては、縦軸となる計数結果として、特定の特徴語やその類似語が設定期間内で出現した回数（出現数）が用いられている。更に、時系列データにおいて縦軸として用いることができる計数結果は、出現数のような計測された値自体であっても良いし、元の数値に補正や変換をかけた値であっても良い。後者の例としては、計測された値を全文書集合の数で正規化して得られた値や、計測された値の変化を微分して得られた値等が挙げられる。また、どのような補正や変換を行うか、又は計測された値自体を使用するかは、情報分析装置１の用途や使用目的、入力される文書集合の性質等に応じて、適宜選択される。

　対応区間選別部３０は、複数の文書集合から得られる複数の時系列データを互いに比較し、各時系列データから、他の時系列データの２以上の区間それぞれに対応して変化する区間（対応区間）を２以上選別する。本実施の形態１では、対応区間選別部３０は、時系列データ（１）と時系列データ（２）とを互いに比較し、それぞれから対応して変化する区間（対応区間）を２以上選別する。また、対応区間選別部３０は、選別した各時系列データの２以上の対応区間を、特徴抽出部４０に出力する。

　また、本実施の形態１では、対応区間選別部３０は、対応区間ペア選別部３１と類似対応区間ペア選別部３２とを備え、これらによって対応区間の選別を行っている。この点について以下に説明する。

　対応区間ペア選別部３１は、２つの時系列データ間の相関性を調べ、２つの時系列データ間で互いに対応して変化する区間（対応区間）を選別する。対応区間ペア選別部３１は、時系列データ作成部２０から時系列データ（１）と時系列データ（２）とを受け取り、一方の時系列データの一区間と、これに対応して変化する他方の時系列データの一区間とを検出し、両者を時系列データにおける対応区間のペア（以下「対応区間ペア」と称する）として選別する。対応区間ペア選別部３１は、このような対応区間ペアを時系列データ（１）と時系列データ（２）とから２ペア以上選別する。

　ここで、「対応して変化する区間（対応区間）」とは、時系列データ（１）のある部分的な一区間の値をプロットしたグラフと、時系列データ（２）のある部分的な一区間の値をプロットしたグラフとの間に高い相関性が認められる場合における、これらの部分的な一区間をいう。また、相関性が高いかどうかの判定は、本実施の形態１では、相関係数を用いて行うことができる。

　具体的には、対応区間ペア選別部３１は、先ず、時系列データ（１）と時系列データ（２）との相関係数を求める。そして、対応区間ペア選別部３１は、２つの時系列データそれぞれにおける、相関係数の絶対値が設定された閾値を超える（又は閾値以上となる）２以上の区間を対応区間として選別することができる。このとき閾値は、時系列データの元となった文書集合の性質や、時系列データの変動状態を考慮しながら、入力として想定される時系列データにおいて対応区間ペアが２つ以上選別されるような適切な値に、事前に設定されているものとする。

　また、相関係数の絶対値を判定に利用することから、求められた相関係数は負の値となっても良い。更に、相関係数としては、一般的なピアソンの積率相関係数や、スピアマンの順位相関係数、ケンドールの順位相関係数等を用いることができる。また、対応区間ペア選別部３１は、対応区間ペアを２つ以上選別できない場合は、予め設定されている閾値が小さくなるように再度閾値の設定を行っても良いし、関連度算出部７０に対して関連度の算出を中止するように指示を行っても良い。

　更に、本実施の形態１では、対応区間ペア選別部３１は、相関係数を用いないで、代わりに、既存の統計分析技術や、時系列分析技術を用いて、一方の時系列データの部分区間と他方の時系列データの部分区間との相関性を判断することもできる。また、対応区間ペア選別部３１は、両方の時系列データの部分区間における相関性の高さのみを、対応区間ペアの選別基準とするのではなく、一方あるいは両方の時系列データが特徴的に変動する区間を検出し、その度合いを選別の基準として用いても良い。例えば、一方または両方の時系列データのグラフがそれぞれ大きく変化する区間を検出し、この区間における変化の度合いを考慮して、対応区間ペアとして選別することもできる。

　対応区間ペア選別の例としては図２のグラフが挙げられる。図２のグラフでは、時系列データ（１）及び（２）は共に、上に凸となった２つのピークを有している。この場合、時系列データ間の相関係数は正の高い値となり、時系列データ（１）及び（２）は、ピークにおいて相関性が高くなっている。よって、これら２つのピークは、それぞれ対応区間ペアとして選別できる。

　更に、図３のグラフでは、２００４年の後半から２００５年の頭にかけて、時系列データ（１）の出現数は急速に減少しているのに対して、時系列データ（２）の出現数は急速に増加している。逆に、２００６年の初頭においては、時系列データ（１）の出現数が急速に増加しているのに対して、時系列データ（２）の出現数は急速に減少している。この図３の場合においては、相関係数は負となるが、その絶対値は高く、両者の急増部分及び急減部分の相関性は高いと考えられる。よって、両者の急増部分及び急減部分の区間は、対応区間ペアとして選別されることが可能である。

　ここで、図２～図８における時系列データの対応区間を、説明の便宜上、対応区間１－１、対応区間２－１、対応区間１－２、対応区間２－２、のように記述することとする。この場合、対応区間１－１は、時系列データ（１）の１番目の対応区間を意味し、対応区間１－２は、時系列データ（１）の２番目の対応区間を意味する。また、対応区間１－ｎは、時系列データ（１）のｎ番目の対応区間であることを意味する。

　同様に、対応区間２－１は、時系列データ（２）の１番目の対応区間を意味し、対応区間２－２は、時系列データ（２）の２番目の対応区間を意味する。また、対応区間２－ｎは、時系列データ（２）のｎ番目の対応区間であることを意味する。更に、対応区間１－ｎと対応区間２－ｎとにおいて、「ｎ」に当てはまる数値が同一の場合は、対応関係にある対応区間ペアであることを示す。例えば、対応区間１－１と対応区間２－１とは、対応関係にある対応区間ペアである。

　また、図２及び図３に示された、各対応区間ペアでは、対応関係にある対応区間において、その長さ、開始時間、及び終了時間は、同一となっている。但し、本実施の形態１は、これに限定されず、対応関係にある対応区間において、必ずしも対応区間の長さ、開始時間、及び終了時間が同一となる必要はない。

　例えば、図４に示された、対応区間１－１と対応区間２－１とのペアや、対応区間１－２と対応区間２－２とのペアのように、ペアとなっている対応区間同士で、開始時間及び終了時間がずれていても良い。更に、図４に示された、対応区間１－２と対応区間２－２とのペアのように、それぞれの長さが異なっていても良い。

　なお、２つの時系列データから対応区間ペアを選別するにあたり、どの程度、開始時間及び終了時間のずれや、長さの違いを許容するかは、用いられる対応区間ペアを求める手法、即ち、相関性の判断手法に依存する。

　類似対向区間ペア選別部３２は、１つの時系列データに存在する複数の部分区間について、部分区間同士での相関性を調べ、対応区間として選別されたものの中から更に選別を実行する。類似対応区間ペア選別部３２は、対応区間ペア選別部３１が先に選別している複数の対応区間ペアの中から、更に時系列データ（１）及び時系列データ（２）それぞれにおいて類似する対応区間ペアを選別する。

　具体的には、類似対応区間ペア選別部３２は、先ず、時系列データ（１）において、選別された２以上の対応区間の変化が相互に類似するかどうかを判定する。同様に時系列データ（２）において、選別された２以上の対応区間の変化が相互に類似するかどうかを判定する。

　次に、類似対応区間ペア選別部３２は、判定の結果、時系列データ（１）及び（２）において、それぞれの時系列データ上で類似する２以上の対応区間が存在する場合は、時系列データ（１）の類似する２以上の対応区間と、時系列データ（２）の類似する２以上の対応区間とがそれぞれ対応して変化している（対応区間ペアをなしている）かどうかを判定する。そして、上記の条件を満たす対応区間ペアが２以上存在する場合は、類似対応区間ペア選別部３２は、それらの対応区間（対応区間ペア）を選別する。

　その後、類似対応区間ペア選別部３２は、ここで選別された対応区間ペアをなす対応区間を特定する情報を特徴抽出部４０に出力する。なお、以降において、同一の時系列データ上にあり、互いに類似している対応区間それぞれは、「類似対応区間」とする。また、同一の時系列データに属する互いに類似する類似対応区間の組は、以下、「類似対応区間組」とする。

　例えば、対応区間１－ｍと対応区間２－ｍ、及び対応区間１－ｎと対応区間２－ｎが、対応区間ペアとして既に選別されているとする。この場合に、対応区間１－ｍのグラフと対応区間１－ｎのグラフとが類似し、更に、対応区間２－ｍのグラフと対応区間２－ｎのグラフとが類似していると、対応区間１－ｍ、１－ｎ、２－ｍ、及び２－ｎは、類似対応区間として再度選別される。そして、対応区間１－ｍと１－ｎ、対応区間２－ｍと２－ｎは、それぞれ類似対応区間組となる。

　また、類似対応区間ペア選別部３２による類似の判定も、相関係数を用いて行うことができる。但し、この場合は、類似判定の対象となる対応区間の間で、例えば、対応区間１－ｍと対応区間１－ｎとの間、対応区間２－ｍと対応区間２－ｎとの間で、相関係数が求められる。そして、類似対応区間ペア選別部３２は、求めた相関係数が正の値であって、閾値を超える場合（又は閾値以上となる場合）に、類似していると判定する。なお、閾値は、時系列データの元となった文書集合の性質や、時系列データの変動状態を考慮しながら、入力として想定される時系列データにおいて類似対応区間が２つ以上選別されるように、事前に設定されているものとする。

　更に、本実施の形態１での類似対応区間ペア選別部３２による類似の判定は、相関係数を用いないで行うこともできる。例えば、類似対応区間ペア選別部３２は、既存の時系列分析技術を用いた手法によっても類似の判定を行うことが可能となる。時系列分析技術を用いた手法としては、各対応区間内における変曲点の数、変曲点の対応区間内における相対的な位置、変曲点間の微分計数の値等を判定要素とする手法が挙げられる。また、この場合も、判定は、予め設定された閾値に基づいて行われる。閾値の設定は、相関係数を用いる場合と同様に行うことができる。

　ここで、類似対応区間ペア選別部３２が、時系列分析技術によって類似を判定した場合について説明する。例えば、図２において、対応区間１－１と対応区間１－２は、共に増加の後、減少している。よって、これらは、類似していると判定できる。また、これらと対応している対応区間２－１と対応区間２－２も類似している。この場合、類似対応区間ペア選別部３２は、対応区間１－１と対応区間２－１との対応区間ペア、及び対応区間１－２と対応区間２－２との対応区間ペアを、選別する。

　一方、図３において、対応区間１－２と対応区間１－３は、共に単調増加にあり、類似しているが、それらと対応している対応区間２－２と対応区間２－３とは、微分係数の符号が逆であり、類似していない。よって、対応区間１－２と対応区間１－３、及び対応区間２－２と対応区間２－３それぞれは、類似対応区間組を構成しない。

　また、類似対応区間ペア選別部３２は、各時系列データにおいて、類似対応区間組を１つ以上選別できない場合は、上述した類似判定に用いる閾値が小さくなるように再度閾値の設定を行っても良い。更に、この場合、類似対応区間ペア選別部３２は、関連度算出部７０に対して関連度の算出を中止するように指示を行っても良い。

　更に、本実施の形態１の類似対応区間ペア選別部３２では、選別する類似対応区間の条件を拡張することも可能である。類似対応区間ペア選別部３２は、対応区間ペア選別部３１が先に選別している複数の対応区間ペアの中から、更に時系列データ（１）及び時系列データ（２）それぞれにおいて類似する対応区間ペアを選別する、と上述したが、この条件を拡張できる。例えば、対応区間ペア選別部３１が先に選別している複数の対応区間ペアの中から、時系列データ（１）及び時系列データ（２）それぞれにおいてともに類似性の低い対応区間ペアを選別することもできる。

　例えば、図５に示すグラフでは、対応区間１－１と対応区間１－２、対応区間２－１と対応区間２－２は、それぞれ、類似の関係にある。一方、対応区間１－１と対応区間１－３、対応区間２－１と対応区間２－３は、それぞれ、非類似の関係にある。この場合に、対応区間１－１と２－１との対応区間ペアは、対応区間１－２と２－２との対応区間ペアとは類似関係にあるが、対応区間１－３と２－３との対応区間ペアとは時系列データ（１）側においても、時系列データ（２）側においても非類似関係にある。このとき、類似対応区間ペア選別部３２は、対応区間１－１と２－１との対応区間ペア、対応区間１－２と２－２との対応区間ペアに加えて、対応区間１－３と２－３との対応区間ペアも選別することができる。

　なお、類似対応区間ペア選別部３２は、上述のように、非類似関係にある対応区間についても選別対象とする場合は、対応区間ペア毎に、他の対応区間ペアとの関係（類似関係にあるのか、非類似関係にあるのか）を登録しておくのが好ましい。

　ここで、類似対応区間ペア選別部３２が再度選別する対応区間についてまとめると、選別されるのは、二つの対応区間ペアを対比したときに、時系列データ（１）側と時系列データ（２）側で共に類似関係にあるか、共に非類似関係にあるか、のどちらかの場合である。二つの対応区間ペアを対比したときに、一方の時系列データ側では類似関係にあるが、他方の時系列データ側では非類似関係にある場合は、これらの対応空間ペアは選別されないこととなる。

　特徴抽出部４０は、複数の時系列データそれぞれについて、選別された２以上の対応区間に属する文書（文書データ）を対応区間毎に特定し、対応区間毎に特定された文書の特徴を抽出する。なお、ここでいう「文書の特徴」には、対応区間毎に特定された「文書集合の特徴」も含まれる。本実施の形態１では、特徴抽出部４０は、時系列データ（１）の選別された対応区間と、時系列データ（２）の選別された対応区間とに対して、これらに属する文書の特定を対応区間毎に行い、更に、特定された文書の特徴を抽出する。例えば、図５に示した、対応区間１－１、対応区間２－１、対応区間１－２、対応区間２－２、対応区間１－３、及び対応区間２－３が選別されているとする。この場合、特徴抽出部４０は、６つの対応区間それぞれに対して、各対応区間に属する文書を特定し、更に、特定された文書それぞれから特徴を抽出する。

　ここで、文書から抽出される「特徴」としては、選別された対応区間に属している文書の集合に特徴的に出現する言語表現がある。ここで特徴的に出現する言語表現とは、選別された対応区間に属している文書集合において、各言語表現の単純な出現回数を計数した結果、高頻度で出現する言語表現や、対応区間以外の区間に属している文書集合、または、情報分析装置１が分析対象とする文書の母集団における出現回数と比較して、相対的に高頻度で出現する言語表現、相対的に低頻度で出現する言語表現が挙げられる。

　例えば、図５に示した時系列データ（１）において、「ガンに効く」という言語表現が、対応区間１－１に属している文書集合中に、高頻度で出現する場合、「ガンに効く」は、対応区間１－１の特徴とすることができる。また、例えば、「健康に良い」という言語表現が、時系列データ（１）の対応区間１－３以外の対応区間に属する文書集合中に高頻度で出現し、対応区間１－３に属する文書集合中には低頻度で出現する場合、「健康によい」は、対応区間１－３の特徴となりうる。

　また、本実施の形態１では、入力される文書集合に含まれる各文書に対して、文書サイズ、カテゴリー、分類情報、発信者情報、発信者の属性等のメタ情報が付与されている場合は、特徴抽出部４０は、そうしたメタ情報を、「特徴」として抽出することもできる。

　具体的には、入力される文書集合の各文書に、その発信者が、「初心者」、「普通」、又は「熟練」のいずれに当てはまるかを示す発信者情報が、付与されている場合は、これらの発信者情報を特徴として用いることができる。例えば、対応区間１－２に属する文書集合には、特に、「初心者」の発信者から発信された文書が多く含まれているとすると、「初心者」が、対応区間１－２における「特徴」として抽出される。

　また、メタ情報を特徴として抽出する場合、メタ情報の種類は特に限定されず、入力される文書集合に含まれる各文書に付与されているメタ情報であれば、特徴抽出部４０は、この任意のメタ情報を「特徴」として抽出することが可能である。更に、本実施の形態１において、特徴抽出部４０による特定の文書集合からの特徴の抽出は、例えば、既存のテキストマイニング技術を用いて行うことができる。なお、テキストマイニング技術は、一般的な自然言語処理技術の一つであり、本発明の実施の形態１の主眼ではない。よって、テキストマイニング技術についての説明は省略する。

　更に、「特徴」の抽出は、例えば、「特徴」として抽出する情報（言語表現や、メタ情報等）の個数を予め設定し、出現回数の多い情報から順に、設定された数の情報を抽出することによって行うことができる。また、「特徴」の抽出は、例えば、テキストマイニング技術を利用するのであれば、特徴スコアを用いて行うこともできる。

　後者の場合は、特徴抽出部４０は、先ず、抽出対象となる対応区間毎に、特徴要素（言語表現やメタ情報等）を選出し、各特徴要素について特徴スコアを算出する。そして、特徴抽出部４０は、特徴スコアが設定された閾値を超えるかどうかを判定し、閾値を超える特徴要素を「特徴」として抽出する。

　この場合、特徴抽出部４０による「特徴スコア」の算出は、特徴要素の出現頻度等を用いて、種々の統計解析技術によって行うことができる。例えば、特徴抽出部４０は、各特徴要素の出現頻度、対数尤度比、χ２値、イエーツ補正χ２値、自己相互情報量、ＳＥ、ＥＳＣなどの統計的尺度を求め、求めた値を特徴スコアとして用いることができる。

　また、特徴抽出部４０は、特徴要素と、その特徴スコアとの組データを「特徴」として抽出することもできる。例えば、対応区間１－１からｎ個の特徴要素が抽出されている場合を考える。この場合、対応区間１－１における特徴１－１は、（Ｔ１，ＳＣ１，Ｔ２，ＳＣ２，Ｔ３，ＳＣ３，・・・，Ｔｎ，ＳＣｎ）のように、２ｎ個の要素からなる特徴ベクトルで表現することができる。

　なお、上記において、「Ｔ１～Ｔｎ」は、ｎ個の特徴要素を示す。具体的には、特徴要素Ｔ１～Ｔｎとしては、例えば「ガンに効く」のような言語表現や、発信者情報（発信者が「初心者」である）のような文書に付与されているメタ情報が挙げられる。「ＳＣ１～ＳＣｎ」は、各特徴要素に付加された特徴スコアを示す数値データである。また、特徴要素は、特徴スコアと組になっていなくても良く、即ち、「特徴」として特徴要素のみが抽出されていても良い。この場合は、「特徴」は、例えば、特徴１－１（Ｔ１，Ｔ２，Ｔ３，・・・，Ｔｎ）のように、ｎ個の要素からなる特徴ベクトルで表現される。

　比較部５０は、時系列データ毎に、一の対応区間に属する文書から抽出された特徴と、他の対応区間に属する文書から抽出された特徴との間の特徴間距離を求める。また、本実施の形態１では、特徴間距離を求める対応区間の組み合わせが、各時系列データにおいて１組ではなく複数組存在する場合は、複数組それぞれに対して特徴間距離を求めて、求めた距離の値をベクトルデータとして扱う。

　ここで、図５に示す時系列データ（１）及び（２）を例に挙げて説明する。例えば、図５においては、対応区間１－１と２－１、対応区間１－２と２－２、対応区間１－３と２－３は、それぞれ対応区間ペアとなっており、３つの対応区間ペアが存在している。そして、時系列データ（１）では、対応区間１－１、１－２、１－３の三つの対応区間が選別されているとする。

　上記の場合、例えば、対応区間１－１の特徴と１－２の特徴との特徴間距離、対応区間１－１の特徴と１－３の特徴との特徴間距離、及び対応区間１－２の特徴と１－３の特徴との特徴間距離が求められる。求められた各特徴間距離は３次元のベクトルデータで表される。

　同様に、時系列データ（２）では、対応区間２－１、２－２、２－３の三つの対応区間が選別されているとする。この場合は、例えば、対応区間２－１の特徴と２－２の特徴との特徴間距離、対応区間２－１の特徴と２－３の特徴との特徴間距離、及び対応区間２－２の特徴と２－３の特徴との特徴間距離が求められる。求められた各特徴間距離は同じく３次元のベクトルデータで表される。

　また、上記の例では、各時系列データにおいて、対応区間選別部３０が選別した全ての対応区間同士の組み合わせに対して特徴間距離を求めているが、本実施の形態１では、特徴間距離は、時系列データ上で隣り合う対応区間同士のみについてだけ求められていても良い。図５の例で、隣り合う対応区間についてのみ特徴間距離が求められる場合は、時系列データ（１）では、対応区間１－１と１－２、対応区間１－２と１－３について特徴間距離が求められる。同様に、時系列データ（２）では、対応区間２－１と２－２、対応区間２－２と２－３について特徴間距離が求められる。上記の場合も、各特徴間距離はベクトルデータで表される。

　なお、隣り合う対応区間の間の特徴間距離だけを求める場合は、比較部５０における計算量を少なくする事が可能となる。但し、この場合は、比較部５０による比較結果の精度が、全ての対応区間同士の組み合わせについて特徴間距離を求める場合に比べて、劣化する傾向にある。よって、どのような対応区間の組み合わせについて特徴間距離を求めるかは、本実施の形態１では、情報分析装置１の用途や使用目的、入力される文書集合の性質等に応じて、適宜設定すれば良い。

　また、本実施の形態１において、比較部５０は、特徴間距離を求めるための関数（距離関数）を用いて、任意の対応区間と別の対応区間とにおける特徴間距離を求める。距離関数は、予め規定され、データベース６０に格納されている。距離関数は、任意の対応区間に属する文書から抽出された特徴と、別の対応区間に属する文書から抽出された特徴とが与えられたときに、それらの間の特徴間距離の計算を可能とする関数である。

　本実施の形態１では、距離関数は、限定されるものではない。距離関数として、どのような関数を用いるかは、情報分析装置１の用途や使用目的、入力される文書集合の性質等に応じて、適宜設定できる。具体的には、距離関数としては、以下の条件を満たすものを用いることができる。

（条件１）
　距離関数を求める対象となる二つの対応区間から抽出された、二つの特徴が全く同一となる場合、これらの特徴間距離が０（ゼロ）となる。

（条件２）
　ある対応区間から特徴（１）が抽出され、別のある対応区間から特徴（２）が抽出されている場合、特徴（１）と特徴（２）との距離は、順序を入れ替えた特徴（２）と特徴（１）との距離と等しくなる。

（条件３）
　３つの対応区間の特徴として、特徴（１）、特徴（２）、特徴（３）があるとき、それらの間の距離には、下記の関係が成立する。
（特徴（１）と特徴（３）の特徴間距離）≦（特徴（１）と特徴（２）の特徴間距離）＋（特徴（２）と特徴（３）の特徴間距離）

（条件４）
　比較部５０に２つの特徴が入力されている場合に、一方の特徴がｍ個の特徴要素からなるベクトルで表現され、他方の特徴がｎ個の特徴要素からなるベクトルで表現され、更に、両方の特徴がｃ個の共通の特徴要素を有しているとする。この場合、共通でない特徴要素の数は（ｍ＋ｎ－ｃ）個となる。特徴間距離は、共通でない特徴要素の数に応じて、単調に増加する。

（条件５）
　比較部５０に２つの特徴が入力されている場合に、一方の特徴がｍ個の特徴要素と対応するｍ個の特徴スコアとのベクトル（特徴ベクトル）で表現され、他方の特徴がｎ個の特徴要素と対応するｎ個の特徴スコアとのベクトル（特徴ベクトル）で表現されるとする。またこのとき、両方の特徴は、ｃ個の共通の特徴要素も有しているとする。この場合は、以下の手順５－１～手順５－３で、２つの特徴ベクトル間の差分が求められ、差分の大きさが特徴間距離となる。

（手順５－１）
　先ず、入力された２つの特徴ベクトルが正規化され、両者の次元数の整合が行われる。これにより、それぞれの特徴ベクトルにおいて、他方のみに存在する特徴要素に対しては、その特徴要素と特徴スコア「０（ゼロ）」とが与えられ、２つの特徴ベクトルの特徴要素が全て共通とされる。

（手順５－２）
　入力された２つの特徴ベクトルそれぞれに対して、特徴要素の種類毎に、特徴ベクトル内の特徴スコアの出現順序のソートが実行される。このとき、種類が同一（言語表現が同一、メタ情報が同一）の特徴要素に対しては、ベクトル内の特徴スコアの出現位置が同じになるように、ソートが実行される。

（手順５－３）
　手順５－１、手順５－２により、次元数と特徴スコアの出現順序との正規化が行われた後、正規化された２つの特徴ベクトルに対して、差分ベクトルが計算される。この差分ベクトルは、２つの特徴ベクトルそれぞれの各特徴スコア間の差分を値として有し、その次元は（ｍ＋ｎ－ｃ）次元となる。その後、得られた差分ベクトルの大きさの絶対値を求め、入力された２つの特徴ベクトル間の距離（特徴間距離）とする。

　上述した条件１から条件３は、一般的な距離関数の性質を規定している。また、条件４及び条件５は、入力された２つの特徴に、共通の特徴要素が多く、そして、両者において、特徴の度合いを示す特徴スコアが近いほど、特徴間距離が小さくなることを示している。更に、条件４及び５は、一方の特徴のみが有する特徴要素が存在している場合は、その特徴の度合いを示す特徴スコアが大きいほど、特徴間距離が大きくなることも示している。

　例えば、入力された２つの特徴ベクトルが、下記に示す特徴（１）と特徴（２）とであるとする。
［特徴（１）］
（「ガンに効く」，０．８、「副作用がない」，０．６，「文書カテゴリー：広告」、０．８５）
［特徴（２）］
（「即効性がある」，０．４，「副作用がない」，０．５，「文書カテゴリー：広告」，０．７）

　上記において、「ガンに効く」、「副作用がない」、及び「即効性がある」は、各対応区間に属する文書において特徴的に出現する言語表現である。「文書カテゴリー：広告」は、その対応区間に属する文書集合に特徴的に出現する文書のカテゴリーを示している。また、特徴（１）及び（２）における特徴要素の次に記述されている数値は、各特徴要素の特徴スコアを示している。

　ここで、手順５－１及び手順５－２により、特徴（１）と特徴（２）とに対して正規化を行うと、これらの特徴は下記の通りとなる。
［正規化された特徴（１）］
（「ガンに効く」，０．８，「副作用がない」，０．６，「即効性がある」，０，「文書カテゴリー：広告」，０．８５）
［正規化された特徴（２）］
（「ガンに効く」，０，「副作用がない」，０．５，「即効性がある」，０．４，「文書カテゴリー：広告」，０．７）

　次いで、手順５－３により、各特徴スコアの差分ベクトルを求めると、差分ベクトルの算出は以下の式で行われる。
差分ベクトル＝（（０．８－０），（０．６－０．５），（０－０．４），（０．８５－０．７））
更に、上記の式を展開すると、下記の通りとなる。
差分ベクトル＝（０．８，０．１，－０．４，０．１５）
この差分ベクトルの大きさの絶対値を求めると、これが、特徴間距離となる。

　ところで、上記の条件４及び条件５では、入力された２つの特徴に共通して出現する特徴要素の個数を用いて特徴間距離が計算されているが、本実施の形態１はこれに限定されるものではない。本実施の形態１では、完全に共通する特徴要素でなくとも、類似する特徴要素を共通要素と見なして、特徴間距離を求めることも可能である。

　但し、この場合は、どの特徴要素と、どの特徴要素とを類似する特徴要素として扱うのかを示す類似基準が、事前に規定され、データベース６０内に格納されていることが必要となる。なお、特徴要素が言語表現である場合、同義語辞書やシソーラスを用いることによって、類似する特徴要素を規定することができる。

　更に、比較部５０は、時系列データ毎に対応区間選別部３０が選別した対応区間同士の特徴間距離のベクトルデータを算出した後、求めた時系列データの特徴間距離ベクトルと、他の時系列データの特徴間距離ベクトルとを比較する。比較には任意のベクトル間距離関数を用いてよい。ベクトル間距離関数の１例として、コサイン距離を用いることができる。

　ついで比較部５０は、比較した結果を、入力文書集合間の関連度を求めるための値として、後述する関連度算出部７０に出力する。

　関連度算出部７０は、本実施の形態１では、比較部５０から出力された比較結果に基づいて、入力文書集合（１）と入力文書集合（２）との関連度を算出する。出力部８０は、関連度算出部７０によって算出された関連度を、入力文書集合（１）と入力文書集合（２）との関連度として出力する。

　本実施の形態１では、関連度は、比較部５０から出力された比較結果を示す数値（コサイン距離等）が小さいほど、即ち、比較部５０が算出した、二つの特徴間距離のベクトルデータ間の距離が小さいほど、高くなるように規定するのが良い。

　関連度の算出は、例えば、時系列データ（１）における特徴間距離のベクトルデータと、時系列データ（２）における特徴間距離のベクトルデータとの比較結果の逆数を求め、これに予め設定した定数をかけて行うことができる。また、関連度の算出は、その他、予め設定した定数から、特徴間距離のベクトルデータの比較結果を減算しても行うことができる。

　ここで、関連度をこのように規定する理由を図６～図８を用いて以下に説明する。図６は、共通の原因によって変動する時系列データの例（関連性が高い時系列データなど）を示す図である。図７は、共通の原因によって変動する時系列データの他の例（関連性が高い時系列データなど）を示す図である。図８は、異なる原因によって変動する時系列データの他の例（時系列データが偶然に一致した場合など）を示す図である。

　まず、例えば、図６で示されるような時系列データ（１）と時系列データ（２）とがあって、時系列データ（１）と時系列データ（２）が、真に関連性が高く、時系列データ（１）の変動と、時系列データ（２）の変動とには、共通の原因がある場合を考える。

　この図６で時系列データ（１）の対応区間１－１と、時系列データ（２）の対応区間２－１は、共通の原因ａによりピークを有しているものとする。また同様に、時系列データ１の対応区間１－２と、時系列データ２の対応区間２－２とも、共通の原因ａによりピークを有しているとする。

　さらに、時系列データ（１）において、対応区間１－１と対応区間１－２は、時系列データの形状が類似している。また、それらと対応区間ペアをなす時系列データ（２）における対応区間２－１と対応区間２－２は、時系列データの形状が類似しており、これら４つの対応区間は対応区間組の条件を満たしている。このような場合に、時系列データ（１）と時系列データ（２）との関連度を求める。

　非特許文献１の技術では、時系列データ（１）に属している文書集合の特徴と、時系列データ（２）に属している文書集合の特徴とを直接比較し、共通の特徴要素の有無から、それらの間の関連度を計算する。時系列データ（１）の部分区間である対応区間１－１と、時系列データ２の部分区間である対応区間２－１との相関性が高く、それらの区間に着目している場合、各区間の特徴を求めて、それらの間の距離を求める。

　しかし、時系列データ（１）の元となる入力文書集合（１）と、時系列データ（２）の元となる入力文書集合（２）は、一般には異なる性質の文書集合である。そして、これらが、共通の原因ａにより同様に変動しているとしても、必ずしも対応区間１－１で見受けられる特徴１－１と、対応区間２－１で見受けられる特徴２－１とに共通要素があるとは限らない。

　だが、同じ入力文書集合（１）の中で、対応区間１－１と対応区間１－２のピークが共通の原因ａによるものであるのならば、特徴１－１と特徴１－２との共通要素は大きいと考えられる。同様に、同じ入力文書集合（２）の中で、対応区間２－１と対応区間２－２のピークが共通の原因ａによるものであるのならば、特徴２－１と特徴２－２との共通要素は大きいと考えられる。

　そこで、特徴１－１と特徴２－１との距離を直接求めるのではなく、特徴１－１と特徴１－２との距離を算出し、ついで、特徴２－１と特徴２－２との距離を算出し、算出した２つの距離を比較することで、関連度を求めることができる。この例では、特徴１－１と特徴１－２との距離は、共通要素が多く、すなわち距離が小さくなる。特徴２－１と特徴２－２との距離も同様に、共通要素が多く、距離が小さくなる。

　よって、時系列データ（１）における特徴間距離のベクトルデータ（この例では要素が１つのみ）と、時系列データ（２）における特徴間距離のベクトルデータ（この例では要素が１つのみ）とが、ともに小さくなるため、それらの間の距離も小さくなり、関連度は高く計算される。

　一方、図７に示すように時系列データ（１）と時系列データ（２）とが、真に関連性が高く、（同時期では）共通の原因によりそれぞれ変動しているが、対応区間１－１と対応区間２－１との対応区間ペアでは、原因ａによりピークが生じ、対応区間１－２と対応区間２－２との対応区間ペアでは、原因ｂによりピークが生じている場合を考える。

　時系列データ（１）において、特徴１－１と特徴１－２とは、そのピークの原因が異なるため、共通の特徴要素が少なく、距離が大きくなると考えられる。同様に、時系列データ（２）において、特徴２－１と特徴２－２とは、そのピークの原因が異なるため、共通の特徴要素が少なく、距離が大きくなると考えられる。よって、時系列データ（１）における特徴間距離のベクトルデータ（この例では要素が１つのみ）と、時系列データ（２）における特徴間距離のベクトルデータ（この例では要素が１つのみ）とが、ともに大きくなる。このため、それらの間の距離は小さくなり、関連度は高く計算される。

　時系列データ（１）と時系列データ（２）との関連性が、真に高く、対応区間ペア同士では共通の原因で変動する場合、その前提から、対応区間ペアにおける変動の原因は共通である。よって、対応区間１－１と対応区間２－１とは共通の変動原因を持ち、また、対応区間１－２と対応区間２－２とは共通の原因を持つ。

　ここで、時系列データ（１）の中で、対応区間１－１と対応区間１－２とが共通の原因をもつとは限らないが、共通の原因を持つ場合（図６の場合）は、論理的に、対応区間２－１と対応区間２－２とも共通の原因を持つことになる。一方、対応区間１－１と対応区間１－２とが共通の原因を持たない場合、やはり、対応区間２－１と対応区間２－２とも共通の原因を持たないことになる。

　また別の例として、今度は、図８に示すように、時系列データ（１）と時系列データ（２）との間に関連性はないが、偶然の一致により、対応区間１－１と対応区間２－１との間、および、対応区間１－２と対応区間２－２との間に相関性が高い場合を考える。

　ここで、時系列データ（１）における対応区間１－１と対応区間１－２とは、ともに同じ原因ａによって生じているものとする。すると、それらの特徴１－１と特徴１－２は共通の特徴要素が多くなり、距離は小さくなる。

　一方、対応区間２－１は原因ｃによって、対応区間２－２は原因ｄによって生じたピークであり、原因が異なるため、特徴２－１と特徴２－２は共通要素が少なく、それらの距離は大きくなる。よって、時系列データ（１）における特徴間距離のベクトルデータ（この例では要素が１つのみ）と、時系列データ（２）における特徴間距離のベクトルデータ（この例では要素が１つのみ）とが、一方は小さく、他方は大きくなるため、それらの間の距離は大きくなり、関連度は低く計算される。

　もちろん、対応区間２－１と対応区間２－２とがともに同じ原因ｃによって生じ、さらに、対応区間２－１と対応区間１－１、対応区間２－２と対応区間１－２が同タイミングで生じた場合は、図６の場合と同様に、時系列データ１における特徴間距離のベクトルデータ（この例では要素が１つのみ）と、時系列データ２における特徴間距離のベクトルデータ（この例では要素が１つのみ）とが、ともに小さくなる。このため、それらの間の距離も小さくなり、関連度は誤って高く計算される。

　しかし、任意の異なる原因により、時系列データ（１）と時系列データ（２）との２つのピークタイミングが偶然一致する場合（図８の場合）に比べて、相互に関連性がないのにかかわらず、時系列データ（１）内で共通する原因、時系列データ（２）内でも共通する原因でピークが生じ、さらにそれらのタイミングが２つとも一致する可能性は、制約条件が厳しくなっているため、稀であると考えられる。

　このように、情報分析装置１では、ある時系列データの対応区間における変化パターンと、別の時系列データの対応区間における変化パターンとが似通っていたとしても、両対応区間における文書の特徴が全く異なる場合は、そのことが明らかとなる。この結果、情報分析装置１によれば、時系列データ間において、両者の変化パターンが偶然に一致した場合に、間違って関連性があると判定されてしまう事態の発生が抑制される。情報分析装置１は、インターネット上の文書データ等で構成された文書集合のように、様々な原因で変動する大量の文書で構成された集合体の中から、関連度の高い文書集合を見つけ出す必要がある場合に、有効である。

　次に、本発明の実施の形態１における情報分析方法について図９を用いて説明する。図９は、本発明の実施の形態１における情報分析方法における処理の流れを示すフロー図である。本実施の形態１における情報分析法は、図１に示した本実施の形態１における情報分析装置１を動作させることによって実施される。このため、以下の説明は、適宜図１を参酌しながら、情報分析装置１の動作と共に説明する。

　図９に示すように、先ず、入力部１０が、分析対象となる複数の文書集合の入力を受け付ける（ステップＡ１）。本実施の形態１では、入力される文書集合は、２つであり、それぞれ入力文書集合（１）及び入力文書集合（２）である。また、各入力文書集合は、時間情報付きの複数の文書で構成されている。

　次に、時系列データ生成部２０が、入力部１０によって受け付けられた複数の文書集合から、文書集合毎に、時間情報に基づいて、時系列データを生成する（ステップＡ２）。本実施の形態１では、時系列データ生成部２０は、入力文書集合から時系列データ（１）を生成し、入力文書集合（２）から時系列データ（２）を生成する。

　次いで、対応区間選別部３０が、複数の文書集合から得られる複数の時系列データを互いに比較し、各時系列データから、他の時系列データの２以上の区間それぞれに対応して変化する区間（対応区間）を２以上選別する。

　具体的には、ステップＡ２が終了すると、対応区間ペア選別部３１が、時系列データ（１）と時系列データ（２）とを対比し、相互に高い相関性を持って変動する対応区間ペアを選別する（ステップＡ３）。続いて、対応区間ペア選別部３１は、時系列データ（１）及び（２）から、相互に高い相関性を持って変動する対応区間ペアが２ペア以上選別できたかどうか判定する（ステップＡ４）。

　ステップＡ４の判定の結果、選別できた対応区間ペアが１ペア以下の場合は、対応区間ペア選別部３１は、関連度算出部７０に対して関連度の中止を指示し、処理を中止する。一方、ステップＡ４の結果、選別できた対応区間ペアが２ペア以上の場合は、対応区間ペア選別部３１は、選別された対応区間ペアを特定する情報を類似対応区間ペア選別部３２に入力する。

　次に、類似対応区間ペア選別部３２は、対応区間ペア選別部３１から情報を受け取ると、既に選別されている複数の対応区間ペアの中から、時系列データ（１）及び時系列データ（２）それぞれにおいて類似する対応区間ペアを選別する（ステップＡ５）。続いて、類似対応区間ペア選別部３２は、対応区間ペアが２以上（対応区間の合計数が４つ以上）選別されているかどうかを判定する（ステップＡ６）。

　ステップＡ６の判定の結果、時系列データ（１）及び（２）において対応区間ペアが２以上選別されていない場合は、類似対応区間ペア選別部３２は、関連度算出部７０に対して関連度の中止を指示し、処理を中止する。一方、ステップＡ６の結果、時系列データ（１）及び（２）において対応区間ペアが２以上選別されている場合は、類似対応区間ペア選別部３２は、再度選別された対応区間ペアを特徴抽出部４０に入力する。

　次に、特徴抽出部４０は、類似対応区間ペア選別部３２から情報を受け取ると、各時系列データの選別された各対応区間に属する文書を特定し、特定された文書の特徴を、対応区間毎に抽出する（ステップＡ７）。そして、特徴抽出部４０は、抽出した特徴を比較部５０に入力する。

　次に、比較部５０は、時系列データ毎に、一の対応区間から抽出された特徴と、他の対応区間から抽出された特徴との間の特徴間距離を求め、求められた時系列データ毎の特徴間距離を互いに比較する（ステップＡ８）。

　具体的には、比較部５０は、各時系列データに着目して、個々の時系列データの内部において複数の対応区間どうしの特徴間距離を算出し、時系列データ（１）内における特徴間距離と、時系列データ（２）内における特徴間距離とを比較する。そして、比較部５０は、時系列データ（１）における特徴間距離と、時系列データ（２）における特徴間距離との比較結果を関連度算出部７０に入力する。

　続いて、関連度算出部７０は、比較部５０が入力した比較結果に基づいて、入力された文書集合間の関連度を算出する（ステップＡ９）。その後、関連度算出部７０が、関連度を特定する分析データを外部に出力すると、情報分析装置１における処理は終了する。

　本実施の形態１における情報分析方法を実行すれば、時系列データ間において、両者の変化パターンが偶然に一致した場合に、間違って関連性があると判定されてしまう事態の発生が抑制される。

　また、本実施の形態１におけるプログラムは、コンピュータに、図９に示すステップＡ１～Ａ９を実行させるプログラムであれば良い。よって、情報分析装置１は、コンピュータに、このプログラムをインストールし、更にこれを実行させることによって、具現化することができる。この場合、コンピュータのＣＰＵ（ｃｅｎｔｒａｌ　ｐｒｏｃｅｓｓｉｎｇ　ｕｎｉｔ）は、時系列データ生成部２０、対応区間選別部３０、特徴抽出部４０、比較部５０及び関連度算出部７０として機能し、処理を行なう。

　更に、データベース６０は、ハードディスク等の記憶装置に、データファイルを格納することによって、又はデータファイルが格納された記録媒体をコンピュータと接続された読取装置に搭載することによって実現できる。なお、データベース６０を構成する記憶装置は、上述したプログラムがインストールされたコンピュータに備えられていても良いし、ネットワークを介して接続された別のコンピュータに備えられていても良い。また、読取装置は、上述したプログラムがインストールされたコンピュータに接続されていても良いし、ネットワークを介して接続された別のコンピュータに接続されていても良い。

（実施の形態２）
　次に、本発明の実施の形態２における情報分析装置、情報分析装置及びプログラムについて、図１０及び図１１を参照しながら説明する。最初に、図１０を用いて、本発明の実施の形態２における情報分析装置の構成について説明する。図１０は、本発明の実施の形態２における情報分析装置の概略構成を示すブロック図である。

　図１０に示すように、本実施の形態２における情報分析装置２は、時系列データ生成部（図１参照）を備えておらず、この点で、実施の形態１における情報分析装置１と異なっている。また、時系列データ生成部が備えられていないことに伴い、情報分析装置２は、各部の機能の点でも、実施の形態１における情報分析装置１と異なっている。以下に、情報分析装置１との相違点について説明する。

　本実施の形態２では、情報分析装置２には、予め、文書集合から生成された時系列データが入力される。入力部１０は、時系列データの入力を受け付ける。なお、本実施の形態２においても、入力される時系列データは、２つである。また、本実施の形態２では、一方の時系列データの一の対応区間と、この対応区間に対応する他方の時系列データの対応区間とが予め設定されている。そして、予め設定された対応区間（設定対応区間）を特定する情報も、入力部１０に入力される。

　例えば、入力される時系列データ（１）及び（２）が、図２に示すものであり、更に、対応区間１－１と、これと高い相関性を持って変化する対応区間２－１との対応区間ペアが予め設定されているとする。この場合、時系列データ（１）及び（２）と、設定対応区間１－１及び設定対応区間２－１を特定する情報とが、入力部１０によって受け付けられる。

　また、本実施の形態２では、対応区間選別部３０は、先ず、一方の時系列データについて、その設定対応区間と変化が類似する対応区間を選別する。更に、対応区間選別部３０は、他方の時系列データについて、その設定対応区間と変化が類似し、且つ、一方の時系列データについて選別された対応区間に対応する、対応区間を選別する。

　例えば、上述したように、時系列データ（１）及び（２）が、図２に示すものであり、対応区間１－１及び対応区間２－１が予め設定されているとする。この場合、対応区間選別部３０は、時系列データ（１）の部分的な区間であって、設定対応区間１－１と類似する区間を対応区間１－２として選別する。更に、対応区間選別部３０は、時系列データ（２）の部分的な区間であって、設定対応区間２－１と類似し、且つ、対応区間１－２と高い相関性を持って変化する区間を対応区間２－２として選別する。

　また、本実施の形態２では、特徴抽出部４０は、時系列データそれぞれの設定対応区間に属する文書と、時系列データそれぞれの選別された対応区間に属する文書とを特定し、特定された文書の特徴を対応区間毎に抽出する。

　更に、本実施の形態２では、比較部５０は、設定対応区間から抽出された特徴と、選別された対応区間から抽出された特徴との間の特徴間距離を求める。なお、本実施の形態２においても、比較部５０は、実施の形態１と同様に、データベース６０に格納されている距離関数を用いて、特徴間距離を算出する。また、比較部５０は、実施の形態１と同様に、求められた時系列データ毎の特徴間距離を比較し、比較結果を関連度算出部７０に入力する。

　また、関連度算出部７０は、実施の形態１の場合と同様に、比較部５０による比較の結果に基づいて、関連度を算出するが、本実施の形態２では、一の設定対応区間と別の設定対応区間とについて関連度を算出する。

　次に、本発明の実施の形態２における情報分析方法について図１１を用いて説明する。図１１は、本発明の実施の形態２における情報分析方法における処理の流れを示すフロー図である。本実施の形態２における情報分析法は、図１０に示した本実施の形態２における情報分析装置２を動作させることによって実施される。このため、以下の説明は、適宜図１０を参酌しながら、情報分析装置２の動作と共に説明する。

　図１１に示すように、先ず、入力部１０が、分析対象となる時系列データ（１）及び（２）と、それぞれの予め設定された対応区間を特定する情報（設定対応区間情報）との入力を受け付ける（ステップＡ１１）。

　次に、対応区間選別部３０は、時系列データ（１）の設定対応区間と変化が類似する対応区間を選別し、更に、時系列データ（２）の設定対応区間と変化が類似し、且つ、時系列データ（１）について選別された対応区間に対応する、対応区間を選別する（ステップＡ１２）。

　次に、特徴抽出部４０は、時系列データそれぞれの設定対応区間に属する文書と、時系列データそれぞれの選別された対応区間に属する文書とを特定し、対応区間毎に、特定された文書それぞれの特徴を抽出する（ステップＡ１３）。

　続いて、比較部５０は、設定対応区間から抽出された特徴と、選別された対応区間から抽出された特徴との間の特徴間距離を求め、求められた時系列データ毎の特徴間距離を比較し、比較結果を関連度算出部７０に入力する（ステップＡ１４）。

　その後、関連度算出部７０は、比較部５０による比較の結果に基づいて、一の設定対応区間と別の設定対応区間とについて関連度を算出する（ステップＡ１５）。その後、関連度算出部７０が、関連度を特定する分析データを外部に出力すると、情報分析装置２における処理は終了する。

　このように、本実施の形態２によれば、時系列データ（１）及び時系列データ（２）それぞれの部分的な区間に対する関連度を求めることができる。また、実施の形態２においても、実施の形態１と同様に、時系列データ（１）と（２）との変化パターンの偶然の一致によって、関連性が誤って判定されてしまう事態は回避される。また、本実施の形態２も、インターネット上の文書データ等で構成された文書集合のように、様々な原因で変動する大量の文書で構成された集合体の中から、関連度の高い文書集合を見つけ出す必要がある場合に、有効である。

　また、本実施の形態２におけるプログラムは、コンピュータに、図１１に示すステップＡ１１～Ａ１５を実行させるプログラムである。よって、情報分析装置２は、コンピュータに、このプログラムをインストールし、更にこれを実行させることによって、具現化することができる。この場合、コンピュータのＣＰＵ（ｃｅｎｔｒａｌ　ｐｒｏｃｅｓｓｉｎｇ　ｕｎｉｔ）は、対応区間選別部３０、特徴抽出部４０、比較部５０及び関連度算出部７０として機能し、処理を行なう。また、データベース６０は、実施の形態１の場合と同様に、ハードディスク等の記憶装置にデータファイルを格納することによって、又はデータファイルが格納された記録媒体をコンピュータと接続された読取装置に搭載することによって実現できる。

　本発明は、ブログ等のインターネット上の文書データや、コールセンターの応対履歴等の時間情報が付与された文書データ等の分析に利用できる。また、定期的に実行されるアンケート調査や市場調査の結果を分析する際において、関連する文書集合を求める目的にも利用できる。更に、本発明によれば、時間によって変化する文書集合間の関連度を適切に算出することができるので、文書検索のナビゲーションや、検索結果の分類等にも適用できる。

　１　情報分析装置（実施の形態１）
　２　情報分析装置（実施の形態２）
　１０　入力部
　２０　時系列データ生成部
　３０　対応区間選別部
　３１　対応区間ペア選別部
　３２　類似対向区間ペア選別部
　４０　特徴抽出部
　５０　比較部
　６０　データベース
　７０　関連度
　８０　出力部

Claims

　時間情報が付与された文書を含む文書集合に対して、情報分析を実行する情報分析装置であって、
　複数の前記文書集合から、前記文書集合毎に、前記時間情報に基づいて生成された、複数の時系列データを互いに比較し、各時系列データから、他の時系列データの２以上の区間それぞれに対応して変化する２以上の区間を選別する対応区間選別部と、
　複数の前記時系列データそれぞれについて、選別された前記２以上の区間に属する前記文書を前記区間毎に特定し、特定された前記文書の特徴を、前記区間毎に抽出する特徴抽出部と、
　前記時系列データ毎に、選別された前記２以上の区間における、一の区間から抽出された特徴と、他の区間から抽出された特徴との間の特徴間距離を求め、求められた前記時系列データ毎の特徴間距離を互いに比較する比較部と、
　前記比較部による比較の結果に基づいて、前記文書集合間の関連度を算出する関連度算出部とを備える、ことを特徴とする情報分析装置。
　複数の前記文書集合の入力を受け付ける入力部と、
　入力された複数の前記文書集合から、前記文書集合毎に、前記時間情報に基づいて、複数の前記時系列データを生成する時系列データ生成部とを、更に備えている、請求項１に記載の情報分析装置。
　前記入力部が２つの前記文書集合の入力を受け付け、前記時系列データ生成部が、２つの前記時系列データを生成している場合において、
　前記対応区間選別部が、一方の前記時系列データと他方の前記時系列データとの相関係数を求め、２つの前記時系列データそれぞれにおける、前記相関係数の絶対値が設定された閾値を超える又は前記閾値以上となる２以上の区間を、前記対応して変化する２以上の区間として選別する、請求項２に記載の情報分析装置。
　前記入力部が２つの前記文書集合の入力を受け付け、前記時系列データ生成部が、２つの前記時系列データを生成している場合において、
　前記対応区間選別部が、更に、２つの前記時系列データそれぞれについて、選別された前記対応して変化する２以上の区間の変化が相互に類似するかどうかを判定し、２つの前記時系列データ両方において、変化が相互に類似する２以上の区間が存在する場合は、一方の前記時系列データの相互に類似する２以上の区間それぞれと、他方の前記時系列データの相互に類似する２以上の区間それぞれとが対応しているかどうかを判定し、対応して変化する区間のペアが二以上存在する場合は、これらの区間を再度選別し、
　前記特徴抽出部が、２つの前記時系列データそれぞれについて、再度選別された前記２以上の区間に属する前記文書を前記区間毎に特定し、
　前記比較部が、前記時系列データ毎に、再度選別された前記２以上の区間における一の区間と他の区間とについて前記特徴間距離を求める、請求項２または３に記載の情報分析装置。
　前記時間情報に基づいて前記文書集合から生成された時系列データの入力を受け付ける入力部を更に備え、
　前記入力部が２つの前記時系列データの入力を受け付け、且つ、一方の時系列データの一区間と、前記一区間に対応して変化する他方の時系列データの一区間とが予め設定されている場合において、
　前記対応区間選別部が、前記一方の時系列データについて、その予め設定された前記一区間と変化が類似する区間を選別し、更に、前記他方の時系列データについて、その予め設定された前記一区間と変化が類似し、且つ、前記一方の時系列データについて選別された前記区間に対応して変化する、区間を選別し、
　前記特徴抽出部が、２つの前記時系列データそれぞれの予め設定された前記一区間に属する文書と、前記区間毎に、２つの前記時系列データそれぞれの選別された前記区間に属する文書とを特定し、特定された前記文書それぞれの特徴を抽出し、
　前記比較部が、前記時系列データ毎に、予め設定された前記一区間に属する文書から抽出された特徴と、選別された前記区間に属する文書から抽出された特徴との間の特徴係間距離を求め、求められた前記時系列データ毎の特徴間距離を互いに比較し、
　前記関連度算出部が、前記比較部による比較の結果に基づいて、予め設定された前記一区間同士について前記関連度を算出する、請求項１に記載の情報分析装置。
　時間情報が付与された文書を含む文書集合に対して、情報分析を実行するための情報分析方法であって、
（ａ）複数の前記文書集合から、前記文書集合毎に、前記時間情報に基づいて生成された、複数の時系列データを互いに比較し、各時系列データから、他の時系列データの２以上の区間それぞれに対応して変化する２以上の区間を選別するステップと、
（ｂ）複数の前記時系列データそれぞれについて、選別された前記２以上の区間に属する前記文書を前記区間毎に特定し、特定された前記文書の特徴を、前記区間毎に抽出するステップと、
（ｃ）前記時系列データ毎に、選別された前記２以上の区間における、一の区間から抽出された特徴と、前記他の区間から抽出された特徴との間の特徴間距離を求め、求められた前記時系列データ毎の特徴間距離を互いに比較するステップと、
（ｄ）前記（ｃ）のステップによる比較の結果に基づいて、前記文書集合間の関連度を算出するステップとを有する、ことを特徴とする情報分析方法。
（ｅ）前記（ａ）のステップの実行前に、複数の前記文書集合の入力を受け付けるステップと、
（ｆ）前記（ｅ）のステップで入力された複数の前記文書集合から、前記文書集合毎に、前記時間情報に基づいて、複数の前記時系列データを生成する、ステップとを更に有する、請求項６に記載の情報分析方法。
　前記（ｅ）のステップにおいて、２つの前記文書集合の入力を受け付け、前記（ｆ）のステップにおいて、２つの前記時系列データが生成されている場合に、
　前記（ａ）のステップにおいて、一方の前記時系列データと他方の前記時系列データとの相関係数を求め、２つの前記時系列データそれぞれにおける、前記相関係数の絶対値が設定された閾値を超える又は前記閾値以上となる２以上の区間を、前記対応して変化する２以上の区間として選別する、請求項７に記載の情報分析方法。
　前記（ｅ）のステップにおいて、２つの前記文書集合の入力を受け付け、前記（ｆ）のステップにおいて、２つの前記時系列データが生成されている場合に、
　前記（ａ）のステップにおいて、前記対応して変化する２以上の区間を選別した後に、更に、２つの前記時系列データそれぞれについて、選別された前記２以上の区間の変化が相互に類似するかどうかを判定し、２つの前記時系列データ両方に、変化が相互に類似する２以上の区間が存在する場合は、一方の前記時系列データの相互に類似する２以上の区間それぞれと、他方の前記時系列データの相互に類似する２以上の区間それぞれとが対応して変化しているかどうかを判定し、対応して変化する区間のペアが二以上存在する場合に、これらの区間を再度選別し、
　前記（ｂ）のステップにおいて、２つの前記時系列データそれぞれについて、再度選別された前記２以上の区間に属する前記文書を前記区間毎に特定し、
　前記（ｃ）のステップにおいて、前記時系列データ毎に、再度選別された前記２以上の区間における一の区間と他の区間とについて前記特徴間距離を求める、請求項７または８に記載の情報分析方法。
（ｇ）前記（ａ）のステップの実行前に、前記時間情報に基づいて前記文書集合から生成された時系列データの入力を受け付けるステップを更に有し、
　前記（ｇ）のステップにおいて、２つの前記時系列データの入力が受け付けられ、且つ、一方の時系列データの一区間と、前記一区間に対応して変化する他方の時系列データの一区間とが予め設定されている場合に、
　前記（ａ）のステップにおいて、前記一方の時系列データについて、その予め設定された前記一区間と変化が類似する区間を選別し、更に、前記他方の時系列データについて、その予め設定された前記一区間と変化が類似し、且つ、前記一方の時系列データにおいて選別された前記区間に対応して変化する、区間を選別し、
　前記（ｂ）のステップにおいて、２つの前記時系列データそれぞれの予め設定された前記一区間に属する文書と、２つの前記時系列データそれぞれの選別された前記区間に属する文書とを特定し、前記区間毎に、特定された前記文書それぞれの特徴を抽出し、
　前記（ｃ）のステップにおいて、前記時系列データ毎に、予め設定された前記一区間に属する文書から抽出された特徴と、選別された前記区間に属する文書から抽出された特徴との間の特徴間距離を求め、求められた前記時系列データ毎の特徴間距離を互いに比較し、
　前記（ｄ）のステップにおいて、前記（ｃ）のステップによる比較の結果に基づいて、予め設定された前記一区間同士について前記関連度を算出する、請求項６に記載の情報分析方法。
　時間情報が付与された文書を含む文書集合に対する情報分析をコンピュータに実行させるためのプログラムであって、
　前記コンピュータに、
（ａ）複数の前記文書集合から、前記文書集合毎に、前記時間情報に基づいて生成された、複数の時系列データを互いに比較し、各時系列データから、他の時系列データの２以上の区間それぞれに対応して変化する２以上の区間を選別するステップと、
（ｂ）複数の前記時系列データそれぞれについて、選別された前記２以上の区間に属する前記文書を前記区間毎に特定し、特定された前記文書の特徴を、前記区間毎に抽出するステップと、
（ｃ）前記時系列データ毎に、選別された前記２以上の区間における、前記一の区間から抽出された特徴と、前記他の区間から抽出された特徴との間の特徴間距離を求め、求められた前記時系列データ毎の特徴間距離を互いに比較するステップと、
（ｄ）前記（ｃ）のステップによる比較の結果に基づいて、前記文書集合間の関連度を算出するステップとを実行させる、ことを特徴とするプログラム。
（ｅ）前記（ａ）のステップの実行前に、複数の前記文書集合の入力を受け付けるステップと、
（ｆ）前記（ｅ）のステップで入力された複数の前記文書集合から、前記文書集合毎に、前記時間情報に基づいて、複数の前記時系列データを生成する、ステップとを、更に、前記コンピュータに実行させる、請求項１１に記載のプログラム。
　前記（ｅ）のステップにおいて、２つの前記文書集合の入力を受け付け、前記（ｆ）のステップにおいて、２つの前記時系列データが生成されている場合に、
　前記（ａ）のステップにおいて、一方の前記時系列データと他方の前記時系列データとの相関係数を求め、２つの前記時系列データそれぞれにおける、前記相関係数の絶対値が設定された閾値を超える又は前記閾値以上となる２以上の区間を、前記対応して変化する２以上の区間として選別する、請求項１２に記載のプログラム。
　前記（ｅ）のステップにおいて、２つの前記文書集合の入力を受け付け、前記（ｆ）のステップにおいて、２つの前記時系列データが生成されている場合に、
　前記（ａ）のステップにおいて、前記対応して変化する２以上の区間を選別した後に、更に、２つの前記時系列データそれぞれについて、選別された前記２以上の区間の変化が相互に類似するかどうかを判定し、２つの前記時系列データ両方に、変化が相互に類似する２以上の区間が存在する場合は、一方の前記時系列データの相互に類似する２以上の区間それぞれと、他方の前記時系列データの相互に類似する２以上の区間それぞれとが対応して変化しているかどうかを判定し、対応して変化する区間のペアが二以上存在する場合に、これらの区間を再度選別し、
　前記（ｂ）のステップにおいて、２つの前記時系列データそれぞれについて、再度選別された前記２以上の区間に属する前記文書を前記区間毎に特定し、
　前記（ｃ）のステップにおいて、前記時系列データ毎に、再度選別された前記２以上の区間における一の区間と他の区間とについて前記特徴間距離を求める、請求項１２または１３に記載のプログラム。
（ｇ）前記（ａ）のステップの実行前に、前記時間情報に基づいて前記文書集合から生成された時系列データの入力を受け付けるステップを、更に、前記コンピュータに実行させ、
　前記（ｇ）のステップにおいて、２つの前記時系列データの入力が受け付けられ、且つ、一方の時系列データの一区間と、前記一区間に対応して変化する他方の時系列データの一区間とが予め設定されている場合に、
　前記（ａ）のステップにおいて、前記一方の時系列データについて、その予め設定された前記一区間と変化が類似する区間を選別し、更に、前記他方の時系列データについて、その予め設定された前記一区間と変化が類似し、且つ、前記一方の時系列データにおいて選別された前記区間に対応して変化する、区間を選別し、
　前記（ｂ）のステップにおいて、２つの前記時系列データそれぞれの予め設定された前記一区間に属する文書と、２つの前記時系列データそれぞれの選別された前記区間に属する文書とを特定し、前記区間毎に、特定された前記文書それぞれの特徴を抽出し、
　前記（ｃ）のステップにおいて、前記時系列データ毎に、予め設定された前記一区間に属する文書から抽出された特徴と、選別された前記区間に属する文書から抽出された特徴との間の特徴間距離係を求め、求められた前記時系列データ毎の特徴間距離を互いに比較し、
　前記（ｄ）のステップにおいて、前記（ｃ）のステップによる比較の結果に基づいて、予め設定された前記一区間同士について前記関連度を算出する、請求項１１に記載のプログラム。