WO2012111226A1

WO2012111226A1 - 時系列文書要約装置、時系列文書要約方法およびコンピュータ読み取り可能な記録媒体

Info

Publication number: WO2012111226A1
Application number: PCT/JP2011/078517
Authority: WO
Inventors: 岡嶋穣; 中澤聡; 河合剛巨
Original assignee: 日本電気株式会社
Priority date: 2011-02-15
Filing date: 2011-12-09
Publication date: 2012-08-23
Also published as: JPWO2012111226A1; US20130311471A1; JP5884740B2

Abstract

　時系列文書要約装置（２０１）は、対象となる文書集合である着目文書集合の要約文を出力する。時系列文書要約装置（２０１）は、上記着目文書集合、および上記着目文書集合の特徴語である着目文書話題語の組と、上記着目文書集合とは異なる文書集合である参照用文書集合とを取得し、上記着目文書集合において記述されている話題の背景となる話題を表す背景話題語を上記参照用文書集合から抽出するための背景話題語抽出部（２０）と、上記着目文書集合に含まれる文字列の中から、上記着目文書話題語および上記背景話題語を含む代表文字列を、上記着目文書集合の要約文として抽出するための代表文字列抽出部（３０）とを備える。

Description

時系列文書要約装置、時系列文書要約方法およびコンピュータ読み取り可能な記録媒体

　本発明は、時系列文書要約装置、時系列文書要約方法およびコンピュータ読み取り可能な記録媒体に関し、特に、文書集合における話題を要約してユーザに提示する時系列文書要約装置、時系列文書要約方法およびコンピュータ読み取り可能な記録媒体に関する。

　近年では、インターネットの発展により、ニュース記事およびブログ記事のような大量の文書が日夜生成され、公開されるようになっている。そのため、このような大量の時系列文書の内容を要約するための新しい技術が必要とされている。

　大量の時系列文書から話題となっている事柄を抽出および要約するための技術として、トレンド分析の技術が知られている。トレンド分析とは、ニュース記事およびブログ記事など時系列的に生成される大量の文書の中から、期間ごとにどのようなことが話題になっているかを分析して、ユーザに提示する技術である。

　トレンド分析技術では、着目している期間について、その期間に属する文書集合に偏って多く出現している特徴語を抽出して出力することで、その期間の話題を表すことが一般的である。

　奥村　学，南野　朋之，藤木　稔明，鈴木　泰裕，“ｂｌｏｇページの自動収集と監視に基づくテキストマイニング”，人工知能学会研究会SIG-SW&ONT-A401-01,2004（非特許文献１）に記載の技術では、ある語を含む文書の出現間隔が通常よりも短くなっているかどうかを判断することで、特定期間に偏って多く出現する特徴語を抽出している。

　さらに、非特許文献１に記載の技術を用いて抽出された着目期間の特徴語について、その特徴語を含む文を抽出することは容易である。この特徴語を含む文をその期間の話題を表す要約文として出力することができる。

　実例として、“Ｙａｈｏｏ！ブログ検索”、［online］、［平成２２年８月２３日検索］、インターネット＜URL:http://blog-search.yahoo.co.jp/＞（非特許文献２）に記載のサービスがある。このサービスでは、トップページに現在時刻における特徴語が表示され、表示された特徴語をクリックすると、検索ページに遷移し、クリックされた特徴語を含んでいる文の一部が表示される。これは、着目する期間の特徴語を含む文を、その期間の話題を説明するための文としてユーザに提示していることに相当する。

　また、奥村　学，難波　英嗣，『知の科学　テキスト自動要約』，オーム社，2005（非特許文献３）の２２ページから２３ページに記載の技術は、文書の特徴語を含む文を抽出することで要約を作成する技術である。ある期間に属する文書集合にこの技術を適用することで、その期間の話題を説明する要約文を提示することができる。

　このように、ある期間の特徴語を含む文を抽出することで、その期間の話題を説明する要約文として提示する技術が存在する。

　また、話題語を処理する技術の一例として、特開２００６－１３９７１８号公報（特許文献１）には、以下のような技術が開示されている。すなわち、話題語および該話題語に関連する文書情報が読み込まれると、話題語結合記憶手段に格納されている話題語結合ルールにより、ある話題語が関係する文書と他の話題語が関連する文書との文書共有度を算出する。次に、文書共有度に基づいて、結合できる話題語を選定し、選定された話題語を結合し、文書共有度と共に話題語グループとする。次に、代表語抽出ルールに基づいて、結合した話題語グループの代表語を抽出する。

　また、特開２００７－１４０６０２号公報（特許文献２）には、以下のような技術が開示されている。すなわち、処理対象文書に含まれる各語句に対して、処理対象文書の発信源と当該語句を使用したことのある発信源との関連度を関連度データベースから取得し集計することにより得られる当該語句使用者との関連度分布と、該処理対象文書の発信源と他の発信源との関連度を該関連度データベースから取得し集計することにより得られた他の発信源との関連度分布とを対比させる。そして、該処理対象文書の発信源との関連度が大きい発信源において多く使用されている度合いを表す量を当該語句の話題度とする。

　また、特開２００８－１５２６３４号公報（特許文献３）には、以下のような技術が開示されている。すなわち、複数の文書集合に出現する単語の時間的な出現頻度変化を集計することによって、各単語の時系列頻度ベクトルを生成する。上記生成された単語の時系列頻度ベクトルを分析し、頻度が一時的に急増する単語を、潜在的話題の候補である候補語として抽出する。上記文書集合中に含まれている話題のうちで、文書数が、所定の閾値よりも多い話題について、時間ごとに取得した文書数を数値化することによって主話題時系列頻度ベクトルを生成する。そして、各候補語の時系列頻度ベクトルと上記主話題時系列頻度ベクトルとのベクトル間距離を算出し、該距離が大きい単語を潜在話題語として抽出する。

奥村　学，南野　朋之，藤木　稔明，鈴木　泰裕，"ｂｌｏｇページの自動収集と監視に基づくテキストマイニング"，人工知能学会研究会SIG-SW&ONT-A401-01,2004 "Ｙａｈｏｏ！ブログ検索"、［online］、［平成２２年８月２３日検索］、インターネット＜URL:http://blog-search.yahoo.co.jp/＞奥村　学，難波　英嗣，『知の科学　テキスト自動要約』，オーム社，2005

特開２００６－１３９７１８号公報特開２００７－１４０６０２号公報特開２００８－１５２６３４号公報

　ところで、Ｔｗｉｔｔｅｒのようなマイクロブログと呼ばれる新しいサービスが、普及しはじめている。このようなマイクロブログでは、ユーザは、特定少数の背景情報を共有した読み手を想定して文章を投稿することが多い。

　そのため、従来のニュース記事およびブログ記事に比べて、親しい友人同士の会話のように、背景に関する説明となる部分が省略されることが多い。

　単語または表現の統計的出現傾向に基づき、特徴語を含む文を要約文として選別するような従来技術を用いた場合では、確率的にこうした背景に関する説明となる部分が含まれない文が要約文として選別されやすい。しかしながら、もともとの背景について知らない一般の読者にとっては、何について書かれた文であるのか理解できず、要約文として不適切となるという問題があった。

　そして、非特許文献１～３および特許文献１～３には、このような問題を解決するための構成は開示されていない。

　この発明は、上述の課題を解決するためになされたもので、その目的は、文書の集合から適切な要約文を出力することが可能な時系列文書要約装置、時系列文書要約方法およびコンピュータ読み取り可能な記録媒体を提供することである。

　上記課題を解決するために、この発明のある局面に係わる時系列文書要約装置は、対象となる文書集合である着目文書集合の要約文を出力するための時系列文書要約装置であって、上記着目文書集合、および上記着目文書集合の特徴語である着目文書話題語の組と、上記着目文書集合とは異なる文書集合である参照用文書集合とを取得し、上記着目文書集合において記述されている話題の背景となる話題を表す背景話題語を上記参照用文書集合から抽出するための背景話題語抽出部と、上記着目文書集合に含まれる文字列の中から、上記着目文書話題語および上記背景話題語を含む代表文字列を、上記着目文書集合の要約文として抽出するための代表文字列抽出部とを備える。

　上記課題を解決するために、この発明のある局面に係わる時系列文書要約方法は、対象となる文書集合である着目文書集合の要約文を出力する時系列文書要約方法であって、上記着目文書集合、および上記着目文書集合の特徴語である着目文書話題語の組と、上記着目文書集合とは異なる文書集合である参照用文書集合とを取得し、上記着目文書集合において記述されている話題の背景となる話題を表す背景話題語を上記参照用文書集合から抽出するステップと、上記着目文書集合に含まれる文字列の中から、上記着目文書話題語および上記背景話題語を含む代表文字列を、上記着目文書集合の要約文として抽出するステップとを含む。

　上記課題を解決するために、この発明のある局面に係わるコンピュータ読み取り可能な記録媒体は、対象となる文書集合である着目文書集合の要約文を出力するための時系列文書要約装置において用いられる時系列文書要約プログラムを記録した、コンピュータ読み取り可能な記録媒体であって、上記時系列文書要約プログラムは、コンピュータに、上記着目文書集合、および上記着目文書集合の特徴語である着目文書話題語の組と、上記着目文書集合とは異なる文書集合である参照用文書集合とを取得し、上記着目文書集合において記述されている話題の背景となる話題を表す背景話題語を上記参照用文書集合から抽出するステップと、上記着目文書集合に含まれる文字列の中から、上記着目文書話題語および上記背景話題語を含む代表文字列を、上記着目文書集合の要約文として抽出するステップとを実行させるためのプログラムである。

　本発明によれば、文書の集合から適切な要約文を出力することができる。

マイクロブログにおける一日の話題の例を示す図である。図１の例について各期間の特徴語、および特徴語を含む文を示す図である。本発明の実施の形態に係る時系列文書要約装置の概略構成図である。本発明の第１の実施の形態に係る時系列文書要約装置が提供する制御構造を示すブロック図である。本発明の実施の形態に係る時系列文書要約装置が時系列文書要約処理を行なう際の動作手順を示すフローチャートである。着目文書話題語抽出部１０の出力するデータの例を示す図である。背景話題語抽出部２０の出力するデータの例を示す図である。代表文字列抽出部３０における文字列の要約スコアの例を示す図である。代表文字列抽出部３０の出力するデータの例を示す図である。

　以下、本発明の実施の形態について図面を用いて説明する。なお、図中同一または相当部分には同一符号を付してその説明は繰り返さない。

　まず、本発明の理解を容易にするために、本発明が解決する課題について詳細に説明する。

　人間が発する文章は、大きく分けて２つの部分からなると考えられる。すなわち、その文章が何について述べているのかを表す「背景」について説明している部分と、その文章によって筆者が伝えたい「新情報」を説明している部分である。これは、文字で書いた文章に限らず、口頭での発話でも同様である。

　ここで、「背景」とは、文章を理解する上で必要な、前提となる話題および記述する対象事物などのことである。

　一方、「新情報」とは、背景として説明した話題および対象事物に関する、新しい事実の記述、意見および感想など、その文章を通して筆者が主張したい事柄を指すものとする。

　なお、ここでは「新情報」と総称しているが、この「新情報」は、筆者が読者に伝えたい情報または筆者が主張したい情報のことを指しており、必ずしも、読者にとって完全に未知の情報に限らなくても良い。

　すなわち、その文章で筆者が読者に伝えたい部分が、読者が既に知っているかもしれない事実の再確認であっても、当該部分も広く新情報に含めるものとする。また、事実の説明でなくとも、筆者の意見または感想であっても良い。

　たとえば、サッカーＷ杯の日本ＶＳデンマークの試合が行われた翌日のニュース記事に「サッカーＷ杯の日本ＶＳデンマークの試合は、３対１で日本が勝利した」と書かれていたとする。このとき、「サッカーＷ杯の日本ＶＳデンマークの試合は、」という部分が、文章が何について書かれているかを示す背景の説明であり、「３対１で日本が勝利した」という部分が、文章を通して筆者が伝えたい新情報の記述である。

　文章を通して筆者が伝えたいメインとなる部分は、新情報の説明である。背景の説明は新しい情報ではないため、背景の情報を既に共有している特定の相手に情報を伝達する場合には、省略することが可能である。

　一方、背景の情報を共有しているとは限らない不特定多数の相手に文章で情報を伝達する場合には、新情報だけでなく、その前提となる背景から説明する必要がある。

　たとえば、ニュース記事では、背景の情報を共有しているとは限らない不特定多数の読者を想定しているため、「サッカーＷ杯の日本ＶＳデンマークの試合は、３対１で日本が勝利した」というように、背景について説明した上で新情報を記述している。

　一方、試合の翌日に親しい友人同士が会話している場合、背景についての説明なしに「３対１で日本が勝ったね！」と話しかけることも自然である。これは、試合の翌日であれば、特に説明をしなくても何のことについて話しているかが自明であり、背景を省略しても、相手が何について話しているかを察してくれるだろうという期待に基づいている。

　このように、不特定多数に伝える公的な文章（発話）であるほど背景の説明は詳細になり、特定少数の相手に伝える私的な文章（発話）であるほど背景の説明は省略される傾向にある。

　従来のトレンド分析技術が対象としてきたのは、ニュース記事およびブログ記事であった。これらの文書に含まれている文は、不特定多数の人に読まれることを想定して広く公開されている文章であり、筆者の伝えたい内容が不特定多数の読者に読まれた場合でも分かるよう、背景となる話題の説明が文書中に含まれていることが多い。

　このため、従来のようにニュース記事およびブログ記事を分析対象としている場合は、非特許文献１～３に挙げた技術を用いて要約対象文書から特徴語を多く含む文を抽出するだけで、背景となる話題の説明を含んだ、不特定多数の読者にとって適切な要約文を出力することができていた。

　一方、マイクロブログと呼ばれる新しい種類のサービスが、ここ数年で大きく普及している。Ｔｗｉｔｔｅｒがその代表例である。マイクロブログは、ブログと同様に個人が自分の書いた文章を投稿できるサービスである。ユーザは、最大で１４０文字程度の短い文章を投稿することができる。マイクロブログでは、人々が日常で考えたことを、リアルタイムで気軽にインターネット上に投稿することができる。

　こうしたマイクロブログでは、フォロワーと呼ばれる、ユーザの文章を読むために登録している特定の人々だけが読むことを想定した文章が投稿されることが多く、私的な日常会話に近い利用方法が普及している。一部の例外を除いて、ユーザがフォローされている数は数十人から数百人程度であり、ユーザは、背景の情報を共有した特定少数の読み手を想定して文章を投稿することができる。

　マイクロブログでは、これらの特徴のため、マイクロブログに投稿される文章を多数集積した場合、従来のニュース記事およびブログを集積した際に比べて、特定少数の読み手を想定した文章が数多く含まれていると考えられる。そして、そのような文章では、親しい友人同士の会話のように、背景に関する説明となる部分が省略されることが多い。

　このようなマイクロブログに投稿される文章を多数集積し、従来技術を用いて単に特徴語を含む文を抽出するような手法では、適切な要約文を出力することが困難である。

　その理由は、以下の通りである。すなわち、マイクロブログでは、特定少数の読み手に向けた文章が非常に多く、マイクロブログに含まれるほとんどの文は、背景となる話題を説明していない文である。よって、単語または表現の統計的出現傾向に基づき、特徴語を含む文を要約文として選別したとしても、確率的に背景説明となる部分が含まれない文が選別されやすい。

　しかしながら、もともとの背景について知らない大多数の読者は、このような文を元の文書集合の要約文として提示され、読んだとしても、何について書かれた文であるのか理解できないことから、このような文は、要約文として不適切となる。

　たとえば、サッカーＷ杯の日本ＶＳデンマークの試合がテレビで中継されていたとする。さらに、現在試合中で、２点目のゴールが決まったばかりだとする。この場合、「シュートが決まった」および「ゴールした」が現在時刻における新しい情報である。一方、「サッカーＷ杯」および「日本ＶＳデンマーク」などは、「シュートが決まった」および「ゴールした」というのが一体何についての話であるのかを特定する、背景となる話題である。

　このとき、マイクロブログでは「おっ、シュート決まった。」「やった、ゴールだ。」のような、現在の新情報だけを伝え、背景の説明は省略している文章が多数投稿される。これらの文章の投稿者は、自分が何について書いているかを推測することができる、背景を共有した特定少数の読み手に向けて投稿している。多くの場合、投稿された文章が読まれるタイミングも、投稿された時点から大きくずれてはいないことが想定される。

　一方、「サッカーＷ杯の日本ＶＳデンマークの試合は、今２点目のゴールが決まったところだ。」というような、背景となる話題の説明を含んだ文章は、マイクロブログ全体の投稿数から見ると少数となる。このような説明的な文章は、公的なメディアで使われ、私的な文章および会話では用いられないためである。

　こうした理由から、マイクロブログでは「シュート」および「ゴール」のような頻出語がその時点での特徴語として大きく抽出されるが、「サッカーＷ杯」、「日本」および「デンマーク」などの、背景となる話題を示す語が頻度として少なくなり、特徴語として抽出されづらくなる。

　結果として、マイクロブログから、ある着目している期間の特徴語を多く含む文を抽出するだけでは、「シュート決まった。」および「ゴールだ、嬉しい。」のような新しい情報を表す特徴語だけを含んでいて、背景となる話題を表す語を含まない文章が要約文として抽出され易い傾向が生じる。このような新情報だけからなる要約文は、背景となる話題を知らない第三者の読者にとって分かりづらく、要約文として適していない。

　以上のように、従来技術を用いて単に特徴語を含む文を抽出するだけでは、不特定多数の一般の読者にも分かり易い適切な要約文をマイクロブログから出力することができない。

　さらに、図１および図２を用いて、この課題の具体例を説明する。

　図１は、マイクロブログにおける一日の話題の例を示す図である。図２は、図１の例について各期間の特徴語、および特徴語を含む文を示す図である。

　図１および図２は、あるマイクロブログで、一日の間に投稿された文書集合の中での話題の変化を説明したものである。一日は、４時間ごとに６つの期間に分割され、それぞれの期間ごとに、その期間に投稿された文書に含まれる話題を要約した文がひとつ出力されるものとする。よって、一日に合計６つの要約文が出力されるものとする。

　図１は、投稿された文書を人間の作業者が読んで分析し、どのようなことが話題になっていたかを調べた結果を表すものとする。この日は日本各地が大雨に襲われた日であり、「４時－８時」、「１２時－１６時」および「１６時－２０時」の３つの時間帯で大雨に関する話題で盛り上がっていることが分かる。

　「１２時－１６時」および「１６時－２０時」の話題は、最初の「４時－８時」に続いて大雨の話題であることから、「１２時－１６時」および「１６時－２０時」の期間を要約する際には、背景となる話題の説明を含んだ要約文が出力されることが望ましい。

　図２は、図１と同じ文書集合について、各期間における特徴語と、その特徴語を含む文とを抽出した結果である。図２に示した文は、大雨という背景となる話題の説明を含んだ要約文を出力することができていない。

　すなわち、「今日は大雨で豪雨警報だそうだ」、「電車が止まった」および「金閣寺が危険なことになっている」が抽出されており、確かにどの文も各期間の特徴語を含んでいる。しかしながら、これらの抽出された文を読んだだけでは、これらの３つの出来事に、大雨という共通の背景があることを理解できない。

　この方法で、背景となる話題の説明を含んだ要約文を出力することができないのは、各期間の要約文を生成する際に、「その着目している期間の特徴語を含む」という条件しか考慮していないからである。このため、背景となる話題の説明を含んだ要約文となるような条件をさらに追加する必要がある。

　上記の考えに基づき、本発明の実施の形態に係る時系列文書要約装置は、着目している期間よりも過去の期間の特徴語を手がかりとする。これにより、時間情報を持つ大量の文書から、ある期間の話題を要約しており、かつ、背景となる話題の説明を含んだ要約文を出力することができる。

　本発明の実施の形態に係る時系列文書要約装置２０１は、典型的には、汎用的なアーキテクチャを有するコンピュータを基本構造としており、あらかじめインストールされたプログラムを実行することで、後述するような各種機能を提供する。一般的に、このようなプログラムは、フレキシブルディスク（Flexible　Disk）およびＣＤ－ＲＯＭ（Compact　Disk　Read　Only　Memory）などの記録媒体に格納されて、またはネットワークなどを介して流通する。このような汎用的なコンピュータを利用する場合には、本発明の実施の形態に係る機能を提供するためのアプリケーションに加えて、コンピュータの基本的な機能を提供するためのＯＳ（Operating　System）がインストールされていてもよい。この場合には、本発明の実施の形態に係るプログラムは、ＯＳの一部として提供されるプログラムモジュールのうち、必要なモジュールを所定の順序および／またはタイミングで呼出して処理を実行するものであってもよい。すなわち、本発明の実施の形態に係るプログラム自体は、上記のようなモジュールを含んでおらず、ＯＳと協働して処理が実行される場合もある。したがって、本発明の実施の形態に係るプログラムとしては、上記のようなモジュールを含まない形態であってもよい。

　さらに、本発明の実施の形態に係るプログラムは、ＯＳ等の他のプログラムの一部に組み込まれて提供されるものであってもよい。この場合でも、本発明の実施の形態に係るプログラム自体は、上記のような組み込み先の他のプログラムが有するモジュールを含んでおらず、当該他のプログラムと協働して処理が実行される。すなわち、本発明の実施の形態に係るプログラムとしては、このような他のプログラムに組み込まれた形態であってもよい。

　なお、代替的に、プログラムの実行により提供される機能の一部または全部を専用のハードウェア回路として実装してもよい。

　［装置構成］
　図３は、本発明の実施の形態に係る時系列文書要約装置の概略構成図である。

　図３を参照して、時系列文書要約装置２０１は、携帯情報端末、パーソナルコンピュータおよびサーバ等の情報処理装置であり、演算処理部であるＣＰＵ（Central　Processing　Unit）１０１と、メインメモリ１０２およびハードディスク１０３と、入力インタフェース１０４と、表示コントローラ１０５と、データリーダ／ライタ１０６と、通信インタフェース１０７とを備える。これらの各部は、バス１２１を介して互いにデータ通信可能に接続される。

　ＣＰＵ１０１は、ハードディスク１０３に格納されたプログラム（コード）をメインメモリ１０２に展開し、これらを所定順序で実行することにより、各種の演算を実施する。メインメモリ１０２は、典型的には、ＤＲＡＭ（Dynamic　Random　Access　Memory）などの揮発性の記憶装置であり、ハードディスク１０３から読み出されたプログラムに加えて、各種の演算処理結果を示すデータなどを保持する。また、ハードディスク１０３は不揮発性の磁気記憶装置であり、ＣＰＵ１０１で実行されるプログラムに加えて、各種設定値などが格納される。このハードディスク１０３にインストールされるプログラムは、後述するように、記録媒体１１１に格納された状態で流通する。なお、ハードディスク１０３に加えて、またはハードディスク１０３に代えて、フラッシュメモリなどの半導体記憶装置を採用してもよい。

　入力インタフェース１０４は、ＣＰＵ１０１とキーボード１０８、マウス１０９および図示しないタッチパネルなどの入力部との間のデータ伝送を仲介する。すなわち、入力インタフェース１０４は、ユーザが入力部を操作することで与えられる操作指令などの外部からの入力を受け付ける。

　表示コントローラ１０５は、表示部の典型例であるディスプレイ１１０と接続され、ディスプレイ１１０での表示を制御する。すなわち、表示コントローラ１０５は、ＣＰＵ１０１による画像処理の結果などをユーザに対して表示する。ディスプレイ１１０は、たとえばＬＣＤ（Liquid　Crystal　Display）またはＣＲＴ（Cathode　Ray　Tube）である。

　データリーダ／ライタ１０６は、ＣＰＵ１０１と記録媒体１１１の間のデータ伝送を仲介する。すなわち、記録媒体１１１は、時系列文書要約装置２０１で実行されるプログラムなどが格納された状態で流通し、データリーダ／ライタ１０６は、この記録媒体１１１からプログラムを読み出す。また、データリーダ／ライタ１０６は、ＣＰＵ１０１の内部指令に応答して、時系列文書要約装置２０１における処理結果などを記録媒体１１１へ書き込む。なお、記録媒体１１１は、たとえば、ＣＦ（Compact　Flash）およびＳＤ（Secure　Digital）などの汎用的な半導体記憶デバイス、フレキシブルディスク（Flexible　Disk）などの磁気記憶媒体、またはＣＤ－ＲＯＭ（Compact　Disk　Read　Only　Memory）などの光学記憶媒体である。

　通信インタフェース１０７は、ＣＰＵ１０１とパーソナルコンピュータおよびサーバ装置などの間のデータ伝送を仲介する。通信インタフェース１０７は、典型的には、イーサネット（登録商標）またはＵＳＢ（Universal　Serial　Bus）の通信機能を有する。なお、記録媒体１１１に格納されたプログラムを時系列文書要約装置２０１にインストールする形態に代えて、通信インタフェース１０７を介して配信サーバなどからダウンロードしたプログラムを時系列文書要約装置２０１にインストールしてもよい。

　また、時系列文書要約装置２０１には、必要に応じてプリンタなどの他の出力装置が接続されてもよい。

　［制御構造］
　次に、時系列文書要約装置２０１における各種機能を提供するための制御構造について説明する。

　図４は、本発明の第１の実施の形態に係る時系列文書要約装置が提供する制御構造を示すブロック図である。

　図４に示す時系列文書要約装置２０１の各ブロックは、ハードディスク１０３に格納されたプログラム（コード）などをメインメモリ１０２に展開して、ＣＰＵ１０１に実行させることで提供される。なお、図４に示すモジュールの一部または全部がハードウェアに実装されているファームウェアによって提供される場合もある。あるいは、図４に示す制御構造の一部または全部を専用ハードウェアおよび／または配線回路によって実現してもよい。

　図４を参照して、時系列文書要約装置２０１は、その制御構造として、着目文書話題語抽出部１０と、背景話題語抽出部２０と、代表文字列抽出部３０とを備える。

　時系列文書要約装置２０１は、入力として時間情報つきの文書集合を受け付ける。時間情報つきの文書集合とは、その集合に含まれる文書が何らかの時間と関連付けられているような文書の集合である。各文書に関連付けられた時間は、文書が作成された時間および発信された時間などを表す。時間は、年、月、日、時、分および秒など、どの粒度で記述されていても良い。

　時系列文書要約装置２０１が入力として受け付ける時間情報つきの文書集合の例としては、ニュース記事、ブログ、マイクロブログ、および電子掲示板に投稿された文書などがある。

　時系列文書要約装置２０１は、入力された文書集合の話題を要約する。この入力された文書集合を、着目文書集合と呼ぶ。すなわち、時系列文書要約装置２０１は、対象となる文書集合である着目文書集合の要約文を作成する。

　時系列文書要約装置２０１において、着目文書話題語抽出部１０は、入力された時間情報つきの文書集合を着目文書集合とする。そして、着目文書話題語抽出部１０は、その着目文書集合の話題を表す特徴語を、着目文書話題語として抽出し、出力する。

　背景話題語抽出部２０は、着目文書集合とは異なる文書集合を参照用文書集合とする。たとえば、この文書集合は、用語辞典等の辞書である文書集合とは異なるものである。なお、参照用文書集合は、時間情報つきの文書集合であってもよいし、時間情報がついていない文書集合であってもよい。

　背景話題語抽出部２０は、その参照用文書集合から、着目文書集合の期間よりも過去の期間の話題を表す特徴語を背景話題語として抽出する。そして、背景話題語抽出部２０は、抽出した背景話題語と、着目文書話題語抽出部１０が出力した着目文書話題語との間の関連性を表す関連度を計算して、計算した関連度、および背景話題語を出力する。

　代表文字列抽出部３０は、着目文書話題語抽出部１０が抽出した着目文書集合の話題を表す着目文書話題語に加えて、背景話題語抽出部２０が抽出した背景話題語および計算した関連度を用いて、着目文書集合の話題を表す代表文字列を抽出する。

　［動作］
　次に、本発明の実施の形態に係る時系列文書要約装置の動作について図面を用いて説明する。本発明の実施の形態では、時系列文書要約装置２０１を動作させることによって、本発明の実施の形態に係る時系列文書要約方法が実施される。よって、本発明の実施の形態に係る時系列文書要約方法の説明は、以下の時系列文書要約装置２０１の動作説明に代える。なお、以下の説明においては、適宜図４を参照する。

　時系列文書要約装置２０１において、着目文書話題語抽出部１０は、着目文書集合を取得し、着目文書集合に含まれる、着目文書集合の話題を表す語を着目文書話題語として抽出する。

　背景話題語抽出部２０は、着目文書集合、および着目文書話題語抽出部１０によって抽出された着目文書集合の特徴語である着目文書話題語の組と、着目文書集合とは異なる文書集合である参照用文書集合とを取得する。たとえば、背景話題語抽出部２０は、着目文書集合よりも過去に作成または公開された文書を含む文書集合を参照用文書集合として取得する。

　そして、背景話題語抽出部２０は、着目文書集合において記述されている話題の背景となる話題を表す背景話題語を参照用文書集合から抽出する。たとえば、背景話題語抽出部２０は、参照用文書集合に多数含まれる語または偏って含まれる語を背景話題語として抽出する。

　代表文字列抽出部３０は、着目文書集合に含まれる文字列の中から、着目文書話題語および背景話題語を含む代表文字列を、着目文書集合の要約文として抽出する。

　より詳細には、背景話題語抽出部２０は、着目文書話題語と背景話題語との関連度を計算する。たとえば、背景話題語抽出部２０は、着目文書集合および参照用文書集合の少なくとも一方における、着目文書話題語および背景話題語の文書内の共起性または共起語の類似性に基づいて、関連度を計算する。

　代表文字列抽出部３０は、背景話題語抽出部２０によって計算された関連度に基づいて、着目文書集合に含まれる文字列のスコアを計算し、高いスコアを持つ文字列を代表文字列とする。

　図５は、本発明の実施の形態に係る時系列文書要約装置が時系列文書要約処理を行なう際の動作手順を示すフローチャートである。

　図５を参照して、まず、着目文書話題語抽出部１０は、ユーザから時間情報つきの文書集合の入力を受け付ける（ステップＳ１）。

　次に、着目文書話題語抽出部１０は、入力された時間情報つきの文書集合を着目文書集合とする。そして、着目文書話題語抽出部１０は、その着目文書集合の話題を表す特徴語を着目文書話題語として抽出し、出力する（ステップＳ２）。

　次に、背景話題語抽出部２０は、着目文書集合とは異なる文書集合を参照用文書集合とする。背景話題語抽出部２０は、その参照用文書集合から、着目文書集合の期間よりも過去の期間の話題を表す特徴語を背景話題語として抽出する。そして、背景話題語抽出部２０は、着目文書話題語抽出部１０が出力した着目文書話題語と背景話題語との間の関連性を表す関連度を計算して、計算した関連度、および背景話題語を出力する（ステップＳ３）。

　次に、代表文字列抽出部３０は、着目文書話題語抽出部１０が抽出した着目文書集合の話題を表す着目文書話題語に加えて、背景話題語抽出部２０が抽出した背景話題語および計算した関連度を用いて、着目文書集合の話題を表す代表文字列を抽出する（ステップＳ４）。

　ここで、ステップＳ１の動作を具体的に説明する。本実施の形態では、ユーザは、着目文書話題語抽出部１０への時間情報つきの文書集合の入力を、キーボード１０８などによって行なう。

　なお、ユーザは、着目文書話題語抽出部１０への時間情報つきの文書集合の入力を、通信インタフェース１０７およびネットワークを介して時系列文書要約装置２０１と接続された外部のコンピュータなどによって行なっても良い。あるいは、ユーザは、時間情報つきの文書集合を記憶したデータファイルを指定することで時間情報つきの文書集合の入力を行なっても良い。この場合、着目文書話題語抽出部１０は、ユーザが指定したデータファイルから時間情報つきの文書集合を読み込む。

　次に、ステップＳ２の動作を具体的に説明する。本実施の形態では、着目文書話題語抽出部１０は、入力された時間情報つきの文書集合を着目文書集合とする。そして、着目文書話題語抽出部１０は、その着目文書集合の話題を表す特徴語を、着目文書話題語として抽出し、出力する。

　ここで、着目文書集合の話題を表す特徴語の抽出方法は様々なものが考えられる。たとえば、各語についてその期間の文書における出現数を数えて、その出現数が多い順番に語をランキングする。そして、上位Ｎ個の語をその期間に偏って出現する特徴語と見なすことができる。

　また、着目文書集合の話題を表す特徴語の抽出方法には、従来から知られている様々な特徴語の抽出技術を用いることができる。たとえば、非特許文献３の２２ページから２３ページに記載の技術を用いて、文書の特徴語を抽出しても良い。

　図６は、着目文書話題語抽出部１０の出力するデータの例を示す図である。

　図６を参照して、この例では、あるマイクロブログに１６時から２０時に投稿された文書の集合を着目文書集合として、この着目文書集合に含まれていた話題語が抽出されている。

　次に、ステップＳ３の動作を具体的に説明する。背景話題語抽出部２０は、着目文書集合とは異なる文書集合を参照用文書集合とする。背景話題語抽出部２０は、参照用文書集合から、着目文書集合の期間よりも過去の期間の話題を表す特徴語を、背景話題語として抽出する。そして、背景話題語抽出部２０は、着目文書話題語抽出部１０が出力した着目文書話題語と背景話題語との間の関連性を表す関連度を計算して、計算した関連度、および背景話題語を出力する。

　ここで、参照用文書集合としては、着目文書集合の話題よりも過去の話題が含まれていると期待される文書の集合を用いる。この過去の話題が含まれていると期待される文書の集合としては、着目文書集合よりも過去に作成または公開された文書の集合を用いることができる。

　たとえば、入力された着目文書集合が、あるマイクロブログにおいて１６時から２０時に投稿された文書の集合だったとする。このとき、参照用文書集合としては、たとえば、０時から１６時までの間に同じマイクロブログに投稿された文書の集合を用いることができる。

　あるいは、ニュース記事および別のブログのように、着目文書集合が属するマイクロブログとは異なる文書ソースを用いても良い。ただし、別の文書ソースを用いる場合であっても、着目文書集合が属する時間より過去の話題が含まれていると期待される文書集合である必要がある。

　また、参照用文書集合が、着目文書集合の話題よりも過去の話題が含まれていると期待される文書の集合であれば、参照用文書集合の作成または公開された時間は、着目文書集合の作成または公開された時間と遠く離れていても、あるいは重なりを持っていても良い。たとえば、上記した例において、参照用文書集合として、０時から６時までに投稿された文書の集合を用いても、３時から１８時までに投稿された文書の集合を用いても良い。

　背景話題語抽出部２０は、着目文書集合の期間よりも過去の期間の話題を表す特徴語を、参照用文書集合から背景話題語として抽出する。背景話題語の抽出方法は、着目文書話題語抽出部１０において着目文書集合から着目文書話題語を抽出したのと同じ方法を用いても良いし、異なる方法を用いても良い。

　最も単純には、着目文書話題語抽出部１０において着目文書集合から着目文書話題語を抽出したのと同じ方法を、参照用文書集合に対して適用する。これにより、着目文書集合の期間よりも過去の期間の話題を表す特徴語を、背景話題語として抽出することができる。

　また、参照用文書集合を、さらにいくつかの期間に分割し、分割したそれぞれの文書集合について、着目文書話題語抽出部１０において着目文書集合から着目文書話題語を抽出したのと同じ方法を適用しても良い。

　たとえば、参照用文書集合として、０時から１６時までの間に投稿された文書の集合を用いているとき、「０時－４時」、「４時－８時」、「８時－１２時」および「１２時－１６時」の４つの期間に投稿された文書に分割し、それぞれの文書集合の特徴語を、背景話題語として抽出しても良い。

　背景話題語抽出部２０は、以上のようにして背景話題語を抽出した後、着目文書話題語抽出部１０が出力した着目文書話題語と背景話題語との間の関連性を表す関連度を計算する。

　着目文書話題語と背景話題語との間の関連性を表す関連度としては、様々なものが考えられる。以下に、着目文書話題語と背景話題語をそれぞれＡおよびＢとして、ＡおよびＢの間の関連性を表す関連度として考えられる値の例を説明する。

　着目文書話題語と背景話題語との間の関連性を表す関連度として、２つの語が文書に出現する共起の強さを用いても良い。

　たとえば、文書集合中で語Ａおよび語Ｂが両方出現する文書数をＮ１とし、語Ａおよび語Ｂのいずれかが出現する文書数をＮ２とする。そして、Ｎ１／Ｎ２を２つの語の間の関連性を表す関連度とすることができる。この値が大きいほど、２つの語が強く共起して出現することを表す。文書数の数え方としては、着目文書集合における文書数だけを数えても良いし、着目文書集合および参照文書集合における文書数を合わせて数えても良い。また、これらと比べて精度は劣るが、参照文書集合における文書数だけを数えても良い。

　また、着目文書話題語と背景話題語との間の関連性を表す関連度として、着目文書話題語の共起語と背景話題語の共起語との類似性、具体的には着目文書話題語が出現する文脈と背景話題語が出現する文脈との類似性を用いても良い。

　すなわち、すべての語の総数をＮｗとして、語Ａおよび語Ｂについて、それぞれの文脈を表す長さＮｗのベクトルを考えることができる。ベクトルの各要素は、ある語が、語Ａまたは語Ｂと共起した回数の多さを表すものとする。このとき、語Ａの文脈を表すベクトルと、語Ｂの文脈を表すベクトルとのコサイン類似度を計算することで、語Ａおよび語Ｂの文脈の類似度とすることができる。この類似度を、２つの語の間の関連性を表す関連度としても良い。

　また、着目文書話題語と背景話題語との間の関連性を表す関連度として、語の関連性を記述した辞書における関連性の有無を用いても良い。

　たとえば、語の上位下位関係を表す木構造状のシソーラスが得られているとき、このシソーラスの木構造における２つの語を表すノードの間の距離の逆数を、２つの語の間の関連性を表す関連度としても良い。

　また、着目文書話題語と背景話題語との間の関連性を表す関連度として、時間的な出現の近さを用いても良い。

　たとえば、語Ａが出現する文書の作成または公開された時間の平均をＴａとし、語Ｂが出現する文書の作成または公開された時間の平均をＴｂとする。このとき、ＴａおよびＴｂの間の時間的距離の逆数を、２つの語の間の関連性を表す関連度としても良い。

　また、着目文書話題語と背景話題語との間の関連性を表す関連度として、上記に挙げた各種の関連度を組み合わせた値を用いても良い。

　たとえば、２つの語が文書に出現する共起の強さを用いて算出した関連度をＶ１とし、時間的な出現の近さを用いて算出した関連度をＶ２とするとき、Ｖ１およびＶ２の代わりに、Ｖ１＋Ｖ２を関連度として出力しても良い。

　また、着目文書話題語と背景話題語との間の関連性を表す関連度を算出する際に、背景話題語の特徴語らしさを表す値を計算し、その値を関連度の算出において考慮しても良い。

　たとえば、参照用文書集合における出現頻度の大きさを、参照用文書集合における特徴語らしさを表す値としてＶ３とする。この値が大きいほど重要な背景話題語であると見なして、他の手法に基づく関連度にＶ３を加算することで、背景話題語の関連度を高く評価しても良い。

　単語と単語との関連度を算出する手法は他にも、自然言語処理の分野で一般に知られている公知技術がある。本実施の形態では、着目文書話題語と背景話題語との間の関連性を算出するために、他にそうした公知技術による関連度を用いてもよい。

　図７は、背景話題語抽出部２０の出力するデータの例を示す図である。

　図７では、着目文書話題語と背景話題語との関連性を表す関連度が記述されている。図７において、縦方向の欄が着目文書話題語を表し、横方向の欄が背景話題語を表す。

　この例は、以下のような想定における例である。すなわち、あるマイクロブログに１６時から２０時に投稿された文書の集合を着目文書集合とする。０時から１６時に投稿された文書の集合を参照文書集合として、「０時－４時」、「４時－８時」、「８時－１２時」および「１２時－１６時」の４つの期間に投稿された文書に分割し、それぞれの文書集合の特徴語を、背景話題語として抽出する。さらに、着目文書話題語と背景話題語との関連性を表す関連度を計算する。

　図７の例に示すように、「大雨」および「豪雨」のような、着目文書話題語にとって背景となる話題を表す背景話題語との関連度は高く計算される。一方、「電子書籍」および「民主党」のような、着目文書話題語にとって背景となる話題を表さない背景話題語との関連度は低く計算される。

　次に、ステップＳ４の動作を具体的に説明する。代表文字列抽出部３０は、着目文書話題語抽出部１０が抽出した着目文書集合の話題を表す着目文書話題語に加えて、背景話題語抽出部２０が抽出した背景話題語および計算した関連度を用いて、着目文書集合の話題を表す代表文字列を抽出する。

　具体的には、着目文書集合中の文書に含まれる文字列のうち、着目文書話題語のいずれかを含み、かつ、その着目文書話題語との関連度が高い背景話題語のいずれかを含むような文字列に対して、文字列の要約文としての良さを表す要約スコアを付与する。そして、要約スコアが高い文字列を、着目文書集合の話題を表す代表文字列として抽出する。

　抽出する対象となる文字列の定め方は任意である。たとえば、着目文書集合中のすべての文書を、句点などの文区切りを表す記号で区切ることで、着目文書集合中の文書に含まれるすべての文を得ることができる。

　これらの文の集合を、抽出する対象となる文字列としてもよい。また、着目文書集合中のすべての文書をＮ文字ごと（Ｎは２以上の整数）に区切ることで、Ｎ文字長の文字列の集合を得ることができる。これらのＮ文字長の文字列の集合を、抽出する対象となる文字列としてもよい。

　文字列の要約スコアの計算方法としては、たとえば、着目文書話題語のいずれかを含んでいる文字列だけを選別し、選別した文字列に含まれている背景話題語のそれぞれについて、着目文書話題語との間の関連度を合計して、要約スコアとしても良い。他にも、非特許文献３に記載されているような、特徴語から要約文字列を選別する手法を用いて良い。

　図８は、代表文字列抽出部３０における文字列の要約スコアの例を示す図である。図８は、「１６時－２０時」の期間の文書を着目文書集合としたときの、着目文書集合中の文書に含まれる文字列の要約スコアを表している。

　図８の第１列は、着目文書集合中の文書に含まれる文字列である。第２列は、その文字列に含まれている着目文書話題語である。第３列は、その文字列に含まれている背景話題語とその関連度である。第４列は、第３列を元に計算した、その文字列の要約スコアである。

　図８では、「大雨で金閣寺が水没した。」という文字列が最も高い要約スコアを持っている。これは、「大雨」という、着目文書話題語との関連性が高い背景話題語を含んでいるためである。このような文は、背景となる話題の説明を含んだ要約文であると考えられる。

　一方、「金閣寺が危険なことになってる。」という文字列は、着目話題語を２個含んでいるが、背景話題語を含んでいないため、文字列の要約スコアは低くなっている。このような文字列は、背景となる話題の説明を含んでいない要約文であると考えられる。

　一方、「すごい大雨で驚いた。」という文字列は、「大雨」という背景話題語を含んでいるが、文字列の要約スコアは付与されていない。これは、たとえ背景話題語を含んでいたとしても、着目話題語を含んでいない文字列は、着目期間の話題の要約としてふさわしくないと考えられるためである。

　この結果、「１６時－２０時」の期間の文書を着目文書集合としたときの代表文字列として、「大雨で金閣寺が水没した。」という文字列が選ばれることになる。

　図９は、代表文字列抽出部３０の出力するデータの例を示す図である。この例では、１６時から２０時までの期間の文書を着目文書集合としたときの代表文字列を表示している。

　図９では、代表文字列に「大雨」という関連する背景話題語が含まれている。これにより、図２に示した例に比べ、背景となる話題の説明を含んだ文が出力されている。また、「金閣寺」という、着目文書話題語を含んでいることで、着目文書集合の話題を要約している。

　以上説明したように、本実施の形態に係る時系列文書要約装置２０１によれば、時間情報を持つ大量の文書から、ある期間の話題を要約しており、かつ、背景となる話題の説明を含んだ要約文を出力することができる。

　ところで、単語または表現の統計的出現傾向に基づき、特徴語を含む文を要約文として選別するような従来技術を用いた場合では、確率的にこうした背景に関する説明となる部分が含まれない文が要約文として選別されやすい。しかしながら、もともとの背景について知らない一般の読者にとっては、何について書かれた文であるのか理解できず、要約文として不適切となるという問題があった。

　これに対して、本発明の実施の形態に係る時系列文書要約装置では、背景話題語抽出部２０は、着目文書集合、および着目文書集合の特徴語である着目文書話題語の組と、着目文書集合とは異なる文書集合である参照用文書集合とを取得し、着目文書集合において記述されている話題の背景となる話題を表す背景話題語を参照用文書集合から抽出する。そして、代表文字列抽出部３０は、着目文書集合に含まれる文字列の中から、着目文書話題語および背景話題語を含む代表文字列を、着目文書集合の要約文として抽出する。

　ここで、特許文献１～３に記載の技術と本発明の実施の形態に係る時系列文書要約装置との具体的な相違としては、たとえば、以下のような点がある。

　すなわち、特許文献１に記載の技術では、話題語同士の文書共有度の高い場合にこれらの話題語を結合する。すなわち、同じ文書に多く出現しやすい話題語を結合する。このため、着目文書集合と、着目文書集合とは異なる文書集合とを区別していないことから、着目文書話題語および背景話題語の２種類を区別して抽出することができない。

　これに対して、本発明の実施の形態に係る時系列文書要約装置では、着目文書集合とは異なる文書集合を用意して特徴語を抽出し、抽出した特徴語を背景話題語とする。そして、背景話題語および着目文書話題語の２種類を含む文字列を着目文書集合から抽出する。

　また、特許文献２に記載の技術では、各発信源が過去に作成した文書中に含まれる語句群の類似性から発信源間の関連度を算出する。また、特許文献３に記載の技術では、各単語の時刻ごとの出現頻度を集計し、期間中のいずれかの箇所で大きく出現頻度が増加する単語のみを、潜在話題の候補語として抽出する。このように、特許文献２および３に記載の技術は、本発明の実施の形態に係る時系列文書要約装置のように、着目文書集合において記述されている話題の背景となる話題を表す背景話題語を参照用文書集合から抽出する構成とはまったく異なるものである。

　すなわち、本発明の実施の形態に係る時系列文書要約装置では、着目文書集合に含まれる特徴語すなわち着目文書話題語だけでなく、背景となる話題を表す語すなわち背景話題語をさらに含んだ文字列を、着目文書集合に含まれる文字列の中から抽出し、代表文字列として抽出する。より詳細には、着目文書集合とは異なる文書集合を用意して、この文書集合の特徴語を背景話題語として抽出し、背景話題語および着目文書話題語の２種類を含む文字列を着目文書集合から抽出する。

　すなわち、本発明の実施の形態に係る時系列文書要約装置における各構成要素のうち、背景話題語抽出部２０および代表文字列抽出部３０からなる最小構成により、文書の集合から適切な要約文を出力する、という本発明の目的を達成することが可能となる。

　また、本発明の実施の形態に係る時系列文書要約装置では、背景話題語抽出部２０は、着目文書集合よりも過去に作成または公開された文書を含む文書集合を参照用文書集合として取得する。

　このような構成により、着目文書集合の話題よりも過去の話題が含まれている可能性の高い文書集合を取得し、適切な背景話題語を取得することができる。

　また、本発明の実施の形態に係る時系列文書要約装置では、背景話題語抽出部２０は、参照用文書集合に多数含まれる語または偏って含まれる語を背景話題語として抽出する。

　このような構成により、参照用文書集合の中から、適切な背景話題語をより確実に取得することができる。すなわち、過去にある程度話題になった内容に関する語を背景話題語として取得することができる。

　また、本発明の実施の形態に係る時系列文書要約装置では、背景話題語抽出部２０は、着目文書話題語と背景話題語との関連度を計算する。そして、代表文字列抽出部３０は、背景話題語抽出部２０によって計算された関連度に基づいて、着目文書集合に含まれる文字列のスコアを計算し、高いスコアを持つ文字列を代表文字列とする。

　このような構成により、着目文書集合に含まれる文字列を定量的に評価し、適切な代表文字列を抽出することができる。すなわち、現在話題になっている内容に関する語を背景話題語として取得することができる。

　また、本発明の実施の形態に係る時系列文書要約装置では、背景話題語抽出部２０は、着目文書集合および参照用文書集合の少なくとも一方における、着目文書話題語および背景話題語の文書内の共起性または共起語の類似性に基づいて、関連度を計算する。

　このような構成により、着目文書集合に含まれる文字列のスコアを適切に計算することができる。

　また、本発明の実施の形態に係る時系列文書要約装置では、着目文書話題語抽出部１０は、着目文書集合を取得し、着目文書集合に含まれる、着目文書集合の話題を表す語を着目文書話題語として抽出する。そして、背景話題語抽出部２０は、着目文書話題語抽出部１０によって抽出された着目文書話題語を取得する。

　このような構成により、着目文書集合および着目文書話題語を自動で取得することができ、着目文書集合の要約文を作成するための装置として、より総合的に機能することができる。

　なお、本発明の実施の形態に係る時系列文書要約装置は、着目文書話題語抽出部１０を備える構成であるとしたが、これに限定するものではない。着目文書話題語抽出部１０を備えず、背景話題語抽出部２０が、着目文書集合および着目文書話題語の組を時系列文書要約装置２０１の外部から取得する構成であってもよい。たとえば、時系列文書要約装置２０１が、着目文書集合および着目文書話題語の組の指定をユーザから受け付ける構成であってもよい。

　上記実施の形態の一部または全部は以下の付記のようにも記載されうるが、本発明の範囲は、以下の付記に限定されるものではない。

　［付記１］
　対象となる文書集合である着目文書集合の要約文を出力するための時系列文書要約装置であって、
　上記着目文書集合、および上記着目文書集合の特徴語である着目文書話題語の組と、上記着目文書集合とは異なる文書集合である参照用文書集合とを取得し、上記着目文書集合において記述されている話題の背景となる話題を表す背景話題語を上記参照用文書集合から抽出するための背景話題語抽出部と、
　上記着目文書集合に含まれる文字列の中から、上記着目文書話題語および上記背景話題語を含む代表文字列を、上記着目文書集合の要約文として抽出するための代表文字列抽出部とを備える、時系列文書要約装置。

　［付記２］
　上記背景話題語抽出部は、上記着目文書集合よりも過去に作成または公開された文書を含む文書集合を上記参照用文書集合として取得する、付記１に記載の時系列文書要約装置。

　［付記３］
　上記背景話題語抽出部は、上記参照用文書集合に多数含まれる語または偏って含まれる語を上記背景話題語として抽出する、付記２に記載の時系列文書要約装置。

　［付記４］
　上記背景話題語抽出部は、上記着目文書話題語と上記背景話題語との関連度を計算し、
　上記代表文字列抽出部は、上記背景話題語抽出部によって計算された上記関連度に基づいて、上記着目文書集合に含まれる文字列のスコアを計算し、高いスコアを持つ上記文字列を上記代表文字列とする、付記１から３のいずれかに記載の時系列文書要約装置。

　［付記５］
　上記背景話題語抽出部は、上記着目文書集合および上記参照用文書集合の少なくとも一方における、上記着目文書話題語および上記背景話題語の文書内の共起性または共起語の類似性に基づいて、上記関連度を計算する、付記４に記載の時系列文書要約装置。

　［付記６］
　上記時系列文書要約装置は、さらに、
　上記着目文書集合を取得し、上記着目文書集合に含まれる、上記着目文書集合の話題を表す語を上記着目文書話題語として抽出するための着目文書話題語抽出部を備え、
　上記背景話題語抽出部は、上記着目文書話題語抽出部によって抽出された上記着目文書話題語を取得する、付記１から５のいずれかに記載の時系列文書要約装置。

　［付記７］
　対象となる文書集合である着目文書集合の要約文を出力する時系列文書要約方法であって、
　上記着目文書集合、および上記着目文書集合の特徴語である着目文書話題語の組と、上記着目文書集合とは異なる文書集合である参照用文書集合とを取得し、上記着目文書集合において記述されている話題の背景となる話題を表す背景話題語を上記参照用文書集合から抽出するステップと、
　上記着目文書集合に含まれる文字列の中から、上記着目文書話題語および上記背景話題語を含む代表文字列を、上記着目文書集合の要約文として抽出するステップとを含む、時系列文書要約方法。

　［付記８］
　上記背景話題語を抽出するステップにおいては、上記着目文書集合よりも過去に作成または公開された文書を含む文書集合を上記参照用文書集合として取得する、付記７に記載の時系列文書要約方法。

　［付記９］
　上記背景話題語を抽出するステップにおいては、上記参照用文書集合に多数含まれる語または偏って含まれる語を上記背景話題語として抽出する、付記８に記載の時系列文書要約方法。

　［付記１０］
　上記背景話題語を抽出するステップにおいては、上記着目文書話題語と上記背景話題語との関連度を計算し、
　上記代表文字列を抽出するステップにおいては、計算した上記関連度に基づいて、上記着目文書集合に含まれる文字列のスコアを計算し、高いスコアを持つ上記文字列を上記代表文字列とする、付記７から９のいずれかに記載の時系列文書要約方法。

　［付記１１］
　上記背景話題語を抽出するステップにおいては、上記着目文書集合または上記参照用文書集合における、上記着目文書話題語および上記背景話題語の文書内の共起性または共起語の類似性に基づいて、上記関連度を計算する、付記１０に記載の時系列文書要約方法。

　［付記１２］
　上記時系列文書要約方法は、さらに、
　上記着目文書集合を取得し、上記着目文書集合に含まれる、上記着目文書集合の話題を表す語を上記着目文書話題語として抽出するステップを含み、
　上記背景話題語を抽出するステップにおいては、抽出した上記着目文書話題語を取得する、付記７から１１のいずれかに記載の時系列文書要約方法。

　［付記１３］
　対象となる文書集合である着目文書集合の要約文を出力するための時系列文書要約装置において用いられる時系列文書要約プログラムを記録した、コンピュータ読み取り可能な記録媒体であって、上記時系列文書要約プログラムは、コンピュータに、
　上記着目文書集合、および上記着目文書集合の特徴語である着目文書話題語の組と、上記着目文書集合とは異なる文書集合である参照用文書集合とを取得し、上記着目文書集合において記述されている話題の背景となる話題を表す背景話題語を上記参照用文書集合から抽出するステップと、
　上記着目文書集合に含まれる文字列の中から、上記着目文書話題語および上記背景話題語を含む代表文字列を、上記着目文書集合の要約文として抽出するステップとを実行させるためのプログラムである、コンピュータ読み取り可能な記録媒体。

　［付記１４］
　上記背景話題語を抽出するステップにおいては、上記着目文書集合よりも過去に作成または公開された文書を含む文書集合を上記参照用文書集合として取得する、付記１３に記載のコンピュータ読み取り可能な記録媒体。

　［付記１５］
　上記背景話題語を抽出するステップにおいては、上記参照用文書集合に多数含まれる語または偏って含まれる語を上記背景話題語として抽出する、付記１４に記載のコンピュータ読み取り可能な記録媒体。

　［付記１６］
　上記背景話題語を抽出するステップにおいては、上記着目文書話題語と上記背景話題語との関連度を計算し、
　上記代表文字列を抽出するステップにおいては、計算した上記関連度に基づいて、上記着目文書集合に含まれる文字列のスコアを計算し、高いスコアを持つ上記文字列を上記代表文字列とする、付記１３から１５のいずれかに記載のコンピュータ読み取り可能な記録媒体。

　［付記１７］
　上記背景話題語を抽出するステップにおいては、上記着目文書集合または上記参照用文書集合における、上記着目文書話題語および上記背景話題語の文書内の共起性または共起語の類似性に基づいて、上記関連度を計算する、付記１６に記載のコンピュータ読み取り可能な記録媒体。

　［付記１８］
　上記時系列文書要約プログラムは、さらに、コンピュータに、
　上記着目文書集合を取得し、上記着目文書集合に含まれる、上記着目文書集合の話題を表す語を上記着目文書話題語として抽出するステップを実行させるためのプログラムであり、
　上記背景話題語を抽出するステップにおいては、抽出した上記着目文書話題語を取得する、付記１３から１７のいずれかに記載の時系列文書要約プログラム。

　上記実施の形態は、すべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記説明ではなく請求の範囲によって示され、請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

　この出願は、２０１１年２月１５日に出願された日本出願特願２０１１－２９７０５を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　本発明によれば、たとえばマイクロブログにおいて、時間情報を持つ大量の文書から、ある期間の話題を要約しており、かつ、背景となる話題の説明を含んだ要約文を出力することができる。したがって、本発明は、産業上の利用可能性を有している。

　１０　着目文書話題語抽出部
　２０　背景話題語抽出部
　３０　代表文字列抽出部
　１０１　ＣＰＵ
　１０２　メインメモリ
　１０３　ハードディスク
　１０４　入力インタフェース
　１０５　表示コントローラ
　１０６　データリーダ／ライタ
　１０７　通信インタフェース
　１０８　キーボード
　１０９　マウス
　１１０　ディスプレイ
　１１１　記録媒体
　１２１　バス
　２０１　時系列文書要約装置

Claims

　対象となる文書集合である着目文書集合の要約文を出力するための時系列文書要約装置であって、
　前記着目文書集合、および前記着目文書集合の特徴語である着目文書話題語の組と、前記着目文書集合とは異なる文書集合である参照用文書集合とを取得し、前記着目文書集合において記述されている話題の背景となる話題を表す背景話題語を前記参照用文書集合から抽出するための背景話題語抽出部と、
　前記着目文書集合に含まれる文字列の中から、前記着目文書話題語および前記背景話題語を含む代表文字列を、前記着目文書集合の要約文として抽出するための代表文字列抽出部とを備える、時系列文書要約装置。
　前記背景話題語抽出部は、前記着目文書集合よりも過去に作成または公開された文書を含む文書集合を前記参照用文書集合として取得する、請求の範囲第１項に記載の時系列文書要約装置。
　前記背景話題語抽出部は、前記参照用文書集合に多数含まれる語または偏って含まれる語を前記背景話題語として抽出する、請求の範囲第２項に記載の時系列文書要約装置。
　前記背景話題語抽出部は、前記着目文書話題語と前記背景話題語との関連度を計算し、
　前記代表文字列抽出部は、前記背景話題語抽出部によって計算された前記関連度に基づいて、前記着目文書集合に含まれる文字列のスコアを計算し、高いスコアを持つ前記文字列を前記代表文字列とする、請求の範囲第１項から第３項のいずれかに記載の時系列文書要約装置。
　前記背景話題語抽出部は、前記着目文書集合および前記参照用文書集合の少なくとも一方における、前記着目文書話題語および前記背景話題語の文書内の共起性または共起語の類似性に基づいて、前記関連度を計算する、請求の範囲第４項に記載の時系列文書要約装置。
　前記時系列文書要約装置は、さらに、
　前記着目文書集合を取得し、前記着目文書集合に含まれる、前記着目文書集合の話題を表す語を前記着目文書話題語として抽出するための着目文書話題語抽出部を備え、
　前記背景話題語抽出部は、前記着目文書話題語抽出部によって抽出された前記着目文書話題語を取得する、請求の範囲第１項から第５項のいずれかに記載の時系列文書要約装置。
　対象となる文書集合である着目文書集合の要約文を出力する時系列文書要約方法であって、
　前記着目文書集合、および前記着目文書集合の特徴語である着目文書話題語の組と、前記着目文書集合とは異なる文書集合である参照用文書集合とを取得し、前記着目文書集合において記述されている話題の背景となる話題を表す背景話題語を前記参照用文書集合から抽出するステップと、
　前記着目文書集合に含まれる文字列の中から、前記着目文書話題語および前記背景話題語を含む代表文字列を、前記着目文書集合の要約文として抽出するステップとを含む、時系列文書要約方法。
　対象となる文書集合である着目文書集合の要約文を出力するための時系列文書要約装置において用いられる時系列文書要約プログラムを記録した、コンピュータ読み取り可能な記録媒体であって、前記時系列文書要約プログラムは、コンピュータに、
　前記着目文書集合、および前記着目文書集合の特徴語である着目文書話題語の組と、前記着目文書集合とは異なる文書集合である参照用文書集合とを取得し、前記着目文書集合において記述されている話題の背景となる話題を表す背景話題語を前記参照用文書集合から抽出するステップと、
　前記着目文書集合に含まれる文字列の中から、前記着目文書話題語および前記背景話題語を含む代表文字列を、前記着目文書集合の要約文として抽出するステップとを実行させるためのプログラムである、コンピュータ読み取り可能な記録媒体。