JPWO2012111226A1 - 時系列文書要約装置、時系列文書要約方法および時系列文書要約プログラム - Google Patents

時系列文書要約装置、時系列文書要約方法および時系列文書要約プログラム Download PDF

Info

Publication number
JPWO2012111226A1
JPWO2012111226A1 JP2012557792A JP2012557792A JPWO2012111226A1 JP WO2012111226 A1 JPWO2012111226 A1 JP WO2012111226A1 JP 2012557792 A JP2012557792 A JP 2012557792A JP 2012557792 A JP2012557792 A JP 2012557792A JP WO2012111226 A1 JPWO2012111226 A1 JP WO2012111226A1
Authority
JP
Japan
Prior art keywords
document
document set
topic
target document
background
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012557792A
Other languages
English (en)
Other versions
JP5884740B2 (ja
Inventor
穣 岡嶋
穣 岡嶋
聡 中澤
聡 中澤
剛巨 河合
剛巨 河合
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2012557792A priority Critical patent/JP5884740B2/ja
Publication of JPWO2012111226A1 publication Critical patent/JPWO2012111226A1/ja
Application granted granted Critical
Publication of JP5884740B2 publication Critical patent/JP5884740B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

時系列文書要約装置(201)は、対象となる文書集合である着目文書集合の要約文を出力する。時系列文書要約装置(201)は、上記着目文書集合、および上記着目文書集合の特徴語である着目文書話題語の組と、上記着目文書集合とは異なる文書集合である参照用文書集合とを取得し、上記着目文書集合において記述されている話題の背景となる話題を表す背景話題語を上記参照用文書集合から抽出するための背景話題語抽出部(20)と、上記着目文書集合に含まれる文字列の中から、上記着目文書話題語および上記背景話題語を含む代表文字列を、上記着目文書集合の要約文として抽出するための代表文字列抽出部(30)とを備える。

Description

本発明は、時系列文書要約装置、時系列文書要約方法およびコンピュータ読み取り可能な記録媒体に関し、特に、文書集合における話題を要約してユーザに提示する時系列文書要約装置、時系列文書要約方法およびコンピュータ読み取り可能な記録媒体に関する。
近年では、インターネットの発展により、ニュース記事およびブログ記事のような大量の文書が日夜生成され、公開されるようになっている。そのため、このような大量の時系列文書の内容を要約するための新しい技術が必要とされている。
大量の時系列文書から話題となっている事柄を抽出および要約するための技術として、トレンド分析の技術が知られている。トレンド分析とは、ニュース記事およびブログ記事など時系列的に生成される大量の文書の中から、期間ごとにどのようなことが話題になっているかを分析して、ユーザに提示する技術である。
トレンド分析技術では、着目している期間について、その期間に属する文書集合に偏って多く出現している特徴語を抽出して出力することで、その期間の話題を表すことが一般的である。
奥村 学,南野 朋之,藤木 稔明,鈴木 泰裕,“blogページの自動収集と監視に基づくテキストマイニング”,人工知能学会研究会SIG-SW&ONT-A401-01,2004(非特許文献1)に記載の技術では、ある語を含む文書の出現間隔が通常よりも短くなっているかどうかを判断することで、特定期間に偏って多く出現する特徴語を抽出している。
さらに、非特許文献1に記載の技術を用いて抽出された着目期間の特徴語について、その特徴語を含む文を抽出することは容易である。この特徴語を含む文をその期間の話題を表す要約文として出力することができる。
実例として、“Yahoo!ブログ検索”、[online]、[平成22年8月23日検索]、インターネット<URL:http://blog-search.yahoo.co.jp/>(非特許文献2)に記載のサービスがある。このサービスでは、トップページに現在時刻における特徴語が表示され、表示された特徴語をクリックすると、検索ページに遷移し、クリックされた特徴語を含んでいる文の一部が表示される。これは、着目する期間の特徴語を含む文を、その期間の話題を説明するための文としてユーザに提示していることに相当する。
また、奥村 学,難波 英嗣,『知の科学 テキスト自動要約』,オーム社,2005(非特許文献3)の22ページから23ページに記載の技術は、文書の特徴語を含む文を抽出することで要約を作成する技術である。ある期間に属する文書集合にこの技術を適用することで、その期間の話題を説明する要約文を提示することができる。
このように、ある期間の特徴語を含む文を抽出することで、その期間の話題を説明する要約文として提示する技術が存在する。
また、話題語を処理する技術の一例として、特開2006−139718号公報(特許文献1)には、以下のような技術が開示されている。すなわち、話題語および該話題語に関連する文書情報が読み込まれると、話題語結合記憶手段に格納されている話題語結合ルールにより、ある話題語が関係する文書と他の話題語が関連する文書との文書共有度を算出する。次に、文書共有度に基づいて、結合できる話題語を選定し、選定された話題語を結合し、文書共有度と共に話題語グループとする。次に、代表語抽出ルールに基づいて、結合した話題語グループの代表語を抽出する。
また、特開2007−140602号公報(特許文献2)には、以下のような技術が開示されている。すなわち、処理対象文書に含まれる各語句に対して、処理対象文書の発信源と当該語句を使用したことのある発信源との関連度を関連度データベースから取得し集計することにより得られる当該語句使用者との関連度分布と、該処理対象文書の発信源と他の発信源との関連度を該関連度データベースから取得し集計することにより得られた他の発信源との関連度分布とを対比させる。そして、該処理対象文書の発信源との関連度が大きい発信源において多く使用されている度合いを表す量を当該語句の話題度とする。
また、特開2008−152634号公報(特許文献3)には、以下のような技術が開示されている。すなわち、複数の文書集合に出現する単語の時間的な出現頻度変化を集計することによって、各単語の時系列頻度ベクトルを生成する。上記生成された単語の時系列頻度ベクトルを分析し、頻度が一時的に急増する単語を、潜在的話題の候補である候補語として抽出する。上記文書集合中に含まれている話題のうちで、文書数が、所定の閾値よりも多い話題について、時間ごとに取得した文書数を数値化することによって主話題時系列頻度ベクトルを生成する。そして、各候補語の時系列頻度ベクトルと上記主話題時系列頻度ベクトルとのベクトル間距離を算出し、該距離が大きい単語を潜在話題語として抽出する。
奥村 学,南野 朋之,藤木 稔明,鈴木 泰裕,"blogページの自動収集と監視に基づくテキストマイニング",人工知能学会研究会SIG-SW&ONT-A401-01,2004 "Yahoo!ブログ検索"、[online]、[平成22年8月23日検索]、インターネット<URL:http://blog-search.yahoo.co.jp/> 奥村 学,難波 英嗣,『知の科学 テキスト自動要約』,オーム社,2005
特開2006−139718号公報 特開2007−140602号公報 特開2008−152634号公報
ところで、Twitterのようなマイクロブログと呼ばれる新しいサービスが、普及しはじめている。このようなマイクロブログでは、ユーザは、特定少数の背景情報を共有した読み手を想定して文章を投稿することが多い。
そのため、従来のニュース記事およびブログ記事に比べて、親しい友人同士の会話のように、背景に関する説明となる部分が省略されることが多い。
単語または表現の統計的出現傾向に基づき、特徴語を含む文を要約文として選別するような従来技術を用いた場合では、確率的にこうした背景に関する説明となる部分が含まれない文が要約文として選別されやすい。しかしながら、もともとの背景について知らない一般の読者にとっては、何について書かれた文であるのか理解できず、要約文として不適切となるという問題があった。
そして、非特許文献1〜3および特許文献1〜3には、このような問題を解決するための構成は開示されていない。
この発明は、上述の課題を解決するためになされたもので、その目的は、文書の集合から適切な要約文を出力することが可能な時系列文書要約装置、時系列文書要約方法およびコンピュータ読み取り可能な記録媒体を提供することである。
上記課題を解決するために、この発明のある局面に係わる時系列文書要約装置は、対象となる文書集合である着目文書集合の要約文を出力するための時系列文書要約装置であって、上記着目文書集合、および上記着目文書集合の特徴語である着目文書話題語の組と、上記着目文書集合とは異なる文書集合である参照用文書集合とを取得し、上記着目文書集合において記述されている話題の背景となる話題を表す背景話題語を上記参照用文書集合から抽出するための背景話題語抽出部と、上記着目文書集合に含まれる文字列の中から、上記着目文書話題語および上記背景話題語を含む代表文字列を、上記着目文書集合の要約文として抽出するための代表文字列抽出部とを備える。
上記課題を解決するために、この発明のある局面に係わる時系列文書要約方法は、対象となる文書集合である着目文書集合の要約文を出力する時系列文書要約方法であって、上記着目文書集合、および上記着目文書集合の特徴語である着目文書話題語の組と、上記着目文書集合とは異なる文書集合である参照用文書集合とを取得し、上記着目文書集合において記述されている話題の背景となる話題を表す背景話題語を上記参照用文書集合から抽出するステップと、上記着目文書集合に含まれる文字列の中から、上記着目文書話題語および上記背景話題語を含む代表文字列を、上記着目文書集合の要約文として抽出するステップとを含む。
上記課題を解決するために、この発明のある局面に係わるコンピュータ読み取り可能な記録媒体は、対象となる文書集合である着目文書集合の要約文を出力するための時系列文書要約装置において用いられる時系列文書要約プログラムを記録した、コンピュータ読み取り可能な記録媒体であって、上記時系列文書要約プログラムは、コンピュータに、上記着目文書集合、および上記着目文書集合の特徴語である着目文書話題語の組と、上記着目文書集合とは異なる文書集合である参照用文書集合とを取得し、上記着目文書集合において記述されている話題の背景となる話題を表す背景話題語を上記参照用文書集合から抽出するステップと、上記着目文書集合に含まれる文字列の中から、上記着目文書話題語および上記背景話題語を含む代表文字列を、上記着目文書集合の要約文として抽出するステップとを実行させるためのプログラムである。
本発明によれば、文書の集合から適切な要約文を出力することができる。
マイクロブログにおける一日の話題の例を示す図である。 図1の例について各期間の特徴語、および特徴語を含む文を示す図である。 本発明の実施の形態に係る時系列文書要約装置の概略構成図である。 本発明の第1の実施の形態に係る時系列文書要約装置が提供する制御構造を示すブロック図である。 本発明の実施の形態に係る時系列文書要約装置が時系列文書要約処理を行なう際の動作手順を示すフローチャートである。 着目文書話題語抽出部10の出力するデータの例を示す図である。 背景話題語抽出部20の出力するデータの例を示す図である。 代表文字列抽出部30における文字列の要約スコアの例を示す図である。 代表文字列抽出部30の出力するデータの例を示す図である。
以下、本発明の実施の形態について図面を用いて説明する。なお、図中同一または相当部分には同一符号を付してその説明は繰り返さない。
まず、本発明の理解を容易にするために、本発明が解決する課題について詳細に説明する。
人間が発する文章は、大きく分けて2つの部分からなると考えられる。すなわち、その文章が何について述べているのかを表す「背景」について説明している部分と、その文章によって筆者が伝えたい「新情報」を説明している部分である。これは、文字で書いた文章に限らず、口頭での発話でも同様である。
ここで、「背景」とは、文章を理解する上で必要な、前提となる話題および記述する対象事物などのことである。
一方、「新情報」とは、背景として説明した話題および対象事物に関する、新しい事実の記述、意見および感想など、その文章を通して筆者が主張したい事柄を指すものとする。
なお、ここでは「新情報」と総称しているが、この「新情報」は、筆者が読者に伝えたい情報または筆者が主張したい情報のことを指しており、必ずしも、読者にとって完全に未知の情報に限らなくても良い。
すなわち、その文章で筆者が読者に伝えたい部分が、読者が既に知っているかもしれない事実の再確認であっても、当該部分も広く新情報に含めるものとする。また、事実の説明でなくとも、筆者の意見または感想であっても良い。
たとえば、サッカーW杯の日本VSデンマークの試合が行われた翌日のニュース記事に「サッカーW杯の日本VSデンマークの試合は、3対1で日本が勝利した」と書かれていたとする。このとき、「サッカーW杯の日本VSデンマークの試合は、」という部分が、文章が何について書かれているかを示す背景の説明であり、「3対1で日本が勝利した」という部分が、文章を通して筆者が伝えたい新情報の記述である。
文章を通して筆者が伝えたいメインとなる部分は、新情報の説明である。背景の説明は新しい情報ではないため、背景の情報を既に共有している特定の相手に情報を伝達する場合には、省略することが可能である。
一方、背景の情報を共有しているとは限らない不特定多数の相手に文章で情報を伝達する場合には、新情報だけでなく、その前提となる背景から説明する必要がある。
たとえば、ニュース記事では、背景の情報を共有しているとは限らない不特定多数の読者を想定しているため、「サッカーW杯の日本VSデンマークの試合は、3対1で日本が勝利した」というように、背景について説明した上で新情報を記述している。
一方、試合の翌日に親しい友人同士が会話している場合、背景についての説明なしに「3対1で日本が勝ったね!」と話しかけることも自然である。これは、試合の翌日であれば、特に説明をしなくても何のことについて話しているかが自明であり、背景を省略しても、相手が何について話しているかを察してくれるだろうという期待に基づいている。
このように、不特定多数に伝える公的な文章(発話)であるほど背景の説明は詳細になり、特定少数の相手に伝える私的な文章(発話)であるほど背景の説明は省略される傾向にある。
従来のトレンド分析技術が対象としてきたのは、ニュース記事およびブログ記事であった。これらの文書に含まれている文は、不特定多数の人に読まれることを想定して広く公開されている文章であり、筆者の伝えたい内容が不特定多数の読者に読まれた場合でも分かるよう、背景となる話題の説明が文書中に含まれていることが多い。
このため、従来のようにニュース記事およびブログ記事を分析対象としている場合は、非特許文献1〜3に挙げた技術を用いて要約対象文書から特徴語を多く含む文を抽出するだけで、背景となる話題の説明を含んだ、不特定多数の読者にとって適切な要約文を出力することができていた。
一方、マイクロブログと呼ばれる新しい種類のサービスが、ここ数年で大きく普及している。Twitterがその代表例である。マイクロブログは、ブログと同様に個人が自分の書いた文章を投稿できるサービスである。ユーザは、最大で140文字程度の短い文章を投稿することができる。マイクロブログでは、人々が日常で考えたことを、リアルタイムで気軽にインターネット上に投稿することができる。
こうしたマイクロブログでは、フォロワーと呼ばれる、ユーザの文章を読むために登録している特定の人々だけが読むことを想定した文章が投稿されることが多く、私的な日常会話に近い利用方法が普及している。一部の例外を除いて、ユーザがフォローされている数は数十人から数百人程度であり、ユーザは、背景の情報を共有した特定少数の読み手を想定して文章を投稿することができる。
マイクロブログでは、これらの特徴のため、マイクロブログに投稿される文章を多数集積した場合、従来のニュース記事およびブログを集積した際に比べて、特定少数の読み手を想定した文章が数多く含まれていると考えられる。そして、そのような文章では、親しい友人同士の会話のように、背景に関する説明となる部分が省略されることが多い。
このようなマイクロブログに投稿される文章を多数集積し、従来技術を用いて単に特徴語を含む文を抽出するような手法では、適切な要約文を出力することが困難である。
その理由は、以下の通りである。すなわち、マイクロブログでは、特定少数の読み手に向けた文章が非常に多く、マイクロブログに含まれるほとんどの文は、背景となる話題を説明していない文である。よって、単語または表現の統計的出現傾向に基づき、特徴語を含む文を要約文として選別したとしても、確率的に背景説明となる部分が含まれない文が選別されやすい。
しかしながら、もともとの背景について知らない大多数の読者は、このような文を元の文書集合の要約文として提示され、読んだとしても、何について書かれた文であるのか理解できないことから、このような文は、要約文として不適切となる。
たとえば、サッカーW杯の日本VSデンマークの試合がテレビで中継されていたとする。さらに、現在試合中で、2点目のゴールが決まったばかりだとする。この場合、「シュートが決まった」および「ゴールした」が現在時刻における新しい情報である。一方、「サッカーW杯」および「日本VSデンマーク」などは、「シュートが決まった」および「ゴールした」というのが一体何についての話であるのかを特定する、背景となる話題である。
このとき、マイクロブログでは「おっ、シュート決まった。」「やった、ゴールだ。」のような、現在の新情報だけを伝え、背景の説明は省略している文章が多数投稿される。これらの文章の投稿者は、自分が何について書いているかを推測することができる、背景を共有した特定少数の読み手に向けて投稿している。多くの場合、投稿された文章が読まれるタイミングも、投稿された時点から大きくずれてはいないことが想定される。
一方、「サッカーW杯の日本VSデンマークの試合は、今2点目のゴールが決まったところだ。」というような、背景となる話題の説明を含んだ文章は、マイクロブログ全体の投稿数から見ると少数となる。このような説明的な文章は、公的なメディアで使われ、私的な文章および会話では用いられないためである。
こうした理由から、マイクロブログでは「シュート」および「ゴール」のような頻出語がその時点での特徴語として大きく抽出されるが、「サッカーW杯」、「日本」および「デンマーク」などの、背景となる話題を示す語が頻度として少なくなり、特徴語として抽出されづらくなる。
結果として、マイクロブログから、ある着目している期間の特徴語を多く含む文を抽出するだけでは、「シュート決まった。」および「ゴールだ、嬉しい。」のような新しい情報を表す特徴語だけを含んでいて、背景となる話題を表す語を含まない文章が要約文として抽出され易い傾向が生じる。このような新情報だけからなる要約文は、背景となる話題を知らない第三者の読者にとって分かりづらく、要約文として適していない。
以上のように、従来技術を用いて単に特徴語を含む文を抽出するだけでは、不特定多数の一般の読者にも分かり易い適切な要約文をマイクロブログから出力することができない。
さらに、図1および図2を用いて、この課題の具体例を説明する。
図1は、マイクロブログにおける一日の話題の例を示す図である。図2は、図1の例について各期間の特徴語、および特徴語を含む文を示す図である。
図1および図2は、あるマイクロブログで、一日の間に投稿された文書集合の中での話題の変化を説明したものである。一日は、4時間ごとに6つの期間に分割され、それぞれの期間ごとに、その期間に投稿された文書に含まれる話題を要約した文がひとつ出力されるものとする。よって、一日に合計6つの要約文が出力されるものとする。
図1は、投稿された文書を人間の作業者が読んで分析し、どのようなことが話題になっていたかを調べた結果を表すものとする。この日は日本各地が大雨に襲われた日であり、「4時−8時」、「12時−16時」および「16時−20時」の3つの時間帯で大雨に関する話題で盛り上がっていることが分かる。
「12時−16時」および「16時−20時」の話題は、最初の「4時−8時」に続いて大雨の話題であることから、「12時−16時」および「16時−20時」の期間を要約する際には、背景となる話題の説明を含んだ要約文が出力されることが望ましい。
図2は、図1と同じ文書集合について、各期間における特徴語と、その特徴語を含む文とを抽出した結果である。図2に示した文は、大雨という背景となる話題の説明を含んだ要約文を出力することができていない。
すなわち、「今日は大雨で豪雨警報だそうだ」、「電車が止まった」および「金閣寺が危険なことになっている」が抽出されており、確かにどの文も各期間の特徴語を含んでいる。しかしながら、これらの抽出された文を読んだだけでは、これらの3つの出来事に、大雨という共通の背景があることを理解できない。
この方法で、背景となる話題の説明を含んだ要約文を出力することができないのは、各期間の要約文を生成する際に、「その着目している期間の特徴語を含む」という条件しか考慮していないからである。このため、背景となる話題の説明を含んだ要約文となるような条件をさらに追加する必要がある。
上記の考えに基づき、本発明の実施の形態に係る時系列文書要約装置は、着目している期間よりも過去の期間の特徴語を手がかりとする。これにより、時間情報を持つ大量の文書から、ある期間の話題を要約しており、かつ、背景となる話題の説明を含んだ要約文を出力することができる。
本発明の実施の形態に係る時系列文書要約装置201は、典型的には、汎用的なアーキテクチャを有するコンピュータを基本構造としており、あらかじめインストールされたプログラムを実行することで、後述するような各種機能を提供する。一般的に、このようなプログラムは、フレキシブルディスク(Flexible Disk)およびCD−ROM(Compact Disk Read Only Memory)などの記録媒体に格納されて、またはネットワークなどを介して流通する。このような汎用的なコンピュータを利用する場合には、本発明の実施の形態に係る機能を提供するためのアプリケーションに加えて、コンピュータの基本的な機能を提供するためのOS(Operating System)がインストールされていてもよい。この場合には、本発明の実施の形態に係るプログラムは、OSの一部として提供されるプログラムモジュールのうち、必要なモジュールを所定の順序および/またはタイミングで呼出して処理を実行するものであってもよい。すなわち、本発明の実施の形態に係るプログラム自体は、上記のようなモジュールを含んでおらず、OSと協働して処理が実行される場合もある。したがって、本発明の実施の形態に係るプログラムとしては、上記のようなモジュールを含まない形態であってもよい。
さらに、本発明の実施の形態に係るプログラムは、OS等の他のプログラムの一部に組み込まれて提供されるものであってもよい。この場合でも、本発明の実施の形態に係るプログラム自体は、上記のような組み込み先の他のプログラムが有するモジュールを含んでおらず、当該他のプログラムと協働して処理が実行される。すなわち、本発明の実施の形態に係るプログラムとしては、このような他のプログラムに組み込まれた形態であってもよい。
なお、代替的に、プログラムの実行により提供される機能の一部または全部を専用のハードウェア回路として実装してもよい。
[装置構成]
図3は、本発明の実施の形態に係る時系列文書要約装置の概略構成図である。
図3を参照して、時系列文書要約装置201は、携帯情報端末、パーソナルコンピュータおよびサーバ等の情報処理装置であり、演算処理部であるCPU(Central Processing Unit)101と、メインメモリ102およびハードディスク103と、入力インタフェース104と、表示コントローラ105と、データリーダ/ライタ106と、通信インタフェース107とを備える。これらの各部は、バス121を介して互いにデータ通信可能に接続される。
CPU101は、ハードディスク103に格納されたプログラム(コード)をメインメモリ102に展開し、これらを所定順序で実行することにより、各種の演算を実施する。メインメモリ102は、典型的には、DRAM(Dynamic Random Access Memory)などの揮発性の記憶装置であり、ハードディスク103から読み出されたプログラムに加えて、各種の演算処理結果を示すデータなどを保持する。また、ハードディスク103は不揮発性の磁気記憶装置であり、CPU101で実行されるプログラムに加えて、各種設定値などが格納される。このハードディスク103にインストールされるプログラムは、後述するように、記録媒体111に格納された状態で流通する。なお、ハードディスク103に加えて、またはハードディスク103に代えて、フラッシュメモリなどの半導体記憶装置を採用してもよい。
入力インタフェース104は、CPU101とキーボード108、マウス109および図示しないタッチパネルなどの入力部との間のデータ伝送を仲介する。すなわち、入力インタフェース104は、ユーザが入力部を操作することで与えられる操作指令などの外部からの入力を受け付ける。
表示コントローラ105は、表示部の典型例であるディスプレイ110と接続され、ディスプレイ110での表示を制御する。すなわち、表示コントローラ105は、CPU101による画像処理の結果などをユーザに対して表示する。ディスプレイ110は、たとえばLCD(Liquid Crystal Display)またはCRT(Cathode Ray Tube)である。
データリーダ/ライタ106は、CPU101と記録媒体111の間のデータ伝送を仲介する。すなわち、記録媒体111は、時系列文書要約装置201で実行されるプログラムなどが格納された状態で流通し、データリーダ/ライタ106は、この記録媒体111からプログラムを読み出す。また、データリーダ/ライタ106は、CPU101の内部指令に応答して、時系列文書要約装置201における処理結果などを記録媒体111へ書き込む。なお、記録媒体111は、たとえば、CF(Compact Flash)およびSD(Secure Digital)などの汎用的な半導体記憶デバイス、フレキシブルディスク(Flexible Disk)などの磁気記憶媒体、またはCD−ROM(Compact Disk Read Only Memory)などの光学記憶媒体である。
通信インタフェース107は、CPU101とパーソナルコンピュータおよびサーバ装置などの間のデータ伝送を仲介する。通信インタフェース107は、典型的には、イーサネット(登録商標)またはUSB(Universal Serial Bus)の通信機能を有する。なお、記録媒体111に格納されたプログラムを時系列文書要約装置201にインストールする形態に代えて、通信インタフェース107を介して配信サーバなどからダウンロードしたプログラムを時系列文書要約装置201にインストールしてもよい。
また、時系列文書要約装置201には、必要に応じてプリンタなどの他の出力装置が接続されてもよい。
[制御構造]
次に、時系列文書要約装置201における各種機能を提供するための制御構造について説明する。
図4は、本発明の第1の実施の形態に係る時系列文書要約装置が提供する制御構造を示すブロック図である。
図4に示す時系列文書要約装置201の各ブロックは、ハードディスク103に格納されたプログラム(コード)などをメインメモリ102に展開して、CPU101に実行させることで提供される。なお、図4に示すモジュールの一部または全部がハードウェアに実装されているファームウェアによって提供される場合もある。あるいは、図4に示す制御構造の一部または全部を専用ハードウェアおよび/または配線回路によって実現してもよい。
図4を参照して、時系列文書要約装置201は、その制御構造として、着目文書話題語抽出部10と、背景話題語抽出部20と、代表文字列抽出部30とを備える。
時系列文書要約装置201は、入力として時間情報つきの文書集合を受け付ける。時間情報つきの文書集合とは、その集合に含まれる文書が何らかの時間と関連付けられているような文書の集合である。各文書に関連付けられた時間は、文書が作成された時間および発信された時間などを表す。時間は、年、月、日、時、分および秒など、どの粒度で記述されていても良い。
時系列文書要約装置201が入力として受け付ける時間情報つきの文書集合の例としては、ニュース記事、ブログ、マイクロブログ、および電子掲示板に投稿された文書などがある。
時系列文書要約装置201は、入力された文書集合の話題を要約する。この入力された文書集合を、着目文書集合と呼ぶ。すなわち、時系列文書要約装置201は、対象となる文書集合である着目文書集合の要約文を作成する。
時系列文書要約装置201において、着目文書話題語抽出部10は、入力された時間情報つきの文書集合を着目文書集合とする。そして、着目文書話題語抽出部10は、その着目文書集合の話題を表す特徴語を、着目文書話題語として抽出し、出力する。
背景話題語抽出部20は、着目文書集合とは異なる文書集合を参照用文書集合とする。たとえば、この文書集合は、用語辞典等の辞書である文書集合とは異なるものである。なお、参照用文書集合は、時間情報つきの文書集合であってもよいし、時間情報がついていない文書集合であってもよい。
背景話題語抽出部20は、その参照用文書集合から、着目文書集合の期間よりも過去の期間の話題を表す特徴語を背景話題語として抽出する。そして、背景話題語抽出部20は、抽出した背景話題語と、着目文書話題語抽出部10が出力した着目文書話題語との間の関連性を表す関連度を計算して、計算した関連度、および背景話題語を出力する。
代表文字列抽出部30は、着目文書話題語抽出部10が抽出した着目文書集合の話題を表す着目文書話題語に加えて、背景話題語抽出部20が抽出した背景話題語および計算した関連度を用いて、着目文書集合の話題を表す代表文字列を抽出する。
[動作]
次に、本発明の実施の形態に係る時系列文書要約装置の動作について図面を用いて説明する。本発明の実施の形態では、時系列文書要約装置201を動作させることによって、本発明の実施の形態に係る時系列文書要約方法が実施される。よって、本発明の実施の形態に係る時系列文書要約方法の説明は、以下の時系列文書要約装置201の動作説明に代える。なお、以下の説明においては、適宜図4を参照する。
時系列文書要約装置201において、着目文書話題語抽出部10は、着目文書集合を取得し、着目文書集合に含まれる、着目文書集合の話題を表す語を着目文書話題語として抽出する。
背景話題語抽出部20は、着目文書集合、および着目文書話題語抽出部10によって抽出された着目文書集合の特徴語である着目文書話題語の組と、着目文書集合とは異なる文書集合である参照用文書集合とを取得する。たとえば、背景話題語抽出部20は、着目文書集合よりも過去に作成または公開された文書を含む文書集合を参照用文書集合として取得する。
そして、背景話題語抽出部20は、着目文書集合において記述されている話題の背景となる話題を表す背景話題語を参照用文書集合から抽出する。たとえば、背景話題語抽出部20は、参照用文書集合に多数含まれる語または偏って含まれる語を背景話題語として抽出する。
代表文字列抽出部30は、着目文書集合に含まれる文字列の中から、着目文書話題語および背景話題語を含む代表文字列を、着目文書集合の要約文として抽出する。
より詳細には、背景話題語抽出部20は、着目文書話題語と背景話題語との関連度を計算する。たとえば、背景話題語抽出部20は、着目文書集合および参照用文書集合の少なくとも一方における、着目文書話題語および背景話題語の文書内の共起性または共起語の類似性に基づいて、関連度を計算する。
代表文字列抽出部30は、背景話題語抽出部20によって計算された関連度に基づいて、着目文書集合に含まれる文字列のスコアを計算し、高いスコアを持つ文字列を代表文字列とする。
図5は、本発明の実施の形態に係る時系列文書要約装置が時系列文書要約処理を行なう際の動作手順を示すフローチャートである。
図5を参照して、まず、着目文書話題語抽出部10は、ユーザから時間情報つきの文書集合の入力を受け付ける(ステップS1)。
次に、着目文書話題語抽出部10は、入力された時間情報つきの文書集合を着目文書集合とする。そして、着目文書話題語抽出部10は、その着目文書集合の話題を表す特徴語を着目文書話題語として抽出し、出力する(ステップS2)。
次に、背景話題語抽出部20は、着目文書集合とは異なる文書集合を参照用文書集合とする。背景話題語抽出部20は、その参照用文書集合から、着目文書集合の期間よりも過去の期間の話題を表す特徴語を背景話題語として抽出する。そして、背景話題語抽出部20は、着目文書話題語抽出部10が出力した着目文書話題語と背景話題語との間の関連性を表す関連度を計算して、計算した関連度、および背景話題語を出力する(ステップS3)。
次に、代表文字列抽出部30は、着目文書話題語抽出部10が抽出した着目文書集合の話題を表す着目文書話題語に加えて、背景話題語抽出部20が抽出した背景話題語および計算した関連度を用いて、着目文書集合の話題を表す代表文字列を抽出する(ステップS4)。
ここで、ステップS1の動作を具体的に説明する。本実施の形態では、ユーザは、着目文書話題語抽出部10への時間情報つきの文書集合の入力を、キーボード108などによって行なう。
なお、ユーザは、着目文書話題語抽出部10への時間情報つきの文書集合の入力を、通信インタフェース107およびネットワークを介して時系列文書要約装置201と接続された外部のコンピュータなどによって行なっても良い。あるいは、ユーザは、時間情報つきの文書集合を記憶したデータファイルを指定することで時間情報つきの文書集合の入力を行なっても良い。この場合、着目文書話題語抽出部10は、ユーザが指定したデータファイルから時間情報つきの文書集合を読み込む。
次に、ステップS2の動作を具体的に説明する。本実施の形態では、着目文書話題語抽出部10は、入力された時間情報つきの文書集合を着目文書集合とする。そして、着目文書話題語抽出部10は、その着目文書集合の話題を表す特徴語を、着目文書話題語として抽出し、出力する。
ここで、着目文書集合の話題を表す特徴語の抽出方法は様々なものが考えられる。たとえば、各語についてその期間の文書における出現数を数えて、その出現数が多い順番に語をランキングする。そして、上位N個の語をその期間に偏って出現する特徴語と見なすことができる。
また、着目文書集合の話題を表す特徴語の抽出方法には、従来から知られている様々な特徴語の抽出技術を用いることができる。たとえば、非特許文献3の22ページから23ページに記載の技術を用いて、文書の特徴語を抽出しても良い。
図6は、着目文書話題語抽出部10の出力するデータの例を示す図である。
図6を参照して、この例では、あるマイクロブログに16時から20時に投稿された文書の集合を着目文書集合として、この着目文書集合に含まれていた話題語が抽出されている。
次に、ステップS3の動作を具体的に説明する。背景話題語抽出部20は、着目文書集合とは異なる文書集合を参照用文書集合とする。背景話題語抽出部20は、参照用文書集合から、着目文書集合の期間よりも過去の期間の話題を表す特徴語を、背景話題語として抽出する。そして、背景話題語抽出部20は、着目文書話題語抽出部10が出力した着目文書話題語と背景話題語との間の関連性を表す関連度を計算して、計算した関連度、および背景話題語を出力する。
ここで、参照用文書集合としては、着目文書集合の話題よりも過去の話題が含まれていると期待される文書の集合を用いる。この過去の話題が含まれていると期待される文書の集合としては、着目文書集合よりも過去に作成または公開された文書の集合を用いることができる。
たとえば、入力された着目文書集合が、あるマイクロブログにおいて16時から20時に投稿された文書の集合だったとする。このとき、参照用文書集合としては、たとえば、0時から16時までの間に同じマイクロブログに投稿された文書の集合を用いることができる。
あるいは、ニュース記事および別のブログのように、着目文書集合が属するマイクロブログとは異なる文書ソースを用いても良い。ただし、別の文書ソースを用いる場合であっても、着目文書集合が属する時間より過去の話題が含まれていると期待される文書集合である必要がある。
また、参照用文書集合が、着目文書集合の話題よりも過去の話題が含まれていると期待される文書の集合であれば、参照用文書集合の作成または公開された時間は、着目文書集合の作成または公開された時間と遠く離れていても、あるいは重なりを持っていても良い。たとえば、上記した例において、参照用文書集合として、0時から6時までに投稿された文書の集合を用いても、3時から18時までに投稿された文書の集合を用いても良い。
背景話題語抽出部20は、着目文書集合の期間よりも過去の期間の話題を表す特徴語を、参照用文書集合から背景話題語として抽出する。背景話題語の抽出方法は、着目文書話題語抽出部10において着目文書集合から着目文書話題語を抽出したのと同じ方法を用いても良いし、異なる方法を用いても良い。
最も単純には、着目文書話題語抽出部10において着目文書集合から着目文書話題語を抽出したのと同じ方法を、参照用文書集合に対して適用する。これにより、着目文書集合の期間よりも過去の期間の話題を表す特徴語を、背景話題語として抽出することができる。
また、参照用文書集合を、さらにいくつかの期間に分割し、分割したそれぞれの文書集合について、着目文書話題語抽出部10において着目文書集合から着目文書話題語を抽出したのと同じ方法を適用しても良い。
たとえば、参照用文書集合として、0時から16時までの間に投稿された文書の集合を用いているとき、「0時−4時」、「4時−8時」、「8時−12時」および「12時−16時」の4つの期間に投稿された文書に分割し、それぞれの文書集合の特徴語を、背景話題語として抽出しても良い。
背景話題語抽出部20は、以上のようにして背景話題語を抽出した後、着目文書話題語抽出部10が出力した着目文書話題語と背景話題語との間の関連性を表す関連度を計算する。
着目文書話題語と背景話題語との間の関連性を表す関連度としては、様々なものが考えられる。以下に、着目文書話題語と背景話題語をそれぞれAおよびBとして、AおよびBの間の関連性を表す関連度として考えられる値の例を説明する。
着目文書話題語と背景話題語との間の関連性を表す関連度として、2つの語が文書に出現する共起の強さを用いても良い。
たとえば、文書集合中で語Aおよび語Bが両方出現する文書数をN1とし、語Aおよび語Bのいずれかが出現する文書数をN2とする。そして、N1/N2を2つの語の間の関連性を表す関連度とすることができる。この値が大きいほど、2つの語が強く共起して出現することを表す。文書数の数え方としては、着目文書集合における文書数だけを数えても良いし、着目文書集合および参照文書集合における文書数を合わせて数えても良い。また、これらと比べて精度は劣るが、参照文書集合における文書数だけを数えても良い。
また、着目文書話題語と背景話題語との間の関連性を表す関連度として、着目文書話題語の共起語と背景話題語の共起語との類似性、具体的には着目文書話題語が出現する文脈と背景話題語が出現する文脈との類似性を用いても良い。
すなわち、すべての語の総数をNwとして、語Aおよび語Bについて、それぞれの文脈を表す長さNwのベクトルを考えることができる。ベクトルの各要素は、ある語が、語Aまたは語Bと共起した回数の多さを表すものとする。このとき、語Aの文脈を表すベクトルと、語Bの文脈を表すベクトルとのコサイン類似度を計算することで、語Aおよび語Bの文脈の類似度とすることができる。この類似度を、2つの語の間の関連性を表す関連度としても良い。
また、着目文書話題語と背景話題語との間の関連性を表す関連度として、語の関連性を記述した辞書における関連性の有無を用いても良い。
たとえば、語の上位下位関係を表す木構造状のシソーラスが得られているとき、このシソーラスの木構造における2つの語を表すノードの間の距離の逆数を、2つの語の間の関連性を表す関連度としても良い。
また、着目文書話題語と背景話題語との間の関連性を表す関連度として、時間的な出現の近さを用いても良い。
たとえば、語Aが出現する文書の作成または公開された時間の平均をTaとし、語Bが出現する文書の作成または公開された時間の平均をTbとする。このとき、TaおよびTbの間の時間的距離の逆数を、2つの語の間の関連性を表す関連度としても良い。
また、着目文書話題語と背景話題語との間の関連性を表す関連度として、上記に挙げた各種の関連度を組み合わせた値を用いても良い。
たとえば、2つの語が文書に出現する共起の強さを用いて算出した関連度をV1とし、時間的な出現の近さを用いて算出した関連度をV2とするとき、V1およびV2の代わりに、V1+V2を関連度として出力しても良い。
また、着目文書話題語と背景話題語との間の関連性を表す関連度を算出する際に、背景話題語の特徴語らしさを表す値を計算し、その値を関連度の算出において考慮しても良い。
たとえば、参照用文書集合における出現頻度の大きさを、参照用文書集合における特徴語らしさを表す値としてV3とする。この値が大きいほど重要な背景話題語であると見なして、他の手法に基づく関連度にV3を加算することで、背景話題語の関連度を高く評価しても良い。
単語と単語との関連度を算出する手法は他にも、自然言語処理の分野で一般に知られている公知技術がある。本実施の形態では、着目文書話題語と背景話題語との間の関連性を算出するために、他にそうした公知技術による関連度を用いてもよい。
図7は、背景話題語抽出部20の出力するデータの例を示す図である。
図7では、着目文書話題語と背景話題語との関連性を表す関連度が記述されている。図7において、縦方向の欄が着目文書話題語を表し、横方向の欄が背景話題語を表す。
この例は、以下のような想定における例である。すなわち、あるマイクロブログに16時から20時に投稿された文書の集合を着目文書集合とする。0時から16時に投稿された文書の集合を参照文書集合として、「0時−4時」、「4時−8時」、「8時−12時」および「12時−16時」の4つの期間に投稿された文書に分割し、それぞれの文書集合の特徴語を、背景話題語として抽出する。さらに、着目文書話題語と背景話題語との関連性を表す関連度を計算する。
図7の例に示すように、「大雨」および「豪雨」のような、着目文書話題語にとって背景となる話題を表す背景話題語との関連度は高く計算される。一方、「電子書籍」および「民主党」のような、着目文書話題語にとって背景となる話題を表さない背景話題語との関連度は低く計算される。
次に、ステップS4の動作を具体的に説明する。代表文字列抽出部30は、着目文書話題語抽出部10が抽出した着目文書集合の話題を表す着目文書話題語に加えて、背景話題語抽出部20が抽出した背景話題語および計算した関連度を用いて、着目文書集合の話題を表す代表文字列を抽出する。
具体的には、着目文書集合中の文書に含まれる文字列のうち、着目文書話題語のいずれかを含み、かつ、その着目文書話題語との関連度が高い背景話題語のいずれかを含むような文字列に対して、文字列の要約文としての良さを表す要約スコアを付与する。そして、要約スコアが高い文字列を、着目文書集合の話題を表す代表文字列として抽出する。
抽出する対象となる文字列の定め方は任意である。たとえば、着目文書集合中のすべての文書を、句点などの文区切りを表す記号で区切ることで、着目文書集合中の文書に含まれるすべての文を得ることができる。
これらの文の集合を、抽出する対象となる文字列としてもよい。また、着目文書集合中のすべての文書をN文字ごと(Nは2以上の整数)に区切ることで、N文字長の文字列の集合を得ることができる。これらのN文字長の文字列の集合を、抽出する対象となる文字列としてもよい。
文字列の要約スコアの計算方法としては、たとえば、着目文書話題語のいずれかを含んでいる文字列だけを選別し、選別した文字列に含まれている背景話題語のそれぞれについて、着目文書話題語との間の関連度を合計して、要約スコアとしても良い。他にも、非特許文献3に記載されているような、特徴語から要約文字列を選別する手法を用いて良い。
図8は、代表文字列抽出部30における文字列の要約スコアの例を示す図である。図8は、「16時−20時」の期間の文書を着目文書集合としたときの、着目文書集合中の文書に含まれる文字列の要約スコアを表している。
図8の第1列は、着目文書集合中の文書に含まれる文字列である。第2列は、その文字列に含まれている着目文書話題語である。第3列は、その文字列に含まれている背景話題語とその関連度である。第4列は、第3列を元に計算した、その文字列の要約スコアである。
図8では、「大雨で金閣寺が水没した。」という文字列が最も高い要約スコアを持っている。これは、「大雨」という、着目文書話題語との関連性が高い背景話題語を含んでいるためである。このような文は、背景となる話題の説明を含んだ要約文であると考えられる。
一方、「金閣寺が危険なことになってる。」という文字列は、着目話題語を2個含んでいるが、背景話題語を含んでいないため、文字列の要約スコアは低くなっている。このような文字列は、背景となる話題の説明を含んでいない要約文であると考えられる。
一方、「すごい大雨で驚いた。」という文字列は、「大雨」という背景話題語を含んでいるが、文字列の要約スコアは付与されていない。これは、たとえ背景話題語を含んでいたとしても、着目話題語を含んでいない文字列は、着目期間の話題の要約としてふさわしくないと考えられるためである。
この結果、「16時−20時」の期間の文書を着目文書集合としたときの代表文字列として、「大雨で金閣寺が水没した。」という文字列が選ばれることになる。
図9は、代表文字列抽出部30の出力するデータの例を示す図である。この例では、16時から20時までの期間の文書を着目文書集合としたときの代表文字列を表示している。
図9では、代表文字列に「大雨」という関連する背景話題語が含まれている。これにより、図2に示した例に比べ、背景となる話題の説明を含んだ文が出力されている。また、「金閣寺」という、着目文書話題語を含んでいることで、着目文書集合の話題を要約している。
以上説明したように、本実施の形態に係る時系列文書要約装置201によれば、時間情報を持つ大量の文書から、ある期間の話題を要約しており、かつ、背景となる話題の説明を含んだ要約文を出力することができる。
ところで、単語または表現の統計的出現傾向に基づき、特徴語を含む文を要約文として選別するような従来技術を用いた場合では、確率的にこうした背景に関する説明となる部分が含まれない文が要約文として選別されやすい。しかしながら、もともとの背景について知らない一般の読者にとっては、何について書かれた文であるのか理解できず、要約文として不適切となるという問題があった。
これに対して、本発明の実施の形態に係る時系列文書要約装置では、背景話題語抽出部20は、着目文書集合、および着目文書集合の特徴語である着目文書話題語の組と、着目文書集合とは異なる文書集合である参照用文書集合とを取得し、着目文書集合において記述されている話題の背景となる話題を表す背景話題語を参照用文書集合から抽出する。そして、代表文字列抽出部30は、着目文書集合に含まれる文字列の中から、着目文書話題語および背景話題語を含む代表文字列を、着目文書集合の要約文として抽出する。
ここで、特許文献1〜3に記載の技術と本発明の実施の形態に係る時系列文書要約装置との具体的な相違としては、たとえば、以下のような点がある。
すなわち、特許文献1に記載の技術では、話題語同士の文書共有度の高い場合にこれらの話題語を結合する。すなわち、同じ文書に多く出現しやすい話題語を結合する。このため、着目文書集合と、着目文書集合とは異なる文書集合とを区別していないことから、着目文書話題語および背景話題語の2種類を区別して抽出することができない。
これに対して、本発明の実施の形態に係る時系列文書要約装置では、着目文書集合とは異なる文書集合を用意して特徴語を抽出し、抽出した特徴語を背景話題語とする。そして、背景話題語および着目文書話題語の2種類を含む文字列を着目文書集合から抽出する。
また、特許文献2に記載の技術では、各発信源が過去に作成した文書中に含まれる語句群の類似性から発信源間の関連度を算出する。また、特許文献3に記載の技術では、各単語の時刻ごとの出現頻度を集計し、期間中のいずれかの箇所で大きく出現頻度が増加する単語のみを、潜在話題の候補語として抽出する。このように、特許文献2および3に記載の技術は、本発明の実施の形態に係る時系列文書要約装置のように、着目文書集合において記述されている話題の背景となる話題を表す背景話題語を参照用文書集合から抽出する構成とはまったく異なるものである。
すなわち、本発明の実施の形態に係る時系列文書要約装置では、着目文書集合に含まれる特徴語すなわち着目文書話題語だけでなく、背景となる話題を表す語すなわち背景話題語をさらに含んだ文字列を、着目文書集合に含まれる文字列の中から抽出し、代表文字列として抽出する。より詳細には、着目文書集合とは異なる文書集合を用意して、この文書集合の特徴語を背景話題語として抽出し、背景話題語および着目文書話題語の2種類を含む文字列を着目文書集合から抽出する。
すなわち、本発明の実施の形態に係る時系列文書要約装置における各構成要素のうち、背景話題語抽出部20および代表文字列抽出部30からなる最小構成により、文書の集合から適切な要約文を出力する、という本発明の目的を達成することが可能となる。
また、本発明の実施の形態に係る時系列文書要約装置では、背景話題語抽出部20は、着目文書集合よりも過去に作成または公開された文書を含む文書集合を参照用文書集合として取得する。
このような構成により、着目文書集合の話題よりも過去の話題が含まれている可能性の高い文書集合を取得し、適切な背景話題語を取得することができる。
また、本発明の実施の形態に係る時系列文書要約装置では、背景話題語抽出部20は、参照用文書集合に多数含まれる語または偏って含まれる語を背景話題語として抽出する。
このような構成により、参照用文書集合の中から、適切な背景話題語をより確実に取得することができる。すなわち、過去にある程度話題になった内容に関する語を背景話題語として取得することができる。
また、本発明の実施の形態に係る時系列文書要約装置では、背景話題語抽出部20は、着目文書話題語と背景話題語との関連度を計算する。そして、代表文字列抽出部30は、背景話題語抽出部20によって計算された関連度に基づいて、着目文書集合に含まれる文字列のスコアを計算し、高いスコアを持つ文字列を代表文字列とする。
このような構成により、着目文書集合に含まれる文字列を定量的に評価し、適切な代表文字列を抽出することができる。すなわち、現在話題になっている内容に関する語を背景話題語として取得することができる。
また、本発明の実施の形態に係る時系列文書要約装置では、背景話題語抽出部20は、着目文書集合および参照用文書集合の少なくとも一方における、着目文書話題語および背景話題語の文書内の共起性または共起語の類似性に基づいて、関連度を計算する。
このような構成により、着目文書集合に含まれる文字列のスコアを適切に計算することができる。
また、本発明の実施の形態に係る時系列文書要約装置では、着目文書話題語抽出部10は、着目文書集合を取得し、着目文書集合に含まれる、着目文書集合の話題を表す語を着目文書話題語として抽出する。そして、背景話題語抽出部20は、着目文書話題語抽出部10によって抽出された着目文書話題語を取得する。
このような構成により、着目文書集合および着目文書話題語を自動で取得することができ、着目文書集合の要約文を作成するための装置として、より総合的に機能することができる。
なお、本発明の実施の形態に係る時系列文書要約装置は、着目文書話題語抽出部10を備える構成であるとしたが、これに限定するものではない。着目文書話題語抽出部10を備えず、背景話題語抽出部20が、着目文書集合および着目文書話題語の組を時系列文書要約装置201の外部から取得する構成であってもよい。たとえば、時系列文書要約装置201が、着目文書集合および着目文書話題語の組の指定をユーザから受け付ける構成であってもよい。
上記実施の形態の一部または全部は以下の付記のようにも記載されうるが、本発明の範囲は、以下の付記に限定されるものではない。
[付記1]
対象となる文書集合である着目文書集合の要約文を出力するための時系列文書要約装置であって、
上記着目文書集合、および上記着目文書集合の特徴語である着目文書話題語の組と、上記着目文書集合とは異なる文書集合である参照用文書集合とを取得し、上記着目文書集合において記述されている話題の背景となる話題を表す背景話題語を上記参照用文書集合から抽出するための背景話題語抽出部と、
上記着目文書集合に含まれる文字列の中から、上記着目文書話題語および上記背景話題語を含む代表文字列を、上記着目文書集合の要約文として抽出するための代表文字列抽出部とを備える、時系列文書要約装置。
[付記2]
上記背景話題語抽出部は、上記着目文書集合よりも過去に作成または公開された文書を含む文書集合を上記参照用文書集合として取得する、付記1に記載の時系列文書要約装置。
[付記3]
上記背景話題語抽出部は、上記参照用文書集合に多数含まれる語または偏って含まれる語を上記背景話題語として抽出する、付記2に記載の時系列文書要約装置。
[付記4]
上記背景話題語抽出部は、上記着目文書話題語と上記背景話題語との関連度を計算し、
上記代表文字列抽出部は、上記背景話題語抽出部によって計算された上記関連度に基づいて、上記着目文書集合に含まれる文字列のスコアを計算し、高いスコアを持つ上記文字列を上記代表文字列とする、付記1から3のいずれかに記載の時系列文書要約装置。
[付記5]
上記背景話題語抽出部は、上記着目文書集合および上記参照用文書集合の少なくとも一方における、上記着目文書話題語および上記背景話題語の文書内の共起性または共起語の類似性に基づいて、上記関連度を計算する、付記4に記載の時系列文書要約装置。
[付記6]
上記時系列文書要約装置は、さらに、
上記着目文書集合を取得し、上記着目文書集合に含まれる、上記着目文書集合の話題を表す語を上記着目文書話題語として抽出するための着目文書話題語抽出部を備え、
上記背景話題語抽出部は、上記着目文書話題語抽出部によって抽出された上記着目文書話題語を取得する、付記1から5のいずれかに記載の時系列文書要約装置。
[付記7]
対象となる文書集合である着目文書集合の要約文を出力する時系列文書要約方法であって、
上記着目文書集合、および上記着目文書集合の特徴語である着目文書話題語の組と、上記着目文書集合とは異なる文書集合である参照用文書集合とを取得し、上記着目文書集合において記述されている話題の背景となる話題を表す背景話題語を上記参照用文書集合から抽出するステップと、
上記着目文書集合に含まれる文字列の中から、上記着目文書話題語および上記背景話題語を含む代表文字列を、上記着目文書集合の要約文として抽出するステップとを含む、時系列文書要約方法。
[付記8]
上記背景話題語を抽出するステップにおいては、上記着目文書集合よりも過去に作成または公開された文書を含む文書集合を上記参照用文書集合として取得する、付記7に記載の時系列文書要約方法。
[付記9]
上記背景話題語を抽出するステップにおいては、上記参照用文書集合に多数含まれる語または偏って含まれる語を上記背景話題語として抽出する、付記8に記載の時系列文書要約方法。
[付記10]
上記背景話題語を抽出するステップにおいては、上記着目文書話題語と上記背景話題語との関連度を計算し、
上記代表文字列を抽出するステップにおいては、計算した上記関連度に基づいて、上記着目文書集合に含まれる文字列のスコアを計算し、高いスコアを持つ上記文字列を上記代表文字列とする、付記7から9のいずれかに記載の時系列文書要約方法。
[付記11]
上記背景話題語を抽出するステップにおいては、上記着目文書集合または上記参照用文書集合における、上記着目文書話題語および上記背景話題語の文書内の共起性または共起語の類似性に基づいて、上記関連度を計算する、付記10に記載の時系列文書要約方法。
[付記12]
上記時系列文書要約方法は、さらに、
上記着目文書集合を取得し、上記着目文書集合に含まれる、上記着目文書集合の話題を表す語を上記着目文書話題語として抽出するステップを含み、
上記背景話題語を抽出するステップにおいては、抽出した上記着目文書話題語を取得する、付記7から11のいずれかに記載の時系列文書要約方法。
[付記13]
対象となる文書集合である着目文書集合の要約文を出力するための時系列文書要約装置において用いられる時系列文書要約プログラムを記録した、コンピュータ読み取り可能な記録媒体であって、上記時系列文書要約プログラムは、コンピュータに、
上記着目文書集合、および上記着目文書集合の特徴語である着目文書話題語の組と、上記着目文書集合とは異なる文書集合である参照用文書集合とを取得し、上記着目文書集合において記述されている話題の背景となる話題を表す背景話題語を上記参照用文書集合から抽出するステップと、
上記着目文書集合に含まれる文字列の中から、上記着目文書話題語および上記背景話題語を含む代表文字列を、上記着目文書集合の要約文として抽出するステップとを実行させるためのプログラムである、コンピュータ読み取り可能な記録媒体。
[付記14]
上記背景話題語を抽出するステップにおいては、上記着目文書集合よりも過去に作成または公開された文書を含む文書集合を上記参照用文書集合として取得する、付記13に記載のコンピュータ読み取り可能な記録媒体。
[付記15]
上記背景話題語を抽出するステップにおいては、上記参照用文書集合に多数含まれる語または偏って含まれる語を上記背景話題語として抽出する、付記14に記載のコンピュータ読み取り可能な記録媒体。
[付記16]
上記背景話題語を抽出するステップにおいては、上記着目文書話題語と上記背景話題語との関連度を計算し、
上記代表文字列を抽出するステップにおいては、計算した上記関連度に基づいて、上記着目文書集合に含まれる文字列のスコアを計算し、高いスコアを持つ上記文字列を上記代表文字列とする、付記13から15のいずれかに記載のコンピュータ読み取り可能な記録媒体。
[付記17]
上記背景話題語を抽出するステップにおいては、上記着目文書集合または上記参照用文書集合における、上記着目文書話題語および上記背景話題語の文書内の共起性または共起語の類似性に基づいて、上記関連度を計算する、付記16に記載のコンピュータ読み取り可能な記録媒体。
[付記18]
上記時系列文書要約プログラムは、さらに、コンピュータに、
上記着目文書集合を取得し、上記着目文書集合に含まれる、上記着目文書集合の話題を表す語を上記着目文書話題語として抽出するステップを実行させるためのプログラムであり、
上記背景話題語を抽出するステップにおいては、抽出した上記着目文書話題語を取得する、付記13から17のいずれかに記載の時系列文書要約プログラム。
上記実施の形態は、すべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記説明ではなく請求の範囲によって示され、請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
この出願は、2011年2月15日に出願された日本出願特願2011−29705を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明によれば、たとえばマイクロブログにおいて、時間情報を持つ大量の文書から、ある期間の話題を要約しており、かつ、背景となる話題の説明を含んだ要約文を出力することができる。したがって、本発明は、産業上の利用可能性を有している。
10 着目文書話題語抽出部
20 背景話題語抽出部
30 代表文字列抽出部
101 CPU
102 メインメモリ
103 ハードディスク
104 入力インタフェース
105 表示コントローラ
106 データリーダ/ライタ
107 通信インタフェース
108 キーボード
109 マウス
110 ディスプレイ
111 記録媒体
121 バス
201 時系列文書要約装置
本発明は、時系列文書要約装置、時系列文書要約方法および時系列文書要約プログラムに関し、特に、文書集合における話題を要約してユーザに提示する時系列文書要約装置、時系列文書要約方法および時系列文書要約プログラムに関する。
この発明は、上述の課題を解決するためになされたもので、その目的は、文書の集合から適切な要約文を出力することが可能な時系列文書要約装置、時系列文書要約方法および時系列文書要約プログラムを提供することである。
上記課題を解決するために、この発明のある局面に係わる時系列文書要約プログラムは、対象となる文書集合である着目文書集合の要約文を出力するための時系列文書要約装置において用いられる時系列文書要約プログラムであって、コンピュータに、上記着目文書集合、および上記着目文書集合の特徴語である着目文書話題語の組と、上記着目文書集合とは異なる文書集合である参照用文書集合とを取得し、上記着目文書集合において記述されている話題の背景となる話題を表す背景話題語を上記参照用文書集合から抽出するステップと、上記着目文書集合に含まれる文字列の中から、上記着目文書話題語および上記背景話題語を含む代表文字列を、上記着目文書集合の要約文として抽出するステップとを実行させるためのプログラムである。
マイクロブログにおける一日の話題の例を示す図である。 図1の例について各期間の特徴語、および特徴語を含む文を示す図である。 本発明の実施の形態に係る時系列文書要約装置の概略構成図である。 本発明の実施の形態に係る時系列文書要約装置が提供する制御構造を示すブロック図である。 本発明の実施の形態に係る時系列文書要約装置が時系列文書要約処理を行なう際の動作手順を示すフローチャートである。 着目文書話題語抽出部10の出力するデータの例を示す図である。 背景話題語抽出部20の出力するデータの例を示す図である。 代表文字列抽出部30における文字列の要約スコアの例を示す図である。 代表文字列抽出部30の出力するデータの例を示す図である。
図4は、本発明の実施の形態に係る時系列文書要約装置が提供する制御構造を示すブロック図である。
たとえば、文書集合中で語Aおよび語Bが両方出現する文書数をN1とし、語Aおよび語Bのいずれかが出現する文書数をN2とする。そして、N1/N2を2つの語の間の関連性を表す関連度とすることができる。この値が大きいほど、2つの語が強く共起して出現することを表す。文書数の数え方としては、着目文書集合における文書数だけを数えても良いし、着目文書集合および参照文書集合における文書数を合わせて数えても良い。また、これらと比べて精度は劣るが、参照文書集合における文書数だけを数えても良い。
この例は、以下のような想定における例である。すなわち、あるマイクロブログに16時から20時に投稿された文書の集合を着目文書集合とする。0時から16時に投稿された文書の集合を参照文書集合として、「0時−4時」、「4時−8時」、「8時−12時」および「12時−16時」の4つの期間に投稿された文書に分割し、それぞれの文書集合の特徴語を、背景話題語として抽出する。さらに、着目文書話題語と背景話題語との関連性を表す関連度を計算する。
一方、「金閣寺が危険なことになってる。」という文字列は、着目文書話題語を2個含んでいるが、背景話題語を含んでいないため、文字列の要約スコアは低くなっている。このような文字列は、背景となる話題の説明を含んでいない要約文であると考えられる。
一方、「すごい大雨で驚いた。」という文字列は、「大雨」という背景話題語を含んでいるが、文字列の要約スコアは付与されていない。これは、たとえ背景話題語を含んでいたとしても、着目文書話題語を含んでいない文字列は、着目期間の話題の要約としてふさわしくないと考えられるためである。
[付記11]
上記背景話題語を抽出するステップにおいては、上記着目文書集合および上記参照用文書集合の少なくとも一方における、上記着目文書話題語および上記背景話題語の文書内の共起性または共起語の類似性に基づいて、上記関連度を計算する、付記10に記載の時系列文書要約方法。
[付記13]
対象となる文書集合である着目文書集合の要約文を出力するための時系列文書要約装置において用いられる時系列文書要約プログラムであって、コンピュータに、
上記着目文書集合、および上記着目文書集合の特徴語である着目文書話題語の組と、上記着目文書集合とは異なる文書集合である参照用文書集合とを取得し、上記着目文書集合において記述されている話題の背景となる話題を表す背景話題語を上記参照用文書集合から抽出するステップと、
上記着目文書集合に含まれる文字列の中から、上記着目文書話題語および上記背景話題語を含む代表文字列を、上記着目文書集合の要約文として抽出するステップとを実行させるための、時系列文書要約プログラム
[付記14]
上記背景話題語を抽出するステップにおいては、上記着目文書集合よりも過去に作成または公開された文書を含む文書集合を上記参照用文書集合として取得する、付記13に記載の時系列文書要約プログラム
[付記15]
上記背景話題語を抽出するステップにおいては、上記参照用文書集合に多数含まれる語または偏って含まれる語を上記背景話題語として抽出する、付記14に記載の時系列文書要約プログラム
[付記16]
上記背景話題語を抽出するステップにおいては、上記着目文書話題語と上記背景話題語との関連度を計算し、
上記代表文字列を抽出するステップにおいては、計算した上記関連度に基づいて、上記着目文書集合に含まれる文字列のスコアを計算し、高いスコアを持つ上記文字列を上記代表文字列とする、付記13から15のいずれかに記載の時系列文書要約プログラム
[付記17]
上記背景話題語を抽出するステップにおいては、上記着目文書集合および上記参照用文書集合の少なくとも一方における、上記着目文書話題語および上記背景話題語の文書内の共起性または共起語の類似性に基づいて、上記関連度を計算する、付記16に記載の時系列文書要約プログラム

Claims (8)

  1. 対象となる文書集合である着目文書集合の要約文を出力するための時系列文書要約装置であって、
    前記着目文書集合、および前記着目文書集合の特徴語である着目文書話題語の組と、前記着目文書集合とは異なる文書集合である参照用文書集合とを取得し、前記着目文書集合において記述されている話題の背景となる話題を表す背景話題語を前記参照用文書集合から抽出するための背景話題語抽出部と、
    前記着目文書集合に含まれる文字列の中から、前記着目文書話題語および前記背景話題語を含む代表文字列を、前記着目文書集合の要約文として抽出するための代表文字列抽出部とを備える、時系列文書要約装置。
  2. 前記背景話題語抽出部は、前記着目文書集合よりも過去に作成または公開された文書を含む文書集合を前記参照用文書集合として取得する、請求の範囲第1項に記載の時系列文書要約装置。
  3. 前記背景話題語抽出部は、前記参照用文書集合に多数含まれる語または偏って含まれる語を前記背景話題語として抽出する、請求の範囲第2項に記載の時系列文書要約装置。
  4. 前記背景話題語抽出部は、前記着目文書話題語と前記背景話題語との関連度を計算し、
    前記代表文字列抽出部は、前記背景話題語抽出部によって計算された前記関連度に基づいて、前記着目文書集合に含まれる文字列のスコアを計算し、高いスコアを持つ前記文字列を前記代表文字列とする、請求の範囲第1項から第3項のいずれかに記載の時系列文書要約装置。
  5. 前記背景話題語抽出部は、前記着目文書集合および前記参照用文書集合の少なくとも一方における、前記着目文書話題語および前記背景話題語の文書内の共起性または共起語の類似性に基づいて、前記関連度を計算する、請求の範囲第4項に記載の時系列文書要約装置。
  6. 前記時系列文書要約装置は、さらに、
    前記着目文書集合を取得し、前記着目文書集合に含まれる、前記着目文書集合の話題を表す語を前記着目文書話題語として抽出するための着目文書話題語抽出部を備え、
    前記背景話題語抽出部は、前記着目文書話題語抽出部によって抽出された前記着目文書話題語を取得する、請求の範囲第1項から第5項のいずれかに記載の時系列文書要約装置。
  7. 対象となる文書集合である着目文書集合の要約文を出力する時系列文書要約方法であって、
    前記着目文書集合、および前記着目文書集合の特徴語である着目文書話題語の組と、前記着目文書集合とは異なる文書集合である参照用文書集合とを取得し、前記着目文書集合において記述されている話題の背景となる話題を表す背景話題語を前記参照用文書集合から抽出するステップと、
    前記着目文書集合に含まれる文字列の中から、前記着目文書話題語および前記背景話題語を含む代表文字列を、前記着目文書集合の要約文として抽出するステップとを含む、時系列文書要約方法。
  8. 対象となる文書集合である着目文書集合の要約文を出力するための時系列文書要約装置において用いられる時系列文書要約プログラムを記録した、コンピュータ読み取り可能な記録媒体であって、前記時系列文書要約プログラムは、コンピュータに、
    前記着目文書集合、および前記着目文書集合の特徴語である着目文書話題語の組と、前記着目文書集合とは異なる文書集合である参照用文書集合とを取得し、前記着目文書集合において記述されている話題の背景となる話題を表す背景話題語を前記参照用文書集合から抽出するステップと、
    前記着目文書集合に含まれる文字列の中から、前記着目文書話題語および前記背景話題語を含む代表文字列を、前記着目文書集合の要約文として抽出するステップとを実行させるためのプログラムである、コンピュータ読み取り可能な記録媒体。
JP2012557792A 2011-02-15 2011-12-09 時系列文書要約装置、時系列文書要約方法および時系列文書要約プログラム Active JP5884740B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012557792A JP5884740B2 (ja) 2011-02-15 2011-12-09 時系列文書要約装置、時系列文書要約方法および時系列文書要約プログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2011029705 2011-02-15
JP2011029705 2011-02-15
JP2012557792A JP5884740B2 (ja) 2011-02-15 2011-12-09 時系列文書要約装置、時系列文書要約方法および時系列文書要約プログラム
PCT/JP2011/078517 WO2012111226A1 (ja) 2011-02-15 2011-12-09 時系列文書要約装置、時系列文書要約方法およびコンピュータ読み取り可能な記録媒体

Publications (2)

Publication Number Publication Date
JPWO2012111226A1 true JPWO2012111226A1 (ja) 2014-07-03
JP5884740B2 JP5884740B2 (ja) 2016-03-15

Family

ID=46672175

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012557792A Active JP5884740B2 (ja) 2011-02-15 2011-12-09 時系列文書要約装置、時系列文書要約方法および時系列文書要約プログラム

Country Status (3)

Country Link
US (1) US20130311471A1 (ja)
JP (1) JP5884740B2 (ja)
WO (1) WO2012111226A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5841108B2 (ja) * 2013-09-24 2016-01-13 ビッグローブ株式会社 情報処理装置、記事情報生成方法およびプログラム
JP6279354B2 (ja) * 2014-03-04 2018-02-14 Nttコムオンライン・マーケティング・ソリューション株式会社 話題特定装置、および話題特定方法
US9767165B1 (en) 2016-07-11 2017-09-19 Quid, Inc. Summarizing collections of documents
US10679002B2 (en) 2017-04-13 2020-06-09 International Business Machines Corporation Text analysis of narrative documents
EP3432155A1 (en) * 2017-07-17 2019-01-23 Siemens Aktiengesellschaft Method and system for automatic discovery of topics and trends over time
JP7388617B2 (ja) * 2017-08-31 2023-11-29 Lineヤフー株式会社 算出装置、算出方法及び算出プログラム
CN109117485B (zh) * 2018-09-06 2023-08-08 北京汇钧科技有限公司 祝福语文本生成方法和装置、计算机可读存储介质
US11790184B2 (en) * 2020-08-28 2023-10-17 Salesforce.Com, Inc. Systems and methods for scientific contribution summarization

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11219361A (ja) * 1998-02-02 1999-08-10 Fujitsu Ltd 文書閲覧装置およびそのプログラムを格納した記憶媒体
JP2002259371A (ja) * 2001-03-02 2002-09-13 Nippon Telegr & Teleph Corp <Ntt> 文書要約方法および装置と文書要約プログラムおよび該プログラムを記録した記録媒体
JP2003141027A (ja) * 2001-10-31 2003-05-16 Toshiba Corp 要約作成方法および要約作成支援装置およびプログラム
JP2005122510A (ja) * 2003-10-17 2005-05-12 Nippon Telegr & Teleph Corp <Ntt> 話題構造抽出方法及び装置及び話題構造抽出プログラム及び話題構造抽出プログラムを記録したコンピュータ読み取り可能な記憶媒体

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3579204B2 (ja) * 1997-01-17 2004-10-20 富士通株式会社 文書要約装置およびその方法
JP3918374B2 (ja) * 1999-09-10 2007-05-23 富士ゼロックス株式会社 文書検索装置および方法
GB2399427A (en) * 2003-03-12 2004-09-15 Canon Kk Apparatus for and method of summarising text
US7480669B2 (en) * 2005-02-15 2009-01-20 Infomato Crosslink data structure, crosslink database, and system and method of organizing and retrieving information
US7577646B2 (en) * 2005-05-02 2009-08-18 Microsoft Corporation Method for finding semantically related search engine queries
US7702680B2 (en) * 2006-11-02 2010-04-20 Microsoft Corporation Document summarization by maximizing informative content words
EP2122506A4 (en) * 2007-01-10 2011-11-30 Sysomos Inc METHOD AND SYSTEM FOR INFORMATION DISCOVERY AND TEXT ANALYSIS
US7840604B2 (en) * 2007-06-04 2010-11-23 Precipia Systems Inc. Method, apparatus and computer program for managing the processing of extracted data
US8781989B2 (en) * 2008-01-14 2014-07-15 Aptima, Inc. Method and system to predict a data value
JPWO2009096523A1 (ja) * 2008-01-30 2011-05-26 日本電気株式会社 情報分析装置、検索システム、情報分析方法及び情報分析用プログラム
US8606810B2 (en) * 2008-01-30 2013-12-10 Nec Corporation Information analyzing device, information analyzing method, information analyzing program, and search system
US20100185943A1 (en) * 2009-01-21 2010-07-22 Nec Laboratories America, Inc. Comparative document summarization with discriminative sentence selection
US8843476B1 (en) * 2009-03-16 2014-09-23 Guangsheng Zhang System and methods for automated document topic discovery, browsable search and document categorization
WO2010144618A1 (en) * 2009-06-09 2010-12-16 Ebh Enterprises Inc. Methods, apparatus and software for analyzing the content of micro-blog messages
US8533208B2 (en) * 2009-09-28 2013-09-10 Ebay Inc. System and method for topic extraction and opinion mining
JP5284990B2 (ja) * 2010-01-08 2013-09-11 インターナショナル・ビジネス・マシーンズ・コーポレーション キーワードの時系列解析のための処理方法、並びにその処理システム及びコンピュータ・プログラム
US8326880B2 (en) * 2010-04-05 2012-12-04 Microsoft Corporation Summarizing streams of information
US9286619B2 (en) * 2010-12-27 2016-03-15 Microsoft Technology Licensing, Llc System and method for generating social summaries
US8990065B2 (en) * 2011-01-11 2015-03-24 Microsoft Technology Licensing, Llc Automatic story summarization from clustered messages

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11219361A (ja) * 1998-02-02 1999-08-10 Fujitsu Ltd 文書閲覧装置およびそのプログラムを格納した記憶媒体
JP2002259371A (ja) * 2001-03-02 2002-09-13 Nippon Telegr & Teleph Corp <Ntt> 文書要約方法および装置と文書要約プログラムおよび該プログラムを記録した記録媒体
JP2003141027A (ja) * 2001-10-31 2003-05-16 Toshiba Corp 要約作成方法および要約作成支援装置およびプログラム
JP2005122510A (ja) * 2003-10-17 2005-05-12 Nippon Telegr & Teleph Corp <Ntt> 話題構造抽出方法及び装置及び話題構造抽出プログラム及び話題構造抽出プログラムを記録したコンピュータ読み取り可能な記憶媒体

Also Published As

Publication number Publication date
JP5884740B2 (ja) 2016-03-15
US20130311471A1 (en) 2013-11-21
WO2012111226A1 (ja) 2012-08-23

Similar Documents

Publication Publication Date Title
JP5884740B2 (ja) 時系列文書要約装置、時系列文書要約方法および時系列文書要約プログラム
JP5647508B2 (ja) ショートテキスト通信のトピックを識別するためのシステムおよび方法
Nguyen et al. Computational sociolinguistics: A survey
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
Mostafa More than words: Social networks’ text mining for consumer brand sentiments
CN109690529B (zh) 按事件将文档编译到时间线中
US20170142044A1 (en) Ranking and Filtering Comments Based on Impression Calculations
US20170139920A1 (en) Ranking and filtering comments based on audience
JP2019504413A (ja) 絵文字を提案するためのシステムおよび方法
US8924491B2 (en) Tracking message topics in an interactive messaging environment
Furini et al. Sentiment analysis and twitter: a game proposal
CN106503907B (zh) 一种业务评估信息确定方法以及服务器
US8290925B1 (en) Locating product references in content pages
US20210248687A1 (en) System and method for predicting engagement on social media
US11640420B2 (en) System and method for automatic summarization of content with event based analysis
Nguyen Text as social and cultural data: A computational perspective on variation in text
Hernandez et al. Constructing consumer profiles from social media data
JP5942052B1 (ja) データ分析システム、データ分析方法、およびデータ分析プログラム
Muralikumar et al. A Human-Centered Evaluation of a Toxicity Detection API: Testing Transferability and Unpacking Latent Attributes
Liu et al. Understanding and predicting question subjectivity in social question and answering
KR101105798B1 (ko) 키워드 정련 장치 및 방법과 그를 위한 컨텐츠 검색 시스템 및 그 방법
CN110717008B (zh) 基于语意识别的搜索结果排序方法及相关装置
WO2016063403A1 (ja) データ分析システム、データ分析方法、およびデータ分析プログラム
Preotiuc-Pietro Temporal models of streaming social media data
CN110659419A (zh) 确定目标用户的方法及相关装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141107

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20150123

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150929

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160112

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160125

R150 Certificate of patent or registration of utility model

Ref document number: 5884740

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150