JPWO2009101954A1 - テキスト情報分析システム - Google Patents

テキスト情報分析システム Download PDF

Info

Publication number
JPWO2009101954A1
JPWO2009101954A1 JP2009553429A JP2009553429A JPWO2009101954A1 JP WO2009101954 A1 JPWO2009101954 A1 JP WO2009101954A1 JP 2009553429 A JP2009553429 A JP 2009553429A JP 2009553429 A JP2009553429 A JP 2009553429A JP WO2009101954 A1 JPWO2009101954 A1 JP WO2009101954A1
Authority
JP
Japan
Prior art keywords
expression
date
time
procedure
schedule information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2009553429A
Other languages
English (en)
Inventor
義美 竹元
義美 竹元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2009101954A1 publication Critical patent/JPWO2009101954A1/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

第1の課題は、時系列グラフが急増/急減(バースト)した原因分析が重要だが、従来技術では原因追求が困難だったことである。例えば、人がその期間の記事原文を熟読することによる内容解釈が必要で作業時間を要した。バーストの理由が分からないケースが多い。それはユーザが未知の事象が原因になっている場合がある。時間表現判定手段21と、日時表現記憶手段22と、日時計算手段23と、スケジュール情報作成手段24と、スケジュール情報記憶手段25、特徴表現抽出手段26とを備え、分析対象データ、または、それに関連するデータ(Webニュース等)から、キャンペーン、イベントなど実施日や事件の発生日等のスケジュール情報(日時表現や特徴表現)を自動抽出するよう動作する。

Description

本発明は、テキスト情報分析システムに関し、特にインターネットで公開されているブログ、SNS(Social Networking Service)などインターネットへの書き込み情報(Consumer Generated Media、以下「CGM」という)を分析し、キャンペーン効果測定、マーケティング調査、ブランド調査のための分析結果やレポートを提供する分析サービスを実現するシステム、方法およびプログラムに関する。
CGMに対する基本的な分析として、分析したいキーワード(ターゲットキーワード)を入力・設定し、その書き込み数の時系列変化をグラフでレポートする機能ないし分析メニューがある。ユーザは、分析結果を見て、新製品やキャンペーンが投入された時に話題が急増すれば反響の大きさを知ることができる。あるいは、企業で不正事件が起きると話題が急増するが、何日で沈静化したかなどが分かる。実際のCGM分析サービスとして、eHyouban/マイニングサービスなどある(プレスリリース『企業向けブログ情報分析サービス「eHyouban/マイニングサービス」を開始』、http://www.nec.co.jp/press/ja/0707/0201.html)。
ここで、グラフが急増/急減(バースト)した原因の分析が重要である。従来のCGM分析システムでは、ユーザが時系列グラフをクリック操作し、その時点での原文をすべて表示することで、確認することができる。しかし、人がその期間の記事原文を熟読することによる内容解釈が必要で、原文が大量になると工数がかかり、原因追求が困難となる。
バーストの原因は、キャンペーンやイベント実施や事件発生などに連動する場合が多い。これに対し、バーストの原因となりそうなキャンペーン、イベントの実施日や事件の発生日等のスケジュールまたはカレンダー情報を予め入力しておき、その情報と照らし合わせて原因分析を行う方法がある。この方法では、既知の情報に基づく分析となり、想定内事象の効果や影響確認となる。
従来のCGM分析システムは、図7に示すように、データ記憶手段10と、文章解析手段11と、文書分類手段12と、文書数カウント手段13と、結果可視化手段14と、原文参照手段15とから構成されている。
このような構成を有する従来のCGM分析システムはつぎのように動作する。すなわち、データ記憶手段10に蓄積されたブログ記事など文章データに対して、文章解析手段11は文章解析を実行する。具体的には、形態素解析処理、係り受け解析処理などを行う。形態素解析処理は、データ記憶手段10内の文章データを、単語辞書を用いて単語単位に分割し各単語に品詞情報を付与する処理である。とくに日本語のように分かち書きのない言語をコンピュータで処理する場合に一般的に適用される技術であり、非特許文献1などに記載がある。また、係り受け解析処理は、文中の係り受け関係(文の主語・述語の関係、修飾語・被修飾語の関係)などを判定する技術であり、特許文献1、特許文献2、非特許文献2などに記載されている。
文書分類手段12は、文章解析手段11の結果(文章を単語に分割したもの)の中に、分析したいキーワード(ターゲットキーワード)が存在する記事を分類する手段である。ユーザがターゲットワードを入力、指定し、記事全体をターゲットキーワードが存在する記事とターゲットキーワードが存在しない記事とに分類する。
文書数カウント手段13は、文書分類手段12で分類した記事の数をカウントする手段である。結果可視化手段14は、文書数カウント手段13がカウントした結果を時系列グラフなど、可視化して提示する手段である。
原文参照手段15は、結果可視化手段14でユーザがクリック操作等で指定した箇所、すなわち、時系列グラフでの特定の日時における原文一覧を参照するための手段である。
特開2000−172691号公報 特開2001−84250号公報 「国語辞書の記憶と日本語文の自動分割」(長尾真ほか、情報処理、Vol.19、No.6、1978年) 「係り受け解析を用いた複合語の分割方法」(宮崎正弘、情報処理学会論文誌、Vol.25、No.6、1984年)
第1の問題点は、グラフが急増/急減(バースト)した原因分析が重要だが、従来技術では原因追求が困難だったことである。例えば、人がその期間の記事原文を熟読することによる内容解釈が必要で作業時間を要した。
[発明の目的]
本発明の目的は、グラフが急増/急減(バースト)した原因分析を分かりやすくし、迅速かつ効率的に行えるCGM分析システムを提供することにある。
本発明のテキスト情報分析システム(CGM分析システム)は、時間表現判定手段21と、スケジュール情報作成手段24と、スケジュール情報記憶手段25と、特徴表現抽出手段26とを備える。また、日時表現記憶手段22と、日時計算手段23と、を備えていてもよい。このような構成により、分析対象データ、または、それに関連するデータ(Webニュース等)から、キャンペーン、イベントなど実施日や事件の発生日等のスケジュール情報(日時表現や特徴表現)を自動抽出するよう動作する。このような構成を採用し、分析結果(グラフ)を表示する際に、バースト部分のスケジュール情報をユーザに提示することにより、本発明の目的を達成することができる。
第1の効果は、バースト部分と自動抽出したキャンペーン、イベント、事件等のスケジュール情報を参照できるようにすることで、バーストの原因分析が効率的に行える。
本発明の第1の実施の形態の構成を示すブロック図である。 第1の実施の形態の動作を示す流れ図である。 本発明の第2の実施の形態の構成を示すブロック図である。 第1の発明を実施するための最良の形態の動作の具体例(原文例)を示す図である。 第1の発明を実施するための最良の形態の動作の具体例(文章解析結果例)を示す図である。 第1の発明を実施するための最良の形態の動作の具体例(スケジュール情報例)を示す図である。 第1の発明を実施するための最良の形態の動作の第二の具体例(原文例)を示す図である。 第1の発明を実施するための最良の形態の動作の第二の具体例(文章解析結果例)を示す図である。 第1の発明を実施するための最良の形態の動作の第二の具体例(日時表現記憶手段の内容例)を示す図である。 第1の発明を実施するための最良の形態の動作の第二の具体例(スケジュール情報例)を示す図である。 システムの動作例を示す図である。 従来装置の構成を示すブロック図である。
10 データ記憶手段
11 文章解析手段
12 文書分類手段
13 文書数カウント手段
14 結果可視化手段
15 原文参照手段
21、21a 時間表現判定手段
22 日時表現記憶手段
23 日時計算手段
24 スケジュール情報作成手段
25 スケジュール情報記憶手段
26 特徴表現抽出手段
27 スケジュール情報表示手段
次に、発明を実施するための最良の形態について図面を参照して詳細に説明する。
(第1の実施の形態)
図1を参照すると、本発明の第1の実施の形態は、データ記憶手段10と、文章解析手段11と、文書分類手段12と、文書数カウント手段13と、結果可視化手段14と、時間表現判定手段21と、日時表現記憶手段22と、日時計算手段23と、スケジュール情報作成手段24と、スケジュール情報記憶手段25と、特徴表現抽出手段26と、スケジュール情報表示手段27とから構成されている。
データ記憶手段10〜結果可視化手段14の動作概略については、従来技術の説明で記載したとおりである。
これらの手段はそれぞれ概略つぎのように動作する。
時間表現判定手段21は、文章解析手段11の結果から時間表現を判定して抽出する。時間表現とは、「年」「月」「日」「時」「分」などの日時を表す単位を含む表現(日時表現)や、「昨日」「今年」「月曜日」「先週」「正午」などの時間を表現する固有の言葉(時間固有表現)のことである。日時表現は、直接的な日時を表し、時間固有表現は相対的な日時を表すとも考えられる。
日時表現は、文章解析手段11の結果の品詞情報付き単語列から「1月1日」など「数詞+時間表現」のパターンマッチにより判定できる。時間固有表現は、文章解析手段11の単語辞書に、「昨日」「今年」「月曜日」「先週」「正午」などの単語を、時間固有表現を示す単語として予め登録しておくことで判定できる。
日時表現記憶手段22は、データ記憶手段10に含まれる文章データの時系列情報(文章作成日、記事投稿日などのタイムスタンプ情報)や時間表現判定手段21が抽出した日時表現を記憶する。
日時計算手段23は、「昨日」「先週月曜日」などの時間固有表現について、日時表現記憶手段22が記憶するタイムスタンプ情報または日時表現に基づき、実際の日時表現に計算して置換する。例えば、記事の投稿日時が、「2008年1月1日」の場合、「昨日」という時間表現を「2007年12月31日」という実際の日時表現に置換する。「先週月曜日」という時間表現は、前週の月曜日である「2007年12月24日」に置換する。
特徴表現抽出手段26は、文章解析手段11の結果から特徴表現を判定して抽出する。ここで、特徴表現とは、文章中で重要な単語(キーワード)であり、名詞(一般名詞、固有名詞)、動詞、形容詞など文章解析手段11の結果として付与される品詞情報により選定(フィルタリング)する。あるいは、「発売」「発表」「開催」「実施中」のようなキャンペーンやイベントの開催を表す単語や「発覚」のような事件が起きたことを表す単語に着目して選定する。固有名詞とは、地名・組織名・人名・製品名などである。特徴表現抽出手段26における固有名詞の判定は、文章解析手段11の単語辞書に固有名詞を登録しておくか、組織名ならば、「AAA株式会社」の「株式会社」、「BBB機構」の「機構」、人名ならば「CCC氏」の「氏」など、接辞語をもとにパターンマッチで実現する(「辞書およびパターンマッチルールの増強と品質強化に基づく日本語固有表現抽出」(竹元ほか、情報処理学会論文誌、Vol.42、No.6、2001年)参照)。
スケジュール情報作成手段24は、時間表現判定手段21の出力結果または日時計算手段23の出力結果と、特徴表現抽出手段26の出力結果とから、スケジュール情報を作成する。スケジュール情報とは、時間表現判定手段21が判定した日時表現または日時計算手段23が算出した日時表現と、特徴表現抽出手段26が判定した1個以上の特徴表現とから成る、図4Cに示すような日時表現(年月日など)をインデックスとする表形式の情報である。同じ日時表現に対して、同じ特徴表現から成るスケジュール情報は、マージして件数情報を付与する。
スケジュール情報記憶手段25は、スケジュール情報作成手段24が作成した結果(スケジュール情報及び件数情報)を記憶する。
スケジュール情報表示手段27は、ユーザが見たいスケジュール情報の日時を指定入力して表示する手段で、スケジュール情報記憶手段25の内容を件数情報順、特徴表現の個数順などにソートして結果可視化手段14で結果を表示する。
次に、図1及び図2のフローチャートを参照して本実施の形態の全体の動作について詳細に説明する。
まず、データ記憶手段10にデータが存在する場合(図2のステップA1)、文章解析手段11は、データ記憶手段10から文章データを1文読み込み、文章解析を実行する(ステップA2)。ここでは、文章データを1文毎に処理する例を記載するが、文章データの処理単位は、これに限らず、段落単位、記事単位などの場合もある。
時間表現判定手段21は、文章解析結果の中に、時間表現が存在する場合(ステップA3)、時間表現を抽出する(ステップA4)。時間表現判定手段21は、ステップA4で抽出した時間表現が日時表現かどうかを判定する(ステップA5)。具体的には、時間表現判定手段21は、時間表現として日時表現と時間固有表現とを抽出する。日時表現である場合、時間表現判定手段21は、日時情報記憶手段22に日時表現を格納する(ステップA8)。またこのとき、時間表現判定手段21は、文章作成日、記事投稿日などのタイムスタンプ情報(文章データの時系列情報)を検出し、日時情報記憶手段22に格納する。
ステップA4で抽出した時間表現が日時表現でない場合(すなわち、時間固有表現である場合)、まず、日時計算手段23は、日時表現記憶手段22に格納されている日時表現を取得する(ステップA6)。日時表現の取得方法は、日時表現記憶手段22内の記事の投稿日時などのタイムスタンプ情報を取得する、日時表現記憶手段22に最も新しく登録されたものを取得する(つまり、時間固有表現の最も近くに出現した日時表現をもとに日時計算を行う)など、予めルールを決めておく。次に、日時計算手段23は、ステップA4で抽出した時間固有表現について、ステップA6で取得した日時表現をもとに日時計算を行い、日時表現への置換を行う(ステップA7)。
続いて、特徴表現抽出手段26は、特徴表現を抽出し、スケジュール作成手段24は、スケジュール情報を作成する(ステップA9)。
ステップA10では、ステップA9において作成したスケジュール情報(日時表現と特徴表現の組)が、作成済みのスケジュール情報に存在するかを判定する。既に同一のスケジュール情報が存在する場合、既存のスケジュール情報の件数情報を+1加算する(ステップA11)。既存レコードが存在しない場合、新規スケジュール情報としてスケジュール情報に追加する(ステップA12)。
ステップA1で次の文章データが存在しなくなるまで、上記フローを繰り返す。その結果、作成されたスケジュール情報及び件数情報をスケジュール情報記憶手段25に格納しておく。スケジュール情報表示手段27で指定した日時についてのスケジュール情報を結果可視化手段14で表示する。
(第2の実施の形態)
図3は、第2の実施の形態の構成を示すブロック図である。図2のテキスト情報分析システムは、図1の構成のうち、日時表現記憶手段22と日時計算手段23とを除いた構成である。また。時間表現判定手段21aは、時間表現として日時表現を判定して抽出する。本実施の形態では、時間表現判定手段21aは、時間固有表現の判定及び抽出を実施しない。あるいは、時間表現判定手段21aは、時間固有表現を判定して抽出してもよい。この場合、時間表現判定手段21aは、自己のメモリ内に予め時間固有表現を保持し、これに基づいて時間固有表現を判定する。また、スケジュール情報へは、タイムスタンプと時間固有表現とを組み合わせて表示してもよい。他の構成要素は図1と同様であるため説明を省略する。
本実施の形態のテキスト情報解析システムは、図2に示したフローチャートの動作のうち、ステップA4の次に、ステップA8を実施する。ステップ5からA7を行わない。その他の動作は図2と同様であるため、説明を省略する。
(その他の実施の形態)
図1または図3に示すテキスト情報解析システムの各構成要素が実現する機能はプログラムによって実現することが可能である。プログラムは、コンピュータ読み取り可能な記録媒体に記録することができる。プログラムは、コンピュータのメモリにロードされ、CPU(Central Processing Unit)の制御のもとで実行される。
次に、本実施の形態の効果について説明する。
本実施の形態では、文章データからスケジュール情報を自動的に作成するというように構成されているため、ユーザがこれを参照することで、グラフの急変部分と、未知のキャンペーン、イベント、事件等との関係を効率的に分析することができる。
また、従来は、既知のイベント情報やキャンペーン情報など、想定内の事象しか把握できないことである。バーストの理由が分からないケースが多かった。それはユーザが未知の事象が原因になっている場合があった。
これについて、本発明の実施の形態の一態様では、未知のイベント情報や事件など、想定外の事象を把握できるCGM分析システムを提供する。
従って、未知だったキャンペーン、イベント、事件等とのマッチングも可能となり、想定外の原因を発見できる(例えば、「不正事件」があってバーストしたが、その原因を分析者が知らなかった時など)。逆に、未知のキャンペーン、イベント、事件等について、話題急増の原因にはなっていない、すなわちキャンペーン効果、事件の影響がなかったことも把握できる。
図4は、第1の発明を実施するための最良の形態の動作の具体例を示す図である。
図4Aは原文例、図4Bは文章解析結果の例を示している。
「AAA株式会社は、2008年1月1日、携帯電話の新機種ZZZを発売した。」という、データ記憶手段10内に格納された文章データに対して、文章解析手段11は、「AAA(未登録語)/株式会社(会社名接辞)/は(助詞)/、/2008(数詞)/年(時間表現)/1(数詞)/月(時間単位)/1(数詞)/日(時間単位)/、(読点)/携帯電話(名詞)/の(助詞)/新機種(名詞)/ZZZ(未登録語)/を(助詞)/発売(動詞)/し(サ変)/た(助動詞)/。(句点)/」という文章解析結果を出力する。
この例では、文章解析結果中に、「/2008(数詞)/年(時間単位)/」「/1(数詞)/月(時間単位)」「/1(数詞)/日(時間単位)/」のように、「数字+時間単位」のパターンが存在するので、時間表現判定手段21は、「2008年1月1日」を日時表現として判定し、抽出する。
特徴表現抽出手段26は、「AAA(未登録語)」「株式会社(会社名接辞)」「携帯電話(名詞)」「新機種(名詞)」「ZZZ(未登録語)」「発売(動詞)」のように、名詞や動詞、未登録語などを文章解析結果から抽出する。未登録語とは、文法解析手段11の単語辞書に登録されていない単語であり、携帯電話の機種名「ZZZ」のように新しい固有名詞である可能性が高い。そこで、未登録語も特徴表現として抽出している。また、特徴表現抽出手段26は、「AAA(未知語)」「株式会社(会社名接辞)」のように、「未登録語+会社名接辞」のパターンを会社名(組織名)として判定し、抽出する。
そして、スケジュール情報作成手段24は、図4Cのような表形式のスケジュール情報を作成する。
図5は、第1の発明を実施するための最良の形態の動作の第2の具体例を示す図である。
図5Aは原文例、図5Bは文章解析結果の例を示している。
図5Bで、文章解析の結果、「昨日」という単語は、時間固有表現であると判定されているので、日時計算手段23は、日時表現記憶手段22の内容から日時表現を計算する。
図5Cは、日時表現記憶手段22の内容例である。「文章ID」「日時」「種別」から成る。「文章ID」は、文章をユニークに識別する識別子、「日時」は、その文章IDに対する日時の情報、「種別」はその日時情報のソース元情報である。データ記憶手段10に付与されていたタイムスタンプ情報なら「タイムスタンプ」、本発明による判定情報なら「日時表現」という情報が付与されている。
この例では、「取得判定用情報」に「タイムスタンプ」があるので、この日時表現「2008年1月2日」をもとに、「昨日」の日時を計算し、「2008年1月1日」となる。その結果、図5Dのようなスケジュール情報が作成される。日時表現記憶手段22に最も新しく登録されたものを取得するというルールであっても、同様の処理となる。
図6は、結果可視化手段14で時系列グラフを表示し、グラフの注目点についてクリック操作を行うと、その日時のスケジュール情報が提示されるというシステムの動作例を示している。
以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態及び実施例に限定されるものではない。本願発明の構成や詳細には本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2008年2月15日に出願された日本出願特願2008―034385を基礎とする優先権を主張し、その開示のすべてをここに取り込む。
本発明によれば、インターネットで公開されているブログ、SNS(Social Networking Service)などインターネットへの書き込み情報(Consumer Generated Media)を分析し、キャンペーン効果測定、マーケティング調査、ブランド調査のための分析結果やレポートを提供する分析サービスを実現するシステムに適用できる。
本発明は、インターネットで公開されているものに限らず、時系列情報を含む文章データの分析(テキストマイニング技術を活用した分析サービス)といった用途にも適用可能である。

Claims (10)

  1. 分析対象となるデータを記憶するデータ記憶手段と、
    前記データ記憶手段の中で、文章データを対象に文章解析を行う文章解析手段と、
    前記文章解析手段の結果の中に、分析したいキーワードが存在する記事を分類する文書分類手段と、
    前記文書分類手段で分類した記事の数をカウントする文書数カウント手段と、
    前記文書数カウント手段がカウントした結果を時系列グラフなどに可視化して提示する結果可視化手段と、
    前記文章解析手段の結果から、日時表現または時間固有表現を判定して抽出する時間表現判定手段と、
    前記文章解析手段の結果から特徴表現を判定して抽出する特徴表現抽出手段と、
    前記時間表現判定手段の出力結果と前記特徴表現抽出手段の出力結果とからスケジュール情報を作成するスケジュール情報作成手段と、
    前記スケジュール情報作成手段が作成した結果を記憶するスケジュール情報記憶手段と、
    前記スケジュール情報記憶手段から、ユーザが指定入力した日時のスケジュール情報を表示するスケジュール情報表示手段と
    を備えたことを特徴とするテキスト情報分析システム。
  2. 前記データ記憶手段に含まれる文章データの文章作成日または記事投稿日などのタイムスタンプ情報、または、前記時間表現判定手段が抽出した日時表現を記憶する日時表現記憶手段と、
    前記時間表現判定手段が抽出した時間固有表現について、前記日時表現記憶手段が記憶するタイムスタンプ情報または日時表現に基づき、実際の日時表現に計算して置換する日時計算手段と、をさらに備えたことを特徴とする請求項1記載のテキスト情報分析システム。
  3. 前記時間固有表現は、相対的な日時を表す言葉であり、
    前記日時計算手段は、前記データ記憶手段に含まれる文章データの文章作成日または記事投稿日などのタイムスタンプ情報を用いて、前記時間固有表現を直截的な日時を表す表現に置換することを特徴とする請求項2記載のテキスト情報分析システム。
  4. 分析対象となるデータを記憶するデータ記憶手段と、
    前記データ記憶手段の中で、文章データを対象に文章解析を行う文章解析手段と、
    前記文章解析手段の結果の中に、分析したいキーワードが存在する記事を分類する文書分類手段と、
    前記文書分類手段で分類した記事の数をカウントする文書数カウント手段と、
    前記文書数カウント手段がカウントした結果を時系列グラフなどに可視化して提示する結果可視化手段と、
    前記文章解析手段の結果から、日時表現または時間固有表現を判定して抽出する時間表現判定手段と、
    前記データ記憶手段に含まれる文章データの文章作成日または記事投稿日などのタイムスタンプ情報、または、前記時間表現判定手段が抽出した日時表現を記憶する日時表現記憶手段と、
    前記時間表現判定手段が抽出した時間固有表現について、前記日時表現記憶手段が記憶するタイムスタンプ情報または日時表現に基づき、実際の日時表現に計算して置換する日時計算手段と、
    前記文章解析手段の結果から特徴表現を判定して抽出する特徴表現抽出手段と、
    前記時間表現判定手段の出力結果または前記日時計算手段の出力結果と、前記特徴表現抽出手段の出力結果とからスケジュール情報を作成するスケジュール情報作成手段と、
    前記スケジュール情報作成手段が作成した結果を記憶するスケジュール情報記憶手段と、
    前記スケジュール情報記憶手段から、ユーザが指定入力した日時のスケジュール情報を表示するスケジュール情報表示手段と
    を備えたことを特徴とするテキスト情報分析システム。
  5. 分析対象となるデータを記憶する工程と、
    前記記憶した文章データを対象に文章解析を行う工程と、
    前記文章解析の結果の中に、分析したいキーワードが存在する記事を分類する工程と、
    前記分類した記事の数をカウントする工程と、
    前記カウントした結果を時系列グラフなどに可視化して提示する工程と、
    前記文章解析の結果から、日時表現または時間固有表現を判定して抽出する工程と、
    前記文章解析の結果から特徴表現を判定して抽出する工程と、
    前記日時表現または時間固有表現を判定して抽出した結果と前記特徴表現を判定して抽出した結果とからスケジュール情報を作成する工程と、
    前記作成したスケジュール情報を記憶する工程と、
    前記記憶したスケジュール情報の中から、ユーザが指定入力した日時のスケジュール情報を表示する工程と
    を備えたことを特徴とするテキスト情報分析方法。
  6. 前記記憶した文章データの文章作成日または記事投稿日などのタイムスタンプ情報、または、前記日時表現または時間固有表現を判定して抽出した日時表現を記憶する工程と、
    前記日時表現または時間固有表現を判定して抽出した時間固有表現について、前記記憶したタイムスタンプ情報または日時表現に基づき、実際の日時表現に計算して置換する工程と、をさらに備えたことを特徴とする請求項5記載のテキスト情報分析方法。
  7. 分析対象となるデータを記憶する工程と、
    前記記憶した文章データを対象に文章解析を行う工程と、
    前記文章解析の結果の中に、分析したいキーワードが存在する記事を分類する工程と、
    前記分類した記事の数をカウントする工程と、
    前記カウントした結果を時系列グラフなどに可視化して提示する工程と、
    前記文章解析の結果から、日時表現または時間固有表現を判定して抽出する工程と、
    前記記憶した文章データの文章作成日または記事投稿日などのタイムスタンプ情報、または、前記日時表現または時間固有表現を判定して抽出した日時表現を記憶する工程と、
    前記日時表現または時間固有表現を判定して抽出した時間固有表現について、前記記憶したタイムスタンプ情報または日時表現に基づき、実際の日時表現に計算して置換する工程と、
    前記文章解析の結果から特徴表現を判定して抽出する工程と、
    前記日時表現または時間固有表現を判定して抽出した結果または前記実際の日時表現に計算して置換した結果と、前記特徴表現を判定して抽出した結果とからスケジュール情報を作成する工程と、
    前記作成したスケジュール情報を記憶する工程と、
    前記記憶したスケジュール情報から、ユーザが指定入力した日時のスケジュール情報を表示する工程と
    を備えたことを特徴とするテキスト情報分析方法。
  8. コンピュータを動作させるテキスト情報分析プログラムを格納する記録媒体であって、
    前記コンピュータに、
    分析対象となるデータをデータ記憶手段に記憶する手順と、
    前記データ記憶手段の中で、文章データを対象に文章解析を行う文章解析手順と、
    前記文章解析手順の結果の中に、分析したいキーワードが存在する記事を分類する文書分類手順と、
    前記文書分類手順で分類した記事の数をカウントする文書数カウント手順と、
    前記文書数カウント手順がカウントした結果を時系列グラフなどに可視化して提示する結果可視化手順と、
    前記文章解析手順の結果から、日時表現または時間固有表現を判定して抽出する時間表現判定手順と、
    前記文章解析手順の結果から特徴表現を判定して抽出する特徴表現抽出手順と、
    前記時間表現判定手順の出力結果と前記特徴表現抽出手順の出力結果とからスケジュール情報を作成するスケジュール情報作成手順と、
    前記スケジュール情報作成手順が作成した結果をスケジュール情報記憶手段に記憶するスケジュール情報記憶手順と、
    前記スケジュール情報記憶手段から、ユーザが指定入力した日時のスケジュール情報を表示するスケジュール情報表示手順と
    を実行させる情報分析プログラムを格納する記録媒体。
  9. 前記データ記憶手段に含まれる文章データの文章作成日または記事投稿日などのタイムスタンプ情報、または、前記時間表現判定手順が抽出した日時表現を記憶する日時表現記憶手順と、
    前記時間表現判定手順が抽出した時間固有表現について、前記日時表現記憶手順が記憶するタイムスタンプ情報または日時表現に基づき、実際の日時表現に計算して置換する日時計算手順と、
    をさらに備えたことを特徴とする請求項7記載のテキスト情報分析プログラムを格納する記録媒体。
  10. コンピュータを動作させるテキスト情報分析プログラムを格納する記録媒体であって、
    前記コンピュータに、
    分析対象となるデータをデータ記憶手段に記憶する手順と、
    前記データ記憶手段の中で、文章データを対象に文章解析を行う文章解析手順と、
    前記文章解析手順の結果の中に、分析したいキーワードが存在する記事を分類する文書分類手順と、
    前記文書分類手順で分類した記事の数をカウントする文書数カウント手順と、
    前記文書数カウント手順がカウントした結果を時系列グラフなどに可視化して提示する結果可視化手順と、
    前記文章解析手順の結果から、日時表現または時間固有表現を判定して抽出する時間表現判定手順と、
    前記データ記憶手順に含まれる文章データの文章作成日または記事投稿日などのタイムスタンプ情報、または、前記時間表現判定手順が抽出した日時表現を記憶する日時表現記憶手順と、
    前記時間表現判定手順が抽出した時間固有表現について、前記日時表現記憶手段が記憶するタイムスタンプ情報または日時表現に基づき、実際の日時表現に計算して置換する日時計算手順と、
    前記文章解析手段の結果から特徴表現を判定して抽出する特徴表現抽出手順と、
    前記時間表現判定手順の出力結果または前記日時計算手順の出力結果と、前記特徴表現抽出手順の出力結果とからスケジュール情報を作成するスケジュール情報作成手順と、
    前記スケジュール情報作成手順が作成した結果をスケジュール情報記憶手段に記憶するスケジュール情報記憶手順と、
    前記スケジュール情報記憶手段から、ユーザが指定入力した日時のスケジュール情報を表示するスケジュール情報表示手順と
    を実行させるテキスト情報分析プログラムを格納する記録媒体。
JP2009553429A 2008-02-15 2009-02-12 テキスト情報分析システム Withdrawn JPWO2009101954A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2008034385 2008-02-15
JP2008034385 2008-02-15
PCT/JP2009/052269 WO2009101954A1 (ja) 2008-02-15 2009-02-12 テキスト情報分析システム

Publications (1)

Publication Number Publication Date
JPWO2009101954A1 true JPWO2009101954A1 (ja) 2011-06-09

Family

ID=40956984

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009553429A Withdrawn JPWO2009101954A1 (ja) 2008-02-15 2009-02-12 テキスト情報分析システム

Country Status (3)

Country Link
US (1) US20100325118A1 (ja)
JP (1) JPWO2009101954A1 (ja)
WO (1) WO2009101954A1 (ja)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140337011A1 (en) * 2013-05-13 2014-11-13 International Business Machines Corporation Controlling language tense in electronic content
JP5645233B1 (ja) * 2013-08-07 2014-12-24 シャープ株式会社 情報処理装置、情報処理方法および情報処理プログラム
US10235460B2 (en) 2014-09-30 2019-03-19 Splunk Inc. Sharing configuration information for searches in data intake and query systems
US9922099B2 (en) * 2014-09-30 2018-03-20 Splunk Inc. Event limited field picker
US9990423B2 (en) 2014-09-30 2018-06-05 Splunk Inc. Hybrid cluster-based data intake and query
US20160092045A1 (en) * 2014-09-30 2016-03-31 Splunk, Inc. Event View Selector
US9922084B2 (en) 2015-01-30 2018-03-20 Splunk Inc. Events sets in a visually distinct display format
US10013454B2 (en) 2015-01-30 2018-07-03 Splunk Inc. Text-based table manipulation of event data
US10726037B2 (en) 2015-01-30 2020-07-28 Splunk Inc. Automatic field extraction from filed values
US11615073B2 (en) 2015-01-30 2023-03-28 Splunk Inc. Supplementing events displayed in a table format
US9916346B2 (en) 2015-01-30 2018-03-13 Splunk Inc. Interactive command entry list
US9922082B2 (en) 2015-01-30 2018-03-20 Splunk Inc. Enforcing dependency between pipelines
US10915583B2 (en) 2015-01-30 2021-02-09 Splunk Inc. Suggested field extraction
US11442924B2 (en) 2015-01-30 2022-09-13 Splunk Inc. Selective filtered summary graph
US9977803B2 (en) 2015-01-30 2018-05-22 Splunk Inc. Column-based table manipulation of event data
US10061824B2 (en) 2015-01-30 2018-08-28 Splunk Inc. Cell-based table manipulation of event data
US11544248B2 (en) 2015-01-30 2023-01-03 Splunk Inc. Selective query loading across query interfaces
US9842160B2 (en) 2015-01-30 2017-12-12 Splunk, Inc. Defining fields from particular occurences of field labels in events
US10528985B2 (en) 2015-12-14 2020-01-07 International Business Machines Corporation Determining a personalized advertisement channel
US9905248B2 (en) 2016-02-29 2018-02-27 International Business Machines Corporation Inferring user intentions based on user conversation data and spatio-temporal data
US10043062B2 (en) 2016-07-13 2018-08-07 International Business Machines Corporation Generating auxiliary information for a media presentation
US9741258B1 (en) 2016-07-13 2017-08-22 International Business Machines Corporation Conditional provisioning of auxiliary information with a media presentation
CN116150409B (zh) * 2023-04-10 2023-06-23 中科雨辰科技有限公司 一种文本时间序列获取方法、电子设备及存储介质

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3714172A1 (de) * 1986-04-28 1987-11-19 Hitachi Ltd Einrichtung zum durchsuchen von dokumenten in einem dokumentenablagesystem
JP4289513B2 (ja) * 1997-04-09 2009-07-01 富士通株式会社 文書表示装置およびプログラム記憶媒体
JPH11224255A (ja) * 1998-02-05 1999-08-17 Ricoh Co Ltd キーワード抽出装置及び方法
US6532469B1 (en) * 1999-09-20 2003-03-11 Clearforest Corp. Determining trends using text mining
US6769010B1 (en) * 2000-05-11 2004-07-27 Howzone.Com Inc. Apparatus for distributing information over a network-based environment, method of distributing information to users, and method for associating content objects with a database wherein the content objects are accessible over a network communication medium by a user
JP2002245070A (ja) * 2001-02-20 2002-08-30 Hitachi Ltd データ表示方法及び装置並びにその処理プログラムを記憶した媒体
US7570262B2 (en) * 2002-08-08 2009-08-04 Reuters Limited Method and system for displaying time-series data and correlated events derived from text mining
US7895224B2 (en) * 2002-12-10 2011-02-22 Caringo, Inc. Navigation of the content space of a document set
JP2005346416A (ja) * 2004-06-03 2005-12-15 Matsushita Electric Ind Co Ltd 日時情報変換装置、日時情報変換方法、日時情報変換プログラムおよび日時情報変換装置の集積回路
JP2007018285A (ja) * 2005-07-07 2007-01-25 Cac:Kk 情報提供システム、情報提供方法、情報提供装置並びに情報提供プログラム
US7730013B2 (en) * 2005-10-25 2010-06-01 International Business Machines Corporation System and method for searching dates efficiently in a collection of web documents
CA2669236C (en) * 2005-11-16 2016-05-24 Evri Inc. Extending keyword searching to syntactically and semantically annotated data
US20080033587A1 (en) * 2006-08-03 2008-02-07 Keiko Kurita A system and method for mining data from high-volume text streams and an associated system and method for analyzing mined data
US8874571B2 (en) * 2006-11-10 2014-10-28 Battelle Memorial Institute Text analysis methods, text analysis apparatuses, and articles of manufacture
WO2008083504A1 (en) * 2007-01-10 2008-07-17 Nick Koudas Method and system for information discovery and text analysis
US8086557B2 (en) * 2008-04-22 2011-12-27 Xerox Corporation Method and system for retrieving statements of information sources and associating a factuality assessment to the statements

Also Published As

Publication number Publication date
US20100325118A1 (en) 2010-12-23
WO2009101954A1 (ja) 2009-08-20

Similar Documents

Publication Publication Date Title
WO2009101954A1 (ja) テキスト情報分析システム
JP7163355B2 (ja) メッセージ中のタスクの識別
Hill et al. Quantifying the impact of dirty OCR on historical text analysis: Eighteenth Century Collections Online as a case study
US11775596B1 (en) Models for classifying documents
Zimmeck et al. Privee: An architecture for automatically analyzing web privacy policies
Gu et al. " what parts of your apps are loved by users?"(T)
US9519636B2 (en) Deduction of analytic context based on text and semantic layer
Gregory et al. Visual GISting: bringing together corpus linguistics and Geographical Information Systems
US20080033587A1 (en) A system and method for mining data from high-volume text streams and an associated system and method for analyzing mined data
US9922383B2 (en) Patent claims analysis system and method
US20160217127A1 (en) Identification of significant phrases using multiple language models
US20160285810A1 (en) Analyzing email threads
JP2007287134A (ja) 情報抽出装置、及び情報抽出方法
WO2013003008A2 (en) Automatic classification of electronic content into projects
CN106991090B (zh) 舆情事件实体的分析方法及装置
JPWO2010023938A1 (ja) テキストマイニング装置、テキストマイニング方法、及びプログラム
US9792377B2 (en) Sentiment trent visualization relating to an event occuring in a particular geographic region
US20230010680A1 (en) Business Lines
Böschen Evaluation of JATSdecoder as an automated text extraction tool for statistical results in scientific reports
Medrano Khipu transcription typologies: A corpus-based study of the Textos Andinos
JP4945383B2 (ja) 仕様書内容検査方法および仕様書内容検査システム
US20190018893A1 (en) Determining tone differential of a segment
JP2005190284A (ja) 情報分類装置および情報分類方法
KR20090126862A (ko) 자연어 처리를 이용한 감성 정보 분석 시스템 및 방법,자연어 처리를 이용한 감성 정보 분석 방법을 컴퓨터에서실행하기 위한 프로그램을 저장한 기록매체
Barth et al. A reporting tool for relational visualization and analysis of character mentions in literature

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120112

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20121129