JPWO2009101954A1

JPWO2009101954A1 - テキスト情報分析システム

Info

Publication number: JPWO2009101954A1
Application number: JP2009553429A
Authority: JP
Inventors: 義美竹元
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2008-02-15
Filing date: 2009-02-12
Publication date: 2011-06-09
Also published as: US20100325118A1; WO2009101954A1

Abstract

第１の課題は、時系列グラフが急増／急減（バースト）した原因分析が重要だが、従来技術では原因追求が困難だったことである。例えば、人がその期間の記事原文を熟読することによる内容解釈が必要で作業時間を要した。バーストの理由が分からないケースが多い。それはユーザが未知の事象が原因になっている場合がある。時間表現判定手段２１と、日時表現記憶手段２２と、日時計算手段２３と、スケジュール情報作成手段２４と、スケジュール情報記憶手段２５、特徴表現抽出手段２６とを備え、分析対象データ、または、それに関連するデータ（Ｗｅｂニュース等）から、キャンペーン、イベントなど実施日や事件の発生日等のスケジュール情報（日時表現や特徴表現）を自動抽出するよう動作する。

Description

本発明は、テキスト情報分析システムに関し、特にインターネットで公開されているブログ、ＳＮＳ（ＳｏｃｉａｌＮｅｔｗｏｒｋｉｎｇＳｅｒｖｉｃｅ）などインターネットへの書き込み情報（ＣｏｎｓｕｍｅｒＧｅｎｅｒａｔｅｄＭｅｄｉａ、以下「ＣＧＭ」という）を分析し、キャンペーン効果測定、マーケティング調査、ブランド調査のための分析結果やレポートを提供する分析サービスを実現するシステム、方法およびプログラムに関する。

ＣＧＭに対する基本的な分析として、分析したいキーワード（ターゲットキーワード）を入力・設定し、その書き込み数の時系列変化をグラフでレポートする機能ないし分析メニューがある。ユーザは、分析結果を見て、新製品やキャンペーンが投入された時に話題が急増すれば反響の大きさを知ることができる。あるいは、企業で不正事件が起きると話題が急増するが、何日で沈静化したかなどが分かる。実際のＣＧＭ分析サービスとして、ｅＨｙｏｕｂａｎ／マイニングサービスなどある（プレスリリース『企業向けブログ情報分析サービス「ｅＨｙｏｕｂａｎ／マイニングサービス」を開始』、ｈｔｔｐ：／／ｗｗｗ．ｎｅｃ．ｃｏ．ｊｐ／ｐｒｅｓｓ／ｊａ／０７０７／０２０１．ｈｔｍｌ）。

ここで、グラフが急増／急減（バースト）した原因の分析が重要である。従来のＣＧＭ分析システムでは、ユーザが時系列グラフをクリック操作し、その時点での原文をすべて表示することで、確認することができる。しかし、人がその期間の記事原文を熟読することによる内容解釈が必要で、原文が大量になると工数がかかり、原因追求が困難となる。

バーストの原因は、キャンペーンやイベント実施や事件発生などに連動する場合が多い。これに対し、バーストの原因となりそうなキャンペーン、イベントの実施日や事件の発生日等のスケジュールまたはカレンダー情報を予め入力しておき、その情報と照らし合わせて原因分析を行う方法がある。この方法では、既知の情報に基づく分析となり、想定内事象の効果や影響確認となる。

従来のＣＧＭ分析システムは、図７に示すように、データ記憶手段１０と、文章解析手段１１と、文書分類手段１２と、文書数カウント手段１３と、結果可視化手段１４と、原文参照手段１５とから構成されている。

このような構成を有する従来のＣＧＭ分析システムはつぎのように動作する。すなわち、データ記憶手段１０に蓄積されたブログ記事など文章データに対して、文章解析手段１１は文章解析を実行する。具体的には、形態素解析処理、係り受け解析処理などを行う。形態素解析処理は、データ記憶手段１０内の文章データを、単語辞書を用いて単語単位に分割し各単語に品詞情報を付与する処理である。とくに日本語のように分かち書きのない言語をコンピュータで処理する場合に一般的に適用される技術であり、非特許文献１などに記載がある。また、係り受け解析処理は、文中の係り受け関係（文の主語・述語の関係、修飾語・被修飾語の関係）などを判定する技術であり、特許文献１、特許文献２、非特許文献２などに記載されている。

文書分類手段１２は、文章解析手段１１の結果（文章を単語に分割したもの）の中に、分析したいキーワード（ターゲットキーワード）が存在する記事を分類する手段である。ユーザがターゲットワードを入力、指定し、記事全体をターゲットキーワードが存在する記事とターゲットキーワードが存在しない記事とに分類する。

文書数カウント手段１３は、文書分類手段１２で分類した記事の数をカウントする手段である。結果可視化手段１４は、文書数カウント手段１３がカウントした結果を時系列グラフなど、可視化して提示する手段である。

原文参照手段１５は、結果可視化手段１４でユーザがクリック操作等で指定した箇所、すなわち、時系列グラフでの特定の日時における原文一覧を参照するための手段である。

特開２０００−１７２６９１号公報特開２００１−８４２５０号公報「国語辞書の記憶と日本語文の自動分割」（長尾真ほか、情報処理、Ｖｏｌ．１９、Ｎｏ．６、１９７８年）「係り受け解析を用いた複合語の分割方法」（宮崎正弘、情報処理学会論文誌、Ｖｏｌ．２５、Ｎｏ．６、１９８４年）

第１の問題点は、グラフが急増／急減（バースト）した原因分析が重要だが、従来技術では原因追求が困難だったことである。例えば、人がその期間の記事原文を熟読することによる内容解釈が必要で作業時間を要した。
［発明の目的］
本発明の目的は、グラフが急増／急減（バースト）した原因分析を分かりやすくし、迅速かつ効率的に行えるＣＧＭ分析システムを提供することにある。

本発明のテキスト情報分析システム（ＣＧＭ分析システム）は、時間表現判定手段２１と、スケジュール情報作成手段２４と、スケジュール情報記憶手段２５と、特徴表現抽出手段２６とを備える。また、日時表現記憶手段２２と、日時計算手段２３と、を備えていてもよい。このような構成により、分析対象データ、または、それに関連するデータ（Ｗｅｂニュース等）から、キャンペーン、イベントなど実施日や事件の発生日等のスケジュール情報（日時表現や特徴表現）を自動抽出するよう動作する。このような構成を採用し、分析結果（グラフ）を表示する際に、バースト部分のスケジュール情報をユーザに提示することにより、本発明の目的を達成することができる。

第１の効果は、バースト部分と自動抽出したキャンペーン、イベント、事件等のスケジュール情報を参照できるようにすることで、バーストの原因分析が効率的に行える。

本発明の第１の実施の形態の構成を示すブロック図である。第１の実施の形態の動作を示す流れ図である。本発明の第２の実施の形態の構成を示すブロック図である。第１の発明を実施するための最良の形態の動作の具体例（原文例）を示す図である。第１の発明を実施するための最良の形態の動作の具体例（文章解析結果例）を示す図である。第１の発明を実施するための最良の形態の動作の具体例（スケジュール情報例）を示す図である。第１の発明を実施するための最良の形態の動作の第二の具体例（原文例）を示す図である。第１の発明を実施するための最良の形態の動作の第二の具体例（文章解析結果例）を示す図である。第１の発明を実施するための最良の形態の動作の第二の具体例（日時表現記憶手段の内容例）を示す図である。第１の発明を実施するための最良の形態の動作の第二の具体例（スケジュール情報例）を示す図である。システムの動作例を示す図である。従来装置の構成を示すブロック図である。

１０データ記憶手段
１１文章解析手段
１２文書分類手段
１３文書数カウント手段
１４結果可視化手段
１５原文参照手段
２１、２１ａ時間表現判定手段
２２日時表現記憶手段
２３日時計算手段
２４スケジュール情報作成手段
２５スケジュール情報記憶手段
２６特徴表現抽出手段
２７スケジュール情報表示手段

次に、発明を実施するための最良の形態について図面を参照して詳細に説明する。

（第１の実施の形態）
図１を参照すると、本発明の第１の実施の形態は、データ記憶手段１０と、文章解析手段１１と、文書分類手段１２と、文書数カウント手段１３と、結果可視化手段１４と、時間表現判定手段２１と、日時表現記憶手段２２と、日時計算手段２３と、スケジュール情報作成手段２４と、スケジュール情報記憶手段２５と、特徴表現抽出手段２６と、スケジュール情報表示手段２７とから構成されている。

データ記憶手段１０〜結果可視化手段１４の動作概略については、従来技術の説明で記載したとおりである。

これらの手段はそれぞれ概略つぎのように動作する。

時間表現判定手段２１は、文章解析手段１１の結果から時間表現を判定して抽出する。時間表現とは、「年」「月」「日」「時」「分」などの日時を表す単位を含む表現（日時表現）や、「昨日」「今年」「月曜日」「先週」「正午」などの時間を表現する固有の言葉（時間固有表現）のことである。日時表現は、直接的な日時を表し、時間固有表現は相対的な日時を表すとも考えられる。

日時表現は、文章解析手段１１の結果の品詞情報付き単語列から「１月１日」など「数詞＋時間表現」のパターンマッチにより判定できる。時間固有表現は、文章解析手段１１の単語辞書に、「昨日」「今年」「月曜日」「先週」「正午」などの単語を、時間固有表現を示す単語として予め登録しておくことで判定できる。

日時表現記憶手段２２は、データ記憶手段１０に含まれる文章データの時系列情報（文章作成日、記事投稿日などのタイムスタンプ情報）や時間表現判定手段２１が抽出した日時表現を記憶する。

日時計算手段２３は、「昨日」「先週月曜日」などの時間固有表現について、日時表現記憶手段２２が記憶するタイムスタンプ情報または日時表現に基づき、実際の日時表現に計算して置換する。例えば、記事の投稿日時が、「２００８年１月１日」の場合、「昨日」という時間表現を「２００７年１２月３１日」という実際の日時表現に置換する。「先週月曜日」という時間表現は、前週の月曜日である「２００７年１２月２４日」に置換する。

特徴表現抽出手段２６は、文章解析手段１１の結果から特徴表現を判定して抽出する。ここで、特徴表現とは、文章中で重要な単語（キーワード）であり、名詞（一般名詞、固有名詞）、動詞、形容詞など文章解析手段１１の結果として付与される品詞情報により選定（フィルタリング）する。あるいは、「発売」「発表」「開催」「実施中」のようなキャンペーンやイベントの開催を表す単語や「発覚」のような事件が起きたことを表す単語に着目して選定する。固有名詞とは、地名・組織名・人名・製品名などである。特徴表現抽出手段２６における固有名詞の判定は、文章解析手段１１の単語辞書に固有名詞を登録しておくか、組織名ならば、「ＡＡＡ株式会社」の「株式会社」、「ＢＢＢ機構」の「機構」、人名ならば「ＣＣＣ氏」の「氏」など、接辞語をもとにパターンマッチで実現する（「辞書およびパターンマッチルールの増強と品質強化に基づく日本語固有表現抽出」（竹元ほか、情報処理学会論文誌、Ｖｏｌ．４２、Ｎｏ．６、２００１年）参照）。

スケジュール情報作成手段２４は、時間表現判定手段２１の出力結果または日時計算手段２３の出力結果と、特徴表現抽出手段２６の出力結果とから、スケジュール情報を作成する。スケジュール情報とは、時間表現判定手段２１が判定した日時表現または日時計算手段２３が算出した日時表現と、特徴表現抽出手段２６が判定した１個以上の特徴表現とから成る、図４Ｃに示すような日時表現（年月日など）をインデックスとする表形式の情報である。同じ日時表現に対して、同じ特徴表現から成るスケジュール情報は、マージして件数情報を付与する。

スケジュール情報記憶手段２５は、スケジュール情報作成手段２４が作成した結果（スケジュール情報及び件数情報）を記憶する。

スケジュール情報表示手段２７は、ユーザが見たいスケジュール情報の日時を指定入力して表示する手段で、スケジュール情報記憶手段２５の内容を件数情報順、特徴表現の個数順などにソートして結果可視化手段１４で結果を表示する。

次に、図１及び図２のフローチャートを参照して本実施の形態の全体の動作について詳細に説明する。

まず、データ記憶手段１０にデータが存在する場合（図２のステップＡ１）、文章解析手段１１は、データ記憶手段１０から文章データを１文読み込み、文章解析を実行する（ステップＡ２）。ここでは、文章データを１文毎に処理する例を記載するが、文章データの処理単位は、これに限らず、段落単位、記事単位などの場合もある。

時間表現判定手段２１は、文章解析結果の中に、時間表現が存在する場合（ステップＡ３）、時間表現を抽出する（ステップＡ４）。時間表現判定手段２１は、ステップＡ４で抽出した時間表現が日時表現かどうかを判定する（ステップＡ５）。具体的には、時間表現判定手段２１は、時間表現として日時表現と時間固有表現とを抽出する。日時表現である場合、時間表現判定手段２１は、日時情報記憶手段２２に日時表現を格納する（ステップＡ８）。またこのとき、時間表現判定手段２１は、文章作成日、記事投稿日などのタイムスタンプ情報（文章データの時系列情報）を検出し、日時情報記憶手段２２に格納する。

ステップＡ４で抽出した時間表現が日時表現でない場合（すなわち、時間固有表現である場合）、まず、日時計算手段２３は、日時表現記憶手段２２に格納されている日時表現を取得する（ステップＡ６）。日時表現の取得方法は、日時表現記憶手段２２内の記事の投稿日時などのタイムスタンプ情報を取得する、日時表現記憶手段２２に最も新しく登録されたものを取得する（つまり、時間固有表現の最も近くに出現した日時表現をもとに日時計算を行う）など、予めルールを決めておく。次に、日時計算手段２３は、ステップＡ４で抽出した時間固有表現について、ステップＡ６で取得した日時表現をもとに日時計算を行い、日時表現への置換を行う（ステップＡ７）。

続いて、特徴表現抽出手段２６は、特徴表現を抽出し、スケジュール作成手段２４は、スケジュール情報を作成する（ステップＡ９）。

ステップＡ１０では、ステップＡ９において作成したスケジュール情報（日時表現と特徴表現の組）が、作成済みのスケジュール情報に存在するかを判定する。既に同一のスケジュール情報が存在する場合、既存のスケジュール情報の件数情報を＋１加算する（ステップＡ１１）。既存レコードが存在しない場合、新規スケジュール情報としてスケジュール情報に追加する（ステップＡ１２）。

ステップＡ１で次の文章データが存在しなくなるまで、上記フローを繰り返す。その結果、作成されたスケジュール情報及び件数情報をスケジュール情報記憶手段２５に格納しておく。スケジュール情報表示手段２７で指定した日時についてのスケジュール情報を結果可視化手段１４で表示する。

（第２の実施の形態）
図３は、第２の実施の形態の構成を示すブロック図である。図２のテキスト情報分析システムは、図１の構成のうち、日時表現記憶手段２２と日時計算手段２３とを除いた構成である。また。時間表現判定手段２１ａは、時間表現として日時表現を判定して抽出する。本実施の形態では、時間表現判定手段２１ａは、時間固有表現の判定及び抽出を実施しない。あるいは、時間表現判定手段２１ａは、時間固有表現を判定して抽出してもよい。この場合、時間表現判定手段２１ａは、自己のメモリ内に予め時間固有表現を保持し、これに基づいて時間固有表現を判定する。また、スケジュール情報へは、タイムスタンプと時間固有表現とを組み合わせて表示してもよい。他の構成要素は図１と同様であるため説明を省略する。

本実施の形態のテキスト情報解析システムは、図２に示したフローチャートの動作のうち、ステップＡ４の次に、ステップＡ８を実施する。ステップ５からＡ７を行わない。その他の動作は図２と同様であるため、説明を省略する。

（その他の実施の形態）
図１または図３に示すテキスト情報解析システムの各構成要素が実現する機能はプログラムによって実現することが可能である。プログラムは、コンピュータ読み取り可能な記録媒体に記録することができる。プログラムは、コンピュータのメモリにロードされ、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）の制御のもとで実行される。

次に、本実施の形態の効果について説明する。

本実施の形態では、文章データからスケジュール情報を自動的に作成するというように構成されているため、ユーザがこれを参照することで、グラフの急変部分と、未知のキャンペーン、イベント、事件等との関係を効率的に分析することができる。

また、従来は、既知のイベント情報やキャンペーン情報など、想定内の事象しか把握できないことである。バーストの理由が分からないケースが多かった。それはユーザが未知の事象が原因になっている場合があった。

これについて、本発明の実施の形態の一態様では、未知のイベント情報や事件など、想定外の事象を把握できるＣＧＭ分析システムを提供する。

従って、未知だったキャンペーン、イベント、事件等とのマッチングも可能となり、想定外の原因を発見できる（例えば、「不正事件」があってバーストしたが、その原因を分析者が知らなかった時など）。逆に、未知のキャンペーン、イベント、事件等について、話題急増の原因にはなっていない、すなわちキャンペーン効果、事件の影響がなかったことも把握できる。

図４は、第１の発明を実施するための最良の形態の動作の具体例を示す図である。

図４Ａは原文例、図４Ｂは文章解析結果の例を示している。

「ＡＡＡ株式会社は、２００８年１月１日、携帯電話の新機種ＺＺＺを発売した。」という、データ記憶手段１０内に格納された文章データに対して、文章解析手段１１は、「ＡＡＡ（未登録語）/株式会社（会社名接辞）/は（助詞）/、/２００８（数詞）/年（時間表現）/１（数詞）/月（時間単位）/１（数詞）/日（時間単位）/、（読点）/携帯電話（名詞）/の（助詞）/新機種（名詞）/ＺＺＺ（未登録語）/を（助詞）/発売（動詞）/し（サ変）/た（助動詞）/。（句点）/」という文章解析結果を出力する。

この例では、文章解析結果中に、「/２００８（数詞）/年（時間単位）/」「/１（数詞）/月（時間単位）」「/１（数詞）/日（時間単位）/」のように、「数字＋時間単位」のパターンが存在するので、時間表現判定手段２１は、「２００８年１月１日」を日時表現として判定し、抽出する。

特徴表現抽出手段２６は、「ＡＡＡ（未登録語）」「株式会社（会社名接辞）」「携帯電話（名詞）」「新機種（名詞）」「ＺＺＺ（未登録語）」「発売（動詞）」のように、名詞や動詞、未登録語などを文章解析結果から抽出する。未登録語とは、文法解析手段１１の単語辞書に登録されていない単語であり、携帯電話の機種名「ＺＺＺ」のように新しい固有名詞である可能性が高い。そこで、未登録語も特徴表現として抽出している。また、特徴表現抽出手段２６は、「ＡＡＡ（未知語）」「株式会社（会社名接辞）」のように、「未登録語＋会社名接辞」のパターンを会社名（組織名）として判定し、抽出する。

そして、スケジュール情報作成手段２４は、図４Ｃのような表形式のスケジュール情報を作成する。

図５は、第１の発明を実施するための最良の形態の動作の第２の具体例を示す図である。

図５Ａは原文例、図５Ｂは文章解析結果の例を示している。

図５Ｂで、文章解析の結果、「昨日」という単語は、時間固有表現であると判定されているので、日時計算手段２３は、日時表現記憶手段２２の内容から日時表現を計算する。

図５Ｃは、日時表現記憶手段２２の内容例である。「文章ＩＤ」「日時」「種別」から成る。「文章ＩＤ」は、文章をユニークに識別する識別子、「日時」は、その文章ＩＤに対する日時の情報、「種別」はその日時情報のソース元情報である。データ記憶手段１０に付与されていたタイムスタンプ情報なら「タイムスタンプ」、本発明による判定情報なら「日時表現」という情報が付与されている。

この例では、「取得判定用情報」に「タイムスタンプ」があるので、この日時表現「２００８年１月２日」をもとに、「昨日」の日時を計算し、「２００８年１月１日」となる。その結果、図５Ｄのようなスケジュール情報が作成される。日時表現記憶手段２２に最も新しく登録されたものを取得するというルールであっても、同様の処理となる。

図６は、結果可視化手段１４で時系列グラフを表示し、グラフの注目点についてクリック操作を行うと、その日時のスケジュール情報が提示されるというシステムの動作例を示している。

以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態及び実施例に限定されるものではない。本願発明の構成や詳細には本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

この出願は、２００８年２月１５日に出願された日本出願特願２００８―０３４３８５を基礎とする優先権を主張し、その開示のすべてをここに取り込む。

本発明によれば、インターネットで公開されているブログ、ＳＮＳ（ＳｏｃｉａｌＮｅｔｗｏｒｋｉｎｇＳｅｒｖｉｃｅ）などインターネットへの書き込み情報（ＣｏｎｓｕｍｅｒＧｅｎｅｒａｔｅｄＭｅｄｉａ）を分析し、キャンペーン効果測定、マーケティング調査、ブランド調査のための分析結果やレポートを提供する分析サービスを実現するシステムに適用できる。

本発明は、インターネットで公開されているものに限らず、時系列情報を含む文章データの分析（テキストマイニング技術を活用した分析サービス）といった用途にも適用可能である。

Claims

分析対象となるデータを記憶するデータ記憶手段と、
前記データ記憶手段の中で、文章データを対象に文章解析を行う文章解析手段と、
前記文章解析手段の結果の中に、分析したいキーワードが存在する記事を分類する文書分類手段と、
前記文書分類手段で分類した記事の数をカウントする文書数カウント手段と、
前記文書数カウント手段がカウントした結果を時系列グラフなどに可視化して提示する結果可視化手段と、
前記文章解析手段の結果から、日時表現または時間固有表現を判定して抽出する時間表現判定手段と、
前記文章解析手段の結果から特徴表現を判定して抽出する特徴表現抽出手段と、
前記時間表現判定手段の出力結果と前記特徴表現抽出手段の出力結果とからスケジュール情報を作成するスケジュール情報作成手段と、
前記スケジュール情報作成手段が作成した結果を記憶するスケジュール情報記憶手段と、
前記スケジュール情報記憶手段から、ユーザが指定入力した日時のスケジュール情報を表示するスケジュール情報表示手段と
を備えたことを特徴とするテキスト情報分析システム。
前記データ記憶手段に含まれる文章データの文章作成日または記事投稿日などのタイムスタンプ情報、または、前記時間表現判定手段が抽出した日時表現を記憶する日時表現記憶手段と、
前記時間表現判定手段が抽出した時間固有表現について、前記日時表現記憶手段が記憶するタイムスタンプ情報または日時表現に基づき、実際の日時表現に計算して置換する日時計算手段と、をさらに備えたことを特徴とする請求項１記載のテキスト情報分析システム。
前記時間固有表現は、相対的な日時を表す言葉であり、
前記日時計算手段は、前記データ記憶手段に含まれる文章データの文章作成日または記事投稿日などのタイムスタンプ情報を用いて、前記時間固有表現を直截的な日時を表す表現に置換することを特徴とする請求項２記載のテキスト情報分析システム。
分析対象となるデータを記憶するデータ記憶手段と、
前記データ記憶手段の中で、文章データを対象に文章解析を行う文章解析手段と、
前記文章解析手段の結果の中に、分析したいキーワードが存在する記事を分類する文書分類手段と、
前記文書分類手段で分類した記事の数をカウントする文書数カウント手段と、
前記文書数カウント手段がカウントした結果を時系列グラフなどに可視化して提示する結果可視化手段と、
前記文章解析手段の結果から、日時表現または時間固有表現を判定して抽出する時間表現判定手段と、
前記データ記憶手段に含まれる文章データの文章作成日または記事投稿日などのタイムスタンプ情報、または、前記時間表現判定手段が抽出した日時表現を記憶する日時表現記憶手段と、
前記時間表現判定手段が抽出した時間固有表現について、前記日時表現記憶手段が記憶するタイムスタンプ情報または日時表現に基づき、実際の日時表現に計算して置換する日時計算手段と、
前記文章解析手段の結果から特徴表現を判定して抽出する特徴表現抽出手段と、
前記時間表現判定手段の出力結果または前記日時計算手段の出力結果と、前記特徴表現抽出手段の出力結果とからスケジュール情報を作成するスケジュール情報作成手段と、
前記スケジュール情報作成手段が作成した結果を記憶するスケジュール情報記憶手段と、
前記スケジュール情報記憶手段から、ユーザが指定入力した日時のスケジュール情報を表示するスケジュール情報表示手段と
を備えたことを特徴とするテキスト情報分析システム。
分析対象となるデータを記憶する工程と、
前記記憶した文章データを対象に文章解析を行う工程と、
前記文章解析の結果の中に、分析したいキーワードが存在する記事を分類する工程と、
前記分類した記事の数をカウントする工程と、
前記カウントした結果を時系列グラフなどに可視化して提示する工程と、
前記文章解析の結果から、日時表現または時間固有表現を判定して抽出する工程と、
前記文章解析の結果から特徴表現を判定して抽出する工程と、
前記日時表現または時間固有表現を判定して抽出した結果と前記特徴表現を判定して抽出した結果とからスケジュール情報を作成する工程と、
前記作成したスケジュール情報を記憶する工程と、
前記記憶したスケジュール情報の中から、ユーザが指定入力した日時のスケジュール情報を表示する工程と
を備えたことを特徴とするテキスト情報分析方法。
前記記憶した文章データの文章作成日または記事投稿日などのタイムスタンプ情報、または、前記日時表現または時間固有表現を判定して抽出した日時表現を記憶する工程と、
前記日時表現または時間固有表現を判定して抽出した時間固有表現について、前記記憶したタイムスタンプ情報または日時表現に基づき、実際の日時表現に計算して置換する工程と、をさらに備えたことを特徴とする請求項５記載のテキスト情報分析方法。
分析対象となるデータを記憶する工程と、
前記記憶した文章データを対象に文章解析を行う工程と、
前記文章解析の結果の中に、分析したいキーワードが存在する記事を分類する工程と、
前記分類した記事の数をカウントする工程と、
前記カウントした結果を時系列グラフなどに可視化して提示する工程と、
前記文章解析の結果から、日時表現または時間固有表現を判定して抽出する工程と、
前記記憶した文章データの文章作成日または記事投稿日などのタイムスタンプ情報、または、前記日時表現または時間固有表現を判定して抽出した日時表現を記憶する工程と、
前記日時表現または時間固有表現を判定して抽出した時間固有表現について、前記記憶したタイムスタンプ情報または日時表現に基づき、実際の日時表現に計算して置換する工程と、
前記文章解析の結果から特徴表現を判定して抽出する工程と、
前記日時表現または時間固有表現を判定して抽出した結果または前記実際の日時表現に計算して置換した結果と、前記特徴表現を判定して抽出した結果とからスケジュール情報を作成する工程と、
前記作成したスケジュール情報を記憶する工程と、
前記記憶したスケジュール情報から、ユーザが指定入力した日時のスケジュール情報を表示する工程と
を備えたことを特徴とするテキスト情報分析方法。
コンピュータを動作させるテキスト情報分析プログラムを格納する記録媒体であって、
前記コンピュータに、
分析対象となるデータをデータ記憶手段に記憶する手順と、
前記データ記憶手段の中で、文章データを対象に文章解析を行う文章解析手順と、
前記文章解析手順の結果の中に、分析したいキーワードが存在する記事を分類する文書分類手順と、
前記文書分類手順で分類した記事の数をカウントする文書数カウント手順と、
前記文書数カウント手順がカウントした結果を時系列グラフなどに可視化して提示する結果可視化手順と、
前記文章解析手順の結果から、日時表現または時間固有表現を判定して抽出する時間表現判定手順と、
前記文章解析手順の結果から特徴表現を判定して抽出する特徴表現抽出手順と、
前記時間表現判定手順の出力結果と前記特徴表現抽出手順の出力結果とからスケジュール情報を作成するスケジュール情報作成手順と、
前記スケジュール情報作成手順が作成した結果をスケジュール情報記憶手段に記憶するスケジュール情報記憶手順と、
前記スケジュール情報記憶手段から、ユーザが指定入力した日時のスケジュール情報を表示するスケジュール情報表示手順と
を実行させる情報分析プログラムを格納する記録媒体。
前記データ記憶手段に含まれる文章データの文章作成日または記事投稿日などのタイムスタンプ情報、または、前記時間表現判定手順が抽出した日時表現を記憶する日時表現記憶手順と、
前記時間表現判定手順が抽出した時間固有表現について、前記日時表現記憶手順が記憶するタイムスタンプ情報または日時表現に基づき、実際の日時表現に計算して置換する日時計算手順と、
をさらに備えたことを特徴とする請求項７記載のテキスト情報分析プログラムを格納する記録媒体。
コンピュータを動作させるテキスト情報分析プログラムを格納する記録媒体であって、
前記コンピュータに、
分析対象となるデータをデータ記憶手段に記憶する手順と、
前記データ記憶手段の中で、文章データを対象に文章解析を行う文章解析手順と、
前記文章解析手順の結果の中に、分析したいキーワードが存在する記事を分類する文書分類手順と、
前記文書分類手順で分類した記事の数をカウントする文書数カウント手順と、
前記文書数カウント手順がカウントした結果を時系列グラフなどに可視化して提示する結果可視化手順と、
前記文章解析手順の結果から、日時表現または時間固有表現を判定して抽出する時間表現判定手順と、
前記データ記憶手順に含まれる文章データの文章作成日または記事投稿日などのタイムスタンプ情報、または、前記時間表現判定手順が抽出した日時表現を記憶する日時表現記憶手順と、
前記時間表現判定手順が抽出した時間固有表現について、前記日時表現記憶手段が記憶するタイムスタンプ情報または日時表現に基づき、実際の日時表現に計算して置換する日時計算手順と、
前記文章解析手段の結果から特徴表現を判定して抽出する特徴表現抽出手順と、
前記時間表現判定手順の出力結果または前記日時計算手順の出力結果と、前記特徴表現抽出手順の出力結果とからスケジュール情報を作成するスケジュール情報作成手順と、
前記スケジュール情報作成手順が作成した結果をスケジュール情報記憶手段に記憶するスケジュール情報記憶手順と、
前記スケジュール情報記憶手段から、ユーザが指定入力した日時のスケジュール情報を表示するスケジュール情報表示手順と
を実行させるテキスト情報分析プログラムを格納する記録媒体。