WO2015182559A1

WO2015182559A1 - 情報分析システム、情報分析方法及び情報分析プログラム

Info

Publication number: WO2015182559A1
Application number: PCT/JP2015/064939
Authority: WO
Inventors: 慎吾折原; 充敏熊谷; 哲哉安部
Original assignee: 日本電信電話株式会社
Priority date: 2014-05-29
Filing date: 2015-05-25
Publication date: 2015-12-03
Also published as: EP3136260A1; CN106462614A; JPWO2015182559A1; US20170185578A1; US9940319B2; CN106462614B; JP6154072B2; EP3136260A4

Abstract

　情報分析システム（１００）は、発言分析部（１３２Ｂ）と、スレッド分析部（１３２Ｃ）と、格納部（１３３）とを備える。発言分析部（１３２Ｂ）は、ネットワーク上に投稿された発言の集合であるスレッドについて、当該スレッドに含まれる発言の重要度を、当該発言に関するデータである発言データに基づいて、当該発言ごとに分析する。スレッド分析部（１３２Ｃ）は、前記スレッドが、予め設定された複数のカテゴリのいずれに属するかを、当該スレッドに関するデータであるスレッドデータに基づいて分析する。格納部（１３３）は、前記発言ごとに、当該発言と、当該発言の重要度と、当該発言が含まれるスレッドのカテゴリとを対応づけて所定の記憶部に格納する。

Description

情報分析システム、情報分析方法及び情報分析プログラム

　本発明の実施形態は、情報分析システム、情報分析方法及び情報分析プログラムに関する。

　近年、情報処理技術の高速化及び低コスト化や、インターネット技術等のネットワーク技術の普及等に伴って、ネットワーク上に膨大な量の情報（電子データ）が蓄積されている。例えば、インターネット上の掲示板（電子掲示板）には、利用者によって投稿された発言が時系列順にまとめられている。

　ここで、利用者が所望の情報を得るために、各種情報を推薦する情報推薦技術が提案されている。例えば、掲示板から特徴ベクトルを生成して特徴を分析する技術がある。この技術では、例えば、利用者によってキーワードが入力されると、入力されたキーワードに対応する特徴を有する掲示板が利用者に提示される。

特開２０１０－２３１４７１号公報

　しかしながら、従来の技術では、ネットワーク上に投稿された情報から有益な発言を分析することが難しいという問題があった。例えば、掲示板から特徴ベクトルを生成して特徴を分析する技術では、掲示板に意味の無い発言が多く含まれる場合に、有益な発言が意味の無い発言に埋もれてしまっていた。

　そこで、この発明は、ネットワーク上に投稿された情報から有益な発言を分析することを目的とする。

　実施形態に係る情報分析システムは、発言分析部と、スレッド分析部と、格納部とを備える。発言分析部は、ネットワーク上に投稿された発言の集合であるスレッドについて、当該スレッドに含まれる発言の重要度を、当該発言に関するデータである発言データに基づいて、当該発言ごとに分析する。スレッド分析部は、前記スレッドが、予め設定された複数のカテゴリのいずれに属するかを、当該スレッドに関するデータであるスレッドデータに基づいて分析する。格納部は、前記発言ごとに、当該発言と、当該発言の重要度と、当該発言が含まれるスレッドのカテゴリとを対応づけて所定の記憶部に格納する。

　本願の開示する技術の一つの態様によれば、ネットワーク上に投稿された情報から有益な発言を分析することができるという効果を奏する。

図１は、第１の実施形態に係る情報分析システムの構成の一例を示す図である。図２は、第１の実施形態に係るスレッドデータ記憶部に記憶されるスレッドデータの一例を示す図である。図３は、第１の実施形態に係る情報分析システムにおける処理の流れを示すフローチャートである。図４は、第１の実施形態による効果を説明するための図である。図５は、第２の実施形態に係る情報分析システムにおける処理の流れを示すフローチャートである。図６は、第２の実施形態による効果を説明するための図である。図７は、第３の実施形態に係る情報分析システムにおける処理の流れを示すフローチャートである。図８は、第３の実施形態による効果を説明するための図である。図９は、情報分析プログラムを実行するコンピュータを示す図である。

　以下に添付図面を参照して、この発明に係る情報分析システム、情報分析方法及び情報分析プログラムの実施形態を詳細に説明する。なお、以下の実施形態により本発明が限定されるものではない。

［第１の実施形態］
　以下の実施形態では、第１の実施形態に係る情報分析システムの構成、情報分析システムにおける処理の流れを順に説明し、最後に第１の実施形態による効果を説明する。

［情報分析システムの構成］
　図１は、第１の実施形態に係る情報分析システム１００の構成の一例を示す図である。図１に示すように、情報分析システム１００は、通信処理部１１０、記憶部１２０、機能部１３０、及び制御部１４０を有する。また、情報分析システム１００は、インターネットに接続されている。

　通信処理部１１０は、ネットワーク上における装置との間でやり取りされ各種情報に関する通信を制御する。例えば、通信処理部１１０は、後述の収集部１３１の制御によりインターネット上の各種電子掲示板（ＢＢＳ（Bulletin　Board　System））サイトにアクセスする。

　記憶部１２０は、図１に示すように、スレッドデータ記憶部１２１及び分析結果記憶部１２２を有する。記憶部１２０は、例えば、ＲＡＭ（Random　Access　Memory）、フラッシュメモリ（Flash　Memory）等の半導体メモリ素子、又は、ハードディスク、光ディスク等の記憶装置などである。

　スレッドデータ記憶部１２１は、インターネット上のＢＢＳサイトから収集されたスレッドデータを記憶する。ここで、スレッドデータは、ネットワーク上に投稿された発言の集合であるスレッドに関するデータである。例えば、スレッドデータ記憶部１２１は、収集部１３１によって収集されたスレッドデータを記憶する。また、例えば、スレッドデータ記憶部１２１は、分析部１３２によって参照される。

　図２は、第１の実施形態に係るスレッドデータ記憶部１２１に記憶されるスレッドデータの一例を示す図である。図２に示すように、例えば、スレッドデータ記憶部１２１に記憶されるスレッドデータ１０は、タイトル１１、発言１２、及び発言１３を含む。ここで、タイトル１１は、スレッドのタイトルである。また、発言１２，１３は、ＢＢＳの利用者によって投稿された発言である。発言１２，１３は、発言順序、発言者名、発言日時、及び発言内容を含む。図２に示す例では、発言１２の発言順序が「１」であり、発言者名が「Ａ１」であり、発言日時が「Ａ２」であり、発言内容が「Ａ３」である場合を示す。

　分析結果記憶部１２２は、分析結果を記憶する。例えば、分析結果記憶部１２２は、後述の分析部１３２によって分析された分析結果を記憶する。分析結果記憶部１２２に記憶される分析結果は、例えば、後述の格納部１３３によって格納される。また、分析結果記憶部１２２に記憶される分析結果は、利用者の要求に応じて出力される。

　図１の説明に戻る。機能部１３０は、収集部１３１、分析部１３２、及び格納部１３３を有する。ここで、機能部１３０は、各処理を受け持つところであり、実際にはソフトウェア（の１コンポーネント）またはミドルウェアとして実現される。また、制御部１４０は、通信処理部１１０、記憶部１２０、及び機能部１３０の動作を制御し、情報分析システム１００の動作を司るもので、実際にはＣＰＵ（Central　Processing　Unit）やＭＰＵ（Micro　Processing　Unit）等の集積回路等で実現される。

　収集部１３１は、ネットワーク上に投稿された情報からスレッドデータを収集する。例えば、収集部１３１は、インターネット上のＢＢＳサイトを巡回し、ＢＢＳサイトからスレッドデータを収集する。そして、収集部１３１は、収集したスレッドデータをスレッドデータ記憶部１２１に格納する。

　なお、収集部１３１は、ＨＴＭＬ（HyperText　Markup　Language）タグやスクリプト、広告等の文字情報以外の情報がスレッドに含まれる場合には、それらの情報を取り除いた上でスレッドデータ記憶部１２１に格納する。また、収集部１３１によって巡回される巡回対象のサイトは、予めＵＲＬ（Uniform　Resource　Locator）等のリストとして指定されていても良いし、収集するごとに指定されても良い。

　分析部１３２は、収集部１３１によって収集されたスレッドデータを分析する。図１に示すように、分析部１３２は、発言切り出し部１３２Ａ、発言分析部１３２Ｂ、及びスレッド分析部１３２Ｃを有する。

　発言切り出し部１３２Ａは、スレッドデータに含まれる発言をスレッドデータから切り出し、発言に関するデータである発言データを生成する。ここで、発言データとは、例えば、「発言順序」、「発言者名」、「発言日時」、「発言内容」、及び「付加情報」が対応づけられたデータである。「発言順序」、「発言者名」、「発言日時」、及び「発言内容」は、スレッドデータから対応する箇所が抜き出されたデータである。また、「付加情報」は、「文字数」、「返信フラグ」、及び「返信数」が対応づけられたデータである。「文字数」は、発言内容の文字数に対応する。「返信フラグ」は、該当する発言が別の発言への返信であるか否かを表すフラグである。例えば、該当する発言の発言内容が「＞（数字）」から始まる場合には、その発言が返信であることを示す返信フラグ「１」が付与される。一方、「＞（数字）」から始まらない場合には、その発言が返信ではないことを示す返信フラグ「０」が付与される。なお、（数字）は、返信対象の発言順序を表す。「返信数」は、該当する発言への返信の数を表す。例えば、発言内容が「＞（数字）」から始まる発言の数が、その数字の発言番号の返信数に対応する。

　例えば、発言切り出し部１３２Ａは、スレッドデータ記憶部１２１に記憶されたスレッドデータを取得する。そして、発言切り出し部１３２Ａは、取得したスレッドデータに含まれる発言をそれぞれ切り出し、発言データをそれぞれ生成する。発言切り出し部１３２Ａは、生成したそれぞれの発言データを発言分析部１３２Ｂに送る。また、発言切り出し部１３２Ａは、取得したスレッドデータをスレッド分析部１３２Ｃに送る。

　一例として、発言切り出し部１３２Ａが図２に示すスレッドデータ１０を取得した場合を説明する。発言切り出し部１３２Ａは、スレッドデータ１０から発言１２の発言順序「１」、発言者名「Ａ１」、発言日時「Ａ２」、及び発言内容「Ａ３」を切り出す。そして、発言切り出し部１３２Ａは、発言内容「Ａ３」の文字数「Ａ４」を計数する。また、発言切り出し部１３２Ａは、発言内容「Ａ３」が「＞（数字）」から始まるか否かに応じて、返信フラグ「Ａ５（Ａ５は１又は０）」を生成する。また、発言切り出し部１３２Ａは、スレッドデータ１０に含まれる発言のうち、「＞１」から始まる発言の数「Ａ６」を計数する。この結果、発言切り出し部１３２Ａは、発言順序「１」、発言者名「Ａ１」、発言日時「Ａ２」、発言内容「Ａ３」、文字数「Ａ４」、返信フラグ「Ａ５」、及び返信数「Ａ６」が対応づけられたデータを、発言１２の発言データとして生成する。このように、発言切り出し部１３２Ａは、スレッドデータ１０に含まれる全ての発言について、発言データを生成する。

　発言分析部１３２Ｂは、スレッドに含まれる発言の重要度を、発言データに基づいて、発言ごとに分析する。例えば、発言分析部１３２Ｂは、発言データから発言の重要度（スコア）を算出するための機械学習エンジンを用いて、発言切り出し部１３２Ａによって生成された発言データから発言の重要度を分析する。そして、発言分析部１３２Ｂは、分析結果として、発言の重要度を格納部１３３に送る。なお、この場合、機械学習エンジンには、重要な発言の特徴ベクトルと重要でない発言の特徴ベクトルとを予め学習させておく。学習させる方法としては、例えば、代表的なＢＢＳサイトからいくつかのスレッドを選択し、スレッドに含まれる発言を重要な発言と重要でない発言とに人手で分類して学習させる方法が挙げられる。

　具体的には、発言分析部１３２Ｂは、発言データを機械学習エンジンにかけるために、各発言データを特徴ベクトルにそれぞれ変換する。ここで、発言分析部１３２Ｂは、例えば、発言データのうち、数値データと文字列データとをそれぞれ個別に変換する。例えば、発言分析部１３２Ｂは、発言データのうち、発言順序、発言日時、文字数、返信フラグ、及び返信数等の数値データを、そのまま特徴ベクトルの値とする。なお、これに限らず、発言分析部１３２Ｂは、数値データに対して何らかの数値演算処理を施して、特徴ベクトルの値としても良い。

　また、発言分析部１３２Ｂは、発言者名及び発言内容等の文字列データに対しては、形態素解析、ｎ－ｇｒａｍ、若しくは区切り文字を用いて、特徴ベクトルに変換する。例えば、発言分析部１３２Ｂは、形態素解析を用いた場合には、文字列データを品詞によって分割し、それらを特徴ベクトルへ変換する。このような形態素解析には、例えばオープンソースのＭｅｃａｂ等のライブラリを利用することができる。例えば、発言分析部１３２Ｂは、文字列データが「Ｔｗｉｔｔｅｒ（登録商標）の使い方が、まだ、よくわからん。」である場合には、形態素解析を用いて、「Ｔｗｉｔｔｅｒ／の／使い方／が／、／まだ／、／よく／わから／ん／。」と分割する。

　また、発言分析部１３２Ｂは、ｎ－ｇｒａｍを用いた場合には、文字列データを先頭から１文字ずつずらしながらｎ文字の組を作り、それらを特徴ベクトルへ変換する。例えば、発言分析部１３２Ｂは、文字列データが「Ｔｗｉｔｔｅｒの使い方が、まだ、よくわからん。」である場合には、ｎ－ｇｒａｍ（ｎ＝３）を用いて、「Ｔｗｉ／ｗｉｔ／ｉｔｔ／ｔｔｅ／ｔｅｒ／ｅｒの／ｒの使／の使い／・・・」と分割する。

　また、発言分析部１３２Ｂは、区切り文字を用いた場合には、文字列データを別途定めた区切り文字（空白やカンマ”,”など）によって分割し、それらを特徴ベクトルへ変換する。例えば、発言分析部１３２Ｂは、文字列データが「Ｔｗｉｔｔｅｒの使い方が、まだ、よくわからん。」であり、区切り文字が句読点“、”である場合には、区切り文字を用いて、「Ｔｗｉｔｔｅｒの使い方が／まだ／よくわからん。」と分割する。なお、一般に、形態素解析は日本語の文章に、空白区切りは英語に適用されることが多い。

　そして、発言分析部１３２Ｂは、このようにして要素に分割された文字列データを特徴ベクトルに変換する。特徴ベクトルの変換手法としては、例えば、各要素の出現回数をそのまま特徴ベクトルとする方式、回数によらず出現するか否かを１又は０に対応させる方式等がある。これらは使用する機械学習エンジンのライブラリが対応する手法であれば、どのようなものを用いても構わない。

　そして、発言分析部１３２Ｂは、各発言データから変換した各特徴ベクトルを、機械学習エンジンに与え、各発言の重要度を算出する。ここで使用する機械学習エンジンは種類を問わないが、例えば、オープンソースのＪｕｂａｔｕｓ（登録商標）等を用いることができる。そして、発言分析部１３２Ｂは、各発言データに対して、機械学習エンジンで算出された各発言の重要度を付与し、発言データと発言の重要度とをそれぞれ合わせて格納部１３３に送る。

　なお、上述した発言分析部１３２Ｂの処理はあくまで一例に過ぎない。例えば、発言分析部１３２Ｂは、機械学習エンジンによる分析の精度を向上させるために、入力される各発言データに対して、不要文字の除去、文字種の統一、及び特定グループの単語の置き換え等の前処理を行っても良い。具体的には、発言分析部１３２Ｂは、不要文字の除去として、例えば、文字列データに対して、余計な空白や言語処理の障害となるＵＲＬ等の削除を行う。また、例えば、発言分析部１３２Ｂは、文字種の統一として、文字列データに使用されている文字について、英大文字小文字やいわゆる半角全角の統一を行う。また、例えば、発言分析部１３２Ｂは、特定グループの単語の置き換えとして、ガラケー、スマホ、スマートフォン、及びケータイという単語を携帯電話という単語に置き換える。また、例えば、特徴ベクトルの基となる文字列データは、発言内容のみを用いても良いし、“発言者と発言内容”のように、いくつかの要素を連結した文字列データを用いても良い。

　スレッド分析部１３２Ｃは、スレッドが、予め設定された複数のカテゴリのいずれに属するかを、スレッドデータに基づいて分析する。例えば、スレッド分析部１３２Ｃは、スレッドデータからスレッドのカテゴリを分析するための機械学習エンジンを用いて、発言切り出し部１３２Ａから受け付けたスレッドデータからスレッドが属するカテゴリを分析する。そして、スレッド分析部１３２Ｃは、分析結果として、スレッドが属するカテゴリを格納部１３３に送る。なお、この場合、機械学習エンジンには、いくつかのスレッドとそのカテゴリを予め学習させておく。学習させる方法としては、例えば、代表的なＢＢＳサイトからいくつかのスレッドを選択し、スレッドが属するカテゴリを人手で入力して学習させる方法が挙げられる。

　具体的には、スレッド分析部１３２Ｃは、スレッドデータを機械学習エンジンにかけるために、スレッドデータを特徴ベクトルに変換する。ここで、スレッド分析部１３２Ｃは、例えば、スレッドデータに含まれる文字列データ、例えば、タイトルと、各発言の発言内容とを連結した文字列データに対して、形態素解析、ｎ－ｇｒａｍ、若しくは区切り文字を用いて、特徴ベクトルに変換する。なお、形態素解析、ｎ－ｇｒａｍ、及び区切り文字を用いて特徴ベクトルに変換する処理の説明は、上述した説明と同様であるので省略する。

　そして、スレッド分析部１３２Ｃは、スレッドデータから変換した特徴ベクトルを機械学習エンジンに与え、スレッドが属するカテゴリを決定する。ここで使用する機械学習エンジンは種類を問わないが、例えば、オープンソースのＪｕｂａｔｕｓ等を用いることができる。そして、スレッド分析部１３２Ｃは、機械学習エンジンで決定されたスレッドのカテゴリを格納部１３３に送る。

　なお、上述したスレッド分析部１３２Ｃの処理はあくまで一例に過ぎない。例えば、スレッド分析部１３２Ｃは、機械学習エンジンによる分析の精度を向上させるために、入力される各発言データに対して、不要文字の除去、文字種の統一、及び特定グループの単語の置き換え等の前処理を行っても良い。また、例えば、スレッド分析部１３２Ｃは、特徴ベクトルの基となる文字列データとして、タイトルと各発言の発言内容以外にも、発言者等の他の要素を組み合わせて用いても良い。また、スレッド分析部１３２Ｃは、文字列データに限らず、発言数等の数値データを用いて特徴ベクトルを求めても良い。

　格納部１３３は、発言ごとに、当該発言と、発言の重要度と、発言が含まれるスレッドのカテゴリとを対応づけて分析結果記憶部１２２に格納する。例えば、格納部１３３は、発言ごとに、発言データ及びその重要度を発言分析部１３２Ｂから受け付ける。また、格納部１３３は、スレッドが属するカテゴリをスレッド分析部１３２Ｃから受け付ける。そして、格納部１３３は、発言分析部１３２Ｂから受け付けた発言データ及びその重要度の組に、スレッド分析部１３２Ｃから受け付けたスレッドのカテゴリを発言のカテゴリとして付与し、分析結果記憶部１２２に格納する。

　なお、格納部１３３によって分析結果記憶部１２２に格納された情報は、例えば、「カテゴリ」をキーとして検索されて、「重要度」のスコア順にソートされて利用者に提示される。また、特定のスコア（重要度）以上のデータのみが提示されるようにしても良い。

［情報分析システムによる処理］
　図３は、第１の実施形態に係る情報分析システムにおける処理の流れを示すフローチャートである。

　図３に示すように、情報分析システム１００の収集部１３１は、インターネット上のＢＢＳサイトからスレッドデータを収集する（ステップＳ１０１）。収集部１３１は、収集したスレッドデータをスレッドデータ記憶部１２１に格納する。

　続いて、発言切り出し部１３２Ａは、スレッドデータから発言を切り出し、発言データを生成する（ステップＳ１０２）。例えば、発言切り出し部１３２Ａは、スレッドデータ記憶部１２１に記憶されたスレッドデータを取得して、取得したスレッドデータに含まれる発言をそれぞれ切り出し、発言データをそれぞれ生成する。

　そして、発言分析部１３２Ｂは、スレッドに含まれる発言の重要度を発言ごとに分析する（ステップＳ１０３）。例えば、発言分析部１３２Ｂは、発言データから発言の重要度（スコア）を算出するための機械学習エンジンを用いて、発言切り出し部１３２Ａによって生成された発言データから発言の重要度を分析する。

　そして、スレッド分析部１３２Ｃは、スレッドのカテゴリを分析する（ステップＳ１０４）。例えば、スレッド分析部１３２Ｃは、スレッドデータからスレッドのカテゴリを分析するための機械学習エンジンを用いて、発言切り出し部１３２Ａから受け付けたスレッドデータからスレッドが属するカテゴリを分析する。

　そして、格納部１３３は、発言ごとに、発言データ、発言の重要度、及びスレッドのカテゴリを対応づけて分析結果記憶部１２２に格納する（ステップＳ１０５）。

　なお、上述した処理手順は、必ずしも上述した順序で実行されなくても良い。例えば、ステップＳ１０３の処理とステップＳ１０４の処理は、上述した順序とは逆の順序で実行されても良いし、並行処理として実行されても良い。また、例えば、収集済みのスレッドデータが存在する場合には、ステップＳ１０１の処理は実行されなくても良い。

[第１の実施形態の効果]
　上述してきたように、第１の実施形態に係る情報分析システム１００は、ネットワーク上に投稿された発言の集合であるスレッドについて、スレッドに含まれる発言の重要度を、発言データに基づいて、発言ごとに分析する。そして、情報分析システム１００は、スレッドが、予め設定された複数のカテゴリのいずれに属するかを、スレッドデータに基づいて分析する。そして、情報分析システム１００は、発言ごとに、発言と、発言の重要度と、発言が含まれるスレッドのカテゴリとを対応づけて所定の記憶部に格納する。このため、情報分析システム１００は、ネットワーク上に投稿された情報から有益な発言を分析することができる。

　図４は、第１の実施形態による効果を説明するための図である。図４に示すように、例えば、情報分析システム１００において、収集部１３１は、インターネット上のＢＢＳサイトからスレッドデータを収集し（Ｓ１０）、収集したスレッドデータを発言切り出し部１３２Ａへ送る（Ｓ１１）。続いて、発言切り出し部１３２Ａは、スレッドデータから発言を切り出して発言データを生成し、生成した発言データを発言分析部１３２Ｂへ送る（Ｓ１２）。そして、発言分析部１３２Ｂは、発言の重要度を発言ごとに分析し、発言データと重要度の組を格納部１３３へ送る（Ｓ１３）。続いて、発言切り出し部１３２Ａは、スレッドデータをスレッド分析部１３２Ｃへ送る（Ｓ１４）。そして、スレッド分析部１３２Ｃは、スレッドのカテゴリを分析し、分析したカテゴリを格納部１３３へ送る（Ｓ１５）。そして、格納部１３３は、発言ごとに、発言データ、重要度、及びカテゴリを対応づけて分析結果記憶部１２２に格納する（Ｓ１６）。このように、情報分析システム１００は、収集したスレッドデータに含まれる発言ごとに、発言データと、重要度と、カテゴリとを対応づけて蓄積する。このため、情報分析システム１００は、例えば、意味の無い発言が多く含まれる場合であっても、有益な発言が意味の無い発言に埋もれることなく検索可能な状態で、分析結果を蓄積することができる。また、情報分析システム１００は、スレッド単位でカテゴリの分析を行うことにより、発言単位で分析する場合と比較して分析対象とする情報量を増加させるので、発言の属するカテゴリを精度良く分析することができる。この結果、情報推薦技術において、利用者は、スレッド単位で抽出・推薦される場合と比べて、無意味な発言が除かれた、真に有用な発言のみを得ることが可能となる。

［第２の実施形態］
　第１の実施形態では、情報分析システム１００が発言ごとに重要度を分析する場合を説明したが、実施形態はこれに限定されるものではない。例えば、情報分析システム１００は、スレッドの重要度についても分析し、発言の重要度とスレッドの重要度とを統合する場合であっても良い。そこで、第２の実施形態では、情報分析システム１００が、スレッドの重要度についても分析し、発言の重要度とスレッドの重要度とを統合する場合を説明する。なお、以下の説明では、第１の実施形態と共通する構成及び処理については、説明を省略する。

　図１を用いて、第２の実施形態に係る情報分析システム１００の構成について説明する。第２の実施形態に係る情報分析システム１００は、図１に示した情報分析システム１００と同様の構成を備えるが、スレッド分析部１３２Ｃ及び格納部１３３における処理が一部相違する。

　スレッド分析部１３２Ｃは、第１の実施形態において説明した処理に加えて、スレッドデータに基づいて、スレッドの重要度を分析する。例えば、スレッド分析部１３２Ｃは、スレッドデータからスレッドの重要度を算出するための機械学習エンジンを用いて、スレッドの重要度を分析する。そして、スレッド分析部１３２Ｃは、分析結果として、スレッドが属するカテゴリに加えて、スレッドの重要度を格納部１３３に送る。なお、この場合、機械学習エンジンには、重要なスレッドの特徴ベクトルと重要でないスレッドの特徴ベクトルとを予め学習させておく。学習させる方法としては、例えば、代表的なＢＢＳサイトからいくつかのスレッドを選択し、重要なスレッドと重要でないスレッドとを人手で分類して学習させる方法が挙げられる。

　そして、スレッド分析部１３２Ｃは、スレッドデータから変換した特徴ベクトルを機械学習エンジンに与え、スレッドの重要度を算出する。ここで使用する機械学習エンジンは種類を問わないが、例えば、オープンソースのＪｕｂａｔｕｓ等を用いることができる。そして、スレッド分析部１３２Ｃは、機械学習エンジンで算出されたスレッドの重要度を格納部１３３に送る。

　なお、上述したスレッド分析部１３２Ｃの処理はあくまで一例に過ぎない。例えば、スレッド分析部１３２Ｃは、文字列データに限らず、スレッドにおける発言数等の数値データを用いて特徴ベクトルを求めても良い。

　格納部１３３は、発言の重要度及びスレッドの重要度に基づいて、発言の総合重要度を算出する。そして、格納部１３３は、算出した総合重要度と、発言と、発言が含まれるスレッドのカテゴリとを発言ごとに対応づけて格納する。

　例えば、格納部１３３は、発言ごとに、発言データ及び発言の重要度を発言分析部１３２Ｂから受け付ける。また、格納部１３３は、スレッドが属するカテゴリ及びスレッドの重要度をスレッド分析部１３２Ｃから受け付ける。そして、格納部１３３は、発言分析部１３２Ｂから受け付けた発言の重要度と、スレッド分析部１３２Ｃから受け付けたスレッドの重要度とに基づいて、総合重要度を発言ごとに算出する。ここで、総合重要度の算出方法は、例えば、発言の重要度及びスレッドの重要度の和であっても良いし、積、平均、その他の算術演算による値であっても良い。そして、格納部１３３は、発言データ、総合重要度、及びカテゴリを対応づけて、発言ごとに分析結果記憶部１２２に格納する。

　図５は、第２の実施形態に係る情報分析システムにおける処理の流れを示すフローチャートである。なお、図５に示すステップＳ２０１～Ｓ２０３の処理は、図３のステップＳ１０１～Ｓ１０３の処理と同様であるので、説明を省略する。

　図５に示すように、情報分析システム１００のスレッド分析部１３２Ｃは、スレッドのカテゴリ及びスレッドの重要度を分析する（ステップＳ２０４）。例えば、スレッド分析部１３２Ｃは、第１の実施形態において説明した処理に加えて、スレッドデータからスレッドの重要度を算出するための機械学習エンジンを用いて、スレッドの重要度を分析する。そして、スレッド分析部１３２Ｃは、分析結果として、スレッドが属するカテゴリに加えて、スレッドの重要度を格納部１３３に送る。

　そして、格納部１３３は、発言の重要度とスレッドの重要度とから、発言の総合重要度を算出する（ステップＳ２０５）。例えば、格納部１３３は、発言の重要度及びスレッドの重要度の和、積、平均、その他の算術演算による値等を総合重要度として算出する。そして、格納部１３３は、発言データ、発言の総合重要度、及びスレッドのカテゴリを対応づけて、発言ごとに分析結果記憶部１２２に格納する（ステップＳ２０６）。

　なお、図５に示した処理手順は、必ずしも上記の順序で実行されなくても良い。例えば、ステップＳ２０３の処理とステップＳ２０４の処理は、上述した順序とは逆の順序で実行されても良いし、並行処理として実行されても良い。

　このように、第２の実施形態に係る情報分析システム１００は、スレッドの重要度についても分析し、発言の重要度とスレッドの重要度とを統合する。これにより、情報分析システム１００は、スレッドの重要度を加味した上で発言ごとの重要度を算出することができるので、より有益な発言を分析することができる。

　図６は、第２の実施形態による効果を説明するための図である。図６に示すように、例えば、情報分析システム１００において、収集部１３１は、インターネット上のＢＢＳサイトからスレッドデータを収集し（Ｓ２０）、収集したスレッドデータを発言切り出し部１３２Ａへ送る（Ｓ２１）。続いて、発言切り出し部１３２Ａは、スレッドデータから発言を切り出して発言データを生成し、生成した発言データを発言分析部１３２Ｂへ送る（Ｓ２２）。そして、発言分析部１３２Ｂは、発言の重要度を発言ごとに分析し、発言データと重要度の組を格納部１３３へ送る（Ｓ２３）。続いて、発言切り出し部１３２Ａは、スレッドデータをスレッド分析部１３２Ｃへ送る（Ｓ２４）。そして、スレッド分析部１３２Ｃは、スレッドのカテゴリ及びスレッドの重要度を分析し、分析したカテゴリ及びスレッドの重要度を格納部１３３へ送る（Ｓ２５）。そして、格納部１３３は、発言の重要度とスレッドの重要度とから、発言の総合重要度を算出し、発言データ、発言の総合重要度、及びカテゴリを対応づけて、発言ごとに分析結果記憶部１２２に格納する（Ｓ２６）。これにより、第２の実施形態に係る情報分析システム１００は、より有益な発言を分析することができる。

［第３の実施形態］
　第１及び第２の実施形態では、情報分析システム１００がスレッドのカテゴリを分析する場合を説明したが、実施形態はこれに限定されるものではない。例えば、情報分析システム１００は、発言の内容をカテゴリ分類した発言カテゴリについても分析し、それぞれの発言に付与する場合であっても良い。なお、発言カテゴリとは、例えば、「好意的」、「敵対的」、「賞賛」、「冒とく」といった発言者の感情を推測するものや、「引用」、「提案」、「質問」、「回答」といった発言の種類を推測するもの等が含まれる。すなわち、発言カテゴリは、発言の内容が、予め設定された複数のカテゴリのいずれに属するかを示す情報である。

　そこで、第３の実施形態では、情報分析システム１００が、発言カテゴリを分析し、それぞれの発言に付与する場合を説明する。なお、以下の説明では、第２の実施形態と共通する構成及び処理については、説明を省略する。

　図１を用いて、第３の実施形態に係る情報分析システム１００の構成について説明する。第３の実施形態に係る情報分析システム１００は、第２の実施形態に係る情報分析システム１００と同様の構成を備えるが、発言分析部１３２Ｂ及び格納部１３３における処理が一部相違する。

　発言分析部１３２Ｂは、第１の実施形態において説明した処理に加えて、発言カテゴリを、発言データに基づいて、発言ごとに分析する。例えば、発言分析部１３２Ｂは、発言データから発言カテゴリを導出するための機械学習エンジンを用いて、発言カテゴリを分析する。そして、発言分析部１３２Ｂは、分析結果として、発言の重要度に加えて、発言カテゴリを格納部１３３に送る。なお、この場合、機械学習エンジンには、いくつかの発言と発言カテゴリとの組を予め学習させておく。学習させる方法としては、例えば、代表的なＢＢＳサイトからいくつかのスレッドを選択し、スレッドに含まれる発言を「好意的」、「敵対的」、「賞賛」、「冒とく」、「引用」、「提案」、「質問」、「回答」といったカテゴリに人手で分類して学習させる方法が挙げられる。

　具体的には、発言分析部１３２Ｂは、第１の実施形態に係る処理において変換された特徴ベクトルを機械学習エンジンに与え、発言ごとに発言カテゴリを算出する。ここで使用する機械学習エンジンは種類を問わないが、例えば、オープンソースのＪｕｂａｔｕｓ等を用いることができる。そして、発言分析部１３２Ｂは、機械学習エンジンで算出されたスレッドの重要度を格納部１３３に送る。

　格納部１３３は、発言ごとの発言カテゴリを、当該発言ごとに対応づけて格納する。例えば、格納部１３３は、発言データ、総合重要度、スレッドのカテゴリ、及び発言カテゴリを対応づけて、発言ごとに分析結果記憶部１２２に格納する。

　図７は、第３の実施形態に係る情報分析システムにおける処理の流れを示すフローチャートである。なお、図７に示すステップＳ３０１～Ｓ３０２の処理は、図３のステップＳ１０１～Ｓ１０２の処理と同様であるので、説明を省略する。

　図７に示すように、情報分析システム１００の発言分析部１３２Ｂは、発言の重要度及び発言カテゴリを分析する（ステップＳ３０３）。例えば、発言分析部１３２Ｂは、発言データから発言カテゴリを導出するための機械学習エンジンを用いて、発言カテゴリを分析する。そして、発言分析部１３２Ｂは、分析結果として、発言の重要度に加えて、発言カテゴリを格納部１３３に送る。

　続いて、スレッド分析部１３２Ｃは、スレッドのカテゴリ及びスレッドの重要度を分析する（ステップＳ３０４）。例えば、発言分析部１３２Ｂは、第１の実施形態において説明した処理に加えて、スレッドデータからスレッドの重要度を算出するための機械学習エンジンを用いて、スレッドの重要度を分析する。そして、発言分析部１３２Ｂは、分析結果として、スレッドが属するカテゴリに加えて、スレッドの重要度を格納部１３３に送る。

　そして、格納部１３３は、発言の重要度とスレッドの重要度とから、発言の総合重要度を算出する（ステップＳ３０５）。例えば、格納部１３３は、発言の重要度及びスレッドの重要度の和、積、平均、その他の算術演算による値等を総合重要度として算出する。そして、格納部１３３は、発言データ、発言の総合重要度、発言カテゴリ、及びスレッドのカテゴリを対応づけて、発言ごとに分析結果記憶部１２２に格納する（ステップＳ３０６）。

　なお、図７に示した処理手順は、必ずしも上記の順序で実行されなくても良い。例えば、ステップＳ３０３の処理とステップＳ３０４の処理は、上述した順序とは逆の順序で実行されても良いし、並行処理として実行されても良い。

　このように、第３の実施形態に係る情報分析システム１００は、発言カテゴリを分析し、それぞれの発言に付与する。これにより、情報分析システム１００は、スレッドのカテゴリに加え、発言ごとの発言カテゴリも踏まえて分析するので、より有益な発言を分析することができる。

　図８は、第３の実施形態による効果を説明するための図である。図８に示すように、例えば、情報分析システム１００において、収集部１３１は、インターネット上のＢＢＳサイトからスレッドデータを収集し（Ｓ３０）、収集したスレッドデータを発言切り出し部１３２Ａへ送る（Ｓ３１）。続いて、発言切り出し部１３２Ａは、スレッドデータから発言を切り出して発言データを生成し、生成した発言データを発言分析部１３２Ｂへ送る（Ｓ３２）。そして、発言分析部１３２Ｂは、発言の重要度及び発言カテゴリを発言ごとに分析し、発言データ、発言の重要度、及び発言カテゴリの組を格納部１３３へ送る（Ｓ３３）。続いて、発言切り出し部１３２Ａは、スレッドデータをスレッド分析部１３２Ｃへ送る（Ｓ３４）。そして、スレッド分析部１３２Ｃは、スレッドのカテゴリ及びスレッドの重要度を分析し、分析したカテゴリ及びスレッドの重要度を格納部１３３へ送る（Ｓ３５）。そして、格納部１３３は、発言の重要度とスレッドの重要度とから、発言の総合重要度を算出し、発言データ、発言の総合重要度、発言カテゴリ、及びスレッドのカテゴリを対応づけて、発言ごとに分析結果記憶部１２２に格納する（Ｓ３６）。これにより、第３の実施形態に係る情報分析システム１００は、より有益な発言を分析することができる。

　なお、第３の実施形態では、第２の実施形態に係る情報分析システム１００が、更に、発言カテゴリを分析し、それぞれの発言に付与する場合を説明したが、これに限定されるものではない。例えば、第１の実施形態に係る情報分析システム１００が、発言カテゴリを分析し、それぞれの発言に付与する場合であっても良い。すなわち、第３の実施形態において、スレッドの重要度を算出する処理は実行されなくても良い。

［システム構成等］
　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、格納部１３３は、分析部１３２と統合しても良いし、発言分析部１３２Ｂ若しくはスレッド分析部１３２Ｃと統合しても良い。更に、各装置にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

　また、本実施例において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［処理対象］
　また、上述した第１～第３の実施形態では、処理対象としてＢＢＳのスレッドデータが分析される場合を説明したが、実施形態はこれに限定されるものではない。例えば、情報分析システム１００は、電子メールがスレッド形式（所定の電子メールに対する返信が連なって表示される形式）で表示されたものや、ＳＮＳ（Social　Networking　Service）等における所定の投稿に対して返信された一連の発言についても処理対象とすることができる。なお、電子メールを対象とする場合、返信の判定や返信数のカウントには、発言冒頭の「＞（数字）」に着目する方法に代えて、電子メールの「Ｉｎ－Ｒｅｐｌｙ－Ｔｏ」ヘッダに着目して返信の判定や返信数のカウントを行うことができる。他の処理対象についても同様に、処理対象に応じた返信の判定法や返信数のカウント方法を規定することができる。

［プログラム］
　また、上記実施形態において説明した情報分析システム１００が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。例えば、第１の実施形態に係る情報分析システム１００が実行する処理をコンピュータが実行可能な言語で記述した情報分析プログラムを作成することもできる。この場合、コンピュータが情報分析プログラムを実行することにより、上記実施形態と同様の効果を得ることができる。さらに、かかる情報分析プログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録された情報分析プログラムをコンピュータに読み込ませて実行することにより上記第１の実施形態と同様の処理を実現してもよい。以下に、図１に示した情報分析システム１００と同様の機能を実現する情報分析プログラムを実行するコンピュータの一例を説明する。

　図９は、情報分析プログラムを実行するコンピュータ１０００を示す図である。図９に例示するように、コンピュータ１０００は、例えば、メモリ１０１０と、ＣＰＵ１０２０と、ハードディスクドライブインタフェース１０３０と、ディスクドライブインタフェース１０４０と、ネットワークインタフェース１０７０とを有し、これらの各部はバス１０８０によって接続される。

　メモリ１０１０は、図９に例示するように、ＲＯＭ（Read　Only　Memory）１０１１及びＲＡＭ（Random　Access　Memory）１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、図９に例示するように、ハードディスクドライブ１０３１に接続される。ディスクドライブインタフェース１０４０は、図９に例示するように、ディスクドライブ１０４１に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブに挿入される。

　ここで、図９に例示するように、ハードディスクドライブ１０３１は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、上記のいずれかのプログラムは、コンピュータ１０００によって実行される指令が記述されたプログラムモジュールとして、例えばハードディスクドライブ１０３１に記憶される。

　また、上記実施形態で説明した各種データは、プログラムデータとして、例えばメモリ１０１０やハードディスクドライブ１０３１に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０３１に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出し、各手順を実行する。

　なお、情報分析プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０３１に記憶される場合に限られず、例えば着脱可能な記憶媒体にそれぞれ記憶され、ディスクドライブ等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、情報分析プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local　Area　Network）、ＷＡＮ（Wide　Area　Network）等）を介して接続された他のコンピュータにそれぞれ記憶され、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

　これらの実施形態やその変形は、本願が開示する技術に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

　１００　　　情報分析システム
　１１０　　　通信処理部
　１２０　　　記憶部
　１２１　　　スレッドデータ記憶部
　１２２　　　分析結果記憶部
　１３０　　　機能部
　１３１　　　収集部
　１３２　　　分析部
　１３２Ａ　　　発言切り出し部
　１３２Ｂ　　　発言分析部
　１３２Ｃ　　　スレッド分析部
　１３３　　　格納部
　１４０　　　制御部

Claims

　ネットワーク上に投稿された発言の集合であるスレッドについて、当該スレッドに含まれる発言の重要度を、当該発言に関するデータである発言データに基づいて、当該発言ごとに分析する発言分析部と、
　前記スレッドが、予め設定された複数のカテゴリのいずれに属するかを、当該スレッドに関するデータであるスレッドデータに基づいて分析するスレッド分析部と、
　前記発言ごとに、当該発言と、当該発言の重要度と、当該発言が含まれるスレッドのカテゴリとを対応づけて所定の記憶部に格納する格納部と
　を備えることを特徴とする情報分析システム。
　前記スレッド分析部は、更に、前記スレッドデータに基づいて、前記スレッドの重要度を分析し、
　前記格納部は、前記発言の重要度及び前記スレッドの重要度に基づいて、当該発言の総合重要度を算出し、算出した総合重要度と、前記発言と、当該発言が含まれるスレッドのカテゴリとを前記発言ごとに対応づけて格納することを特徴とする請求項１に記載の情報分析システム。
　前記発言分析部は、更に、前記発言の内容が予め設定された複数のカテゴリのいずれに属するかを示す発言カテゴリを、前記発言データに基づいて、前記発言ごとに分析し、
　前記格納部は、更に、前記発言ごとの発言カテゴリを、当該発言ごとに対応づけて格納することを特徴とする請求項１又は２に記載の情報分析システム。
　情報分析システムによって実行される情報分析方法であって、
　ネットワーク上に投稿された発言の集合であるスレッドについて、当該スレッドに含まれる発言の重要度を、当該発言に関するデータである発言データに基づいて、当該発言ごとに分析する発言分析工程と、
　前記スレッドが、予め設定された複数のカテゴリのいずれに属するかを、当該スレッドに関するデータであるスレッドデータに基づいて分析するスレッド分析工程と、
　前記発言ごとに、当該発言の重要度と、当該発言が含まれるスレッドのカテゴリとを対応づけて所定の記憶部に格納する格納工程と
　を含むことを特徴とする情報分析方法。
　ネットワーク上に投稿された発言の集合であるスレッドについて、当該スレッドに含まれる発言の重要度を、当該発言に関するデータである発言データに基づいて、当該発言ごとに分析する発言分析ステップと、
　前記スレッドが、予め設定された複数のカテゴリのいずれに属するかを、当該スレッドに関するデータであるスレッドデータに基づいて分析するスレッド分析ステップと、
　前記発言ごとに、当該発言の重要度と、当該発言が含まれるスレッドのカテゴリとを対応づけて所定の記憶部に格納する格納ステップと
　をコンピュータに実行させることを特徴とする情報分析プログラム。