JPWO2003046764A1

JPWO2003046764A1 - 情報解析方法及び装置

Info

Publication number: JPWO2003046764A1
Application number: JP2003548126A
Authority: JP
Inventors: 内野　寛治; 寛治内野; 由紀粂
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2001-11-26
Filing date: 2002-10-30
Publication date: 2005-04-14
Anticipated expiration: 2022-10-30
Also published as: WO2003046764A1; US20030101166A1; TWI252987B; AU2002343775B2; EP2506169A3; JP4097602B2; CN100390786C; AU2002343775C1; KR100953238B1; EP2506169A2; EP1450268A1; CA2460538C; EP1450268A4; CA2460538A1; AU2002343775A1; KR20090006875A; CN1559044A; TW200300532A; CA2648269C; KR100883261B1

Abstract

本発明は、大量の情報の中から自動的に注目すべき情報を抽出するものである。収集されたコンテンツ情報の中から個人のＷｅｂページや掲示板における発言である個人の意見の開示単位を抽出し、当該個人の意見の開示単位を特定するための情報（ＵＲＬや発言番号）を登録する。次に、個人の意見の対象（会社名や業種）を特定する。そして、個人の意見の開示内容を解析することにより対象についての個人の評価（良い評価／悪い評価）を特定する。また、被参照度ランキングや意見の根拠や発言者の身元を表す情報が含まれているかに基づく信頼度を決定する処理を実施する。これにより個人の意見の特性である対象に対する評価等が提示可能となる。また個人の意見の対象に対する評価のうち例えば悪い評価だけを抽出することができるようになる。また、被参照度ランキングや信頼度により影響度の高い注目すべき意見を探し出すことも可能である。

Description

［技術分野］
本発明は、大量の情報の中から特定の情報を自動的に抽出する技術に関する。
［背景技術］
インターネットにおいて開示されている情報の中から企業に対する誹謗中傷を文書検索ツールで自動的に抽出することは以前から行われていた。しかし、キーワードを指定した上でウェブ（Ｗｅｂ）ページを巡回して抽出したり、事前に検索対象のＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）を指定しておき抽出するような方法を採用している。すなわち、収集された情報が良い評価の情報か悪い評価の情報かといった判断はなされていない。さらに、収集された情報の影響力に関する情報も得られない。そのため株価操作のための「風説の流布」を見つけるためには適当ではない。
また、米国特許第６４３８６３２号は、利用者コンピュータから送られてくる電子掲示板への掲載希望メッセージの内容を自動的に検査する機能を有する電子掲示板システムを開示している。すなわち、利用者コンピュータから送られてくる電子掲示板に掲載希望のメッセージについて、電子掲示板に掲載することは不適当であるとして事前に選出された用語が登録されている掲載禁止用語集に照らして検査を行う。掲載希望メッセージに掲載禁止用語集中の用語が含まれていない場合、当該メッセージを電子掲示板に登録する。一方、掲載禁止用語集中の用語が含まれている場合には、利用者コンピュータに対してメッセージを掲載できない旨を通知する。またこの時、運営管理人コンピュータにメッセージの掲載を拒否した事象を通知する。このような技術では、掲示板への掲載の可否を判断することはできるが、掲載可能と判断されたものの内容について自動的に解析するものではない。
［発明の開示］
このように従来の技術では膨大な情報の中から具体的に指定された情報を抽出することはできるが、注目すべき情報を自動的に抽出することはできず、また抽出された情報の解釈・分析は人手によらねばならなかった。これではさらなる作業なしに、ユーザは抽出された情報の特性や情報のソース等を得ることができない。
従って本発明の目的は、大量の情報の中から自動的に注目すべき情報を抽出するための新規な技術を提供することである。
また、本発明の他の目的は、大量の情報の中から特定の情報を抽出し、抽出された情報の特性を提示可能とするための技術を提供することである。
さらに本発明の他の目的は、大量の情報の中から特定の情報を抽出し、抽出された情報の信頼度や影響度を提示可能とするための技術を提供することである。
さらに本発明の他の目的は、大量の情報の中から特定の情報を抽出し、抽出された情報のソースを探索するための技術を提供することである。
本発明に係るコンテンツ情報解析方法は、収集されたコンテンツ情報の中から個人の意見の開示単位（例えば個人Ｗｅｂページ、個人又は小規模組織によるサイト、掲示板における発言等）を抽出し、当該個人の意見の開示単位を特定するための情報（例えばＵＲＬや発言番号等）を記憶装置に格納する抽出ステップと、個人の意見の対象（例えば会社名や業種、商品名等）を特定し、記憶装置に格納する対象特定ステップと、個人の意見の開示内容を解析することにより対象についての個人の評価（例えば良い評価又は悪い評価）を特定し、記憶装置に格納する評価特定ステップとを含む。これにより抽出された個人の意見の特性である、対象に対する評価を提示可能となる。例えば、個人の意見の対象に対する評価のうち例えば悪い評価だけを抽出することができるようになる。
また、上で述べた抽出ステップを、個人の意見が含まれるコンテンツ情報の単位（例えば１Ｗｅｂページ）を特定する特定ステップと、特定されたコンテンツ情報の単位から個人の意見の開示単位を抽出するステップとを含むような構成とすることも可能である。例えば掲示板のＷｅｂサイトや個人ホームページを抽出した後、個人の意見の開示単位である発言などを分離するものである。
さらに、上で述べた特定ステップが、コンテンツ情報の単位毎の被参照度が高い順番に実施されるような構成とすることも可能である。被参照度が高いということは多くの人が見る可能性が高く影響度合いが高いコンテンツ情報であるから、影響度が高いコンテンツ情報をより優先して処理するものである。また、影響度自体を注目すべき情報か否かの指標とする場合もある。
また、上で述べた抽出ステップを、個人の意見の参照元を辿ることにより個人の意見の開示単位のグループ（例えば実施の形態におけるスレッド）を検出し、当該グループを特定するための情報を記憶装置に格納するステップを含むような構成とすることも可能である。個人の発言だけでなく、発言のまとまりとしても注目すべきものも存在するからである。
さらに、上で述べた抽出ステップを、個人の意見の対象についてのカテゴリ（例えば業種）を特定し、記憶装置に格納するカテゴリ特定ステップを含むような構成とすることも可能である。これにより抽出された個人の意見の特性であるカテゴリを提示可能となる。例えば業種毎に注目すべき情報や評価の表現やニュアンスが異なる場合もあり、業種毎の分類等も有用である。
また、本発明において、個人の意見の根拠となり得る情報（例えば参照している発言やＷｅｂサイト、新聞・雑誌の内容等）が当該個人の意見の開示単位に含まれるか判断し、含まれる場合には当該根拠となり得る情報を記憶装置に格納するステップをさらに含むような構成であってもよい。これにより抽出された個人の意見の特性である情報のソースを提示可能となる。情報の出所を調査する必要がある場合には非常に有用である。
さらに、本発明において、個人の意見の開示単位の信頼度を決定し、記憶装置に格納する信頼度決定ステップをさらに含むような構成であってもよい。これにより抽出された個人の意見の特性である信頼度を提示可能となる。信頼できる情報なのか信頼できない情報なのかの目安を得ることができるようになる。信頼度が高いものを注目すべき情報として抽出する場合もある。
なお、上で述べた信頼度決定ステップを、個人の意見の開示単位に個人の身元（例えばメールアドレス、ハンドル名等）を表す情報が含まれているか判断するステップを含むような構成とすることも可能である。身元を明かしてでも公表できる情報については信頼できるものと判断できるからである。
さらに、上で述べた信頼度決定ステップを、個人の意見の根拠となり得る情報が当該個人の意見の開示単位に含まれているか判断するステップを含むような構成とすることも可能である。根拠が明らかであれば、信頼できる情報と判断できるためである。
また、本発明の第１の態様において、各々検索キーワード及び飛び先ＵＲＬを含む、コンテンツ情報に対する複数の検索ログを解析し、アクセス数及び検索キーワードの種類数に基づき個人ホームページを階層下に含むサイトを特定するステップと、特定されたサイトの階層下に含まれる個人ホームページを上記個人の意見の開示単位として抽出するステップとをさらに含むような構成であってもよい。
さらに、本発明の第１の態様において、各々検索キーワード及び飛び先ＵＲＬを含む、コンテンツ情報に対する複数の検索ログを解析し、アクセス数及び検索キーワードの種類数に基づき個人又は小規模組織のサイトを個人の意見の開示単位として抽出するステップをさらに実行させるような構成であってもよい。
本発明の第２の態様に係るコンテンツ情報解析方法は、収集されたコンテンツ情報の中から個人の意見の開示単位を抽出し、当該個人の意見の開示単位を特定するための情報を記憶装置に格納する抽出ステップと、個人の意見の対象を特定し、記憶装置に格納する対象特定ステップと、個人の意見の開示単位の信頼度を決定し、記憶装置に格納する信頼度決定ステップとを含む。これにより例えば信頼度の高い個人の意見を抽出することができるようになる。なお、個人の意見又は個人の意見を含むコンテンツ情報の被参照度を影響度として、これを自動抽出のパラメータとして取り扱う構成も可能である。
本発明の第３の態様に係るコンテンツ情報解析方法は、各々検索キーワード及び飛び先ＵＲＬを含む、コンテンツ情報に対する複数の検索ログを取得し、メモリに格納するステップと、所定の規則に従って各飛び先ＵＲＬについてアクセス数及び検索キーワードの種類数をカウントし、メモリにカウント結果を格納するステップと、ＵＲＬの構造に基づき特定される各サイトについて、当該サイトの階層下に含まれる飛び先ＵＲＬのアクセス数及び検索キーワードの種類数を集計し、集計結果をメモリに格納するステップと、サイトについて集計されたアクセス数及び検索キーワードの種類数に基づき、当該サイトの種別を判定するステップとを含む。これにより、例えばインターネット・サービス・プロバイダのサイト、企業のサイト、個人又は小規模組織のサイトなどを判別できるようになる。インターネット・サービス・プロバイダのサイトを検出できれば、個人ホームページ（個人Ｗｅｂページとも呼ぶ。）も検出できるようになる。
また、ＵＲＬと企業名と略称と業種とについての辞書や各業種についての特徴語を備える辞書を用いて個人の意見の対象（例えば企業）や対象のカテゴリ（例えば業種や商品名等）を決定する場合がある。これらの辞書についても、収集されたコンテンツ情報等を解析することにより、自動的に構築することができるようになる。
なお、上述の方法はコンピュータにて実施することができ、そのためのプログラムは、例えばフレキシブルディスク、ＣＤ−ＲＯＭ、光磁気ディスク、半導体メモリ、ハードディスク等の記憶媒体又は記憶装置に格納される。また、プログラムはネットワークなどを介してデジタル信号として配信される場合もある。尚、中間的な処理結果はメモリ等の記憶装置に一時保管される。
［本発明を実施するための最良の形態］
第１図に本発明の一実施の形態に係るシステム概要を示す。コンピュータ・ネットワークであるインターネット１には、多数のＷｅｂサーバ７が接続されており、Ｗｅｂサーバ７は膨大な量の情報を公開している。またインターネット１には、Ｗｅｂブラウザを備えた多数のユーザ端末３も接続されており、ユーザはユーザ端末３を操作して、Ｗｅｂサーバ７で公開されているＷｅｂページの閲覧を行う。さらにインターネット１には、ユーザ端末３を操作するユーザがＷｅｂサーバ７で公開されている膨大な量のＷｅｂページに効率的にアクセスするためのサービスを提供する１又は複数の検索サイト・サーバ９も接続されており、当該検索サイト・サーバ９は、ユーザ端末３から命じられた検索要求に対応する検索ログを格納する検索ログ格納部９１を有している。また、企業などはインターネット１に接続するための１又は複数のプロキシ・サーバ８を設けており、当該プロキシ・サーバ８は社内のＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）８１を介して社内端末８２及び８３などに接続している。このプロキシ・サーバ８は通常のプロキシ・サーバと同じであるが、社内端末８２及び８３によるインターネット１へのアクセスの中継ログを格納するプロキシ・ログ格納部８４を有している。
本実施の形態における主要な処理を実施する情報収集解析システム５もインターネット１に接続されている。この情報収集解析システム５は、特定のユーザ向けに解析結果を提供すると共に、収集した情報のアーカイブを行い、ユーザに対してアーカイブされた情報についての検索機能を提供している。すなわち、ユーザ端末３は、インターネット１を介して情報収集解析システム５にアクセスして、以下で説明する解析結果を取得したり、アーカイブされた情報に対する検索結果を取得することができる。なお検索機能については設けられていない場合もある。
情報収集解析システム５には、コンテンツ収集解析部５０１と、Ｗｅｂページ分類部５０２と、業種判定部５０３と、発言・スレッド抽出部５０４と、会社特定部５０５と、出所探索部５０６と、発言・スレッド分析部５０７と、統計処理部５０８と、ユーザ・インターフェース部５０９と、辞書生成部５２０と、検索部５２１とが含まれる。
コンテンツ収集解析部５０１は、収集したコンテンツ情報及びコンテンツ情報についてのリンク関係の解析結果に基づく被参照度をランキング情報としてアーカイブ５１２に格納し、参照関係についての解析結果であるリンクトポロジ情報をリンクトポロジＤＢ５１９に格納する。Ｗｅｂページ分類部５０２は、アーカイブ５１２に格納された情報を用い、また掲示板要素格納部５１３に格納された掲示板要素データを参照して処理を行い、処理結果を例えば業種判定部５０３に出力すると共に解析データ格納部５１０に格納する。業種判定部５０３は、例えばＷｅｂページ分類部５０２の出力を用い、また業種用語辞書格納部５１４に格納された業種用語辞書を参照して処理を行い、処理結果を例えば発言・スレッド抽出部５０４に出力すると共に解析データ格納部５１０に格納する。
発言・スレッド抽出部５０４は、例えば業種判定部５０３の出力を用いて処理を行い、処理結果を例えば会社特定部５０５に出力すると共に解析データ格納部５１０に格納する。会社特定部５０５は、発言・スレッド抽出部５０４の出力を用い、また企業名辞書格納部５１５に格納された企業名辞書を参照して処理を行い、処理結果を例えば出所探索部５０６に出力すると共に解析データ格納部５１０に格納する。出所探索部５０６は、会社特定部５０５の出力を用い、またマスメディア辞書格納部５１６に格納されたマスメディア辞書を参照して処理を行い、処理結果を例えば発言・スレッド分析部５０７に出力すると共に、解析データ格納部５１０に格納する。
発言・スレッド分析部５０７は、出所探索部５０６の出力を用い、また企業名辞書格納部５１５に格納された企業名辞書と、ルールセット格納部５１７に格納された個人の意見のジャンルや評価についてのルールのデータと、掲示板等でハンドルが使われている場合にはハンドルＤＢ５１８とを参照して処理を行い、処理結果を例えば統計処理部５０８に出力すると共に、解析データ格納部５１０に出力する。統計処理部５０８は、発言・スレッド分析部５０７からの出力又は解析データ格納部５１０に格納された情報を用いて統計処理を行い、処理結果を例えばユーザ・インターフェース部５０９又は解析データ格納部５１０に出力する。
ユーザ・インターフェース部５０９は、ユーザ端末３からのアクセスに応じて、解析データ格納部５１０に格納されたデータや統計処理部５０８の出力をユーザ端末３に送信する。また、検索部５２１は、ユーザ端末３からの検索要求に応答して、アーカイブ５１２に格納されたデータについて検索を行い、検索結果をユーザ端末３に送信する。また、検索部５２１は、検索ログを検索ログ格納部５１１に格納する。辞書生成部５２０は、検索ログ格納部５１１、アーカイブ５１２及びリンクトポロジＤＢ５１９を参照して、業種用語辞書を生成し、業務用語辞書格納部５１４に格納すると共に、企業名辞書を生成し、企業名辞書格納部５１５に格納する。さらに辞書生成部５２０は、プロキシ・サーバ８のプロキシ・ログ格納部８４に格納されたデータや検索サイト・サーバ９の検索ログ格納部９１に格納されたデータを取得して検索ログ格納部５１１に格納し、当該取得したデータを用いて処理を行う場合もある。すなわち、業種用語辞書のデータ項目を生成して業務用語辞書格納部５１４に格納すると共に、企業名辞書のデータ項目を生成して企業名辞書格納部５１５に格納する。また、解析すべきＵＲＬを特定する処理を実施し、Ｗｅｂページ分類部５０２や解析データ格納部５１０等に処理結果を出力する場合もある。
コンテンツ収集解析部５０１は、インターネット１に接続された多数のＷｅｂサーバ７が公開しているＷｅｂページのデータを収集し、リンクによる参照関係を解析することにより、各Ｗｅｂページの被参照度からランキング値を計算する。そして、収集したＷｅｂページのデータ及び被参照度ランキング値をアーカイブ５１２に格納する。また、リンクによる参照関係を、リンクトポロジ・データとしてリンクトポロジＤＢ５１９に格納する。このコンテンツ収集解析部５０１の処理は、既存の技術を用いたものであって、例えば米国特許公開公報２００１−００２０２３８−Ａ１や日本国特許公開公報特開２０００−１０９９６号に開示されているものであるから、これ以上詳しく述べない。
Ｗｅｂページ分類部５０２は、アーカイブ５１２に格納されたＷｅｂページから、個人のホームページや掲示板のＷｅｂページを自動的に判別するための処理を実施する。個人のホームページや掲示板のＷｅｂページは、個人の意見が開示されているコンテンツ情報であり、必ずしも閲覧者が多いわけではないが、「風説の流布」といった観点からは見逃すことができず、その存在や出所に関する情報を蓄積しておくべきものである。この処理においては、個人のホームページや掲示板のＷｅｂページを判別するためのＵＲＬやＵＲＬの一部分のキーワードである掲示板要素データを格納した掲示板要素格納部５１３を参照する。また、Ｗｅｂページ分類部５０２は、掲示板要素データだけでなく、特定のＣＧＩ（ＣｏｍｍｏｎＧａｔｅｗａｙＩｎｔｅｒｆａｃｅ）の使用を判別したり、ＷｅｂページのＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）ソースの掲示板特有のパターンを検出するといった処理も行う。
業種判定部５０３は、個人のホームページ又は掲示板のＷｅｂページと判定されたＷｅｂページについて、業種用語辞書格納部５１４に格納された業種用語辞書を参照して、いずれの業種のキーワードとより多くマッチするかを判断することにより、業種の判別を行う。
発言・スレッド抽出部５０４は、掲示板のＷｅｂページに含まれる一つの発言を抽出すると共に、幾つかの発言がまとまって特定の話題についての議論を構成するスレッドを抽出する。この処理においては、ＨＴＭＬソースの所定のタグの繰り返しパターンから発言を切り出す。また、スレッドについては、発言のタイトルに含まれる「Ｒｅ：」や前の又は後の発言へのリンクなどから抽出する。個人のホームページについては、１つのＷｅｂページを一つの発言と取り扱ったり、例えば所定の大きさの段落を一つの発言として切り出す。なお、１つのＷｅｂページをスレッドとして取り扱う場合もある。
会社特定部５０５は、企業名辞書格納部５１５に格納された企業名辞書を用いて、発言やスレッド中に現れる文字列から、話題となっている企業名を特定する。企業名辞書には、ＵＲＬ企業名辞書と略称名辞書とが含まれる。ＵＲＬ企業名辞書を用いて、話題となっている企業の銘柄コードや、企業ＵＲＬを特定しておく場合もある。
出所探索部５０６は、発言や個人のホームページ中において、発言の根拠となり得るＵＲＬや新聞・雑誌などマスメディアの情報を抽出する。この処理においては、新聞・雑誌などのマスメディアに関連する企業名や、新聞・雑誌名などを含むマスメディア辞書を用いる。マスメディア辞書はマスメディア辞書格納部５１６に格納されている。
発言・スレッド分析部５０７は、発言・スレッドの内容を分析し、発言・スレッドの話題のジャンル（例えば製品情報、企業情報、株価情報、環境活動情報等）や、発言・スレッドにおいて話題になっている企業などについての評価の情報を取得する。評価については、例えば良い評価なのか、悪い評価なのかといった判断を行う。ジャンルや評価のため、予め業界毎に用意された、ジャンルや良い評価及び悪い評価の正解セットを用いた学習によりルールセットを生成し、これをルールセット格納部５１７に格納しておく。発言・スレッド分析部５０７は、このルールセットを使用して処理を行う。また、発言・スレッド分析部５０７は、発言に、メールアドレスやハンドルといった発言者の身元を表す情報やＵＲＬなどの根拠を示す情報が含まれるか判断し、これらの情報に基づいて発言の信頼度を決定する。発言・スレッド分析部５０７は、ＵＲＬについては企業名辞書に含まれているかということを企業名辞書格納部５１５にアクセスして確認し、ハンドルについてはハンドルＤＢ５１８のデータを参照する。発言・スレッド分析部５０７の処理結果は解析データ格納部５１０に格納される。
統計処理部５０８は、様々な統計処理を実施する。所定の統計処理を予め実施しておいても良いが、ユーザ端末３を操作するユーザにより指定された統計処理を実施するようにしても良い。統計処理部５０８は、例えば、特定の企業についての各評価を集計したり、企業毎の発言数を集計したり、時間的な変化についてのデータを生成したりする。統計処理の結果についても、解析データ格納部５１０に格納しておく場合もある。
ユーザ・インターフェース部５０９は、ユーザ端末３からの要求に応じて、解析データ格納部５１０に格納されているデータをユーザ端末３に対して送信する。ユーザ・インターフェース部５０９は、例えば、被参照度のランキングや、信頼度に基づいて、発言・スレッドを並べ替えてユーザ端末３に対して送信するような処理を実施する。また、統計処理が必要であれば、ユーザ・インターフェース部５０９は、統計処理部５０８に、解析データ格納部５１０に格納されているデータを用いて所定の統計処理を実施させ、その結果をユーザ端末３に送信する。例えば、データをグラフ等に加工して出力する場合もある。
検索部５２１は、ユーザ端末３を操作するユーザからの要求に応じて、アーカイブ５１２に格納されたコンテンツ情報の検索を実行する。実行した検索の検索ログについては検索ログ格納部５１１に格納する。
辞書生成部５２０は、アーカイブ５１２に格納されたコンテンツ情報や、リンクトポロジＤＢ５１９に登録されているリンクトポロジ・データや、検索ログ格納部５１１に格納された検索ログなどを用いて、業種用語辞書を生成して業種用語辞書格納部５１４に格納すると共に、フォーマル及びインフォーマル版のＵＲＬ企業名辞書及び略称名辞書を含む企業名辞書を生成して企業名辞書格納部５１５に格納する。さらに辞書生成部５２０は、プロキシ・サーバ８のプロキシ・ログ格納部８４に格納されたログ・データや検索サイト・サーバ９の検索ログ格納部９１に格納されたログ・データを取得して検索ログ格納部５１１に格納し、当該ログ・データを用いて辞書生成のための処理を行う。すなわち、業種用語辞書のデータ項目を生成して業務用語辞書格納部５１４に格納すると共に、企業名辞書のデータ項目を生成して企業名辞書格納部５１５に格納する。また、検索ログ格納部５１１に格納されたデータを用いて、解析すべきＵＲＬを特定する処理を実施し、解析データ格納部５１０に処理結果を格納する。
次に第２図乃至第２２図を用いて第１図に示したシステムの処理の内容を説明する。第２図に本実施の形態における処理の概要を示す。まず、コンテンツ収集解析部５０１によるコンテンツ収集及び解析処理が実施される（ステップＳ１）。上で述べたように、ステップＳ１においては、インターネット１に接続された多数のＷｅｂサーバ７が公開しているＷｅｂページのデータを収集し、リンクによる参照関係を解析することにより、各Ｗｅｂページの被参照度を算出し、当該被参照度からランキング値を計算する。そして、コンテンツ収集解析部５０１は、収集したＷｅｂページのデータ及び被参照度ランキング値をアーカイブ５１２に格納し、リンクによる参照関係をリンクトポロジ・データとしてリンクトポロジＤＢ５１９に格納する。
次に、Ｗｅｂページ分類部５０２は、コンテンツ収集解析部５０１により収集され且つアーカイブ５１２に格納されたコンテンツ情報の中から掲示板及び個人のホームページを抽出する（ステップＳ３）。この処理においては、掲示板要素格納部５１３に格納された掲示板要素データが使用される。掲示板要素データは、第３Ａ図に示されるような、掲示板及び個人ホームページのＵＲＬに良く用いられているｂｂｓ、ｍｅｓｓａｇｅｂｏａｒｄ、ｈｏｍｅｐａｇｅといったキーワードと、第３Ｂ図に示されるような、一般的に知られている掲示板及び個人ホームページのＵＲＬとを含む。また、掲示板要素データは、掲示板や個人ホームページにおいてよく用いられているＣＧＩを特定するためのデータ、掲示板や個人ホームページにおいてよく現れるＷｅｂページのＨＴＭＬソースのパターンのデータ等を含む場合もある。すなわち、Ｗｅｂページ分類部５０２は、処理対象のＷｅｂページについて、そのＵＲＬ又はその一部が掲示板要素格納部５１３に格納された掲示板要素データ（第３Ａ図及び第３Ｂ図）に含まれるＵＲＬ又はキーワードに合致するか判断する。また、処理対象のＷｅｂページにおいて使用されているＣＧＩが、掲示板や個人ホームページにおいてよく用いられているＣＧＩか否かを判断する。さらに、Ｗｅｂページ分類部５０２は、処理対象のＷｅｂページのＨＴＭＬソースを解析し、掲示板や個人のホームページにおいてよく用いられる特定のタグの繰り返しパターン等の存在を検査する。これらの処理については、被参照度ランキング値の高いＷｅｂページの順に処理を行う。また、これらの処理の結果として、例えば第４Ａ図に示されるように、掲示板及び個人ホームページと判断されたＷｅｂページのＵＲＬ、種別（例えば、掲示板の場合には「１」が、個人ホームページの場合には「２」が、その他の場合には「３」が格納される。）及びそのＷｅｂページのランキングとして被参照度が例えば解析データ格納部５１０に格納される。なお、第４Ａ図におけるアクセス数については後に説明する。
そして、業種判定部５０３は、掲示板又は個人ホームページと判断されたＷｅｂページについて、業種用語辞書格納部５１４に格納された業種用語辞書を参照して、当該Ｗｅｂページが話題としている業種を判定する（ステップＳ５）。業種用語辞書には、第５図に示すように、業種名に対応して１又は複数のキーワード（図ではｎ個（ｎは整数））が登録される。従って、業種判定部５０３は、処理対象のＷｅｂページに含まれる用語と業種用語辞書に登録されたキーワードとのマッチングを行い、マッチングが取れたキーワード数が多い業種を、処理対象のＷｅｂページの業種と判定する。このような処理の結果として、例えば第４Ｂ図に示されるように、掲示板又は個人ホームページと判断されたＷｅｂページのＵＲＬ、種別（例えば掲示板の場合には「１」が、個人ホームページの場合には「２」が、その他の場合には「３」が格納される。）、当該Ｗｅｂページにおいて話題となっている業種及びそのＷｅｂページのランキングとして被参照度が例えば解析データ格納部５１０に格納される。なお、第４Ｂ図におけるアクセス数については後に説明する。
次に、発言・スレッド抽出部５０４は、掲示板のＷｅｂページに含まれる一つの発言を抽出すると共に、幾つかの発言がまとまって特定の話題について議論している場合の発言群であるスレッドを抽出する（ステップＳ７）。ここでは、第６図及び第７図を用いて、発言を抽出する処理と、スレッドを抽出する処理について分けて説明する。
まず第６図を用いて発言の抽出処理について説明する。発言・スレッド抽出部５０４は、掲示板であると判断されたＷｅｂページについて、そのリンクを解析し、例えば「一覧へ」や「掲示板一覧」といった文字列でリンクされたＷｅｂページのＵＲＬを抽出し、当該ＵＲＬのＷｅｂページのデータを発言一覧ページのデータとして取得し、記憶装置に格納する（ステップＳ２１）。発言・スレッド抽出部５０４は、当該発言一覧ページの内容を解析し、列挙されている各発言ページへのリンクを特定し、当該発言ページのデータを取得し、記憶装置に格納する（ステップＳ２３）。発言ページには複数の発言が含まれる場合もある。従って、発言・スレッド抽出部５０４は、発言ページのＨＴＭＬソースを解析して、発言の繰り返しパターンを抽出し、記憶装置に格納する（ステップＳ２５）。例えば、各発言にはヘッダとして「３０：０１／１０／２０２２：４６ＩＤ：ＱｐＫｋＦＩｈＫ」というような発言番号、日時及びハンドル名等が繰り返し出現する場合があり、この繰り返しパターンを抽出する。また、各発言が枠に入れられている場合もある。そのような場合には、特定のパターンでＴＡＢＬＥタグが繰り返されるため、発言・スレッド抽出部５０４はこのＴＡＢＬＥタグの繰り返しパターンを抽出する。そして、発言・スレッド抽出部５０４は、抽出された繰り返しパターンに従って、一つの発言を切り出し、記憶装置に格納する（ステップＳ２７）。但し、発言の長さが所定長以下である場合には、破棄するような構成であってもよい。
次に第７図を用いてスレッドの抽出処理について説明する。掲示板によっては、
「・Ｒｅ：ＸＸＡＡＡＡさんの投稿ＭｏｎｄａｙＯｃｔｏｂｅｒ１５，＠０１：４２ＰＭ
・Ｒｅ：ＸＸＡＡＡＡさんの投稿ＭｏｎｄａｙＯｃｔＯｂｅｒ１５，＠０１：４５ＰＭ
・Ｒｅ：ＸＸＡＡＡＡさんの投稿ＭｏｎｄａｙＯｃｔｏｂｅｒ１５，＠０３：０１ＰＭ
・Ｒｅ：ＸＸＢＢＢＢさんの投稿（スコア：１）ＴｕｅｓｄａｙＯｃｔｏｂｅｒ１６，＠０７：１６ＡＭ」
というように、先行する発言「ＸＸ」に関連する発言群が「Ｒｅ：」といった文字から明らかな場合もある。一方、
「５８名前：ＣＣＣＣさん０１／１０／２１２１：１１
＞５６
この発言については．．．．．」
というように、各発言のヘッダのみからは先行する発言や関連する発言が不明な場合もある。従って、発言・スレッド抽出部５０４は、「Ｒｅ：」文字等を用いてヘッダから先行する発言が抽出できるか判断する（ステップＳ３１）。もし、上で述べた第１の例のように、ヘッダから先行する発言が明らかである場合には（ステップＳ３１：Ｙｅｓルート）、発言・スレッド抽出部５０４は、ヘッダから一つの発言群をスレッドとして把握し、スレッド番号を発番して各発言に対して登録する（ステップＳ３３）。第１の例では、ＸＸという発言及び上記の４つの発言が一つのスレッドを構成し、同一のスレッド番号が登録される。そして元の処理に戻る。登録データについては後に説明する。
一方、ヘッダから先行する発言が抽出できない場合には（ステップＳ３１：Ｎｏルート）、発言・スレッド抽出部５０４は、本文中に、参照されている先行発言の発言番号等の発言識別情報が存在するか判断する（ステップＳ３５）。もし、発言識別情報が存在する場合には（ステップＳ３５：Ｙｅｓルート）、発言・スレッド抽出部５０４は、処理対象の発言に対してスレッド番号を登録する（ステップＳ３７）。なお、発言・スレッド抽出部５０４は、既に先行発言に遡る処理を実施していれば、遡る前に発番されたスレッド番号を用い、遡る処理を行っていない場合には新たにスレッド番号を発番する。そして、発言・スレッド抽出部５０４は、参照されている先行発言の発言番号に遡って、リカーシブに第６図のスレッド抽出処理を実施する（ステップＳ３９）。一方、本文中に先行発言の発言番号が含まれていない場合には（ステップＳ３５：Ｎｏルート）、発言・スレッド抽出部５０４は、発言を一つ以上遡る処理を行ったか否か判断する（ステップＳ４１）。例えば、孤立した発言の場合もあれば、大元の発言の場合もあるためである。孤立した発言の場合には（ステップＳ４１：Ｎｏルート）、元の処理に戻る。なお、孤立した発言であっても１つの発言でスレッドを構成すると判断すれば、発言・スレッド抽出部５０４は、新たにスレッド番号を発番して登録するようにしてもよい。もし、発言を一つ以上遡る処理を行ったと判断された場合には（ステップＳ４１：Ｙｅｓルート）、発言・スレッド抽出部５０４は、参照元と同じスレッド番号を当該発言について登録する（ステップＳ４３）。そして元の処理に戻る。
このように、ヘッダで分かる場合にはヘッダにより発言群を特定し、ヘッダで分からない場合には、本文中に存在する発言番号でリカーシブに発言を辿ることにより、スレッドを把握するものである。この処理のための技術は、例えば米国特許公開公報２００１−００１８６９８−Ａ１に開示されている。
なお、個人ホームページの場合には、１つのＷｅｂページを１つの発言と取り扱う。この場合、例えば個人ホームページのトップページから参照できるページを全てスレッドとして取り扱うようにしても良いし、孤立した発言として各ページを取り扱うことも可能である。また、１ページが長い場合もある。その場合には、例えばＨＴＭＬソースのｈ１タグなどで分割し、分割された各部分を１つの発言として取り扱うような構成であってもよい。
ステップＳ７の発言及びスレッドの抽出処理が実施されると、第４Ｃ図に示すテーブルのうち一部のデータが登録される。第４Ｃ図の例では、発言を含むＷｅｂページのＵＲＬのための列３０１と、種別のデータを格納するための列３０２と、発言のタイトルのための列３０３と、スレッド番号（＃）の列３０４、発言番号（＃）の列３０５、業種の列３０６と、発言の対象についての評価の列３０７と、抽出情報を格納するための列３０８と、信頼度の列３０９と、ジャンルの列３１０とが含まれる。種別を格納するための列３０２には、掲示板の場合には１が、個人ホームページの場合には２が、その他の場合には３が格納される。タイトルについては、発言のタイトルの場合もあれば、ＴＩＴＬＥタグやｈ１タグの値である場合もある。評価については、例えば良い又は悪いといった評価である。これについては後に説明する。抽出情報には、会社名、証券コード、参照発言番号、発言の根拠となるマスメディアの情報やＵＲＬ、身元を示す情報であるメールアドレスやハンドル名が含まれる。信頼度には、発言が含まれるページの被参照度と以下で計算される信頼度の値が含まれる。アクセス数が把握されている場合にはアクセス数が登録される場合もある。ジャンルは、例えば製品情報、企業情報、株価情報、環境活動情報といった各業種で共通した話題である。
ステップＳ７まで実施されると、ＵＲＬのための列３０１と、種別を格納するための列３０２と、タイトルのための列３０３と、スレッド番号の列３０４と、発言番号の列３０５とに値が格納されることとなる。
第２図の説明に戻って、ステップＳ７の次に、会社特定部５０５が、発言の対象となっている企業名を特定するための処理を実施する（ステップＳ９）。この企業名を特定する処理においては、企業名辞書格納部５１５に格納された企業名辞書を参照する。企業名辞書には、ＵＲＬ企業名辞書と略称名辞書とが含まれる。これらの辞書の一例を第８Ａ図及び第８Ｂ図に示す。第８Ａ図は、ＵＲＬ企業名辞書の一例である。第８Ａ図の例では、サイトＵＲＬと、企業名と、証券コード（又は銘柄コード）と、業種名と、１又は複数の特徴キーワードと、サイトＵＲＬのランキング情報（被参照度及びアクセス数）とが各企業について格納される。特徴キーワードには関連ＵＲＬを含む場合もある。また、サイトＵＲＬのランキング情報については以下で説明する処理によって取得できた場合に登録される。第８Ｂ図は、略称名辞書の一例である。第８Ｂ図の例では、正式企業名と、その読みがなと、１又は複数の略称とが格納されている。会社特定部５０５は、これらの辞書を用いて、処理対象の発言に含まれる文言が辞書中の企業名、略称、証券コードと一致するか判断することにより、企業名を特定する。なお、企業名だけでなく、証券コード、企業ＵＲＬを特定するようにしても良い。また、会社特定部５０５は、個人ホームページについても同様に発言の対象となっている企業名を特定する。ここで特定された企業名や証券コード等は、第４Ｃ図の抽出情報を格納するための列３０８に格納される。さらに、発言等に含まれる文言が、ＵＲＬ企業名辞書のいずれかの企業の所定個数以上の特徴キーワードと一致する場合には、当該企業の企業名を、当該発言等の対象となっている企業名として特定する場合もある。
次に、出所探索部５０６は、発言や個人のホームページの中から、発言の根拠となり得るＵＲＬや新聞・雑誌名などマスメディアの情報を抽出する（ステップＳ１１）。なお、マスメディアの情報については、マスメディア辞書格納部５１６に格納されたマスメディア辞書を用いる。また、第１図では出所探索部５０６が企業名辞書を参照するようには示されていないが、企業名辞書格納部５１５に格納された企業名辞書を参照して、発言中にＵＲＬが含まれている場合に、そのＵＲＬが企業名辞書に登録されているＵＲＬであるか否か判断して、その登録の有無について解析データ格納部５１０に登録する場合もある。マスメディア辞書には、例えばマスメディアに関連する企業名と、それらの企業が発行する新聞・雑誌の名称についての情報が含まれている。
第９図にステップＳ１１の出所探索処理の詳細を示す。出所探索部５０６は、まず、発言又は個人のホームページ中にＵＲＬが含まれているか判断する（ステップＳ５１）。なお、企業名辞書に登録されているＵＲＬが含まれているか判断するような処理であっても良い。もし、発言又は個人のホームページ中にＵＲＬが含まれている場合には、出所探索部５０６は、当該ＵＲＬを解析データ格納部５１０に登録する（ステップＳ５３）。例えば第４Ｃ図の抽出情報を格納するための列３０８に格納する。また、上でも述べたように企業名辞書に登録されたＵＲＬであるか否かについての情報を解析データ格納部５１０に登録するようにしても良い。また、ステップＳ５１で発言又は個人のホームページ中にＵＲＬが含まれないと判断された場合及びステップＳ５３においてＵＲＬを解析データ格納部５１０に登録後、出所探索部５０６は、発言又は個人のホームページ中に新聞・雑誌名が含まれるか判断する（ステップＳ５５）。すなわち、出所探索部５０６は、マスメディア辞書に登録された新聞・雑誌名が発言又は個人のホームページ中に出現するか否かを判断する。もし、マスメディア辞書に登録された新聞・雑誌名が検出された場合には、出所探索部５０６は、当該新聞・雑誌名を解析データ格納部５１０に登録する（ステップＳ５７）。例えば第４Ｃ図の抽出情報を格納するための列３０８に格納する。
第２図の処理に戻って、発言・スレッド分析部５０７は、発言及びスレッド並びに個人ホームページについて、企業名辞書格納部５１５に格納されている企業名辞書、発言の対象の評価や話題のジャンルを特定するために事前に生成され且つルールセット格納部５１７に格納されているルールセット、及び掲示板等において用いられているハンドル名についてのハンドルＤＢ５１８を用いて分析処理を実施する（ステップＳ１３）。分析処理では、発言及びスレッドにおける言い回しをルールセット格納部５１７に登録されているルールセットと比較することにより、話題のジャンル、及び発言の対象企業等についての良い又は悪いといった評価を決定する。また、発言の根拠となるＵＲＬなどが記載されているか、当該ＵＲＬが企業名辞書に登録されたＵＲＬであるか、発言者の身元を表すメールアドレスやハンドル名が含まれるかといった事項から発言の信頼度を決定する。
ステップＳ１３の詳細を第１０図に示す。なお第１０図は一つの発言又は個人ホームページについての処理である。発言・スレッド分析部５０７は、まず、発言等の話題のジャンルの分類を行い、ジャンルを解析データ格納部５１０に登録する（ステップＳ６１）。例えば第４Ｃ図のジャンルの列３１０に格納する。発言等の話題のジャンルの分類については、米国特許公開公報２００２−００６９１９７−Ａ１等に開示されている技術を用いることができる。また、発言・スレッド分析部５０７は、発言等の対象企業等についての評価の分類を行い、評価の情報を解析データ格納部５１０に登録する（ステップＳ６３）。例えば第４Ｃ図の評価の列３０７に格納する。評価の分類は、企業に対して良い評価を行っているか、悪い評価を行っているかといった分類である。このステップＳ６１及びステップＳ６３の処理については、ルールセット格納部５１７に格納された発言等の話題のジャンルについてのルールセット、及び良い評価又は悪い評価についてのルールセットを用いて、発言・スレッド分析部５０７が判断する。これらのルールセットについては、業種毎に生成される。業種によって、ジャンルについての表現や、評価についての言い回しが異なると考えられるからである。ジャンルについては、掲示板自体がカテゴリ分けされている場合もあり、その情報を用いてもよい。評価については、良い評価、悪い評価だけでなく、所定の観点についての評価であるかといった判断を行うようにしてもよい。
発言・スレッド分析部５０７は、例えば第１１図に示すような処理を行って、ルールセットを生成する。すなわち、各業種につき各ジャンルの発言、並びに良い評価及び悪い評価の発言の正解セットを人手で作成し、例えばエキスパート・システム機能を有する発言・スレッド分析部５０７に入力する（ステップＳ８８）。そして発言・スレッド分析部５０７は、正解セットの学習を行って、ルールセットを生成し、ルールセット格納部５１７に格納する（ステップＳ８９）。なお、発言等の対象企業等についての評価の分類については、米国特許公開公報２００２−００６９１９７−Ａ１や日本公開特許公報特開２００２−２０２９８４号等に開示された技術を用いることができる。
第１０図の処理に戻って、次に、発言・スレッド分析部５０７は、発言等にメールアドレスが含まれるか判断する（ステップＳ６５）。もし、メールアドレスが発言等に含まれる場合には（ステップＳ６５：Ｙｅｓルート）、当該メールアドレスがフリーメールのメールアドレスか否かを判断する（ステップＳ６７）。フリーメールのメールアドレスか否かは、メールアドレスのドメイン部のパターン等から判断できる。もし、当該メールアドレスがフリーメールのメールアドレスである場合には（ステップＳ６７：Ｙｅｓルート）、フリーメールのメールアドレスに対応する信頼度を設定し、解析データ格納部５１０の信頼度の列３０９に登録する（ステップＳ６９）。なお、信頼度の列３０９には併せて当該発言等のページのランキング情報（被参照度。アクセス数が把握されている場合にはアクセス数も登録される場合もある。）も登録される。一方、発言等に含まれるメールアドレスが、フリーメールのメールアドレスではない場合には（ステップＳ６７：Ｎｏルート）、一般メールアドレスに対応する信頼度を設定し、解析データ格納部５１０の信頼度の列３０９に登録する（ステップＳ７１）。一般的に、発言者の身元を明らかにする情報としてはフリーメールのメールアドレスより一般のメールアドレスの方が信頼度が高いので、信頼度についても一般のメールアドレスに対してより高い値を与える。
ステップＳ６９又はステップＳ７１の後に、発言・スレッド分析部５０７は、検出したメールアドレスを解析データ格納部５１０に登録する（ステップＳ７３）。例えば解析データ格納部５１０の抽出情報を格納するための列３０８に格納する。そしてステップＳ７５に移行する。
次に、発言・スレッド分析部５０７は、発言等にＵＲＬが含まれるか判断する（ステップＳ７５）。ＵＲＬは発言の根拠として示されていることが多いためである。もし、ＵＲＬが発言等に含まれる場合（ステップＳ７５：Ｙｅｓルート）、当該ＵＲＬが企業名辞書に含まれるか判断する（ステップＳ７７）。もし、ＵＲＬが企業名辞書に含まれる場合には、発言・スレッド分析部５０７は、当該ＵＲＬが企業名辞書に含まれるＵＲＬである旨を解析データ格納部５１０に登録する（ステップＳ７９）。例えば抽出情報を格納するための列３０８に格納する。ステップＳ７９の後又はステップＳ７７においてＵＲＬが企業名辞書に含まれないと判断された場合、発言・スレッド分析部５０７は、リンク先ＵＲＬのランキング値（被参照度）を信頼度として解析データ格納部５１０に登録する（ステップＳ８１）。例えば解析データ格納部５１０の信頼度の列３０９に登録する。なお、発言等の中にメールアドレスも含まれている場合には、メールアドレスについての信頼度及びＵＲＬについての信頼度を加算するようにしても良い。また、発言等のランキング情報（被参照度。アクセス数が把握されている場合にはアクセス数も登録される場合もある。）についても併せて登録される。そして、ＵＲＬを解析データ格納部５１０に登録する（ステップＳ８３）。例えば抽出情報を格納するための列３０８に格納する。処理はステップＳ８５に移行する。
次に、発言・スレッド分析部５０７は、発言等にハンドル名が含まれるか判断する（ステップＳ８５）。ハンドル名は掲示板ではよく用いられるものであり、発言者を特定する情報であるが、それにより発言者を完全に特定できるわけではない。従って本実施の形態では発言数を指標として用いる。発言等にハンドル名が含まれる場合には、発言・スレッド分析部５０７は、解析データ格納部５１０にハンドル名を登録する（ステップＳ８６）。例えば抽出情報を格納するための列３０８に格納する。そして、発言・スレッド分析部５０７は、ハンドルＤＢ５１８において当該ハンドル名を検索し、そのカウントをインクリメントする（ステップＳ８７）。発言・スレッド分析部５０７は、ハンドルＤＢ５１８に当該ハンドル名が登録されていない場合には、ハンドル名及びカウント（ここでは「１」）をハンドルＤＢ５１８に登録する。そして次の処理に移行する。また、発言等にハンドル名を含まないと判断する場合には次の処理に移行する。
なお、ハンドル名の信頼度については、コンテンツ収集解析部５０１が一度に収集したコンテンツ情報全体についての処理が終了した時点においてハンドルＤＢ５１８に登録されていたカウント値を用いる。すなわち、コンテンツ情報全体についての処理が終了した時点において、発言・スレッド分析部５０７は、ハンドルＤＢ５１８の各ハンドル名についてのカウント値を解析データ格納部５１０に登録する。
最終的に信頼度を比較する場合には、正規化処理が必要な場合がある。例えば、一般メールアドレスに３０という信頼度、フリーメールのメールアドレスに１０という信頼度を与える場合、ＵＲＬに対する信頼度として用いられるリンク先ＵＲＬの被参照度については１００で除した値を用いたり、ハンドル名のカウント値についても２０で除した値を用いたりといったことが必要となる場合がある。
第２図のステップＳ１３の処理により、解析データ格納部５１０の信頼度の列３０９及びジャンルの列３１０、並びに抽出情報を格納するための列３０８に情報が登録される。
第２図においては次に統計処理部５０８が各種の統計処理を実施する（ステップＳ１５）。統計処理部５０８は、例えば、各業種における各ジャンルの良い又は悪い評価の数の合計と全体から見た割合や、発言中に出現した企業名の集計、並びにその良い又は悪い評価の集計、どのような観点での発言が多いか、どのような評価が多いかといった情報を計算する。また、発言等の信頼度や被参照度等のランキングの順番にデータを並べたりする場合もある。
統計処理部５０８は、例えば、第１２図のような情報を生成する。ここでは、製品情報、企業情報、株価情報、環境活動情報のそれぞれについて、業界Ａ、業界Ｂ、企業Ａ及び企業Ｂに関して良い評価（ＯＫ）の発言数と悪い評価（ＮＧ）の発言数とが含まれる。上向き矢印は前回処理時より数が増えていることを表し、横向き矢印は前回処理時とほぼ同じであることを表し、下向き矢印は前回処理時より数が減少していることを表している。
また、統計処理部５０８は、第１３図のような情報を生成する場合もある。すなわち、企業Ａに関する発言のうち良い評価の割合の時間変化を表すグラフである。
このような統計処理の結果は例えば解析データ格納部５１０に登録しておく。そして、ユーザ・インターフェース部５０９は、ユーザ端末３からの要求に応じて、解析データ格納部５１０に登録された情報を読み出し、ユーザ端末３に送信する（ステップＳ１７）。ユーザ端末３は、情報収集解析システム５からデータを受信し、表示装置に表示する。統計処理部５０８により処理したデータのみではなく、ユーザ・インターフェース部５０９が、例えば発言の信頼度や被参照度等のランキングでデータを並べ替え、その結果をユーザ端末３に送信し、ユーザにより指定されたキーワードなどにより解析データ格納部５１０を検索し、その検索結果をユーザ端末３に送信するような構成であってもよい。
ユーザは、ユーザ端末３の表示装置の表示内容により、どのような業種や企業に、どのような評価の発言がどの程度あったかについての情報、その発言の出所についての情報を取得することができる。株取引の面では、「風説の流布」に当たるような情報が存在しないか、またその情報の出所はどこかといった情報を取得できるようになる。また、これらの取得した情報については、信頼度や被参照度等のランキングを用いて、ユーザは、発言の影響度などについても考慮した判断を行うことができるようになる。
上で述べた業種用語辞書格納部５１４及び企業名辞書格納部５１５のデータについては、どのような手法にて作成しても良い。但し、コンテンツ収集解析部５０１が収集したコンテンツ情報を用いて生成することもできる。本実施の形態では、大量の情報の中から、特定の業種や分野の情報を区別して抽出し、分類する技術を用いて、第１図の辞書生成部５２０が業種用語辞書及びＵＲＬ企業名辞書並びに略称名辞書を生成する。
第１図の辞書生成部５２０の機能ブロック図を第１４図に示す。辞書生成部５２０には、ＵＲＬベース業種判定部５５０と、ＵＲＬベース略称判定部５５１と、リンクトポロジベース業種判定部５５２と、特徴語ベース業種判定部５５３と、特徴語辞書登録部５５４と、検索ログ解析部５５５とが含まれる。これらの処理部は、ＵＲＬ企業名辞書格納部５１５ｂにアクセスできるようになっている。また、ＵＲＬベース業種判定部５５０及びリンクトポロジベース業種判定部５５２はリンクトポロジＤＢ５１９のデータを用いて処理を実施する。特徴語ベース業種判定部５５３と、特徴語辞書登録部５５４と、検索ログ解析部５５５とは、業種用語辞書格納部５１４にアクセスできるようになっている。また、検索ログ解析部５５５は、検索ログ格納部５１１にアクセスできるようになっている。図では示していないが、検索ログ解析部５５５は、インターネット１を介してプロキシ・サーバ８や検索サイト・サーバ９にアクセスできるようになっている。また、検索ログ解析部５５５の一部の処理結果は解析データ格納部５１０に格納される。
次に第１５図乃至第２１図を用いて第１４図に示された辞書生成部５２０の処理について説明する。コンテンツ収集解析部５０１により収集され且つアーカイブ５１２に格納されたコンテンツ情報及びリンクトポロジＤＢ５１９に格納されたリンクトポロジ・データを用いて、ＵＲＬベース業種判定部５５０は、ＵＲＬを用いた業種判定・登録処理を実施する（ステップＳ９１）。最初はある程度人手でメンテナンスしたＵＲＬ企業名辞書を用いる。そして、ＵＲＬベース業種判定部５５０は、処理対象のＷｅｂページのＵＲＬとＵＲＬ企業名辞書に登録されたＵＲＬとを比較することにより、処理対象のＷｅｂページを公開している企業の業種を判定する。例えば、ＵＲＬ企業名辞書にｈｔｔｐ：／／ｗｗｗ．ｘｘｘ．ｃｏｍ，ｘｘｘ株式会社，コンピュータという項目が登録されている場合、処理対象のＷｅｂページのＵＲＬがｈｔｔｐ：／／ｗｗｗ．ｉｓｔ．ｘｘｘ．ｃｏｍであるならば、ｘｘｘが共通しているので、処理対象のＷｅｂページを公開している企業の業種の候補を「コンピュータ」とする。そして、ＵＲＬベース業種判定部５５０は、リンクトポロジＤＢ５１９に格納されたリンクトポロジ・データから、ｈｔｔｐ：／／ｗｗｗ．ｘｘｘ．ｃｏｍ以下のＷｅｂページと、ｈｔｔｐ：／／ｗｗｗ．ｉｓｔ．ｘｘｘ．ｃｏｍ以下のＷｅｂページに相互又は一方向のリンクが張られているか判断する。もし、リンクが張られていることが確認できれば、ＵＲＬベース業種判定部５５０は、処理対象のＷｅｂページのＴＩＴＬＥ等から企業名を抽出して、企業名、ｈｔｔｐ：／／ｗｗｗ．ｉｓｔ．ｘｘｘ．ｃｏｍ及び業種名であるコンピュータをＵＲＬ企業名辞書に登録する。
次に、ＵＲＬベース略称判定部５５１は、ＵＲＬ企業名辞書格納部５１５ｂに格納されたＵＲＬ企業名辞書を参照して、ＵＲＬを用いた略称判定・登録処理を実施する（ステップＳ９３）。処理対象のＷｅｂページに、
〈ａｈｒｅｆ＝″ｈｔｔｐ：／／ｗｗｗ．ｘｘｘ．ｃｏｍ″〉スリーエクス〈／ａ〉
という記述があった場合、ＵＲＬベース略称判定部５５１は、
ｈｔｔｐ：／／ｗｗｗ．ｘｘｘ．ｃｏｍを用いてＵＲＬ企業名辞書を検索する。登録されていれば、ｈｔｔｐ：／／ｗｗｗ．ｘｘｘ．ｃｏｍを使用している企業の正式名称を得ることができる。そして、ＵＲＬベース略称判定部５５１は、略称名辞書格納部５１５ａに格納された略称名辞書を正式名称で検索し、正式名称が登録されているか確認する。もし登録されていれば、「スリーエクス」という略称名が正式名称に対応して登録されているか確認する。もし、登録されていなければ、「スリーエクス」という略称名を略称名辞書に登録する。正式名称が登録されていない場合には、正式名称及び「スリーエクス」という略称名を登録する。但し、登録する略称名は、「ここ」等の、略称ではない典型的な文言ではないということを確認する必要がある。
そして、リンクトポロジベース業種判定部５５２は、リンクトポロジＤＢ５１９に格納されたリンクトポロジ・データを用いて、業種判定・登録処理を実施する（ステップＳ９５）。リンクトポロジベース業種判定部５５２は、ＵＲＬ企業名辞書に登録されている企業サイトとリンク関係が密となっているページを同業種の企業が公開しているＷｅｂページと判断し、当該ページのＵＲＬ、当該ページ中の情報を用いて抽出された企業名及び業種をＵＲＬ企業名辞書に登録する。既にＵＲＬ等が登録済みであれば、業種を登録する。また、リンクトポロジ・データから特定業種のハブサイトが抽出できた場合には、リンクトポロジベース業種判定部５５２は、当該ハブサイトからリンクされているページを同業種と判定し、リンクされているページのＵＲＬ、当該ページ中の情報を用いて抽出された企業名及び業種をＵＲＬ企業名辞書に登録する。既にＵＲＬ等が登録済みであれば、業種を登録する。
また、特徴語ベース業種判定部５５３は、処理対象のＷｅｂページから所定のアルゴリズムに従って特徴語を抽出し、当該特徴語により業種用語辞書を検索して、処理対象のＷｅｂページの業種判定・登録処理を実施する（ステップＳ９７）。Ｗｅｂページから抽出された特徴語が、所定の基準以上に特定の業種について業種用語辞書に登録された用語と一致する場合には、当該特定の業種を処理対象のＷｅｂページの業種と判断する。そして、特徴語ベース業種判定部５５３は、ＷｅｂページのＵＲＬ、当該ページ中の情報を用いて抽出された企業名及び業種をＵＲＬ企業名辞書に登録する。既にＵＲＬ等が登録済みであれば、業種を登録する。
さらに、特徴語辞書登録部５５４が、業種が特定されたページから特徴語を抽出し、当該特徴語を業種用語辞書に登録する（ステップＳ９９）。上で述べた処理等により業種が特定されたページから特徴語を抽出し、特定された業種について、抽出された特徴語を業種用語辞書に含める候補とする。特徴語辞書登録部５５４は、このような処理を多くのページについて実施し、特定の特徴語が同じ業種について所定回数以上抽出された場合には、当該特定の特徴語をその業種に対して業種用語辞書に登録する。また、抽出頻度が高いほど重要な特徴語であるとして、抽出頻度が高い特徴語から登録する。新出度合いから重要度を判断して、登録するようにしてもよい。また、業種用語辞書をフォーマル版とインフォーマル版とに分けるようにしても良い。例えば、処理対象のＷｅｂページが掲示板や個人ホームページの場合には、業種用語辞書のインフォーマル版に抽出された特徴語を登録するようにする。
このようにして、辞書生成部５２０は、アーカイブ５１２に登録されたコンテンツ情報及びリンクトポロジＤＢ５１９に格納されたリンクトポロジ・データを用いて業種用語辞書及びＵＲＬ企業名辞書並びに略称名辞書を整備する。
さらに、辞書生成部５２０の検索ログ解析部５５５は、第１６図乃至第２１図で示されるような処理を行う。
第１６図は検索ログ解析部５５５の処理の概要を示すフローチャートである。検索ログ解析部５５５は、インターネット１を介してプロキシ・サーバ８及び検索サイト・サーバ９にアクセスして、プロキシ・ログ格納部８４及び検索ログ格納部９１に格納されているログ・データを取得し、検索ログ格納部５１１に格納する（ステップＳ２０１）。なお、このステップは検索ログ解析部５５５以外の処理部又は情報収集解析システム５の管理者などが行う場合もある。検索ログ格納部９１から取得される検索ログ・データの一例を以下に示す。
“２００１／０９／２３：００：００：１８ｕｒｌ＝ｈｔｔｐ：／／ｍｆｙ．ｍｍｂｒ．ｅａｓｅ．ｃｏｍ／ｉｗｔｅ．ｈｔｍｌｒｅｆ＝ｈｔｔｐ：／／ｐａｒａ．ｃａｂ．ｉｎｗｂ．ｎｅ．ｊｐ／ｃｇｉｂｉｎ／ｐａｒａ？Ｑｕｅｒｙｓｔｒｉｎｇ＝％８ＤＬ％９３％８７％８３％５Ｃ％８１％５Ｂ％８３ｖｂａｓｅ＝ＮＯＲＭＡＬ”
この例では、日時（２００１／０９／２３：００：００：１８）と、「ｕｒｌ＝」の後の飛び先ＵＲＬ（ｈｔｔｐ：／／ｍｆｙ．ｍｍｂｒ．ｅａｓｅ．ｃｏｍ／ｉｗｔｅ．ｈｔｍｌ）と、「ｒｅｆ＝」の後のクエリと、検索状態（ｂａｓｅ＝ＮＯＲＭＡＬ）とが含まれる。なお、クエリは下線で示したようにエンコードされた検索キーワードが含まれる。また、上の例ではＩＰアドレスがログに含まれていないが、含まれる場合もある。
また、プロキシ・ログ格納部８４から取得されるログ・データの一例を以下に示す。なお、ここでは２つのログを示している。
“１０３４８１７３４８．９６３１３３．２５．８８．１７１１１４４１ＧＥＴ
ｈｔｔｐ：／／ｐａｒａ．ｃａｂ．ｉｎｗｂ．ｎｅ．ｊｐ／ｃｇｉｂｉｎ／ｐａｒａ？Ｑｕｅｒｙｓｔｒｉｎｇ＝％８ＤＬ％９３％８７％８３％５Ｃ％８１％５Ｂ％８３ｖ“
“１０３４８１７３４８．９６８１３３．２５．８８．１７１１４４１ＧＥＴ
ｈｔｔｐ：／／ｔａｉｓｅｎ．ｍｙｃｏｍ．ｃｏ．ｊｐ／ｔａｉｓｅｎ／ｉｍａｇｅ／ｓｉｄｅ／ｔｏｐ０１．ｇｉｆ”
この例では、最初の数字は所定の形式で表された時刻情報である。また、ＩＰアドレス（１３３．２５．８８．１７１）と、オブジェクト・サイズと、処理タイプ（ＧＥＴ）と、アクセス先ＵＲＬとが含まれている。最初のログは、下線で示したようにエンコードされた検索キーワードを含む検索サイトへのクエリ（ＵＲＬ）を表しており、次のログは、同じクライアントによる別ＵＲＬへのアクセスを表している。本実施の形態では検索サイトへのクエリの後に同じクライアントがアクセスしたＵＲＬを飛び先ＵＲＬと判断して処理を実施する。すなわち、プロキシ・ログ格納部８４から取得されるログ・データについては、２つのログにて検索ログ格納部９１に格納された１つの検索ログに相当するデータが構成されることとなる。
なお、検索サイト・サーバ９もプロキシ・サーバ８も負荷分散のため複数のサーバで構成される場合がある。この場合には、それぞれのサーバのプロキシ・ログ格納部８４又は検索ログ格納部９１にログが分散するので、全てのサーバのプロキシ・ログ格納部８４又は検索ログ格納部９１のデータを取得して１つにまとめ、時間順に並べ替える必要がある。
次に、検索ログ解析部５５５は、収集されたログの正規化処理を実施する（ステップＳ２０３）。これ以降の処理のためにデータを絞り込むと共に、検索キーワードの正規化なども実施する。この処理の詳細を第１７図及び第１８図に示す。
第１７図は検索ログ格納部９１から取得されたデータについての処理フローを示している。検索ログ解析部５５５は、検索ログ格納部５１１から処理すべきデータをメモリに読み出す（ステップＳ２１１）。そして、読み出したデータの各ログについて日時、キーワード及び飛び先ＵＲＬのデータを抽出し、メモリに格納する（ステップＳ２１３）。なお、キーワードについてはエンコードされているので、ここでデコードし、メモリに格納する（ステップＳ２１５）。そして、デコードされたキーワードについて正規化を行い、メモリに格納する（ステップＳ２１７）。ここで正規化は、全角の英数文字を半角の英数文字に変換したり、大文字を小文字に変換したり、半角かな文字を全角かな文字に変換したり、表記のゆれを整える処理である。表記のゆれについては、日本語としては「コンピューター」を「コンピュータ」に直すような処理や、英語では「ｓｔｕｄｉｅｓ」を「ｓｔｕｄｙ」に直すような処理である。
そして検索ログ解析部５５５は、所定時間内に同一キーワードのログが含まれるか判断する（ステップＳ２１９）。これはユーザが間違って何度も連続して同一キーワードの検索指示を行ってしまうような場合や、検索結果の複数のＵＲＬを順番に見ているような場合を検出するためである。複数のＵＲＬを順番に見ているような場合には、最後に遷移した飛び先ＵＲＬが本当に必要な内容が開示されているＷｅｂページであるという仮定の下処理を行う。もし、所定時間内に同一キーワードを含むログが含まれると判断された場合には、当該同一キーワードを含むログのうち最終アクセスのログ以外を削除する（ステップＳ２２１）。そして元の処理に戻る。一方、所定期間内に同一キーワードのログが含まれていないと判断された場合には、元の処理に戻る。
これにより処理不要なデータを削除して、処理しなければならないデータ量を減少させて、処理速度を上げることができると共に、より適切な処理結果を得ることができるようになる。
第１８図はプロキシ・ログ格納部８４から取得されたデータについての処理フローを示している。検索ログ解析部５５５は、検索ログ格納部５１１から処理すべきデータをメモリに読み出す（ステップＳ２３１）。次に、読み出したデータのうち各ログについて日時、ＵＲＬ及びクライアントＩＰアドレスを抽出し、メモリに記憶する（ステップＳ２３３）。このように抽出されたデータを含むログをクライアントＩＰアドレス毎にまとめて、時間順に並べ替える（ステップＳ２３５）。そして、所定の検索サイトへのアクセスを表すログを抽出すると共に、当該ログのＵＲＬからキーワードを抽出し、メモリに格納する（ステップＳ２３７）。このため検索サイトのＵＲＬを予め登録しておき、当該検索サイトのＵＲＬを用いて検索サイトへのアクセスを表すログを抽出する。そして、当該ログのＵＲＬの規則性からキーワードを切り出す。検索サイトへのアクセスを表すログを抽出すると、検索ログ解析部５５５は、当該抽出されたログの直後のログのＵＲＬを飛び先ＵＲＬとして抽出し、メモリに格納する（ステップＳ２３９）。
このように抽出されたキーワード及び飛び先ＵＲＬと、例えばキーワードを含むログの日時データとによりログ・レコードを生成し、メモリに格納する（ステップＳ２４１）。このログ・レコードに含まれるキーワードについてはエンコードされているので、ここでデコードし、デコード後のキーワードをメモリに格納する（ステップＳ２４３）。そして、デコードされたキーワードについて正規化を行い、メモリに格納する（ステップＳ２４５）。この正規化はステップＳ２１７と同様の処理である。
そして検索ログ解析部５５５は、所定時間内に同一キーワードのログ・レコードが含まれるか判断する（ステップＳ２４７）。もし、所定時間内に同一キーワードを含むログが含まれると判断された場合には、当該同一キーワードを含むログのうち最終アクセスのログ・レコード以外を削除する（ステップＳ２４９）。そして元の処理に戻る。一方、所定期間内に同一キーワードのログが含まれていないと判断された場合には、元の処理に戻る。
これにより処理不要なデータを削除して、処理しなければならないデータ量を減少させて、処理速度を上げることができると共に、より適切な処理結果を得ることができるようになる。
第１６図の説明に戻って、次に検索ログ解析部５５５は集計処理を実施する（ステップＳ２０５）。この集計処理の詳細について第１９図に示す。
集計処理として検索ログ解析部５５５は、飛び先ＵＲＬ毎に、アクセス数と使用されたキーワードの種類数をカウントし、カウント結果をメモリに格納する（ステップＳ２５１）。２以上のキーワードが同時に使用された場合にはそのセットを１種類と判断することも可能である。そして、飛び先ＵＲＬをその階層構造に基づきサイト毎にまとめ、サイト毎にアクセス数と使用されたキーワードの種類数を集計し、集計結果をメモリに格納する（ステップＳ２５３）。本実施の形態においてサイトは、ＵＲＬのドメイン部又はドメイン部及び１つ下の階層のディレクトリ部のいずれかを意味する。
このようにすることにより各ページのアクセス数及び使用されたキーワードの種類数が把握されると共に、各ページを配下に有するサイト毎のアクセス数及び使用されたキーワードの種類数を把握することができるようになる。
第１６図の説明に戻って、次に検索ログ解析部５５５は、サイト種別判定処理及び登録処理を実施する（ステップＳ２０７）。このサイト種別判定処理及び登録処理の詳細を第２０図に示す。まず、検索ログ解析部５５５は、各サイトをアクセス数、使用されたキーワードの種類数でソートする（ステップＳ２６１）。これにより各サイトの相対的なアクセス数の多寡、使用されたキーワードの種類数の多寡が分かるようになる。そして、飛び先サイトを１つ選択し（ステップＳ２６３）、当該飛び先サイトのアクセス数及び使用キーワードの種類数が所定基準以上であるか判断する（ステップＳ２６５）。より具体的にはアクセス数についての所定基準と当該飛び先サイトのアクセス数とを比較し、使用キーワードの種類数についての所定基準と当該飛び先サイトの使用キーワードの種類数とを比較する。
そして当該飛び先サイトのアクセス数及び使用キーワードの種類数が所定基準以上であると判断された場合には（ステップＳ２６５：Ｙｅｓルート）、本実施の形態では当該飛び先サイトはＩＳＰ（ＩｎｔｅｒｎｅｔＳｅｒｖｉｃｅＰｒｏｖｉｄｅｒ）のサイトであると判断し、当該サイトＵＲＬが未登録であれば、ＵＲＬ企業名辞書に、サイトＵＲＬ、企業名、業種名（ＩＳＰ）、使用されたキーワード及びランキング情報を登録する（ステップＳ２６７）。企業名についてはＴＩＴＬＥタグの値を用いる。また、ランキング情報については、アクセス数及びアーカイブ５１２に格納されている被参照度のデータを登録する。このようにＵＲＬ企業名辞書が拡充される。また、業種（ＩＳＰ）に対応して使用されたキーワードを業種用語辞書に登録する（ステップＳ２６９）。このように業種用語辞書が拡充される。
また、所定の条件を満たす当該飛び先サイトの配下のページを抽出する（ステップＳ２７１）。所定の条件は、例えばアクセス数が所定基準以上であること、又はアクセス数の時間経過のデータを得ることができる場合にはアクセス数が所定基準以上に増加していることである。そして、抽出されたページのＵＲＬを個人ホームページのＵＲＬであるとみなし、ＵＲＬ、業種及びランキング情報を解析データ格納部５１０に登録する（ステップＳ２７３）。例えば、第４Ｂ図の段階で、種別を「２」として解析データ格納部５１０に格納する。この場合には、本ステップにおいて、例えば特徴語ベース業種判定部５５３が当該Ｗｅｂページの内容から業種用語辞書に基づき業種を判定する。なお、第２図のステップＳ３の代わりに本ステップが行われたものとするならば、第４Ａ図の段階で解析データ格納部５１０に格納するようにしても良い。また、ランキング情報については、上で述べた処理にて取得されたアクセス数と、アーカイブ５１２に格納された被参照度のデータを登録する。アクセス数は被参照度を補完するランキング情報であり、被参照度が同じであればアクセス数により重要度、影響度、信頼度などを判断する。処理はステップＳ２８３に移行する。
ステップＳ２６５でアクセス数及び使用キーワード種類数が所定の基準未満であると判断された場合には（ステップＳ２６５：Ｎｏルート）、アクセス数が所定の範囲内であって且つ使用キーワード種類数が所定基準未満であるか判断する（ステップＳ２７５）。例えば、アクセス数が、上で述べた所定の基準未満であるが、第２の基準以上であるか判断し、さらに使用キーワード種類数が所定基準未満であるか判断する。本実施の形態においてこのような条件を満たすサイトは、一般的な企業のサイトであると判断する。従って、アクセス数が所定の範囲内であって且つ使用キーワード種類数が所定基準未満であると判断された場合には（ステップＳ２７５：Ｙｅｓルート）、当該サイトＵＲＬが未登録であれば、ＵＲＬ企業名辞書に、サイトＵＲＬ、企業名、業種名、ランキング情報及び使用されたキーワードを登録する（ステップＳ２７７）。このようにＵＲＬ企業名辞書が拡充される。なお、業種名については、例えば特徴語ベース業種判定部５５３が業種用語辞書に基づき当該Ｗｅｂページの内容から判定して、ＵＲＬ企業名辞書に登録する。企業名については当該ＷｅｂページのＴＩＴＬＥタグの値を用いる。使用されたキーワードは特徴キーワードとして登録される。ランキング情報は、上で述べた処理により取得されたアクセス数と、アーカイブ５１２に格納されている被参照度のデータを登録する。このようにＵＲＬ企業名辞書にもランキング情報が登録されるようになり、個人ホームページなどにおいて情報の出所を表す情報としてＵＲＬが検出された場合に、検出されたＵＲＬのランキング情報に基づいて当該個人ホームページなどの信頼度を計算することができる。処理はステップＳ２８３に移行する。
ステップＳ２７５においてアクセス数が所定範囲内ではなく且つ使用キーワードの種類数が所定基準未満ではないと判断された場合には（ステップＳ２７５：Ｎｏルート）、アクセス数及び使用キーワードの種類数が所定の基準未満であるか判断する（ステップＳ２７９）。すなわちアクセス数がアクセス数についての基準未満であり、且つ使用キーワードの種類数が使用キーワードの種類数についての基準未満であるが判断する。もし、アクセス数及び使用キーワード種類数が所定の基準未満である場合には（ステップＳ２７９：Ｙｅｓルート）、本実施の形態では個人ホームページと同レベルのサイトであると判断する。従って、ＵＲＬ、業種及びランキング情報を解析データ格納部５１０に登録する（ステップＳ２８１）。例えば、第４Ｂ図の段階で、種別を「３」として解析データ格納部５１０に格納する。この場合には、本ステップにおいて、例えば特徴語ベース業種判定部５５３が当該Ｗｅｂページの内容から業種用語辞書に基づき業種を判定する。なお、第２図のステップＳ３の代わりに本ステップが行われたものとするならば、第４Ａ図の段階で解析データ格納部５１０に格納するようにしても良い。また、ランキング情報については、上で述べた処理にて取得されたアクセス数と、アーカイブ５１２に格納された被参照度のデータを登録する。このような処理を実施することにより、個人等の小規模な組織がドメインを取得して意見を述べたり噂話を行ったりする場合に対処することができる。処理はステップＳ２８３に移行する。ステップＳ２７９においてアクセス数及び使用キーワード種類数が所定基準未満ではないと判断された場合にもステップＳ２８３に移行する。
ステップＳ２８３では、全ての飛び先サイトについて処理したか判断する。未処理の飛び先サイトが存在する場合には、ステップＳ２６３に戻って、未処理の飛び先サイトについての処理を実施する。一方、全ての飛び先サイトについて処理したと言える場合には処理を終了する。
以上のような処理を実施することにより、検索ログなどからＵＲＬ企業名辞書及び業種用語辞書を拡充させると共に注目すべきサイトやＵＲＬを特定することができるようになる。
なお、辞書生成部５２０の検索ログ解析部５５５は、第１６図乃至第２０図で示される処理のほか、検索ログ格納部５１１に格納されたデータを用いて以下のような処理を実施する。
検索ログは、上で述べたように、少なくともタイムスタンプ（日時）と、検索キーワードと、飛び先ＵＲＬとを含む。例えば検索ログ解析部５５５は、検索ログ格納部５１１に格納された検索ログに対してキーワード・グルーピング及びＵＲＬグルーピングを実施する。キーワード・グルーピングは、（ａ）１度の検索においてＡＮＤ条件で入力された複数の検索キーワードのグルーピング、（ｂ）連続する複数回の検索においてＡＮＤ条件で入力された複数の検索キーワードのグルーピング、及び（ｃ）同じ飛び先ＵＲＬを含む複数の検索ログにおける複数の検索キーワードのグルーピングを含む。ＵＲＬグルーピングは、（ａ）ＡＮＤ条件で連続して行われた各検索の検索ログに含まれる飛び先ＵＲＬのグルーピング、及び（ｂ）同じキーワードを含む検索ログにおける飛び先ＵＲＬのグルーピングを含む。
これらのグルーピングにより生成されるキーワード・セット及び飛び先ＵＲＬセットは、一旦記憶装置に格納される。そして、初期的にはキーワード・セット及び飛び先ＵＲＬセットは、表示装置に表示したり、印刷装置に出力したりして、辞書の管理者に提示される。そして、辞書の管理者は、各キーワード・セット及び飛び先ＵＲＬセットについて業種及び企業名を判定し、各キーワード・セット及び飛び先ＵＲＬセットを、判定結果である業種及び企業名に従って業種用語辞書及び企業名辞書若しくは企業名辞書に登録する。また、各キーワード・セット及び飛び先ＵＲＬセットに対応して判定結果である業種及び企業名をファイルやテーブルに記録しておく。
例えば「（Ａ企業名）＆コンピュータ」という検索キーワードが１回の検索で入力された場合や、「（Ａ企業名）」で検索した後にＡＮＤ条件で「コンピュータ」という検索キーワードの検索が連続して行われた場合には、Ａ企業又はＡ企業の業種に対応して「コンピュータ」という用語を登録する。また、「ＡＢＣ」、「ＤＥＦ」などの検索キーワードを含む検索ログにおいて同一企業のＵＲＬが飛び先ＵＲＬとなっているということで当該検索キーワードがグルーピングされている場合には、当該企業又は当該企業の業種に対応して「ＡＢＣ」、「ＤＥＦ」などの検索キーワードを登録する。
また、「（Ａ企業名）」という検索の後にＡＮＤ条件で「コンピュータ」といった検索キーワードの検索が連続して行われ、飛び先ＵＲＬセットとして抽出されたＵＲＬのいずれかがＡ企業のＵＲＬ以外のＵＲＬであってドメインも異なるようなＵＲＬである場合には、関連ＵＲＬとして、当該抽出されたＵＲＬをＡ企業又はＡ企業の業種に対応して登録する。また、「（Ａ企業）」という同一検索キーワードを含む検索ログの飛び先ＵＲＬセットのいずれかがＡ企業のＵＲＬ以外のＵＲＬであってドメインも異なるようなＵＲＬである場合には、関連ＵＲＬとして、当該飛び先ＵＲＬをＡ社又はＡ社の業種に対応して登録する。
ある程度、辞書の管理者が人手で業種及び企業名を判定して、各キーワード・セット及び飛び先ＵＲＬセットに対応して判定結果である業種及び企業名が記録されると、これらの記録を用いて、新規なキーワード・セット又は飛び先ＵＲＬセットに対して業種及び企業名の判定を例えば検索ログ解析部５５５により行うことができるようになる。すなわち、新規なキーワード・セット又は飛び先ＵＲＬセットに類似するキーワード・セット又は飛び先ＵＲＬセットを記録の中から抽出し、当該抽出されたキーワード・セット又は飛び先ＵＲＬセットに対応して記録された業種及び企業名を、新規なキーワード・セット又は飛び先ＵＲＬセットに割り当てるようにする。そして、新規なキーワード・セット又は飛び先ＵＲＬセットのうち未登録のキーワード又は飛び先ＵＲＬを、割当結果である業種及び企業名に従って業種用語辞書及び企業名辞書若しくは企業名辞書に登録する。
さらに、第２１図に示すような処理も実施される。すなわち、検索ログ解析部５５５は、検索ログ格納部５１１に格納された検索ログを用いて、業種指定された状態における検索ログを抽出し、当該検索ログにおける検索キーワードを業種用語辞書に登録する（ステップＳ１０１）。例えば、検索キーワードに業種名を表す文言が用いられている場合や、検索キーワードとは別に検索条件として業種指定を行うことができるような場合等に適用可能である。なお、抽出された検索ログにおける検索キーワードを、業種用語辞書のインフォーマル版に登録するようにしても良い。また、検索ログ解析部５５５は、検索ログにおけるユーザの飛び先ＵＲＬがＵＲＬ企業名辞書に登録されていれば、当該ＵＲＬに対応して検索キーワードを特徴キーワードとしてＵＲＬ企業名辞書に登録する（ステップＳ１０３）。例えば、「ＧＨＩ」という検索キーワードを含む検索ログにＵＲＬ企業名辞書に登録済みのＵＲＬが飛び先ＵＲＬとして含まれる場合には、「ＧＨＩ」を飛び先ＵＲＬの企業の特徴キーワードとしてＵＲＬ企業名辞書に登録する。
このようにすることにより、検索ログを用いて業種用語辞書の拡充を図ることができるようになる。また、ＵＲＬ企業名辞書の特徴キーワードについても拡充することができる。
以上本発明の一実施の形態を述べたが、本発明はこれに限定されるものではない。すなわち、第１図に示された情報収集解析システム５内の機能ブロック分けについては一例であって、他の分け方であっても良い。また、第２図の処理フローにおいて、出所探索処理（ステップＳ１１）の実行順番については、例えば発言及びスレッドの抽出（ステップＳ７）と共に又はその後に実行するような構成であってもよい。第９図においても、ステップＳ５１及びステップＳ５３と、ステップＳ５５及びステップＳ５７との順番入れ替えも可能である。第１０図においても、ステップＳ６１、ステップＳ６３、ステップＳ６５乃至Ｓ８７の順番を入れ替えることも可能である。第１４図における機能ブロック分けについても一例であって、他の分け方であっても良い。第１５図における処理ステップは、その実行順番は入れ替え可能である。
上では企業についての情報収集及び解析について述べたが、書評等を対象としても良い。また、第１２図及び第１３図に、ユーザ・インターフェース部５０９の出力の一例を示したが、例えば会社名だけを抽出するのではなく、例えば掲示板や個人ホームページから特定の会社の商品名などもいっしょに抽出して、例えば抽出情報を格納するための列３０８（第４Ｃ図）に格納しておく。そして、例えば第２２図に示すような情報をユーザ・インターフェース部５０９がユーザ端末３に出力するようにしてもよい。すなわち、各企業の各商品について、各掲示板や各個人ホームページにおいて何回程度良い評価（ＧＯＯＤ）が行われているか又は何回程度悪い評価（ＢＡＤ）が行われているかを解析データ格納部５１０に格納されたデータについて集計して、ユーザに対して提示するものである。
また、第２０図の処理フローにおいて、さらにアクセス数及び使用されるキーワード種類数の基準値を適切に決定することによりさらに詳細にサイトを分類することができるようになる。例えば、あるサイトの配下に使用キーワードの種類数が多いページがあまりない場合には当該サイトをニュース提供サイトと判断するようなことも可能である。
【図面の簡単な説明】
第１図は、本発明の一実施の形態に係るシステム概要を説明するための図である。
第２図は、情報収集解析システムの処理フローの一例を示す図である。
第３Ａ図及び第３Ｂ図は、掲示板要素格納部に格納されるデータの一例を示す図である。
第４Ａ図、第４Ｂ図及び第４Ｃ図は、解析データ格納部に格納されるデータの状態変化の一例を示す図である。
第５図は、業種用語辞書格納部に格納されるデータの一例を示す図である。
第６図は、発言の抽出処理についての処理フローの一例を示す図である。
第７図は、スレッドの抽出処理についての処理フローの一例を示す図である。
第８Ａ図及び第８Ｂ図は、企業名辞書格納部に格納されるデータの一例を示す図である。
第９図は、出所探索処理についての処理フローの一例を示す図である。
第１０図は、発言及びスレッドの分析処理についての処理フローの一例を示す図である。
第１１図は、ルールセットの生成処理フローの一例を示す図である。
第１２図は、統計処理部の処理結果の一例を示す図である。
第１３図は、統計処理部の処理結果の一例を示す図である。
第１４図は、辞書生成部の機能ブロックの一例を表す図である。
第１５図は、辞書生成部の処理フローの一例を示す図である。
第１６図は、検索ログ解析部の処理フローの一例を示す図である。
第１７図は、検索ログ解析部の第１のログ正規化処理の一例を示す図である。
第１８図は、検索ログ解析部の第２のログ正規化処理の一例を示す図である。
第１９図は、検索ログ解析部の集計処理の一例を示す図である。
第２０図は、検索ログ解析部のサイト種別判定処理及び登録処理の一例を示す図である。
第２１図は、検索ログ解析部の処理フローの一例を示す図である。
第２２図は、統計処理部等の処理結果の一例を示す図である。

Claims

収集されたコンテンツ情報の中から個人の意見の開示単位を抽出する抽出ステップと、
前記個人の意見の対象を特定する対象特定ステップと、
前記個人の意見の開示内容を解析することにより前記対象についての前記個人の評価を特定する評価特定ステップと、
を含むコンテンツ情報解析方法。
前記抽出ステップが、
個人の意見が含まれるコンテンツ情報の単位を特定する特定ステップと、
特定された前記コンテンツ情報の単位から前記個人の意見の開示単位を抽出するステップと、
を含む請求項１記載のコンテンツ情報解析方法。
前記特定ステップが、前記コンテンツ情報の単位毎の被参照度が高い順番に実施されることを特徴とする請求項２記載のコンテンツ情報解析方法。
前記抽出ステップが、
前記個人の意見の参照元を辿ることにより前記個人の意見の開示単位のグループを検出するステップ
を含む請求項１記載のコンテンツ情報解析方法。
前記抽出ステップが、
前記個人の意見の対象についてのカテゴリを特定するカテゴリ特定ステップ
を含むことを特徴とする請求項１記載のコンテンツ情報解析方法。
前記評価特定ステップにおいて、
前記個人の意見の対象についてのカテゴリに基づいて前記個人の意見の開示内容を解析することにより、前記対象についての前記個人の評価を特定する
ことを特徴とする請求項５記載のコンテンツ情報解析方法。
前記個人の意見の根拠となり得る情報が当該個人の意見の開示単位に含まれるか判断し、含まれる場合には当該根拠となり得る情報を特定するステップ
をさらに含む請求項１記載のコンテンツ情報解析方法。
前記個人の意見の開示内容についてのジャンルを特定するステップ
をさらに含む請求項１記載のコンテンツ情報解析方法。
前記個人の意見の開示単位の信頼度を決定する信頼度決定ステップ
をさらに含む請求項１記載のコンテンツ情報解析方法。
前記信頼度決定ステップが、
前記個人の意見の開示単位に前記個人の身元を表す情報が含まれているか判断するステップ
を含む請求項９記載のコンテンツ情報解析方法。
前記信頼度決定ステップが、
前記個人の意見の根拠となり得る情報が当該個人の意見の開示単位に含まれているか判断するステップ
を含む請求項９記載のコンテンツ情報解析方法。
前記対象特定ステップにおいて、
少なくともユニフォームリソースロケータ（ＵＲＬ）と企業名と略称と業種とについての辞書を用いて、前記個人の意見の対象を特定する
ことを特徴とする請求項１記載のコンテンツ情報解析方法。
収集されたコンテンツ情報のＵＲＬ及び前記辞書に登録済みの類似のＵＲＬを用いて、企業名に対応する業種に関する情報を前記辞書に登録するステップ
をさらに含む請求項１２記載のコンテンツ情報解析方法。
収集されたコンテンツ情報のリンク元の文字情報及びリンク先のＵＲＬを用いて、略称を前記辞書に登録するステップ
をさらに含む請求項１２記載のコンテンツ情報解析方法。
収集されたコンテンツ情報のリンク関係を解析することにより得られるリンクトポロジの情報を用いて企業名に対応する業種に関する情報を前記辞書に登録するステップ
をさらに含む請求項１２記載のコンテンツ情報解析方法。
コンテンツ情報から特徴語を抽出し、各業種についての特徴語を備えた第２の辞書を用いて業種を特定して、企業名に対応する業種に関する情報を前記辞書に登録するステップ
をさらに含む請求項１２記載のコンテンツ情報解析方法。
前記カテゴリ特定ステップにおいて、
各業種に対応する特徴語についての第２の辞書を用いて、前記個人の意見の対象である企業の業種を特定する
ことを特徴とする請求項５記載のコンテンツ情報解析方法。
業種の特定されたコンテンツ情報から特徴語を抽出し、当該特徴語を前記業種に対応して前記第２の辞書に追加するステップ
をさらに含む請求項１６記載のコンテンツ情報解析方法。
コンテンツ情報に対する検索ログにおいて、業種が既に指定されている状態における検索のキーワードを識別し、当該キーワードを前記第２の辞書に特徴語として登録するステップ
をさらに含む請求項１６記載のコンテンツ情報解析方法。
コンテンツ情報に対する検索ログに含まれる、検索者の飛び先ＵＲＬが前記辞書に含まれているか判断するステップと、
含まれていると判断された場合には、前記検索ログに含まれる検索キーワードを前記辞書に追加するステップと、
をさらに含む請求項１２記載のコンテンツ情報解析方法。
各々検索キーワード及び飛び先ＵＲＬを含む、コンテンツ情報に対する複数の検索ログを解析し、アクセス数及び検索キーワードの種類数に基づき個人ホームページを階層下に含むサイトを特定するステップと、
特定された前記サイトの階層下に含まれる個人ホームページを前記個人の意見の開示単位として抽出するステップと、
をさらに含む請求項１記載のコンテンツ情報解析方法。
各々検索キーワード及び飛び先ＵＲＬを含む、コンテンツ情報に対する複数の検索ログを解析し、アクセス数及び検索キーワードの種類数に基づき個人又は小規模組織のサイトを前記個人の意見の開示単位として抽出するステップ、
をさらに含む請求項１記載のコンテンツ情報解析方法。
各々検索キーワード及び飛び先ＵＲＬを含む、コンテンツ情報に対する複数の検索ログを解析し、アクセス数及び検索キーワードの種類数に基づき個人ホームページを階層下に含むサイトを特定するステップと、
特定された前記サイトについての情報を、前記辞書に登録するステップと、
をさらに含む請求項１２記載のコンテンツ情報解析方法。
各々検索キーワード及び飛び先ＵＲＬを含む、コンテンツ情報に対する複数の検索ログを解析し、アクセス数及び検索キーワードの種類数に基づき企業サイトを特定するステップと、
特定された前記企業サイトについての情報を、前記辞書に登録するステップと、
をさらに含む請求項１２記載のコンテンツ情報解析方法。
収集されたコンテンツ情報の中から個人の意見の開示単位を抽出するステップと、
前記個人の意見の対象を特定するステップと、
前記個人の意見の開示単位の信頼度を決定するステップと、
を含むコンテンツ情報解析方法。
各々検索キーワード及び飛び先ＵＲＬを含む、コンテンツ情報に対する複数の検索ログを取得する取得ステップと、
所定の規則に従って各飛び先ＵＲＬについてアクセス数及び検索キーワードの種類数をカウントするカウントステップと、
ＵＲＬの構造に基づき特定される各サイトについて、当該サイトの階層下に含まれる飛び先ＵＲＬのアクセス数及び検索キーワードの種類数を集計するステップと、
前記サイトについて集計されたアクセス数及び検索キーワードの種類数に基づき、当該サイトの種別を判定するステップと、
を含むコンテンツ情報解析方法。
前記取得ステップが、
プロキシ・サーバに蓄積されるログ・データから、検索キーワード及び飛び先ＵＲＬを含む複数のログ・レコードを生成するステップ
を含む請求項２６記載のコンテンツ情報解析方法。
前記カウントステップが、
検索キーワードを正規化するステップと、
所定時間内に同一検索キーワードに係る複数の検索ログが含まれる場合には最終検索ログ以外の検索ログを削除するステップと、
を含む請求項２６記載のコンテンツ情報解析方法。
収集されたコンテンツ情報の中から個人の意見の開示単位を抽出する抽出手段と、
前記個人の意見の対象を特定する対象特定手段と、
前記個人の意見の開示内容を解析することにより前記対象についての前記個人の評価を特定する評価特定手段と、
を有するコンテンツ情報解析システム。
前記抽出手段が、
個人の意見が含まれるコンテンツ情報の単位を特定する特定手段と、
特定された前記コンテンツ情報の単位から前記個人の意見の開示単位を抽出する手段と、
を含む請求項２９記載のコンテンツ情報解析システム。
前記特定手段が、前記コンテンツ情報の単位毎の被参照度が高い順番に実施することを特徴とする請求項３０記載のコンテンツ情報解析システム。
前記抽出手段が、
前記個人の意見の参照元を辿ることにより前記個人の意見の開示単位のグループを検出する
ことを特徴とする請求項２９記載のコンテンツ情報解析システム。
前記抽出手段が、
前記個人の意見の対象についてのカテゴリを特定するカテゴリ特定手段
を含むことを特徴とする請求項２９記載のコンテンツ情報解析システム。
前記評価特定手段が、
前記個人の意見の対象についてのカテゴリに基づいて前記個人の意見の開示内容を解析することにより、前記対象についての前記個人の評価を特定する
ことを特徴とする請求項３３記載のコンテンツ情報解析システム。
前記個人の意見の根拠となり得る情報が当該個人の意見の開示単位に含まれるか判断し、含まれる場合には当該根拠となり得る情報を特定する手段
をさらに有する請求項２９記載のコンテンツ情報解析システム。
前記個人の意見の開示内容についてのジャンルを特定する手段
をさらに有する請求項２９記載のコンテンツ情報解析システム。
前記個人の意見の開示単位の信頼度を決定する信頼度決定手段
をさらに有する請求項２９記載のコンテンツ情報解析システム。
前記信頼度決定手段が、
前記個人の意見の開示単位に前記個人の身元を表す情報が含まれているか判断する
ことを特徴とする請求項３７記載のコンテンツ情報解析システム。
前記信頼度決定手段が、
前記個人の意見の根拠となり得る情報が当該個人の意見の開示単位に含まれているか判断する
ことを特徴とする請求項３７記載のコンテンツ情報解析システム。
前記対象特定手段が、
少なくともユニフォームリソースロケータ（ＵＲＬ）と企業名と略称と業種とについての辞書を用いて、前記個人の意見の対象を特定する
ことを特徴とする請求項２９記載のコンテンツ情報解析システム。
収集されたコンテンツ情報のＵＲＬ及び前記辞書に登録済みの類似のＵＲＬを用いて、前記辞書に企業名に対応する業種に関する情報を登録する手段
をさらに有する請求項４０記載のコンテンツ情報解析システム。
収集されたコンテンツ情報のリンク元の文字情報及びリンク先のＵＲＬを用いて、略称を前記辞書に登録する手段
をさらに有する請求項４０記載のコンテンツ情報解析システム。
収集されたコンテンツ情報のリンク関係を解析することにより得られるリンクトポロジの情報を用いて企業名に対応する業種に関する情報を前記辞書に登録する手段
をさらに有する請求項４０記載のコンテンツ情報解析システム。
コンテンツ情報から特徴語を抽出し、各業種についての特徴語を備えた第２の辞書を用いて業種を特定して、企業名に対応する業種に関する情報を前記辞書に登録する手段
をさらに有する請求項４０記載のコンテンツ情報解析システム。
前記カテゴリ特定手段が、
各業種に対応する特徴語についての第２の辞書を用いて、前記個人の意見の対象である企業の業種を特定する
ことを特徴とする請求項３３記載のコンテンツ情報解析システム。
業種の特定されたコンテンツ情報から特徴語を抽出し、当該特徴語を前記業種に対応して前記第２の辞書に追加するステップ
をさらに含む請求項４４記載のコンテンツ情報解析システム。
コンテンツ情報についての検索ログにおいて、業種が既に指定されている状態における検索のキーワードを識別し、当該キーワードを前記第２の辞書に特徴語として登録する手段
をさらに有する請求項４４記載のコンテンツ情報解析システム。
コンテンツ情報についての検索ログに含まれる、検索者の飛び先ＵＲＬが前記辞書に含まれているか判断する手段と、
含まれていると判断された場合には、前記検索ログに含まれる検索キーワードを前記辞書に追加する手段と、
をさらに有する請求項４０記載のコンテンツ情報解析システム。
各々検索キーワード及び飛び先ＵＲＬを含む、コンテンツ情報に対する複数の検索ログを解析し、アクセス数及び検索キーワードの種類数に基づき個人ホームページを階層下に含むサイトを特定する手段と、
特定された前記サイトの階層下に含まれる個人ホームページを前記個人の意見の開示単位として抽出する手段と、
をさらに有する請求項２９記載のコンテンツ情報解析システム。
各々検索キーワード及び飛び先ＵＲＬを含む、コンテンツ情報に対する複数の検索ログを解析し、アクセス数及び検索キーワードの種類数に基づき個人又は小規模組織のサイトを前記個人の意見の開示単位として抽出する手段、
をさらに有する請求項２９記載のコンテンツ情報解析システム。
各々検索キーワード及び飛び先ＵＲＬを含む、コンテンツ情報に対する複数の検索ログを解析し、アクセス数及び検索キーワードの種類数に基づき個人ホームページを階層下に含むサイトを特定する手段と、
特定された前記サイトについての情報を、前記辞書に登録する手段と、
をさらに有する請求項４０記載のコンテンツ情報解析システム。
各々検索キーワード及び飛び先ＵＲＬを含む、コンテンツ情報に対する複数の検索ログを解析し、アクセス数及び検索キーワードの種類数に基づき企業サイトを特定する手段と、
特定された前記企業サイトについての情報を、前記辞書に登録する手段と、
をさらに有する請求項４０記載のコンテンツ情報解析システム。
収集されたコンテンツ情報の中から個人の意見の開示単位を抽出する手段と、
前記個人の意見の対象を特定する手段と、
前記個人の意見の開示単位の信頼度を決定する手段と、
を有するコンテンツ情報解析システム。
各々検索キーワード及び飛び先ＵＲＬを含む、コンテンツ情報に対する複数の検索ログを取得する取得手段と、
所定の規則に従って各飛び先ＵＲＬについてアクセス数及び検索キーワードの種類数をカウントするカウント手段と、
ＵＲＬの構造に基づき特定される各サイトについて、当該サイトの階層下に含まれる飛び先ＵＲＬのアクセス数及び検索キーワードの種類数を集計する手段と、
前記サイトについて集計されたアクセス数及び検索キーワードの種類数に基づき、当該サイトの種別を判定する手段と、
を有するコンテンツ情報解析システム。
前記取得手段が、
プロキシ・サーバに蓄積されるログ・データから、検索キーワード及び飛び先ＵＲＬを含む複数のログ・レコードを生成する手段
を有する請求項５４記載のコンテンツ情報解析システム。
前記カウント手段が、
検索キーワードを正規化する手段と、
所定時間内に同一検索キーワードに係る複数の検索ログが含まれる場合には最終検索ログ以外の検索ログを削除する手段と、
を有する請求項５４記載のコンテンツ情報解析システム。
コンテンツ情報解析処理をコンピュータに実施させるためのプログラムを格納した記録媒体であって、
コンピュータに、
収集されたコンテンツ情報の中から個人の意見の開示単位を抽出する抽出ステップと、
前記個人の意見の対象を特定する対象特定ステップと、
前記個人の意見の開示内容を解析することにより前記対象についての前記個人の評価を特定する評価特定ステップと、
を実行させるためのプログラムを格納した記録媒体。
コンテンツ情報解析処理をコンピュータに実施させるためのプログラムを格納した記録媒体であって、
コンピュータに、
収集されたコンテンツ情報の中から個人の意見の開示単位を抽出するステップと、
前記個人の意見の対象を特定するステップと、
前記個人の意見の開示単位の信頼度を決定するステップと、
を実行させるためのプログラムを格納した記録媒体。
コンテンツ情報解析処理をコンピュータに実施させるためのプログラムを格納した記録媒体であって、
コンピュータに、
各々検索キーワード及び飛び先ＵＲＬを含む、コンテンツ情報に対する複数の検索ログを取得する取得ステップと、
所定の規則に従って各飛び先ＵＲＬについてアクセス数及び検索キーワードの種類数をカウントするカウントステップと、
ＵＲＬの構造に基づき特定される各サイトについて、当該サイトの階層下に含まれる飛び先ＵＲＬのアクセス数及び検索キーワードの種類数を集計するステップと、
前記サイトについて集計されたアクセス数及び検索キーワードの種類数に基づき、当該サイトの種別を判定するステップと、
を実行させるためのプログラムを格納した記録媒体。
収集されたコンテンツ情報の中から個人の意見の開示単位を抽出するステップと、
前記個人の意見の対象を特定するステップと、
前記個人の意見の開示内容を解析することにより前記対象についての前記個人の評価を特定するステップと、
をコンピュータに実行させるためのコンテンツ情報解析プログラム。
各々検索キーワード及び飛び先ＵＲＬを含む、コンテンツ情報に対する複数の検索ログを取得する取得ステップと、
所定の規則に従って各飛び先ＵＲＬについてアクセス数及び検索キーワードの種類数をカウントするカウントステップと、
ＵＲＬの構造に基づき特定される各サイトについて、当該サイトの階層下に含まれる飛び先ＵＲＬのアクセス数及び検索キーワードの種類数を集計するステップと、
前記サイトについて集計されたアクセス数及び検索キーワードの種類数に基づき、当該サイトの種別を判定するステップと、
をコンピュータに実行させるためのコンテンツ情報解析プログラム。
収集されたコンテンツ情報の中から個人の意見の開示単位を抽出するステップと、
前記個人の意見の対象を特定するステップと、
前記個人の意見の開示単位の信頼度を決定するステップと、
をコンピュータに実行させるためのコンテンツ情報解析プログラム。