JPWO2003046764A1 - 情報解析方法及び装置 - Google Patents

情報解析方法及び装置 Download PDF

Info

Publication number
JPWO2003046764A1
JPWO2003046764A1 JP2003548126A JP2003548126A JPWO2003046764A1 JP WO2003046764 A1 JPWO2003046764 A1 JP WO2003046764A1 JP 2003548126 A JP2003548126 A JP 2003548126A JP 2003548126 A JP2003548126 A JP 2003548126A JP WO2003046764 A1 JPWO2003046764 A1 JP WO2003046764A1
Authority
JP
Japan
Prior art keywords
content information
opinion
search
information analysis
url
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003548126A
Other languages
English (en)
Other versions
JP4097602B2 (ja
Inventor
内野 寛治
寛治 内野
由紀 粂
由紀 粂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2003046764A1 publication Critical patent/JPWO2003046764A1/ja
Application granted granted Critical
Publication of JP4097602B2 publication Critical patent/JP4097602B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本発明は、大量の情報の中から自動的に注目すべき情報を抽出するものである。収集されたコンテンツ情報の中から個人のWebページや掲示板における発言である個人の意見の開示単位を抽出し、当該個人の意見の開示単位を特定するための情報(URLや発言番号)を登録する。次に、個人の意見の対象(会社名や業種)を特定する。そして、個人の意見の開示内容を解析することにより対象についての個人の評価(良い評価/悪い評価)を特定する。また、被参照度ランキングや意見の根拠や発言者の身元を表す情報が含まれているかに基づく信頼度を決定する処理を実施する。これにより個人の意見の特性である対象に対する評価等が提示可能となる。また個人の意見の対象に対する評価のうち例えば悪い評価だけを抽出することができるようになる。また、被参照度ランキングや信頼度により影響度の高い注目すべき意見を探し出すことも可能である。

Description

[技術分野]
本発明は、大量の情報の中から特定の情報を自動的に抽出する技術に関する。
[背景技術]
インターネットにおいて開示されている情報の中から企業に対する誹謗中傷を文書検索ツールで自動的に抽出することは以前から行われていた。しかし、キーワードを指定した上でウェブ(Web)ページを巡回して抽出したり、事前に検索対象のURL(Uniform Resource Locator)を指定しておき抽出するような方法を採用している。すなわち、収集された情報が良い評価の情報か悪い評価の情報かといった判断はなされていない。さらに、収集された情報の影響力に関する情報も得られない。そのため株価操作のための「風説の流布」を見つけるためには適当ではない。
また、米国特許第6438632号は、利用者コンピュータから送られてくる電子掲示板への掲載希望メッセージの内容を自動的に検査する機能を有する電子掲示板システムを開示している。すなわち、利用者コンピュータから送られてくる電子掲示板に掲載希望のメッセージについて、電子掲示板に掲載することは不適当であるとして事前に選出された用語が登録されている掲載禁止用語集に照らして検査を行う。掲載希望メッセージに掲載禁止用語集中の用語が含まれていない場合、当該メッセージを電子掲示板に登録する。一方、掲載禁止用語集中の用語が含まれている場合には、利用者コンピュータに対してメッセージを掲載できない旨を通知する。またこの時、運営管理人コンピュータにメッセージの掲載を拒否した事象を通知する。このような技術では、掲示板への掲載の可否を判断することはできるが、掲載可能と判断されたものの内容について自動的に解析するものではない。
[発明の開示]
このように従来の技術では膨大な情報の中から具体的に指定された情報を抽出することはできるが、注目すべき情報を自動的に抽出することはできず、また抽出された情報の解釈・分析は人手によらねばならなかった。これではさらなる作業なしに、ユーザは抽出された情報の特性や情報のソース等を得ることができない。
従って本発明の目的は、大量の情報の中から自動的に注目すべき情報を抽出するための新規な技術を提供することである。
また、本発明の他の目的は、大量の情報の中から特定の情報を抽出し、抽出された情報の特性を提示可能とするための技術を提供することである。
さらに本発明の他の目的は、大量の情報の中から特定の情報を抽出し、抽出された情報の信頼度や影響度を提示可能とするための技術を提供することである。
さらに本発明の他の目的は、大量の情報の中から特定の情報を抽出し、抽出された情報のソースを探索するための技術を提供することである。
本発明に係るコンテンツ情報解析方法は、収集されたコンテンツ情報の中から個人の意見の開示単位(例えば個人Webページ、個人又は小規模組織によるサイト、掲示板における発言等)を抽出し、当該個人の意見の開示単位を特定するための情報(例えばURLや発言番号等)を記憶装置に格納する抽出ステップと、個人の意見の対象(例えば会社名や業種、商品名等)を特定し、記憶装置に格納する対象特定ステップと、個人の意見の開示内容を解析することにより対象についての個人の評価(例えば良い評価又は悪い評価)を特定し、記憶装置に格納する評価特定ステップとを含む。これにより抽出された個人の意見の特性である、対象に対する評価を提示可能となる。例えば、個人の意見の対象に対する評価のうち例えば悪い評価だけを抽出することができるようになる。
また、上で述べた抽出ステップを、個人の意見が含まれるコンテンツ情報の単位(例えば1Webページ)を特定する特定ステップと、特定されたコンテンツ情報の単位から個人の意見の開示単位を抽出するステップとを含むような構成とすることも可能である。例えば掲示板のWebサイトや個人ホームページを抽出した後、個人の意見の開示単位である発言などを分離するものである。
さらに、上で述べた特定ステップが、コンテンツ情報の単位毎の被参照度が高い順番に実施されるような構成とすることも可能である。被参照度が高いということは多くの人が見る可能性が高く影響度合いが高いコンテンツ情報であるから、影響度が高いコンテンツ情報をより優先して処理するものである。また、影響度自体を注目すべき情報か否かの指標とする場合もある。
また、上で述べた抽出ステップを、個人の意見の参照元を辿ることにより個人の意見の開示単位のグループ(例えば実施の形態におけるスレッド)を検出し、当該グループを特定するための情報を記憶装置に格納するステップを含むような構成とすることも可能である。個人の発言だけでなく、発言のまとまりとしても注目すべきものも存在するからである。
さらに、上で述べた抽出ステップを、個人の意見の対象についてのカテゴリ(例えば業種)を特定し、記憶装置に格納するカテゴリ特定ステップを含むような構成とすることも可能である。これにより抽出された個人の意見の特性であるカテゴリを提示可能となる。例えば業種毎に注目すべき情報や評価の表現やニュアンスが異なる場合もあり、業種毎の分類等も有用である。
また、本発明において、個人の意見の根拠となり得る情報(例えば参照している発言やWebサイト、新聞・雑誌の内容等)が当該個人の意見の開示単位に含まれるか判断し、含まれる場合には当該根拠となり得る情報を記憶装置に格納するステップをさらに含むような構成であってもよい。これにより抽出された個人の意見の特性である情報のソースを提示可能となる。情報の出所を調査する必要がある場合には非常に有用である。
さらに、本発明において、個人の意見の開示単位の信頼度を決定し、記憶装置に格納する信頼度決定ステップをさらに含むような構成であってもよい。これにより抽出された個人の意見の特性である信頼度を提示可能となる。信頼できる情報なのか信頼できない情報なのかの目安を得ることができるようになる。信頼度が高いものを注目すべき情報として抽出する場合もある。
なお、上で述べた信頼度決定ステップを、個人の意見の開示単位に個人の身元(例えばメールアドレス、ハンドル名等)を表す情報が含まれているか判断するステップを含むような構成とすることも可能である。身元を明かしてでも公表できる情報については信頼できるものと判断できるからである。
さらに、上で述べた信頼度決定ステップを、個人の意見の根拠となり得る情報が当該個人の意見の開示単位に含まれているか判断するステップを含むような構成とすることも可能である。根拠が明らかであれば、信頼できる情報と判断できるためである。
また、本発明の第1の態様において、各々検索キーワード及び飛び先URLを含む、コンテンツ情報に対する複数の検索ログを解析し、アクセス数及び検索キーワードの種類数に基づき個人ホームページを階層下に含むサイトを特定するステップと、特定されたサイトの階層下に含まれる個人ホームページを上記個人の意見の開示単位として抽出するステップとをさらに含むような構成であってもよい。
さらに、本発明の第1の態様において、各々検索キーワード及び飛び先URLを含む、コンテンツ情報に対する複数の検索ログを解析し、アクセス数及び検索キーワードの種類数に基づき個人又は小規模組織のサイトを個人の意見の開示単位として抽出するステップをさらに実行させるような構成であってもよい。
本発明の第2の態様に係るコンテンツ情報解析方法は、収集されたコンテンツ情報の中から個人の意見の開示単位を抽出し、当該個人の意見の開示単位を特定するための情報を記憶装置に格納する抽出ステップと、個人の意見の対象を特定し、記憶装置に格納する対象特定ステップと、個人の意見の開示単位の信頼度を決定し、記憶装置に格納する信頼度決定ステップとを含む。これにより例えば信頼度の高い個人の意見を抽出することができるようになる。なお、個人の意見又は個人の意見を含むコンテンツ情報の被参照度を影響度として、これを自動抽出のパラメータとして取り扱う構成も可能である。
本発明の第3の態様に係るコンテンツ情報解析方法は、各々検索キーワード及び飛び先URLを含む、コンテンツ情報に対する複数の検索ログを取得し、メモリに格納するステップと、所定の規則に従って各飛び先URLについてアクセス数及び検索キーワードの種類数をカウントし、メモリにカウント結果を格納するステップと、URLの構造に基づき特定される各サイトについて、当該サイトの階層下に含まれる飛び先URLのアクセス数及び検索キーワードの種類数を集計し、集計結果をメモリに格納するステップと、サイトについて集計されたアクセス数及び検索キーワードの種類数に基づき、当該サイトの種別を判定するステップとを含む。これにより、例えばインターネット・サービス・プロバイダのサイト、企業のサイト、個人又は小規模組織のサイトなどを判別できるようになる。インターネット・サービス・プロバイダのサイトを検出できれば、個人ホームページ(個人Webページとも呼ぶ。)も検出できるようになる。
また、URLと企業名と略称と業種とについての辞書や各業種についての特徴語を備える辞書を用いて個人の意見の対象(例えば企業)や対象のカテゴリ(例えば業種や商品名等)を決定する場合がある。これらの辞書についても、収集されたコンテンツ情報等を解析することにより、自動的に構築することができるようになる。
なお、上述の方法はコンピュータにて実施することができ、そのためのプログラムは、例えばフレキシブルディスク、CD−ROM、光磁気ディスク、半導体メモリ、ハードディスク等の記憶媒体又は記憶装置に格納される。また、プログラムはネットワークなどを介してデジタル信号として配信される場合もある。尚、中間的な処理結果はメモリ等の記憶装置に一時保管される。
[本発明を実施するための最良の形態]
第1図に本発明の一実施の形態に係るシステム概要を示す。コンピュータ・ネットワークであるインターネット1には、多数のWebサーバ7が接続されており、Webサーバ7は膨大な量の情報を公開している。またインターネット1には、Webブラウザを備えた多数のユーザ端末3も接続されており、ユーザはユーザ端末3を操作して、Webサーバ7で公開されているWebページの閲覧を行う。さらにインターネット1には、ユーザ端末3を操作するユーザがWebサーバ7で公開されている膨大な量のWebページに効率的にアクセスするためのサービスを提供する1又は複数の検索サイト・サーバ9も接続されており、当該検索サイト・サーバ9は、ユーザ端末3から命じられた検索要求に対応する検索ログを格納する検索ログ格納部91を有している。また、企業などはインターネット1に接続するための1又は複数のプロキシ・サーバ8を設けており、当該プロキシ・サーバ8は社内のLAN(Local Area Network)81を介して社内端末82及び83などに接続している。このプロキシ・サーバ8は通常のプロキシ・サーバと同じであるが、社内端末82及び83によるインターネット1へのアクセスの中継ログを格納するプロキシ・ログ格納部84を有している。
本実施の形態における主要な処理を実施する情報収集解析システム5もインターネット1に接続されている。この情報収集解析システム5は、特定のユーザ向けに解析結果を提供すると共に、収集した情報のアーカイブを行い、ユーザに対してアーカイブされた情報についての検索機能を提供している。すなわち、ユーザ端末3は、インターネット1を介して情報収集解析システム5にアクセスして、以下で説明する解析結果を取得したり、アーカイブされた情報に対する検索結果を取得することができる。なお検索機能については設けられていない場合もある。
情報収集解析システム5には、コンテンツ収集解析部501と、Webページ分類部502と、業種判定部503と、発言・スレッド抽出部504と、会社特定部505と、出所探索部506と、発言・スレッド分析部507と、統計処理部508と、ユーザ・インターフェース部509と、辞書生成部520と、検索部521とが含まれる。
コンテンツ収集解析部501は、収集したコンテンツ情報及びコンテンツ情報についてのリンク関係の解析結果に基づく被参照度をランキング情報としてアーカイブ512に格納し、参照関係についての解析結果であるリンクトポロジ情報をリンクトポロジDB519に格納する。Webページ分類部502は、アーカイブ512に格納された情報を用い、また掲示板要素格納部513に格納された掲示板要素データを参照して処理を行い、処理結果を例えば業種判定部503に出力すると共に解析データ格納部510に格納する。業種判定部503は、例えばWebページ分類部502の出力を用い、また業種用語辞書格納部514に格納された業種用語辞書を参照して処理を行い、処理結果を例えば発言・スレッド抽出部504に出力すると共に解析データ格納部510に格納する。
発言・スレッド抽出部504は、例えば業種判定部503の出力を用いて処理を行い、処理結果を例えば会社特定部505に出力すると共に解析データ格納部510に格納する。会社特定部505は、発言・スレッド抽出部504の出力を用い、また企業名辞書格納部515に格納された企業名辞書を参照して処理を行い、処理結果を例えば出所探索部506に出力すると共に解析データ格納部510に格納する。出所探索部506は、会社特定部505の出力を用い、またマスメディア辞書格納部516に格納されたマスメディア辞書を参照して処理を行い、処理結果を例えば発言・スレッド分析部507に出力すると共に、解析データ格納部510に格納する。
発言・スレッド分析部507は、出所探索部506の出力を用い、また企業名辞書格納部515に格納された企業名辞書と、ルールセット格納部517に格納された個人の意見のジャンルや評価についてのルールのデータと、掲示板等でハンドルが使われている場合にはハンドルDB518とを参照して処理を行い、処理結果を例えば統計処理部508に出力すると共に、解析データ格納部510に出力する。統計処理部508は、発言・スレッド分析部507からの出力又は解析データ格納部510に格納された情報を用いて統計処理を行い、処理結果を例えばユーザ・インターフェース部509又は解析データ格納部510に出力する。
ユーザ・インターフェース部509は、ユーザ端末3からのアクセスに応じて、解析データ格納部510に格納されたデータや統計処理部508の出力をユーザ端末3に送信する。また、検索部521は、ユーザ端末3からの検索要求に応答して、アーカイブ512に格納されたデータについて検索を行い、検索結果をユーザ端末3に送信する。また、検索部521は、検索ログを検索ログ格納部511に格納する。辞書生成部520は、検索ログ格納部511、アーカイブ512及びリンクトポロジDB519を参照して、業種用語辞書を生成し、業務用語辞書格納部514に格納すると共に、企業名辞書を生成し、企業名辞書格納部515に格納する。さらに辞書生成部520は、プロキシ・サーバ8のプロキシ・ログ格納部84に格納されたデータや検索サイト・サーバ9の検索ログ格納部91に格納されたデータを取得して検索ログ格納部511に格納し、当該取得したデータを用いて処理を行う場合もある。すなわち、業種用語辞書のデータ項目を生成して業務用語辞書格納部514に格納すると共に、企業名辞書のデータ項目を生成して企業名辞書格納部515に格納する。また、解析すべきURLを特定する処理を実施し、Webページ分類部502や解析データ格納部510等に処理結果を出力する場合もある。
コンテンツ収集解析部501は、インターネット1に接続された多数のWebサーバ7が公開しているWebページのデータを収集し、リンクによる参照関係を解析することにより、各Webページの被参照度からランキング値を計算する。そして、収集したWebページのデータ及び被参照度ランキング値をアーカイブ512に格納する。また、リンクによる参照関係を、リンクトポロジ・データとしてリンクトポロジDB519に格納する。このコンテンツ収集解析部501の処理は、既存の技術を用いたものであって、例えば米国特許公開公報2001−0020238−A1や日本国特許公開公報特開2000−10996号に開示されているものであるから、これ以上詳しく述べない。
Webページ分類部502は、アーカイブ512に格納されたWebページから、個人のホームページや掲示板のWebページを自動的に判別するための処理を実施する。個人のホームページや掲示板のWebページは、個人の意見が開示されているコンテンツ情報であり、必ずしも閲覧者が多いわけではないが、「風説の流布」といった観点からは見逃すことができず、その存在や出所に関する情報を蓄積しておくべきものである。この処理においては、個人のホームページや掲示板のWebページを判別するためのURLやURLの一部分のキーワードである掲示板要素データを格納した掲示板要素格納部513を参照する。また、Webページ分類部502は、掲示板要素データだけでなく、特定のCGI(Common Gateway Interface)の使用を判別したり、WebページのHTML(Hyper Text Markup Language)ソースの掲示板特有のパターンを検出するといった処理も行う。
業種判定部503は、個人のホームページ又は掲示板のWebページと判定されたWebページについて、業種用語辞書格納部514に格納された業種用語辞書を参照して、いずれの業種のキーワードとより多くマッチするかを判断することにより、業種の判別を行う。
発言・スレッド抽出部504は、掲示板のWebページに含まれる一つの発言を抽出すると共に、幾つかの発言がまとまって特定の話題についての議論を構成するスレッドを抽出する。この処理においては、HTMLソースの所定のタグの繰り返しパターンから発言を切り出す。また、スレッドについては、発言のタイトルに含まれる「Re:」や前の又は後の発言へのリンクなどから抽出する。個人のホームページについては、1つのWebページを一つの発言と取り扱ったり、例えば所定の大きさの段落を一つの発言として切り出す。なお、1つのWebページをスレッドとして取り扱う場合もある。
会社特定部505は、企業名辞書格納部515に格納された企業名辞書を用いて、発言やスレッド中に現れる文字列から、話題となっている企業名を特定する。企業名辞書には、URL企業名辞書と略称名辞書とが含まれる。URL企業名辞書を用いて、話題となっている企業の銘柄コードや、企業URLを特定しておく場合もある。
出所探索部506は、発言や個人のホームページ中において、発言の根拠となり得るURLや新聞・雑誌などマスメディアの情報を抽出する。この処理においては、新聞・雑誌などのマスメディアに関連する企業名や、新聞・雑誌名などを含むマスメディア辞書を用いる。マスメディア辞書はマスメディア辞書格納部516に格納されている。
発言・スレッド分析部507は、発言・スレッドの内容を分析し、発言・スレッドの話題のジャンル(例えば製品情報、企業情報、株価情報、環境活動情報等)や、発言・スレッドにおいて話題になっている企業などについての評価の情報を取得する。評価については、例えば良い評価なのか、悪い評価なのかといった判断を行う。ジャンルや評価のため、予め業界毎に用意された、ジャンルや良い評価及び悪い評価の正解セットを用いた学習によりルールセットを生成し、これをルールセット格納部517に格納しておく。発言・スレッド分析部507は、このルールセットを使用して処理を行う。また、発言・スレッド分析部507は、発言に、メールアドレスやハンドルといった発言者の身元を表す情報やURLなどの根拠を示す情報が含まれるか判断し、これらの情報に基づいて発言の信頼度を決定する。発言・スレッド分析部507は、URLについては企業名辞書に含まれているかということを企業名辞書格納部515にアクセスして確認し、ハンドルについてはハンドルDB518のデータを参照する。発言・スレッド分析部507の処理結果は解析データ格納部510に格納される。
統計処理部508は、様々な統計処理を実施する。所定の統計処理を予め実施しておいても良いが、ユーザ端末3を操作するユーザにより指定された統計処理を実施するようにしても良い。統計処理部508は、例えば、特定の企業についての各評価を集計したり、企業毎の発言数を集計したり、時間的な変化についてのデータを生成したりする。統計処理の結果についても、解析データ格納部510に格納しておく場合もある。
ユーザ・インターフェース部509は、ユーザ端末3からの要求に応じて、解析データ格納部510に格納されているデータをユーザ端末3に対して送信する。ユーザ・インターフェース部509は、例えば、被参照度のランキングや、信頼度に基づいて、発言・スレッドを並べ替えてユーザ端末3に対して送信するような処理を実施する。また、統計処理が必要であれば、ユーザ・インターフェース部509は、統計処理部508に、解析データ格納部510に格納されているデータを用いて所定の統計処理を実施させ、その結果をユーザ端末3に送信する。例えば、データをグラフ等に加工して出力する場合もある。
検索部521は、ユーザ端末3を操作するユーザからの要求に応じて、アーカイブ512に格納されたコンテンツ情報の検索を実行する。実行した検索の検索ログについては検索ログ格納部511に格納する。
辞書生成部520は、アーカイブ512に格納されたコンテンツ情報や、リンクトポロジDB519に登録されているリンクトポロジ・データや、検索ログ格納部511に格納された検索ログなどを用いて、業種用語辞書を生成して業種用語辞書格納部514に格納すると共に、フォーマル及びインフォーマル版のURL企業名辞書及び略称名辞書を含む企業名辞書を生成して企業名辞書格納部515に格納する。さらに辞書生成部520は、プロキシ・サーバ8のプロキシ・ログ格納部84に格納されたログ・データや検索サイト・サーバ9の検索ログ格納部91に格納されたログ・データを取得して検索ログ格納部511に格納し、当該ログ・データを用いて辞書生成のための処理を行う。すなわち、業種用語辞書のデータ項目を生成して業務用語辞書格納部514に格納すると共に、企業名辞書のデータ項目を生成して企業名辞書格納部515に格納する。また、検索ログ格納部511に格納されたデータを用いて、解析すべきURLを特定する処理を実施し、解析データ格納部510に処理結果を格納する。
次に第2図乃至第22図を用いて第1図に示したシステムの処理の内容を説明する。第2図に本実施の形態における処理の概要を示す。まず、コンテンツ収集解析部501によるコンテンツ収集及び解析処理が実施される(ステップS1)。上で述べたように、ステップS1においては、インターネット1に接続された多数のWebサーバ7が公開しているWebページのデータを収集し、リンクによる参照関係を解析することにより、各Webページの被参照度を算出し、当該被参照度からランキング値を計算する。そして、コンテンツ収集解析部501は、収集したWebページのデータ及び被参照度ランキング値をアーカイブ512に格納し、リンクによる参照関係をリンクトポロジ・データとしてリンクトポロジDB519に格納する。
次に、Webページ分類部502は、コンテンツ収集解析部501により収集され且つアーカイブ512に格納されたコンテンツ情報の中から掲示板及び個人のホームページを抽出する(ステップS3)。この処理においては、掲示板要素格納部513に格納された掲示板要素データが使用される。掲示板要素データは、第3A図に示されるような、掲示板及び個人ホームページのURLに良く用いられているbbs、messageboard、homepageといったキーワードと、第3B図に示されるような、一般的に知られている掲示板及び個人ホームページのURLとを含む。また、掲示板要素データは、掲示板や個人ホームページにおいてよく用いられているCGIを特定するためのデータ、掲示板や個人ホームページにおいてよく現れるWebページのHTMLソースのパターンのデータ等を含む場合もある。すなわち、Webページ分類部502は、処理対象のWebページについて、そのURL又はその一部が掲示板要素格納部513に格納された掲示板要素データ(第3A図及び第3B図)に含まれるURL又はキーワードに合致するか判断する。また、処理対象のWebページにおいて使用されているCGIが、掲示板や個人ホームページにおいてよく用いられているCGIか否かを判断する。さらに、Webページ分類部502は、処理対象のWebページのHTMLソースを解析し、掲示板や個人のホームページにおいてよく用いられる特定のタグの繰り返しパターン等の存在を検査する。これらの処理については、被参照度ランキング値の高いWebページの順に処理を行う。また、これらの処理の結果として、例えば第4A図に示されるように、掲示板及び個人ホームページと判断されたWebページのURL、種別(例えば、掲示板の場合には「1」が、個人ホームページの場合には「2」が、その他の場合には「3」が格納される。)及びそのWebページのランキングとして被参照度が例えば解析データ格納部510に格納される。なお、第4A図におけるアクセス数については後に説明する。
そして、業種判定部503は、掲示板又は個人ホームページと判断されたWebページについて、業種用語辞書格納部514に格納された業種用語辞書を参照して、当該Webページが話題としている業種を判定する(ステップS5)。業種用語辞書には、第5図に示すように、業種名に対応して1又は複数のキーワード(図ではn個(nは整数))が登録される。従って、業種判定部503は、処理対象のWebページに含まれる用語と業種用語辞書に登録されたキーワードとのマッチングを行い、マッチングが取れたキーワード数が多い業種を、処理対象のWebページの業種と判定する。このような処理の結果として、例えば第4B図に示されるように、掲示板又は個人ホームページと判断されたWebページのURL、種別(例えば掲示板の場合には「1」が、個人ホームページの場合には「2」が、その他の場合には「3」が格納される。)、当該Webページにおいて話題となっている業種及びそのWebページのランキングとして被参照度が例えば解析データ格納部510に格納される。なお、第4B図におけるアクセス数については後に説明する。
次に、発言・スレッド抽出部504は、掲示板のWebページに含まれる一つの発言を抽出すると共に、幾つかの発言がまとまって特定の話題について議論している場合の発言群であるスレッドを抽出する(ステップS7)。ここでは、第6図及び第7図を用いて、発言を抽出する処理と、スレッドを抽出する処理について分けて説明する。
まず第6図を用いて発言の抽出処理について説明する。発言・スレッド抽出部504は、掲示板であると判断されたWebページについて、そのリンクを解析し、例えば「一覧へ」や「掲示板一覧」といった文字列でリンクされたWebページのURLを抽出し、当該URLのWebページのデータを発言一覧ページのデータとして取得し、記憶装置に格納する(ステップS21)。発言・スレッド抽出部504は、当該発言一覧ページの内容を解析し、列挙されている各発言ページへのリンクを特定し、当該発言ページのデータを取得し、記憶装置に格納する(ステップS23)。発言ページには複数の発言が含まれる場合もある。従って、発言・スレッド抽出部504は、発言ページのHTMLソースを解析して、発言の繰り返しパターンを抽出し、記憶装置に格納する(ステップS25)。例えば、各発言にはヘッダとして「30:01/10/20 22:46 ID:QpKkFIhK」というような発言番号、日時及びハンドル名等が繰り返し出現する場合があり、この繰り返しパターンを抽出する。また、各発言が枠に入れられている場合もある。そのような場合には、特定のパターンでTABLEタグが繰り返されるため、発言・スレッド抽出部504はこのTABLEタグの繰り返しパターンを抽出する。そして、発言・スレッド抽出部504は、抽出された繰り返しパターンに従って、一つの発言を切り出し、記憶装置に格納する(ステップS27)。但し、発言の長さが所定長以下である場合には、破棄するような構成であってもよい。
次に第7図を用いてスレッドの抽出処理について説明する。掲示板によっては、
「・Re:XX AAAAさんの投稿Monday October 15,@01:42PM
・Re:XX AAAAさんの投稿Monday OctOber 15,@01:45PM
・Re:XX AAAAさんの投稿Monday October 15,@03:01PM
・Re:XX BBBBさんの投稿(スコア:1)Tuesday October 16,@07:16AM」
というように、先行する発言「XX」に関連する発言群が「Re:」といった文字から明らかな場合もある。一方、
「58 名前:CCCCさん 01/10/21 21:11
>56
この発言については.....」
というように、各発言のヘッダのみからは先行する発言や関連する発言が不明な場合もある。従って、発言・スレッド抽出部504は、「Re:」文字等を用いてヘッダから先行する発言が抽出できるか判断する(ステップS31)。もし、上で述べた第1の例のように、ヘッダから先行する発言が明らかである場合には(ステップS31:Yesルート)、発言・スレッド抽出部504は、ヘッダから一つの発言群をスレッドとして把握し、スレッド番号を発番して各発言に対して登録する(ステップS33)。第1の例では、XXという発言及び上記の4つの発言が一つのスレッドを構成し、同一のスレッド番号が登録される。そして元の処理に戻る。登録データについては後に説明する。
一方、ヘッダから先行する発言が抽出できない場合には(ステップS31:Noルート)、発言・スレッド抽出部504は、本文中に、参照されている先行発言の発言番号等の発言識別情報が存在するか判断する(ステップS35)。もし、発言識別情報が存在する場合には(ステップS35:Yesルート)、発言・スレッド抽出部504は、処理対象の発言に対してスレッド番号を登録する(ステップS37)。なお、発言・スレッド抽出部504は、既に先行発言に遡る処理を実施していれば、遡る前に発番されたスレッド番号を用い、遡る処理を行っていない場合には新たにスレッド番号を発番する。そして、発言・スレッド抽出部504は、参照されている先行発言の発言番号に遡って、リカーシブに第6図のスレッド抽出処理を実施する(ステップS39)。一方、本文中に先行発言の発言番号が含まれていない場合には(ステップS35:Noルート)、発言・スレッド抽出部504は、発言を一つ以上遡る処理を行ったか否か判断する(ステップS41)。例えば、孤立した発言の場合もあれば、大元の発言の場合もあるためである。孤立した発言の場合には(ステップS41:Noルート)、元の処理に戻る。なお、孤立した発言であっても1つの発言でスレッドを構成すると判断すれば、発言・スレッド抽出部504は、新たにスレッド番号を発番して登録するようにしてもよい。もし、発言を一つ以上遡る処理を行ったと判断された場合には(ステップS41:Yesルート)、発言・スレッド抽出部504は、参照元と同じスレッド番号を当該発言について登録する(ステップS43)。そして元の処理に戻る。
このように、ヘッダで分かる場合にはヘッダにより発言群を特定し、ヘッダで分からない場合には、本文中に存在する発言番号でリカーシブに発言を辿ることにより、スレッドを把握するものである。この処理のための技術は、例えば米国特許公開公報2001−0018698−A1に開示されている。
なお、個人ホームページの場合には、1つのWebページを1つの発言と取り扱う。この場合、例えば個人ホームページのトップページから参照できるページを全てスレッドとして取り扱うようにしても良いし、孤立した発言として各ページを取り扱うことも可能である。また、1ページが長い場合もある。その場合には、例えばHTMLソースのh1タグなどで分割し、分割された各部分を1つの発言として取り扱うような構成であってもよい。
ステップS7の発言及びスレッドの抽出処理が実施されると、第4C図に示すテーブルのうち一部のデータが登録される。第4C図の例では、発言を含むWebページのURLのための列301と、種別のデータを格納するための列302と、発言のタイトルのための列303と、スレッド番号(#)の列304、発言番号(#)の列305、業種の列306と、発言の対象についての評価の列307と、抽出情報を格納するための列308と、信頼度の列309と、ジャンルの列310とが含まれる。種別を格納するための列302には、掲示板の場合には1が、個人ホームページの場合には2が、その他の場合には3が格納される。タイトルについては、発言のタイトルの場合もあれば、TITLEタグやh1タグの値である場合もある。評価については、例えば良い又は悪いといった評価である。これについては後に説明する。抽出情報には、会社名、証券コード、参照発言番号、発言の根拠となるマスメディアの情報やURL、身元を示す情報であるメールアドレスやハンドル名が含まれる。信頼度には、発言が含まれるページの被参照度と以下で計算される信頼度の値が含まれる。アクセス数が把握されている場合にはアクセス数が登録される場合もある。ジャンルは、例えば製品情報、企業情報、株価情報、環境活動情報といった各業種で共通した話題である。
ステップS7まで実施されると、URLのための列301と、種別を格納するための列302と、タイトルのための列303と、スレッド番号の列304と、発言番号の列305とに値が格納されることとなる。
第2図の説明に戻って、ステップS7の次に、会社特定部505が、発言の対象となっている企業名を特定するための処理を実施する(ステップS9)。この企業名を特定する処理においては、企業名辞書格納部515に格納された企業名辞書を参照する。企業名辞書には、URL企業名辞書と略称名辞書とが含まれる。これらの辞書の一例を第8A図及び第8B図に示す。第8A図は、URL企業名辞書の一例である。第8A図の例では、サイトURLと、企業名と、証券コード(又は銘柄コード)と、業種名と、1又は複数の特徴キーワードと、サイトURLのランキング情報(被参照度及びアクセス数)とが各企業について格納される。特徴キーワードには関連URLを含む場合もある。また、サイトURLのランキング情報については以下で説明する処理によって取得できた場合に登録される。第8B図は、略称名辞書の一例である。第8B図の例では、正式企業名と、その読みがなと、1又は複数の略称とが格納されている。会社特定部505は、これらの辞書を用いて、処理対象の発言に含まれる文言が辞書中の企業名、略称、証券コードと一致するか判断することにより、企業名を特定する。なお、企業名だけでなく、証券コード、企業URLを特定するようにしても良い。また、会社特定部505は、個人ホームページについても同様に発言の対象となっている企業名を特定する。ここで特定された企業名や証券コード等は、第4C図の抽出情報を格納するための列308に格納される。さらに、発言等に含まれる文言が、URL企業名辞書のいずれかの企業の所定個数以上の特徴キーワードと一致する場合には、当該企業の企業名を、当該発言等の対象となっている企業名として特定する場合もある。
次に、出所探索部506は、発言や個人のホームページの中から、発言の根拠となり得るURLや新聞・雑誌名などマスメディアの情報を抽出する(ステップS11)。なお、マスメディアの情報については、マスメディア辞書格納部516に格納されたマスメディア辞書を用いる。また、第1図では出所探索部506が企業名辞書を参照するようには示されていないが、企業名辞書格納部515に格納された企業名辞書を参照して、発言中にURLが含まれている場合に、そのURLが企業名辞書に登録されているURLであるか否か判断して、その登録の有無について解析データ格納部510に登録する場合もある。マスメディア辞書には、例えばマスメディアに関連する企業名と、それらの企業が発行する新聞・雑誌の名称についての情報が含まれている。
第9図にステップS11の出所探索処理の詳細を示す。出所探索部506は、まず、発言又は個人のホームページ中にURLが含まれているか判断する(ステップS51)。なお、企業名辞書に登録されているURLが含まれているか判断するような処理であっても良い。もし、発言又は個人のホームページ中にURLが含まれている場合には、出所探索部506は、当該URLを解析データ格納部510に登録する(ステップS53)。例えば第4C図の抽出情報を格納するための列308に格納する。また、上でも述べたように企業名辞書に登録されたURLであるか否かについての情報を解析データ格納部510に登録するようにしても良い。また、ステップS51で発言又は個人のホームページ中にURLが含まれないと判断された場合及びステップS53においてURLを解析データ格納部510に登録後、出所探索部506は、発言又は個人のホームページ中に新聞・雑誌名が含まれるか判断する(ステップS55)。すなわち、出所探索部506は、マスメディア辞書に登録された新聞・雑誌名が発言又は個人のホームページ中に出現するか否かを判断する。もし、マスメディア辞書に登録された新聞・雑誌名が検出された場合には、出所探索部506は、当該新聞・雑誌名を解析データ格納部510に登録する(ステップS57)。例えば第4C図の抽出情報を格納するための列308に格納する。
第2図の処理に戻って、発言・スレッド分析部507は、発言及びスレッド並びに個人ホームページについて、企業名辞書格納部515に格納されている企業名辞書、発言の対象の評価や話題のジャンルを特定するために事前に生成され且つルールセット格納部517に格納されているルールセット、及び掲示板等において用いられているハンドル名についてのハンドルDB518を用いて分析処理を実施する(ステップS13)。分析処理では、発言及びスレッドにおける言い回しをルールセット格納部517に登録されているルールセットと比較することにより、話題のジャンル、及び発言の対象企業等についての良い又は悪いといった評価を決定する。また、発言の根拠となるURLなどが記載されているか、当該URLが企業名辞書に登録されたURLであるか、発言者の身元を表すメールアドレスやハンドル名が含まれるかといった事項から発言の信頼度を決定する。
ステップS13の詳細を第10図に示す。なお第10図は一つの発言又は個人ホームページについての処理である。発言・スレッド分析部507は、まず、発言等の話題のジャンルの分類を行い、ジャンルを解析データ格納部510に登録する(ステップS61)。例えば第4C図のジャンルの列310に格納する。発言等の話題のジャンルの分類については、米国特許公開公報2002−0069197−A1等に開示されている技術を用いることができる。また、発言・スレッド分析部507は、発言等の対象企業等についての評価の分類を行い、評価の情報を解析データ格納部510に登録する(ステップS63)。例えば第4C図の評価の列307に格納する。評価の分類は、企業に対して良い評価を行っているか、悪い評価を行っているかといった分類である。このステップS61及びステップS63の処理については、ルールセット格納部517に格納された発言等の話題のジャンルについてのルールセット、及び良い評価又は悪い評価についてのルールセットを用いて、発言・スレッド分析部507が判断する。これらのルールセットについては、業種毎に生成される。業種によって、ジャンルについての表現や、評価についての言い回しが異なると考えられるからである。ジャンルについては、掲示板自体がカテゴリ分けされている場合もあり、その情報を用いてもよい。評価については、良い評価、悪い評価だけでなく、所定の観点についての評価であるかといった判断を行うようにしてもよい。
発言・スレッド分析部507は、例えば第11図に示すような処理を行って、ルールセットを生成する。すなわち、各業種につき各ジャンルの発言、並びに良い評価及び悪い評価の発言の正解セットを人手で作成し、例えばエキスパート・システム機能を有する発言・スレッド分析部507に入力する(ステップS88)。そして発言・スレッド分析部507は、正解セットの学習を行って、ルールセットを生成し、ルールセット格納部517に格納する(ステップS89)。なお、発言等の対象企業等についての評価の分類については、米国特許公開公報2002−0069197−A1や日本公開特許公報特開2002−202984号等に開示された技術を用いることができる。
第10図の処理に戻って、次に、発言・スレッド分析部507は、発言等にメールアドレスが含まれるか判断する(ステップS65)。もし、メールアドレスが発言等に含まれる場合には(ステップS65:Yesルート)、当該メールアドレスがフリーメールのメールアドレスか否かを判断する(ステップS67)。フリーメールのメールアドレスか否かは、メールアドレスのドメイン部のパターン等から判断できる。もし、当該メールアドレスがフリーメールのメールアドレスである場合には(ステップS67:Yesルート)、フリーメールのメールアドレスに対応する信頼度を設定し、解析データ格納部510の信頼度の列309に登録する(ステップS69)。なお、信頼度の列309には併せて当該発言等のページのランキング情報(被参照度。アクセス数が把握されている場合にはアクセス数も登録される場合もある。)も登録される。一方、発言等に含まれるメールアドレスが、フリーメールのメールアドレスではない場合には(ステップS67:Noルート)、一般メールアドレスに対応する信頼度を設定し、解析データ格納部510の信頼度の列309に登録する(ステップS71)。一般的に、発言者の身元を明らかにする情報としてはフリーメールのメールアドレスより一般のメールアドレスの方が信頼度が高いので、信頼度についても一般のメールアドレスに対してより高い値を与える。
ステップS69又はステップS71の後に、発言・スレッド分析部507は、検出したメールアドレスを解析データ格納部510に登録する(ステップS73)。例えば解析データ格納部510の抽出情報を格納するための列308に格納する。そしてステップS75に移行する。
次に、発言・スレッド分析部507は、発言等にURLが含まれるか判断する(ステップS75)。URLは発言の根拠として示されていることが多いためである。もし、URLが発言等に含まれる場合(ステップS75:Yesルート)、当該URLが企業名辞書に含まれるか判断する(ステップS77)。もし、URLが企業名辞書に含まれる場合には、発言・スレッド分析部507は、当該URLが企業名辞書に含まれるURLである旨を解析データ格納部510に登録する(ステップS79)。例えば抽出情報を格納するための列308に格納する。ステップS79の後又はステップS77においてURLが企業名辞書に含まれないと判断された場合、発言・スレッド分析部507は、リンク先URLのランキング値(被参照度)を信頼度として解析データ格納部510に登録する(ステップS81)。例えば解析データ格納部510の信頼度の列309に登録する。なお、発言等の中にメールアドレスも含まれている場合には、メールアドレスについての信頼度及びURLについての信頼度を加算するようにしても良い。また、発言等のランキング情報(被参照度。アクセス数が把握されている場合にはアクセス数も登録される場合もある。)についても併せて登録される。そして、URLを解析データ格納部510に登録する(ステップS83)。例えば抽出情報を格納するための列308に格納する。処理はステップS85に移行する。
次に、発言・スレッド分析部507は、発言等にハンドル名が含まれるか判断する(ステップS85)。ハンドル名は掲示板ではよく用いられるものであり、発言者を特定する情報であるが、それにより発言者を完全に特定できるわけではない。従って本実施の形態では発言数を指標として用いる。発言等にハンドル名が含まれる場合には、発言・スレッド分析部507は、解析データ格納部510にハンドル名を登録する(ステップS86)。例えば抽出情報を格納するための列308に格納する。そして、発言・スレッド分析部507は、ハンドルDB518において当該ハンドル名を検索し、そのカウントをインクリメントする(ステップS87)。発言・スレッド分析部507は、ハンドルDB518に当該ハンドル名が登録されていない場合には、ハンドル名及びカウント(ここでは「1」)をハンドルDB518に登録する。そして次の処理に移行する。また、発言等にハンドル名を含まないと判断する場合には次の処理に移行する。
なお、ハンドル名の信頼度については、コンテンツ収集解析部501が一度に収集したコンテンツ情報全体についての処理が終了した時点においてハンドルDB518に登録されていたカウント値を用いる。すなわち、コンテンツ情報全体についての処理が終了した時点において、発言・スレッド分析部507は、ハンドルDB518の各ハンドル名についてのカウント値を解析データ格納部510に登録する。
最終的に信頼度を比較する場合には、正規化処理が必要な場合がある。例えば、一般メールアドレスに30という信頼度、フリーメールのメールアドレスに10という信頼度を与える場合、URLに対する信頼度として用いられるリンク先URLの被参照度については100で除した値を用いたり、ハンドル名のカウント値についても20で除した値を用いたりといったことが必要となる場合がある。
第2図のステップS13の処理により、解析データ格納部510の信頼度の列309及びジャンルの列310、並びに抽出情報を格納するための列308に情報が登録される。
第2図においては次に統計処理部508が各種の統計処理を実施する(ステップS15)。統計処理部508は、例えば、各業種における各ジャンルの良い又は悪い評価の数の合計と全体から見た割合や、発言中に出現した企業名の集計、並びにその良い又は悪い評価の集計、どのような観点での発言が多いか、どのような評価が多いかといった情報を計算する。また、発言等の信頼度や被参照度等のランキングの順番にデータを並べたりする場合もある。
統計処理部508は、例えば、第12図のような情報を生成する。ここでは、製品情報、企業情報、株価情報、環境活動情報のそれぞれについて、業界A、業界B、企業A及び企業Bに関して良い評価(OK)の発言数と悪い評価(NG)の発言数とが含まれる。上向き矢印は前回処理時より数が増えていることを表し、横向き矢印は前回処理時とほぼ同じであることを表し、下向き矢印は前回処理時より数が減少していることを表している。
また、統計処理部508は、第13図のような情報を生成する場合もある。すなわち、企業Aに関する発言のうち良い評価の割合の時間変化を表すグラフである。
このような統計処理の結果は例えば解析データ格納部510に登録しておく。そして、ユーザ・インターフェース部509は、ユーザ端末3からの要求に応じて、解析データ格納部510に登録された情報を読み出し、ユーザ端末3に送信する(ステップS17)。ユーザ端末3は、情報収集解析システム5からデータを受信し、表示装置に表示する。統計処理部508により処理したデータのみではなく、ユーザ・インターフェース部509が、例えば発言の信頼度や被参照度等のランキングでデータを並べ替え、その結果をユーザ端末3に送信し、ユーザにより指定されたキーワードなどにより解析データ格納部510を検索し、その検索結果をユーザ端末3に送信するような構成であってもよい。
ユーザは、ユーザ端末3の表示装置の表示内容により、どのような業種や企業に、どのような評価の発言がどの程度あったかについての情報、その発言の出所についての情報を取得することができる。株取引の面では、「風説の流布」に当たるような情報が存在しないか、またその情報の出所はどこかといった情報を取得できるようになる。また、これらの取得した情報については、信頼度や被参照度等のランキングを用いて、ユーザは、発言の影響度などについても考慮した判断を行うことができるようになる。
上で述べた業種用語辞書格納部514及び企業名辞書格納部515のデータについては、どのような手法にて作成しても良い。但し、コンテンツ収集解析部501が収集したコンテンツ情報を用いて生成することもできる。本実施の形態では、大量の情報の中から、特定の業種や分野の情報を区別して抽出し、分類する技術を用いて、第1図の辞書生成部520が業種用語辞書及びURL企業名辞書並びに略称名辞書を生成する。
第1図の辞書生成部520の機能ブロック図を第14図に示す。辞書生成部520には、URLベース業種判定部550と、URLベース略称判定部551と、リンクトポロジベース業種判定部552と、特徴語ベース業種判定部553と、特徴語辞書登録部554と、検索ログ解析部555とが含まれる。これらの処理部は、URL企業名辞書格納部515bにアクセスできるようになっている。また、URLベース業種判定部550及びリンクトポロジベース業種判定部552はリンクトポロジDB519のデータを用いて処理を実施する。特徴語ベース業種判定部553と、特徴語辞書登録部554と、検索ログ解析部555とは、業種用語辞書格納部514にアクセスできるようになっている。また、検索ログ解析部555は、検索ログ格納部511にアクセスできるようになっている。図では示していないが、検索ログ解析部555は、インターネット1を介してプロキシ・サーバ8や検索サイト・サーバ9にアクセスできるようになっている。また、検索ログ解析部555の一部の処理結果は解析データ格納部510に格納される。
次に第15図乃至第21図を用いて第14図に示された辞書生成部520の処理について説明する。コンテンツ収集解析部501により収集され且つアーカイブ512に格納されたコンテンツ情報及びリンクトポロジDB519に格納されたリンクトポロジ・データを用いて、URLベース業種判定部550は、URLを用いた業種判定・登録処理を実施する(ステップS91)。最初はある程度人手でメンテナンスしたURL企業名辞書を用いる。そして、URLベース業種判定部550は、処理対象のWebページのURLとURL企業名辞書に登録されたURLとを比較することにより、処理対象のWebページを公開している企業の業種を判定する。例えば、URL企業名辞書にhttp://www.xxx.com,xxx株式会社,コンピュータという項目が登録されている場合、処理対象のWebページのURLがhttp://www.ist.xxx.comであるならば、xxxが共通しているので、処理対象のWebページを公開している企業の業種の候補を「コンピュータ」とする。そして、URLベース業種判定部550は、リンクトポロジDB519に格納されたリンクトポロジ・データから、http://www.xxx.com以下のWebページと、http://www.ist.xxx.com以下のWebページに相互又は一方向のリンクが張られているか判断する。もし、リンクが張られていることが確認できれば、URLベース業種判定部550は、処理対象のWebページのTITLE等から企業名を抽出して、企業名、http://www.ist.xxx.com及び業種名であるコンピュータをURL企業名辞書に登録する。
次に、URLベース略称判定部551は、URL企業名辞書格納部515bに格納されたURL企業名辞書を参照して、URLを用いた略称判定・登録処理を実施する(ステップS93)。処理対象のWebページに、
〈a href=″http://www.xxx.com″〉スリーエクス〈/a〉
という記述があった場合、URLベース略称判定部551は、
http://www.xxx.comを用いてURL企業名辞書を検索する。登録されていれば、http://www.xxx.comを使用している企業の正式名称を得ることができる。そして、URLベース略称判定部551は、略称名辞書格納部515aに格納された略称名辞書を正式名称で検索し、正式名称が登録されているか確認する。もし登録されていれば、「スリーエクス」という略称名が正式名称に対応して登録されているか確認する。もし、登録されていなければ、「スリーエクス」という略称名を略称名辞書に登録する。正式名称が登録されていない場合には、正式名称及び「スリーエクス」という略称名を登録する。但し、登録する略称名は、「ここ」等の、略称ではない典型的な文言ではないということを確認する必要がある。
そして、リンクトポロジベース業種判定部552は、リンクトポロジDB519に格納されたリンクトポロジ・データを用いて、業種判定・登録処理を実施する(ステップS95)。リンクトポロジベース業種判定部552は、URL企業名辞書に登録されている企業サイトとリンク関係が密となっているページを同業種の企業が公開しているWebページと判断し、当該ページのURL、当該ページ中の情報を用いて抽出された企業名及び業種をURL企業名辞書に登録する。既にURL等が登録済みであれば、業種を登録する。また、リンクトポロジ・データから特定業種のハブサイトが抽出できた場合には、リンクトポロジベース業種判定部552は、当該ハブサイトからリンクされているページを同業種と判定し、リンクされているページのURL、当該ページ中の情報を用いて抽出された企業名及び業種をURL企業名辞書に登録する。既にURL等が登録済みであれば、業種を登録する。
また、特徴語ベース業種判定部553は、処理対象のWebページから所定のアルゴリズムに従って特徴語を抽出し、当該特徴語により業種用語辞書を検索して、処理対象のWebページの業種判定・登録処理を実施する(ステップS97)。Webページから抽出された特徴語が、所定の基準以上に特定の業種について業種用語辞書に登録された用語と一致する場合には、当該特定の業種を処理対象のWebページの業種と判断する。そして、特徴語ベース業種判定部553は、WebページのURL、当該ページ中の情報を用いて抽出された企業名及び業種をURL企業名辞書に登録する。既にURL等が登録済みであれば、業種を登録する。
さらに、特徴語辞書登録部554が、業種が特定されたページから特徴語を抽出し、当該特徴語を業種用語辞書に登録する(ステップS99)。上で述べた処理等により業種が特定されたページから特徴語を抽出し、特定された業種について、抽出された特徴語を業種用語辞書に含める候補とする。特徴語辞書登録部554は、このような処理を多くのページについて実施し、特定の特徴語が同じ業種について所定回数以上抽出された場合には、当該特定の特徴語をその業種に対して業種用語辞書に登録する。また、抽出頻度が高いほど重要な特徴語であるとして、抽出頻度が高い特徴語から登録する。新出度合いから重要度を判断して、登録するようにしてもよい。また、業種用語辞書をフォーマル版とインフォーマル版とに分けるようにしても良い。例えば、処理対象のWebページが掲示板や個人ホームページの場合には、業種用語辞書のインフォーマル版に抽出された特徴語を登録するようにする。
このようにして、辞書生成部520は、アーカイブ512に登録されたコンテンツ情報及びリンクトポロジDB519に格納されたリンクトポロジ・データを用いて業種用語辞書及びURL企業名辞書並びに略称名辞書を整備する。
さらに、辞書生成部520の検索ログ解析部555は、第16図乃至第21図で示されるような処理を行う。
第16図は検索ログ解析部555の処理の概要を示すフローチャートである。検索ログ解析部555は、インターネット1を介してプロキシ・サーバ8及び検索サイト・サーバ9にアクセスして、プロキシ・ログ格納部84及び検索ログ格納部91に格納されているログ・データを取得し、検索ログ格納部511に格納する(ステップS201)。なお、このステップは検索ログ解析部555以外の処理部又は情報収集解析システム5の管理者などが行う場合もある。検索ログ格納部91から取得される検索ログ・データの一例を以下に示す。
“2001/09/23:00:00:18url=http://mfy.mmbr.ease.com/iwte.htmlref=http://para.cab.inwb.ne.jp/cgibin/para?Querystring=%8DL%93%87%83%5C%81%5B%83v base=NORMAL”
この例では、日時(2001/09/23:00:00:18)と、「url=」の後の飛び先URL(http://mfy.mmbr.ease.com/iwte.html)と、「ref=」の後のクエリと、検索状態(base=NORMAL)とが含まれる。なお、クエリは下線で示したようにエンコードされた検索キーワードが含まれる。また、上の例ではIPアドレスがログに含まれていないが、含まれる場合もある。
また、プロキシ・ログ格納部84から取得されるログ・データの一例を以下に示す。なお、ここでは2つのログを示している。
“1034817348.963 133.25.88.171 11441 GET
http://para.cab.inwb.ne.jp/cgibin/para?Querystring=%8DL%93%87%83%5C%81%5B%83v
“1034817348.968 133.25.88.171 1441 GET
http://taisen.mycom.co.jp/taisen/image/side/top01.gif”
この例では、最初の数字は所定の形式で表された時刻情報である。また、IPアドレス(133.25.88.171)と、オブジェクト・サイズと、処理タイプ(GET)と、アクセス先URLとが含まれている。最初のログは、下線で示したようにエンコードされた検索キーワードを含む検索サイトへのクエリ(URL)を表しており、次のログは、同じクライアントによる別URLへのアクセスを表している。本実施の形態では検索サイトへのクエリの後に同じクライアントがアクセスしたURLを飛び先URLと判断して処理を実施する。すなわち、プロキシ・ログ格納部84から取得されるログ・データについては、2つのログにて検索ログ格納部91に格納された1つの検索ログに相当するデータが構成されることとなる。
なお、検索サイト・サーバ9もプロキシ・サーバ8も負荷分散のため複数のサーバで構成される場合がある。この場合には、それぞれのサーバのプロキシ・ログ格納部84又は検索ログ格納部91にログが分散するので、全てのサーバのプロキシ・ログ格納部84又は検索ログ格納部91のデータを取得して1つにまとめ、時間順に並べ替える必要がある。
次に、検索ログ解析部555は、収集されたログの正規化処理を実施する(ステップS203)。これ以降の処理のためにデータを絞り込むと共に、検索キーワードの正規化なども実施する。この処理の詳細を第17図及び第18図に示す。
第17図は検索ログ格納部91から取得されたデータについての処理フローを示している。検索ログ解析部555は、検索ログ格納部511から処理すべきデータをメモリに読み出す(ステップS211)。そして、読み出したデータの各ログについて日時、キーワード及び飛び先URLのデータを抽出し、メモリに格納する(ステップS213)。なお、キーワードについてはエンコードされているので、ここでデコードし、メモリに格納する(ステップS215)。そして、デコードされたキーワードについて正規化を行い、メモリに格納する(ステップS217)。ここで正規化は、全角の英数文字を半角の英数文字に変換したり、大文字を小文字に変換したり、半角かな文字を全角かな文字に変換したり、表記のゆれを整える処理である。表記のゆれについては、日本語としては「コンピューター」を「コンピュータ」に直すような処理や、英語では「studies」を「study」に直すような処理である。
そして検索ログ解析部555は、所定時間内に同一キーワードのログが含まれるか判断する(ステップS219)。これはユーザが間違って何度も連続して同一キーワードの検索指示を行ってしまうような場合や、検索結果の複数のURLを順番に見ているような場合を検出するためである。複数のURLを順番に見ているような場合には、最後に遷移した飛び先URLが本当に必要な内容が開示されているWebページであるという仮定の下処理を行う。もし、所定時間内に同一キーワードを含むログが含まれると判断された場合には、当該同一キーワードを含むログのうち最終アクセスのログ以外を削除する(ステップS221)。そして元の処理に戻る。一方、所定期間内に同一キーワードのログが含まれていないと判断された場合には、元の処理に戻る。
これにより処理不要なデータを削除して、処理しなければならないデータ量を減少させて、処理速度を上げることができると共に、より適切な処理結果を得ることができるようになる。
第18図はプロキシ・ログ格納部84から取得されたデータについての処理フローを示している。検索ログ解析部555は、検索ログ格納部511から処理すべきデータをメモリに読み出す(ステップS231)。次に、読み出したデータのうち各ログについて日時、URL及びクライアントIPアドレスを抽出し、メモリに記憶する(ステップS233)。このように抽出されたデータを含むログをクライアントIPアドレス毎にまとめて、時間順に並べ替える(ステップS235)。そして、所定の検索サイトへのアクセスを表すログを抽出すると共に、当該ログのURLからキーワードを抽出し、メモリに格納する(ステップS237)。このため検索サイトのURLを予め登録しておき、当該検索サイトのURLを用いて検索サイトへのアクセスを表すログを抽出する。そして、当該ログのURLの規則性からキーワードを切り出す。検索サイトへのアクセスを表すログを抽出すると、検索ログ解析部555は、当該抽出されたログの直後のログのURLを飛び先URLとして抽出し、メモリに格納する(ステップS239)。
このように抽出されたキーワード及び飛び先URLと、例えばキーワードを含むログの日時データとによりログ・レコードを生成し、メモリに格納する(ステップS241)。このログ・レコードに含まれるキーワードについてはエンコードされているので、ここでデコードし、デコード後のキーワードをメモリに格納する(ステップS243)。そして、デコードされたキーワードについて正規化を行い、メモリに格納する(ステップS245)。この正規化はステップS217と同様の処理である。
そして検索ログ解析部555は、所定時間内に同一キーワードのログ・レコードが含まれるか判断する(ステップS247)。もし、所定時間内に同一キーワードを含むログが含まれると判断された場合には、当該同一キーワードを含むログのうち最終アクセスのログ・レコード以外を削除する(ステップS249)。そして元の処理に戻る。一方、所定期間内に同一キーワードのログが含まれていないと判断された場合には、元の処理に戻る。
これにより処理不要なデータを削除して、処理しなければならないデータ量を減少させて、処理速度を上げることができると共に、より適切な処理結果を得ることができるようになる。
第16図の説明に戻って、次に検索ログ解析部555は集計処理を実施する(ステップS205)。この集計処理の詳細について第19図に示す。
集計処理として検索ログ解析部555は、飛び先URL毎に、アクセス数と使用されたキーワードの種類数をカウントし、カウント結果をメモリに格納する(ステップS251)。2以上のキーワードが同時に使用された場合にはそのセットを1種類と判断することも可能である。そして、飛び先URLをその階層構造に基づきサイト毎にまとめ、サイト毎にアクセス数と使用されたキーワードの種類数を集計し、集計結果をメモリに格納する(ステップS253)。本実施の形態においてサイトは、URLのドメイン部又はドメイン部及び1つ下の階層のディレクトリ部のいずれかを意味する。
このようにすることにより各ページのアクセス数及び使用されたキーワードの種類数が把握されると共に、各ページを配下に有するサイト毎のアクセス数及び使用されたキーワードの種類数を把握することができるようになる。
第16図の説明に戻って、次に検索ログ解析部555は、サイト種別判定処理及び登録処理を実施する(ステップS207)。このサイト種別判定処理及び登録処理の詳細を第20図に示す。まず、検索ログ解析部555は、各サイトをアクセス数、使用されたキーワードの種類数でソートする(ステップS261)。これにより各サイトの相対的なアクセス数の多寡、使用されたキーワードの種類数の多寡が分かるようになる。そして、飛び先サイトを1つ選択し(ステップS263)、当該飛び先サイトのアクセス数及び使用キーワードの種類数が所定基準以上であるか判断する(ステップS265)。より具体的にはアクセス数についての所定基準と当該飛び先サイトのアクセス数とを比較し、使用キーワードの種類数についての所定基準と当該飛び先サイトの使用キーワードの種類数とを比較する。
そして当該飛び先サイトのアクセス数及び使用キーワードの種類数が所定基準以上であると判断された場合には(ステップS265:Yesルート)、本実施の形態では当該飛び先サイトはISP(Internet Service Provider)のサイトであると判断し、当該サイトURLが未登録であれば、URL企業名辞書に、サイトURL、企業名、業種名(ISP)、使用されたキーワード及びランキング情報を登録する(ステップS267)。企業名についてはTITLEタグの値を用いる。また、ランキング情報については、アクセス数及びアーカイブ512に格納されている被参照度のデータを登録する。このようにURL企業名辞書が拡充される。また、業種(ISP)に対応して使用されたキーワードを業種用語辞書に登録する(ステップS269)。このように業種用語辞書が拡充される。
また、所定の条件を満たす当該飛び先サイトの配下のページを抽出する(ステップS271)。所定の条件は、例えばアクセス数が所定基準以上であること、又はアクセス数の時間経過のデータを得ることができる場合にはアクセス数が所定基準以上に増加していることである。そして、抽出されたページのURLを個人ホームページのURLであるとみなし、URL、業種及びランキング情報を解析データ格納部510に登録する(ステップS273)。例えば、第4B図の段階で、種別を「2」として解析データ格納部510に格納する。この場合には、本ステップにおいて、例えば特徴語ベース業種判定部553が当該Webページの内容から業種用語辞書に基づき業種を判定する。なお、第2図のステップS3の代わりに本ステップが行われたものとするならば、第4A図の段階で解析データ格納部510に格納するようにしても良い。また、ランキング情報については、上で述べた処理にて取得されたアクセス数と、アーカイブ512に格納された被参照度のデータを登録する。アクセス数は被参照度を補完するランキング情報であり、被参照度が同じであればアクセス数により重要度、影響度、信頼度などを判断する。処理はステップS283に移行する。
ステップS265でアクセス数及び使用キーワード種類数が所定の基準未満であると判断された場合には(ステップS265:Noルート)、アクセス数が所定の範囲内であって且つ使用キーワード種類数が所定基準未満であるか判断する(ステップS275)。例えば、アクセス数が、上で述べた所定の基準未満であるが、第2の基準以上であるか判断し、さらに使用キーワード種類数が所定基準未満であるか判断する。本実施の形態においてこのような条件を満たすサイトは、一般的な企業のサイトであると判断する。従って、アクセス数が所定の範囲内であって且つ使用キーワード種類数が所定基準未満であると判断された場合には(ステップS275:Yesルート)、当該サイトURLが未登録であれば、URL企業名辞書に、サイトURL、企業名、業種名、ランキング情報及び使用されたキーワードを登録する(ステップS277)。このようにURL企業名辞書が拡充される。なお、業種名については、例えば特徴語ベース業種判定部553が業種用語辞書に基づき当該Webページの内容から判定して、URL企業名辞書に登録する。企業名については当該WebページのTITLEタグの値を用いる。使用されたキーワードは特徴キーワードとして登録される。ランキング情報は、上で述べた処理により取得されたアクセス数と、アーカイブ512に格納されている被参照度のデータを登録する。このようにURL企業名辞書にもランキング情報が登録されるようになり、個人ホームページなどにおいて情報の出所を表す情報としてURLが検出された場合に、検出されたURLのランキング情報に基づいて当該個人ホームページなどの信頼度を計算することができる。処理はステップS283に移行する。
ステップS275においてアクセス数が所定範囲内ではなく且つ使用キーワードの種類数が所定基準未満ではないと判断された場合には(ステップS275:Noルート)、アクセス数及び使用キーワードの種類数が所定の基準未満であるか判断する(ステップS279)。すなわちアクセス数がアクセス数についての基準未満であり、且つ使用キーワードの種類数が使用キーワードの種類数についての基準未満であるが判断する。もし、アクセス数及び使用キーワード種類数が所定の基準未満である場合には(ステップS279:Yesルート)、本実施の形態では個人ホームページと同レベルのサイトであると判断する。従って、URL、業種及びランキング情報を解析データ格納部510に登録する(ステップS281)。例えば、第4B図の段階で、種別を「3」として解析データ格納部510に格納する。この場合には、本ステップにおいて、例えば特徴語ベース業種判定部553が当該Webページの内容から業種用語辞書に基づき業種を判定する。なお、第2図のステップS3の代わりに本ステップが行われたものとするならば、第4A図の段階で解析データ格納部510に格納するようにしても良い。また、ランキング情報については、上で述べた処理にて取得されたアクセス数と、アーカイブ512に格納された被参照度のデータを登録する。このような処理を実施することにより、個人等の小規模な組織がドメインを取得して意見を述べたり噂話を行ったりする場合に対処することができる。処理はステップS283に移行する。ステップS279においてアクセス数及び使用キーワード種類数が所定基準未満ではないと判断された場合にもステップS283に移行する。
ステップS283では、全ての飛び先サイトについて処理したか判断する。未処理の飛び先サイトが存在する場合には、ステップS263に戻って、未処理の飛び先サイトについての処理を実施する。一方、全ての飛び先サイトについて処理したと言える場合には処理を終了する。
以上のような処理を実施することにより、検索ログなどからURL企業名辞書及び業種用語辞書を拡充させると共に注目すべきサイトやURLを特定することができるようになる。
なお、辞書生成部520の検索ログ解析部555は、第16図乃至第20図で示される処理のほか、検索ログ格納部511に格納されたデータを用いて以下のような処理を実施する。
検索ログは、上で述べたように、少なくともタイムスタンプ(日時)と、検索キーワードと、飛び先URLとを含む。例えば検索ログ解析部555は、検索ログ格納部511に格納された検索ログに対してキーワード・グルーピング及びURLグルーピングを実施する。キーワード・グルーピングは、(a)1度の検索においてAND条件で入力された複数の検索キーワードのグルーピング、(b)連続する複数回の検索においてAND条件で入力された複数の検索キーワードのグルーピング、及び(c)同じ飛び先URLを含む複数の検索ログにおける複数の検索キーワードのグルーピングを含む。URLグルーピングは、(a)AND条件で連続して行われた各検索の検索ログに含まれる飛び先URLのグルーピング、及び(b)同じキーワードを含む検索ログにおける飛び先URLのグルーピングを含む。
これらのグルーピングにより生成されるキーワード・セット及び飛び先URLセットは、一旦記憶装置に格納される。そして、初期的にはキーワード・セット及び飛び先URLセットは、表示装置に表示したり、印刷装置に出力したりして、辞書の管理者に提示される。そして、辞書の管理者は、各キーワード・セット及び飛び先URLセットについて業種及び企業名を判定し、各キーワード・セット及び飛び先URLセットを、判定結果である業種及び企業名に従って業種用語辞書及び企業名辞書若しくは企業名辞書に登録する。また、各キーワード・セット及び飛び先URLセットに対応して判定結果である業種及び企業名をファイルやテーブルに記録しておく。
例えば「(A企業名)&コンピュータ」という検索キーワードが1回の検索で入力された場合や、「(A企業名)」で検索した後にAND条件で「コンピュータ」という検索キーワードの検索が連続して行われた場合には、A企業又はA企業の業種に対応して「コンピュータ」という用語を登録する。また、「ABC」、「DEF」などの検索キーワードを含む検索ログにおいて同一企業のURLが飛び先URLとなっているということで当該検索キーワードがグルーピングされている場合には、当該企業又は当該企業の業種に対応して「ABC」、「DEF」などの検索キーワードを登録する。
また、「(A企業名)」という検索の後にAND条件で「コンピュータ」といった検索キーワードの検索が連続して行われ、飛び先URLセットとして抽出されたURLのいずれかがA企業のURL以外のURLであってドメインも異なるようなURLである場合には、関連URLとして、当該抽出されたURLをA企業又はA企業の業種に対応して登録する。また、「(A企業)」という同一検索キーワードを含む検索ログの飛び先URLセットのいずれかがA企業のURL以外のURLであってドメインも異なるようなURLである場合には、関連URLとして、当該飛び先URLをA社又はA社の業種に対応して登録する。
ある程度、辞書の管理者が人手で業種及び企業名を判定して、各キーワード・セット及び飛び先URLセットに対応して判定結果である業種及び企業名が記録されると、これらの記録を用いて、新規なキーワード・セット又は飛び先URLセットに対して業種及び企業名の判定を例えば検索ログ解析部555により行うことができるようになる。すなわち、新規なキーワード・セット又は飛び先URLセットに類似するキーワード・セット又は飛び先URLセットを記録の中から抽出し、当該抽出されたキーワード・セット又は飛び先URLセットに対応して記録された業種及び企業名を、新規なキーワード・セット又は飛び先URLセットに割り当てるようにする。そして、新規なキーワード・セット又は飛び先URLセットのうち未登録のキーワード又は飛び先URLを、割当結果である業種及び企業名に従って業種用語辞書及び企業名辞書若しくは企業名辞書に登録する。
さらに、第21図に示すような処理も実施される。すなわち、検索ログ解析部555は、検索ログ格納部511に格納された検索ログを用いて、業種指定された状態における検索ログを抽出し、当該検索ログにおける検索キーワードを業種用語辞書に登録する(ステップS101)。例えば、検索キーワードに業種名を表す文言が用いられている場合や、検索キーワードとは別に検索条件として業種指定を行うことができるような場合等に適用可能である。なお、抽出された検索ログにおける検索キーワードを、業種用語辞書のインフォーマル版に登録するようにしても良い。また、検索ログ解析部555は、検索ログにおけるユーザの飛び先URLがURL企業名辞書に登録されていれば、当該URLに対応して検索キーワードを特徴キーワードとしてURL企業名辞書に登録する(ステップS103)。例えば、「GHI」という検索キーワードを含む検索ログにURL企業名辞書に登録済みのURLが飛び先URLとして含まれる場合には、「GHI」を飛び先URLの企業の特徴キーワードとしてURL企業名辞書に登録する。
このようにすることにより、検索ログを用いて業種用語辞書の拡充を図ることができるようになる。また、URL企業名辞書の特徴キーワードについても拡充することができる。
以上本発明の一実施の形態を述べたが、本発明はこれに限定されるものではない。すなわち、第1図に示された情報収集解析システム5内の機能ブロック分けについては一例であって、他の分け方であっても良い。また、第2図の処理フローにおいて、出所探索処理(ステップS11)の実行順番については、例えば発言及びスレッドの抽出(ステップS7)と共に又はその後に実行するような構成であってもよい。第9図においても、ステップS51及びステップS53と、ステップS55及びステップS57との順番入れ替えも可能である。第10図においても、ステップS61、ステップS63、ステップS65乃至S87の順番を入れ替えることも可能である。第14図における機能ブロック分けについても一例であって、他の分け方であっても良い。第15図における処理ステップは、その実行順番は入れ替え可能である。
上では企業についての情報収集及び解析について述べたが、書評等を対象としても良い。また、第12図及び第13図に、ユーザ・インターフェース部509の出力の一例を示したが、例えば会社名だけを抽出するのではなく、例えば掲示板や個人ホームページから特定の会社の商品名などもいっしょに抽出して、例えば抽出情報を格納するための列308(第4C図)に格納しておく。そして、例えば第22図に示すような情報をユーザ・インターフェース部509がユーザ端末3に出力するようにしてもよい。すなわち、各企業の各商品について、各掲示板や各個人ホームページにおいて何回程度良い評価(GOOD)が行われているか又は何回程度悪い評価(BAD)が行われているかを解析データ格納部510に格納されたデータについて集計して、ユーザに対して提示するものである。
また、第20図の処理フローにおいて、さらにアクセス数及び使用されるキーワード種類数の基準値を適切に決定することによりさらに詳細にサイトを分類することができるようになる。例えば、あるサイトの配下に使用キーワードの種類数が多いページがあまりない場合には当該サイトをニュース提供サイトと判断するようなことも可能である。
【図面の簡単な説明】
第1図は、本発明の一実施の形態に係るシステム概要を説明するための図である。
第2図は、情報収集解析システムの処理フローの一例を示す図である。
第3A図及び第3B図は、掲示板要素格納部に格納されるデータの一例を示す図である。
第4A図、第4B図及び第4C図は、解析データ格納部に格納されるデータの状態変化の一例を示す図である。
第5図は、業種用語辞書格納部に格納されるデータの一例を示す図である。
第6図は、発言の抽出処理についての処理フローの一例を示す図である。
第7図は、スレッドの抽出処理についての処理フローの一例を示す図である。
第8A図及び第8B図は、企業名辞書格納部に格納されるデータの一例を示す図である。
第9図は、出所探索処理についての処理フローの一例を示す図である。
第10図は、発言及びスレッドの分析処理についての処理フローの一例を示す図である。
第11図は、ルールセットの生成処理フローの一例を示す図である。
第12図は、統計処理部の処理結果の一例を示す図である。
第13図は、統計処理部の処理結果の一例を示す図である。
第14図は、辞書生成部の機能ブロックの一例を表す図である。
第15図は、辞書生成部の処理フローの一例を示す図である。
第16図は、検索ログ解析部の処理フローの一例を示す図である。
第17図は、検索ログ解析部の第1のログ正規化処理の一例を示す図である。
第18図は、検索ログ解析部の第2のログ正規化処理の一例を示す図である。
第19図は、検索ログ解析部の集計処理の一例を示す図である。
第20図は、検索ログ解析部のサイト種別判定処理及び登録処理の一例を示す図である。
第21図は、検索ログ解析部の処理フローの一例を示す図である。
第22図は、統計処理部等の処理結果の一例を示す図である。

Claims (62)

  1. 収集されたコンテンツ情報の中から個人の意見の開示単位を抽出する抽出ステップと、
    前記個人の意見の対象を特定する対象特定ステップと、
    前記個人の意見の開示内容を解析することにより前記対象についての前記個人の評価を特定する評価特定ステップと、
    を含むコンテンツ情報解析方法。
  2. 前記抽出ステップが、
    個人の意見が含まれるコンテンツ情報の単位を特定する特定ステップと、
    特定された前記コンテンツ情報の単位から前記個人の意見の開示単位を抽出するステップと、
    を含む請求項1記載のコンテンツ情報解析方法。
  3. 前記特定ステップが、前記コンテンツ情報の単位毎の被参照度が高い順番に実施されることを特徴とする請求項2記載のコンテンツ情報解析方法。
  4. 前記抽出ステップが、
    前記個人の意見の参照元を辿ることにより前記個人の意見の開示単位のグループを検出するステップ
    を含む請求項1記載のコンテンツ情報解析方法。
  5. 前記抽出ステップが、
    前記個人の意見の対象についてのカテゴリを特定するカテゴリ特定ステップ
    を含むことを特徴とする請求項1記載のコンテンツ情報解析方法。
  6. 前記評価特定ステップにおいて、
    前記個人の意見の対象についてのカテゴリに基づいて前記個人の意見の開示内容を解析することにより、前記対象についての前記個人の評価を特定する
    ことを特徴とする請求項5記載のコンテンツ情報解析方法。
  7. 前記個人の意見の根拠となり得る情報が当該個人の意見の開示単位に含まれるか判断し、含まれる場合には当該根拠となり得る情報を特定するステップ
    をさらに含む請求項1記載のコンテンツ情報解析方法。
  8. 前記個人の意見の開示内容についてのジャンルを特定するステップ
    をさらに含む請求項1記載のコンテンツ情報解析方法。
  9. 前記個人の意見の開示単位の信頼度を決定する信頼度決定ステップ
    をさらに含む請求項1記載のコンテンツ情報解析方法。
  10. 前記信頼度決定ステップが、
    前記個人の意見の開示単位に前記個人の身元を表す情報が含まれているか判断するステップ
    を含む請求項9記載のコンテンツ情報解析方法。
  11. 前記信頼度決定ステップが、
    前記個人の意見の根拠となり得る情報が当該個人の意見の開示単位に含まれているか判断するステップ
    を含む請求項9記載のコンテンツ情報解析方法。
  12. 前記対象特定ステップにおいて、
    少なくともユニフォームリソースロケータ(URL)と企業名と略称と業種とについての辞書を用いて、前記個人の意見の対象を特定する
    ことを特徴とする請求項1記載のコンテンツ情報解析方法。
  13. 収集されたコンテンツ情報のURL及び前記辞書に登録済みの類似のURLを用いて、企業名に対応する業種に関する情報を前記辞書に登録するステップ
    をさらに含む請求項12記載のコンテンツ情報解析方法。
  14. 収集されたコンテンツ情報のリンク元の文字情報及びリンク先のURLを用いて、略称を前記辞書に登録するステップ
    をさらに含む請求項12記載のコンテンツ情報解析方法。
  15. 収集されたコンテンツ情報のリンク関係を解析することにより得られるリンクトポロジの情報を用いて企業名に対応する業種に関する情報を前記辞書に登録するステップ
    をさらに含む請求項12記載のコンテンツ情報解析方法。
  16. コンテンツ情報から特徴語を抽出し、各業種についての特徴語を備えた第2の辞書を用いて業種を特定して、企業名に対応する業種に関する情報を前記辞書に登録するステップ
    をさらに含む請求項12記載のコンテンツ情報解析方法。
  17. 前記カテゴリ特定ステップにおいて、
    各業種に対応する特徴語についての第2の辞書を用いて、前記個人の意見の対象である企業の業種を特定する
    ことを特徴とする請求項5記載のコンテンツ情報解析方法。
  18. 業種の特定されたコンテンツ情報から特徴語を抽出し、当該特徴語を前記業種に対応して前記第2の辞書に追加するステップ
    をさらに含む請求項16記載のコンテンツ情報解析方法。
  19. コンテンツ情報に対する検索ログにおいて、業種が既に指定されている状態における検索のキーワードを識別し、当該キーワードを前記第2の辞書に特徴語として登録するステップ
    をさらに含む請求項16記載のコンテンツ情報解析方法。
  20. コンテンツ情報に対する検索ログに含まれる、検索者の飛び先URLが前記辞書に含まれているか判断するステップと、
    含まれていると判断された場合には、前記検索ログに含まれる検索キーワードを前記辞書に追加するステップと、
    をさらに含む請求項12記載のコンテンツ情報解析方法。
  21. 各々検索キーワード及び飛び先URLを含む、コンテンツ情報に対する複数の検索ログを解析し、アクセス数及び検索キーワードの種類数に基づき個人ホームページを階層下に含むサイトを特定するステップと、
    特定された前記サイトの階層下に含まれる個人ホームページを前記個人の意見の開示単位として抽出するステップと、
    をさらに含む請求項1記載のコンテンツ情報解析方法。
  22. 各々検索キーワード及び飛び先URLを含む、コンテンツ情報に対する複数の検索ログを解析し、アクセス数及び検索キーワードの種類数に基づき個人又は小規模組織のサイトを前記個人の意見の開示単位として抽出するステップ、
    をさらに含む請求項1記載のコンテンツ情報解析方法。
  23. 各々検索キーワード及び飛び先URLを含む、コンテンツ情報に対する複数の検索ログを解析し、アクセス数及び検索キーワードの種類数に基づき個人ホームページを階層下に含むサイトを特定するステップと、
    特定された前記サイトについての情報を、前記辞書に登録するステップと、
    をさらに含む請求項12記載のコンテンツ情報解析方法。
  24. 各々検索キーワード及び飛び先URLを含む、コンテンツ情報に対する複数の検索ログを解析し、アクセス数及び検索キーワードの種類数に基づき企業サイトを特定するステップと、
    特定された前記企業サイトについての情報を、前記辞書に登録するステップと、
    をさらに含む請求項12記載のコンテンツ情報解析方法。
  25. 収集されたコンテンツ情報の中から個人の意見の開示単位を抽出するステップと、
    前記個人の意見の対象を特定するステップと、
    前記個人の意見の開示単位の信頼度を決定するステップと、
    を含むコンテンツ情報解析方法。
  26. 各々検索キーワード及び飛び先URLを含む、コンテンツ情報に対する複数の検索ログを取得する取得ステップと、
    所定の規則に従って各飛び先URLについてアクセス数及び検索キーワードの種類数をカウントするカウントステップと、
    URLの構造に基づき特定される各サイトについて、当該サイトの階層下に含まれる飛び先URLのアクセス数及び検索キーワードの種類数を集計するステップと、
    前記サイトについて集計されたアクセス数及び検索キーワードの種類数に基づき、当該サイトの種別を判定するステップと、
    を含むコンテンツ情報解析方法。
  27. 前記取得ステップが、
    プロキシ・サーバに蓄積されるログ・データから、検索キーワード及び飛び先URLを含む複数のログ・レコードを生成するステップ
    を含む請求項26記載のコンテンツ情報解析方法。
  28. 前記カウントステップが、
    検索キーワードを正規化するステップと、
    所定時間内に同一検索キーワードに係る複数の検索ログが含まれる場合には最終検索ログ以外の検索ログを削除するステップと、
    を含む請求項26記載のコンテンツ情報解析方法。
  29. 収集されたコンテンツ情報の中から個人の意見の開示単位を抽出する抽出手段と、
    前記個人の意見の対象を特定する対象特定手段と、
    前記個人の意見の開示内容を解析することにより前記対象についての前記個人の評価を特定する評価特定手段と、
    を有するコンテンツ情報解析システム。
  30. 前記抽出手段が、
    個人の意見が含まれるコンテンツ情報の単位を特定する特定手段と、
    特定された前記コンテンツ情報の単位から前記個人の意見の開示単位を抽出する手段と、
    を含む請求項29記載のコンテンツ情報解析システム。
  31. 前記特定手段が、前記コンテンツ情報の単位毎の被参照度が高い順番に実施することを特徴とする請求項30記載のコンテンツ情報解析システム。
  32. 前記抽出手段が、
    前記個人の意見の参照元を辿ることにより前記個人の意見の開示単位のグループを検出する
    ことを特徴とする請求項29記載のコンテンツ情報解析システム。
  33. 前記抽出手段が、
    前記個人の意見の対象についてのカテゴリを特定するカテゴリ特定手段
    を含むことを特徴とする請求項29記載のコンテンツ情報解析システム。
  34. 前記評価特定手段が、
    前記個人の意見の対象についてのカテゴリに基づいて前記個人の意見の開示内容を解析することにより、前記対象についての前記個人の評価を特定する
    ことを特徴とする請求項33記載のコンテンツ情報解析システム。
  35. 前記個人の意見の根拠となり得る情報が当該個人の意見の開示単位に含まれるか判断し、含まれる場合には当該根拠となり得る情報を特定する手段
    をさらに有する請求項29記載のコンテンツ情報解析システム。
  36. 前記個人の意見の開示内容についてのジャンルを特定する手段
    をさらに有する請求項29記載のコンテンツ情報解析システム。
  37. 前記個人の意見の開示単位の信頼度を決定する信頼度決定手段
    をさらに有する請求項29記載のコンテンツ情報解析システム。
  38. 前記信頼度決定手段が、
    前記個人の意見の開示単位に前記個人の身元を表す情報が含まれているか判断する
    ことを特徴とする請求項37記載のコンテンツ情報解析システム。
  39. 前記信頼度決定手段が、
    前記個人の意見の根拠となり得る情報が当該個人の意見の開示単位に含まれているか判断する
    ことを特徴とする請求項37記載のコンテンツ情報解析システム。
  40. 前記対象特定手段が、
    少なくともユニフォームリソースロケータ(URL)と企業名と略称と業種とについての辞書を用いて、前記個人の意見の対象を特定する
    ことを特徴とする請求項29記載のコンテンツ情報解析システム。
  41. 収集されたコンテンツ情報のURL及び前記辞書に登録済みの類似のURLを用いて、前記辞書に企業名に対応する業種に関する情報を登録する手段
    をさらに有する請求項40記載のコンテンツ情報解析システム。
  42. 収集されたコンテンツ情報のリンク元の文字情報及びリンク先のURLを用いて、略称を前記辞書に登録する手段
    をさらに有する請求項40記載のコンテンツ情報解析システム。
  43. 収集されたコンテンツ情報のリンク関係を解析することにより得られるリンクトポロジの情報を用いて企業名に対応する業種に関する情報を前記辞書に登録する手段
    をさらに有する請求項40記載のコンテンツ情報解析システム。
  44. コンテンツ情報から特徴語を抽出し、各業種についての特徴語を備えた第2の辞書を用いて業種を特定して、企業名に対応する業種に関する情報を前記辞書に登録する手段
    をさらに有する請求項40記載のコンテンツ情報解析システム。
  45. 前記カテゴリ特定手段が、
    各業種に対応する特徴語についての第2の辞書を用いて、前記個人の意見の対象である企業の業種を特定する
    ことを特徴とする請求項33記載のコンテンツ情報解析システム。
  46. 業種の特定されたコンテンツ情報から特徴語を抽出し、当該特徴語を前記業種に対応して前記第2の辞書に追加するステップ
    をさらに含む請求項44記載のコンテンツ情報解析システム。
  47. コンテンツ情報についての検索ログにおいて、業種が既に指定されている状態における検索のキーワードを識別し、当該キーワードを前記第2の辞書に特徴語として登録する手段
    をさらに有する請求項44記載のコンテンツ情報解析システム。
  48. コンテンツ情報についての検索ログに含まれる、検索者の飛び先URLが前記辞書に含まれているか判断する手段と、
    含まれていると判断された場合には、前記検索ログに含まれる検索キーワードを前記辞書に追加する手段と、
    をさらに有する請求項40記載のコンテンツ情報解析システム。
  49. 各々検索キーワード及び飛び先URLを含む、コンテンツ情報に対する複数の検索ログを解析し、アクセス数及び検索キーワードの種類数に基づき個人ホームページを階層下に含むサイトを特定する手段と、
    特定された前記サイトの階層下に含まれる個人ホームページを前記個人の意見の開示単位として抽出する手段と、
    をさらに有する請求項29記載のコンテンツ情報解析システム。
  50. 各々検索キーワード及び飛び先URLを含む、コンテンツ情報に対する複数の検索ログを解析し、アクセス数及び検索キーワードの種類数に基づき個人又は小規模組織のサイトを前記個人の意見の開示単位として抽出する手段、
    をさらに有する請求項29記載のコンテンツ情報解析システム。
  51. 各々検索キーワード及び飛び先URLを含む、コンテンツ情報に対する複数の検索ログを解析し、アクセス数及び検索キーワードの種類数に基づき個人ホームページを階層下に含むサイトを特定する手段と、
    特定された前記サイトについての情報を、前記辞書に登録する手段と、
    をさらに有する請求項40記載のコンテンツ情報解析システム。
  52. 各々検索キーワード及び飛び先URLを含む、コンテンツ情報に対する複数の検索ログを解析し、アクセス数及び検索キーワードの種類数に基づき企業サイトを特定する手段と、
    特定された前記企業サイトについての情報を、前記辞書に登録する手段と、
    をさらに有する請求項40記載のコンテンツ情報解析システム。
  53. 収集されたコンテンツ情報の中から個人の意見の開示単位を抽出する手段と、
    前記個人の意見の対象を特定する手段と、
    前記個人の意見の開示単位の信頼度を決定する手段と、
    を有するコンテンツ情報解析システム。
  54. 各々検索キーワード及び飛び先URLを含む、コンテンツ情報に対する複数の検索ログを取得する取得手段と、
    所定の規則に従って各飛び先URLについてアクセス数及び検索キーワードの種類数をカウントするカウント手段と、
    URLの構造に基づき特定される各サイトについて、当該サイトの階層下に含まれる飛び先URLのアクセス数及び検索キーワードの種類数を集計する手段と、
    前記サイトについて集計されたアクセス数及び検索キーワードの種類数に基づき、当該サイトの種別を判定する手段と、
    を有するコンテンツ情報解析システム。
  55. 前記取得手段が、
    プロキシ・サーバに蓄積されるログ・データから、検索キーワード及び飛び先URLを含む複数のログ・レコードを生成する手段
    を有する請求項54記載のコンテンツ情報解析システム。
  56. 前記カウント手段が、
    検索キーワードを正規化する手段と、
    所定時間内に同一検索キーワードに係る複数の検索ログが含まれる場合には最終検索ログ以外の検索ログを削除する手段と、
    を有する請求項54記載のコンテンツ情報解析システム。
  57. コンテンツ情報解析処理をコンピュータに実施させるためのプログラムを格納した記録媒体であって、
    コンピュータに、
    収集されたコンテンツ情報の中から個人の意見の開示単位を抽出する抽出ステップと、
    前記個人の意見の対象を特定する対象特定ステップと、
    前記個人の意見の開示内容を解析することにより前記対象についての前記個人の評価を特定する評価特定ステップと、
    を実行させるためのプログラムを格納した記録媒体。
  58. コンテンツ情報解析処理をコンピュータに実施させるためのプログラムを格納した記録媒体であって、
    コンピュータに、
    収集されたコンテンツ情報の中から個人の意見の開示単位を抽出するステップと、
    前記個人の意見の対象を特定するステップと、
    前記個人の意見の開示単位の信頼度を決定するステップと、
    を実行させるためのプログラムを格納した記録媒体。
  59. コンテンツ情報解析処理をコンピュータに実施させるためのプログラムを格納した記録媒体であって、
    コンピュータに、
    各々検索キーワード及び飛び先URLを含む、コンテンツ情報に対する複数の検索ログを取得する取得ステップと、
    所定の規則に従って各飛び先URLについてアクセス数及び検索キーワードの種類数をカウントするカウントステップと、
    URLの構造に基づき特定される各サイトについて、当該サイトの階層下に含まれる飛び先URLのアクセス数及び検索キーワードの種類数を集計するステップと、
    前記サイトについて集計されたアクセス数及び検索キーワードの種類数に基づき、当該サイトの種別を判定するステップと、
    を実行させるためのプログラムを格納した記録媒体。
  60. 収集されたコンテンツ情報の中から個人の意見の開示単位を抽出するステップと、
    前記個人の意見の対象を特定するステップと、
    前記個人の意見の開示内容を解析することにより前記対象についての前記個人の評価を特定するステップと、
    をコンピュータに実行させるためのコンテンツ情報解析プログラム。
  61. 各々検索キーワード及び飛び先URLを含む、コンテンツ情報に対する複数の検索ログを取得する取得ステップと、
    所定の規則に従って各飛び先URLについてアクセス数及び検索キーワードの種類数をカウントするカウントステップと、
    URLの構造に基づき特定される各サイトについて、当該サイトの階層下に含まれる飛び先URLのアクセス数及び検索キーワードの種類数を集計するステップと、
    前記サイトについて集計されたアクセス数及び検索キーワードの種類数に基づき、当該サイトの種別を判定するステップと、
    をコンピュータに実行させるためのコンテンツ情報解析プログラム。
  62. 収集されたコンテンツ情報の中から個人の意見の開示単位を抽出するステップと、
    前記個人の意見の対象を特定するステップと、
    前記個人の意見の開示単位の信頼度を決定するステップと、
    をコンピュータに実行させるためのコンテンツ情報解析プログラム。
JP2003548126A 2001-11-26 2002-10-30 情報解析方法及び装置 Expired - Fee Related JP4097602B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2001359484 2001-11-26
JP2001359484 2001-11-26
PCT/JP2002/011263 WO2003046764A1 (fr) 2001-11-26 2002-10-30 Procede et appareil d'analyse d'informations

Publications (2)

Publication Number Publication Date
JPWO2003046764A1 true JPWO2003046764A1 (ja) 2005-04-14
JP4097602B2 JP4097602B2 (ja) 2008-06-11

Family

ID=19170483

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003548126A Expired - Fee Related JP4097602B2 (ja) 2001-11-26 2002-10-30 情報解析方法及び装置

Country Status (9)

Country Link
US (1) US20030101166A1 (ja)
EP (2) EP1450268A4 (ja)
JP (1) JP4097602B2 (ja)
KR (2) KR100953238B1 (ja)
CN (1) CN100390786C (ja)
AU (1) AU2002343775B2 (ja)
CA (2) CA2648269C (ja)
TW (1) TWI252987B (ja)
WO (1) WO2003046764A1 (ja)

Families Citing this family (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7188117B2 (en) * 2002-05-17 2007-03-06 Xerox Corporation Systems and methods for authoritativeness grading, estimation and sorting of documents in large heterogeneous document collections
US7167871B2 (en) * 2002-05-17 2007-01-23 Xerox Corporation Systems and methods for authoritativeness grading, estimation and sorting of documents in large heterogeneous document collections
JP2004355069A (ja) * 2003-05-27 2004-12-16 Sony Corp 情報処理装置および方法、プログラム、並びに記録媒体
US7346839B2 (en) * 2003-09-30 2008-03-18 Google Inc. Information retrieval based on historical data
GB2412196A (en) * 2004-03-19 2005-09-21 Envisional Technology Ltd System for monitoring sentiment on the internet
KR100469900B1 (ko) 2004-05-27 2005-02-03 엔에이치엔(주) 네트워크를 통한 커뮤니티 검색 서비스 시스템 및 그 방법
KR100462542B1 (ko) * 2004-05-27 2004-12-17 엔에이치엔(주) 신뢰성 있는 컨텐츠를 제공하는 컨텐츠 검색 시스템 및 그방법
JP2006053616A (ja) * 2004-08-09 2006-02-23 Kddi Corp サーバ装置、webサイト推奨方法およびプログラム
JP2006065395A (ja) * 2004-08-24 2006-03-09 Fujitsu Ltd ハイパーリンク生成装置、ハイパーリンク生成方法及びハイパーリンク生成プログラム
US7546323B1 (en) * 2004-09-30 2009-06-09 Emc Corporation System and methods for managing backup status reports
JP4148522B2 (ja) * 2004-11-19 2008-09-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 表現検出システム、表現検出方法、及びプログラム
JP2006277386A (ja) * 2005-03-29 2006-10-12 Nissan Motor Co Ltd 車両用情報提示装置、情報提示方法および情報提示システム
EP1770550A1 (en) * 2005-10-03 2007-04-04 Sony Ericsson Mobile Communications AB Method and electronic device for obtaining an evaluation of an electronic document
US7356767B2 (en) * 2005-10-27 2008-04-08 International Business Machines Corporation Extensible resource resolution framework
JP4612535B2 (ja) * 2005-12-02 2011-01-12 日本電信電話株式会社 正当サイト検証手法におけるホワイトリスト収集方法および装置
JP4542993B2 (ja) 2006-01-13 2010-09-15 株式会社東芝 構造化文書抽出装置、構造化文書抽出方法および構造化文書抽出プログラム
KR100818553B1 (ko) * 2006-08-22 2008-04-01 에스케이커뮤니케이션즈 주식회사 문서랭킹 부여방법 및 이를 수행할 수 있는 프로그램이수록된 컴퓨터로 읽을 수 있는 기록 매체
US8296168B2 (en) * 2006-09-13 2012-10-23 University Of Maryland System and method for analysis of an opinion expressed in documents with regard to a particular topic
US9076148B2 (en) * 2006-12-22 2015-07-07 Yahoo! Inc. Dynamic pricing models for digital content
JP5008024B2 (ja) * 2006-12-28 2012-08-22 独立行政法人情報通信研究機構 風評情報抽出装置及び風評情報抽出方法
JP4806644B2 (ja) * 2007-03-15 2011-11-02 富士通株式会社 ジャンプ先サイト決定プログラム、記録媒体、ジャンプ先サイト決定方法、およびジャンプ先サイト決定装置
JP5218401B2 (ja) 2007-04-27 2013-06-26 日本電気株式会社 情報分析システム、情報分析方法及び情報分析用プログラム
EP2000934A1 (en) * 2007-06-07 2008-12-10 Koninklijke Philips Electronics N.V. A reputation system for providing a measure of reliability on health data
US8479010B2 (en) * 2008-03-07 2013-07-02 Symantec Corporation Detecting, capturing and processing valid login credentials
JP5084587B2 (ja) * 2008-03-31 2012-11-28 株式会社野村総合研究所 取引先リスク管理装置
US8082248B2 (en) * 2008-05-29 2011-12-20 Rania Abouyounes Method and system for document classification based on document structure and written style
CN101661487B (zh) * 2008-08-27 2012-08-08 国际商业机器公司 对信息项进行搜索的方法和系统
JP2010066891A (ja) * 2008-09-09 2010-03-25 Kansai Electric Power Co Inc:The 文書分類方法、及びシステム
US20100077317A1 (en) * 2008-09-21 2010-03-25 International Business Machines Corporation Providing Collaboration
WO2010036012A2 (ko) * 2008-09-23 2010-04-01 주식회사 버즈니 인터넷을 이용한 의견 검색 시스템, 의견 검색 및 광고 서비스 시스템과 그 방법
KR101007284B1 (ko) * 2008-09-23 2011-01-13 주식회사 버즈니 인터넷을 이용한 의견 검색 시스템 및 그 방법
US20100138361A1 (en) * 2008-10-22 2010-06-03 Mk Asset, Inc. System and method of security pricing for portfolio management system
TWI497426B (zh) * 2009-01-05 2015-08-21 一種監控網際網路資訊之方法及其相關的內儲程式之電腦可讀取紀錄媒體
US8515049B2 (en) * 2009-03-26 2013-08-20 Avaya Inc. Social network urgent communication monitor and real-time call launch system
JP5462591B2 (ja) * 2009-10-30 2014-04-02 楽天株式会社 特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム及び関連コンテンツ挿入装置
US10614134B2 (en) 2009-10-30 2020-04-07 Rakuten, Inc. Characteristic content determination device, characteristic content determination method, and recording medium
JP5462590B2 (ja) * 2009-10-30 2014-04-02 楽天株式会社 特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム及びコンテンツ生成装置
JP5454357B2 (ja) 2010-05-31 2014-03-26 ソニー株式会社 情報処理装置および方法、並びに、プログラム
CN101917456B (zh) * 2010-07-06 2012-10-03 杭州热点信息技术有限公司 一种内容聚合无线发布系统
EP2506157A1 (en) 2011-03-30 2012-10-03 British Telecommunications Public Limited Company Textual analysis system
JP5768517B2 (ja) * 2011-06-13 2015-08-26 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
CN102831127B (zh) * 2011-06-17 2015-04-22 阿里巴巴集团控股有限公司 重复数据处理方法、装置及系统
TW201314479A (zh) * 2011-09-28 2013-04-01 pei-sheng Yang 彙集意見及調查資料之方法
TWI464700B (zh) * 2011-10-31 2014-12-11 Univ Ming Chuan 信用違約預測方法與裝置
KR101494655B1 (ko) * 2011-11-28 2015-02-25 세종대학교산학협력단 소셜 네트워크 서비스 데이터 기반 특정 기관의 순위 계산 방법 및 그 장치
US9218083B2 (en) 2012-01-20 2015-12-22 Htc Corporation Methods for parsing content of document, handheld electronic apparatus and computer-readable medium thereof
US10304036B2 (en) 2012-05-07 2019-05-28 Nasdaq, Inc. Social media profiling for one or more authors using one or more social media platforms
US9418389B2 (en) 2012-05-07 2016-08-16 Nasdaq, Inc. Social intelligence architecture using social media message queues
CN103714086A (zh) * 2012-09-29 2014-04-09 国际商业机器公司 用于生成非关系数据库的模式的方法和设备
CN103870973B (zh) * 2012-12-13 2017-12-19 阿里巴巴集团控股有限公司 基于电子信息的关键词提取的信息推送、搜索方法及装置
US20140195297A1 (en) * 2013-01-04 2014-07-10 International Business Machines Corporation Analysis of usage patterns and upgrade recommendations
US20140223051A1 (en) * 2013-02-07 2014-08-07 Andes Technology Corporation Information collection system
US10529013B2 (en) * 2013-07-01 2020-01-07 Intuit Inc. Identifying business type using public information
JP5930217B2 (ja) 2013-10-03 2016-06-08 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 特定のテーマに依存して危険表現となりうる表現を検出する方法、並びに、当該表現を検出するための電子装置及びその電子装置用プログラム
JP6154072B2 (ja) * 2014-05-29 2017-06-28 日本電信電話株式会社 情報分析システム、情報分析方法及び情報分析プログラム
CN104778246A (zh) * 2015-04-10 2015-07-15 浪潮集团有限公司 一种网页信息获取方法和装置
WO2016189685A1 (ja) * 2015-05-27 2016-12-01 楽天株式会社 情報処理装置、情報処理方法、プログラム、記憶媒体
US10409844B2 (en) * 2016-03-01 2019-09-10 Ching-Tu WANG Method for extracting maximal repeat patterns and computing frequency distribution tables
KR102138939B1 (ko) * 2020-02-24 2020-07-29 네오시스템즈(주) 빅데이터를 활용한 업체 평판 자동검증 및 평가시스템
JP2022021099A (ja) * 2020-07-21 2022-02-02 ソニーグループ株式会社 情報処理プログラム、情報処理装置および情報処理方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4930077A (en) * 1987-04-06 1990-05-29 Fan David P Information processing expert system for text analysis and predicting public opinion based information available to the public
US5867799A (en) * 1996-04-04 1999-02-02 Lang; Andrew K. Information system and method for filtering a massive flow of information entities to meet user information classification needs
JPH10289250A (ja) * 1997-04-11 1998-10-27 Nec Corp Wwwブラウザにおけるurl登録及び表示方式
US6055540A (en) 1997-06-13 2000-04-25 Sun Microsystems, Inc. Method and apparatus for creating a category hierarchy for classification of documents
US6865715B2 (en) 1997-09-08 2005-03-08 Fujitsu Limited Statistical method for extracting, and displaying keywords in forum/message board documents
JPH11143912A (ja) * 1997-09-08 1999-05-28 Fujitsu Ltd 関連文書表示装置
US5960429A (en) * 1997-10-09 1999-09-28 International Business Machines Corporation Multiple reference hotlist for identifying frequently retrieved web pages
JP2951307B1 (ja) 1998-03-10 1999-09-20 株式会社ガーラ 電子掲示板システム
US6421675B1 (en) * 1998-03-16 2002-07-16 S. L. I. Systems, Inc. Search engine
JP3665480B2 (ja) 1998-06-24 2005-06-29 富士通株式会社 文書整理装置および方法
JP2000028617A (ja) * 1998-07-14 2000-01-28 Horiba Ltd 分析システム
US6553347B1 (en) * 1999-01-25 2003-04-22 Active Point Ltd. Automatic virtual negotiations
EP1240605A4 (en) * 1999-12-08 2006-09-27 Amazon Com Inc SYSTEM AND METHOD FOR LOCATING AND PRESENTING OFFERS OF ACCESSIBLE PRODUCTS ON THE INTERNET
US7225181B2 (en) 2000-02-04 2007-05-29 Fujitsu Limited Document searching apparatus, method thereof, and record medium thereof
US6654744B2 (en) 2000-04-17 2003-11-25 Fujitsu Limited Method and apparatus for categorizing information, and a computer product
JP2001306587A (ja) * 2000-04-27 2001-11-02 Fujitsu Ltd 情報検索装置、情報検索方法、及び記憶媒体
JP2002202984A (ja) 2000-11-02 2002-07-19 Fujitsu Ltd ルールベースモデルに基づくテキスト情報自動分類装置
JP2002279047A (ja) * 2001-01-09 2002-09-27 Zuken:Kk 電子掲示板監視システム

Also Published As

Publication number Publication date
WO2003046764A1 (fr) 2003-06-05
US20030101166A1 (en) 2003-05-29
TWI252987B (en) 2006-04-11
AU2002343775B2 (en) 2006-11-16
EP2506169A3 (en) 2013-10-16
JP4097602B2 (ja) 2008-06-11
CN100390786C (zh) 2008-05-28
AU2002343775C1 (en) 2003-06-10
KR100953238B1 (ko) 2010-04-16
EP2506169A2 (en) 2012-10-03
EP1450268A1 (en) 2004-08-25
CA2460538C (en) 2010-05-18
EP1450268A4 (en) 2008-01-16
CA2460538A1 (en) 2003-06-05
AU2002343775A1 (en) 2003-06-10
KR20090006875A (ko) 2009-01-15
CN1559044A (zh) 2004-12-29
TW200300532A (en) 2003-06-01
CA2648269C (en) 2014-07-15
KR100883261B1 (ko) 2009-02-10
CA2648269A1 (en) 2003-06-05
KR20040053369A (ko) 2004-06-23

Similar Documents

Publication Publication Date Title
JP4097602B2 (ja) 情報解析方法及び装置
US7814043B2 (en) Content information analyzing method and apparatus
US7565350B2 (en) Identifying a web page as belonging to a blog
US8589373B2 (en) System and method for improved searching on the internet or similar networks and especially improved MetaNews and/or improved automatically generated newspapers
US8032511B1 (en) System and method for presenting categorized content on a site using programmatic and manual selection of content items
US8204881B2 (en) Information search, retrieval and distillation into knowledge objects
US6694307B2 (en) System for collecting specific information from several sources of unstructured digitized data
US8166013B2 (en) Method and system for crawling, mapping and extracting information associated with a business using heuristic and semantic analysis
JP4489994B2 (ja) 話題抽出装置、方法、プログラム及びそのプログラムを記録する記録媒体
US20070250501A1 (en) Search result delivery engine
US20080104034A1 (en) Method For Scoring Changes to a Webpage
US8316026B2 (en) Method and system for keyword management
KR100509276B1 (ko) 웹페이지별 방문인기도에 기반한 웹페이지 검색방법 및 그장치
JP4094844B2 (ja) 特定用途向けの文書収集装置、その方法及びコンピュータに実行させるためのプログラム
JP2002312389A (ja) 情報検索装置および情報検索方法
AU2006203729B2 (en) Information analyzing method and apparatus
KR20110012545A (ko) 온라인 버즈 분석 시스템 및 방법
KR100645711B1 (ko) 다수의 정보 블록으로 구분된 웹 페이지를 이용한 정보검색 서비스 제공 서버, 방법 및 시스템
Lee et al. ScalableWeb News Adaptation To Mobile Devices Using Visual Block Segmentation for Ubiquitous Media Services
KR20030013814A (ko) 비텍스트 형태 데이터 포함 컨텐츠 검색 시스템 및 그 방법
Geller et al. Blog mining for the fortune 500

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050708

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071218

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080311

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080311

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110321

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110321

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120321

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130321

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140321

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees