JPWO2003048973A1 - アクセスログ分析装置およびアクセスログ分析方法 - Google Patents

アクセスログ分析装置およびアクセスログ分析方法 Download PDF

Info

Publication number
JPWO2003048973A1
JPWO2003048973A1 JP2003550097A JP2003550097A JPWO2003048973A1 JP WO2003048973 A1 JPWO2003048973 A1 JP WO2003048973A1 JP 2003550097 A JP2003550097 A JP 2003550097A JP 2003550097 A JP2003550097 A JP 2003550097A JP WO2003048973 A1 JPWO2003048973 A1 JP WO2003048973A1
Authority
JP
Japan
Prior art keywords
access log
diagnostic
data
sentence
diagnosis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003550097A
Other languages
English (en)
Other versions
JP4146347B2 (ja
Inventor
浩嗣 久保田
浩嗣 久保田
郁央 井原
郁央 井原
Original Assignee
シーライヴ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by シーライヴ株式会社 filed Critical シーライヴ株式会社
Publication of JPWO2003048973A1 publication Critical patent/JPWO2003048973A1/ja
Application granted granted Critical
Publication of JP4146347B2 publication Critical patent/JP4146347B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Webサーバの膨大なアクセスログから有意な情報を抽出し、抽出された情報に対して必要な統計分析を行い、さらに自然言語による診断文を生成するWebマイニングのためのアクセスログ分析装置。

Description

技術分野
本願発明は、サーバのアクセスログを分析するアクセスログ分析装置に関し、特に、たとえばインターネット上で公開されているWebサーバのアクセス状況を統計的に分析して、ユーザニーズの把握やコンポーネントの最適化を図る等のマーケティングツールとして活用することのできるアクセスログ分析装置に関する。
背景技術
従来のアクセスログ分析装置では、Webサーバからアクセスログを取得し、その内容を解析して、Webページ毎や参照元毎にヒット数を集計することにより、Webサイトの活用状況を把握したり、多数のサイト間で比較すること等が行われていた。
また、分析結果の表示には主としてグラフや表が用いられ、絶対値は棒グラフを、割合は円グラフを用いて表示するのが一般的であった。
しかしながら、このような従来のアクセスログ分析装置では、データの切り口として基本的にヒット数の集計値をそのまま使用するため、多数のデータの中に重要なデータが埋もれてしまう場合がある。
例えば、当日のヒット数を評価する場合に、ヒット数の絶対値の大小はあまり重要ではなく、以前に比べてどれだけ変化したかの方が重要であるが、従来の分析装置では単にヒット数の絶対値を日変化として表示するだけのため、結果的に有益な情報が埋もれてしまう場合がある。
また、ランキングではN番目とN+1番目の差が一定でないため、例えば「1人勝ち」が生じている場合に、2位にありふれたページがランクインしてしまう場合が生ずる。更に、ヒット数の絶対値は小さいが大きく増加するページがあっても、恒常的に大きなヒット数を出すページがあると埋もれてしまう。
一方、プレゼンテーションの方法としてグラフや表を用いる方法は、大量のデータを見やすく表示する効果はあるものの、グラフや表は集計結果を単に見やすく表示したにすぎず、その意味するところは人が読み取る必要がある。
特に、調査項目が増えればグラフや表の数も膨大になり、そこから有益な情報を見出すのは困難な作業となり、結果的に分析結果が十分に活用されない場合があった。
すなわち、Webサイトの評価を、「集計」→「分析」→「次回戦略の検討」という3つのステップに分けて考えると、従来のアクセスログ分析装置では最初の「集計」しかなされておらず、重要な「分析」作業は膨大なデータから人手によって行う必要があったため、十分な成果が得られない場合が多いという問題があった。
それゆえに、本願発明の主たる目的は、Webサーバのアクセスログの膨大なデータの中から有意な情報を抽出し、分析結果を適確に表示することのできるアクセスログ分析装置を提供することである。
発明の開示
請求項1に記載のアクセスログ分析装置は、分析対象となるサーバからアクセスログを取得するアクセスログ取得手段と、アクセスログ取得手段により取得されたデータを監視項目毎に集計する集計手段と、集計手段により集計されたデータをもとにサーバのアクセス状況を診断する診断手段と、診断手段により診断された結果を分析依頼者に提示する診断結果提示手段とを備えたアクセスログ分析装置であって、診断手段が監視項目について所定期間内のデータの統計量に基づいて対象データの変動量を演算する統計的変動量演算手段と、統計的変動量演算手段により演算された統計的変動量の範囲と対応する診断文の雛型を記述した診断テーブルを参照して診断文を生成する診断文生成手段とを有するものである。
統計的変動量演算手段により、監視項目について所定期間内のデータの統計量に基づいて対象データの変動量を演算するので、膨大なデータの中から分析依頼者にとって重要な有意の変動を抽出することが可能となる。また、診断文生成手段により、統計的変動量の範囲と診断文の雛型を対応させた診断文テーブルを用いて診断文を生成するので、分析依頼者に対して単に集計結果をグラフ表示するだけでなく、データの意味を自然言語によって判りやすく表示することが可能となる。
請求項2に記載のアクセスログ分析装置は、請求項1に記載のアクセスログ分析装置であって、統計的変動量演算手段が所定期間内のデータの平均と分散を求め、これを基に対象データの平均からの偏差を標準偏差で正規化したZ値(Zスコア)を演算する手段を含むものである。
統計的変動量としてZ値(Zスコア)を用いることで、変化が安定しない事象に対して変動を比較する上で有効な基準を得ることができ、多様なデータを客観的に分析することが可能となる。
請求項3に記載のアクセスログ分析装置は、請求項1または請求項2に記載のアクセスログ分析装置であって、診断手段が診断文生成手段により生成された診断文に関連するデータについて所定期間内のデータの統計量に基づいて対象データの変動量を演算する第2の統計的変動量演算手段と、第2の統計的変動量演算手段により演算された統計的変動量の範囲と対応する診断文の雛型を記述した副診断テーブルを参照して副診断文を生成する副診断文生成手段とを有するものである。
第2の統計的変動量演算手段により、診断文生成手段によって生成された診断文(以下、主診断文と称す)に関連するデータについて有意の変動を抽出し、副診断文生成手段により、その統計的変動量の範囲と診断文の雛型を対応させた副診断テーブルを用いて副診断文を生成するので、監視項目に有意の変動が生じたときに何故それが起きたかを補足説明することが可能となり、分析依頼者がデータ変動の意味をより適確に把握できるようになる。
請求項4に記載のアクセスログ分析装置は、請求項1ないし請求項3のいずれかに記載のアクセスログ分析装置であって、診断手段が生成された複数の診断文を統合する診断文統合手段を有するものである。
診断文統合手段により、同種の診断文を削除したり、複数の診断文を一つに結合することが可能となるので、多数の診断文が羅列されることを防止でき、分析依頼者にとってより見やすい表示を提供できる。
請求項5に記載のアクセスログ分析装置は、請求項1ないし請求項4のいずれかに記載のアクセスログ分析装置であって、診断手段が所定期間内のデータの統計的な変化傾向を統計的変化量として演算する統計的変化量演算手段と、統計的変化量演算手段により演算された統計的変化量の範囲と対応する診断文の雛型を記述した第2の診断テーブルを参照して診断文を生成する第2の診断文生成手段とを有するものである。
統計的変化量演算手段により、統計的変動量だけでなく、データの統計的な変化傾向を検出することが可能となり、第2の診断文生成手段により、検出事象に対して適切な診断文を提供できるので、分析依頼者に対してより広範な観点から診断結果を提供できる。また、監視項目について生成された診断文に関連するデータについて統計的変化量を演算する第2の統計的変化量演算手段を設け、第2の統計的変化量演算手段により演算された統計的変化量の範囲と対応する診断文の雛型を記述した第2の副診断テーブルを参照して副診断文を生成する第2の副診断文生成手段を設けるようにしてもよく、統計的変動量と統計的変化量を併用して診断文を生成する手段を設けてもよい。これらにより、分析依頼者に対して更に適確な診断結果を提供できる。
尚、統計的変化量演算手段としては、例えば所定期間内のデータについて最小二乗近似法による直線近似を行い、その傾きを統計的変化量として利用することができる。
請求項6に記載のアクセスログ分析装置は、請求項1ないし請求項5のいずれかに記載のアクセスログ分析装置であって、集計手段が正規表現を用いて集計対象を特定するプリフォーマット手段を含むものである。
プリフォーマット手段により、あらかじめ集計対象が特定されるので、診断手段による診断がより効率的に行える。また、診断に先だってサイト固有の特性に応じたカスタマイズを行うことも可能となる。
尚、集計対象の特定には正規表現を用いた検索機能を用いたので、テキスト処理言語の汎用機能を用いて効率的に処理できる。
請求項7に記載のアクセスログ分析装置は、請求項1ないし請求項6のいずれかに記載のアクセスログ分析装置であって、アクセスログ取得手段と集計手段と診断手段に対して処理の相互依存性を監視して実行を管理する実行管理手段を有するものである。
実行管理手段により、各処理モジュールの相互依存性を監視して実行を管理するようにしたので、多数の処理モジュールを並列に処理することができ、膨大なデータに対して効率的に処理できる。また、依存関係の記述を変更することで新しい処理モジュールを簡単に追加でき、分析依頼者毎にサービス内容をカスタマイズすることも容易である。更に、実行管理手段を用いて、サーバのアクセスログを常時監視し、特徴的な事象が発生したときに、分析依頼者に対して自動的にメッセージを発信するようにすることも可能である。
請求項8に記載のアクセスログ分析装置は、請求項1ないし請求項7のいずれかに記載のアクセスログ分析装置であって、集計手段が参照元情報から新規訪問者と再訪問者を区分し、かつ再訪問者については訪問回数と訪問間隔から常連者を区分する機能を有し、診断結果提供手段が区分された新規訪問者と再訪問者と常連の割合を訪問者情報として色分けグラフ表示する機能を有するものである。
集計手段によって訪問者を新規訪問者と再訪問者と常連とに区分けし、診断結果提供手段によってその割合を色分けグラフ表示するようにしたので、分析依頼者が訪問者の傾向を一目で判断することができる。
請求項9に記載のアクセスログ分析装置は、請求項1ないし請求項8のいずれかに記載のアクセスログ分析装置であって、分析依頼者のライセンス情報を取得してサービスの提供可否を判断するライセンス管理手段を備えたものである。
ライセンス管理手段により、分析依頼者のライセンス情報を取得してサービスの提供可否を判断するようにしたので、正規のライセンスを有するユーザに対してのみアクセスログ分析サービスを提供することができる。
請求項10に記載のアクセスログ分析方法は、分析対象となるサーバからアクセスログを取得するステップと、取得されたデータを監視項目毎に集計するステップと、集計されたデータをもとにサーバのアクセス状況を診断するステップと、診断された結果を分析依頼者に提示するステップとを備えたアクセスログ分析方法であって、診断するステップが監視項目について所定期間内のデータの統計量に基づいて対象データの変動量を演算するステップと、演算された統計的変動量の範囲と対応する診断文の雛型を定義した診断文雛型テーブルを参照して診断文を生成するステップとを有するものである。
サーバのアクセス状況を診断するステップとして、監視項目について所定期間内のデータの統計量に基づいて対象データの変動量を演算するステップを有するので、膨大なデータの中から分析依頼者にとって重要な有意の変動を抽出することが可能となる。また、演算された統計的変動量の範囲と診断文の雛型を対応させた診断文テーブルを用いて診断文を生成するステップを有するので、分析依頼者に対して単に集計結果をグラフ表示するだけでなく、データの意味を自然言語を用いて判りやすく表示することが可能となる。尚、対象となるデータの変動量を演算するステップとしては、例えば所定期間内のデータの平均と分散を求め、これを基に対象データの平均からの偏差を標準偏差で正規化するZ値(Zスコア)などが利用できる。
また、請求項2ないし請求項9のいずれかに記載のアクセスログ分析装置が備える各手段をステップとして備えたアクセスログ分析方法によっても、上記各請求項のアクセスログ分析装置が奏する作用・効果と同様の作用・効果を奏する。
請求項11に記載のアクセスログ分析プログラムは、コンピュータに少なくとも分析対象となるサーバからアクセスログを取得する手順と、取得されたデータを監視項目毎に集計する手順と、集計されたデータをもとにサーバのアクセス状況を診断する手順と、診断された結果を分析依頼者に提示する手順とを実行させるためのプログラムであって、診断する手順が監視項目について所定期間内のデータの統計量に基づいて対象データの変動量を演算する手順と、演算された統計的変動量の範囲と対応する診断文の雛型を定義した診断文雛型テーブルを参照して診断文を生成する手順とを有するものである。
サーバのアクセス状況を診断する手順として、監視項目について所定期間内のデータの統計量に基づいて対象データの変動量を演算する手順を有するので、膨大なデータの中から分析依頼者にとって重要な有意の変動を抽出することが可能となる。また、演算された統計的変動量の範囲と診断文の雛型を対応させた診断文テーブルを用いて診断文を生成する手順を有するので、分析依頼者に対して単に集計結果をグラフ表示するだけでなく、データの意味を自然言語を用いて判りやすく表示することが可能となる。尚、対象となるデータの変動量を演算する手順としては、例えば所定期間内のデータの平均と分散を求め、これを基に対象データの平均からの偏差を標準偏差で正規化するZ値(Zスコア)などが利用できる。
また、コンピュータに請求項2ないし請求項9のいずれかに記載のアクセスログ分析装置が備える各手段を手順として備えたアクセスログ分析プログラムを実行させることによっても、上記各請求項のアクセスログ分析装置が奏する作用・効果と同様の作用・効果を奏する。
本願発明の上述の目的,その他の目的,特徴および利点は、図面を参照して行う以下の発明の実施の形態の詳細な説明から一層明らかとなろう。
発明を実施するための最良の形態
第1図に本願発明の一実施形態に係るアクセスログ分析装置のシステム構成を示す。図において、10は分析対象となるサーバであり、一般にはインターネット上で公開されているHTTPサーバが対象になる。12はその分析対象サーバ10内で生成されるアクセスログであり、一般にはhttpdログと呼ばれるものが自動生成されており、本アクセスログ分析装置ではこれを分析対象とする。
20はアクセスログ分析機能を提供するアクセスログ分析サーバであり、分析依頼者の要求に応じて分析対象サーバ10のログ12をインターネットを介して取得し、取得したデータに対して要求された分析を行い、分析結果を分析結果データベース22に蓄積する。
24は分析結果を分析依頼者のコンピュータ画面に表示するための分析結果提供サーバであり、分析依頼者からの要求に応じて分析結果データベース22から分析結果を取出して所定フォーマットのHTML形式のデータに変換し、インターネットを介して分析依頼者のコンピュータに提供するHTTPサーバである。これにより、分析依頼者は自己のコンピュータのWWWブラウザを用いて分析結果を画面表示することができる。
上記のようにアクセスログ分析サーバとしてLAN上に別の専用マシンを設けたのは、分析処理には高い処理能力と大容量の記憶装置を必要とするので、分析依頼者数が増えた場合でも、分析サーバの数を増やすことで単一のHTTPサーバから多数の分析依頼者に対してサービスできるようにするためである。また、分析結果データベースをLANの内部に置くことで保守性も高まる。
第2図に本願発明の一実施形態に係るアクセスログ分析装置の分析処理フローを示す。図のように、本アクセス分析装置は分析対象サーバのhttpdログを取得するFTPサーバ30と、取得した生ログ50を前処理するプリフォーマットモジュール32と、プリフォーマットされたログ52を分析結果データベース22に登録するDB登録モジュール34と、DB格納ログ54を監視項目毎にプリカウントするプリカウントモジュール36と、プリカウントデータ56を分析して主診断文を生成する主診断文生成モジュール38と、主診断文に関連するデータを分析して副診断文を生成する副診断文生成モジュール40と、診断文テーブル58に生成された複数の診断文を統合する診断文統合モジュール42と、各モジュールの実行管理をするディスパッチャモジュール44とを備える。
FTPモジュール30は、httpdログを30分毎から1日毎程度のインターバルで定期的に取得して、アクセスログ分析サーバ20に転送する。転送された生ログ50はテキストファイルの状態であり、サイト毎に項目数や表記方法、表記順序等に微妙な差異があり、これを統一的な形式に変換するためプリフォーマットモジュール32によって前処理を行う。また、プリフォーマットモジュール32は、サイト固有の設定に対して以下のようにデータをカスタマイズする機能を有する。このカスタマイズには、正規表現を用いた検索機能を用いている。
第1に、カウントする項目をマークする。ログにはテキスト、画像、動画、CGI呼出し等さまざまなリソースの転送情報が含まれている。ページの構成要素に過ぎないリソースを1アクセスと捕えるのは適当でない場合があり、これらの情報を除くことでデータ量を抑制することができる。そこで、あらかじめカウントするリソースと不要なリソースを正規表現で設定した設定ファイルを設ける。
例えば、「(’¥.s?html?$’,’¥.php3?$’,’¥.cgi$’」を用いて、「.html,.shtml,.php3,.cgi」で終わるアドレスだけを集計対象とすることができる。
第2に、ページのグループ分けを行う。複数のファイルをまとめて1グループとして扱いたい場合や、逆に同一アドレスに対するアクセスをquery部によって別個に扱いたい場合に、これをアドレスやqueryに対する正規表現で指定しておく。
例えば、「[id=>’1’,path=>7’^/admin/’,name=>’管理ページ’]」を用いて、「/admin/で始まるアドレスは「管理ページ」という名前でまとめて扱えるようにする。
また、「[path=>’shopping¥.cgi$’,query=>’item’]」を用いて、「shopping.cgi」で終わるアドレスの場合は、queryの「item=」以降によって別々のページとして扱う。
第3に、参照元が検索エンジンであった場合に検索文字を抽出する。検索エンジンからのリンクを辿ってきた場合、たいていは参照元としてログに残るアドレス、queryから検索文字を特定することが可能である。事前に著名な検索エンジンの特性を調べて登録しておけば、自動で検索文字列を抽出することができる。この場合も、参照元アドレスに対する正規表現で検索エンジンの見分け方や検索文字列を検出する方法を指定しておく。
例えば、「[name=>’Yahoo!’,path=>’yahoo¥.com’,query=>’p’]」を用いて、「yahoo.com」を含むアドレスからの参照の場合は検索サイト「Yahoo!」からのアクセスであり、queryの「p=」以降が検索文字列であるので、これを抽出する。
第4に、フォームの送信段階をマークする。アンケートやショッピングバスケット、掲示板の投稿など、複数のページが「記入画面」→「確認画面」→「送信完了画面」という一連のステップの各段階を担っている場合には、これらのアドレスを正規表現で指定しておくことにより、後の分析処理で「確認画面まで来て送信をやめてしまうユーザが増えた」や「外部サイトOOからリンクを辿ってくる訪問者はフォームの送信率が高い」といった診断を下すことが可能となる。
例えば、「[id=>4,name=>’プレゼントフォーム’,form=>’^/present/form¥.php3$’.confirm=>’,done=>’^/present/done¥.php3$’]」を用いて、アドレス「/present/form.php3」と「/present/done.php3」はそれぞれ同じ「プレゼントフォーム」の「記入画面」と「送信完了画面」であることを検出する。
尚、このような前処理をデータベース登録前に行ったのは、正規表現を多用する設定はデータベースサーバの提供する処理言語より、テキスト処理言語(例えば、Perl)を使用した方が効率良く処理できるからである。
このようにして前処理を行ったプリフォーマットログの構成例を第3図に示す。
次に、プリカウントモジュール36の処理について述べる。
プリカウントとは、後の処理に必要な計算をあらかじめ行っておくもので、監視項目毎にデータを集計する。監視項目は、ページ別のヒット数、参照元、参照元が検索エンジンの場合はその検索文字列、閲覧者の訪問履歴、最初に見たページと最後に見たページ、閲覧者の使用しているブラウザ、OS、日の属性(休日、ページ更新日、キャンペーン開始日等)等である。これらの項目について、アクセスの変動を検出したり、変動の原因を特定したりする。
プリカウントモジュール36は、同じ形式の仮集計テーブルを監視項目毎に作っておき、このあとの特徴抽出処理を一般化できるようにしている。ここでは、集計する項目の数だけテーブルと専用の集計モジュールを設け、膨大になりがちな集計時間の短縮化を図っている。単なる数の合計だけでなく、例えばログに記録された参照元情報(ユーザID、アドレス、ブラウザ情報等)から同一の閲覧者からと思われるアクセスを推定し、同一の閲覧者からの一連のアクセスを「セッション」と判定して閲覧者、セッション毎にデータをまとめる処理もこのプリカウントモジュール36で行っている。このようにして生成されたプリカウントテーブルの構成例として、ヒット数に関するプリカウントテーブルを第4図に、閲覧者のプリカウントテーブルを第5図に示す。
尚、閲覧者のプリカウントテーブルには、新規訪問者と再訪問者と常連に区分けするステータス情報を保有する。この、ステータス情報は、前述の参照元情報から以前の訪問者と同一の閲覧者と推定されるか否かを判定し、新規訪問者か再訪問者かを区分する。次に、再訪問者については訪問回数・訪問間隔から常連を抽出する。ここでは、一定回数以上訪問しており、初回訪問日から一定日数以上経過しており、最終訪問日から一定日数以下である場合を常連とした。
次に、分析処理の最終段階である診断文生成処理について述べる。
診断文には、監視項目に有意の変動が検出されたときに生成される主診断文と、主診断文に対して何故それが起きたかを補足説明する副診断文とがあり、それぞれ主診断文生成モジュール38と、副診断文生成モジュール40によって生成され、診断文テーブル58に書込まれる。診断文テーブル58に書込まれた診断文は、診断文統合モジュール42によって、同種の診断文を削除したり、複数の診断文を読みやすいように接続詞で結合する処理を行う。
主診断文生成モジュール38、副診断文生成モジュール40、診断文統合モジュール42はすべて共通の診断文テーブル58に対して書込みを行う。診断テーブル58は、主診断文生成モジュール38によって主診断文が書込まれると、それに対して副診断文生成モジュール40が補足をつけ、更に診断文統合モジュール42がそれらの文章を読みやすく整形するというように、黒板モデルで言う黒板のような役割を果たす。診断テーブルの構成例を第6図に示す。
主診断文の生成と副診断文の生成は同一原理に基づき、主診断文はすべてのデータを対象にするのに対し、副診断文は指定された主診断文に関連するデータだけを対象とする。例えば、今日特にアクセス数の多かったOOページへのアクセスデータに限定し、今日の参照元や用いられたブラウザ、訪問者の履歴等について、普段と比べて特に特徴的な偏りのあるものを抽出する。従って、副診断文生成オブジェクトは診断オブジェクトのサブクラスとして定義され、最初の母集団抽出メソッドをオーバーライドすることで実現される。
前述のように、プリカウント時にデータが共通の形式にまとめられるので、このオブジェクト自体は自分が処理しているデータの意味を知る必要はない。監視項目毎に呼出し時のパラメータを変えたり、あるいはサブクラスを定義して一部のメソッドをオーバーライドすることにより、日毎のヒット数が特に多いものを抽出したり、特に多い参照元を特定したりもできる。
第7図に診断文生成処理の処理フローを示す。図のように、診断パラメータに基づいてプリカウントデータから診断文を生成するデータベース操作プログラムを生成し(S10)、生成されたデータベース操作プログラムによって診断文を生成し(S20)、診断文統合モジュールを呼び出す(S30)。診断パラメータは、第8図のように母集団、項目名、Z値の閾値、対応する診断文の雛形等が記述されており、対象とするデータによって主診断文を生成するか副診断文を生成するかが切替えられる。
診断文の生成(S20)は、指定項目の過去一定期間の平均と分散を求め(S22)、これによって当日のZ値を求め(S24)、Z値が一定以上または一定以下であれば、対応する診断文の雛形により診断文を生成して診断文テーブルに登録する(S26)。ここで、指定項目が量的データでない場合は指定項目がとった値の出現回数が対象となり(a)、指定項目が量的データの場合は指定項目の集計値自体が対象となる(b)。処理データがヒット数などの数量データであるか、「ブラウザの種類」などの名義尺度であるかによって統計処理が大きく2種類に分かれるが、基本は「当日の数値が過去の平均・分散に対して特に偏ったものといえるかどうか」をZ値によって判定するということである。
計算の結果、Z値があらかじめ与えられた閾値を超えた場合に、診断文の雛形に沿って診断文が生成され、診断文テーブルに登録される。言い換えれば、Z値があらかじめ与えられた閾値の範囲内にある場合には診断文は生成されず、無用な情報は効果的に切り捨てられる。
閾値はプラス側とマイナス側にそれぞれ複数設定することができる。これにより、例えば、+1.0以上で「やや多いです」、+5.0以上で「非常に多いです」というように、同じ増加に対して微妙なニュアンスを使い分けることができる。また、閾値をプラス側とマイナス側で独立に設定できるようにしたのは、正規分布ではない分布を示すデータに対しても適切な診断を下すことができるようにするためである。実際、Webページの日別アクセス数は正規分布よりポアソン分布に近い特性を示すことがあるが、このような場合でもプラス側とマイナス側の閾値に差異を設けることで、Z値を用いて有意な情報を抽出することができる。このように、プラス側の閾値とマイナス側の閾値をサンプルに応じて細かく調整することで、より自然な診断文を生成することができ、人間の感覚で「これは特別である」と感じられる状況だけを必要十分に報告することが可能となった。
集計データが存在しない日について、これを0と解釈するか無効サンプルと解釈するかは、データの性質に従って慎重に決める必要がある。例えば、「あるページへのアクセス数の合計」がプリカウントテーブルに存在しない場合はその日のアクセスが0であったために集計されなかったと判断してよいが、「あるページへの新規訪問者の割合」である場合には集計がないことを0%と解釈するのは適当でない。サンプルの数、アクセス数が十分に大きくない場合には、分散が不適切な値になってしまう。そこで、アクセス数、サンプル数がともに一定以下であって統計処理が十分に意味を持たないと推定される場合には診断を行わないという制限を設けている。
本オブジェクトは、「プログラムを生成するプログラム」という形式をとっている。これはデータベース処理言語では前述のように汎用性の高いプログラムを記述することが難しいからである。そこで、本実施形態では汎用性の高い記述が可能なPerl言語を使用し、間接的に実行プログラムを書き出すことで、統計処理の一般性と処理効率の両方を向上させている。
第9図に診断文統合処理の処理フローを示す。図のように文章連結規則テーブルに従って、診断テーブル内の文章を処理し、再び書き戻す。
診断文生成モジュールは処理が一般化されているため、個々の診断の意味に沿った更なるリファイニングの余地が残されている場合がある。
例えば、次の5つの診断文「
△/050000table/winter/article/list03.htmへのアクセスがやや増加しました
△/050000table/winter/article/select03.htmへのアクセスがやや増加しました
▲/050000table/winter/article/today03.htmへのアクセスが急増しました
△/050000table/winter/article/winter03.htmへのアクセスがやや増加しました
△/050000table/winter/article/readme03.htmへのアクセスがやや増加しました
」は、5つの独立したページへのアクセスがそれぞれ増加したというよりは、これらのドキュメントが共通に属するディレクトリ全体に対してのアクセスが増加したと考える方が自然である。そこで、ディレクトリを辿って共通のディレクトリを見出す規則(メソッドで与えられる)と、当該診断文が存在した場合の結合規則(正規表現で与えられる)とを指定し、ページ別アクセス数に関する主診断文に対してのみ文章の結合を施す。
このようにして上記5つの診断文が、以下のように統合される。
「▲/050000table/winter/article/today03.htmをはじめ、/050000table/winter/以下へのアクセスが急増しました」
同様に、アクセス数の増加した複数のページが同じグループに属することが判れば一つの文章にまとめることができる。
尚、「共通のディレクトリを見出すメソッド」は、サイトの特性に従ったチューニングを施すことが望ましい。例えば、大まかに2〜3段階のディレクトリしか掘られていないサイトの場合は、文章の論理構造に沿って深く細かくディレクトリが分けられている場合に比べてディレクトリの結合を制限する。これにより、「サイト全般のアクセスが増加した」というところまで一般化することを防止できる。多くのサイトでは、「一番上(ドキュメントルートの直下)のディレクトリは結合しない」という制限を設けることで丁度良い結果が得られている。
また、フォームの送信率に関する診断文のように、同種の診断に単純に接続詞を補って複合文にすることですっきりする場合もある。この場合も該当文を結合する結合規則を指定し、フォーム送信率に関する主診断文に対してのみ文章の結合を施すことで処理している。
文章連結規則テーブルの一例を第10図に示す。変換規則は正規表現で与えられる。例えば、後ろに文章が続く場合の変換規則を「’しました$’」→「’し、’」、
前に同種の文章がある場合の変換規則を「’^.(?=入力画面で帰って|確認画面で帰って|最後まで送信する’」→「’’」(該当部分を除去する)とすることで、
次の2つの文章「プレゼントフォームの入力画面で帰ってしまうユーザの割合が減少しました
プレゼントフォームを最後まで送信するユーザの割合が増加しました」が、以下のように結合される。
「プレゼントフォームの入力画面で帰ってしまうユーザの割合が減少し、最後まで送信するユーザの割合が増加しました」
次に、ディスパッチャモジュール44の処理について説明する。
前述の各処理モジュールはそれぞれ別個の独立したプログラムである。これらはお互いに複雑に依存しあっているため、依存関係を的確に把握して実行管理を行う必要がある。ディスパッチャモジュール44はこのような実行管理を行うモジュールであり、各処理モジュールを然るべき順序で、かつ並列処理できるものは並列に実行できるように管理する。
第11図にディスパッチャモジュール44の処理フローを示す。図のように、作業IDおよびモジュールIDを指定して呼出され、現在進行中の処理状況を記述した処理状況テーブルを参照して(S50)、処理本体を呼出して実行し(S52),その処理が終了したら終了を通知し(S54)、モジュール依存関係テーブルを参照して依存関係にあるモジュールがすべて終了しているモジュールを探して呼出す(S56)。
ディスパッチャは、それ自体が実行可能なプログラムではなく、他のすべてのモジュールを使用するオブジェクトである。処理に関わるすべてのモジュールは、このディスパッチャのインスタンスを一つずつ持ち、実行開始時と終了時にこのディスパッチャに処理を渡す。このとき、ディスパッチャが共通のデータを介して現在の実行状況を他のモジュールに伝えたり、次に呼出すモジュールを決定したりする。
処理状況テーブルの構成例を第12図に、モジュール依存関係テーブルの構成例を第13図にそれぞれ示す。上記モジュールの依存関係の記述を変更することで、あるモジュールを後から付け加えたり、処理から外したりできる。これにより、分析依頼者毎にサービスの内容をカスタマイズしたり、新しく作った分析モジュールを簡単に付け足したりすることが可能となる。
分析結果は、前述のように分析結果提供サーバ24から提供される。診断文テーブルの内容の他、プリカウントテーブルから直接取り出した数値、グラフなどをHTML形式で提供する。
第14図〜第16図に分析結果の表示画面例を示す。第14図のように一日のアクセスのなかから重要な特徴が抽出されて、日本語でわかりやすく表示される。また、第15図のように診断文で指摘されたページのアクセス数がグラフ表示される。更に、第16図のような詳細レポートも提供される。
尚、診断文にはエラーの発生に関するものが含まれる。エラーの発生要因には以下のようなものがある。
(1)サイト側に問題がある場合(ページや画像ファイルのアップロード洩れ、リンク切れ、CGIプログラムの不具合等)
(2)外部のサイトに問題がある場合(リンク元の情報が存在しない場合等)
(3)閲覧者の環境に問題がある場合(閲覧者のブラウザが対応していない機能を使用している場合等)
(4)不正アクセス(CGIプログラムを誤動作させる目的で、不正データを送りつけた場合等)
いずれも、サイト管理者にとって重要な情報であるが、エラーの発生率は全体のアクセス数に比して通常はかなり低い。しかも、favicon.icoやrobots.txtといった名前のリソース(これらは実在しないにも拘らず特定のクライアントソフトが要求するリソースで、無くても問題ないが要求されたリソースが存在しなかったことはエラーとしてログに記録される)のようにコンスタントに大量にエラーを発生させる要因もある。従来のアクセス数による分析方法では、こういった少数ながら重要な情報が隠れてしまう恐れがあったが、このような場合においてもZ値による検出は有効である。例えば、ワームウイルスによるアタックや、不正アクセスに多いブルートフォース(パスワード等を総当りで試す手法)には、同じ種類のエラーを短時間に繰り返し発生させるという特性があり、本願発明のアクセスログ分析を行うことで、有効に対応できる。
また、この表示画面では第16図のように訪問者の構成を棒グラフで表示するようにしている。前述のように、本実施形態ではプリカウント段階で訪問者を新規訪問者と再訪問者と常連に区分けする機能を有しているが、この割合を図のように棒グラフで色分け表示する。これにより、グラフが例えば黒っぽいか白っぽいかで大体の傾向を一目で判断することができる。アクセスログから、閲覧者が過去にもこのページを訪問しているか否かを的確に判断することは困難である。共用のプロキシサーバ、共用のパソコン、接続毎にIPアドレスの変わるプロバイダ、自宅・会社・携帯電話のように複数端末を所持する場合など、同一ユーザの特定を妨げる要因は多数存在する。これに対し、閲覧者側のマシンに識別用のデータやプログラムを保存する手法も種々考案されているが、その場合でも複数の端末を所持する場合や逆に一台の端末を複数人で共用する場合には対応できない。また、元来匿名アクセスを旨とするWebサイトにあっては閲覧者の匿名意図は尊重すべきである。加えて、この分析プログラムで定義している「常連」という概念は多分に恣意的なものであり、設定次第で判定は変化する。このように、訪問者の区分を定量的数値で議論することは無意味であり、この種の統計では厳密な精度を問題にしない場合が多いことから、グラフのグラデーションで表示するのが適切と考えられる。
上記説明では、監視項目について「統計的変動量」を検出し、日常からの変動を検出し、診断結果を文章化して提供する分析処理について述べたが、本実施形態のアクセスログ分析装置では、「統計的変化傾向」を検出して、その診断結果を文章化して提供する機能も備えている。
この統計的変化傾向は、プリカウントデータ、もしくは生ログから所定期間内のデータについて最小二乗法による直線近似を行い、その傾きが一定以上の場合に、上記と同様に対応する診断文雛形を用いて診断文を生成することで実現している。
その他、監視項目の平均値や分散値を求め、この絶対値を所定の閾値と直接比較し、対応する診断文雛形を用いて診断文を生成するようにしてもよい。
これらを組合せることで、以下のような診断文が生成される。
「▲ヒット数は1日当たり33ヒットの割で急激に増加しています。このままいけば、21日後には785ヒット前後になると予想されます」
「このページを訪問する人の多く(75%)は、最初にこのページをアクセスしています」
「このページを最後に帰ってしまう訪問者の割合は増加傾向にあります」
上記実施形態では、統計的変動量演算手段として、対象データのZ値を求めて通常の変動に対して有意な変化があったことを検出するとして説明したが、本願発明はこれに限定されるものではなく、所定期間内のデータの統計量に基づいて対象とするデータの変動量を演算するものであればどのようなものでもよい。例えば、過去のデータの履歴に基づいて当日のデータの変動範囲を予測し、これに対して実際のデータがどのような関係にあるかを判断するようにしてもよく、本願発明の効果を奏する。
上記実施形態では、診断文を日本語で提示した場合について説明したが、本願発明はこれに限定されるものではなく、自然言語を使用して分析結果を提示するものであればどのようなものでもよく、本願発明の効果を奏する。
上記実施形態では、分析対象サーバ側には特別にプログラムをインストールすることなく自動生成されるhttpdログをそのまま利用するものとして説明したが、分析対象サーバ側に必要な情報を生成する機能がない場合にはログを生成又は加工するプログラムをインストールして実行させるようにしてもよい。また、必要に応じて転送効率を上げるための圧縮処理を行うプログラムをインストールするようにしてもよい。
また、上記実施形態では、アクセスログの取得はFTPモジュールにより行うものとして説明したが、本願発明はこれに限定されるものではなく、どのような通信手段を用いてもよい。例えば、分析対象サーバが後述のようにSOAPに対応している場合はSOAPの機能を用いて通信するようにしてもよい。
上記実施形態では、分析対象サーバはHTMLにより記述されたWebページを対象として分析を行うものとして説明したが、本願発明はこれに限定されるものではなく、例えばXML(eXtensible Markup Language)により記述されたWebページに対応する機能を設けてもよい。
XMLは、拡張可能なマークアップ言語であり、利用者が自由に定義できるタグによってデータ構造やデータの意味を記述でき、XSL(eXtensible Stylesheet Language)スタイルシートにより、データの内容と表現を分離して管理できるという特徴を有する。すなわち、XMLではデータとともにそのデータの名前や属性を表すタグも同時に含めることができるため、単純な数値型や文字型だけでなく、配列のような繰り返し型のデータや複雑な構造をしたデータやバイナリデータなどの任意のデータを格納することができる。例えば、「“価格”は“浮動小数点型”のデータであって、その値は“123.45”である」というようにデータを表現できるので、ここから価格データを取出す処理が容易に行える。このように、本願発明のアクセスログ分析装置にXMLデータを取り扱う機能を設けることにより、データの意味を解釈しながらサイトのアクセス状況を分析することが可能となる。また、取得した意味情報を利用してアプリケーション間の情報連携機能や業務連携機能を持たせるようにしてもよく、これにより例えばワンストップサービスを提供するサイトに対して有効なマーケティングサービスを提供することが可能となる。
また、上記実施形態では、分析結果提供サーバにおいてもHTMLにより記述されたWebページによって分析結果を提供するものとして説明したが、XMLによって記述されたWebページによって分析結果を提供するようにしてもよい。XMLを使用することでデータや解析結果の知識表現を統一することができるので、例えば複数の顧客に対する解析結果からサイトに拠らないWeb全体の傾向を読取る等の分析結果の再利用機能を提供することができる。このように、XMLを用いてデータの共有化を図ることで多角的なシミュレートが行え、マーケティング用の標準化仕様を確立できる。また、内部表現を統一することでプラグイン形式のさまざまな解析処理ルーチンを抜き差しすることができるので、例えば前述のディスパッチャモジュールの処理を一般化し、より効率的に処理することが可能となる。更に、アクセスログ以外のさまざまなデータについてもアクセスログと同様に取扱うことができるので、解析結果を柔軟で判りやすい文章表現によって提供する汎用データ解析ツール・マーケティングツールとして多用途に活用することができる。
また、更に生データ、中間集計結果、診断結果などを表現するためのontology(体系的記述)を作成してXML形式で保存したり、あるいは診断結果表示画面の中にXMLタグを埋め込んでおくことにより検索性に優れたいわゆるSemantic Webとし、サービスを提供しているあらゆるサイトの「パターン」「定石」等を導き、コンサルティングなどの二次利用可能な情報として提供するようにしてもよい。
上記実施形態では、分析対象サーバはHTTPサーバであるものとして説明したが、SOAP(Simple Object Access Protocol)に対応したサーバであってもよい。SOAPは、HTTPなどを下位プロトコルとして使用し、簡単なXMLベースのメッセージをやりとりして、リモートマシン上のオブジェクト(データ)へアクセスするための通信規約である。HTTPプロトコルは、インターネット/イントラネットで最も広く普及しているものの1つであり、企業などがセキュリティのためにファイヤーウォールを設置している場合であっても、特別な措置(ある特定のプロトコルを通すようにフィルタの設定を変更するなど)を行うことなく常に利用できる可能性が高い。このように、SOAPはHTTPを始めとして、SMTP(Simple Mail Transfer Protocol)やFTPなどインターネットで既に広く普及しているものを下位プロトコルとして使用し、リモートマシン上のオブジェクトへアクセスしたり、サービスルーチンを呼び出したりすることができる。また、アクセス要求やその結果として返されるデータの表現形式としてXMLを採用することにより、特定のフォーマットにとらわれない柔軟で汎用性の高いデータアクセス機能を提供する。
例えば、分析対象サーバのhttpdがSOAPに対応し、「○日の○時から○時のログを送れ」という要求に対してログを返す機能を提供する場合には、分析対象サーバに切り出し用のプログラムをおく必要は一切なくなり、アクセスログ分析サーバにおいてSOAPに対応したXMLメッセージを送信する機能を設けることで、分析対象サーバのアクセスログを取得できる。また、アクセスログはXMLデータとして取得されるので、分析対象毎にログ形式が異なっているものを補正したり、IPをドメイン名に変更する等の処理が簡単に行える。このように、SOAPの機能を利用することで、アクセスログの取得時にプリフォーマットモジュールの処理やプリカウントモジュールの処理の一部または全部を行うことができ、より効率的にアクセスログ分析を行うことが可能となる。
また、分析対象サーバにおいて、アクセスを受けたときにアクセス情報をSOAPの機能を用いてアクセスログ分析サーバに通知するようにし、オンデマンドで分析処理を行うようにしてもよい。このように、アクセスの発生時点でアクセス情報を処理することで、蓄積された膨大なアクセスログを解析することなく、有用な情報を効率的に処理することが可能となる。
上記実施形態では、アクセスログ分析サーバおよび分析結果提供サーバはアクセスログ分析サービスの提供者側に設置され、顧客サイトに設置される分析対象サーバとインターネットを介して接続することによりアクセスログ分析サービスを提供するものとして説明したが、アクセスログ分析サービスの提供者がASP(Application Service Provider)事業を兼ねる場合には、アクセスログ分析サーバと分析結果提供サーバを分析対象サーバとともにサービス提供者側に備えてLANを介して相互接続することにより、ASPサービスとアクセスログ分析サービスとをセットで提供するようにしてもよい。
また、アクセスログ分析サーバや分析結果提供サーバを顧客サイトに設置し、分析対象サーバとLANを介して接続することによりアクセスログ分析サービスを提供するようにしてもよい。この場合、サービス提供側において当該顧客が正規のライセンスを有するユーザであるか否かを管理するためライセンス管理サーバを設置することが好ましい。
図17に、本願発明の他の実施形態として、アクセスログ分析サービスをライセンス契約により顧客に提供する場合のシステム構成例を示す。図のように、顧客の分析対象サーバ10に対して、LANを介してアクセスログ分析サーバ20と分析結果提供サーバ24とが接続され、アクセスログ分析サーバ20がサイト内の分析対象サーバ10からアクセスログ12を取得して分析を行い、分析結果22を分析結果提供サーバ24により顧客に提供する。サービス提供者はライセンス管理サーバ26を備え、アクセスログ分析サーバ20とインターネットを介してライセンス情報を交換してユーザが正規のライセンスを取得しているか否かを確認する。
上記ライセンス管理サーバ26とアクセスログ分析サーバ20との通信は、専用の通信モジュールを設けて行うようにしてもよいが、前述のSOAPの機能を利用することで簡便に行うことができる。すなわち、アクセスログ分析サーバ20とライセンス管理サーバ26をSOAP対応サーバとし、ライセンス管理サーバ26はSOAPの通信機能によりアクセスログ分析サーバ20に対してライセンスの確認やライセンス情報のアップデート要求を送信し、それに対する応答として定期的にライセンス情報を取得する。得られたライセンス情報を登録されている顧客のライセンス情報と比較し、正規のライセンスを有するユーザであればアクセスログ分析サービスの提供を許可する情報を送信する。これにより、正規のライセンスを有するユーザに対してのみアクセスログ分析サービスを提供することができる。
上記他の実施形態では、分析対象サーバと分析結果提供サーバとアクセスログ分析サーバは同一の顧客サイトに設置され、LANを介して相互に接続されるものとして説明したが、一部または全部のサーバが異なるサイトに設置され、インターネットを介して相互に接続されるものであってもよい。
また、アクセスログ分析サービスを利用時間や利用回数に応じて課金する従量制のサービスとして提供するようにしてもよい。この場合には、ライセンス管理サーバにおいてアクセスログ分析サーバから処理時間や処理回数に関する情報を取得し、取得した情報に基づいてあらかじめ定めたルールに基づいて利用料金を計算し、利用者に対して請求するようにすればよい。
上記実施形態では、アクセスログ分析サーバと分析結果提供サーバは個別に備えられ、LANまたはインターネットを介して相互に接続されたシステムについて説明したが、本願発明はこれに限定されるものではなく、同一のコンピュータ上にアクセスログ分析サーバの機能と分析結果提供サーバの機能とを有するアクセスログ分析プログラムをインストールすることによりサービスを提供するものであってもよい。また、更に分析対象サーバと同一のコンピュータ上にアクセスログ分析プログラムをインストールすることによりサービスを提供するものであってもよい。尚、この場合には、分析結果提供サーバの機能と分析対象サーバの機能は単一のHTTPサーバに集約することができるので、各サーバ機能に対応したWebページを個別に設けることで対応するようにしてもよい。
産業上の利用可能性
上述したように、本願発明によれば、分析対象となるサーバからアクセスログを取得するアクセスログ取得手段と、アクセスログ取得手段により取得されたデータを監視項目毎に集計する集計手段と、集計手段により集計されたデータをもとにサーバのアクセス状況を診断する診断手段と、診断手段により診断された結果を表示するための診断結果提示手段とを備えたアクセスログ分析装置において、診断手段が監視項目について所定期間内のデータの統計量に基づいて対象データの変動量を演算する統計的変動量演算手段と、演算された統計的変動量の範囲と対応する診断文の雛型を記述した診断テーブルを参照して診断文を生成する診断文生成手段とを有するので、Webサーバのアクセスログの膨大なデータの中から有意な情報を抽出し、分析結果を適確に表示することのできるアクセスログ分析装置を提供するという効果がある。
【図面の簡単な説明】
第1図は、本願発明の一実施形態に係るアクセスログ分析装置のシステム構成図である。
第2図は、本願発明の一実施形態に係るアクセスログ分析装置の分析処理フロー図である。
第3図は、プリフォーマットログの一例である。
第4図は、ヒット数に関するプリカウントテーブルの一例である。
第5図は、閲覧者のプリカウントテーブルの一例である。
第6図は、診断文テーブルの一例である。
第7図は、診断文生成処理の一例である。
第8図は、診断パラメータの一例である。
第9図は、診断文統合処理の処理フロー図である。
第10図は、文章連結規則である。
第11図は、ディスパッチャの処理フロー図である。
第12図は、ディスパッチャの処理状況テーブルの一例である。
第13図は、ディスパッチャのモジュール依存関係テーブルの一例である。
第14図は、診断結果の表示画面例である。
第15図は、グラフ表示の表示画面例である。
第16図は、詳細レポートの表示画面例である。
第17図は、本願発明の他の実施形態(ライセンス契約形態)に係るアクセスログ分析装置のシステム構成図である。

Claims (11)

  1. 分析対象となるサーバからアクセスログを取得するアクセスログ取得手段と、前記アクセスログ取得手段により取得されたデータを監視項目毎に集計する集計手段と、前記集計手段により集計されたデータをもとに前記サーバのアクセス状況を診断する診断手段と、前記診断手段により診断された結果を分析依頼者に提示する診断結果提示手段とを備えたアクセスログ分析装置であって、
    前記診断手段は、監視項目について所定期間内のデータの統計量に基づいて対象データの変動量を演算する統計的変動量演算手段と、前記統計的変動量演算手段により演算された統計的変動量の範囲と対応する診断文の雛型を記述した診断テーブルを参照して診断文を生成する診断文生成手段とを有することを特徴とする、アクセスログ分析装置。
  2. 前記統計的変動量演算手段は、所定期間内のデータの平均と分散を求め、これを基に対象データの平均からの偏差を標準偏差で正規化したZ値(Zスコア)を演算する手段を含むことを特徴とする、請求項1に記載のアクセスログ分析装置である。
  3. 前記診断手段は、前記診断文生成手段により生成された診断文に関連するデータについて所定期間内のデータの統計量に基づいて対象データの変動量を演算する第2の統計的変動量演算手段と、前記第2の統計的変動量演算手段により演算された統計的変動量の範囲と対応する診断文の雛型を記述した副診断テーブルを参照して副診断文を生成する副診断文生成手段とを有することを特徴とする、請求項1または請求項2に記載のアクセスログ分析装置。
  4. 前記診断手段は、生成された複数の診断文を統合する診断文統合手段を有することを特徴とする、請求項1ないし請求項3のいずれかに記載のアクセスログ分析装置。
  5. 前記診断手段は、所定期間内のデータの統計的な変化傾向を統計的変化量として演算する統計的変化量演算手段と、前記統計的変化量演算手段により演算された統計的変化量の範囲と対応する診断文の雛型を記述した第2の診断テーブルを参照して診断文を生成する第2の診断文生成手段とを有することを特徴とする、請求項1ないし請求項4のいずれかに記載のアクセスログ分析装置。
  6. 前記集計手段は、正規表現を用いて集計対象を特定するプリフォーマット手段を含むことを特徴とする、請求項1ないし請求項5のいずれかに記載のアクセスログ分析装置。
  7. 前記アクセスログ取得手段と前記集計手段と前記診断手段に対して、処理の相互依存性を監視して実行を管理する実行管理手段を有することを特徴とする、請求項1ないし請求項6のいずれかに記載のアクセスログ分析装置。
  8. 前記集計手段は、参照元情報から新規訪問者と再訪問者を区分し、かつ再訪問者については訪問回数と訪問間隔から常連者を区分する機能を有し、
    前記診断結果提供手段は、前記区分された新規訪問者と再訪問者と常連の割合を訪問者情報として色分けグラフ表示する機能を有することを特徴とする、請求項1ないし請求項7のいずれかに記載のアクセスログ分析装置。
  9. 前記分析依頼者のライセンス情報を取得してサービスの提供可否を判断するライセンス管理手段を備えたことを特徴とする、請求項1ないし請求項8のいずれかに記載のアクセスログ分析装置。
  10. 分析対象となるサーバからアクセスログを取得するステップと、前記取得されたデータを監視項目毎に集計するステップと、前記集計されたデータをもとに前記サーバのアクセス状況を診断するステップと、前記診断された結果を分析依頼者に提示するステップとを備えたアクセスログ分析方法であって、
    前記診断するステップは、監視項目について所定期間内のデータの統計量に基づいて対象データの変動量を演算するステップと、前記演算された統計的変動量の範囲と対応する診断文の雛型を定義した診断文雛型テーブルを参照して診断文を生成するステップとを有することを特徴とする、アクセスログ分析方法。
  11. コンピュータに少なくとも分析対象となるサーバからアクセスログを取得する手順と、前記取得されたデータを監視項目毎に集計する手順と、前記集計されたデータをもとに前記サーバのアクセス状況を診断する手順と、前記診断された結果を分析依頼者に提示する手順とを実行させるためのプログラムであって、
    前記診断する手順は、監視項目について所定期間内のデータの統計量に基づいて対象データの変動量を演算する手順と、前記演算された統計的変動量の範囲と対応する診断文の雛型を定義した診断文雛型テーブルを参照して診断文を生成する手順とを有することを特徴とする、アクセスログ分析プログラム。
JP2003550097A 2001-12-06 2002-12-06 アクセスログ分析装置およびアクセスログ分析方法 Expired - Fee Related JP4146347B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2001373357 2001-12-06
JP2001373357 2001-12-06
PCT/JP2002/012806 WO2003048973A1 (fr) 2001-12-06 2002-12-06 Procédé d'analyse et analyseur de journal d'accès

Publications (2)

Publication Number Publication Date
JPWO2003048973A1 true JPWO2003048973A1 (ja) 2005-04-21
JP4146347B2 JP4146347B2 (ja) 2008-09-10

Family

ID=19182085

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003550097A Expired - Fee Related JP4146347B2 (ja) 2001-12-06 2002-12-06 アクセスログ分析装置およびアクセスログ分析方法

Country Status (4)

Country Link
US (1) US7216056B2 (ja)
JP (1) JP4146347B2 (ja)
AU (1) AU2002354105A1 (ja)
WO (1) WO2003048973A1 (ja)

Families Citing this family (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4369868B2 (ja) * 2002-06-28 2009-11-25 オムニチャー, インク. サイト訪問パスデータの取得および表示
WO2004092963A1 (ja) * 2003-04-11 2004-10-28 Fujitsu Limited 情報提供方法、情報提供プログラム、情報表示プログラム、情報提供装置および情報表示装置
CN100347669C (zh) * 2003-12-30 2007-11-07 佳能株式会社 运行日志取得方法
US20050209876A1 (en) * 2004-03-19 2005-09-22 Oversight Technologies, Inc. Methods and systems for transaction compliance monitoring
US20050268291A1 (en) * 2004-05-27 2005-12-01 International Business Machines Corporation Specifying user interface interactions for controls in a data driven system
JP4886188B2 (ja) * 2004-12-16 2012-02-29 キヤノン株式会社 情報処理装置及びその制御方法、コンピュータプログラム及び記憶媒体
US20060190488A1 (en) * 2005-02-22 2006-08-24 Transparency Software, Inc. System and method for determining information related to user interactions with an application
US20060200496A1 (en) * 2005-02-22 2006-09-07 Transparency Software, Inc. Organization action incidents
US20060212324A1 (en) * 2005-02-22 2006-09-21 Transparency Software, Inc. Graphical representation of organization actions
JP2006260420A (ja) * 2005-03-18 2006-09-28 Fujitsu Ltd ウェブサイト分析システム
US8688507B2 (en) * 2005-03-21 2014-04-01 Oversight Technologies, Inc. Methods and systems for monitoring transaction entity versions for policy compliance
US7661136B1 (en) * 2005-12-13 2010-02-09 At&T Intellectual Property Ii, L.P. Detecting anomalous web proxy activity
JP4762063B2 (ja) * 2006-06-29 2011-08-31 株式会社日立製作所 計算機システム、プログラム及び検索エンジン検索方法
US20080005281A1 (en) * 2006-06-29 2008-01-03 Microsoft Corporation Error capture and reporting in a distributed computing environment
JP2008026972A (ja) * 2006-07-18 2008-02-07 Fujitsu Ltd ウェブサイト構築支援システム、ウェブサイト構築支援方法およびウェブサイト構築支援プログラム
US9374242B2 (en) 2007-11-08 2016-06-21 Invention Science Fund I, Llc Using evaluations of tentative message content
US20090063632A1 (en) * 2007-08-31 2009-03-05 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Layering prospective activity information
US8682982B2 (en) * 2007-06-19 2014-03-25 The Invention Science Fund I, Llc Preliminary destination-dependent evaluation of message content
US8984133B2 (en) * 2007-06-19 2015-03-17 The Invention Science Fund I, Llc Providing treatment-indicative feedback dependent on putative content treatment
US20080320088A1 (en) * 2007-06-19 2008-12-25 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Helping valuable message content pass apparent message filtering
US8006121B1 (en) * 2007-06-28 2011-08-23 Apple Inc. Systems and methods for diagnosing and fixing electronic devices
US20090063395A1 (en) * 2007-08-30 2009-03-05 International Business Machines Corporation Mapping log sets between different log analysis tools in a problem determination environment
US20090063631A1 (en) * 2007-08-31 2009-03-05 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Message-reply-dependent update decisions
JP2010198326A (ja) * 2009-02-25 2010-09-09 Fujitsu Ltd ネットワークに接続可能な装置及びその方法
US9767464B2 (en) * 2009-09-11 2017-09-19 Comscore, Inc. Determining client system attributes
US8825840B2 (en) * 2011-02-22 2014-09-02 Intuit Inc. Systems and methods for self-adjusting logging of log messages
JP5705772B2 (ja) * 2012-03-05 2015-04-22 日本電信電話株式会社 ウェブサイト分析方法、装置、システム、及びプログラム
JP5669330B2 (ja) * 2012-04-11 2015-02-12 株式会社アクティブコア レコメンド装置、レコメンド方法、およびレコメンドプログラム
US9135244B2 (en) 2012-08-30 2015-09-15 Arria Data2Text Limited Method and apparatus for configurable microplanning
US8762134B2 (en) 2012-08-30 2014-06-24 Arria Data2Text Limited Method and apparatus for situational analysis text generation
US9405448B2 (en) 2012-08-30 2016-08-02 Arria Data2Text Limited Method and apparatus for annotating a graphical output
US8762133B2 (en) 2012-08-30 2014-06-24 Arria Data2Text Limited Method and apparatus for alert validation
US9336193B2 (en) 2012-08-30 2016-05-10 Arria Data2Text Limited Method and apparatus for updating a previously generated text
US9600471B2 (en) 2012-11-02 2017-03-21 Arria Data2Text Limited Method and apparatus for aggregating with information generalization
WO2014076524A1 (en) 2012-11-16 2014-05-22 Data2Text Limited Method and apparatus for spatial descriptions in an output text
WO2014076525A1 (en) 2012-11-16 2014-05-22 Data2Text Limited Method and apparatus for expressing time in an output text
WO2014102568A1 (en) 2012-12-27 2014-07-03 Arria Data2Text Limited Method and apparatus for motion detection
WO2014102569A1 (en) 2012-12-27 2014-07-03 Arria Data2Text Limited Method and apparatus for motion description
WO2014111753A1 (en) 2013-01-15 2014-07-24 Arria Data2Text Limited Method and apparatus for document planning
US9275127B1 (en) * 2013-06-14 2016-03-01 Microstrategy Incorporated Location categorization
US9600461B2 (en) * 2013-07-01 2017-03-21 International Business Machines Corporation Discovering relationships in tabular data
US9536200B2 (en) 2013-08-28 2017-01-03 International Business Machines Corporation Sentiment analysis of data logs
WO2015028844A1 (en) 2013-08-29 2015-03-05 Arria Data2Text Limited Text generation from correlated alerts
US9396181B1 (en) 2013-09-16 2016-07-19 Arria Data2Text Limited Method, apparatus, and computer program product for user-directed reporting
US9244894B1 (en) 2013-09-16 2016-01-26 Arria Data2Text Limited Method and apparatus for interactive reports
JP5881656B2 (ja) * 2013-09-26 2016-03-09 ビッグローブ株式会社 利用状況分析装置、通信端末、利用状況分析方法およびプログラム
JP5944878B2 (ja) * 2013-10-18 2016-07-05 ヤフー株式会社 判定装置、判定方法及び判定プログラム
US10367827B2 (en) * 2013-12-19 2019-07-30 Splunk Inc. Using network locations obtained from multiple threat lists to evaluate network data or machine data
CN104182321A (zh) * 2014-02-24 2014-12-03 无锡天脉聚源传媒科技有限公司 一种访问错误的监控方法及装置
US10664558B2 (en) 2014-04-18 2020-05-26 Arria Data2Text Limited Method and apparatus for document planning
US9612827B2 (en) 2015-06-11 2017-04-04 International Business Machines Corporation Automatically complete a specific software task using hidden tags
US10445432B1 (en) 2016-08-31 2019-10-15 Arria Data2Text Limited Method and apparatus for lightweight multilingual natural language realizer
JP6470241B2 (ja) * 2016-10-05 2019-02-13 ビッグローブ株式会社 コンテンツ利用検出装置、コンテンツ利用検出方法およびプログラム
US10467347B1 (en) 2016-10-31 2019-11-05 Arria Data2Text Limited Method and apparatus for natural language document orchestrator
CN110245968A (zh) * 2018-03-07 2019-09-17 阿里巴巴集团控股有限公司 数据分析的方法、装置和存储介质
CN110019076B (zh) * 2018-08-20 2023-03-24 平安普惠企业管理有限公司 多系统日志数据的构建方法、装置、设备及可读存储介质
US10521331B1 (en) * 2018-08-31 2019-12-31 The Mitre Corporation Systems and methods for declarative specification, detection, and evaluation of happened-before relationships
US11762858B2 (en) 2020-03-19 2023-09-19 The Mitre Corporation Systems and methods for analyzing distributed system data streams using declarative specification, detection, and evaluation of happened-before relationships
CN111581172B (zh) * 2020-05-09 2023-11-07 深圳市卡数科技有限公司 运行日志的查询方法、系统、服务器及存储介质
CN111752727B (zh) * 2020-06-30 2023-06-20 上海观安信息技术股份有限公司 一种基于日志分析的数据库三层关联的识别方法
CN113657960A (zh) * 2020-08-28 2021-11-16 支付宝(杭州)信息技术有限公司 一种基于可信资产数据的匹配方法、装置及设备
CN113722194B (zh) * 2021-08-02 2024-05-24 中移(杭州)信息技术有限公司 日志统计方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10124580A (ja) * 1996-10-22 1998-05-15 Hitachi Building Syst Co Ltd 診断報告書の作成支援システム
JP2000040046A (ja) * 1998-05-21 2000-02-08 Lucent Technol Inc ネットワ―ク・ユ―ザによるウェブ・サイトの使用パタ―ンの特性を記述し視覚化する方法
JP2000357141A (ja) * 1999-06-14 2000-12-26 Nihon Business Data Processing Center Co Ltd インターネットの技術を用いたネットワーク上の情報収集システム、情報収集方法および情報収集方法を記録した記録媒体
JP2001282538A (ja) * 2000-03-31 2001-10-12 Omron Corp 情報処理装置および方法、並びに記録媒体
EP1220098A2 (en) * 2000-12-29 2002-07-03 Ncr International Inc. Identifying web-log data representing a single user session

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5870559A (en) * 1996-10-15 1999-02-09 Mercury Interactive Software system and associated methods for facilitating the analysis and management of web sites
US6021438A (en) * 1997-06-18 2000-02-01 Wyatt River Software, Inc. License management system using daemons and aliasing
US20020070953A1 (en) * 2000-05-04 2002-06-13 Barg Timothy A. Systems and methods for visualizing and analyzing conditioned data
JP4394335B2 (ja) * 2002-07-23 2010-01-06 富士通株式会社 サイト評価システムおよびサイト評価プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10124580A (ja) * 1996-10-22 1998-05-15 Hitachi Building Syst Co Ltd 診断報告書の作成支援システム
JP2000040046A (ja) * 1998-05-21 2000-02-08 Lucent Technol Inc ネットワ―ク・ユ―ザによるウェブ・サイトの使用パタ―ンの特性を記述し視覚化する方法
JP2000357141A (ja) * 1999-06-14 2000-12-26 Nihon Business Data Processing Center Co Ltd インターネットの技術を用いたネットワーク上の情報収集システム、情報収集方法および情報収集方法を記録した記録媒体
JP2001282538A (ja) * 2000-03-31 2001-10-12 Omron Corp 情報処理装置および方法、並びに記録媒体
EP1220098A2 (en) * 2000-12-29 2002-07-03 Ncr International Inc. Identifying web-log data representing a single user session

Non-Patent Citations (11)

* Cited by examiner, † Cited by third party
Title
"サイトトラッカー5", LINUX MAGAZINE, vol. 第3巻,第1号, CSND200300358001, 1 January 2001 (2001-01-01), JP, pages 48 - 49, ISSN: 0000894077 *
"サイトトラッカー5", LINUX MAGAZINE, vol. 第3巻,第1号, JPN6007013688, 1 January 2001 (2001-01-01), JP, pages 48 - 49, ISSN: 0000945577 *
"データマイニングツール「Clementine6.0」エス・ピー・エス・エス 新モデリング手法で多角的", コンピューターテレフォニー, vol. 第4巻,第7号, CSND200100700015, 20 June 2001 (2001-06-20), JP, pages 100 - 101, ISSN: 0000894079 *
"データマイニングツール「Clementine6.0」エス・ピー・エス・エス 新モデリング手法で多角的", コンピューターテレフォニー, vol. 第4巻,第7号, JPN6008013667, 20 June 2001 (2001-06-20), JP, pages 100 - 101, ISSN: 0001047000 *
中島募: "Webのログ解析ツール", 日経インターネットテクノロジー, vol. 第14号, CSND199800878017, 22 August 1998 (1998-08-22), JP, pages 122 - 129, ISSN: 0000894081 *
中島募: "Webのログ解析ツール", 日経インターネットテクノロジー, vol. 第14号, JPN6008013665, 22 August 1998 (1998-08-22), JP, pages 122 - 129, ISSN: 0001047004 *
小川知也、外1名: "株価データと新聞記事からのマイニング", 情報処理学会研究報告(2001−FI−61), vol. 第2001巻,第20号, CSNG200300169018, 6 March 2001 (2001-03-06), JP, pages 137 - 144, ISSN: 0000894078 *
小川知也、外1名: "株価データと新聞記事からのマイニング", 情報処理学会研究報告(2001−FI−61), vol. 第2001巻,第20号, JPN6007013683, 6 March 2001 (2001-03-06), JP, pages 137 - 144, ISSN: 0000945579 *
小幡一郎: "ボトルネック要因の分析とパフォーマンス評価の基準", ネットワークコンピューティング, vol. 第8巻,第4号, JPN6007013685, 1 April 1996 (1996-04-01), JP, pages 96 - 103, ISSN: 0000945578 *
畑島隆、外2名: "嗜好の時間変化に対応したアクセス傾向分析方式の一提案", 電子情報通信学会技術研究報告(KBSE99−7〜13), vol. 第99巻,第253号, CSNG200100270004, 5 August 1999 (1999-08-05), JP, pages 49 - 56, ISSN: 0000894080 *
畑島隆、外2名: "嗜好の時間変化に対応したアクセス傾向分析方式の一提案", 電子情報通信学会技術研究報告(KBSE99−7〜13), vol. 第99巻,第253号, JPN6008013666, 5 August 1999 (1999-08-05), JP, pages 49 - 56, ISSN: 0001047003 *

Also Published As

Publication number Publication date
US7216056B2 (en) 2007-05-08
AU2002354105A1 (en) 2003-06-17
US20060085667A1 (en) 2006-04-20
WO2003048973A1 (fr) 2003-06-12
JP4146347B2 (ja) 2008-09-10

Similar Documents

Publication Publication Date Title
JP4146347B2 (ja) アクセスログ分析装置およびアクセスログ分析方法
Jansen Search log analysis: What it is, what's been done, how to do it
US6996798B2 (en) Automatically deriving an application specification from a web-based application
US6694307B2 (en) System for collecting specific information from several sources of unstructured digitized data
US7418446B2 (en) System and method for collecting and analyzing competitive rewards data
KR100729779B1 (ko) 지적자산 정보 분석 및 활용 방법과 이를 수행하기 위한시스템
Heymann et al. Turkalytics: analytics for human computation
US20130226967A1 (en) Data acquisition system with on-demand and prioritized data fetching
US20040030687A1 (en) Information collection system and method
US8954867B2 (en) System and method for gathering product, service, entity and/or feature opinions
JP2007516502A (ja) 調査処理に関するアプリケーションのための方法と装置
CN1677403A (zh) 用于自动优化搜索结果相关性的系统和方法
US20080065616A1 (en) Metadata integration tool, systems and methods for managing enterprise metadata for the runtime environment
Rowbottom et al. An exploration of the potential for studying the usage of investor relations information through the analysis of Web server logs
US7603334B2 (en) Code coverage of declarative objects
JP2008077611A (ja) ログ統合管理システム
Fenner et al. Code of practice for research data usage metrics release 1
CN109819019B (zh) 用于大规模网络数据采集的监控与统计分析方法和系统
Yang et al. Developer portraying: A quick approach to understanding developers on OSS platforms
Gustriansyah et al. Optimization of laboratory application by utilizing the ISO/IEC 25010 model
JP4650039B2 (ja) 情報利用状況分析表示装置および方法
JP3752936B2 (ja) アンケートシステム
CN100437740C (zh) 站点点击与网页上链接的关联
JP2007265296A (ja) ログ提供システム、ログ提供方法、およびコンピュータプログラム
Riehle Analysis of ignored patches in the linux kernel development

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070918

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071218

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080218

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080401

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080414

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080527

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080619

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110627

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140627

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees