WO2024009404A1

WO2024009404A1 - ログデータ解析装置、ログデータ解析方法、及びログデータ解析プログラム

Info

Publication number: WO2024009404A1
Application number: PCT/JP2022/026732
Authority: WO
Inventors: 佳史福本; 央倉沢; 美幸今田; 方邦石井; 健祐福島; 哲哉塩田; 奏山本
Original assignee: 日本電信電話株式会社
Priority date: 2022-07-05
Filing date: 2022-07-05
Publication date: 2024-01-11

Abstract

ログデータ解析装置１０は、ユーザの行動と、該行動に対応付けられた１以上の属性とが記されたログデータを取得する取得部１０１と、ログデータの前記行動と、該行動に対応付けられた属性の組み合わせにおけるユニークなデータの数とに基づいて、取得部１０１が取得した前記ログデータの前記属性の組み合わせを選択する選択部１０２と、選択部１０２が選択したログデータの属性の組み合わせを用いて、所定の言語モデルによりログデータを解析する解析部１０３と、を備える。

Description

ログデータ解析装置、ログデータ解析方法、及びログデータ解析プログラム

　開示の技術は、ログデータ解析装置、ログデータ解析方法、及びログデータ解析プログラムに関する。

　自然言語処理分野では、大量の文書から文脈における各単語の意味を獲得する、言語モデル技術（ＢＥＲＴ等）が普及している。言語モデルは他分野にも展開され、例えば、大量の行動ログからコンテキストにおける各行動の意味を獲得し、次の行動を提案する推薦システム（ＢＥＲＴ４Ｒｅｃ等）で用いられている。ＢＥＲＴ４Ｒｅｃについて開示している文献として例えば、非特許文献１がある。

Fei Sun, Jun Liu, Jian Wu, Changhua Pei, Xiao Lin, Wenwu Ou, Peng Jiang BERT4Rec: Sequential Recommendation with Bidirectional Encoder Representations from Transformer, インターネット＜URL：https://arxiv.org/abs/1904.06690＞

　従来、サービス横断的に収集された行動ログからユーザの行動を解析する手法として、ログの属性の組み合わせを語彙として捉え、言語モデルを適用する試みがなされてきた。自然言語での単語に相当する識別子が、行動ログでは１以上の属性の組み合わせで構成される識別子になる。属性は、商品やサービスの名称、チャネル、分類カテゴリなど、行動の種類によって異なり、言語モデル技術の適用の際に、属性の組み合わせ方を必ず設計する必要がある。

　ここで、ユーザのログの全ての属性の組み合わせを語彙として捉えると、言語モデルの適用にあたって、属性の組み合わせを言語モデルで言う１語として捉えて、各属性の値の組み合わせ毎にユニークなＩＤを付与して、その１語を表現するような加工処理を行う際に、加工処理において必要となる各属性の値組合せとＩＤの対応関係を示す辞書データが膨大になる。辞書データが膨大になると、処理中の一次記憶領域（メモリ）が不足するために処理しきれなくなる問題がある。一次記憶領域ではなくＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）又はＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）等の二次記憶領域を利用することで不足問題を回避できるが、今度は辞書を参照する都度、二次記憶領域から該当する値を検索して更新するといった処理が必要になるために計算コストは増大し、現実的な時間では処理しきれない。語彙数を絞るためにユーザのログの特定の属性を選択すると、ログの種類により意味のある属性は異なるために、言語モデル技術の適用にあたってユーザの行動を適切な粒度で識別する必要がある。仮に、いずれか１つの属性を選んで行動ログの識別子として使うと、行動の粒度が粗くなり、言語モデルから推定できる行動の特徴的な傾向を区別するのが難しくなる。全ての属性を選んで行動ログの識別子として使うと、行動の粒度が過剰に細かくなり、言語モデルから推定できる行動の特徴的な傾向を得られなくなる。

　開示の技術は、上記の点に鑑みてなされたものであり、計算コストを抑制しつつ行動の特徴を多く含む組み合わせによってログデータを解析するログデータ解析装置、ログデータ解析方法、及びログデータ解析プログラムを提供することを目的とする。

　本開示の第１態様は、ログデータ解析装置であって、ユーザの行動と、該行動に対応付けられた１以上の属性とが記されたログデータを取得する取得部と、前記ログデータの前記行動と、該行動に対応付けられた前記属性の組み合わせにおけるユニークなデータの数とに基づいて、前記取得部が取得した前記ログデータの前記属性の組み合わせを選択する選択部と、前記選択部が選択した前記ログデータの前記属性の組み合わせを用いて、所定の言語モデルにより前記ログデータを解析する解析部と、を含む。

　本開示の第２態様は、ログデータ解析方法であって、プロセッサが、ユーザの行動と、該行動に対応付けられた１以上の属性とが記されたログデータを取得し、前記ログデータの前記行動と、該行動に対応付けられた前記属性の組み合わせにおけるユニーク数とに基づいて、取得した前記ログデータの前記属性の組み合わせを選択し、選択した前記ログデータの前記属性の組み合わせを用いて、所定の言語モデルにより前記ログデータを解析する処理を実行する。

　本開示の第３態様は、ログデータ解析プログラムであって、コンピュータを、本開示の第１態様のログデータ解析装置として機能させる。

　開示の技術によれば、解析に用いるモデルにとって適切な数となる属性の組み合わせを選択することで、計算コストを抑制しつつ行動の特徴を多く含む組み合わせによってログデータを解析するログデータ解析装置、ログデータ解析方法、及びログデータ解析プログラムを提供することができる。

実施形態に係るログデータ解析装置のハードウェア構成を示すブロック図である。ログデータ解析装置の機能構成の例を示すブロック図である。本実施形態のログデータ解析装置が解析対象とするログデータの一例を示す図である。属性として「チャネル」のみを用いたユーザの行動の表現例を示す図である。属性として「チャネル」、「アクション」、及び各イベントを全て用いたユーザの行動の表現例を示す図である。属性として「イベント１」及び「イベント２」を用いたユーザの行動の表現例を示す図である。選択部による選択処理を説明する図である。選択部による選択処理を説明する図である。選択部によるカーディナリティの推定方法を説明する図である。目標の語彙数をデータソース毎に等分する例を示す図である。目標の語彙数をデータソース毎の最大語彙数の比率で割り当てる例を示す図である。ログデータ解析装置によるログデータ解析処理の流れを示すフローチャートである。ログデータ解析装置によるログデータ解析処理の具体例の説明に使用したログデータの構造及び単属性での語彙数を示す図である。ログデータをそのまま使用した場合、図５に示した単純な手法を用いた場合、及び本実施形態で説明した手法を用いた場合を比較して説明する図である。

　以下、開示の技術の実施形態の一例を、図面を参照しつつ説明する。なお、各図面において同一又は等価な構成要素及び部分には同一の参照符号を付与している。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。

　図１は、本実施形態のログデータ解析装置１０のハードウェア構成を示すブロック図である。本実施形態のログデータ解析装置１０は、ユーザの行動と、当該行動に対応付けられた１以上の属性とが記されたログデータを取得し、取得したログデータに対する解析処理を実行し、解析結果を出力する装置である。ログデータ解析装置１０が実行する解析処理は、言語モデルを用いてログデータを解析することで、ユーザの行動の特徴的な傾向を解析する処理である。本実施形態において言語モデルとは、統計を利用したモデルと、ニューラルネットワークを利用したモデルとの両方を含むことができる。本実施形態のログデータ解析装置１０は、言語モデルとして、例えばｗｏｒｄ２ｖｅｃ、ｄｏｃ２ｖｅｃ、Ｔｒａｎｓｆｏｒｍｅｒ、ＢＥＲＴ等を用いる。ログデータ解析装置１０による言語モデルを用いたユーザの行動の特徴的な傾向の解析により、ユーザに対して次の行動の提案が可能となる。

　また本実施形態のログデータ解析装置１０は、言語モデルにログデータを適用する際に、適切な属性の組み合わせを選択する。そして本実施形態のログデータ解析装置１０は、選択した組み合わせを有するログデータを言語モデルに適用する。実施形態のログデータ解析装置１０は、選択した組み合わせを有するログデータを言語モデルに適用することで、計算量を抑制しつつ行動の特徴を多く含む組み合わせによってログデータを解析することができる。ログデータ解析装置１０の具体的な構成及び作用については後に詳述する。

　なお、本実施形態に係るログデータ解析装置１０には、例えば、サーバコンピュータ、パーソナルコンピュータ（ＰＣ）等の汎用的なコンピュータ装置が適用されうる。

　図１に示すように、ログデータ解析装置１０は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）１１、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）１２、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）１３、ストレージ１４、入力部１５、表示部１６及び通信インタフェース（Ｉ／Ｆ）１７を有する。各構成は、バス１９を介して相互に通信可能に接続されている。

　ＣＰＵ１１は、中央演算処理ユニットであり、各種プログラムを実行したり、各部を制御したりする。すなわち、ＣＰＵ１１は、ＲＯＭ１２又はストレージ１４からプログラムを読み出し、ＲＡＭ１３を作業領域としてプログラムを実行する。ＣＰＵ１１は、ＲＯＭ１２又はストレージ１４に記憶されているプログラムに従って、上記各構成の制御及び各種の演算処理を行う。本実施形態では、ＲＯＭ１２又はストレージ１４には、ログデータの解析を行うログデータ解析プログラムが格納されている。

　ＲＯＭ１２は、各種プログラム及び各種データを格納する。ＲＡＭ１３は、作業領域として一時的にプログラム又はデータを記憶する。ストレージ１４は、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）又はＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）等の記憶装置により構成され、オペレーティングシステムを含む各種プログラム、及び各種データを格納する。

　入力部１５は、マウス等のポインティングデバイス、及びキーボードを含み、各種の入力を行うために使用される。

　表示部１６は、例えば、液晶ディスプレイであり、各種の情報を表示する。表示部１６は、タッチパネル方式を採用して、入力部１５として機能しても良い。

　通信インタフェース１７は、他の機器と通信するためのインタフェースである。当該通信には、たとえば、イーサネット（登録商標）若しくはＦＤＤＩ等の有線通信の規格、又は、４Ｇ、５Ｇ、若しくはＷｉ－Ｆｉ（登録商標）等の無線通信の規格が用いられる。

　次に、ログデータ解析装置１０の機能構成について説明する。

　図２は、ログデータ解析装置１０の機能構成の例を示すブロック図である。

　図２に示すように、ログデータ解析装置１０は、機能構成として、取得部１０１、選択部１０２、及び解析部１０３を有する。各機能構成は、ＣＰＵ１１がＲＯＭ１２又はストレージ１４に記憶されたログデータ解析プログラムを読み出し、ＲＡＭ１３に展開して実行することにより実現される。

　取得部１０１は、ログデータ解析装置１０での解析対象となるログデータを取得する。取得部１０１は、取得したログデータを選択部１０２に送る。

　選択部１０２は、取得部１０１から送られたログデータに対する選択処理を行う。選択部１０２は、取得部１０１から送られたログデータに対する選択処理を行うことにより、解析部１０３における計算量を抑制しつつ、行動の特徴を多く含む組み合わせによってログデータを解析部１０３に解析させることができる。

　ここで選択部１０２による選択処理を詳細に説明する。

　図３は、本実施形態のログデータ解析装置１０が解析対象とするログデータの一例を示す図である。ログデータ解析装置１０は、ログデータの１レコードを、自然言語でいう１語として扱って、言語モデルを用いたログデータの解析処理を行う。

　図３のログデータの中のユーザＡの行動を例にすると、ユーザＡは、あるキャンペンーンメールを開封し（レコード１）、メールに記載されたＵＲＬの選択によりＷｅｂサイトを閲覧し（レコード３）、閲覧したＷｅｂサイトの、コンテンツＩＤ１が設定されたコンテンツをクリックする（レコード４）、という行動がログデータに記述されている。また、図３のログデータのレコード番号２を例にすると、ユーザＢは、あるキャンペンーンメールを開封し（レコード２）、メールに記載されたＵＲＬの選択によりＷｅｂサイトを閲覧する（レコード５）、という行動がログデータに記述されている。

　この図３で示したようなログデータを解析しようとする場合、解析に用いる言語モデルに合わせ、ユーザの行動の内容を適切な粒度で識別できるように、使用する属性を選択することが望ましい。以下の説明では、属性の組み合わせの値を１語と捉えた場合のデータ全体のユニーク値の数を、語彙数と称する。語彙数は、粒度を示す指標になる。ここで、ログデータを解析しようとする場合、いずれか１つの属性のみを使用する場合と、全ての属性を使用する場合とが考えられる。

　図４Ａは、属性として「チャネル」のみを用いたユーザの行動の表現例を示す図である。１つの属性のみを使用する場合、図３のログデータの中の「チャネル」のみを使用したとすると、図４Ａに示したように、ユーザの行動がそれぞれ「メール」又は「Ｗｅｂ」に集約されることになる。しかし、１つの属性のみを使用する場合、ユーザの行動の分解能が不足し、ユーザの特徴的な行動を識別できず、解析を行っても有意な解析結果を得られない可能性がある。

　図４Ｂは、属性として「チャネル」、「アクション」、及び各イベントを全て用いたユーザの行動の表現例を示す図である。全ての属性を使用する場合、図４Ｂに示したように、ユーザの行動がそれぞれ細かく表現できるが、ユーザ行動の分解能が過剰で、多くの行動がユニークとなり統計的な傾向が得られない可能性がある。また全ての属性を使用する場合、解析部１０３での解析処理での計算コストが膨大となる。

　そこで本実施形態は、選択部１０２は、解析部１０３での言語モデルを用いた解析に使用する言語モデルに適切な粒度（語彙数）になるように、使用する属性を選択する。図４Ｃは、属性として「イベント１」及び「イベント２」を用いたユーザの行動の表現例を示す図である。このように解析に使用する属性を選択することで、ユーザ行動の統計的な傾向が適度に反映され、言語モデルを用いた解析に適する。また解析に使用する属性を選択することで、解析部１０３での解析処理での計算量を、全ての属性を使用する場合と比べて抑えることができる。

　選択部１０２の選択処理の具体例を示す。図５は、選択部１０２による選択処理を説明する図である。図５を用いて説明する選択処理を、以下の説明では単純な手法とも称する。図３に示したログデータにおいて、データソース「メール開封」の行動内容を識別する属性の組み合わせの候補は、以下の７通りである。
（イベント１），
（イベント１，イベント２），
（イベント１，イベント３），
（イベント１，イベント２，イベント３），
（イベント２），
（イベント２，イベント３），
（イベント３）

　選択部１０２は、ログデータの属性の組み合わせ毎に、出現した属性値とＩＤとの対応辞書を作成する加工処理を行う。選択部１０２は、他のデータソースについても同様に加工処理を行う。図５には、それぞれの属性値がＩＤに置き換えられた状態のログデータも示されている。

　そして選択部１０２は、目標の語彙数に近い属性の組み合わせを選択する。目標の語彙数は、解析部１０３での言語モデルを用いた解析方式又は解析方針に依存しうる。一例を挙げれば、言語モデルにＢＥＲＴ４Ｒｅｃを用いた場合、目標の語彙数を３万と設定する。もちろん、ユーザ行動を詳細に捉えた解析を解析部１０３で行うため、より多い又はより少ない目標の語彙数が設定されてもよい。

　しかし、図５に示した単純な手法では、ログデータ内の各項目の文字列長又は属性の組み合わせのパターンが大きい場合に、辞書情報が巨大になる可能性がある。言い換えれば、この手法は、データを追加する都度、辞書情報が増大する可能性がある。そして、辞書情報がＲＡＭ１３に格納できない場合は、ストレージ１４に辞書情報を保存してフルスキャンを繰り返すこと等の理由により、加工処理の性能が大幅に低下する。

　そこで本実施形態では、選択部１０２は、ログデータの属性の組み合わせ毎に、出現した行動内容でカーディナリティ推定オブジェクトを更新する。カーディナリティ推定オブジェクトは、例えばＨｙｐｅｒＬｏｇＬｏｇ（ＨＬＬ）及びＨＬＬの改良版等の技術を用いて生成するデータ構造および関数群を指す。選択部１０２は、ログデータの属性の組み合わせ毎に、出現した行動内容でカーディナリティ推定オブジェクトを更新することで、属性の組み合わせにおけるユニークなデータの数を推測することができる。本実施形態では、言語モデルを用いてログデータの解析を行うので、ユニークなデータの数は語彙数と言うこともできる。

　図６は、選択部１０２による選択処理を説明する図である。選択部１０２は、属性の組み合わせ毎に、出現した行動内容でカーディナリティ推定オブジェクトを更新する加工処理を行う。選択部１０２は、他のデータソースについても同様にデータ構造を作成する加工処理を行う。

　そして、選択部１０２は、各組み合わせのカーディナリティ推定オブジェクトにより語彙数を推定する。また、選択部１０２は、各属性値のＩＤ化にハッシュ関数を利用するとともに、そのハッシュ値をＨＬＬの更新にも利用する。図６には、それぞれの属性値がハッシュ関数によりＩＤ化された状態のログデータも示されている。

　カーディナリティ推定オブジェクトに文字列などのログデータの属性値のハッシュ値を与えると、カーディナリティ推定オブジェクトは、そのハッシュ値そのものを蓄積せずに、関数を用いてハッシュ値の特徴を算出し、統計値として蓄積又は更新する。ＨＬＬでは、ハッシュ値をビット列として捉えた場合に、先頭から幾つゼロが連続するかの統計値を用いる。本実施形態では、ハッシュ値そのものでなく統計値のみ蓄積又は更新するため、ハッシュ値のパターンが多くとも一定のメモリ消費に抑えることができる。

　また、カーディナリティ推定オブジェクトは、ユーザのログデータの断片ごとに作成し、マージすることが可能であるため、属性の組み合わせのパターン毎の語彙数推定処理の並列化が容易である。

　図７は、選択部１０２によるカーディナリティの推定方法を説明する図である。カーディナリティは、異なり数又は語彙数とも言い換えることができる。選択部１０２は、属性の組み合わせ毎に、行動属性値へのＩＤ付与及びカーディナリティ推定用のハッシュ関数を用いてハッシュ値を生成する。行動属性値とは、それぞれの属性について格納されたログデータ上の値をいう。本実施形態では、ハッシュ関数としてＦａｒｍＨａｓｈが用いられているが、他のハッシュ関数が用いられてもよい。

　選択部１０２は、ハッシュ値を生成すると、属性の組み合わせ毎にカーディナリティ推定オブジェクトを生成する。

　例えば、１つの属性の行動属性値についてのみについてカーディナリティを推測する場合、選択部１０２は、行動属性値についてハッシュ関数を用いてハッシュ値を生成し、生成したハッシュ値についてカーディナリティ推定を行う。また、２つの属性の行動属性値の組み合わせについてカーディナリティを推測する場合、選択部１０２は、組み合わされた行動属性値についてハッシュ関数を用いてハッシュ値を生成し、生成したハッシュ値についてカーディナリティ推定を行う。

　選択部１０２は、属性の組み合わせ毎にカーディナリティ推定オブジェクトを生成することで、属性の組み合わせ毎に、カーディナリティの近似値を求めることが出来る。ここで、選択部１０２は、入力されるログデータを行単位で分割することで、ハッシュ値生成とカーディナリティ推定オブジェクトの更新とを分散処理することができる。そして、選択部１０２は、分散処理後にカーディナリティ推定オブジェクトをマージすることで、ログデータ全体のカーディナリティを推定できる。

　選択部１０２は、データソース毎の、及び列挙した属性組み合わせ毎のカーディナリティ推定オブジェクトに、ログデータから得られた属性値のハッシュ値を全て与えた後、各カーディナリティ推定オブジェクト内に蓄積された統計値から、カーディナリティの推定値を算出することができる。属性値は、複数の属性を合わせる場合はセパレータ（例えばカンマ）で一つの文字列として結合した値である。

　全てのデータソース毎の語彙数の合計を、目標語彙数以下にすることが求められる。そこで、選択部１０２は、目標の語彙数をデータソース毎に等分してもよい。例えば、ユーザ行動ログのデータソース毎の重要度又は各属性値の内容が不明であり、差しあたり、全データソースが等価値と見なして解析を進める際に、目標の語彙数をデータソース毎に等分する。図８は、目標の語彙数をデータソース毎に等分する例を示す図である。図８には、属性の組み合わせ毎の推定語彙数が示されている。

　例えば、全体の目標の語彙数を３万とした場合、データソースが２種類あれば、それぞれの目標の語彙数を１万５千とする。そして、選択部１０２は、目標の語彙数を超えない最大の属性の組み合わせを選択する。図８の例では、データソース「メール開封」のレコードの属性の組み合わせは（イベント１，イベント２）の組み合わせを選択し、データソース「Ｗｅｂ閲覧」のレコードの属性の組み合わせは（イベント１，イベント３）を選択する。

　なお選択部１０２は、データソース毎の語彙数を等分するのではなく、恣意的に分け与えても良い。例えば、データソース毎の重要度又は各属性の内容が把握できている場合に、ユーザの行動特性を表現できるように調整する際に、語彙数を恣意的に分け与える。つまり、全体の目標の語彙数を３万とした場合、データソースが２種類あれば、それぞれの目標の語彙数を１万５千とするのではなく、１つのデータソースに１万、もう１つのデータソースに２万と語彙数を分け与えてもよい。

　また選択部１０２は、単属性の語彙数が全レコード数に近い場合は、殆どのレコードがユニークであり統計的な有意性が無い可能性が高いと判断し、その属性を無視してもよい。具体的には、選択部１０２は、単属性の語彙数の全レコード比が閾値を超えるものを無視した上で、目標の語彙数をデータソース毎の語彙数の最大値（以下「最大語彙数」ともいう）の比率で割当ててもよい。例えば、データソース毎の重要度又は各属性値の内容が不明であるが、語彙数の多いデータソースはよりユーザの行動特性を詳細に示していると仮定できる場合に、目標の語彙数をデータソース毎の最大語数の比率で割り当てる。図９は、目標の語彙数をデータソース毎の最大語彙数の比率で割り当てる例を示す図である。図９には、属性の組み合わせ毎の推定語彙数が示されている。

　例えば、全レコード数が１００万であり、閾値を９９％とした場合、単属性の語彙数（ユニーク数）が全レコード数の９９％つまり９９万を超えるものを無視する。図９に示した取り消し線は「イベント４」の単属性の語彙数が全レコード数に対して同数（１００％）であるため、イベント４を含む属性組合せは最大語彙数の比較対象としない。また、全体の目標の語彙数を３万とした場合において、データソースが「メール開封」の閾値を超えない最大語彙数は１８万であり、データソースが「Ｗｅｂ閲覧」の閾値を超えない最大語彙数は４３万であったとする。選択部１０２は、最大語彙数比率（１８万：４３万）で割当てた結果、「メール開封」と「Ｗｅｂ閲覧」との最大語彙数の比率によって算出された、データソース毎の割当語彙数はそれぞれ８８５２、２１１４８となる。そして選択部１０２は、この最大語彙数を超えない最大の語彙数となる属性の組み合わせをデータソース毎に選択する。図９に示した例では、データソース「メール開封」については（イベント１，イベント２）の組み合わせを選択し、データソース「Ｗｅｂ閲覧」のレコードの属性の組み合わせは（イベント１，イベント２，イベント３）を選択する。

　解析部１０３は、選択部１０２によって選択された属性の組み合わせに基づいて、ログデータの解析を行う。解析部１０３は、上述したように、例えばｗｏｒｄ２ｖｅｃ、ｄｏｃ２ｖｅｃ、Ｔｒａｎｓｆｏｒｍｅｒ、ＢＥＲＴ等の言語モデルを用いてログデータの解析を行う。解析部１０３は、言語モデルを用いて、選択部１０２が選択した属性の組み合わせでのログデータの解析を行うことで、ログデータの中からユーザの行動の傾向を解析することができる。

　ログデータ解析装置１０は、係る構成を有することにより、全ての属性を使用する場合と比較して計算コストを抑制することができ、かつ、行動の特徴を多く含む組み合わせによってログデータを解析することができる。

　次に、ログデータ解析装置１０の作用について説明する。

　図１０は、ログデータ解析装置１０によるログデータ解析処理の流れを示すフローチャートである。ＣＰＵ１１がＲＯＭ１２又はストレージ１４からログデータ解析処理プログラムを読み出して、ＲＡＭ１３に展開して実行することにより、ログデータ解析処理が行なわれる。

　ＣＰＵ１１は、まずステップＳ１０１において、解析対象のログデータを外部から取得する。

　ステップＳ１０１に続いて、ＣＰＵ１１は、ステップＳ１０２において、取得したログデータの属性の組み合わせを選択する。ＣＰＵ１１は、言語モデルを用いた解析に使用する言語モデルに適切な粒度（語彙数）になるように、使用する属性を選択する。より詳細には、ＣＰＵ１１は、ログデータの属性の組み合わせ毎に、出現した行動内容でカーディナリティ推定オブジェクトを更新する。そしてＣＰＵ１１は、カーディナリティ推定オブジェクトの更新の結果に基づいて、目標となる語彙数に近い属性の組み合わせを選択する。

　ステップＳ１０２に続いて、ＣＰＵ１１は、ステップＳ１０３において、選択した属性の組み合わせに対する、言語モデルを用いたログデータの解析を行う。

　続いて、ログデータ解析装置１０によるログデータ解析処理の具体例を説明する。

　図１１は、ログデータ解析装置１０によるログデータ解析処理の具体例の説明に使用したログデータの構造及び単属性での語彙数を示す図である。ここでは、合計１００万レコードのログデータを用いたとする。

　図１２は、ログデータをそのまま使用した場合、図５に示した単純な手法を用いた場合、及び本実施形態で説明した手法を用いた場合を比較して説明する図である。なお、目標となる語彙数は１０万語として説明する。

　１００万レコードのログデータをそのまま使用した場合、言語モデルの適用性（語彙数）は１００万レコード、すなわち１００万語となり、データサイズは２０メガバイト（ＭＢ）となる。

　単純な手法を用いた場合、言語モデルの適用性（語彙数）は９９９９１語となり、データサイズは８．８ＭＢとなり、加工処理時の辞書及び語彙数の情報が保持された中間データサイズは９８ＭＢとなる。すなわち、単純な手法を用いた場合、加工前よりサイズが大きくなる場合がある。また単純な手法を用いた場合、辞書オブジェクトを全てメモリの内部に保持する必要がある。辞書オブジェクトをメモリに保持できない場合は、非効率的であるが、メモリの代わりにハードディスク（ストレージ）に保持するように変更する方法もあり得るが、ストレージ内のデータを何度も検索する必要があり、データが大規模になると性能維持が困難となる。性能改善のためには分散処理も考えられるが、データ断片毎に作成された辞書オブジェクトを１つにマージする必要があり、そのための処理の性能維持も難しい。

　これらに対し、本実施形態で説明した手法を用いた場合、言語モデルの適用性（語彙数）は９９９９０語となり、データサイズは１６ＭＢとなるが、加工処理時の辞書及び語彙数の情報が保持された中間データサイズは１０ＭＢとなる。本実施形態で説明した手法を用いた場合、中間データサイズは加工前サイズに依らず一定となる。また本実施形態で説明した手法を用いた場合、オブジェクトを最大で２つメモリの内部に保持する必要があるが、そのデータサイズは単純な手法に比べて小さい。そして本実施形態で説明した手法を用いた場合、カーディナリティ推定オブジェクトを分散生成しても低メモリで容易にマージ可能であり、さらに分散ＩＤ化に共通のオブジェクトは不要である。

　以上から、本実施形態で説明した手法は、ログデータをそのまま使用した場合及び図５に示した単純な手法を用いた場合と比較して、保持するデータ量を抑制することができる。そして、本実施形態で説明した手法は、保持するデータ量を抑制したことにより、ログデータをそのまま使用した場合及び図５に示した単純な手法を用いた場合と比較して、計算量を抑制することができる。また、本実施形態で説明した手法は、解析に用いる言語モデルに適した語彙数に近くなる属性の組み合わせを選択することで、行動の特徴を多く含む組み合わせによってログデータを解析することができる。

　なお、上記各実施形態でＣＰＵがソフトウェア（プログラム）を読み込んで実行したログデータ解析処理を、ＣＰＵ以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、ＦＰＧＡ（Ｆｉｅｌｄ－Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）等の製造後に回路構成を変更可能なＰＬＤ（Ｐｒｏｇｒａｍｍａｂｌｅ　Ｌｏｇｉｃ　Ｄｅｖｉｃｅ）、及びＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、ログデータ解析処理を、これらの各種のプロセッサのうちの１つで実行してもよいし、同種又は異種の２つ以上のプロセッサの組み合わせ（例えば、複数のＦＰＧＡ、及びＣＰＵとＦＰＧＡとの組み合わせ等）で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。

　また、上記各実施形態では、ログデータ解析プログラムがストレージ１４に予め記憶（インストール）されている態様を説明したが、これに限定されない。プログラムは、ＣＤ－ＲＯＭ（Ｃｏｍｐａｃｔ　Ｄｉｓｋ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＤＶＤ－ＲＯＭ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｋ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、及びＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）メモリ等の非一時的（ｎｏｎ－ｔｒａｎｓｉｔｏｒｙ）記憶媒体に記憶された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。

　以上の実施形態に関し、更に以下の付記を開示する。

　（付記項１）
　メモリと、
　前記メモリに接続された少なくとも１つのプロセッサと、
　を含み、
　前記プロセッサは、
　ユーザの行動と、該行動に対応付けられた１以上の属性とが記されたログデータを取得し、
　前記ログデータの前記行動と、該行動に対応付けられた前記属性の組み合わせにおけるユニーク数とに基づいて、取得した前記ログデータの前記属性の組み合わせを選択し、
　選択した前記ログデータの前記属性の組み合わせを用いて、所定の言語モデルにより前記ログデータを解析する
　ように構成されているログデータ解析装置。

　（付記項２）
　ログデータ解析処理を実行するようにコンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、
　ログデータ解析処理は、
　ユーザの行動と、該行動に対応付けられた１以上の属性とが記されたログデータを取得し、
　前記ログデータの前記行動と、該行動に対応付けられた前記属性の組み合わせにおけるユニーク数とに基づいて、取得した前記ログデータの前記属性の組み合わせを選択し、
　選択した前記ログデータの前記属性の組み合わせを用いて、所定の言語モデルにより前記ログデータを解析する
　非一時的記憶媒体。

１０　ログデータ解析装置
１０１　取得部
１０２　選択部
１０３　解析部

Claims

　ユーザの行動と、該行動に対応付けられた１以上の属性とが記されたログデータを取得する取得部と、
　前記ログデータの前記行動と、該行動に対応付けられた前記属性の組み合わせにおけるユニークなデータの数とに基づいて、前記取得部が取得した前記ログデータの前記属性の組み合わせを選択する選択部と、
　前記選択部が選択した前記ログデータの前記属性の組み合わせを用いて、所定の言語モデルにより前記ログデータを解析する解析部と、
を備える、ログデータ解析装置。
　前記選択部は、前記属性の組み合わせ毎に、出現した行動の内容を用いて前記ユニークなデータの数を推定し、該推定の結果に基づいて前記属性の組み合わせを選択する請求項１記載のログデータ解析装置。
　前記選択部は、前記行動ごとに、前記解析部での解析における目標のレコード数を所定のルールに基づき割り当てる請求項１記載のログデータ解析装置。
　前記選択部は、前記行動ごとに、前記解析部での解析における目標のレコード数を等分する請求項３記載のログデータ解析装置。
　前記選択部は、前記行動ごとに、前記ユニークなデータの数の最大値の比率に基づいて、前記解析部での解析における目標のレコード数を割り当てる請求項３記載のログデータ解析装置。
　前記選択部は、前記ログデータの属性値をハッシュ化した状態で前記ユニークなデータの数を推定する請求項１記載のログデータ解析装置。
　プロセッサが、
　ユーザの行動と、該行動に対応付けられた１以上の属性とが記されたログデータを取得し、
　前記ログデータの前記行動と、該行動に対応付けられた前記属性の組み合わせにおけるユニーク数とに基づいて、取得した前記ログデータの前記属性の組み合わせを選択し、
　選択した前記ログデータの前記属性の組み合わせを用いて、所定の言語モデルにより前記ログデータを解析する
処理を実行する、ログデータ解析方法。
　コンピュータを、請求項１～請求項６の何れか１項記載のログデータ解析装置として機能させるための、ログデータ解析プログラム。