WO2022153449A1

WO2022153449A1 - 推定方法、推定装置及び推定プログラム

Info

Publication number: WO2022153449A1
Application number: PCT/JP2021/001080
Authority: WO
Inventors: 崇志藤波; 方邦石井; 俊孝槇; 久美子大森
Original assignee: 日本電信電話株式会社
Priority date: 2021-01-14
Filing date: 2021-01-14
Publication date: 2022-07-21

Abstract

推定装置（２０）は、広告主のWebサイトのアクセスログである第１アクセスログと、広告主の広告が掲載されるWebサイトのアクセスログである第２アクセスログを取得する取得部（２３１）と、第１アクセスログと第２アクセスログとを基に、Webサイトに掲載される広告の効果の有無を推定する推定部（２３５）と、有する。

Description

推定方法、推定装置及び推定プログラム

　本発明は、推定方法、推定装置及び推定プログラムに関する。

　インターネット上における広告に対するユーザの行動を把握する手段として、コンバージョントラッキングがある（例えば、非特許文献１参照）。コンバージョンとして定義する内容をアプリケーションダウンロードや、広告主のウェブサイトからのe-mailでの問い合わせや製品の購入などとすることで、広告主は広告の効果を把握することができる。

About　conversion　tracking　-　Google　Ads　Help,　About　conversion　tracking,　［online］，［令和２年１２月２日検索］、インターネット＜ＵＲＬ：https://support.google.com/google-ads/answer/1722022?hl=en＞

　コンバージョントラッキングは、cookieを用いて行われることが一般である。しかしながら、全世界的なプライバシーに対する意識の高まりを受け、スマートフォンのプラットフォームにおけるサードパーティーのcookieの制限や、cookieも含まれうる、個人情報ないし個人関連情報の法令による規制も検討されている。このため、cookieによらず、広告主に広告の効果を把握させるための手段が期待されている。

　本発明は、上記に鑑みてなされたものであって、cookieを用いずに広告の効果の有無を推定することができる推定方法、推定装置及び推定プログラムを提供することを目的とする。

　上述した課題を解決し、目的を達成するために、本発明に係る推定方法は、推定装置が実行する推定方法であって、広告主のWebサイトのアクセスログである第１アクセスログを取得する工程と、広告主の広告が掲載されるWebサイトのアクセスログである第２アクセスログを取得する工程と、第１アクセスログと第２アクセスログとを基に、Webサイトに掲載される広告の効果の有無を推定する工程と、を含んだことを特徴とする。

　本発明によれば、cookieを用いずに広告の効果の有無を推定することができる。

図１は、実施の形態に係る推定方法の概略を説明する図である。図２は、実施の形態における推定システムの構成の一例を示すブロック図である。図３は、推定システムの処理の流れを説明する図である。図４は、図２に示す学習装置の構成の一例を示すブロック図である。図５は、学習データの作成を説明する図である。図６は、図４に示す学習装置が実行する学習処理を示すフローチャートである。図７は、図２に示す推定装置の構成の一例を示すブロック図である。図８は、図７に示す推定装置が実行する推定処理を示すフローチャートである。図９は、推定システムの他の処理の流れを説明する図である。図１０は、分類処理の精度評価を示す図である。図１１は、分類処理の精度評価を示す図である。図１２は、分類処理の精度評価を示す図である。図１３は、分類処理の精度評価を示す図である。図１４は、特徴量の分類精度に対する影響度を示す図である。図１５は、プログラムが実行されることにより、学習装置及び推定装置が実現されるコンピュータの一例を示す図である。

　以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。

［実施の形態］
　本発明の実施の形態について説明する。図１は、実施の形態に係る推定方法の概略を説明する図である。

　図１に示すように、実施の形態に係る推定方法では、Webサイトに掲載された広告の効果を、広告主のWebサイトのアクセスログである第１アクセスログＬ１と、広告主の広告が掲載されるWebサイトのアクセスログである第２アクセスログＬ２とを基に推定する。例えば、広告主側のＷｅｂサイトの特定のページにアクセスしたことが条件となる。より具体的には、資料請求したとか購入したとかいうのを、広告主側の資料請求ページや購入完了ページにアクセスしたことを条件としてもよい。なお、アクセスログは、一つずつのログも含む場合もあるほか、複数のログの集合を含む場合もある。

　具体的には、実施の形態では、図１に示すように、第１アクセスログＬ１の任意の１アクセスに対応するログと第２アクセスログＬ２の任意の１アクセスに対応するログとをペアリングしたログのペアを作成する（図１の（１）参照）。例えば、第１アクセスログＬ１の２行目のログと第２アクセスログＬ２の２行目のログとをペアリングする。そして、実施の形態では、分類器を用いて、ログのペアが同じユーザによるアクセスログであるか否かを、ログのペアごとに分類する。（図１の（２）参照）。

　続いて、実施の形態では、この分類結果を基に、広告の効果の有無を推定する（図１の（３）参照）。例えば、実施の形態では、ログのペアが同じユーザによるアクセスログであると分類された場合には、広告の効果があると推定する。このように、実施の形態によれば、cookieを用いずに広告の効果の有無を推定することができる。

［推定システムの構成］
　続いて、実施の形態に係る推定システムの構成を説明する。図２は、実施の形態における推定システムの構成の一例を示すブロック図である。

　図２に示すように、実施の形態に係る推定システムは、広告主のサーバ装置３０－１と、広告主の広告を掲載する広告掲載事業者のサーバ装置３０－２と通信を行う広告主の広告の効果の有無を推定する推定装置２０を有する。また、推定装置２０が使用する分類モデルは、学習装置１０によって作成される。なお、図１に示す構成は一例にすぎず、具体的な構成や各装置の数は特に限定されない。

　広告主のサーバ装置３０－１は、広告主のWebサイトを管理するサーバ装置である。サーバ装置３０－１は、広告主のWebサイトに対するユーザからのアクセス情報を記録した第１アクセスログを保持し、推定装置２０に適宜送信する。なお、第１アクセスログは、例えば、コンバージョンタグやリターゲティングタグが貼られた外部サイトのアクセスログであってもよい。

　広告掲載事業者のサーバ装置３０－２は、広告主の広告のWebサイトへの掲載を管理するサーバ装置である。サーバ装置３０－２は、広告主の広告が掲載されるWebサイトWebサイトに対するユーザからのアクセス情報を記録した第２アクセスログを保持し、推定装置２０に適宜送信する。

　推定装置２０は、広告主のWebサイトのアクセスログである第１アクセスログと、広告主の広告が掲載されるWebサイトのアクセスログである第２アクセスログとを基に、Webサイトに掲載された広告の効果の有無を推定する。

　学習装置１０は、推定装置２０が使用する分類モデルを、機械学習を用いて作成する。推定システムの処理を、分類モデルを作成する学習フェーズと、広告の効果の有無を推定する推定フェーズに分けて説明する。まず、学習装置１０を、学習フェーズにおける処理の流れとともに説明する。なお、本実施の形態においては、機械学習を用いる手法について説明を行うが、本発明は2つのアクセスログが同一のユーザによるアクセスかを分類することができれば機械学習以外の手法を用いてもよい。

［学習装置］
　図３は、推定システムの処理の流れを説明する図である。図４は、図２に示す学習装置１０の構成の一例を示すブロック図である。学習の流れについて概略を記載する。まず、広告掲載サイトと広告主のサイトそれぞれのアクセスログからbotと思われるログを削除する。その後、同一ユーザのアクセスによると想定されるログのペアには同一ユーザのラベルを付与し、同一ユーザのアクセスではないと想定されるログのペアには非同一ユーザのラベルを付与し、学習データとして学習を行う。

　図４に示すように、学習装置１０は、各種情報に関する通信を制御する通信部１１、制御部１３による各種処理に必要なデータ及びプログラムを格納する記憶部１２、及び、種々の処理を実行する制御部１３を有する。

　通信部１１は、ネットワーク等を介して接続された他の装置との間で、各種情報を送受信する通信インタフェースである。通信部１１は、ＮＩＣ（Network　Interface　Card）等で実現され、ＬＡＮ（Local　Area　Network）やインターネットなどの電気通信回線を介した他の装置と制御部１３（後述）との間の通信を行う。例えば、通信部１１は、ネットワークを介して、サーバ装置３０－１，３０－２から、第１アクセスログ及び第２アクセスログを受信する。

　記憶部１２は、ＨＤＤ（Hard　Disk　Drive）、ＳＳＤ（Solid　State　Drive）等の記憶装置である。なお、記憶部１２は、ＲＡＭ（Random　Access　Memory）、フラッシュメモリ、ＮＶＳＲＡＭ（Non　Volatile　Static　Random　Access　Memory）等のデータを書き換え可能な半導体メモリであってもよい。記憶部１２は、学習装置１０で実行されるＯＳ（Operating　System）や各種プログラムを記憶する。さらに、記憶部１２は、プログラムの実行で用いられる各種情報を記憶する。

　記憶部１２は、サーバ装置３０－１から受信した学習用の第１アクセスログ１２１、サーバ装置３０－２から受信した学習用の第２アクセスログ１２２、及び、学習データ作成部１３３（後述）によって作成された学習データ１２３を記憶する。

　制御部１３は、学習装置１０全体を制御する。制御部１３は、例えば、ＣＰＵ（Central　Processing　Unit）、ＭＰＵ（Micro　Processing　Unit）等の電子回路や、ＡＳＩＣ（Application　Specific　Integrated　Circuit）、ＦＰＧＡ（Field　Programmable　Gate　Array）等の集積回路である。また、制御部１３は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、内部メモリを用いて各処理を実行する。また、制御部１３は、各種のプログラムが動作することにより各種の処理部として機能する。

　制御部１３は、取得部１３１、除去部１３２、学習データ作成部１３３、学習部１３４を有する。取得部１３１、除去部１３２、学習データ作成部１３３及び学習部１３４は、推定装置２０が使用する分類モデルを作成するために、以降の処理を実行する。

　取得部１３１は、第１アクセスログを取得する。図３の第１アクセスログＬ１ｓに示すように、第１アクセスログは、アクセス元のユーザのＩＰアドレス及びアクセス元のユーザが使用するアクセス回線の種別を含む。取得部１３１は、第２アクセスログを取得する。図３の第２アクセスログＬ２ｓに示すように、第２アクセスログは、アクセス元のユーザのＩＰアドレス及びアクセス元のユーザが使用するアクセス回線の種別を含む。

　除去部１３２は、取得部１３１が取得した第１アクセスログＬ１ｓ及び第２アクセスログＬ２ｓに対し、データのフィルタリングを行う（図３の（１－１），（１－２））。具体的には、除去部１３２は、第１アクセスログＬ１ｓ及び第２アクセスログＬ２ｓから、不正プログラムであるbotに相当するアクセスログを除去する。除去部１３２は、例えば、アクセス数が多いＩＰアドレスを、botとして除去する。具体的には、除去部１３２は、アクセス数が多いＩＰアドレスのうち、上位１０％をbotとして除去する。なお、除去する割合は、適宜設定すればよい。また、除去部１３２は、例えば、不正アクセス検知機能を用いてbotを検知してもよい。なお、botを除去する構成は必須ではなく、省略してもよいが、後述するようにbotを除去したほうが精度の向上を見込むことができる。

　学習データ作成部１３３は、除去部１３２がbotを除去した第１アクセスログ及び第２アクセスログを基に、ログのペアが同じユーザによるアクセスログであるか否かを分類する分類モデル１３４１（後述）の学習に使用する学習データを作成する。

　学習データは、同じユーザによる広告主のWebサイトのアクセスログと広告主の広告が掲載されるWebサイトのアクセスログとを組み合わせたログのペアと、異なるユーザによる広告主のWebサイトのアクセスログと広告主の広告が掲載されるWebサイトのアクセスログとを組み合わせたログのペアとである。言い換えると、学習データは、第１アクセスログＬ１ｓの任意の１アクセスに対応するログと、第２アクセスログＬ２ｓの任意の１アクセスに対応するログとをペアリングしたログのペアに、そのログが同じユーザによるアクセスログであるか否かを示すラベルを付したものである。

　学習データ作成部１３３は、アクセス元のユーザのＩＰアドレス及びアクセス元のユーザが使用するアクセス回線の種別を特徴量としたログのペアの特徴ベクトルを学習データＤｓとして作成し、学習部１３４に出力する（図３の（１－３））。なお、アクセス元の回線の「類似度」を採用する理由は、アクセス元回線種別のデータでは、同じＩＰアドレスに複数の回線種別候補が紐づけられている場合がある。例えば、ペアリングした片方の回線種別がＡ、もう片方の回線種別候補がＡ及びＢだった場合、一致しないが類似度は高いとみなせる場合があるため、一致ではなく類似度を用いる。なお、アクセス元回線種別に入るパラメータが完全に統一されている場合、類似度に代えて一致するか否かを用いてもよい。また、特徴量の作成例を示す。例えば、ペアのIPアドレスが一致する場合は「1」,しない場合は「0」を割り当てればよい。この場合、ペアのアクセス回線をjaccard係数などで測った類似度を用いればよい。また、類似度は、jaccard係数に限定される必要はなく、距離を測ることができる指標であれば、他の指標でもよい。また、アクセス回線の類似度ではなく、アクセス回線の種別ごとに割り当てた符号を用いてもよい。

　学習データの作成について説明する。図５は、学習データの作成を説明する図である。まず、学習データ作成部１３３は、第１アクセスログＬ１ｓと、第２アクセスログＬ２ｓとを取得する。そして、学習データ作成部１３３は、useridが一致するペアを取り出してベアリングすることで、「正例（ログのペアが同じユーザによるアクセスログであるもの）」の学習データを作成する。また、学習データ作成部１３３は、正例のペアを組み替えてuseridが異なるものをペアリングすることで「負例（ログのペアが同じユーザによるアクセスログでないもの）」の学習データを作成する。これによって、学習データＤｓが作成される。

　例えば、学習データ作成部１３３は、useridが一致する、第１アクセスログＬ１ｓのＩＰアドレス（ｉｐ）が「Ａ１ｉ」、アクセス元のUser　Agent（ｕａ）が「Ａ１ｕ」であるログと、第２アクセスログＬ２ｓのＩＰアドレスが「Ａ２ｉ」、ｕａが「Ａ２ｕ」であるログと、をペアリングした番号「１」のログのペアを「正例」とする。学習データ作成部１３３は、useridが異なる、第１アクセスログＬ１ｓのＩＰアドレスが「Ｅ１ｉ」、ｕａが「Ｅ１ｕ」であるログと、第２アクセスログＬ２ｓのＩＰアドレスが「Ｄ２ｉ」、ｕａが「Ｄ２ｕ」であるログと、をペアリングした番号「４」のログのペアを「負例」とする。ペアリングにあたっては、ＩＰアドレスが、広告掲示対象となる国（例えば、日本）であるログのみを使用してもよい。

　学習部１３４は、学習データ作成部１３３が作成した学習データを用いて、分類モデル１３４１の学習を行う。学習部１３４は、機械学習を用いて、分類モデル１３４１が「正例」のログのペアと「負例」のログのペアとを正しく分類できるように学習を行う（図３の（１－４））。分類モデル１３４１は、入力されたログのペアが同じユーザによるアクセスログであるか否かを分類するモデルである。学習部１３４は、分類モデル１３４１に、図５の学習データＤｓに例示するように、複数の「正例」のログのペアと「負例」のログのペアとを入力する。

　学習部１３４は、分類モデル１３４１による分類結果と正解ラベルとを基に、分類モデル１３４１のパラメータを更新する。学習部１３４は、所定の終了条件に達するまで、分類モデル１３４１による分類及び分類モデル１３４１のパラメータ更新を繰り返す。学習部１３４は、所定の終了条件に達した場合、推定装置２０が広告の効果を推定できるように、作成した分類モデル１３４１を推定装置２０に出力する（図３の（２））。

［学習処理］
　図６は、図４に示す学習装置１０が実行する学習処理を示すフローチャートである。図６に示すように、学習装置１０では、取得部１３１が、学習対象の第１アクセスログを取得し（ステップＳ１）、学習対象の第２アクセスログを取得する（ステップＳ２）。除去部１３２は、第１アクセスログ及び第２アクセスログから、不正プログラムであるbotに相当するアクセスログを除去する（ステップＳ３）。

　学習データ作成部１３３は、除去部１３２がbotを除去した第１アクセスログ及び第２アクセスログを基に、分類モデル１３４１の学習に使用する学習データを作成する（ステップＳ４）。そして、学習部１３４は、学習データ作成部１３３が作成した学習データを用いて、分類モデル１３４１の学習を行う学習処理を実行する（ステップＳ５）。

［推定装置］
　次に、図３及び図７を参照して、推定装置２０を、推定フェーズにおける処理の流れとともに説明する。図７は、図２に示す推定装置２０の構成の一例を示すブロック図である。

　図７に示すように、推定装置２０は、各種情報に関する通信を制御する通信部２１、制御部２３による各種処理に必要なデータ及びプログラムを格納する記憶部２２、及び、種々の処理を実行する制御部２３を有する。

　通信部２１は、ネットワーク等を介して接続された他の装置との間で、各種情報を送受信する通信インタフェースである。通信部２１は、ＮＩＣ等で実現され、ＬＡＮやインターネットなどの電気通信回線を介した他の装置と制御部２３（後述）との間の通信を行う。例えば、通信部２１は、ネットワークを介して、サーバ装置３０－１，３０－２から、第１アクセスログ及び第２アクセスログを受信する。通信部２１は、学習装置１０から、学習済みの分類モデルを受信する。

　記憶部２２は、ＨＤＤ、ＳＳＤ等の記憶装置である。なお、記憶部２２は、ＲＡＭ、フラッシュメモリ、ＮＶＳＲＡＭ等のデータを書き換え可能な半導体メモリであってもよい。記憶部２２は、推定装置２０で実行されるＯＳや各種プログラムを記憶する。さらに、記憶部２２は、プログラムの実行で用いられる各種情報を記憶する。

　記憶部２２は、サーバ装置３０－１から受信した推定対象となる第１アクセスログ２２１、サーバ装置３０－２から受信した推定対象となる第２アクセスログ２２２、推定用データ作成部３３３（後述）によって作成された推定データ２２３、及び、推定部２３５による広告の効果に関する推定結果２２４を記憶する。

　制御部２３は、推定装置２０全体を制御する。制御部２３は、例えば、ＣＰＵ、ＭＰＵ等の電子回路や、ＡＳＩＣ、ＦＰＧＡ等の集積回路である。また、制御部２３は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、内部メモリを用いて各処理を実行する。また、制御部２３は、各種のプログラムが動作することにより各種の処理部として機能する。

　制御部２３は、取得部２３１、除去部２３２、推定用データ作成部２３３、分類部２３４及び推定部２３５を有する。除去部２３２、推定用データ作成部２３３、分類部２３４及び推定部２３５は、Webサイトの広告の効果の有無を推定するために、以降の処理を実行する。

　取得部２３１は、推定対象の第１アクセスログを取得する。図３の第１アクセスログＬ１ｅに示すように、第１アクセスログは、アクセス元のユーザのＩＰアドレス及びアクセス元のユーザが使用するアクセス回線の種別を含む。取得部２３１は、第２アクセスログを取得する。図３の第２アクセスログＬ２ｅに示すように、第２アクセスログは、アクセス元のユーザのＩＰアドレス及びアクセス元のユーザが使用するアクセス回線の種別を含む。

　除去部２３２は、取得部２３１が取得した第１アクセスログ及び第２アクセスログに対し、データのフィルタリングを行う（図３の（３－１），（３－２））。除去部２３２は、除去部１３２と同様に、第１アクセスログＬ１ｓ及び第２アクセスログＬ２ｓから、不正プログラムであるbotに相当するアクセスログを除去する。

　推定用データ作成部２３３は、除去部２３２がbotを除去した第１アクセスログ及び第２アクセスログを基に、ログのペアが同じユーザによるアクセスログであるか否かを分類する分類モデル２３４１（後述）に入力する推定用データを作成する。

　推定用データ作成部２３３は、推定対象データとして、第１アクセスログの任意の１アクセスに対応するログと、第２アクセスログの任意の１アクセスに対応するログとを組み合わせたログのペアを作成する。推定用データ作成部２３３は、第１アクセスログＬ１ｓの任意の１アクセスに対応するログと、第２アクセスログＬ２ｓの任意の１アクセスに対応するログとをペアリングしたログのペアを推定用データとして作成する。推定用データ作成部２３３は、アクセス元のユーザのＩＰアドレス及びアクセス元のユーザが使用するアクセス回線の種別を特徴量としたログのペアの特徴ベクトルＤｅを作成し、分類部２３４に出力する（図３の（３－３））。

　分類部２３４は、推定用データ作成部２３３が作成した推定した推定用データ（ログのペアの特徴ベクトル）を、分類モデル２３４１に入力し、ログのペアが同じユーザによるアクセスログであるか否かを分類する（図３の（３－４））。分類モデル２３４１は、学習装置１０によって、入力されたログのペアが同じユーザによるアクセスログであるか否かの分類を学習した分類モデルである。分類部２３４は、分類モデル２３４１の分類結果Ｄｃを、推定部２３５に出力する。

　推定部２３５は、分類部２３４による分類結果Ｄｃを基に、広告の効果の有無を推定する（図３の（３－５））。具体的には、推定部２３５は、分類部２３４によって、ログのペアが同じユーザによるアクセスログであると分類された場合には、このペアを構成するログに対応する広告には、広告の効果があると推定する。例えば、第２アクセスログに対応するログで示された広告には、広告の効果があると推定する。

［推定処理］
　図８は、図７に示す推定装置２０が実行する推定処理を示すフローチャートである。図８に示すように、推定装置２０では、取得部２３１が、推定対象の第１アクセスログを取得し（ステップＳ１１）、推定対象の第２アクセスログを取得する（ステップＳ１２）。除去部２３２は、第１アクセスログ及び第２アクセスログから、不正プログラムであるbotに相当するアクセスログを除去する（ステップＳ１３）。

　推定用データ作成部２３３は、除去部２３２がbotを除去した第１アクセスログ及び第２アクセスログを基に、分類モデル１３４１に入力する推定用データを作成する（ステップＳ１４）。推定用データ作成部２３３は、推定対象データとして、第１アクセスログの任意の１アクセスに対応するログと、第２アクセスログの任意の１アクセスに対応するログとを組み合わせたログのペアを作成する。

　分類部２３４は、推定用データ作成部２３３が作成した推定した推定用データ（ログのペアの特徴ベクトル）を、分類モデル２３４１に入力し、ログのペアが同じユーザによるアクセスログであるか否かを分類する（ステップＳ１５）。

　推定部２３５は、分類部２３４による分類結果を基に、広告の効果の有無を推定する（ステップＳ１６）。そして、推定部２３５は、広告の効果に対する推定結果を外部装置（例えば、広告主側のサーバ装置３０－１）に出力する（ステップＳ１７）。

［実施の形態の効果］
　このように、実施の形態に係る推定装置２０は、広告主のWebサイトのアクセスログである第１アクセスログと、広告主の広告が掲載されるWebサイトのアクセスログである第２アクセスログとを基に、広告の効果の有無を推定するため、cookieを用いずに広告の効果の有無を推定することができる。

　また、実施の形態では、特徴量の中で、Webサイトへのアクセスに関し、影響力の高いアクセス元のユーザのＩＰアドレス及びアクセス元のユーザが使用するアクセス回線の種別を特徴量として推定を行うため、適切に広告の効果の有無を推定することができる。

　また、実施の形態では、不正プログラムであるbotに相当するアクセスログを除去した第１アクセスログ及び第２アクセスログを基に、広告の効果の有無を推定するため、広告の効果を適正に推定することができる。

　また、本実施の形態では、推定対象データとして、第１アクセスログの任意の１アクセスに対応するログと、第２アクセスログの任意の１アクセスに対応するログとを組み合わせたログのペアごとに、ログのペアが同じユーザによるアクセスログであるか否かを分類した結果を基に広告の効果の有無を推定するため、１アクセス単位で広告の効果を詳細に推定することができる。

　また、本実施の形態では、予め、ログのペアが同じユーザによるアクセスログであるか否かの分類を学習した分類モデルを用いて、推定を行うため、一定の推定精度を保持することが可能である。

　なお、本実施の形態では、アクセス元のユーザのＩＰアドレス及びアクセス元のユーザが使用するアクセス回線の種別に加え、他の特徴量を用いてもよい。図９は、推定システムの他の処理の流れを説明する図である。

　図９の推定対象である第１アクセスログＬ１ｅ及び第２アクセスログＬ２ｅに示すように、アクセスログに含まれる、アクセス元のユーザのＩＰアドレス及びアクセス元のユーザが使用するアクセス回線の種別に加え、アクセス日時、アクセス元User　Agent、位置情報ラベルを特徴量として用いてもよい。

　この場合も同様に、学習フェーズでは、学習装置１０が、アクセス元のユーザのＩＰアドレス及びアクセス元のユーザが使用するアクセス回線の種別、アクセス日時、アクセス元User　Agent、位置情報ラベルを含む第１アクセスログＬ１ｓ´、第２学セスログＬ２ｓ´に対し、データのフィルタリングを行う（図９の（１－１），（１－２））。学習装置１０は、第１アクセスログＬ１ｓの任意の１アクセスに対応するログと、第２アクセスログＬ２ｓの任意の１アクセスに対応するログとをペアリングしたログのペアの特徴ベクトルに、ラベルを付した学習データＤｓ´を作成する（図９の（１－３））。そして、学習装置１０は、学習データを用いて、分類モデル１３４１の学習を行い（図９の（１－４））、推定装置２０に学習済みの分類モデルを出力する（図９の（２））。

　推定フェーズでは、推定装置２０は、アクセス元のユーザのＩＰアドレス及びアクセス元のユーザが使用するアクセス回線の種別、アクセス日時、アクセス元User　Agent、位置情報ラベルを含む、推定対象の第１アクセスログＬ１ｅ´及び第２アクセスログＬ２ｅ´に対し、データのフィルタリングを行う（図９の（３－１），（３－２））。推定装置２０は、第１アクセスログＬ１ｓの任意の１アクセスに対応するログと、第２アクセスログＬ２ｓの任意の１アクセスに対応するログとをペアリングしたログのペアの特徴ベクトルＤｅ´を作成する（図９の（３－３））。

　そして、推定装置２０は、ログのペアの特徴ベクトルを、分類モデル２３４１に入力し、ログのペアが同じユーザによるアクセスログであるか否かを分類し（図９の（３－４））、分類結果Ｄｃを基に、広告の効果の有無を推定する（図９の（３－５））。

［評価結果］
　実際に、本実施の形態に係る推定方法のうち、分類処理の精度評価を行った。分析対象として、広告主の広告が掲載されるWebサイトについては、2020/6/1～2020/7/1、広告主のWebサイトのアクセスログは2020/7/1のアクセスログを用いた。具体的には、ある１日に外部サイトにアクセスした人が、直近１か月間に広告が掲載されるWebサイトにアクセスしていたかどうかを照合するイメージである。そして、botと推測されるアクセスログが散見されたため、bot除去について以下の３パターンで徐好分析を行った。第１パターンは、bot除去を行わないパターンであり、第２パターンは、アクセス数の多いＩＰアドレス上位１０％をbotとみなして除去するパターンであり、第３パターンは、アクセス数の多いＩＰアドレス上位２０％をbotとみなして除去するパターンである。

　図１０～図１３は、分類処理の精度評価を示す図である。図１０及び図１２では、第１～第３のパターンに分けて、再現率、適合率及びＦ値を評価した。また、図１１及び図１３は、User　Agentごとに第１～第３のパターンに対応する分類処理のＦ値を示す図である。なお、図１１において、User　Agentについては、上位のUser　Agent別の分析結果と、全てのUser　Agentを統合した分析結果を示す。

　図１０及び図１１は、特徴量として、アクセス元のユーザのＩＰアドレス及びアクセス元のユーザが使用するアクセス回線の種別の２種を用いた場合を示す。図１２及び図１３は、アクセス元のユーザのＩＰアドレス及びアクセス元のユーザが使用するアクセス回線の種別に加え、アクセス日時、位置情報ラベルを特徴量として用いた場合を示す。

　図１０及び図１１に示すように、特徴量として、アクセス元のユーザのＩＰアドレス及びアクセス元のユーザが使用するアクセス回線の種別の２種を用いた場合には、botの除去率を上位１０％に調整することによって、いずれのUser　Agentにおいても、Ｆ値を０．８以上に高めることができる。さらに、図１２及び図１３に示すように、特徴量として、特徴量として、アクセス元のユーザのＩＰアドレス及びアクセス元のユーザが使用するアクセス回線の種別に、アクセス日時、位置情報ラベルを加えることで、Ｆ値を０．８５以上まで高めることができ、さらに、User　Agentによっては、０．９７近くまで高めることができた。したがって、本実施の形態における方法において、分類精度は一定の精度を保持することが分かった。

　図１４は、特徴量の分類精度に対する影響度を示す図である。図１０～図１３では、botを除去しない第１パターンの結果が、他のパターンよりも分類精度が高い結果になっている。これは、図１４に示すように、特徴量の中でアクセス元のＩＰアドレスやアクセス元回線の影響が強いことによるものと考えられる。言い換えると、短期間に多くのアクセスをするbotは、ＩＰアドレスが変わらないことが多く、botを除去しない場合は、botがTrue　Positiveとなり精度を上げている可能性がある。そこで、本実施の形態では、少なくとも、分類精度に影響が高いアクセス元のユーザのＩＰアドレス及びアクセス元のユーザが使用するアクセス回線の種別を特徴量として用い、さらにbotを除去することで、適切な分類結果を出力できるようにしている。

　なお、本実施の形態では、広告の効果の有無を推定するために、Webサイトへのアクセスログを用いた場合を例に説明したが、アプリケーション内におけるログを用いることも可能である。

［システム構成等］
　図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部又は任意の一部が、ＣＰＵ及び当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

　また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部又は一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
　図１５は、プログラムが実行されることにより、学習装置１０及び推定装置２０が実現されるコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

　メモリ１０１０は、ＲＯＭ（Read　Only　Memory）１０１１及びＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

　ハードディスクドライブ１０９０は、例えば、ＯＳ（Operating　System）１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、学習装置１０及び推定装置２０の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、学習装置１０及び推定装置２０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid　State　Drive）により代替されてもよい。

　また、上述した実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して実行する。

　なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local　Area　Network）、ＷＡＮ（Wide　Area　Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

　以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例及び運用技術等は全て本発明の範疇に含まれる。

　１０　学習装置
　１１，２１　通信部
　１２，２２　記憶部
　１３，２３　制御部
　１２１，２２１　第１アクセスログ
　１２２，２２２　第２アクセスログ
　１２３　学習データ
　１３１，２３１　取得部
　１３２，２３２　除去部
　１３３　学習データ作成部
　１３４　学習部
　２３３　推定用データ作成部
　２３４　分類部
　２３５　推定部
　１３４１，２３４１　分類モデル

Claims

　推定装置が実行する推定方法であって、
　広告主のWebサイトのアクセスログである第１アクセスログを取得する工程と、
　前記広告主の広告が掲載されるWebサイトのアクセスログである第２アクセスログを取得する工程と、
　前記第１アクセスログと前記第２アクセスログとを基に、Webサイトに掲載される前記広告の効果の有無を推定する工程と、
　を含んだことを特徴とする推定方法。
　前記第１アクセスログ及び前記第２アクセスログは、少なくとも、アクセス元のユーザのＩＰアドレス及び前記アクセス元のユーザが使用するアクセス回線の種別を含むことを特徴とする請求項１に記載の推定方法。
　前記第１アクセスログ及び前記第２アクセスログから、不正プログラムであるbotに相当するアクセスログを除去する工程をさらに含み、
　前記推定する工程は、前記botが除去された前記第１アクセスログ及び前記第２アクセスログを基に、前記広告の効果の有無を推定することを特徴とする請求項１または２に記載の推定方法。
　推定対象データとして、前記第１アクセスログの任意の１アクセスに対応するログと、前記第２アクセスログの任意の１アクセスに対応するログとを組み合わせたログのペアを作成する工程と、
　前記ログのペアが同じユーザによるアクセスログであるか否かを分類する工程と、
　を含み、
　前記推定する工程は、前記分類する工程において、前記ログのペアが同じユーザによるアクセスログであると分類された場合には、前記広告の効果があると推定することを特徴とする請求項１～３のいずれか一つに記載の推定方法。
　前記分類する工程は、同じユーザによる前記広告主のWebサイトのアクセスログと前記広告主の広告が掲載されるWebサイトのアクセスログとを組み合わせたログのペアと、異なるユーザによる前記広告主のWebサイトのアクセスログと前記広告主の広告が掲載されるWebサイトのアクセスログとを組み合わせたログのペアと、を学習データとして、ログのペアが同じユーザによるアクセスログであるか否かの分類を学習した分類モデルを用いて分類を行うことを特徴とする請求項４に記載の推定方法。
　広告主のWebサイトのアクセスログである第１アクセスログと、前記広告主の広告が掲載されるWebサイトのアクセスログである第２アクセスログを取得する取得部と、
　前記第１アクセスログと前記第２アクセスログとを基に、Webサイトに掲載される前記広告の効果の有無を推定する推定部と、
　を有することを特徴とする推定装置。
　広告主のWebサイトのアクセスログである第１アクセスログを取得するステップと、
　前記広告主の広告が掲載されるWebサイトのアクセスログである第２アクセスログを取得するステップと、
　前記第１アクセスログと前記第２アクセスログとを基に、Webサイトに掲載される前記広告の効果の有無を推定するステップと、
　をコンピュータに実行させるための推定プログラム。