WO2015178219A1

WO2015178219A1 - 情報処理装置、情報処理方法、及び、プログラム

Info

Publication number: WO2015178219A1
Application number: PCT/JP2015/063269
Authority: WO
Inventors: 慎吾高松
Original assignee: ソニー株式会社
Priority date: 2014-05-22
Filing date: 2015-05-08
Publication date: 2015-11-26

Abstract

　本技術は、各ユーザに対して効果的に広告を提示することができるようにする情報処理装置、情報処理方法、及び、プログラムに関する。広告選択部は、ユーザに提示した広告の内容及び広告に対するユーザの反応結果に基づく学習サンプルと、学習サンプルによる更新対象となるパラメータとに基づく第１の確率に従って更新がスキップされるパラメータを用いて予測される各広告に対するユーザの反応に基づいて、ユーザに提示する広告を選択する。提示制御部は、選択された広告の提示を制御する。本技術は、例えば、広告サービスを提供するサーバに適用できる。

Description

情報処理装置、情報処理方法、及び、プログラム

　本技術は、情報処理装置、情報処理方法、及び、プログラムに関し、例えば、ウエブサイト等を用いた広告サービスに用いて好適な情報処理装置、情報処理方法、及び、プログラムに関する。

　従来、ウエブサイトやメール等を用いた広告サービスにおいて、各ユーザに効果的に広告を提示するために、各広告に対するユーザの反応率を予測する学習モデルが用いられている（例えば、特許文献１参照）。

特開２００２－１２３７３８号公報

　そのような学習モデルの精度を一定のレベル以上に維持するためには、定期的に学習処理を行い、学習モデルのパラメータを更新する必要がある。しかしながら、学習データのサンプル数が多くなると、学習時間が長くなり、要求時間内に処理が終わらないおそれがある。

　一方、学習時間を短縮するために単純に使用する学習データのサンプル数を減らすと、学習モデルの精度が低下するおそれがある。その結果、各ユーザに対して効果的に広告を提示することが困難になる。

　本技術はこのような状況に鑑みてなされたものであり、各ユーザに対して効果的に広告を提示できるようにするものである。また、学習モデルの精度の低下を抑制しつつ、学習モデルのパラメータの更新処理を高速化できるようにするものである。

　本技術の第１の側面の情報処理装置は、ユーザに提示した広告の内容及び前記広告に対する前記ユーザの反応結果に基づく学習サンプルと、前記学習サンプルによる更新対象となるパラメータとに基づく第１の確率に従って更新がスキップされる前記パラメータを用いて予測される各広告に対する前記ユーザの反応に基づいて、前記ユーザに提示する広告を選択する広告選択部と、選択された広告の提示を制御する提示制御部とを備える。

　前記学習サンプルには、前記ユーザに提示した広告の内容に基づく特徴量を含む特徴量ベクトル、及び、前記広告に対する前記ユーザの反応結果を示すラベルを含ませることができ、前記パラメータを用いて各広告に対する前記ユーザの反応を予測する学習モデルのオンライン学習を行うとともに、前記第１の確率に従って前記パラメータの更新をスキップする一方、スキップせずに前記パラメータの更新を行う場合、前記第１の確率に応じて前記パラメータの更新幅を補正する学習部をさらに設けることができる。

　前記学習部には、前記学習サンプルに含まれる前記特徴量ベクトルを前記学習モデルに与えることにより得られる前記ユーザの反応の予測結果と前記学習サンプルに含まれる前記ラベルとの差に基づく前記第１の確率に従って前記パラメータの更新をスキップさせることができる。

　前記学習部には、前記第１の確率が高いほど補正後の値が大きくなるように前記パラメータの更新幅を補正させることができる。

　前記学習モデルには、複数の前記パラメータを用いることができ、前記学習部には、更新回数が多いほど高くなる第２の確率に従って前記パラメータ毎に個別に更新をスキップする一方、スキップせずに更新する前記パラメータの更新幅を前記第２の確率に応じて補正させることができる。

　前記学習部には、前記第２の確率が高いほど補正後の値が大きくなるように前記パラメータの更新幅を補正させることができる。

　前記広告選択部には、前記ユーザにより入力される検索クエリと各広告に設定されたキーワードとの一致度、及び、前記パラメータを用いて予測される前記ユーザの反応に基づいて、前記ユーザに提示する広告を選択させることができる。

　本技術の第１の側面の情報処理方法は、ユーザに提示した広告の内容及び前記広告に対する前記ユーザの反応結果に基づく学習サンプルと、前記学習サンプルによる更新対象となるパラメータとに基づく第１の確率に従って更新がスキップされる前記パラメータを用いて予測される各広告に対する前記ユーザの反応に基づいて、前記ユーザに提示する広告を選択する広告選択ステップと、選択された広告の提示を制御する提示制御ステップとを含む。

　本技術の第１の側面のプログラムは、ユーザに提示した広告の内容及び前記広告に対する前記ユーザの反応結果に基づく学習サンプルと、前記学習サンプルによる更新対象となるパラメータとに基づく第１の確率に従って更新がスキップされる前記パラメータを用いて予測される各広告に対する前記ユーザの反応に基づいて、前記ユーザに提示する広告を選択する広告選択ステップと、選択された広告の提示を制御する提示制御ステップとを含む。

　本技術の第２の側面の情報処理装置は、更新回数が多いほど高くなる確率に従って個別にスキップしながら更新される複数のパラメータを用いて予測される各広告に対する前記ユーザの反応に基づいて、前記ユーザに提示する広告を選択する広告選択部と、選択された広告の提示を制御する提示制御部とを備える。

　複数の前記パラメータを用いて各広告に対する前記ユーザの反応を予測する学習モデルのオンライン学習を行うとともに、前記確率に従って前記パラメータ毎に個別に更新をスキップする一方、スキップせずに更新する前記パラメータの更新幅を前記確率に応じて補正する学習部をさらに設けることができる。

　前記学習部には、前記確率が高いほど補正後の値が大きくなるように前記パラメータの更新幅を補正させることができる。

　本技術の第３の側面の情報処理装置は、所定のパラメータを用いた学習モデルのオンライン学習を行うとともに、前記オンライン学習に用いる学習サンプル及び前記パラメータに基づく確率に従って前記学習サンプルを用いた前記パラメータの更新をスキップする一方、スキップせずに前記パラメータの更新を行う場合に、前記確率に応じて前記パラメータの更新幅を補正する学習部を備える。

　前記学習部には、前記学習サンプルに含まれる特徴量ベクトルを前記学習モデルに与えることにより得られる予測結果と前記学習サンプルに含まれるラベルとの差に基づく前記確率に従って前記パラメータの更新をスキップさせることができる。

　前記学習モデルを用いた予測処理を行う情報処理部をさらに設けることができる。

　本技術の第４の側面の情報処理装置は、複数のパラメータを用いた学習モデルのオンライン学習を行うとともに、更新回数が多いほど高くなる確率に従って前記パラメータ毎に個別に更新をスキップする一方、スキップせずに更新する前記パラメータの更新幅を前記確率に応じて補正する学習部を備える。

　本技術の第４の側面の情報処理方法は、複数のパラメータを用いた学習モデルのオンライン学習を行うとともに、更新回数が多いほど高くなる確率に従って前記パラメータ毎に個別に更新をスキップする一方、スキップせずに更新する前記パラメータの更新幅を前記確率に応じて補正する学習ステップを含む。

　本技術の第１の側面においては、ユーザに提示した広告の内容及び前記広告に対する前記ユーザの反応結果に基づく学習サンプルと、前記学習サンプルによる更新対象となるパラメータとに基づく第１の確率に従って更新がスキップされる前記パラメータを用いて予測される各広告に対する前記ユーザの反応に基づいて、前記ユーザに提示する広告が選択され、選択された広告の提示が制御される。

　本技術の第２の側面においては、更新回数が多いほど高くなる確率に従って個別にスキップしながら更新される複数のパラメータを用いて予測される各広告に対する前記ユーザの反応に基づいて、前記ユーザに提示する広告が選択され、選択された広告の提示が制御される。

　本技術の第３の側面においては、所定のパラメータを用いた学習モデルのオンライン学習が行われるとともに、前記オンライン学習に用いる学習サンプル及び前記パラメータに基づく確率に従って前記学習サンプルを用いた前記パラメータの更新がスキップされる一方、スキップせずに前記パラメータの更新を行う場合に、前記確率に応じて前記パラメータの更新幅が補正される。

　本技術の第４の側面においては、複数のパラメータを用いた学習モデルのオンライン学習が行われるとともに、更新回数が多いほど高くなる確率に従って前記パラメータ毎に個別に更新がスキップされる一方、スキップせずに更新する前記パラメータの更新幅が前記確率に応じて補正される。

　本技術の第１の側面又は第２の側面によれば、各ユーザに対して効果的に広告を提示することができる。

　また、本技術の第３の側面又は第４の側面によれば、学習モデルの精度の低下を抑制しつつ、学習モデルのパラメータの更新処理を高速化することができる。その結果、例えば、各ユーザに対して効果的に広告を提示することができる。

　なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

本技術を適用した情報処理システムの一実施の形態を示すブロック図である。検索画面の例を単純化した図である。検索クエリに連動してユーザに広告を提示する場合の処理を説明するためのフローチャートである。学習処理を説明するためのフローチャートである。第２の学習アルゴリズムを説明するためのフローチャートである。第３の学習アルゴリズムを説明するためのフローチャートである。第４の学習アルゴリズムを説明するためのフローチャートである。コンピュータの構成例を示すブロック図である。

　以下、本技術を実施するための形態（以下、実施の形態という）について説明する。なお、説明は以下の順序で行う。
１．実施の形態
２．変形例

＜１．第１の実施の形態＞
｛情報処理システム１の構成例｝
　図１は、本技術を適用した情報処理システム１の一実施の形態を示している。

　情報処理システム１は、検索サービス、及び、検索クエリ連動型のディスプレイ広告をユーザに提供するシステムである。情報処理システム１は、サーバ１１及びクライアント１２を含むように構成される。

　なお、図１では、サーバ１１を１つの装置で構成した例を示しているが、複数の装置で構成することも可能である。また、図１では、図を分かりやすくするために、クライアント１２を１つのみ図示しているが、実際には、情報処理システム１は、複数のクライアントを含む。さらに、図示を省略しているが、サーバ１１とクライアント１２とは、例えば、インターネット等のネットワークを介して通信を行う。

　サーバ１１は、例えば、クライアント１２に対して検索サイトを提供し、検索サイトにおいてユーザが入力した検索クエリに関連するウエブサイトを検索し、検索結果をクライアント１２に提示させる。また、サーバ１１は、例えば、検索クエリに関連する広告を、検索結果とともにクライアント１２に提示させる。なお、検索クエリは、１つの単語、又は、２以上の単語の組み合わせからなる。

　サーバ１１は、入札部２１、広告データベース２２、広告選択部２３、検索サービス提供部２４、学習サンプルデータベース２５、課金部２６、及び、学習部２７を含むように構成される。

　入札部２１は、広告主からの入札内容を示す広告入札エントリを広告データベース２２に登録する。また、入札部２１は、広告主からの取り消し依頼に応じて、入札部２１に登録されている広告入札エントリを消去する。広告入札エントリは、例えば、キーワード、広告掲載情報、及び、入札金額を含む。

　ここで、キーワードとは、広告主が各広告に対して設定する１つの単語、又は、１以上の単語の組み合わせである。そして、例えば、広告主が設定したキーワードとユーザが入力した検索クエリとの一致度（例えば、完全一致、部分一致等）が所定のレベル以上であり、かつ、所定の他の条件を満たす場合、そのキーワードが設定された広告がユーザに提示される。なお、以下、説明を簡単にするために、広告主が設定したキーワードとユーザが入力した検索クエリとが完全一致し、かつ、所定の他の条件を満たす場合のみ、そのキーワードが設定された広告がユーザに提示されるものとする。

　広告掲載情報は、広告主を一意に識別するための広告主ＩＤ、検索サイトの画面（以下、検索画面と称する）に表示する広告文である広告テキスト、及び、検索画面に表示した広告がユーザによりクリックされた場合の遷移先のウエブサイトのURL（Uniform Resource Locator）を含む。遷移先のウエブサイトには、例えば、広告主のウエブサイトや、広告主の商品やサービス等を紹介するウエブサイト等が設定される。また、例えば、広告テキスト以外に、検索画面に表示する画像データ等を広告掲載情報に含めることも可能である。

　入札金額は、検索画面に表示された広告がユーザによりクリックされる毎に広告主に課金される金額を示す。

　広告選択部２３は、ユーザにより入力された検索クエリを含む広告リスト要求情報が検索サービス提供部２４から供給された場合、検索クエリに関連する広告入札エントリを広告データベース２２から抽出する。また、広告選択部２３は、各広告に対するクリック率を予測するために学習部２７により構築される学習モデルを用いて、抽出した広告入札エントリの中からユーザへの提示に用いる広告入札エントリを選択する。広告選択部２３は、選択した広告入札エントリに含まれる広告掲載情報からなる広告リストを作成し、作成した広告リストを検索サービス提供部２４に供給する。

　検索サービス提供部２４は、クライアント１２からの要求に従って検索画面をクライアント１２に表示させる。また、検索サービス提供部２４は、検索画面において入力された検索クエリをクライアント１２から受信し、受信した検索クエリに関連するウエブサイトを検索する。そして、検索サービス提供部２４は、広告選択部２３から取得した広告リストを検索結果とともにクライアント１２に送信し、ユーザが入力した検索クエリに関連するウエブサイトの検索結果及び広告をユーザに提示するようにクライアント１２を制御する。

　また、検索サービス提供部２４は、検索画面に対するユーザの入力内容をクライアント１２から受信し、ユーザの入力内容に基づいて、検索画面に表示した広告をユーザがクリックしたか否かを判定する。そして、検索サービス提供部２４は、広告がクリックされた否かを示すラベル、及び、その広告の特徴を表す特徴量ベクトルを含む学習サンプルを作成し、学習サンプルデータベース２５に蓄積する。

　課金部２６は、定期的に学習サンプルデータベース２５の更新情報を取得し、広告データベース２２に登録されている広告入札エントリに基づいて、各広告主に請求する広告料を計算する。広告料は、例えば、各広告について、入札額×クリック回数により計算される。課金部２６は、計算した広告料を含む課金情報を各広告主に送信する。

　学習部２７は、定期的に所定量の学習サンプルを学習サンプルデータベース２５から取得し、学習モデルの学習を行う。学習部２７は、学習の結果得られた学習モデルのパラメータを広告選択部２３に供給する。

｛検索画面の例｝
　図２は、クライアント１２に表示される検索画面を単純化した例を示している。この検索画面内には、テキストボックス１０１、検索ボタン１０２、検索結果表示スペース１０３、及び、広告枠１０４が配置されている。

　テキストボックス１０１には、ユーザにより検索クエリが入力される。そして、検索ボタン１０２が押下されたとき、クライアント１２は、テキストボックス１０１に入力された検索クエリをサーバ１１に送信する。ここでは、検索クエリとして「テレビ」が入力された例が示されている。

　検索結果表示スペース１０３には、ユーザにより入力された検索クエリに関連するウエブサイトの検索結果が表示される。例えば、検索結果表示スペース１０３には、検索クエリに関連する各ウエブサイトのタイトル、URL、概要、内容の一部等が一覧表示される。

　広告枠１０４内には、ユーザにより入力された検索クエリに連動して提示する広告を表示するための広告表示スペース１０５ａ乃至１０５ｃが配置されている。広告表示スペース１０５ａ乃至１０５ｃには、ユーザにより入力された検索クエリに関連し、かつ、サーバ１１により選択された広告が表示される。

　なお、以下、広告表示スペース１０５ａ乃至１０５ｃを個々に区別する必要がない場合、単に広告表示スペース１０５と称する。

　ここで、広告枠１０４内に表示可能な広告数には限りがある。そこで、例えば、検索クエリに基づいて抽出された広告のうち、入札額×クリック率の値が高い順に所定数の広告が広告枠１０４に表示される。しかし、各広告のクリック率は事前に知ることができないため、クリック率を予測するための学習モデルが用いられる。

　このクリック率の予測精度は検索サービスの売り上げに大きく影響するため、より精度が高い学習モデルの構築し、クリック率の予測精度を上げ、各ユーザに効果的に広告を提示することが望まれる。従って、できる限り各ユーザの最新のクリック行動を学習モデルに反映させることが望ましい。そのためには、例えば、学習モデルのパラメータの更新頻度を上げたり、学習サンプルをより多く用いたりするのが望ましい。

　一方、学習モデルのパラメータの更新頻度を上げるほど、１回の学習処理に与えられる時間が短くなる。また、学習サンプル数が多くなるほど、１回の学習処理に要する時間が長くなる。

　そこで、サーバ１１は、以下に説明するように、学習モデルの精度の低下を抑制しつつ、学習モデルのパラメータの更新処理を高速化する。

｛情報処理システム１の処理｝
　ここで、図３乃至図７を参照して、情報処理システム１により実行される処理について説明する。

（検索クエリに連動した広告提示処理）
　まず、図３のフローチャートを参照して、情報処理システム１が、ユーザにより入力された検索クエリに連動して広告をユーザに提示する場合の処理について説明する。なお、この処理は、例えば、ユーザが図２の検索画面のテキストボックス１０１に検索クエリを入力し、検索ボタン１０２を押下したとき開始される。

　ステップＳ１において、クライアント１２は、ユーザにより入力された検索クエリをサーバ１１に送信する。

　ステップＳ２において、サーバ１１の検索サービス提供部２４は、クライアント１２が送信した検索クエリを受信する。

　ステップＳ３において、サーバ１１は、検索クエリに関連する広告入札エントリを抽出する。具体的には、検索サービス提供部２４は、クライアント１２から受信した検索クエリを含む広告リスト要求情報を生成し、広告選択部２３に供給する。

　広告選択部２３は、検索クエリに基づいて、所定の条件を満たす広告入札エントリを広告データベース２２から抽出する。例えば、広告選択部２３は、設定されているキーワードが検索クエリと完全一致する広告入札エントリを、広告データベース２２から抽出する。

　なお、検索クエリに基づいて広告入札エントリを抽出する条件は、上記以外の任意の条件に設定することが可能である。

　ステップＳ４において、広告選択部２３は、抽出した各広告入札エントリの特徴量ベクトルを作成する。

　ここで、広告選択部２３は、広告テキスト用単語辞書、キーワード辞書、及び、広告主ＩＤ辞書を予め保持している。なお、広告テキスト用単語辞書のエントリは、例えば、広告テキストに使用可能な単語である。キーワード辞書のエントリは、例えば、キーワードに使用することが可能な単語である。広告主ＩＤ辞書のエントリは、例えば、各広告主の広告主ＩＤである。また、例えば、同じ辞書内の各エントリを一意に識別できるように、辞書毎に各エントリに対して１から始まる連番がエントリＩＤとして割り振られている。

　そして、広告選択部２３は、各広告入札エントリについて、広告テキスト用単語辞書の各エントリ及びキーワード辞書の各エントリに対応する特徴量からなる特徴量ベクトルを生成する。

　具体的には、広告テキスト用単語辞書のエントリ数をｍ１、キーワード辞書のエントリ数をｍ２とした場合、特徴量ベクトルのｉ次元目（ただし、０≦ｉ≦ｍ１）の特徴量は、広告テキスト用単語辞書のエントリＩＤ＝ｉのエントリに対応する。そして、特徴量ベクトルのｉ次元目の特徴量の値は、広告テキスト用単語辞書のエントリＩＤ＝ｉのエントリと一致する単語が広告入札エントリ内の広告テキストに含まれる場合、１に設定され、含まれない場合、０に設定される。

　また、特徴量ベクトルのｍ１＋ｊ次元目（ただし、１≦ｊ≦ｍ２）の特徴量は、キーワード辞書のエントリＩＤ＝ｊのエントリに対応する。そして、特徴量ベクトルの（ｍ１＋ｊ）次元目の特徴量の値は、キーワード辞書のエントリＩＤ＝ｊのエントリと一致する単語が広告入札エントリ内のキーワードに含まれる場合、１に設定され、含まれない場合、０に設定される。

　従って、特徴量ベクトルは、各特徴量が０又は１の２値のいずれかに設定されたＭ（＝ｍ１＋ｍ２）次元のベクトルとなる。

　なお、以下、各広告入札エントリの特徴量を、その広告入札エントリに対応する広告の特徴量とも称する。

　ステップＳ５において、広告選択部２３は、学習モデルと特徴量ベクトルに基づいて、各広告に対するクリック率を予測する。すなわち、広告選択部２３は、クリック率を予測するための学習モデルに各広告入札エントリの特徴量ベクトルを与える。これにより、各広告入札エントリに対応する広告に対するクリック率の予測値（以下、クリック率予測値と称する）が算出される。なお、学習モデルの学習方法については後述する。

　ステップＳ６において、広告選択部２３は、入札額とクリック率予測値に基づいて、ユーザに提示する広告を選択する。具体的には、広告選択部２３は、各広告入札エントリについて、入札額×クリック率予測値を算出する。そして、広告選択部２３は、検索画面においてＮ個の広告を提示する場合、入札額×クリック率予測値の値が大きい方から順にＮ個の広告入札エントリ（に対応する広告）を選択する。

　ステップＳ７において、広告選択部２３は、広告リストを作成する。すなわち、広告選択部２３は、ステップＳ６の処理で選択した各広告入札リストに含まれる広告掲載情報からなる広告リストを作成する。広告選択部２３は、作成した広告リストを検索サービス提供部２４に供給する。

　ステップＳ８において、検索サービス提供部２４は、検索結果と広告リストをクライアント１２に送信する。すなわち、検索サービス提供部２４は、ユーザにより入力された検索クエリに関連するウエブサイトの検索結果、及び、広告選択部２３から供給された広告リストをクライアント１２に送信する。なお、ウエブサイトの検索結果には、例えば、検索クエリに関連するウエブサイトのタイトル、URL、概要、内容の一部等が含まれる。

　ステップＳ９において、クライアント１２は、ステップＳ８の処理でサーバ１１から送信された検索結果と広告リストを受信する。

　ステップＳ１０において、クライアント１２は、検索結果と広告をユーザに提示する。すなわち、クライアント１２は、図２の検索画面の検索結果表示スペース１０３に、サーバ１１から受信した検索結果を表示する。また、クライアント１２は、サーバ１１から受信した広告リスト内の広告掲載情報に含まれる広告テキスト及び遷移先のURLを、図２の検索画面の各広告表示スペース１０５に表示する。このとき、例えば、入札額×クリック率予測値の値が大きい広告ほど、画面内の上位の広告表示スペース１０５に表示される。

　ステップＳ１１において、クライアント１２は、検索画面に対するユーザ入力を取得する。

　ステップＳ１２において、クライアント１２は、ユーザ入力の内容を送信し、クライアント１２の処理は終了する。

　ステップＳ１３において、検索サービス提供部２４は、クライアント１２から送信されたユーザ入力の内容を受信する。

　ステップＳ１４において、検索サービス提供部２４は、学習サンプルを学習サンプルデータベース２５に蓄積し、サーバ１１の処理は終了する。具体的には、検索サービス提供部２４は、検索画面の各広告表示スペース１０５に表示した各広告について、当該広告がクリックされたか否かを示すラベルｙ、及び、当該広告の特徴量ベクトルＸからなる学習サンプル（ｙ，Ｘ）を生成する。

　ここで、検索サービス提供部２４は、クライアント１２から受信したユーザ入力の内容に基づいて、検索サイトの広告表示スペース１０５内の広告がユーザによりクリックされたと判定した場合、ラベルｙの値を１に設定する。一方、検索サービス提供部２４は、クライアント１２から受信したユーザ入力の内容に基づいて、検索サイトの広告表示スペース１０５内の広告がユーザによりクリックされることなく広告の表示が終了したと判定した場合、ラベルｙの値を０に設定する。

　そして、検索サービス提供部２４は、生成した学習サンプル（ｙ，Ｘ）を学習サンプルデータベース２５に蓄積する。

　このようにして、サーバ１１が提供する検索サービスを利用してユーザが検索を行う毎に、ユーザが入力した検索クエリに対応する広告がクライアント１２の検索画面に表示される。また、表示した広告がクリックされたか否かを示すラベルｙ、及び、当該広告の特徴量ベクトルＸを含む学習サンプル（ｙ，Ｘ）が蓄積される。

（学習処理）
　次に、図４のフローチャートを参照して、サーバ１１により実行される学習処理について説明する。なお、この学習処理は、例えば、所定の期間毎、又は、前回の学習処理からの学習サンプルの蓄積量が所定の閾値以上になる毎に実行される。

　ステップＳ５１において、学習部２７は、所定の数の学習サンプルを学習サンプルデータベース２５から読み込む。なお、以下、学習部２７が、最新のＮ個の学習サンプルを学習サンプルデータベース２５から読み込むものとする。また、以下、読み込んだ学習サンプルのうち古い方からｉ番目の学習サンプルを（ｙ_i,Ｘ_i）とする。従って、読み込んだ学習サンプルのうち、最も古い学習サンプルは（ｙ₁,Ｘ₁）となり、最新の学習サンプルは（ｙ_N,Ｘ_N）となる。

　ステップＳ５２において、学習部２７は、学習サンプルを用いて、学習モデルのパラメータを学習する。例えば、クリック率予測値を算出するための学習モデルとしてロジスティック回帰モデルを用いた場合、学習モデルは、次式（１）及び（２）により表される。

ｐ（ｙ_i＝１｜Ｘ_i，Ｗ）＝σ（Ｘ_i ^TＷ）　・・・（１）
ｐ（ｙ_i＝０｜Ｘ_i，Ｗ）＝１－σ（Ｘ_i ^TＷ）　・・・（２）

　ここで、σ（）はシグモイド関数であり、Ｗは、特徴量ベクトルＸ_iの各特徴量に対応するＭ次元のパラメータからなるベクトル（以下、パラメータベクトルと称する）である。また、式（１）は、特徴量ベクトルＸ_iの広告がクリックされる確率を計算する式であり、式（２）は、特徴量ベクトルＸ_iの広告がクリックされない確率を計算する式である。

　そして、学習部２７は、次式（３）及び（４）により表される学習モデルの損失関数Ｌ（Ｗ；Ｄ）を最小化するパラメータベクトルＷをオンライン学習により求める。

　ただし、Ｄ＝｛（ｙ_i，Ｘ_i）｜ｉ＝１，・・・,Ｎ｝である。

　ここで、パラメータベクトルＷを算出するための学習アルゴリズムとして、例えば、以下の確率的勾配降下法を用いた第１乃至第４の学習アルゴリズムを採用することが可能である。

　まず、第１の学習アルゴリズムについて説明する。第１の学習アルゴリズムでは、パラメータベクトルＷの初期ベクトルＷ₀の各パラメータの値が０に設定され、学習率が定数ηに設定される。そして、ｉ＝１からＮまで次式（５）の計算が繰り返される。

Ｗ_i＝Ｗ_i-1＋η×｛ｙ_i－ｐ（ｙ_i＝１｜Ｘ_i，Ｗ_i-1）｝×Ｘ_i　・・・（５）

　そして、最終的に得られるパラメータベクトルＷ_Nが、学習結果として返される。

　次に、図５のフローチャートを参照して、第２の学習アルゴリズムについて説明する。

　ステップＳ１０１において、学習部２７は、パラメータを初期化する。すなわち、学習部２７は、パラメータベクトルＷの初期ベクトルＷ₀の各パラメータの値を０に設定する。

　ステップＳ１０２において、学習部２７は、変数ｉの値を１に設定する。

　ステップＳ１０３において、学習部２７は、更新幅ｑを次式（６）により算出する。

ｑ＝ｙ_i－ｐ（ｙ_i＝１｜Ｘ_i，Ｗ_i-1）　・・・（６）

　この更新幅ｑは、パラメータベクトルＷ_i-1の各パラメータを用いた学習モデルにｉ番目の学習サンプルの特徴量Ｘ_iを与えた場合のクリック率予測値と、ｉ番目の学習サンプルのラベルｙ_iとの差に等しい。すなわち、更新幅ｑは、パラメータベクトルＷ_i-1の各パラメータを用いた場合における、特徴量ベクトルＸ_iの広告に対するクリック率予測値の誤差に等しい。

　ステップＳ１０４において、学習部２７は、０以上１以下の乱数ｒを生成する。

　ステップＳ１０５において、学習部２７は、更新幅ｑ＞乱数ｒであるか否かを判定する。更新幅ｑ＞乱数ｒであると判定された場合、処理はステップＳ１０６に進む。

　ステップＳ１０６において、学習部２７は、パラメータを更新する。具体的には、学習部２７は、次式（７）により、パラメータベクトルＷ_iを算出する。

Ｗ_i＝Ｗ_i-1＋η×｛ｙ_i－ｐ（ｙ_i＝１｜Ｘ_i，Ｗ_i-1）｝×Ｘ_i／ｑ
　　＝Ｗ_i-1＋η×Ｘ_i　・・・（７）

　式（７）は、第１の学習アルゴリズムにおける式（５）の右辺の第２項を更新幅ｑで割ったものである。従って、パラメータベクトルＷ_iの各パラメータの更新幅が、更新幅ｑの逆数により補正される。すなわち、補正後の各パラメータの更新幅は、更新幅ｑが大きくなるほど小さくなり、更新幅ｑが小さくなるほど大きくなる。これにより、更新幅ｑが大きい学習サンプルほど、パラメータ更新の影響が弱められる。

　その後、処理は、ステップＳ１０８に進む。

　一方、ステップＳ１０５において、更新幅ｑ≦乱数ｒであると判定された場合、処理はステップＳ１０７に進む。

　ステップＳ１０７において、学習部２７は、パラメータの更新をスキップする。具体的には、学習部２７は、次式（８）により、ｉ－１番目の学習サンプルを用いて求めたパラメータベクトルＷ_i-1を、そのまま更新せずにパラメータベクトルＷ_iに代入する。

Ｗ_i＝Ｗ_i-1　・・・（８）

　その後、処理は、ステップＳ１０８に進む。

　このように、更新幅ｑが大きくなるほど、パラメータが更新される確率が高くなり、更新幅ｑが小さくなるほど、パラメータの更新がスキップされる確率が高くなる。

　ステップＳ１０８において、学習部２７は、変数ｉの値を１つインクリメントする。

　ステップＳ１０９において、学習部２７は、変数ｉの値が学習サンプル数Ｎより大きいか否かを判定する。変数ｉの値が学習サンプル数Ｎ以下であると判定された場合、処理はステップＳ１０３に戻る。

　その後、ステップＳ１０９において、変数ｉの値が学習サンプル数Ｎより大きいと判定されるまで、ステップＳ１０３乃至Ｓ１０９の処理が繰り返し実行される。

　一方、ステップＳ１０９において、変数ｉの値が学習サンプル数Ｎより大きいと判定された場合、パラメータ学習処理は終了する。そして、最終的に得られたパラメータベクトルＷ_Nが、学習結果として返される。

　このように、第２の学習アルゴリズムでは、更新幅ｑが大きく学習効果の大きい学習サンプルを優先的に用い、更新幅ｑが小さく学習効果の小さい学習サンプルを優先的に間引くことにより、効率的に学習モデルのパラメータの更新を行うことができる。一方で、乱数ｒを用いることにより、更新幅ｑの大きい学習サンプルばかりが用いられ、更新幅ｑの小さい学習サンプルが用いられなくなることが防止される。

　また、上述した式（７）に示されるように、更新幅ｑが大きくなるほど補正後の値が小さくなり、更新幅ｑが小さくなるほど補正後の値が大きくなるように、各パラメータの更新幅が補正される。換言すれば、パラメータの更新がスキップされる確率が低いほど補正後の値が小さくなり、パラメータの更新がスキップされる確率が高いほど補正後の値が大きくなるように、各パラメータの更新幅が補正される。これにより、スキップされる確率が低い更新幅ｑの大きい学習サンプルによる学習効果と、スキップされる確率が高い更新幅ｑの小さい学習サンプルによる学習効果の差が大きくなりすぎることが抑制される。

　従って、効果的に学習サンプルを間引いて、学習モデルのパラメータを更新することができる。その結果、学習処理を高速化しつつ、適切なパラメータを用いた精度の高い学習モデルを構築することができる。

　なお、広告がクリックされる確率は、通常広告がクリックされない確率と比べて非常に小さい。従って、学習サンプル数Ｎが少ない場合に、ラベルｙ_i＝１の学習サンプル（すなわち、広告がクリックされた場合の学習サンプル）による更新をスキップすると、ラベルｙ_i＝１の学習サンプルによる学習効果が小さくなりすぎて、学習モデルの精度が低下するおそれがある。そこで、例えば、学習サンプル数Ｎが少ない場合等に、ラベルｙ_i＝０の学習サンプルに対してのみ、上述した方法により、パラメータベクトルの更新を確率的にスキップするようしてもよい。

　また、更新幅ｑの代わりに、更新幅ｑの単調増加関数を用いて、パラメータを更新するか否かを判定するようにしてもよい。

　さらに、例えば、損失関数Ｌ（ｗ；Ｄ）の勾配に基づいてパラメータの更新幅を設定する場合、更新幅ｑの代わりに、次式（９）の関数ｆの値を乱数ｒと比較することにより、パラメータを更新するか否かを判定するようにしてもよい。

　また、パラメータを更新するか否かの判定に乱数ｒの代わりに定数を用いることも可能である。

　次に、図６のフローチャートを参照して、第３の学習アルゴリズムについて説明する。

　ステップＳ１５１において、学習部２７は、パラメータ及び更新回数を初期化する。具体的には、学習部２７は、パラメータベクトルＷの初期ベクトルＷ₀の各パラメータの値を０に設定する。また、学習部２７は、Ｍ次元の更新回数ベクトルＣの各更新回数ｃ_j（ｊ＝１,・・・,Ｍ）の値を０に初期化する。なお、更新回数ｃ_jは、パラメータベクトルのｊ次元目のパラメータの更新回数を表す。

　ステップＳ１５２において、学習部２７は、変数ｉの値を１に設定する。

　ステップＳ１５３において、学習部２７は、変数ｊの値を１に設定する。

　ステップＳ１５４において、学習部２７は、特徴量ｘ_i,jの値が０であるか否かを判定する。なお、特徴量ｘ_i,jは、ｉ番目の学習サンプルの特徴量ベクトルＸ_iのｊ次元目の特徴量である。特徴量ｘ_i,jの値が０でないと判定された場合、処理はステップＳ１５５に進む。

　ステップＳ１５５において、学習部２７は、パラメータｗ_i,jを更新する。なお、パラメータｗ_i,jは、パラメータベクトルＷ_iのｊ次元目のパラメータである。学習部２７は、次式（１０）により、パラメータｗ_i,jの値を算出する。

　すなわち、パラメータｗ_i,jの値は、ｉ－１番目の学習サンプルに基づいて算出されたパラメータｗ_i-1,jの値に、式（１０）の第２項の値を加算することにより得られる。このとき、第２項のη×１／（１＋ｃ_j）が学習率となる。なお、ηは、式（５）のηと同様の定数である。

　ステップＳ１５６において、学習部２７は、更新回数ｃ_jを１つインクリメントする。

　その後、処理はステップＳ１５８に進む。

　一方、ステップＳ１５４において、特徴量ｘ_i,jの値が０であると判定された場合、処理はステップＳ１５７に進む。

　ステップＳ１５７において、学習部２７は、パラメータｗ_i,jの更新をスキップする。すなわち、学習部２７は、次式（１１）により、ｉ－１番目の学習サンプルで求めたパラメータｗ_i-1,jの値を、そのまま更新せずパラメータｗ_i,jに代入する。

ｗ_i,j＝ｗ_i-1,j　・・・（１１）

　なお、式（１１）は、上述した式（１０）に特徴量ｘ_i,j＝０を代入した式と等しい。

　その後、処理はステップＳ１５８に進む。

　ステップＳ１５８において、学習部２７は、変数ｊの値を１つインクリメントする。

　ステップＳ１５９において、学習部２７は、変数ｊの値がパラメータベクトルの次元数Ｍより大きいか否かを判定する。変数ｊの値がパラメータベクトルの次元数Ｍ以下であると判定された場合、処理はステップＳ１５４に戻る。

　その後、ステップＳ１５９において、変数ｊの値がパラメータベクトルの次元数Ｍより大きいと判定されるまで、ステップＳ１５４乃至Ｓ１５９の処理が繰り返し実行される。これにより、パラメータベクトルＷ_iの各パラメータｗ_i,jの値が求められる。

　一方、ステップＳ１５９において、変数ｊの値がパラメータベクトルの次元数Ｍより大きいと判定された場合、処理はステップＳ１６０に進む。

　ステップＳ１６０において、学習部２７は、変数ｉの値を１つインクリメントする。

　ステップＳ１６１において、学習部２７は、変数ｉの値が学習サンプル数Ｎより大きいか否かを判定する。変数ｉの値が学習サンプル数Ｎ以下であると判定された場合、処理はステップＳ１５３に戻る。

　その後、ステップＳ１６１において、変数ｉの値が学習サンプル数Ｎより大きいと判定されるまで、ステップＳ１５３乃至Ｓ１６１の処理が繰り返し実行される。すなわち、Ｎ個の学習サンプルを全て用いて、パラメータベクトルの更新が行われる。また、ｊ次元目のパラメータｗ_i,jが更新される毎に、更新回数ｃ_jの値が１つずつ増えていき、その結果、学習率η×１／（１＋ｃ_j）の値が小さくなる。

　一方、ステップＳ１６１において、変数ｉの値が学習サンプル数Ｎより大きいと判定された場合、パラメータ学習処理は終了する。そして、最終的に得られたパラメータベクトルＷ_Nが、学習結果として返される。

　このように、第３の学習アルゴリズムでは、学習率が、パラメータベクトルの全ての次元のパラメータに共通な定数ではなく、各次元のパラメータ毎に調整される。すなわち、各次元のパラメータに対応する学習率は、対応するパラメータの更新回数が多くなるほど小さくなるように調整される。その結果、学習結果が安定する。

　次に、図７のフローチャートを参照して、第４の学習アルゴリズムについて説明する。

　ステップＳ２０１において、図６のステップＳ１５１の処理と同様に、パラメータ及び更新回数が初期化される。

　ステップＳ２０２において、学習部２７は、変数ｉの値を１に設定する。

　ステップＳ２０３において、学習部２７は、変数ｊの値を１に設定する。

　ステップＳ２０４において、学習部２７は、０以上１以下の乱数ｒを生成する。

　ステップＳ２０５において、図６のステップＳ１５４の処理と同様に、特徴量ｘ_i,jの値が０であるか否かが判定され、特徴量ｘ_i,jの値が０でないと判定された場合、処理はステップＳ２０６に進む。

　ステップＳ２０６において、学習部２７は、次式（１２）の関数ｆの値を算出する。

　なお、関数ｆは、更新回数ｃ_jが大きくなるほど小さくなる単調減少関数である。

　ステップＳ２０７において、学習部２７は、関数ｆの値が乱数ｒより大きいか否かを判定する。関数ｆの値が乱数ｒより大きいと判定された場合、処理はステップＳ２０８に進む。

　ステップＳ２０８において、学習部２７は、パラメータｗ_i,jを更新する。すなわち、学習部２７は、次式（１３）により、パラメータｗ_i,jの値を算出する。

　式（１３）は、式（１０）の右辺の第２項を関数ｆの値で割ったものである。すなわち、パラメータｗ_i,jの更新幅が、関数ｆの逆数により補正される。従って、補正後のパラメータｗ_i,jの更新幅は、関数ｆの値が大きくなるほど小さくなり、関数ｆの値が小さくなるほど大きくなる。これにより、更新回数が多くなるほど、パラメータ更新の影響が弱められる。

　ステップＳ２０９において、学習部２７は、更新回数ｃ_jを１つインクリメントする。

　その後、処理はステップＳ２１１に進む。

　一方、ステップＳ２０５において、特徴量ｘ_i,jの値が０であると判定された場合、又は、ステップＳ２０７において、関数ｆの値が乱数ｒ以下であると判定された場合、処理はステップＳ２１０に進む。

　ステップＳ２１０において、図６のステップＳ１５７の処理と同様に、パラメータｗ_i,jの更新がスキップされる。

　その後、処理は、ステップＳ２１１に進む。

　このように、関数ｆの値が小さくなるほど、すなわち更新回数が多い次元のパラメータほど、更新がスキップされる確率が高くなる。一方、関数ｆの値が大きくなるほど、すなわち更新回数が少ない次元のパラメータほど、更新がスキップされる確率が低くなる。

　ステップＳ２１１において、学習部２７は、変数ｊの値を１つインクリメントする。

　ステップＳ２１２において、学習部２７は、変数ｊの値がパラメータベクトルの次元数Ｍより大きいか否かを判定する。変数ｊの値がパラメータベクトルの次元数Ｍ以下であると判定された場合、処理はステップＳ２０５に戻る。

　その後、ステップＳ２１２において、変数ｊの値がパラメータベクトルの次元数Ｍより大きいと判定されるまで、ステップＳ２０５乃至Ｓ２１２の処理が繰り返し実行される。これにより、パラメータベクトルＷ_iの各パラメータｗ_i,jの値が求められる。

　一方、ステップＳ２１２において、変数ｊの値がパラメータベクトルの次元数Ｍより大きいと判定された場合、処理はステップＳ２１３に進む。

　ステップＳ２１３において、学習部２７は、変数ｉの値を１つインクリメントする。

　ステップＳ２１４において、学習部２７は、変数ｉの値が学習サンプル数Ｎより大きいか否かを判定する。変数ｉの値が学習サンプル数Ｎ以下であると判定された場合、処理はステップＳ２０３に戻る。

　その後、ステップＳ２１４において、変数ｉの値が学習サンプル数Ｎより大きいと判定されるまで、ステップＳ２０３乃至Ｓ２１４の処理が繰り返し実行される。

　一方、ステップＳ２１４において、変数ｉの値が学習サンプル数Ｎより大きいと判定された場合、パラメータ学習処理は終了する。そして、最終的に得られたパラメータベクトルＷ_Nが、学習結果として返される。

　このように、第４の学習アルゴリズムでは、第３の学習アルゴリズムと同様の理由により、学習結果を安定させることができる。

　また、第４のアルゴリズムでは、更新回数の多いパラメータほど更新がスキップされやすくなり、更新回数の少ないパラメータほど更新されやすくなる。一方で、乱数ｒを用いることにより、更新回数の多いパラメータの更新が全く行われなくなったり、更新回数の少ないパラメータの更新が全くスキップされなくなったりすることが防止される。これにより、各次元のパラメータの更新回数のバラつきを小さくしつつ、各パラメータの更新に用いる学習サンプルを適度に分散させることができる。

　また、上述した式（１３）に示されるように、関数ｆの値が大きくなるほど補正後の値が小さくなり、関数ｆの値が小さくなるほど補正後の値が大きくなるように、各パラメータの更新幅が補正される。換言すれば、パラメータの更新がスキップされる確率が低いほど補正後の値が小さくなり、パラメータの更新がスキップされる確率が高いほど補正後の値が大きくなるように、各パラメータの更新幅が補正される。これにより、更新がスキップされる確率が低い初めの方の学習サンプルによる学習効果と、更新がスキップされる確率が高い後の方の学習サンプルによる学習効果の差が大きくなりすぎることが抑制される。

　従って、効果的に更新をスキップしつつ、学習モデルのパラメータを更新することができる。その結果、学習処理を高速化しつつ、適切なパラメータを用いた精度の高い学習モデルを構築することができる。

　また、学習処理の高速化の別手法として、パラメータを共有しながら、パラメータ更新処理を並列化する手法がある。このパラメータ更新処理の並列化を行う場合、第４の学習アルゴリズムを用いてパラメータの更新回数を減らすことにより、パラメータの同期やアトミック性を保証する処理に要するコストを軽減することができる。

　なお、更新回数ｃ_jの代わりに、更新回数ｃ_jに従って増加する他の値を用いることも可能である。また、式（１２）の関数ｆの代わりに、更新回数ｃ_jを変数とする他の単調減少関数を用いるようにしてもよい。

　さらに、第２の学習アルゴリズムと第４の学習アルゴリズムは、組み合わせることが可能である。

　図４に戻り、ステップＳ５３において、サーバ１１は、学習モデルのパラメータを更新する。すなわち、学習部２７は、ステップＳ５２の処理で学習したパラメータを広告選択部２３に供給する。広告選択部２３は、学習モデルのパラメータを供給されたパラメータに更新する。

　その後、学習処理は終了する。

＜２．変形例＞
　以下、上述した本技術の実施の形態の変形例について説明する。

　例えば、本技術は、上述した形態とは異なる形態の広告サービスに適用することができる。例えば、検索クエリとは無関係に、ユーザの嗜好等に基づいて広告を提示する広告サービスにも適用することができる。また、例えば、ウエブサイトに表示する方法以外の広告サービス、例えば、メールを用いた広告サービス等にも適用することができる。

　また、学習サンプルに用いるラベルは、ユーザが広告をクリックしたか否かを示すものに限定されるものではなく、広告の形態等により他のユーザの反応を示すものに変更することが可能である。例えば、ユーザが広告の商品を購入したか否かを示すラベル等を用いることが可能である。

　さらに、以上の説明では、入札額×クリック率の大きい順に提示する広告を選択する例を示したが、他の条件に基づいて提示する広告を選択するようにしてもよい。例えば、入札額を用いずにクリック率のみに基づいて提示する広告を選択したり、ユーザの嗜好等に基づいて提示する広告を選択したりすることが可能である。

　また、本技術は、上述した確率的勾配降下法以外にも、凸関数からなる損失関数を用いた他のオンライン学習のアルゴリズムにも適用することができる。例えば、パーセプトロンの学習におけるオンライン更新やＰＡ（Passive Aggressive）法を用いたアルゴリズム等において、更新条件時に計算する値や更新幅の関数の値を、パラメータを更新するか否かの判定に用いることにより、本技術を適用することができる。

　さらに、本技術は、上述したロジスティック回帰モデル以外にも、凸関数からなる損失関数を用いたオンライン学習によりパラメータを更新可能な各種の学習モデルに適用することができる。また、それらの学習モデルを、各種のパターン認識等の予測処理に用いることが可能である。例えば、本技術は、スパムメールを検出するためのスパムメールフィルタの学習モデル、大規模センサシステムのセンサ値が異常か否かを判定する学習モデル、ソーシャルネットワーキングサービスにおいて緊急性があるメッセージであるか否かを分類する学習モデル等の構築、及び、それらの学習モデルを用いた予測処理に適用することができる。そのような予測処理は、例えば、図１の広告選択部２３のような情報処理部により実行される。

｛コンピュータの構成例｝
　上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

　図８は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。

　コンピュータにおいて、CPU（Central Processing Unit）３０１，ROM（Read Only Memory）３０２，RAM（Random Access Memory）３０３は、バス３０４により相互に接続されている。

　バス３０４には、さらに、入出力インタフェース３０５が接続されている。入出力インタフェース３０５には、入力部３０６、出力部３０７、記憶部３０８、通信部３０９、及びドライブ３１０が接続されている。

　入力部３０６は、キーボード、マウス、マイクロフォンなどよりなる。出力部３０７は、ディスプレイ、スピーカなどよりなる。記憶部３０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部３０９は、ネットワークインタフェースなどよりなる。ドライブ３１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア３１１を駆動する。

　以上のように構成されるコンピュータでは、CPU３０１が、例えば、記憶部３０８に記憶されているプログラムを、入出力インタフェース３０５及びバス３０４を介して、RAM３０３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（CPU３０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア３１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータでは、プログラムは、リムーバブルメディア３１１をドライブ３１０に装着することにより、入出力インタフェース３０５を介して、記憶部３０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部３０９で受信し、記憶部３０８にインストールすることができる。その他、プログラムは、ROM３０２や記憶部３０８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　また、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

　さらに、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。

　さらに、例えば、本技術は以下のような構成も取ることができる。

（１）
　ユーザに提示した広告の内容及び前記広告に対する前記ユーザの反応結果に基づく学習サンプルと、前記学習サンプルによる更新対象となるパラメータとに基づく第１の確率に従って更新がスキップされる前記パラメータを用いて予測される各広告に対する前記ユーザの反応に基づいて、前記ユーザに提示する広告を選択する広告選択部と、
　選択された広告の提示を制御する提示制御部と
　を備える情報処理装置。
（２）
　前記学習サンプルは、前記ユーザに提示した広告の内容に基づく特徴量を含む特徴量ベクトル、及び、前記広告に対する前記ユーザの反応結果を示すラベルを含み、
　前記パラメータを用いて各広告に対する前記ユーザの反応を予測する学習モデルのオンライン学習を行うとともに、前記第１の確率に従って前記パラメータの更新をスキップする一方、スキップせずに前記パラメータの更新を行う場合、前記第１の確率に応じて前記パラメータの更新幅を補正する学習部を
　さらに備える前記（１）に記載の情報処理装置。
（３）
　前記学習部は、前記学習サンプルに含まれる前記特徴量ベクトルを前記学習モデルに与えることにより得られる前記ユーザの反応の予測結果と前記学習サンプルに含まれる前記ラベルとの差に基づく前記第１の確率に従って前記パラメータの更新をスキップする
　前記（２）に記載の情報処理装置。
（４）
　前記学習部は、前記第１の確率が高いほど補正後の値が大きくなるように前記パラメータの更新幅を補正する
　前記（２）又は（３）に記載の情報処理装置。
（５）
　前記学習モデルは、複数の前記パラメータを用い、
　前記学習部は、更新回数が多いほど高くなる第２の確率に従って前記パラメータ毎に個別に更新をスキップする一方、スキップせずに更新する前記パラメータの更新幅を前記第２の確率に応じて補正する
　前記（２）乃至（４）のいずれかに記載の情報処理装置。
（６）
　前記学習部は、前記第２の確率が高いほど補正後の値が大きくなるように前記パラメータの更新幅を補正する
　前記（５）に記載の情報処理装置。
（７）
　前記広告選択部は、前記ユーザにより入力される検索クエリと各広告に設定されたキーワードとの一致度、及び、前記パラメータを用いて予測される前記ユーザの反応に基づいて、前記ユーザに提示する広告を選択する
　前記（１）乃至（６）のいずれかに記載の情報処理装置。
（８）
　ユーザに提示した広告の内容及び前記広告に対する前記ユーザの反応結果に基づく学習サンプルと、前記学習サンプルによる更新対象となるパラメータとに基づく第１の確率に従って更新がスキップされる前記パラメータを用いて予測される各広告に対する前記ユーザの反応に基づいて、前記ユーザに提示する広告を選択する広告選択ステップと、
　選択された広告の提示を制御する提示制御ステップと
　を含む情報処理方法。
（９）
　ユーザに提示した広告の内容及び前記広告に対する前記ユーザの反応結果に基づく学習サンプルと、前記学習サンプルによる更新対象となるパラメータとに基づく第１の確率に従って更新がスキップされる前記パラメータを用いて予測される各広告に対する前記ユーザの反応に基づいて、前記ユーザに提示する広告を選択する広告選択ステップと、
　選択された広告の提示を制御する提示制御ステップと
　を含む処理をコンピュータに実行させるためのプログラム。
（１０）
　更新回数が多いほど高くなる確率に従って個別にスキップしながら更新される複数のパラメータを用いて予測される各広告に対する前記ユーザの反応に基づいて、前記ユーザに提示する広告を選択する広告選択部と、
　選択された広告の提示を制御する提示制御部と
　を備える情報処理装置。
（１１）
　複数の前記パラメータを用いて各広告に対する前記ユーザの反応を予測する学習モデルのオンライン学習を行うとともに、前記確率に従って前記パラメータ毎に個別に更新をスキップする一方、スキップせずに更新する前記パラメータの更新幅を前記確率に応じて補正する学習部を
　さらに備える前記（１０）に記載の情報処理装置。
（１２）
　前記学習部は、前記確率が高いほど補正後の値が大きくなるように前記パラメータの更新幅を補正する
　前記（１１）に記載の情報処理装置。
（１３）
　所定のパラメータを用いた学習モデルのオンライン学習を行うとともに、前記オンライン学習に用いる学習サンプル及び前記パラメータに基づく確率に従って前記学習サンプルを用いた前記パラメータの更新をスキップする一方、スキップせずに前記パラメータの更新を行う場合に、前記確率に応じて前記パラメータの更新幅を補正する学習部を
　備える情報処理装置。
（１４）
　前記学習部は、前記学習サンプルに含まれる特徴量ベクトルを前記学習モデルに与えることにより得られる予測結果と前記学習サンプルに含まれるラベルとの差に基づく前記確率に従って前記パラメータの更新をスキップする
　前記（１３）に記載の情報処理装置。
（１５）
　前記学習部は、前記確率が高いほど補正後の値が大きくなるように前記パラメータの更新幅を補正する
　前記（１３）又は（１４）に記載の情報処理装置。
（１６）
　前記学習モデルを用いた予測処理を行う情報処理部を
　さらに備える前記（１３）乃至（１５）のいずれかに記載の情報処理装置。
（１７）
　複数のパラメータを用いた学習モデルのオンライン学習を行うとともに、更新回数が多いほど高くなる確率に従って前記パラメータ毎に個別に更新をスキップする一方、スキップせずに更新する前記パラメータの更新幅を前記確率に応じて補正する学習部を
　備える情報処理装置。
（１８）
　前記学習部は、前記確率が高いほど補正後の値が大きくなるように前記パラメータの更新幅を補正する
　前記（１７）に記載の情報処理装置。
（１９）
　前記学習モデルを用いた予測処理を行う情報処理部を
　さらに備える前記（１７）又は（１８）に記載の情報処理装置。
（２０）
　複数のパラメータを用いた学習モデルのオンライン学習を行うとともに、更新回数が多いほど高くなる確率に従って前記パラメータ毎に個別に更新をスキップする一方、スキップせずに更新する前記パラメータの更新幅を前記確率に応じて補正する学習ステップを
　含む情報処理方法。

　１　情報処理システム，　１１　サーバ，　１２　クライアント，　２２　広告データベース，　２３　広告選択部，　２４　検索サービス提供部，　２５　学習サンプルデータベース，　２７　学習部

Claims

　ユーザに提示した広告の内容及び前記広告に対する前記ユーザの反応結果に基づく学習サンプルと、前記学習サンプルによる更新対象となるパラメータとに基づく第１の確率に従って更新がスキップされる前記パラメータを用いて予測される各広告に対する前記ユーザの反応に基づいて、前記ユーザに提示する広告を選択する広告選択部と、
　選択された広告の提示を制御する提示制御部と
　を備える情報処理装置。
　前記学習サンプルは、前記ユーザに提示した広告の内容に基づく特徴量を含む特徴量ベクトル、及び、前記広告に対する前記ユーザの反応結果を示すラベルを含み、
　前記パラメータを用いて各広告に対する前記ユーザの反応を予測する学習モデルのオンライン学習を行うとともに、前記第１の確率に従って前記パラメータの更新をスキップする一方、スキップせずに前記パラメータの更新を行う場合、前記第１の確率に応じて前記パラメータの更新幅を補正する学習部を
　さらに備える請求項１に記載の情報処理装置。
　前記学習部は、前記学習サンプルに含まれる前記特徴量ベクトルを前記学習モデルに与えることにより得られる前記ユーザの反応の予測結果と前記学習サンプルに含まれる前記ラベルとの差に基づく前記第１の確率に従って前記パラメータの更新をスキップする
　請求項２に記載の情報処理装置。
　前記学習部は、前記第１の確率が高いほど補正後の値が大きくなるように前記パラメータの更新幅を補正する
　請求項２に記載の情報処理装置。
　前記学習モデルは、複数の前記パラメータを用い、
　前記学習部は、更新回数が多いほど高くなる第２の確率に従って前記パラメータ毎に個別に更新をスキップする一方、スキップせずに更新する前記パラメータの更新幅を前記第２の確率に応じて補正する
　請求項２に記載の情報処理装置。
　前記学習部は、前記第２の確率が高いほど補正後の値が大きくなるように前記パラメータの更新幅を補正する
　請求項５に記載の情報処理装置。
　前記広告選択部は、前記ユーザにより入力される検索クエリと各広告に設定されたキーワードとの一致度、及び、前記パラメータを用いて予測される前記ユーザの反応に基づいて、前記ユーザに提示する広告を選択する
　請求項１に記載の情報処理装置。
　ユーザに提示した広告の内容及び前記広告に対する前記ユーザの反応結果に基づく学習サンプルと、前記学習サンプルによる更新対象となるパラメータとに基づく第１の確率に従って更新がスキップされる前記パラメータを用いて予測される各広告に対する前記ユーザの反応に基づいて、前記ユーザに提示する広告を選択する広告選択ステップと、
　選択された広告の提示を制御する提示制御ステップと
　を含む情報処理方法。
　ユーザに提示した広告の内容及び前記広告に対する前記ユーザの反応結果に基づく学習サンプルと、前記学習サンプルによる更新対象となるパラメータとに基づく第１の確率に従って更新がスキップされる前記パラメータを用いて予測される各広告に対する前記ユーザの反応に基づいて、前記ユーザに提示する広告を選択する広告選択ステップと、
　選択された広告の提示を制御する提示制御ステップと
　を含む処理をコンピュータに実行させるためのプログラム。
　更新回数が多いほど高くなる確率に従って個別にスキップしながら更新される複数のパラメータを用いて予測される各広告に対する前記ユーザの反応に基づいて、前記ユーザに提示する広告を選択する広告選択部と、
　選択された広告の提示を制御する提示制御部と
　を備える情報処理装置。
　複数の前記パラメータを用いて各広告に対する前記ユーザの反応を予測する学習モデルのオンライン学習を行うとともに、前記確率に従って前記パラメータ毎に個別に更新をスキップする一方、スキップせずに更新する前記パラメータの更新幅を前記確率に応じて補正する学習部を
　さらに備える請求項１０に記載の情報処理装置。
　前記学習部は、前記確率が高いほど補正後の値が大きくなるように前記パラメータの更新幅を補正する
　請求項１１に記載の情報処理装置。
　所定のパラメータを用いた学習モデルのオンライン学習を行うとともに、前記オンライン学習に用いる学習サンプル及び前記パラメータに基づく確率に従って前記学習サンプルを用いた前記パラメータの更新をスキップする一方、スキップせずに前記パラメータの更新を行う場合に、前記確率に応じて前記パラメータの更新幅を補正する学習部を
　備える情報処理装置。
　前記学習部は、前記学習サンプルに含まれる特徴量ベクトルを前記学習モデルに与えることにより得られる予測結果と前記学習サンプルに含まれるラベルとの差に基づく前記確率に従って前記パラメータの更新をスキップする
　請求項１３に記載の情報処理装置。
　前記学習部は、前記確率が高いほど補正後の値が大きくなるように前記パラメータの更新幅を補正する
　請求項１３に記載の情報処理装置。
　前記学習モデルを用いた予測処理を行う情報処理部を
　さらに備える請求項１３に記載の情報処理装置。
　複数のパラメータを用いた学習モデルのオンライン学習を行うとともに、更新回数が多いほど高くなる確率に従って前記パラメータ毎に個別に更新をスキップする一方、スキップせずに更新する前記パラメータの更新幅を前記確率に応じて補正する学習部を
　備える情報処理装置。
　前記学習部は、前記確率が高いほど補正後の値が大きくなるように前記パラメータの更新幅を補正する
　請求項１７に記載の情報処理装置。
　前記学習モデルを用いた予測処理を行う情報処理部を
　さらに備える請求項１７に記載の情報処理装置。
　複数のパラメータを用いた学習モデルのオンライン学習を行うとともに、更新回数が多いほど高くなる確率に従って前記パラメータ毎に個別に更新をスキップする一方、スキップせずに更新する前記パラメータの更新幅を前記確率に応じて補正する学習ステップを
　含む情報処理方法。