WO2023188808A1

WO2023188808A1 - レコメンドシステム

Info

Publication number: WO2023188808A1
Application number: PCT/JP2023/003473
Authority: WO
Inventors: 裕木子吉川; 優樹勝間田; 喬鈴木
Original assignee: 株式会社Ｎｔｔドコモ
Priority date: 2022-03-30
Filing date: 2023-02-02
Publication date: 2023-10-05

Abstract

レコメンドの表現の決定方法の学習をより適切に行う。　レコメンドシステム１０は、レコメンドの対象であるユーザに係るユーザ情報を取得するユーザ情報取得部１１と、ユーザ情報に基づいて、ユーザにレコメンドするコンテンツを決定するコンテンツ決定部１２と、ユーザ情報に基づいて、決定されたコンテンツをユーザにレコメンドする際の表現を決定する表現決定部１３と、決定されたコンテンツに対してユーザが行動する難易度を示す難易度情報を取得する難易度情報取得部１４と、ユーザへのレコメンドに対するユーザの行動を示す行動情報を取得する行動情報取得部１５と、難易度情報及び行動情報に基づいて、レコメンドの対象であるユーザが行動する難易度を考慮してレコメンドの表現の決定方法を学習する学習部１６とを備える。

Description

レコメンドシステム

　本発明は、レコメンドシステムに関する。

　特許文献１には、顧客の嗜好に応じたコンテンツを、顧客の嗜好に応じたデザインの画面に反映させてレコメンドするシステムが記載されている。このシステムは、顧客の属性を示す顧客属性情報と顧客の行動履歴を示す顧客行動履歴情報とに基づいて、顧客にレコメンドするコンテンツに関する情報であるコンテンツ情報と、コンテンツ情報に含まれる情報を表示するための領域を含むテンプレートを示すテンプレート情報とを学習型人工知能により生成する。

特開２０１９－６１５２５号公報

　特許文献１に示されるように、レコメンドを行う際にレコメンドの表現（特許文献１ではレコメンドする画面のデザイン）を決定することでレコメンドの効果を高めることができる。特に、レコメンドの表現を、レコメンドの対象者であるユーザの心理的なバイアス（心理バイアス）を考慮したものとすることで、更にレコメンドの効果を高めることができる。レコメンドの表現の決定方法をレコメンドに対するユーザの反応に応じて学習させることで、より適切にレコメンドの表現を決定することができる。

　しかしながら、レコメンドに対するユーザの反応は、レコメンドの表現だけでなく、レコメンドされるものにも応じたものとなる。そのため、単純にユーザの反応を用いると、必ずしも適切な学習とならないおそれがある。例えば、ユーザの趣味趣向にあったコンテンツがレコメンドされる場合、レコメンドの表現にかかわらず、ユーザはコンテンツを利用することが考えられる。

　本発明の一実施形態は、上記に鑑みてなされたものであり、レコメンドの表現の決定方法の学習をより適切に行うことができるレコメンドシステムを提供することを目的とする。

　上記の目的を達成するために、本発明の一実施形態に係るレコメンドシステムは、レコメンドの対象であるユーザに係るユーザ情報を取得するユーザ情報取得部と、ユーザ情報取得部によって取得されたユーザ情報の少なくとも一部に基づいて、ユーザにレコメンドするコンテンツを決定するコンテンツ決定部と、ユーザ情報取得部によって取得されたユーザ情報の少なくとも一部に基づいて、コンテンツ決定部によって決定されたコンテンツをユーザにレコメンドする際の表現を決定する表現決定部と、コンテンツ決定部によって決定されたコンテンツに対してユーザが行動する難易度を示す難易度情報を取得する難易度情報取得部と、コンテンツ決定部及び表現決定部による決定に応じて行われたユーザへのレコメンドに対するユーザの行動を示す行動情報を取得する行動情報取得部と、難易度情報取得部によって取得された難易度情報及び行動情報取得部によって取得された行動情報に基づいて、レコメンドの対象であるユーザが行動する難易度を考慮して表現決定部による決定方法を学習する学習部と、を備える。

　本発明の一実施形態に係るレコメンドシステムでは、レコメンドの表現の決定方法を学習する際に、レコメンドされるコンテンツに対してユーザが行動する難易度が考慮される。このため、例えば、レコメンドに対するユーザの行動から、ユーザの趣味趣向の影響を除外して、レコメンドの表現の決定方法を学習することができる。これにより、本発明の一実施形態に係るレコメンドシステムによれば、レコメンドの表現の決定方法の学習をより適切に行うことができる。

　本発明の一実施形態によれば、レコメンドの表現の決定方法の学習をより適切に行うことができる。

本発明の実施形態に係るレコメンドシステムの構成を示す図である。レコメンドの概要を模式的に示す図である。ユーザにレコメンドする店舗の決定に用いられるユーザ情報の例を示すテーブルである。ユーザにレコメンドする店舗の決定に用いられる情報の例を示すテーブルである。ユーザへのレコメンドの内容の決定に用いられる情報の例を示すテーブルである。ユーザへのレコメンドの表現の決定に用いられる情報の例を示すテーブルである。心理バイアス推定モデルを用いた評価値の算出の例を示す図である。算出される心理バイアス毎の評価値の例を示すテーブルである。ユーザへのレコメンドの表現の決定に用いられる情報の例を示すテーブルである。心理バイアス推定モデルの学習に用いられる情報の例を示すテーブルである。心理バイアス推定モデルの学習の例を示す図である。本発明の実施形態に係るレコメンドシステムで実行される処理を示すフローチャートである。本発明の実施形態に係るレコメンドシステムのハードウェア構成を示す図である。

　以下、図面と共に本発明に係るレコメンドシステムの実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。

　図１に本実施形態に係るレコメンドシステム１０を示す。レコメンドシステム１０は、ユーザにコンテンツをレコメンドするシステム（装置）である。本実施形態では、ユーザにレコメンドされるコンテンツは、飲食店とする。ユーザにレコメンドされるコンテンツは、レコメンド対象となり得るものであればどのようなものであってもよい。例えば、ユーザにレコメンドされるコンテンツは、オンライン店舗又はＥＣ（電子商取引）サイトの商品であってもよい。

　レコメンドシステム１０は、例えば、ユーザによって用いられる端末２０にレコメンドに係る情報を送信することでレコメンドを行う。端末２０は、レコメンドシステム１０との間で移動体通信網等のネットワークを介して互いに情報の送受信を行うことができると共にレコメンドに係る情報処理を行うことが可能な装置である。端末２０は、携帯電話機、スマートフォン又はＰＣ（パーソナルコンピュータ）等の装置である。端末２０における、レコメンドシステム１０とのレコメンドに係る情報の送受信及び当該情報の入出力は、端末２０にインストールされる専用のアプリケーションによって行われてもよい。レコメンドシステム１０で用いられる情報の一部は、端末２０によって取得されてレコメンドシステム１０に送信されてもよい。

　レコメンドシステム１０は、通信機能を有するＰＣ（パーソナルコンピュータ）又はサーバ装置等のコンピュータによって構成されている。レコメンドシステム１０は、複数のコンピュータによって構成されていてもよい。レコメンドシステム１０は、端末２０との間で移動体通信網等のネットワークを介して互いに情報の送受信を行うことができる。

　レコメンドシステム１０は、ユーザ毎にレコメンドするコンテンツ（飲食店）を決定する。また、レコメンドシステム１０は、レコメンド毎にレコメンドの表現を決定して、決定した表現でレコメンドを行う。レコメンドの表現は、例えば、コンテンツをレコメンドする際の文言であるナッジ文言である。また、レコメンドの表現は、ユーザの心理的なバイアス（以降、心理バイアスと呼ぶ）（認知バイアス）に応じたものである。心理バイアスは、ユーザがレコメンドに対して行動を決める際の心理的な傾向である。心理バイアスの例としては、損をしたくないという「損失回避」、及び他人にあわせるという「同調」等がある。

　図２に示すように、例えば、レコメンドシステム１０は、コンテンツ内容選定モデルを予め記憶しており、コンテンツ内容選定モデルに基づいてレコメンドするコンテンツを決定する。また、レコメンドシステム１０は、心理バイアス推定モデルを予め記憶しており、心理バイアス推定モデルに基づいて心理バイアスを推定して、推定した心理バイアスに応じた表現を決定する。レコメンドシステム１０は、決定したコンテンツを決定した表現でユーザＵにレコメンドする。これにより、個々のユーザに対するレコメンドの効果を高めることができる。例えば、ユーザの趣味趣向にあわせたコンテンツを、ユーザがコンテンツを利用したい（例えば、ユーザが飲食店を訪れたい）と思うような表現でレコメンドすることができる。

　なお、レコメンドの表現は、必ずしも、心理バイアスに応じたものである必要はなく、レコメンドに影響を与えるものであればよい。また、レコメンドの表現は、レコメンドする際の文言以外であってもよい。

　本実施形態では、レコメンドシステム１０は、レコメンドに対するユーザＵの行動であるユーザＵの反応に基づいて、心理バイアス推定モデルの学習を行う。即ち、レコメンドシステム１０は、レコメンドの決定方法について強化学習を行う。また、レコメンドシステム１０は、レコメンドに対するユーザＵの反応に基づいて、コンテンツ内容選定モデルの学習も行ってもよい。これらの学習によって、レコメンドの精度を高めることができる。

　引き続いて、本実施形態に係るレコメンドシステム１０の機能を説明する。図１に示すようにレコメンドシステム１０は、ユーザ情報取得部１１と、コンテンツ決定部１２と、表現決定部１３と、難易度情報取得部１４と、行動情報取得部１５と、学習部１６とを備えて構成される。

　ユーザ情報取得部１１は、レコメンドの対象であるユーザに係るユーザ情報を取得する機能部である。ユーザ情報取得部１１によって取得されるユーザ情報は、以下に示すレコメンドに係る処理に用いられる。ユーザ情報は、どのような情報であり、どのように取得されてどのように用いられるかは後述する。なお、後述するユーザ情報は一例であり、レコメンドに係る処理に用いることができるものであればよい。

　レコメンドシステム１０によるユーザへのレコメンドは、プッシュ型で行われてもよい。例えば、ユーザが特定の状態となったこと（Ｐｕｓｈ発火）をトリガとして、レコメンドを行ってもよい。例えば、ユーザの位置が、レコメンドを行う特定の領域に入った際にレコメンドを行ってもよい。あるいは、ユーザが、特定の交通手段（例えば、電車、タクシー）を利用した際にレコメンドを行ってもよい。ユーザ情報取得部１１は、これらを判断するための情報をユーザに携帯される端末２０から取得してもよい。例えば、ユーザ情報取得部１１は、緯度及び経度等の端末２０の位置を示す情報を取得して、当該情報に基づいてユーザへのレコメンドを行うかどうかを判断してもよい。

　なお、レコメンドシステム１０によるユーザへのレコメンドは、上記以外のタイミングで行われてもよい。例えば、予め設定された時刻でレコメンドが行われるようにしてもよいし、その他のトリガによってレコメンドが行われるようにしてもよい。あるいは、端末２０からの要求に応じてレコメンドが行われるようにしてもよい。ユーザへのレコメンドに係る以下に示す機能部は、ユーザへのレコメンドが行われるタイミングで機能すればよい。

　コンテンツ決定部１２は、ユーザ情報取得部１１によって取得されたユーザ情報の少なくとも一部に基づいて、ユーザにレコメンドするコンテンツを決定する機能部である。本実施形態では、コンテンツ決定部１２は、ユーザにレコメンドするコンテンツとして、飲食店を決定する。コンテンツ決定部１２は、以下に示すコンテンツ内容選定モデルに従ってレコメンド内容を決定する。

　コンテンツ決定部１２によって用いられるユーザ情報として、ユーザ情報取得部１１は、レコメンド対象となるユーザのＰＯＩ（Point　of　Interest）訪問実績を示す情報を取得する。本実施形態におけるＰＯＩは、レコメンドされる飲食店である。ＰＯＩ訪問実績は、ユーザが過去に各店舗（飲食店）に訪問した回数である。

　図３（ａ）に、レコメンドシステム１０が備える、ユーザのＰＯＩ訪問実績を示す情報を格納するユーザ・ＰＯＩ訪問実績データベースを示す。ユーザ・ＰＯＩ訪問実績データベースには、予め、ユーザＩＤと、ユーザＩＤによって示されるユーザの各店舗への過去の訪問回数とが対応付けて記憶されている。ユーザＩＤは、レコメンド対象となるユーザに予め設定された識別子である。ユーザ・ＰＯＩ訪問実績データベースに記憶される情報は、従来技術等によって生成される。例えば、ユーザ・ＰＯＩ訪問実績データベースに記憶される情報は、ユーザが店舗で決済した情報又はユーザの位置情報に基づいて生成される。当該情報の生成は、ジオフェンスに基づいて行われてもよい。ユーザ情報取得部１１は、ユーザ・ＰＯＩ訪問実績データベースから、レコメンド対象となるユーザの情報を読み出して取得する。

　コンテンツ決定部１２によって用いられるユーザ情報として、ユーザ情報取得部１１は、レコメンド対象となるユーザのカテゴリに対する興味度を示す情報を取得する。カテゴリは、レコメンド対象となる飲食店のカテゴリである。例えば、カテゴリは、「焼肉」、「ラーメン」といったものである。

　図３（ｂ）に、レコメンドシステム１０が備える、ユーザのカテゴリに対する興味度を示す情報を格納するユーザ・カテゴリ興味度情報データベースを示す。ユーザ・カテゴリ興味度情報データベースには、予め、ユーザＩＤと、ユーザＩＤによって示されるユーザの各カテゴリに対する興味度を示す数値とが対応付けて記憶されている。興味度を示す数値は、値が大きいほどユーザがそのカテゴリに興味を持っていることを示している。ユーザ・カテゴリ興味度情報データベースは、従来技術等によって生成される。例えば、ユーザ・カテゴリ興味度情報データベースは、ユーザの各カテゴリの店舗への過去の訪問回数及びユーザへのアンケート等に基づいて生成される。ユーザ情報取得部１１は、ユーザ・カテゴリ興味度情報データベースから、レコメンド対象となるユーザの情報を読み出して取得する。

　コンテンツ決定部１２によって用いられるユーザ情報として、ユーザ情報取得部１１は、レコメンド対象となるユーザのレコメンド時の状況を示す情報、即ち、ユーザの現在状況を示す情報を取得する。例えば、ユーザの現在状況を示す情報は、ユーザがその日に昼食をとったかを示す情報及びユーザの位置情報である。

　図３（ｃ）に、レコメンドシステム１０が備える、コンテンツ決定部１２によって用いられる、ユーザの現在状況を示す情報を格納するユーザ現在状況データベースを示す。ユーザ現在状況データベースには、ユーザＩＤと、ユーザＩＤによって示されるユーザの現在状況を示す情報とが対応付けて記憶されている。現在状況を示す情報のうちの昼ごはんの情報は、数値が１であればユーザがその日に昼食をとったことを示し、数値が０であればユーザがその日に昼食をとっていないことを示している。この情報は、従来技術等によってリアルタイムに生成される。

　現在状況を示す情報のうちの現在地の情報は、ユーザの現在位置を示す情報である。例えば、現在地の情報は、緯度及び経度の情報である。例えば、この情報は、ユーザによって携帯される端末２０から、端末２０の現在位置を示す情報を取得することでリアルタイムに生成（取得）される。ユーザ情報取得部１１は、ユーザ現在状況データベースから、レコメンド対象となるユーザの情報を読み出して取得する。

　ユーザ情報取得部１１は、取得した情報をコンテンツ決定部１２に出力する。なお、ユーザ情報取得部１１は、コンテンツ決定部１２によって用いられるユーザ情報として、上記以外のユーザ情報を取得してもよい。また、ユーザ情報取得部１１は、上記以外の方法でユーザ情報を取得してもよい。例えば、ユーザ情報取得部１１は、端末２０から受信することによってユーザ情報を取得してもよい。

　コンテンツ決定部１２は、ユーザ情報取得部１１からユーザ情報を入力する。また、コンテンツ決定部１２は、ユーザにレコメンドする候補となる各店舗に係る情報を取得する。

　図４（ａ）に、レコメンドシステム１０が備える、各飲食店に係る情報を格納する店舗データベースを示す。店舗データベースには、店舗ＩＤと、店舗ＩＤによって示される店舗に係る情報とが対応付けて記憶されている。店舗ＩＤは、ユーザにレコメンドする店舗に予め設定された識別子である。図４（ａ）に示すように店舗に係る情報は、位置情報、混雑情報、店舗名、推奨時間及びカテゴリの各情報を含む。

　位置情報は、店舗の位置を示す情報である。例えば、位置情報は、緯度及び経度の情報である。位置情報は、予め、店舗データベースに記憶されている。混雑情報は、店舗の混雑度を示す情報である。混雑情報の数値は、値が大きいほど店舗が混雑していることを示している。混雑情報は、従来技術等によってリアルタイムに生成され、店舗データベースに記憶される。店舗名は、店舗の名称である。店舗名は、予め、店舗データベースに記憶されている。推奨時間は、当該店舗への訪問が推奨される１日における時刻である。推奨時刻は、予め、店舗データベースに記憶されている。カテゴリは、当該店舗のカテゴリである。カテゴリは、図３（ｂ）に示すユーザ・カテゴリ興味度情報データベースのカテゴリの何れかである。カテゴリは、予め、店舗データベースに記憶されている。

　コンテンツ決定部１２は、店舗データベースから各飲食店に係る情報を取得する。ユーザにレコメンドする候補となる店舗は、店舗データベースに情報が記憶された店舗のうち一部の店舗であってもよい。例えば、ユーザの現在地に基づく店舗のみが、ユーザにレコメンドする候補となる店舗とされてもよい。具体的には、ユーザの現在地から一定の範囲の店舗、又はユーザの現在地と同一の地域の店舗（例えば、同一の地区町村の店舗）が、ユーザにレコメンドする候補となる店舗とされてもよい。この場合、コンテンツ決定部１２は、ユーザ情報取得部１１から入力したユーザ情報によって示されるユーザの現在地と、取得した飲食店に係る情報によって示される店舗の位置とから、ユーザにレコメンドする候補となる店舗を判断してもよい。

　コンテンツ決定部１２は、取得した情報から以下のようにユーザにレコメンドする店舗を決定する。コンテンツ決定部１２は、まず、レコメンドする候補の店舗毎に行動難易度を算出する。行動難易度は、店舗に対してユーザが行動を取る難易度である。店舗に対するユーザの行動は、例えば、店舗を訪問する、即ち、コンテンツを利用するという行動である。また、店舗に対するユーザの行動は、上記に限られず、当該店舗についてレコメンドする情報を開封して参照した（即ち、店舗（コンテンツ）に対して興味を示した。これについては詳細に後述する）等の店舗に対する行動であればどのようなものであってもよい。

　算出される行動難易度の例を図４（ｂ）に示す。算出される行動難易度は、レコメンドシステム１０が備える、ユーザ・ＰＯＩ行動難易度データベースに格納される。行動難易度を示す数値は、値が小さいほど難易度が大きく（即ち、対応する店舗に対して行動を取らない傾向がある）、値が大きいほど難易度が小さい（即ち、対応する店舗に対して行動を取る傾向がある）ことを示している。

　例えば、コンテンツ決定部１２は、以下の式によって店舗毎の行動難易度を算出する。
　行動難易度＝（ｆ１（訪問回数）＋興味度＋ｆ２（店舗との距離））×ｓ（食事の有無）

　上記の式において、ｆ１（訪問回数）は、入力された訪問回数が大きいほど大きな値を関数値とする関数である。訪問回数は、行動難易度の算出対象となっている店舗へのユーザの過去の訪問回数である。興味度は、行動難易度の算出対象となっている店舗のカテゴリについてのユーザの興味度を示す数値である。ｆ２（店舗との距離）は、入力された距離が大きいほど小さな値を関数値とする関数である。店舗との距離は、行動難易度の算出対象となっている店舗とユーザの現在地との距離である。ｓ（食事の有無）は、ユーザの食事の有無を示す値である。例えば、昼食の時間帯のレコメンドを行う際には、ユーザが昼食をとっている場合、ｓ（食事の有無）は０とされ、ユーザが昼食をとっていない場合、ｓ（食事の有無）は１とされる。

　上記の式によれば、ユーザの訪問回数が多い店舗、ユーザの興味が高いカテゴリの店舗、及びユーザの現在地に近い店舗ほど、行動難易度の値が高くなる。即ち、そのような店舗ほど、ユーザが店舗に対する行動を取りやすい店舗であるとされる。また、ユーザが食事をとっていなければ、行動難易度の値が高くなり、ユーザが店舗に対する行動を取りやすいとされる。

　なお、行動難易度の算出は、必ずしも上記の式で行われる必要はない。また、上記の各要素の全てが行動難易度の算出に用いられる必要はなく、一部の要素のみが行動難易度の算出に用いられてもよい。また、上記以外の要素が行動難易度の算出に用いられてもよい。例えば、上記の式では、店舗に係る情報のうち、混雑情報及び推奨時間が用いられていないがこれらの情報が用いられてもよい。例えば、店舗が混雑していないほど、行動難易度の値を高くしてもよい。あるいは、現時点と推奨時間とが近いほど、行動難易度の値を高くしてもよい。

　コンテンツ決定部１２は、算出した行動難易度に基づいて、ユーザにレコメンドする店舗を決定する。例えば、コンテンツ決定部１２は、行動難易度の値が最も高い店舗をユーザにレコメンドする店舗として決定する。なお、レコメンド対象となるユーザに対して一定期間内に既にレコメンドされている店舗は、レコメンドする店舗から除外してもよい。但し、コンテンツ決定部１２は、上記以外の決定基準でユーザにレコメンドする店舗を決定してもよい。また、コンテンツ決定部１２は、一定の値以上の行動難易度となった店舗がない場合、ユーザに店舗をレコメンドしないと決定してもよい。

　更に、コンテンツ決定部１２は、どのように店舗をレコメンドするか、即ち、レコメンドの種別を決定してもよい。図５に、レコメンドシステム１０が備える、レコメンドの内容を格納するレコメンド内容データベースを示す。レコメンド内容データベースには、予め、レコメンドＩＤと、店舗ＩＤと、種別と、クーポン情報とが対応付けて記憶されている。レコメンドＩＤは、レコメンドの内容に予め設定された識別子である。レコメンドの内容は、以降の情報によって特定される。店舗ＩＤは、レコメンドされる店舗の店舗ＩＤである。

　種別は、レコメンドの種別である。レコメンドの種別としては、例えば、図５に示す「送客」、「ピークシフト」等がある。送客は、クーポン又はその他の方法によってユーザに店舗への訪問をレコメンドするものである。ピークシフトは、店舗の周辺の施設（例えば、駅）が混雑している場合、当該混雑を避けるようにユーザに店舗への訪問をレコメンドするものである。

　クーポン情報は、レコメンドの際にユーザに提示されるクーポンの情報である。クーポン情報は、例えば、クーポンの有無を示す情報及びクーポンの内容を示す情報を含む。図５に示す例では、クーポン情報は、｛Ａ：Ｂ｝の形式である。Ａは、クーポンの有無を示す情報であり、数値が１であればクーポンがあることを示し、数値が０であればクーポンがないことを示している。Ｂは、クーポンとしての料金からの割引の金額（例えば、図５の１行目のデータであれば１００円引きのクーポン）を示している。なお、Ａの数値が０であれば、Ｂの情報はない。

　コンテンツ決定部１２は、レコメンドする店舗を決定した後、レコメンド内容データベースを参照して、レコメンドの内容を決定する。コンテンツ決定部１２は、予めレコメンド内容を決定するための決定基準を記憶しており、その決定基準に基づいてレコメンドの内容を決定する。例えば、コンテンツ決定部１２は、ユーザにレコメンドする店舗の周囲の施設（例えば、駅）の混雑度を示す情報を取得する。この情報の取得は、従来技術等によって行われればよい。混雑度が予め設定した閾値以上であれば、コンテンツ決定部１２は、ピークシフトの種別のレコメンドを行うと決定する。混雑度が予め設定した未満以上であれば、コンテンツ決定部１２は、送客の種別のレコメンドを行うと決定する。なお、コンテンツ決定部１２は、上記以外にレコメンドの内容を決定してもよい。また、送客、ピークシフト等の種別なしにレコメンドが行われてもよい。なお、コンテンツ内容選定モデルは、コンテンツ決定部１２の上記のレコメンド内容の決定のための処理を規定するものである。

　表現決定部１３は、ユーザ情報取得部１１によって取得されたユーザ情報の少なくとも一部に基づいて、コンテンツ決定部１２によって決定されたコンテンツをユーザにレコメンドする際の表現を決定する機能部である。表現決定部１３は、レコメンドする際の表現として、レコメンドの対象であるユーザの心理的なバイアスに応じた表現を決定してもよい。表現決定部１３は、以下に示す心理バイアス推定モデルに従ってレコメンドの表現を決定する。

　表現決定部１３によって用いられるユーザ情報として、ユーザ情報取得部１１は、レコメンド対象となるユーザの属性を示す情報を取得する。図６（ａ）に、レコメンドシステム１０が備える、ユーザの属性を示す情報を格納するユーザ属性データベースを示す。ユーザ属性データベースには、予め、ユーザＩＤと、ユーザＩＤによって示されるユーザの属性を示す情報とが対応付けて記憶されている。図６（ａ）に示すように、ユーザの属性は、例えば、性別、居住エリア、職業、家族構成及び趣味趣向等を含む。図６（ａ）に示すように各属性を示す情報は、属性を示すＩＤであってもよい。ユーザ情報取得部１１は、ユーザ属性データベースから、レコメンド対象となるユーザの情報を読み出して取得する。

　表現決定部１３によって用いられるユーザ情報として、ユーザ情報取得部１１は、レコメンド対象となるユーザのレコメンド時の状況を示す情報、即ち、ユーザの現在状況を示す情報を取得する。例えば、ユーザの現在状況を示す情報は、ユーザが在宅であるかを示す情報、過去の受信回数及び本日の訪問歴である。過去の受信回数は、ユーザが過去にレコメンドを受信した回数である。本日の訪問歴は、ユーザにレコメンドする候補となる店舗にユーザが訪問しているか否かを示す情報である。

　図６（ｂ）に、レコメンドシステム１０が備える、表現決定部１３によって用いられる、ユーザの現在状況を示す情報を格納するユーザ現在状況データベースを示す。ユーザ現在状況データベースには、ユーザＩＤと、ユーザＩＤによって示されるユーザの現在状況を示す情報とが対応付けて記憶されている。現在状況を示す情報のうちの在宅の情報は、数値が１であればユーザがその時点で在宅であることを示し、数値が０であればユーザがその時点で在宅でないことを示している。この情報は、従来技術等によってリアルタイムに生成される。過去の受信回数及び本日の訪問歴は、これらを示す適宜の情報であり、従来技術等によってリアルタイムに生成される。ユーザ情報取得部１１は、ユーザ現在状況データベースから、レコメンド対象となるユーザの情報を読み出して取得する。

　ユーザ情報取得部１１は、取得した情報を表現決定部１３に出力する。なお、ユーザ情報取得部１１は、表現決定部１３によって用いられるユーザ情報として、上記以外のユーザ情報を取得してもよい。また、ユーザ情報取得部１１は、上記以外の方法でユーザ情報を取得してもよい。例えば、ユーザ情報取得部１１は、端末２０から受信することによってユーザ情報を取得してもよい。

　表現決定部１３は、ユーザ情報取得部１１からユーザ情報を入力する。表現決定部１３は、入力した情報から以下のようにレコメンドの際の表現を決定する。表現決定部１３は、入力したユーザ情報を特徴量に変換する。特徴量は、予め設定された次元数のベクトルである。変換される特徴量の例を図６（ｃ）に示す。特徴１、特徴２、特徴３…のそれぞれが、特徴量のベクトルの要素である。ユーザ情報から特徴量への変換は、従来技術等によって行うことができる。

　特徴量には、レコメンドに影響を及ぼし得るユーザ情報以外の外的要因の情報が含まれていてもよい。例えば、その時点の天気及び時刻を示す情報が、特徴量に反映されてもよい。また、コンテンツ決定部１２によって決定されたレコメンドの内容に係る情報が、特徴量に反映されてもよい。即ち、表現決定部１３は、コンテンツ決定部１２によって決定されたコンテンツにも基づいてレコメンドする際の表現を決定してもよい。例えば、決定されたレコメンドの内容のうち、店舗のカテゴリ（例えば、「レストラン」とのカテゴリ）及びレコメンドの種別（例えば、「送客」との種別）が、特徴量に含まれてもよい。上記のユーザ情報以外の情報は、ユーザ情報と別次元の特徴量とするか、ユーザ情報とあわせて特徴量に変換されればよい。

　表現決定部１３は、得られた特徴量と、心理バイアス推定モデルとから、ユーザの心理バイアスを推定する。具体的には、表現決定部１３は、心理バイアス（の種別）毎（例えば、「損失回避」、「同調」毎）の評価値を算出する。評価値を算出するために、心理バイアス推定モデルを用いる。心理バイアス推定モデルには、心理バイアス毎のパラメータを含む。パラメータは、特徴量の次元数と同じ次元数のベクトルである。心理バイアス推定モデルのパラメータの各要素は、特徴量の各要素と対応している。心理バイアス推定モデルは、ユーザ間で共通のものである。但し、心理バイアス推定モデルは、ユーザ毎、あるいはユーザの種別毎のものとしてもよい。

　表現決定部１３は、互いに対応する、特徴量の要素と心理バイアス推定モデルのパラメータの要素とを掛け合わせて和を取って評価値を算出する。即ち、表現決定部１３は、特徴量のベクトルと、心理バイアス推定モデルのパラメータのベクトルとの内積を評価値として算出する。表現決定部１３は、心理バイアスの種別毎のパラメータを用いて、心理バイアスの種別毎に評価値を算出する。図７に１つの心理バイアス（心理バイアス１）のパラメータの例と、評価値の算出の例とを示す。図８にユーザ毎に算出される心理バイアスの評価値を示す。算出される評価値は、値が大きいほどユーザがその心理バイアスを強く有していることを示している。

　心理バイアス推定モデルのパラメータは、後述する学習部１６による学習によって更新される。学習部１６による学習は、レコメンドに対するユーザの反応に基づいて行われる。従って、レコメンドが行われる毎により適切に心理バイアスの決定が行われるようになり、その結果、より適切にレコメンドが行われるようになる。

　表現決定部１３は、推定された心理バイアスに基づいてレコメンドの表現であるナッジ文言を決定する。また、表現決定部１３は、推定された心理バイアスに加えて、コンテンツ決定部１２によって決定されたレコメンドの内容に係る情報を参照して、当該情報に基づいてレコメンドの表現を決定してもよい。

　レコメンドの表現の決定は、予め設定された、心理バイアスとナッジ文言との対応付けに基づいて行われる。図９に、レコメンドシステム１０が備える、当該対応付けの情報を格納するナッジ文言データベースを示す。ナッジ文言データベースには、予め、ナッジＩＤと、心理バイアスと、種別と、クーポン有無と、ナッジ文言とが対応付けて記憶されている。ナッジＩＤは、ナッジ文言に予め設定された識別子である。種別は、レコメンドの種別（上述した「送客」、「ピークシフト」等）である。クーポン有無は、レコメンドの際にユーザに提示されるクーポンの有無である。クーポン有無の数値が１であればクーポンがあることを示し、数値が０であればクーポンがないことを示している。ナッジ文言中の｛｝の部分は、コンテンツ決定部１２によって決定されたレコメンドされる店舗を示す情報（例えば、店舗名）が入力される。

　表現決定部１３は、算出した評価値の割合で、確率的にレコメンドに用いる心理バイアスを決定（選択）する。このように確率的にレコメンドに用いる心理バイアスを決定することで、常に同様のナッジ文言が用いられることを防ぐことができる。但し、上記以外の方法でレコメンドに用いる心理バイアスを決定してもよい。

　表現決定部１３は、図９に示すナッジ文言データベースを参照して、ナッジ文言データベースにおいて、決定した心理バイアスと、コンテンツ決定部１２によって決定されたレコメンドの種別及びクーポン有無との組み合わせに対応付けられているナッジ文言を、ユーザにレコメンドする際の表現として決定（選択）する。

　なお、図９に示すナッジ文言データベースでは含まれていないが、ナッジ文言は、レコメンドのクーポンの有無に応じた文言が含まれていてもよい。例えば、レコメンドにクーポンがある場合、図９に示すナッジ文言に加えて、「お得なクーポンがあります」といった文言が含まれていてもよい。また、レコメンドにクーポンがない場合、図９に示すナッジ文言に加えて、「あなたにお勧めです」といった文言が含まれていてもよい。

　表現決定部１３は、コンテンツ決定部１２によって決定されたレコメンドの内容と決定した表現とを用いて、ユーザにレコメンドする情報を生成し、端末２０に送信する。なお、コンテンツ決定部１２及び表現決定部１３の決定に基づく、端末２０への情報の送信等のレコメンド自体は、レコメンドシステム１０で行われる必要はなく、レコメンドシステム１０以外のシステム又は装置によって行われてもよい。

　端末２０に送信されたレコメンドの情報は、端末２０のユーザによって参照される。例えば、レコメンドの情報が端末２０に受信されると、レコメンド用のアプリケーションによってユーザへの通知が行われる。ユーザへの通知は、例えば、端末２０の画面にレコメンドに係る表示が行われる。通知の際の表示は、コンテンツ決定部１２及び表現決定部１３によって決定された内容がユーザに認識できるように行われる。具体的には、コンテンツ決定部１２によって決定されたレコメンドする店舗を示す情報を含む、表現決定部１３によって決定されたナッジ文言が表示される。

　ユーザは、端末２０の当該アプリケーションに対する操作を行って、レコメンドの詳細（例えば、店舗の情報等）を参照する。本実施形態では、この操作を開封と呼ぶ。上述したように開封も、レコメンドされた店舗に対するユーザの行動の一つである。

　難易度情報取得部１４は、コンテンツ決定部１２によって決定されたコンテンツに対してユーザが行動する難易度を示す難易度情報を取得する機能部である。難易度情報取得部１４は、ユーザのコンテンツの過去の利用状況、ユーザの興味、レコメンド時のユーザの状況、及びレコメンド時のコンテンツの状況に少なくとも何れかを反映した難易度を示す難易度情報を取得してもよい。

　レコメンドに対するユーザの反応は、レコメンドされたコンテンツ（本実施形態の場合、飲食店）自体と、ナッジ文言等のレコメンドの表現とに応じたものとなる。従って、レコメンドに対して、レコメンドを開封したり、レコメンドされた飲食店を訪問したりというユーザが行動を起こした場合、必ずしもナッジ文言が大きな影響を及ぼしたわけではなく、レコメンドされたコンテンツ自体が大きな影響を及ぼすことが考えられる。例えば、ユーザが元々レコメンドされた飲食店を好きだったから、レコメンドされた店舗に対する行動を起こすことが考えられる。

　即ち、レコメンドに対するユーザの反応は、心理バイアス推定モデルの学習の観点からは、大きなノイズを含んだものである。ノイズを含むデータを用いて学習を行うと、必ずしも適切な学習とはならず、心理バイアス推定モデルの学習が進まないおそれがある。

　難易度は、レコメンドに対するユーザの反応に基づいて、心理バイアス推定モデルの学習を行う際に、レコメンドされたコンテンツの影響（バイアス）、即ち、ユーザの趣味趣向の影響を除外するためのものである。難易度を用いた学習を行うことで、心理バイアス推定モデルの学習の収束を早くすることができる。

　難易度情報取得部１４は、レコメンドされた店舗について、コンテンツ決定部１２によって算出された行動難易度を示す情報を難易度情報として取得する。上述したようにコンテンツ決定部１２によって算出される行動難易度は、ユーザのコンテンツの過去の利用状況、ユーザの興味、レコメンド時のユーザの状況、及びレコメンド時のコンテンツの状況に少なくとも何れかを反映したものである。但し、難易度情報取得部１４によって取得される難易度情報は、コンテンツ決定部１２によって算出された行動難易度を示す情報である必要はなく、コンテンツ決定部１２による算出方法とは別の算出方法で、難易度情報取得部１４が難易度を算出して難易度情報を取得してもよい。難易度情報取得部１４は、取得した難易度情報を学習部１６に出力する。

　行動情報取得部１５は、コンテンツ決定部１２及び表現決定部１３による決定に応じて行われたユーザへのレコメンドに対するユーザの行動を示す行動情報を取得する機能部である。レコメンドに対するユーザの行動は、例えば、レコメンドの情報を開封して参照した、店舗を訪問した及び店舗においてレコメンドの情報に含まれるクーポンを利用したというものである。また、レコメンドに対するユーザの行動は、上記以外でも、レコメンドによって行った行動であればよい。また、店舗への訪問及びクーポンの利用は、レコメンドの情報が開封された場合のみレコメンドに対するユーザの行動とすることとしてもよい。

　具体的には、行動情報取得部１５は、行動情報として、ユーザへのレコメンドが行われた時刻、レコメンドの情報の開封の有無、開封時刻及びレコメンドされた店舗におけるクーポンの利用の有無を示す情報を取得する。ユーザへのレコメンドが行われた時刻、レコメンドの情報の開封の有無、及び開封時刻を示す情報は、例えば、端末２０でのレコメンド用のアプリケーションを介して取得することができる。クーポンの利用の有無を示す情報は、レコメンドされた店舗におけるユーザの決済に係る情報の取得によって取得することができる。行動情報取得部１５は、取得した行動情報を学習部１６に出力する。

　学習部１６は、難易度情報取得部１４によって取得された難易度情報及び行動情報取得部１５によって取得された行動情報に基づいて、レコメンドの対象であるユーザが行動する難易度を考慮して表現決定部１３による決定方法を学習する機能部である。学習部１６は、行動情報に応じた評価値を、難易度情報に基づいて重み付けし、重み付けされた評価値を用いて、表現決定部１３による決定方法を学習してもよい。

　学習部１６は、難易度情報取得部１４によって取得された難易度情報及び行動情報取得部１５によって取得された行動情報に基づいて、心理バイアス推定モデルの学習を行う。学習部１６による心理バイアス推定モデルの学習は、レコメンドに対してユーザが行動を取っていたら、その心理バイアスが強く推定されるように行われる。その際、上述したように難易度情報に基づいて、レコメンドされたコンテンツの影響が除外されるように学習が行われる。例えば、学習部１６は、以下のように心理バイアス推定モデルの学習を行う。

　学習部１６は、難易度情報取得部１４から難易度情報を入力する。学習部１６は、行動情報取得部１５から行動情報を入力する。また、学習部１６は、難易度情報及び行動情報に対応するレコメンドに係る情報をコンテンツ決定部１２及び表現決定部１３から取得する。図１０に学習部１６によって取得される情報を示す。図１０に示す情報のうち、心理バイアス推定モデルの学習に用いられる情報は、互いに対応付けられた、行動難易度、心理バイアス、Ｐｕｓｈ時間、開封、開封時間及びクーポン利用の各情報である。図１０に示す評価の情報は後述する。

　行動難易度は、難易度情報取得部１４によって取得された難易度情報によって示される、レコメンドされた店舗についての行動難易度である。心理バイアスは、表現決定部１３によって決定されたレコメンドに用いられた心理バイアスである。学習部１６は、この心理バイアスについての、心理バイアス推定モデルのパラメータを更新する。Ｐｕｓｈ時間、開封、開封時間及びクーポン利用は、行動情報取得部１５によって取得された行動情報である。Ｐｕｓｈ時間は、ユーザへのレコメンドが行われた時刻である。開封は、ユーザによってレコメンドの情報の開封が行われたか否かを示す情報である。数値が１であればレコメンドの情報の開封が行われていることを示し、数値が０であればレコメンドの情報の開封が行われていないことを示している。開封時間は、ユーザによってレコメンドの情報の開封が行われた時刻である。

　クーポン利用は、ユーザによってクーポンの利用が行われたか否かを示す情報である。数値が１であればクーポンが利用されていることを示し、数値が０であればクーポンが利用されていないことを示している。行動情報取得部１５によるレコメンド情報の開封に係る情報及びクーポンの利用に係る情報の取得はリアルタイムで行われてもよいし、ユーザへのレコメンドが行われた時刻から予め設定された時間（例えば、数分～数時間）が経過した時点で行われてもよい。予め設定された時間が経過した時点で情報が取得される場合には、その時点での情報となる。

　学習部１６は、行動情報から、行動情報に応じた評価値である行動変容評価値を算出する。ユーザの行動毎に、その行動を取った場合の予め行動変容評価値が設定されている。例えば、開封は０．２、クーポンの利用は０．８といった値である。行動変容評価値は、レコメンドに対して、どの程度の行動を取ったかを示す指標値であり、値が大きいほど、レコメンドを行う側が期待する行動をユーザが取っていることを示す。学習部１６は、行動情報を参照して、ユーザが取った行動について行動変容評価値を算出する。ユーザが複数の行動を取っている場合には、各行動に対応する値の和を行動変容評価値とする。図１０に示す例の場合、ユーザは、開封とクーポン利用とを行っているので、０．２（開封）＋０．８（クーポン利用）＝１．０となる。

　学習部１６は、算出した行動変容評価値を、難易度情報に基づいて重み付けする。例えば、学習部１６は、行動変容評価値に（１－行動難易度）の値を重み付けする。図１０に示す例の場合、重み付け後の行動変容評価値は、（０．２（開封）＋０．８（クーポン利用））×（１－０．８（行動難易度））＝０．２となる。図１０に示す評価は、重み付け後の行動変容評価値である。難易度情報に基づく重み付けの値は、行動難易度の値をマイナスした値を用いているため、値が大きいほどユーザが行動を取らない傾向を示している。

　従って、重み付け後の行動変容評価値は、レコメンドされたコンテンツの影響（バイアス）、即ち、ユーザの趣味趣向の影響を除外した、レコメンドに対するユーザの反応を示す値である。また、難易度情報が、コンテンツ（店舗）の状況を含んだものである場合には、その影響も除外している。

　図１１に示すように、続いて、学習部１６は、心理バイアスの評価値の算出に用いたユーザの特徴量と、更新対象となる心理バイアス推定モデルのパラメータとの勾配を算出する。勾配を算出する際には、適切に勾配を算出できるように、通常、ユーザの特徴量に対する正規化が必要となる。そのような正規化として、例えば、ユーザの特徴量の各要素の値に予め設定された値（図１１に示すｎ）を掛けてもよい。正規化は、上記以外にも、ユーザの特徴量を入力とし、正規化された特徴量を出力する予め設定した関数ｆを用いてもよい。関数ｆは、一般的な正規化を行うものである。勾配の算出は、２つのベクトルから交差エントロピー誤差を求めることで行われる。あるいは、勾配の算出は、交差エントロピー誤差以外の手法で行われてもよい。算出される勾配は、特徴量及び心理バイアス推定モデルのパラメータの次元数と同じ次元数のベクトルである。

　学習部１６は、勾配の各要素に重み付け後の行動変容評価値を掛けて更新パラメータとする。学習部１６は、更新対象となる心理バイアス推定モデルのパラメータと、更新パラメータとを要素毎に足し合わせて、更新後のパラメータ（学習後のパラメータ）とする。

　学習部１６によって学習された心理バイアス推定モデルは、それ以降のレコメンドに用いられる。また、レコメンドが行われる度に学習部１６による学習は、繰り返し行われる。繰り返しの学習が行われることで、心理バイアス推定モデルの精度が向上し、より適切なレコメンドの表現の決定を行えるようになる。

　なお、学習部１６による学習は、必ずしも上記のように行われる必要はなく、難易度情報及び行動情報に基づいて、レコメンドの対象であるユーザが行動する難易度を考慮して行われるものであればよい。

　学習部１６による学習は、ユーザにレコメンドが行われた時刻から予め設定した時間が経過したタイミングで行われてもよいし、予め設定された時刻（例えば、１日のうちの特定の時刻）に行われてもよい。あるいは、学習部１６による学習は、制限時間（例えば、ユーザにレコメンドが行われた時刻から予め設定した時間）内に、レコメンドに対してユーザが行動を起こしたタイミングで行われてもよい。例えば、行動情報取得部１５が、レコメンドに対してユーザが行動を起こしたことを示す行動情報をリアルタイムに取得して学習部１６に入力するようにしておき、学習部１６は、行動情報取得部１５から行動情報を入力したら学習を行う。レコメンドに対してユーザが行動を起こしたことを示す行動情報が取得できたタイミングで学習は行える状況にあるためである。また、学習部１６は、心理バイアス推定モデル（表現決定部１３によるレコメンドの表現の決定方法）に加えて、コンテンツ内容選定モデル（コンテンツ決定部１２によるレコメンドするコンテンツの決定方法）も学習してもよい。コンテンツ内容選定モデルの学習は、従来技術等によって行われればよい。以上が、本実施形態に係るレコメンドシステム１０の機能である。

　引き続いて、図１２のフローチャートを用いて、本実施形態に係るレコメンドシステム１０で実行される処理（レコメンドシステム１０が行う動作方法）を説明する。本処理は、ユーザに対するレコメンドが行われる際（例えば、上述したＰｕｓｈ発火をトリガ）に行われる。まず、ユーザ情報取得部１１によって、レコメンドの対象であるユーザに係るユーザ情報が取得される（Ｓ０１）。続いて、コンテンツ決定部１２によって、レコメンドする候補の店舗毎に行動難易度が算出される（Ｓ０２）。この算出は、ユーザ情報及び店舗の情報に基づいて行われる。続いて、コンテンツ決定部１２によって、行動難易度に基づいて、ユーザにレコメンドする店舗、即ち、レコメンド内容が決定される（Ｓ０３）。この際、上述したように「送客」、「ピークシフト」等のレコメンドの種別が決定されてもよい。

　続いて、表現決定部１３によって、心理バイアス推定モデルが用いられて、ユーザの心理バイアスが推定される（Ｓ０４）。この推定は、ユーザ情報に基づいて行われる。続いて、表現決定部１３によって、推定された心理バイアスに基づいてレコメンドの表現であるナッジ文言が決定される（Ｓ０５）。なお、レコメンドする店舗の決定（Ｓ０３）及びナッジ文言の決定（Ｓ０５）は、並行して行われてもよい。続いて、決定された店舗及びナッジ文言からレコメンドの情報が生成されてユーザへのレコメンドが行われる（Ｓ０６）。ユーザへのレコメンドは、例えば、レコメンドの情報が端末２０に送信されることで行われる。

　以降の処理は、心理バイアス推定モデルの学習に係る処理である。この処理は、レコメンドに対するユーザの行動に応じたものとなるため、通常、レコメンドから所定の時間をあけて行われる。本処理では、難易度情報取得部１４によって、コンテンツ決定部１２によって決定されたコンテンツに対してユーザが行動する難易度を示す難易度情報が取得される（Ｓ０７）。また、行動情報取得部１５によって、ユーザへのレコメンドに対するユーザの行動を示す行動情報が取得される（Ｓ０８）。続いて、学習部１６によって、難易度情報及び行動情報に基づいて、レコメンドの対象であるユーザが行動する難易度が考慮された心理バイアス推定モデルの学習が行われる（Ｓ０９）。学習後の心理バイアス推定モデルは、それ以降のユーザへのレコメンドに用いられる。以上が、本実施形態に係るレコメンドシステム１０で実行される処理である。

　本実施形態では、レコメンドの表現の決定方法を示す心理バイアス推定モデルを学習する際に、レコメンドされるコンテンツに対してユーザが行動する難易度が考慮される。このため、例えば、レコメンドに対するユーザの行動から、ユーザの趣味趣向の影響を除外して、心理バイアス推定モデルを学習することができる。これにより、本実施形態によれば、レコメンドの表現の決定方法の学習をより適切に行うことができる。

　また、本実施形態にように、心理バイアス推定モデルの学習は、行動情報に応じた評価値（例えば、上述した行動変容評価値）を、難易度情報に基づいて重み付けし、重み付けされた評価値を用いて行ってもよい。この構成によれば、レコメンドの表現の決定方法の学習をより適切かつ確実に行うことができる。例えば、レコメンドに対するユーザの行動から、ユーザの趣味趣向の影響を確実に除外して、心理バイアス推定モデルを学習することができる。但し、心理バイアス推定モデルの学習は、必ずしも上記のように行われる必要はなく、難易度情報及び行動情報に基づいて、レコメンドの対象であるユーザが行動する難易度を考慮して行われるものであればよい。また、心理バイアス推定モデルの学習は、上述したようなバンディットアルゴリズムによって行われてもよいし、それ以外の方法で行われてもよい。

　また、本実施形態のように、レコメンドする際の表現は、レコメンドの対象であるユーザの心理バイアスに応じた表現としてもよい。この構成によれば、ユーザの心理バイアスに応じた適切な表現でリマインダを行うことができ、レコメンドの効果を高めることができる。但し、レコメンドする際の表現は、必ずしも心理バイアスに応じたものとする必要はない。

　また、本実施形態にように、難易度情報によって示される難易度は、ユーザのコンテンツの過去の利用状況、ユーザの興味、レコメンド時のユーザの状況、及びレコメンド時のコンテンツの状況に少なくとも何れかを反映したものとしてもよい。この構成によれば、難易度情報を適切かつ確実なものとすることができる。その結果、レコメンドの表現の決定方法の学習をより適切かつ確実に行うことができる。但し、難易度情報によって示される難易度は、必ずしも上記のものである必要はなく、コンテンツに対してユーザが行動する難易度であればよい。

　なお、本実施形態では、レコメンドの表現の決定方法は、心理バイアス推定モデルを用いて行うものとしたが、必ずしも心理バイアス推定モデルを用いるものでなくてもよい。レコメンドの表現の決定方法は、上述した枠組みで学習可能なものであれば任意のものを用いることができる。また、心理バイアス推定モデルを用いる場合も、必ずしも上述したものである必要はなく、上述した枠組みで学習可能なものであれば任意の心理バイアス推定モデルを用いることができる。

　なお、上記実施形態の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック（構成部）は、ハードウェア及びソフトウェアの少なくとも一方の任意の組み合わせによって実現される。また、各機能ブロックの実現方法は特に限定されない。すなわち、各機能ブロックは、物理的又は論理的に結合した１つの装置を用いて実現されてもよいし、物理的又は論理的に分離した２つ以上の装置を直接的又は間接的に（例えば、有線、無線などを用いて）接続し、これら複数の装置を用いて実現されてもよい。機能ブロックは、上記１つの装置又は上記複数の装置にソフトウェアを組み合わせて実現されてもよい。

　機能には、判断、決定、判定、計算、算出、処理、導出、調査、探索、確認、受信、送信、出力、アクセス、解決、選択、選定、確立、比較、想定、期待、見做し、報知（broadcasting）、通知（notifying）、通信（communicating）、転送（forwarding）、構成（configuring）、再構成（reconfiguring）、割り当て（allocating、mapping）、割り振り（assigning）などがあるが、これらに限られない。たとえば、送信を機能させる機能ブロック（構成部）は、送信部（transmitting　unit）又は送信機（transmitter）と呼称される。いずれも、上述したとおり、実現方法は特に限定されない。

　例えば、本開示の一実施の形態におけるレコメンドシステム１０は、本開示の情報処理を行うコンピュータとして機能してもよい。図１３は、本開示の一実施の形態に係るレコメンドシステム１０のハードウェア構成の一例を示す図である。上述のレコメンドシステム１０は、物理的には、プロセッサ１００１、メモリ１００２、ストレージ１００３、通信装置１００４、入力装置１００５、出力装置１００６、バス１００７などを含むコンピュータ装置として構成されてもよい。端末２０のハードウェア構成も、ここで説明するものであってもよい。

　なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。レコメンドシステム１０のハードウェア構成は、図に示した各装置を１つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。

　レコメンドシステム１０における各機能は、プロセッサ１００１、メモリ１００２などのハードウェア上に所定のソフトウェア（プログラム）を読み込ませることによって、プロセッサ１００１が演算を行い、通信装置１００４による通信を制御したり、メモリ１００２及びストレージ１００３におけるデータの読み出し及び書き込みの少なくとも一方を制御したりすることによって実現される。

　プロセッサ１００１は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ１００１は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置（ＣＰＵ：Central　Processing　Unit）によって構成されてもよい。例えば、上述のレコメンドシステム１０における各機能は、プロセッサ１００１によって実現されてもよい。

　また、プロセッサ１００１は、プログラム（プログラムコード）、ソフトウェアモジュール、データなどを、ストレージ１００３及び通信装置１００４の少なくとも一方からメモリ１００２に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態において説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、レコメンドシステム１０における各機能は、メモリ１００２に格納され、プロセッサ１００１において動作する制御プログラムによって実現されてもよい。上述の各種処理は、１つのプロセッサ１００１によって実行される旨を説明してきたが、２以上のプロセッサ１００１により同時又は逐次に実行されてもよい。プロセッサ１００１は、１以上のチップによって実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。

　メモリ１００２は、コンピュータ読み取り可能な記録媒体であり、例えば、ＲＯＭ（Read　Only　Memory）、ＥＰＲＯＭ（Erasable　Programmable　ＲＯＭ）、ＥＥＰＲＯＭ（Electrically　Erasable　Programmable　ＲＯＭ）、ＲＡＭ（Random　Access　Memory）などの少なくとも１つによって構成されてもよい。メモリ１００２は、レジスタ、キャッシュ、メインメモリ（主記憶装置）などと呼ばれてもよい。メモリ１００２は、本開示の一実施の形態に係る情報処理を実施するために実行可能なプログラム（プログラムコード）、ソフトウェアモジュールなどを保存することができる。

　ストレージ１００３は、コンピュータ読み取り可能な記録媒体であり、例えば、ＣＤ－ＲＯＭ（Compact　Disc　ＲＯＭ）などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Ｂｌｕ－ｒａｙ（登録商標）ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー（登録商標）ディスク、磁気ストリップなどの少なくとも１つによって構成されてもよい。ストレージ１００３は、補助記憶装置と呼ばれてもよい。レコメンドシステム１０が備える記憶媒体は、例えば、メモリ１００２及びストレージ１００３の少なくとも一方を含むデータベース、サーバその他の適切な媒体であってもよい。

　通信装置１００４は、有線ネットワーク及び無線ネットワークの少なくとも一方を介してコンピュータ間の通信を行うためのハードウェア（送受信デバイス）であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。

　入力装置１００５は、外部からの入力を受け付ける入力デバイス（例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど）である。出力装置１００６は、外部への出力を実施する出力デバイス（例えば、ディスプレイ、スピーカー、LEDランプなど）である。なお、入力装置１００５及び出力装置１００６は、一体となった構成（例えば、タッチパネル）であってもよい。

　また、プロセッサ１００１、メモリ１００２などの各装置は、情報を通信するためのバス１００７によって接続される。バス１００７は、単一のバスを用いて構成されてもよいし、装置間ごとに異なるバスを用いて構成されてもよい。

　また、レコメンドシステム１０は、マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ：Digital　Signal　Processor）、ＡＳＩＣ（Application　Specific　Integrated　Circuit）、ＰＬＤ（Programmable　Logic　Device）、ＦＰＧＡ（Field　Programmable　Gate　Array）などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ１００１は、これらのハードウェアの少なくとも１つを用いて実装されてもよい。

　本開示において説明した各態様／実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本開示において説明した方法については、例示的な順序を用いて様々なステップの要素を提示しており、提示した特定の順序に限定されない。

　入出力された情報等は特定の場所（例えば、メモリ）に保存されてもよいし、管理テーブルを用いて管理してもよい。入出力される情報等は、上書き、更新、又は追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。

　判定は、１ビットで表される値（０か１か）によって行われてもよいし、真偽値（Boolean：true又はfalse）によって行われてもよいし、数値の比較（例えば、所定の値との比較）によって行われてもよい。

　本開示において説明した各態様／実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知（例えば、「Ｘであること」の通知）は、明示的に行うものに限られず、暗黙的（例えば、当該所定の情報の通知を行わない）ことによって行われてもよい。

　以上、本開示について詳細に説明したが、当業者にとっては、本開示が本開示中に説明した実施形態に限定されるものではないということは明らかである。本開示は、請求の範囲の記載により定まる本開示の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本開示の記載は、例示説明を目的とするものであり、本開示に対して何ら制限的な意味を有するものではない。

　ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。

　また、ソフトウェア、命令、情報などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、有線技術（同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ：Digital　Subscriber　Line）など）及び無線技術（赤外線、マイクロ波など）の少なくとも一方を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び無線技術の少なくとも一方は、伝送媒体の定義内に含まれる。

　本開示において使用する「システム」及び「ネットワーク」という用語は、互換的に使用される。

　また、本開示において説明した情報、パラメータなどは、絶対値を用いて表されてもよいし、所定の値からの相対値を用いて表されてもよいし、対応する別の情報を用いて表されてもよい。

　本開示で使用する「判断(determining)」、「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、判定(judging)、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking　up、search、inquiry)（例えば、テーブル、データベース又は別のデータ構造での探索）、確認(ascertaining)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信(receiving)（例えば、情報を受信すること）、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)（例えば、メモリ中のデータにアクセスすること）した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。また、「判断（決定）」は、「想定する（assuming）」、「期待する（expecting）」、「みなす（considering）」などで読み替えられてもよい。

　「接続された(connected)」、「結合された(coupled)」という用語、又はこれらのあらゆる変形は、２又はそれ以上の要素間の直接的又は間接的なあらゆる接続又は結合を意味し、互いに「接続」又は「結合」された２つの要素間に１又はそれ以上の中間要素が存在することを含むことができる。要素間の結合又は接続は、物理的なものであっても、論理的なものであっても、或いはこれらの組み合わせであってもよい。例えば、「接続」は「アクセス」で読み替えられてもよい。本開示で使用する場合、２つの要素は、１又はそれ以上の電線、ケーブル及びプリント電気接続の少なくとも一つを用いて、並びにいくつかの非限定的かつ非包括的な例として、無線周波数領域、マイクロ波領域及び光（可視及び不可視の両方）領域の波長を有する電磁エネルギーなどを用いて、互いに「接続」又は「結合」されると考えることができる。

　本開示において使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。

　本開示において使用する「第１の」、「第２の」などの呼称を使用した要素へのいかなる参照も、それらの要素の量又は順序を全般的に限定しない。これらの呼称は、２つ以上の要素間を区別する便利な方法として本開示において使用され得る。したがって、第１及び第２の要素への参照は、２つの要素のみが採用され得ること、又は何らかの形で第１の要素が第２の要素に先行しなければならないことを意味しない。

　本開示において、「含む（include）」、「含んでいる（including）」及びそれらの変形が使用されている場合、これらの用語は、用語「備える（comprising）」と同様に、包括的であることが意図される。さらに、本開示において使用されている用語「又は（or）」は、排他的論理和ではないことが意図される。

　本開示において、例えば、英語でのa,　an及びtheのように、翻訳により冠詞が追加された場合、本開示は、これらの冠詞の後に続く名詞が複数形であることを含んでもよい。

　本開示において、「ＡとＢが異なる」という用語は、「ＡとＢが互いに異なる」ことを意味してもよい。なお、当該用語は、「ＡとＢがそれぞれＣと異なる」ことを意味してもよい。「離れる」、「結合される」などの用語も、「異なる」と同様に解釈されてもよい。

　１０…レコメンドシステム、１１…ユーザ情報取得部、１２…コンテンツ決定部、１３…表現決定部、１４…難易度情報取得部、１５…行動情報取得部、１６…学習部、２０…端末、１００１…プロセッサ、１００２…メモリ、１００３…ストレージ、１００４…通信装置、１００５…入力装置、１００６…出力装置、１００７…バス。

Claims

　レコメンドの対象であるユーザに係るユーザ情報を取得するユーザ情報取得部と、
　前記ユーザ情報取得部によって取得されたユーザ情報の少なくとも一部に基づいて、ユーザにレコメンドするコンテンツを決定するコンテンツ決定部と、
　前記ユーザ情報取得部によって取得されたユーザ情報の少なくとも一部に基づいて、前記コンテンツ決定部によって決定されたコンテンツをユーザにレコメンドする際の表現を決定する表現決定部と、
　前記コンテンツ決定部によって決定されたコンテンツに対してユーザが行動する難易度を示す難易度情報を取得する難易度情報取得部と、
　前記コンテンツ決定部及び前記表現決定部による決定に応じて行われたユーザへのレコメンドに対するユーザの行動を示す行動情報を取得する行動情報取得部と、
　前記難易度情報取得部によって取得された難易度情報及び前記行動情報取得部によって取得された行動情報に基づいて、レコメンドの対象であるユーザが行動する難易度を考慮して前記表現決定部による決定方法を学習する学習部と、
を備えるレコメンドシステム。
　前記学習部は、前記行動情報に応じた評価値を、前記難易度情報に基づいて重み付けし、重み付けされた評価値を用いて、前記表現決定部による決定方法を学習する請求項１に記載のレコメンドシステム。
　前記表現決定部は、レコメンドする際の表現として、レコメンドの対象であるユーザの心理的なバイアスに応じた表現を決定する請求項１又は２に記載のレコメンドシステム。
　前記難易度情報取得部は、ユーザのコンテンツの過去の利用状況、ユーザの興味、レコメンド時のユーザの状況、及びレコメンド時のコンテンツの状況に少なくとも何れかを反映した前記難易度を示す難易度情報を取得する請求項１～３の何れか一項に記載のレコメンドシステム。