WO2022239178A1

WO2022239178A1 - インセンティブ最適化方法、インセンティブ最適化装置、及びプログラム

Info

Publication number: WO2022239178A1
Application number: PCT/JP2021/018182
Authority: WO
Inventors: 秀明金; 健倉島; 浩之戸田
Original assignee: 日本電信電話株式会社
Priority date: 2021-05-13
Filing date: 2021-05-13
Publication date: 2022-11-17
Also published as: JPWO2022239178A1

Abstract

一実施形態に係るインセンティブ最適化方法は、個人の行動に対するインセンティブの付与方法を最適化するためのインセンティブ最適化方法であって、前記行動の系列と前記系列に対するインセンティブの付与方法の観測データを用いて、前記インセンティブの付与方法と目標行動に対する達成度をそれぞれ入力と出力に持つモデルのパラメータを前記個人毎に推定するパラメータ推定手順と、前記パラメータ推定手順で推定されたパラメータを設定した前記モデルを用いて、前記達成度を最大化するインセンティブの付与方法を算出する最適化手順と、をコンピュータが実行する。

Description

インセンティブ最適化方法、インセンティブ最適化装置、及びプログラム

　本発明は、インセンティブ最適化方法、インセンティブ最適化装置、及びプログラムに関する。

　インセンティブによる目標行動の達成、あるいは目標習慣の形成に関する従来技術として、非特許文献１に記載されている技術が知られている。非特許文献１には、運動習慣の形成を目的として、運動量に応じたインセンティブ（金銭）の付与によって人の運動習慣の形成が促進されることが開示されている。

Finkelstein, Eric. A., et al., "A Randomized Study of Financial Incentives to Increase Physical Activity among Sedentary Older Adults", Preventive medicine, 47(2), pp.182-187.

　ところで、或る目標行動の達成において、インセンティブによる効果の大きさは同じ量や回数、タイミングのインセンティブであっても個人毎に異なると考えられる。また、行動の開始から目標達成までの期間が長い場合、目標の達成によりインセンティブが得られるまでの期間が長くなることでインセンティブの魅力が小さくなり、結果としてインセンティブの効果が小さくなる可能性がある。

　しかしながら、非特許文献１に記載されている技術では、インセンティブの付与方法が個人毎に最適化されておらず、またインセンティブが得られるまでの期間の影響が考慮されていないため、インセンティブを有効に活用できていない可能性がある。

　本発明の一実施形態は、上記の点に鑑みてなされたもので、インセンティブが得られるまでの期間も考慮して、インセンティブの付与方法を個人毎に最適化することを目的とする。

　上記目的を達成するため、一実施形態に係るインセンティブ最適化方法は、個人の行動に対するインセンティブの付与方法を最適化するためのインセンティブ最適化方法であって、前記行動の系列と前記系列に対するインセンティブの付与方法の観測データを用いて、前記インセンティブの付与方法と目標行動に対する達成度をそれぞれ入力と出力に持つモデルのパラメータを前記個人毎に推定するパラメータ推定手順と、前記パラメータ推定手順で推定されたパラメータを設定した前記モデルを用いて、前記達成度を最大化するインセンティブの付与方法を算出する最適化手順と、をコンピュータが実行する。

　インセンティブが得られるまでの期間も考慮して、インセンティブの付与方法を個人毎に最適化することができる。

時間割引を説明するための図である。本実施形態に係るインセンティブ最適化装置のハードウェア構成の一例を示す図である。本実施形態に係るインセンティブ最適化装置の機能構成の一例を示す図である。本実施形態に係るインセンティブ最適化処理の一例を示すフローチャートである。推定パラメータ値の出力例を示す図である。最大達成度及び最適なインセンティブの出力例を示す図である。

　以下、本発明の一実施形態について説明する。本実施形態では、インセンティブが得られるまでの期間も考慮して、インセンティブの付与方法を個人毎に最適化することができるインセンティブ最適化装置１０について説明する。

　ここで、本実施形態に係るインセンティブ最適化装置１０は、以下の（１）及び（２）により、インセンティブが得られるまでの期間も考慮して、インセンティブの付与方法を個人毎に最適化する。

　（１）インセンティブの付与方法を入力、目標行動に対する達成度を出力とする数理モデル（以下、「行動モデル」ともいう。）を個人毎に用意し、各個人の行動モデルに基づいてインセンティブの付与方法を最適化する。ここで、インセンティブの付与方法は、インセンティブの回数と、各回のタイミング及びインセンティブの大きさ（量）とで構成されるものとする。

　（２）行動モデルにおいて、遠い将来に得られるインセンティブを近い将来に得られるインセンティブに対して低く評価する行動経済学現象、すなわち時間割引を考慮する。ここで、時間割引とは、図１に示すように、インセンティブの付与まで時間的に離れている場合はインセンティブを低く評価し、インセンティブの付与まで時間的に近い場合はインセンティブを高く評価することである。

　＜ハードウェア構成＞
　まず、本実施形態に係るインセンティブ最適化装置１０のハードウェア構成について、図２を参照しながら説明する。図２は、本実施形態に係るインセンティブ最適化装置１０のハードウェア構成の一例を示す図である。

　図２に示すように、本実施形態に係るインセンティブ最適化装置１０は一般的なコンピュータ又はコンピュータシステムのハードウェア構成で実現され、入力装置１０１と、表示装置１０２と、外部Ｉ／Ｆ１０３と、通信Ｉ／Ｆ１０４と、プロセッサ１０５と、メモリ装置１０６とを有する。これらの各ハードウェアは、それぞれがバス１０７により通信可能に接続される。

　入力装置１０１は、例えば、キーボードやマウス、タッチパネル等である。表示装置１０２は、例えば、ディスプレイ等である。なお、インセンティブ最適化装置１０は、例えば、入力装置１０１及び表示装置１０２のうちの少なくとも一方を有していなくてもよい。

　外部Ｉ／Ｆ１０３は、記録媒体１０３ａ等の外部装置とのインタフェースである。インセンティブ最適化装置１０は、外部Ｉ／Ｆ１０３を介して、記録媒体１０３ａの読み取りや書き込み等を行うことができる。なお、記録媒体１０３ａとしては、例えば、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disk）、ＳＤメモリカード（Secure Digital memory card）、ＵＳＢ（Universal Serial Bus）メモリカード等が挙げられる。

　通信Ｉ／Ｆ１０４は、インセンティブ最適化装置１０を通信ネットワークに接続するためのインタフェースである。プロセッサ１０５は、例えば、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）等の各種演算装置である。メモリ装置１０６は、例えば、ＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ等の各種記憶装置である。

　本実施形態に係るインセンティブ最適化装置１０は、図２に示すハードウェア構成を有することにより、後述するインセンティブ最適化処理を実現することができる。なお、図２に示すハードウェア構成は一例であって、インセンティブ最適化装置１０は、複数のプロセッサ１０５を有していてもよいし、複数のメモリ装置１０６を有していてもよい。

　＜機能構成＞
　次に、本実施形態に係るインセンティブ最適化装置１０の機能構成について、図３を参照しながら説明する。図３は、本実施形態に係るインセンティブ最適化装置１０の機能構成の一例を示す図である。

　図３に示すように、本実施形態に係るインセンティブ最適化装置１０は、パラメータ推定部２０１と、インセンティブ最適化部２０２とを有する。これら各部は、例えば、インセンティブ最適化装置１０にインストールされた１以上のプログラムが、プロセッサ１０５に実行させる処理により実現される。

　パラメータ推定部２０１は、各個人の行動履歴データを入力として各個人の行動モデルのパラメータを推定し、その推定結果として推定パラメータ値を出力する。

　インセンティブ最適化部２０２は、推定パラメータ値とインセンティブの付与方法に関する条件である最適化条件とを入力として、各個人の行動モデルにより、目標行動の達成度を最大化するインセンティブ付与方法を表す最適インセンティブを探索し、その最適インセンティブとそのときの達成度（最大達成度）とを出力する。

　なお、図１に示す例では、１台のインセンティブ最適化装置１０がパラメータ推定部２０１とインセンティブ最適化部２０２とを有しているが、これは一例であって、例えば、パラメータ推定部２０１とインセンティブ最適化部２０２とをそれぞれ異なる装置が有していてもよい。

　＜インセンティブ最適化処理＞
　次に、本実施形態に係るインセンティブ最適化処理について、図４を参照しながら説明する。図４は、本実施形態に係るインセンティブ最適化処理の一例を示すフローチャートである。ステップＳ１０１～ステップＳ１０３は行動モデルのパラメータを推定するためのパラメータ推定フェーズであり、ステップＳ１０４～ステップＳ１０６は推定パラメータ値を設定した行動モデルにより最大達成度及び最適インセンティブを得るためのインセンティブ最適化フェーズである。なお、パラメータ推定フェーズでは各個人の行動履歴データがインセンティブ最適化装置１０に与えられ、インセンティブ最適化フェーズでは推定パラメータ値と最適化条件がインセンティブ最適化装置１０に与えられる。

　ステップＳ１０１：まず、パラメータ推定部２０１は、各個人の行動履歴データを入力する。

　行動履歴データとは、各個人（以下、ユーザともいう。）の行動とそれに対するインセンティブの回数、時刻（又は、年月日や日時等でもよい。）、量に関する観測データのことである。ユーザを識別するＩＤ等をｕ、ユーザの総数をＵ、ユーザｕの目標とする行動の期間の長さをＴ^ｕ、ユーザｕで観測されたインセンティブ付与の回数をＮ^ｕとする。このとき、行動履歴データは、ユーザｕの各観測時刻における行動の系列｛ｙ_ｔ ^ｕ｝と、ユーザｕで観測されたインセンティブ付与の時刻の系列｛ｓ_ｎ ^ｕ｝と、ユーザｕに付与されたインセンティブ量の系列｛ｍ_ｎ ^ｕ｝とで構成される。ここで、

とする。

　ただし、行動の観測値｛ｙ_ｔ ^ｕ｝は、目標とする行動の良さを定量的に評価した数値であるものとする。例えば、ウォーキング習慣の形成を目的とする場合、行動の観測値を１日の歩数等とすることが挙げられる。また、インセンティブ量の例としては、金銭やポイント等が挙げられる。

　ステップＳ１０２：次に、パラメータ推定部２０１は、上記のステップＳ１０１で入力した行動履歴データを用いて、各個人の行動モデルのパラメータを推定する。

　行動モデルとは、インセンティブの付与方法を入力、目標行動に対する達成度を出力とする数理モデルであり、本ステップでは、この行動モデルのパラメータをユーザｕ毎に推定する。

　まず、各ユーザの時刻ｔにおける行動ｙ_ｔが以下の式（１）で与えられる状況を考える。

　ここで、ｓ_ｉはｉ回目に付与されるインセンティブの時刻（ただし、ｓ_０＝１とする。）、ｍ_ｉはｉ回目のインセンティブ量、θはパラメータ、ｈ（ｔ｜ｓ_ｉ－１，ｓ_ｉ，θ）はｉ回目に付与されるインセンティブの単位インセンティブ量あたりの行動への影響度を表す。特に時間割引を考慮する場合、ｈ（ｔ｜ｓ_ｉ－１，ｓ_ｉ，θ）は時刻ｔに対して単調増加関数となるように設計される。また、ｘ_ｔは内部状態を表し、関数σ（ｘ）を通じて観測される行動ｙ_ｔに変換されるものとする。

　なお、単位インセンティブ量あたりの行動への影響度ｈ（ｔ｜ｓ_ｉ－１，ｓ_ｉ，θ）は、例えば、双曲割引を考慮した関数ｈ（ｔ｜ｓ_ｉ－１，ｓ_ｉ，θ）＝１／（１＋θ（ｓ_ｉ－ｔ））等で与えられる。

　次に、長さＴの期間における行動の系列｛ｙ_ｔ｝≡（ｙ_１，ｙ_２，・・・，ｙ_Ｔ）から目標行動の達成度を算出する評価関数Ｇ（｛ｙ_ｔ｝）を定義する。

　目標行動の達成度＝Ｇ（｛ｙ_ｔ｝）　　　　（２）
　上記の式（１）及び式（２）により行動モデルが定義される。

　なお、評価関数Ｇ（｛ｙ_ｔ｝）としては、目標行動に応じて任意に設計されるが、行動の系列｛ｙ_ｔ｝が目標に近付くほど達成度が高く、行動の系列｛ｙ_ｔ｝が目標から遠ざかるほど達成度が低くなるものとする。

　したがって、パラメータ推定部２０１は、行動モデルから予測される行動と、行動履歴データとの差分Δｙを最小化するようにパラメータθを推定する。ただし、パラメータの推定はユーザｕ毎に行われる。

　すなわち、パラメータ推定部２０１は、以下の式（３）によりユーザｕのパラメータθ^ｕを推定する。

　ただし、γは非負の値とする。

　ステップＳ１０３：そして、パラメータ推定部２０１は、上記のステップＳ１０２で推定されたパラメータθ^ｕを推定パラメータ値として出力する。ここで、推定パラメータ値の出力例を図５に示す。図５に示す例では、ユーザｕ＝１のパラメータθ^ｕ＝０．３、ユーザｕ＝２のパラメータθ^ｕ＝０．１、及びユーザｕ＝３のパラメータθ^ｕ＝２．１等が推定パラメータ値として出力された場合の例を示している。なお、推定パラメータ値の出力先は任意に設定することが可能であるが、例えば、表示装置１０２、メモリ装置１０６、通信ネットワークを介して接続される他の装置等が挙げられる。

　ステップＳ１０４：続いて、インセンティブ最適化部２０２は、推定パラメータ値と最適化条件とを入力する。

　ここで、ユーザｕに関するインセンティブの付与方法をＺ^ｕとする。インセンティブの付与方法Ｚ^ｕは、インセンティブの回数Ｎと、インセンティブ付与の時刻の系列｛ｓ_ｎ｝≡（ｓ_１，ｓ_２，・・・，ｓ_Ｎ）と、ユーザｕに付与されるインセンティブ量の系列｛ｍ_ｎ｝≡（ｍ_１，ｍ_２，・・・，ｍ_Ｎ）とで構成される。つまり、Ｚ^ｕ≡（Ｎ，｛ｓ_ｎ｝，｛ｍ_ｎ｝）とする。また、このとき、インセンティブの付与方法を最適化するにあたり、インセンティブの付与方法に関して考慮すべき条件（最適化条件）をＣ_Ｚ ^ｕとする。

　最適化条件Ｇ_Ｚ ^ｕは、具体的には、ユーザｕに関する様々なインセンティブ付与方法の集合のことである。例えば、インセンティブ付与方法をＺとして、｛Ｚ｜Ｎ＝３，インセンティブ量の合計＝１００００｝といった集合等のことである。これは、インセンティブ付与回数が３回で、インセンティブ量の合計が１００００であるインセンティブ付与方法Ｚの集合を表している。このような或る条件を満たすインセンティブ付与方法の中から最適なインセンティブ付与方法（つまり、インセンティブの効果（目標行動の達成度）を最大化する付与方法）を探索することが目的である。この意味で最適化条件Ｇ_Ｚ ^ｕは、ユーザｕに関するインセンティブ付与方法の探索空間のことである。なお、どのような条件を満たすインセンティブ付与方法の集合をＧ_Ｚ ^ｕとするかは、インセンティブの設計者等によって決定される。

　ステップＳ１０５：次に、インセンティブ最適化部２０２は、上記のステップＳ１０４で入力した推定パラメータ値と最適化条件とを用いて、最適なインセンティブの付与方法Ｚ^ｕを算出する。すなわち、インセンティブ最適化部２０２は、以下の式（４）によりユーザｕの最適なインセンティブ付与方法Ｚ^ｕを探索する。

　ただし、ユーザｕの最適なインセンティブ付与方法Ｚ^ｕを探索する際には、パラメータθ^ｕが設定された行動モデルを用いる。なお、ユーザｕの最適なインセンティブ付与方法Ｚ^ｕは既知のアルゴリズム（例えば、総当たり法等）により探索すればよい。

　上記の最適なインセンティブ付与方法Ｚ^ｕは、各ユーザｕ∈｛１，２．・・・，Ｕ｝に対して探索される。これにより、ユーザ毎に最適インセンティブと最大達成度とが得られる。

　ステップＳ１０６：そして、インセンティブ最適化部２０２は、上記のステップＳ１０５で得られた最大達成度及び最適インセンティブを出力する。ここで、最大達成度Ｇ^＊及び最適インセンティブＺ^ｕ＊＝（Ｎ，｛ｓ_ｎ｝，｛ｍ_ｎ｝）の出力例を図６に示す。図６に示す例では、ユーザｕ＝１の最大達成度Ｇ^＊＝１０．５、最適なインセンティブ回数Ｎ＝３、最適なインセンティブ付与時刻（３，５，１０）、各時刻での最適なインセンティブ量（２千円、５千円、３千円）が出力された場合の例を示している。同様に、ユーザｕ＝２の最大達成度Ｇ^＊＝２０．３、最適なインセンティブ回数Ｎ＝１、最適なインセンティブ付与時刻（１０）、各時刻での最適なインセンティブ量（１万）が出力された場合の例を示している。同様に、ユーザｕ＝３の最大達成度Ｇ^＊＝１２．４、最適なインセンティブ回数Ｎ＝３、最適なインセンティブ付与時刻（１，２，１０）、各時刻での最適なインセンティブ量（１千円、１千円、８千円）が出力された場合の例を示している。この図６に示す例では、各ユーザｕの金銭的インセンティブの予算（つまり、各ユーザｕのインセンティブ量の合計）が１万円であることを条件としている。なお、最大達成度及び最適インセンティブの出力先は任意に設定することが可能であるが、例えば、表示装置１０２、メモリ装置１０６、通信ネットワークを介して接続される他の装置等が挙げられる。

　＜まとめ＞
　以上のように、本実施形態に係るインセンティブ最適化装置１０は、インセンティブが付与されるまでの期間も考慮した行動モデルをユーザ毎に作成し、この行動モデルを用いて最適なインセンティブ付与方法、すなわち目標行動の達成度を最大化するインセンティブ付与方法をユーザ毎に探索する。これにより、各個人のインセンティブに対する行動原理に基づいて、その個人が目標とする行動を達成するために最も効果的なインセンティブの付与方法を個人毎に特定することができるようになる。

　本発明は、具体的に開示された上記の実施形態に限定されるものではなく、請求の範囲の記載から逸脱することなく、種々の変形や変更、既知の技術との組み合わせ等が可能である。

　１０　　　　インセンティブ最適化装置
　１０１　　　入力装置
　１０２　　　表示装置
　１０３　　　外部Ｉ／Ｆ
　１０３ａ　　記録媒体
　１０４　　　通信Ｉ／Ｆ
　１０５　　　プロセッサ
　１０６　　　メモリ装置
　１０７　　　バス
　２０１　　　パラメータ推定部
　２０２　　　インセンティブ最適化部

Claims

　個人の行動に対するインセンティブの付与方法を最適化するためのインセンティブ最適化方法であって、
　前記行動の系列と前記系列に対するインセンティブの付与方法の観測データを用いて、前記インセンティブの付与方法と目標行動に対する達成度をそれぞれ入力と出力に持つモデルのパラメータを前記個人毎に推定するパラメータ推定手順と、
　前記パラメータ推定手順で推定されたパラメータを設定した前記モデルを用いて、前記達成度を最大化するインセンティブの付与方法を算出する最適化手順と、
　をコンピュータが実行するインセンティブ最適化方法。
　前記モデルは、遠い将来に得られるインセンティブを近い将来に得られるインセンティブよりも低く評価する時間割引を考慮して、前記達成度を出力する、請求項１に記載のインセンティブ最適化方法。
　前記インセンティブの付与方法には、インセンティブ付与の回数と、インセンティブの付与日時と、インセンティブの付与量とが含まれる、請求項１又は２に記載のインセンティブ最適化方法。
　前記最適化手順は、
　前記付与量の合計が一定との条件の下で、前記インセンティブの付与方法を算出する、請求項３に記載のインセンティブ最適化方法。
　個人の行動に対するインセンティブの付与方法を最適化するためのインセンティブ最適化装置であって、
　前記行動の系列と前記系列に対するインセンティブの付与方法の観測データを用いて、前記インセンティブの付与方法と目標行動に対する達成度をそれぞれ入力と出力に持つモデルのパラメータを前記個人毎に推定するパラメータ推定部と、
　前記パラメータ推定部で推定されたパラメータを設定した前記モデルを用いて、前記達成度を最大化するインセンティブの付与方法を算出する最適化部と、
　を有するインセンティブ最適化装置。
　コンピュータに、請求項１乃至４の何れか一項に記載のインセンティブ最適化方法を実行させるプログラム。