WO2018198323A1

WO2018198323A1 - 行動選択学習装置、行動選択学習プログラム、行動選択学習方法及び行動選択学習システム

Info

Publication number: WO2018198323A1
Application number: PCT/JP2017/016948
Authority: WO
Inventors: 拓郎池田; 阿南　泰三; 北川　英志; ヴィシャルシャーマ
Original assignee: 富士通株式会社
Priority date: 2017-04-28
Filing date: 2017-04-28
Publication date: 2018-11-01
Also published as: JP6795090B2; US20200012956A1; US11449770B2; JPWO2018198323A1

Abstract

行動選択肢の選択に影響を与える要因毎の影響度を示すモデルパラメータベクトルの集合である参照モデルを生成する参照モデル生成部と、前記モデルパラメータベクトルのそれぞれについて、行動選択肢毎の選択確率を算出する選択確率算出部と、前記行動選択肢毎の選択確率と、利用者による前記行動選択肢の選択履歴と、に基づき、前記参照モデルから抽出されたモデルパラメータベクトルの部分集合を用いて、前記利用者毎のモデルパラメータベクトルを算出するモデルパラメータベクトル算出部と、前記利用者毎のモデルパラメータベクトルに基づき、前記行動選択肢を生成して端末装置に送信する選択肢生成部と、を有する行動選択学習装置である。

Description

行動選択学習装置、行動選択学習プログラム、行動選択学習方法及び行動選択学習システム

　本発明は、行動選択学習装置、行動選択学習プログラム、行動選択学習方法及び行動選択学習システムに関する。

　近年では、インターネット等の発達により、様々な情報提供サービスが普及しており、情報提供サービスの利用者が、提供される情報を参照して行動する場面が増えつつある。

　例えば、従来では、情報提供サービスとして、公共の交通機関の乗換案内や運行状況、混雑状況等を示す情報を提供するサービスが知られている。また、従来では、利用者が滞在している場所の周辺にある飲食店のメニューや混雑状況等を示す情報を提供するサービスが知られている。

　さらに、従来では、利用者に提示される交通機関の組み合わせの選択に際し、利益又は効用の期待値に基づいて、利益の期待値又は効用の期待値が最大化される組み合わせを提示する技術が知られている。

特開２００１－３３７９６７号公報特開２０１４－１０４７６４号公報特開２０１６－８５７３４号公報

　上述した従来のサービスは、画一的な情報を不特定多数の利用者に提供するものであり、個々の利用者における選択肢の受け容れ易さ等については考慮されていない。

　また、要因に対する利益及び効用の期待値に基づき選択肢を提示する場合において、個々の利用者に対する選択肢の受け容れ易さを考慮するためには、要因に対する利益の期待値又は効用の期待値等を利用者毎にモデル化する必要がある。しかしながら、利用者毎にモデルを用意するためには、各利用者に対して様々な行動の選択肢を提示して選択させ、その結果に基づきパラメータを調整するという、膨大な時間と手間がかかる工程が必要であり、実現することは困難を極める。

　開示の技術は、利用者が受け容れ易い行動の選択肢を提示することを目的としている。

　開示の技術は、行動選択肢の選択に影響を与える要因毎の影響度を示すモデルパラメータベクトルの集合である参照モデルを生成する参照モデル生成部と、前記モデルパラメータベクトルのそれぞれについて、行動選択肢毎の選択確率を算出する選択確率算出部と、前記行動選択肢毎の選択確率と、利用者による前記行動選択肢の選択履歴と、に基づき、前記参照モデルから抽出されたモデルパラメータベクトルの部分集合を用いて、前記利用者毎のモデルパラメータベクトルを算出するモデルパラメータベクトル算出部と、前記利用者毎のモデルパラメータベクトルに基づき、前記行動選択肢を生成して端末装置に送信する選択肢生成部と、を有する行動選択学習装置である。

　上記各部は、上記各部を実現する各処理を手順としてコンピュータにより実行させる方法、プログラムを記憶したコンピュータ読み取り可能な記録媒体とすることもできる。

　利用者が受け容れ易い行動の選択肢を提示できる。

第一の実施形態の行動選択学習システムによる行動選択肢の提示について説明する図である。第一の実施形態の行動選択学習システムのシステム構成の一例を示す図である。第一の実施形態のハードウェア構成の一例を示す図である。第一の実施形態の利用者データベースの一例を示す図である。第一の実施形態の選択履歴データベースの一例を示す図である。第一の実施形態の位置情報データベースの一例を示す図である。第一の実施形態の行動選択学習システムの有する各装置の機能について説明する図である。第一の実施形態の参照モデルを説明する図である。第一の実施形態の行動選択学習処理部による処理の概略を説明する図である。第一の実施形態の端末装置の処理を説明するフローチャートである。第一の実施形態の行動選択学習装置の処理を説明する第一のフローチャートである。第一の実施形態の行動選択学習装置の処理を説明する第二のフローチャートである。第一の実施形態の行動選択学習処理部の処理を説明する第一の図である。第一の実施形態の行動選択学習処理部の処理を説明する第二の図である。第一の実施形態の行動選択学習処理部の処理を説明する第三の図である。第一の実施形態の端末装置に行動選択肢が表示された画面の例を示す図である。第二の実施形態のクラスタリングについて説明する図である。第二の実施形態の行動選択学習装置の処理を説明するフローチャートである。第三の実施形態の行動選択学習システムの有する各装置の機能について説明する図である。第三の実施形態の行動選択学習装置の処理を説明するフローチャートである。

　（第一の実施形態）
　以下に図面を参照して第一の実施形態について説明する。図１は、第一の実施形態の行動選択学習システムによる行動選択肢の提示について説明する図である。

　本実施形態の行動選択学習システム１００は、行動選択学習装置２００と、端末装置３００とを有する。

　本実施形態の行動選択学習装置２００は、端末装置３００から行動選択肢の提示要求を受け付けると、端末装置３００の周辺の情報が蓄積されたデータベースを参照し、行動選択肢の候補を生成して端末装置３００に表示させる。

　また、本実施形態の行動選択学習装置２００では、端末装置３００における行動選択肢の選択の履歴を用いて、利用者の行動の選択により得られる満足度に影響を与える要因と、その影響度とを示すモデルパラメータベクトルを、利用者毎に生成する。そして、本実施形態の行動選択学習装置２００は、端末装置３００において、行動選択肢の選択を受け付ける度に、モデルパラメータベクトルを更新していく。

　より具体的には、本実施形態では、行動の選択により得られる満足度に影響を与える要因と、その影響度とを示す様々なパラメータを含む多数の参照モデルを生成し、利用者が行動選択肢を選択する度に、選択された行動選択肢に基づき参照モデルをクラスタリング（分割）していく。

　そして、本実施形態では、クラスタリングした後のパラメータ群に変化がなくなったとき、このパラメータ群に基づき、この利用者の行動の選択により得られる満足度に影響を与える要因と、その影響度とを示すモデルパラメータベクトルを算出する。

　したがって、本実施形態によれば、利用者に対して様々な行動の選択肢を提示して選択させるといった煩雑な手順が不要となり、簡素な手順で利用者毎のモデルパラメータベクトルを生成できる。

　さらに、本実施形態の行動選択学習装置２００は、行動選択肢の提示要求を受け付けると、提示要求を行った利用者のモデルパラメータベクトルに基づき、行動選択肢を生成するため、端末装置３００の利用者にとって、受け容れ易い行動選択肢を提示できる。

　図１の例では、地点Ａに端末装置３００－１の利用者が滞在し、地点Ｂに端末装置３００－２の利用者が滞在している。この場合、行動選択学習装置２００は、端末装置３００－１の現在地を示す位置情報から、端末装置３００－１、３００－２の周辺にある商業施設や公共の交通機関に関する情報を取得している。

　また、行動選択学習装置２００は、端末装置３００－１の利用者が行動選択肢の提示要求を行った場合、端末装置３００－１の利用者と対応したモデルパラメータベクトルと端末装置３００－１の周辺の情報から、行動選択肢を生成し、端末装置３００－１に表示させる。図１の例では、端末装置３００－１には、行動選択肢の１つとして、ショッピングセンタのタイムセールのクーポンが提示されている。

　これは、端末装置３００－１の利用者のモデルパラメータベクトルによって、この利用者は、速く帰宅することに対する満足度よりも、クーポン券を使って買い物をすることに対する満足度の方が大きいことが示されたからである。

　したがって、この行動選択肢は、端末装置３００－１の利用者にとって、受け容れ易い行動選択肢と言える。言い換えれば、端末装置３００－１に提示された行動選択肢は、端末装置３００－１の利用者に選択される可能性が高い行動選択肢と言える。

　また、本実施形態の行動選択学習装置２００では、端末装置３００－１において、「ショッピングセンタのタイムセールに向かう」という行動選択肢が選択されると、この選択結果を用いて、端末装置３００－１の利用者のモデルパラメータベクトルを更新する。

　また、行動選択学習装置２００は、端末装置３００－２の利用者が、行動選択肢の提示要求を行った場合、端末装置３００－２の利用者のモデルパラメータベクトルと端末装置３００－２の周辺の情報から、行動選択肢を抽出し、端末装置３００－２に表示させる。図１では、端末装置３００－２には、行動選択肢の１つとして、待ち時間が５分未満であるタクシーに乗車して移動することが提示されている。

　これは、端末装置３００－２の利用者のモデルパラメータベクトルによって、この利用者は、例えば、運賃が安い交通手段を利用することに対する満足度よりも、待ち時間が少なく速やかに移動することに対する満足度の方が大きいことが示されたからである。

　したがって、この行動選択肢は、端末装置３００－２の利用者にとって、受け容れ易く、選択される可能性が高い行動選択肢と言える。

　本実施形態の行動選択学習装置２００では、端末装置３００－２において、「待ち時間が５分未満であるタクシーに乗車して移動する」という行動選択肢が選択されると、この選択結果を用いて、端末装置３００－２の利用者のモデルパラメータベクトルを更新する。

　このように、本実施形態では、利用者が行動選択肢を選択する度に更新されるモデルパラメータベクトルに基づき、利用者に対して行動選択肢を提示するため、利用者が行動選択肢を選択する度に、提示した行動選択肢が利用者に選択される可能性を高めることができる。

　本実施形態では、このようなモデルパラメータベクトルを利用者毎に生成し、利用者毎のモデルパラメータベクトルを用いて利用者に行動選択肢を提示するため、利用者の行動を変化させる確率を高めることが可能となる。このため、本実施形態によれば、例えば、イベントの終了直後等のように、特定のエリアで混雑が発生した場合等においても、利用者の行動を変化させる確率を高めることができ、混雑の緩和に貢献することができる。

　以下に、本実施形態の行動選択学習システム１００について説明する。図２は、第一の実施形態の行動選択学習システムのシステム構成の一例を示す図である。

　本実施形態の行動選択学習システム１００は、行動選択学習装置２００と、端末装置３００と、を有する。行動選択学習システム１００において、行動選択学習装置２００と、端末装置３００とは、ネットワークを介して接続されている。

　本実施形態の行動選択学習装置２００は、利用者データベース２１０、選択履歴データベース２２０、位置情報データベース２３０、交通運行データベース２４０、イベントデータベース２５０、店舗データベース２６０、行動選択学習処理部２７０を有する。

　本実施形態の利用者データベース２１０は、利用者による行動選択肢毎の効用を算出する際に用いられる利用者毎のパラメータが格納されている。本実施形態では、後述する行動選択学習処理部２７０の処理により、利用者データベース２１０に格納されたパラメータを用いて、利用者毎の行動選択肢の効用が算出される。

　行動選択肢の効用とは、ミクロ経済学の分野で用いられる概念であり、行動選択肢を選択することで利用者が得られる満足度の水準を表す。利用者データベース２１０と、効用の算出の詳細は後述する。

　本実施形態の選択履歴データベース２２０は、行動選択学習処理部２７０が端末装置３００から行動選択肢の提示要求を受けて、端末装置３００に表示させた行動選択肢と、端末装置３００において選択された選択結果の行動選択肢とが対応付けられて格納される。本実施形態の選択履歴データベース２２０は、行動選択学習処理部２７０による参照モデルのクラスタリングの際に参照される。選択履歴データベース２２０の詳細は後述する。

　本実施形態の位置情報データベース２３０は、端末装置３００の位置を示す位置情報が、位置情報を取得した日時と対応付けられて格納される。位置情報データベース２３０の詳細は後述する。

　本実施形態の交通運行データベース２４０は、交通手段毎の運行に関する情報が格納されている。交通手段毎の運行に関する情報は、例えば、駅やバス停など乗降地点の位置、乗降地点を結ぶ路線の情報、路線間の乗換に関する情報を含む。また、交通手段毎の運行に関する情報は、運賃等の料金の関する情報や、各車両がどの乗降地点に何時に発着するかという時刻表情報、車両の乗車定員等を含む。

　本実施形態のイベントデータベース２５０は、各地域において開催されるイベントに関する情報が格納されている。イベントに関する情報とは、例えば、イベントの種類、イベントの開催日時と開催場所等である。尚、地域とは、例えば、端末装置３００から取得される位置情報が示す位置の周辺の地域である。

　本実施形態の店舗データベース２６０は、各地域の店舗に関する情報が格納されている。店舗に関する情報とは、例えば、店舗の種類、営業時間、所在地等である。店舗の種類とは、例えば、飲食店、宝飾店、雑貨店、書店等であって良い。地域とは、例えば、端末装置３００から取得される位置情報が示す位置の周辺の地域である。

　尚、図２の例では、各データベースが行動選択学習装置２００に設けられるものとしたが、これに限定されない。特に、本実施形態の交通運行データベース２４０、イベントデータベース２５０、店舗データベース２６０等は、行動選択学習装置２００の外部の記憶装置に設けられていても良い。

　本実施形態の行動選択学習処理部２７０は、端末装置３００の利用者毎に、行動の選択により得られる満足度に影響を与える要因と、その影響度とを示すモデルパラメータベクトルを生成する。また、本実施形態の行動選択学習処理部２７０は、端末装置３００から行動選択肢の提示要求を受けると、端末装置３００の利用者と対応するモデルパラメータベクトルに基づき、端末装置３００に表示させる行動選択肢を生成する。行動選択学習処理部２７０の詳細は後述する。

　次に、図３を参照して、本実施形態の行動選択学習装置２００のハードウェア構成について説明する。図３は、第一の実施形態のハードウェア構成の一例を示す図である。

　本実施形態の行動選択学習装置２００は、それぞれバスＢで相互に接続されている入力装置２１、出力装置２２、ドライブ装置２３、補助記憶装置２４、メモリ装置２５、演算処理装置２６及びインターフェース装置２７を有する。

　入力装置２１は、各種信号の入力と各種情報の表示をするために用いられる装置であり、例えばマウスやキーボード等である。出力装置２２は、各種の情報を出力するために用いられる装置であり、例えばディスプレイ等である。

　インターフェース装置２７は、モデム，ＬＡＮカード等を含み、ネットワークに接続する為に用いられる。

　行動選択学習プログラムは、行動選択学習装置２００を制御する各種プログラムの少なくとも一部である。行動選択学習プログラムは例えば記録媒体２８の配布やネットワークからのダウンロードなどによって提供される。行動選択学習プログラムを記録した記録媒体２８は、ＣＤ－ＲＯＭ、フレキシブルディスク、光磁気ディスク等の様に情報を光学的、電気的あるいは磁気的に記録する記録媒体、ＲＯＭ、フラッシュメモリ等の様に情報を電気的に記録する半導体メモリ等、様々なタイプの記録媒体を用いることができる。

　また、行動選択学習プログラムを記録した記録媒体２８がドライブ装置２３にセットされると、行動選択学習プログラムは記録媒体２８からドライブ装置２３を介して補助記憶装置２４にインストールされる。ネットワークからダウンロードされた行動選択学習プログラムは、インターフェース装置２７を介して補助記憶装置２４にインストールされる。

　補助記憶装置２４は、インストールされた行動選択学習プログラムを格納すると共に、必要なファイル、データ等を格納する。メモリ装置２５は、コンピュータの起動時に補助記憶装置２４から行動選択学習プログラムを読み出して格納する。そして、演算処理装置２６はメモリ装置２５に格納された行動選択学習プログラムに従って、後述するような各種処理を実現している。

　尚、本実施形態の端末装置３００は、一般的なタブレット型コンピュータや、スマートフォン等であり、そのハードウェア構成は、入力装置と出力装置の代わりに、表示操作装置を有する点以外は混雑マネジメント装置と同様であるため、説明を省略する。尚、端末装置３００は、タブレット型コンピュータやスマートフォン以外の端末装置であっても良い。具体的には、端末装置３００は、例えばノート型のコンピュータであっても良いし、一般的なデスクトップ型のコンピュータであっても良い。

　次に、本実施形態の行動選択学習装置２００の有する各データベースについて説明する。

　図４は、第一の実施形態の利用者データベースの一例を示す図である。本実施形態の利用者データベース２１０は、情報の項目として、利用者ＩＤ、ＡＳＣ_ＲＡＩＬ、ＡＳＣ_ＢＵＳ、ＡＳＣ_ＴＡＸＩ、β_Ｆ、β_ＴＴ、β_ＤＴ、β_ＣＧ、β_ＷＴを有する。

　本実施形態の利用者データベース２１０において、項目「利用者ＩＤ」と、その他の項目の値とは対応付けられており、項目「利用者ＩＤ」と、その他の項目の値とを含む情報を、利用者情報と呼ぶ。また、本実施形態では、利用者情報において、利用者ＩＤと対応付けられた各パラメータを、モデルパラメータベクトルと呼ぶ。

　尚、図４の利用者データベース２１０では、項目「利用者ＩＤ」と各パラメータと対応付けられるものとしたが、これに限定されない。利用者データベース２１０では、利用者ＩＤに、各パラメータに加えて、利用者の氏名、年齢、性別等が対応付けられていても良い。

　項目「利用者ＩＤ」の値は、利用者を特定する識別情報である。尚、本実施形態の項目「利用者ＩＤ」の値は、例えば端末装置３００が特定の利用者にのみ利用される場合等には、端末装置３００を特定するための識別情報を利用者ＩＤとしても良い。

　項目「ＡＳＣ_ＲＡＩＬ」の値は、鉄道Ｒを選択することによる、利用者の満足度の水準を示す。項目「ＡＳＣ_ＢＵＳ」の値は、バスＢを選択することによる、利用者の満足度の水準を示す。項目「ＡＳＣ_ＴＡＸＩ」の値は、タクシーＴを選択することによる、利用者の満足度の水準を示す。

　項目「ＡＳＣ_ＲＡＩＬ」、「ＡＳＣ_ＢＵＳ」、「ＡＳＣ_ＴＡＸＩ」それぞれの値は、行動選択肢毎に、固有に決められた定数である。

　項目「β_Ｆ」の値は、行動選択肢を選択したことにより発生する料金に対する重みを示す。言い換えれば、項目「β_Ｆ」の値は、利用者が行動選択肢を選択した際の満足度に対し、料金が寄与する程度を示す。

　項目「β_ＴＴ」の値は、移動時間に対する重みを示す。言い換えれば、項目「β_ＴＴ」の値は、利用者が行動選択肢を選択した際の満足度に対し、移動時間が寄与する程度を示す。

　項目「β_ＤＴ」の値は、出発延長時間に対する重みを示す。出発延長時間とは、出発予定の時刻から、実際に移動を開始する時刻までの時間である。項目「β_ＤＴ」の値は、言い換えれば、利用者が行動選択肢を選択した際の満足度に対し、出発予定の時刻から実際の出発が延長された延長時間が寄与する程度を示す。

　項目「β_ＣＧ」の値は、選択した行動選択肢と対応する行動に対する混雑度に対する重みを示す。項目「β_ＣＧ」の値は、利用者が行動選択肢を選択した際の満足度に対し、混雑度が寄与する程度を示す。混雑度とは、例えば選択した行動選択肢と対応する行動が、移動であった場合には、行動選択肢の混雑度を示す。また、混雑度とは、例えば選択した行動選択肢と対応する行動が、ショッピングであった場合には、ショッピングを行う店舗の混雑度を示す。つまり、本実施形態の混雑度は、行動選択肢と対応する行動を行った場合に遭遇する混雑度を示す。

　項目「β_ＷＴ」の値は、待ち時間に対する重みを示す。待ち時間とは、行動の待ち状態になった時刻から、行動を開始する時刻までの時間である。また、待ち時間とは、例えば、行動選択肢がタクシーでの移動だった場合、待ち行列に並んでからタクシーに乗車するまでの時間である。もしくは、待ち時間とは、行動選択肢がレストランでの食事だった場合、待ち行列に並んでから入店するまでの時刻である。

　項目「β_ＷＴ」の値は、言い換えれば、利用者が行動選択肢を選択した際の満足度に対し、行動を行うまでの待ち時間が寄与する程度を示す。具体的には、例えば、項目「β_ＷＴ」の値は、移動を開始するまでの待ち時間に対する重みや、目的とする買い物を始めるまでの待ち時間に対する重み等を示す。

　図４では、利用者ＩＤ「００１」の利用者は、重みを示す各項目のうち、項目「β_ＣＧ」の値が最も小さい「－２」である。このことから、利用者ＩＤ「００１」の利用者は、混雑を嫌う傾向がある利用者であることがわかる。

　尚、図４の例では、利用者ＩＤと対応付けられたパラメータを、交通機関に関連するパラメータとして説明したが、これに限定されない。また、本実施形態では、例えば、行動選択肢毎に、固有に決められた定数として、例えば、店舗の種類（カテゴリ）毎の項目「ＡＳＣ」を含んでいても良い。具体的には、例えば、飲食店については、店舗の料理の種類等に応じて、項目「ＡＳＣ」の値が決められていても良い。また、例えば、店舗の種類（飲食店、家電店、書店等）に応じて、項目「ＡＳＣ」の値が決められていても良い。

　このように、本実施形態では、モデルパラメータベクトルによって重みが付与される事柄を、利用者の行動の選択により得られる満足度に影響を与える要因とする。したがって、本実施形態では、利用者毎に、行動選択肢を選択することによる満足度に与える影響の度合いを、要因毎に示した値が、利用者のモデルパラメータベクトルである。つまり、図４の例では、利用者情報に含まれるモデルパラメータベクトルによって重みが付与される要因は、行動を選択したことにより発生する料金、移動時間、出発延長時間、混雑度、待ち時間を含む。

　次に、図５を参照して、本実施形態の選択履歴データベース２２０について説明する。図５は、第一の実施形態の選択履歴データベースの一例を示す図である。

　本実施形態の選択履歴データベース２２０では、端末装置３００に提示された行動選択肢と、端末装置３００において選択された行動選択肢とが対応付けられている。また、本実施形態の選択履歴データベース２２０は、利用者ＩＤ毎に設けられていても良い。

　図５では、利用者ＩＤ「００１」の利用者の端末装置３００に提示された行動選択肢と、利用者ＩＤ「００１」の利用者の端末装置３００において選択された行動選択肢とが対応付けられた例を示している。

　本実施形態の選択履歴データベース２２０は、情報の項目として、日時、行動選択肢、選択結果を有する。以下の説明では、選択履歴データベース２２０において、各項目の値を含む情報を、選択履歴情報と呼ぶ。

　項目「日時」の値は、行動選択肢が端末装置３００から、選択結果を受信した日時を示す。項目「行動選択肢」は、端末装置３００に提示された複数の行動選択肢を示す複数の項目「選択肢１」～「選択肢３」を含む。項目「選択結果」の値は、項目「行動選択肢」に含まれる項目「選択肢１」～「選択肢３」から、端末装置３００において選択された行動選択肢を示す。

　図５の例では、利用者ＩＤ「００１」の利用者は、２０１７／２／２０の１７：３０に、端末装置３００において提示された「バス／移動時間１０分／座れる」、「鉄道／ラッシュ／遅延なし」、「タクシー／待ち時間５分未満」の３つの行動選択肢から、３つ目の行動選択肢「タクシー／待ち時間５分未満」を選択したことがわかる。

　尚、図５の例では、利用者ＩＤ「００１」の利用者に対して提示された行動選択肢は、３つとしているが、これに限定されない。利用者に対して提示される行動選択肢の数は、任意の数であって良い。

　また、図５の例では、交通機関に関する選択肢が示されているが、本実施形態では、交通機関に関する行動選択肢以外にも、イベントデータベース２５０や店舗データベース２６０等に基づき様々な行動選択肢が提示される。

　次に、図６を参照して、位置情報データベース２３０について説明する。図６は、第一の実施形態の位置情報データベースの一例を示す図である。

　本実施形態の位置情報データベース２３０は、選択履歴データベース２２０と同様に、利用者ＩＤ毎に設けられる。図６では、利用者ＩＤ「００１」の利用者の位置情報データベース２３０を示している。

　本実施形態の位置情報データベース２３０は、情報の項目として、日付、時刻、緯度、経度を含む。項目「日付」、「時刻」の値は、位置情報を取得した日付と時刻を示す。項目「緯度」、「経度」の値は、端末装置３００の緯度と経度を示す。以下の説明では、項目「日付」、「時刻」、「緯度」、「経度」の値を含む情報を、位置情報と呼ぶ。

　次に、図７を参照して、本実施形態の行動選択学習システム１００の有する各装置の機能について説明する。図７は、第一の実施形態の行動選択学習システムの有する各装置の機能について説明する図である。

　はじめに、行動選択学習装置２００の機能について説明する。本実施形態の行動選択学習システム１００において、行動選択学習装置２００は、行動選択学習処理部２７０を有する。本実施形態の行動選択学習処理部２７０は、行動選択学習装置２００の演算処理装置２６が、行動選択学習装置２００にインストールされた行動選択学習プログラムを実行することにより実現される。

　本実施形態の行動選択学習処理部２７０は、要求受付部２７１、選択肢生成部２７２、選択肢取得部２７３、参照モデル生成部２７４、参照モデル記憶部２７５、選択確率算出部２７６、参照モデル選択決定部２７７、クラスタリング部２７８、モデルパラメータベクトル算出部２７９、妥当性判定部２８０、位置情報受信部２８１を有する。

　本実施形態の要求受付部２７１は、端末装置３００から送信される提示要求等を受信する。提示要求には、利用者ＩＤ、行動日、希望する行動開始時刻又は希望する行動終了時刻、行動開始場所等の条件の指定を含む。また、本実施形態では、要求された行動選択肢が、例えば、交通機関による移動の仕方を示す行動選択肢である場合には、提示要求には、利用者ＩＤ、交通機関の利用日、希望する出発時刻又は希望する到着予定時刻、出発地及び目的地が含まれても良い。

　選択肢生成部２７２は、行動選択肢の提示要求を行った端末装置３００と対応する利用者ＩＤのモデルパラメータベクトルを用いて、行動選択肢を生成し、提示要求を行った端末装置３００へ生成した行動選択肢を送信する。本実施形態の行動選択肢は、例えば、利用可能な交通手段などの移動行動、帰宅前に立ち寄れる周辺の店舗の情報などの購買行動の選択肢等が含まれる。

　選択肢取得部２７３は、端末装置３００において提示された行動選択肢の中から、端末装置３００において利用者により選択された行動選択肢を受信し、取得する。

　参照モデル生成部２７４は、モデルパラメータベクトルの集合である参照モデルを生成する。参照モデルの詳細は後述する。参照モデル記憶部２７５は、参照モデル生成部２７４が生成した参照モデルを記憶する。また、参照モデル記憶部２７５は、クラスタリング部２７８によりクラスタリング後の抽出参照モデルを記憶する。

　選択確率算出部２７６は、モデルパラメータベクトルに基づき、各行動選択肢の選択確率を算出する。より具体的には、選択確率算出部２７６は、参照モデルに含まれるモデルパラメータベクトル毎に、端末装置３００に提示された各行動選択肢の選択確率を算出する。選択確率の算出の詳細は後述する。

　参照モデル選択決定部２７７は、モデルパラメータベクトル毎に、算出された各行動選択肢の選択確率に基づき、端末装置３００に提示された行動選択肢の中から選択する行動選択肢を決定する。具体的には、参照モデル選択決定部２７７は、行動選択肢のうち、算出された選択確率が最も高い行動選択肢を、モデルパラメータベクトルにおいて選択される行動選択肢に決定する。

　クラスタリング部２７８は、参照モデル選択決定部２７７が選択した行動選択肢が、端末装置３００の利用者が、端末装置３００において選択した行動選択肢と一致するモデルパラメータベクトルを参照モデルから抽出し、抽出参照モデルを生成する。本実施形態では、抽出参照モデルは、参照モデルの一部（部分集合）であり、モデルパラメータベクトルの集合である。

　モデルパラメータベクトル算出部２７９は、抽出参照モデルから、端末装置３００の利用者のモデルパラメータベクトルを算出し、算出したモデルパラメータベクトルを利用者情報として、利用者データベース２１０に格納する。本実施形態のモデルパラメータベクトルの算出の詳細は後述する。

　妥当性判定部２８０は、モデルパラメータベクトル算出部２７９により算出されたモデルパラメータベクトルが、妥当であるか否かの判定を行う。具体的には、妥当性判定部２８０は、算出されたモデルパラメータベクトルを用いて、端末装置３００に提示された行動選択肢から最も選択確率が高くなる行動選択肢を算出する。そして、妥当性判定部２８０は、最も選択確率が高くなる行動選択肢が、端末装置３００において利用者が選択した行動選択肢と一致した場合に、算出されたモデルパラメータベクトルを妥当と判定する。

　位置情報受信部２８１は、端末装置３００から、端末装置３００の位置情報を受信し、端末装置３００毎に位置情報データベース２３０に格納する。

　次に、端末装置３００の機能について説明する。本実施形態の端末装置３００は、提示処理部３１０を有する。

　本実施形態の提示処理部３１０は、入力制御部３１１、出力制御部３１２、提示要求部３１３、提示受信部３１４、選択送信部３１５、ＧＰＳ（Global Positioning System）部３１６を有する。これら各部は、端末装置３００にインストールされたプログラムが、端末装置３００の演算処理装置により実行されることで実現される。

　本実施形態の入力制御部３１１は、各種の情報の入力を受け付ける。出力制御部３１２は、各種の情報を出力する。具体的には、出力制御部３１２は、提示受信部３１４により受信した行動選択肢を表示操作装置等に表示させる。

　提示要求部３１３は、行動選択学習装置２００に対して、行動選択肢の提示要求を行う。本実施形態の提示要求部３１３は、提示要求と共に、利用者ＩＤ、行動日、希望する行動開始時刻又は希望する行動終了時刻、行動開始場所等の条件を行動選択学習装置２００に送信する。

　提示受信部３１４は、提示要求部３１３によって送信された提示要求に対する応答を受信する。具体的には、提示受信部３１４は、行動選択学習装置２００から送信される行動選択肢を示す情報を受信する。

　選択送信部３１５は、提示受信部３１４によって受信された行動選択肢が、出力制御部３１２により表示操作装置に表示され、端末装置３００の利用者により行動選択肢が選択されると、選択された行動選択肢を行動選択学習装置２００へ送信する。具体的には、選択送信部３１５は、選択された行動選択肢を特定する情報を行動選択学習装置２００へ送信しても良いし、選択された行動選択肢そのものを示す情報を行動選択学習装置２００へ送信しても良い。

　ＧＰＳ部３１６は、端末装置３００が受信するＧＰＳ信号に基づいて、端末装置３００の現在位置を示す位置情報を取得する。また、ＧＰＳ部３１６は、取得した位置情報を行動選択学習装置２００へ送信する。

　本実施形態の端末装置３００では、要求送信部３２０において、出発地の代わりに、ＧＰＳ部３１６により取得した位置情報を提示要求と共に行動選択学習装置２００に送信しても良い。

　次に、本実施形態の選択確率算出部２７６による選択確率の算出の仕方について説明する。

　実施形態では、利用者による行動選択肢の選択は、以下の式（１）に示すような、多項ロジットモデル（Multinomial Logit Model, MNL）を用いて計算することができる。

　上記の式において、Ｐｒｏｂ_ｉは、ある行動選択肢の集合Ａを提示した場合の、行動選択肢ｉの選択確率である。ここで、Ｖｉは、行動選択肢ｉの効用である。効用Ｖｉは、行動選択肢を選択することで得られる満足度の水準を表す。

　効用Ｖｉは、例えば、以下の式（２）で算出することができる。式中の各変数ｘ_ｋは、効用に影響を与える要因であり、β_ｋは与える影響の度合いを表すモデルパラメータである。本実施形態では、複数のモデルパラメータを含むベクトルβを、モデルパラメータベクトルと呼ぶ。

　例えば、行動選択肢のうち、移動する行動に関する効用Ｖｉは、以下の式（３）で算出することができる。

　式（３）では、効用Ｖｉに影響を与える要因として、料金、旅行時間、出発延長時間、待ち時間、交通手段の混雑度が変数として含まれている。また、式（３）に示す効用Ｖｉには、交通手段に関する選択肢固有定数を含む。

　つまり、本実施形態では、要因毎に、行動選択肢を選択することで得られる満足度に対する影響の度合いを示したものが、モデルパラメータベクトルβである。

　本実施形態の利用者データベース２１０に格納された利用者毎の利用者情報において、利用者ＩＤと対応付けられた各パラメータは、利用者毎のモデルパラメータベクトルβを示したものである（図４参照）。

　次に、図８を参照して、本実施形態の参照モデルについて説明する。図８は、第一の実施形態の参照モデルを説明する図である。

　本実施形態の参照モデル８０は、モデルパラメータベクトルβに含まれる各パラメータの値を離散的に値に設定し、取り得る全ての組み合わせを求めたモデルパラメータベクトルβの集合である。

　図８に示す参照モデル８０では、式（２）に示すβ_１、β_２、・・・、β_ｋを、β_Ｆ、β_ＴＴ、β_ＤＴ、β_ＣＧ、β_ＷＴとし、各パラメータの値を変化させて、生成した例である。

　図８に示す参照モデル８０では、例えば、モデルＩＤと、モデルパラメータベクトルβとが対応付けられていても良く、モデルＩＤと対応する１つのレコードが、１つのモデルパラメータベクトルβとなる。尚、図８には示していないが、選択肢固有定数ＡＳＣもモデルパラメータベクトルに含めても良い。

　次に、本実施形態の行動選択学習装置２００及び端末装置３００の処理の説明に先立ち、本実施形態の行動選択学習処理部２７０による処理の概略について説明する。

　図９は、第一の実施形態の行動選択学習処理部による処理の概略を説明する図である。尚、図９では、参照モデル８０は既に生成された状態であるものとした。尚、図９に示す人形は、それぞれが異なるモデルパラメータベクトルを示している。

　図９において、行動選択学習処理部２７０は、端末装置３００からの提示要求を受けると、この提示要求に基づき行動選択肢を生成し、端末装置３００に送信する（ステップＳ９０１）。ここで送信された行動選択肢は、選択肢１～３の行動選択肢とした。

　端末装置３００では、選択肢１～３が表示される。図９では、端末装置３００の利用者Ａにより、選択肢３が選択されたものとする。この場合、端末装置３００は、選択肢３が選択されたことを行動選択学習処理部２７０へ通知する（ステップＳ９０２）。

　すると、行動選択学習処理部２７０は、参照モデル８０に対し、選択肢１～３と選択結果を含む選択履歴情報を与え、参照モデル８０に含まれるモデルパラメータベクトルβ毎に、選択肢１～３に対する選択確率を算出する（ステップＳ９０３）。

　そして、行動選択学習処理部２７０は、選択履歴情報に含まれる選択結果である選択肢３の選択確率が最も高くなるモデルパラメータベクトルβのクラスタ（集合）９１を抽出する（ステップＳ９０４）。つまり、クラスタ９１は、参照モデル８０において、利用者Ａと同じ選択肢を選択する確率が最も高くなるモデルパラメータベクトルβの集合である。

　また、行動選択学習処理部２７０は、選択肢１の選択確率が最も高くなるモデルパラメータベクトルβの集合と、選択肢２の選択確率が最も高くなるモデルパラメータベクトルβの集合と、を、利用者Ａとは異なる選択を行うモデルとして分類する（ステップＳ９０５、９０６）。

　次に、行動選択学習処理部２７０は、クラスタ９１に含まれるモデルパラメータベクトルβから、端末装置３００の利用者Ａのモデルパラメータベクトルを算出し、利用者データベース２１０の利用者Ａと対応する利用者情報を更新する（ステップＳ９０７）。

　次に、行動選択学習処理部２７０は、次に端末装置３００から行動選択肢の提示要求を受けると、ステップＳ９０７で更新した利用者情報（モデルパラメータベクトル）に基づき、行動選択肢（選択肢１～３）を生成し、端末装置３００へ送信する（ステップＳ９０８）。

　ここで、端末装置３００では、利用者Ａにより、選択肢２が選択されたものとする。よって、端末装置３００は、選択肢２が選択されたことを行動選択学習処理部２７０へ通知する（ステップＳ９０９）。

　行動選択学習処理部２７０は、前回の選択でクラスタリングされたクラスタ９１に対し、選択肢１～３と選択結果を含む選択履歴情報を与え、クラスタ９１に含まれるモデルパラメータベクトルβ毎に、選択肢１～３に対する選択確率を算出する（ステップＳ９１０）。

　そして、行動選択学習処理部２７０は、クラスタ９１から、選択結果である選択肢２の選択確率が最も高くなるモデルパラメータベクトルβのクラスタ９２を抽出する（ステップＳ９１１）。クラスタ９２は、クラスタ９１において、利用者Ａと同じ選択肢を選択する確率が最も高くなるモデルパラメータベクトルβの集合である。

　また、行動選択学習処理部２７０は、選択肢１の選択確率が最も高くなるモデルパラメータベクトルβの集合と、選択肢３の選択確率が最も高くなるモデルパラメータベクトルβの集合とを、利用者Ａとは異なる選択を行うモデルとして分類する（ステップＳ９１２、９１３）。

　次に、行動選択学習処理部２７０は、において、クラスタ９２に含まれるモデルパラメータベクトルβから、端末装置３００の利用者Ａのモデルパラメータベクトルを算出し、利用者データベース２１０の利用者Ａと対応する利用者情報を更新する（ステップＳ９１４）。

　本実施形態では、このようにして、参照モデル８０から、選択確率が、利用者Ａによる選択結果と一致するモデルパラメータベクトルβの集合を抽出する処理を繰り返す。そして、本実施形態では、選択履歴情報を与える前のクラスタと、選択履歴情報を与えた後のクラスタと、が一致したとき、このクラスタにより算出された利用者Ａのモデルパラメータベクトルβを確定させる。つまり、利用者Ａに対する、要因に対する利益の期待値又は効用の期待値のモデル化が完了する。

　以下に、図１０乃至図１２を参照して、本実施形態の行動選択学習システム１００の各装置の処理を説明する。はじめに、図１０を参照して、端末装置３００の処理について説明する。

　図１０は、第一の実施形態の端末装置の処理を説明するフローチャートである。本実施形態の端末装置３００は、入力制御部３１１により、端末装置３００の利用者からの行動選択肢の提示要求の入力を受け付ける（ステップＳ１００１）。尚、このとき、入力制御部３１１は、提示要求と共に、利用者ＩＤ、交通機関の利用日、希望する出発時刻又は希望する到着予定時刻、出発地及び目的地等の入力を受け付けても良い。

　続いて、端末装置３００は、提示要求部３１３により、入力された提示要求を行動選択学習装置２００へ送信する（ステップＳ１００２）。

　次に、端末装置３００は、提示受信部３１４により、行動選択学習装置２００から行動選択肢を受信し、出力制御部３１２により、行動選択肢を端末装置３００の表示操作装置に表示させる（ステップＳ１００３）。

　続いて、端末装置３００は、入力制御部３１１により、行動選択肢に対する選択を受け付けると、選択送信部３１５により、選択された行動選択肢を行動選択学習装置２００に送信し（ステップＳ１００４）、処理を終了する。尚、選択送信部３１５は、選択された行動選択肢を示す情報を行動選択学習装置２００に送信しても良いし、選択された行動選択肢を特定する識別子等の情報を行動選択学習装置２００に送信しても良い。

　次に、図１１を参照して、本実施形態の行動選択学習装置２００の処理を説明する。図１１は、第一の実施形態の行動選択学習装置の処理を説明する第一のフローチャートである。

　本実施形態の行動選択学習装置２００の行動選択学習処理部２７０は、要求受付部２７１により、端末装置３００からの行動選択肢の提示要求を受け付ける（ステップＳ１２０１）。

　続いて、行動選択学習処理部２７０は、選択肢生成部２７２により、行動選択肢を生成する（ステップＳ１１０２）。具体的には、選択肢生成部２７２は、提示要求と共に受け付けた交通機関の利用日、希望する出発時刻又は希望する到着予定時刻、出発地及び目的地等に基づき、利用者データベース２１０の利用者情報と、交通運行データベース２４０、イベントデータベース２５０、店舗データベース２６０等を参照して、行動選択肢を生成しても良い。

　次に、行動選択学習処理部２７０は、選択肢生成部２７２により、生成した行動選択肢を端末装置３００に送信する（ステップＳ１１０３）。尚、ここで生成した行動選択肢は、提示要求を行った端末装置３００の利用者ＩＤと対応付けられた選択履歴情報として、選択履歴データベース２２０に格納される。

　続いて、行動選択学習処理部２７０は、選択肢取得部２７３により、端末装置３００において選択された行動選択肢を受信する。そして、選択肢取得部２７３は、受信した行動選択肢を、ステップＳ１１０３で送信した行動選択肢に対する選択結果として、この行動選択肢と対応付けて選択履歴データベース２２０に格納する（ステップＳ１１０４）。

　次に、行動選択学習処理部２７０は、利用者のモデルパラメータベクトルの更新処理を行い（ステップＳ１１０５）、処理を終了する。

　次に、図１２を参照して、利用者のモデルパラメータベクトルの更新処理について説明する。図１２は、第一の実施形態の行動選択学習装置の処理を説明する第二のフローチャートである。図１２では、図１１のステップＳ１１０５に示す利用者のモデルパラメータベクトルの更新処理の詳細を示している。

　本実施形態の行動選択学習処理部２７０は、利用者のモデルパラメータベクトルの更新が必要か否かを判定する（ステップＳ１２０１）。具体的には、行動選択学習処理部２７０は、前回の行動選択肢の提示の際に、利用者のモデルパラメータベクトルの更新が行われていない場合には、モデルパラメータベクトルの更新が不要であると判定しても良い。

　尚、モデルパラメータベクトルが更新されたか否かを示す情報は、例えば、利用者データベース２１０や、選択履歴データベース２２０等において保持されていても良い。

　ステップＳ１２０１において、モデルパラメータベクトルの更新が不要と判定された場合、行動選択学習処理部２７０は、処理を終了する。

　ステップＳ１２０１において、モデルパラメータベクトルの更新が必要と判定された場合、行動選択学習処理部２７０は、参照モデル記憶部２７５に参照モデルが記憶されているか否かを判定する（ステップＳ１２０２）。

　本実施形態において、参照モデル記憶部２７５に参照モデルが記憶されていない場合とは、行動選択学習装置２００が端末装置３００において選択された行動選択肢を受信した回数をｉとした場合に、ｉ＝１の場合である。言い換えれば、参照モデルが記憶されていない場合とは、行動選択学習装置２００が初めて、端末装置３００から、端末装置３００において選択された行動選択肢を受信したときである。

　ステップＳ１２０２において、参照モデルが記憶されていない場合、参照モデル生成部２７４は、クラスタＣ_０（参照モデル）を生成し、参照モデル記憶部２７５に記憶させる（ステップＳ１２０３）。

　ステップＳ１２０２において、参照モデルが記憶されている場合、行動選択学習処理部２７０は、選択確率算出部２７６により、前回生成された参照モデル（クラスタＣ_ｉ－１）に含まれるモデルパラメータベクトルβ毎に、行動選択肢毎の選択確率を算出する（ステップＳ１２０４）。

　ここで、選択確率が算出される行動選択肢とは、ステップＳ１１０３において選択履歴データベース２２０に格納された行動選択肢である。言い換えれば、選択確率が算出される行動選択肢とは、端末装置３００に提示された全ての行動選択肢である。また、このとき、参照モデル記憶部２７５に記憶されている参照モデルは、前回の行動選択肢の提示の際においてクラスタリング部２７８によるクラスタリングされた抽出参照モデルである。

　続いて、行動選択学習処理部２７０は、参照モデル選択決定部２７７により、モデルパラメータベクトルβ毎に、行動選択肢において、最も選択確率の高い行動選択肢を、選択する行動選択肢に決定する（ステップＳ１２０５）。

　続いて、行動選択学習処理部２７０は、クラスタリング部２７８により、端末装置３００において利用者が選択した行動選択肢の選択確率が最も高いモデルパラメータベクトルβを抽出する（ステップＳ１２０６）。言い換えれば、クラスタリング部２７８は、参照モデル選択決定部２７７により決定された行動選択肢が、端末装置３００から受信した選択結果の行動選択肢と一致するモデルパラメータベクトルβを抽出する。

　続いて、行動選択学習処理部２７０は、参照モデル記憶部２７５により、クラスタリング部２７８により抽出されたモデルパラメータベクトルβの集合を、クラスタＣ_ｉ（参照モデル）として保持する（ステップＳ１２０７）。クラスタＣ_ｉは、クラスタＣ_０に含まれる部分集合である。

　次に、行動選択学習処理部２７０は、クラスタリング部２７８により、ステップＳ１２０６で抽出したクラスタＣ_ｉと、クラスタＣ_ｉ－１とが一致するか否かを判定する（ステップＳ１２０８）。

　ステップＳ１２０８において、両者が一致する場合、クラスタＣ_ｉは、端末装置３００の利用者のモデルパラメータベクトルβと類似していることを示すため、行動選択学習処理部２７０は、処理を終了する。

　ステップＳ１２０８において、両者が一致しない場合、行動選択学習処理部２７０は、モデルパラメータベクトル算出部２７９により、クラスタＣ_ｉに基づき、利用者のモデルパラメータベクトルβを算出する（ステップＳ１２０９）。尚、モデルパラメータベクトル算出部２７９による利用者のモデルパラメータベクトルβの算出の詳細は後述する。

　続いて、行動選択学習処理部２７０は、妥当性判定部２８０により、ステップＳ１２０９で算出した利用者のモデルパラメータベクトルβが妥当であるか否かを判定する（ステップＳ１２１０）。

　具体的には、妥当性判定部２８０は、算出された利用者のモデルパラメータベクトルβを用いて、端末装置３００に提示した行動選択肢毎の選択確率を算出し、選択確率が最も高い行動選択肢が、選択結果の行動選択肢と一致するか否かを判定している。

　行動選択学習処理部２７０は、妥当性判定部２８０により、算出されたモデルパラメータベクトルβが妥当でないと判定された場合（ステップＳ１２１１）、つまり、選択確率が最も高い行動選択肢が、選択結果の行動選択肢と一致しない場合、そのまま処理を終了する。

　また、行動選択学習処理部２７０は、ステップＳ１２１１において、算出されたモデルパラメータベクトルβが妥当と判定された場合、つまり、選択確率が最も高い行動選択肢が、選択結果の行動選択肢と一致する場合、利用者のモデルパラメータベクトルを更新すし（ステップＳ１２１２）、処理を終了する。具体的には、行動選択学習処理部２７０は、利用者データベース２１０における端末装置３００の利用者ＩＤと対応する各パラメータの値を、算出されたモデルパラメータベクトルβに含まれる各パラメータの値に書き換える。

　以下に、図１３乃至図１５を参照して、本実施形態の行動選択学習処理部２７０の処理について、さらに説明する。

　尚、図１３乃至図１５では、説明の便宜上、モデルパラメータベクトルβに含まれるパラメータをβ_１、β_２の２つとして説明する。

　図１３は、第一の実施形態の行動選択学習処理部の処理を説明する第一の図である。図１４は、第一の実施形態の行動選択学習処理部の処理を説明する第二の図である。図１３の例では、行動選択学習処理部２７０が初めて端末装置３００から選択結果の行動選択肢を受信した場合と、２回目に端末装置３００から選択結果を受信した場合と、を示している。図１４の例では、行動選択学習処理部２７０が３回目の選択結果を受信した結果、利用者のモデルパラメータベクトルの更新が不要となった場合を示している。

　行動選択学習処理部２７０は、初めて端末装置３００から選択結果を受信した場合は、参照モデルとして、クラスタＣ_０を生成する。そして、行動選択学習処理部２７０は、クラスタＣ_０に、１回目の選択履歴情報を与える。

　ここでは、端末装置３００の利用者Ａは、提示された行動選択肢の中から、選択肢１を選択したものとして説明する。

　この場合、行動選択学習処理部２７０は、クラスタＣ_０に含まれる各モデルパラメータベクトルβについて、選択肢１の選択確率が最も高くなるモデルパラメータベクトルβの集合を抽出し、クラスタＣ_１とする。図１３の例では、利用者データベース２１０に格納されている利用者Ａのモデルパラメータベクトルβ_Ａ ^（０）を含むクラスタＣ_１が生成される。このクラスタＣ_１は、参照モデル記憶部２７５により記憶される。

　また、このとき、クラスタＣ_０とクラスタＣ_１とは、一致しないため、行動選択学習処理部２７０は、モデルパラメータベクトル算出部２７９により、モデルパラメータベクトルβ_Ａ ^（０）を、クラスタＣ_１に基づき算出されたモデルパラメータベクトルβ_Ａ ^（１）に更新する。

　ここで、本実施形態のモデルパラメータベクトル算出部２７９による、利用者Ａのモデルパラメータベクトルβの算出について説明する。

　本実施形態のモデルパラメータベクトル算出部２７９は、以下の式（４）により、利用者Ａのモデルパラメータベクトルβを算出する。ここで算出される利用者Ａのモデルパラメータベクトルβは、クラスタＣ_１に含まれるモデルパラメータベクトルβの各パラメータの平均を、選択確率に基づき重み付けをした値である。

　尚、式（４）において、利用者Ａのモデルパラメータベクトルβに含まれるパラメータは、β_１、Ａ、β_２、Ａである。また、式（４）において、Ｃは、クラスタである。

　また、式（４）において、ｐｉは、参照モデル又は抽出参照モデルに含まれるｉ番目のモデルパラメータベクトルβに基づき算出された、利用者と同じ行動選択肢の選択確率のうち、最も高い選択確率の値を示す。

　次に、行動選択学習処理部２７０は、端末装置３００から、提示された行動選択肢のうちの選択肢４を選択結果として受信する。

　この場合、行動選択学習処理部２７０は、選択結果である選択肢４と、提示された行動選択肢と、を含む２回目の選択履歴情報をクラスタＣ_１に与える。

　すると、行動選択学習処理部２７０は、クラスタＣ_１に含まれる各モデルパラメータベクトルβについて、選択肢４の選択確率が最も高くなるモデルパラメータベクトルβの集合を抽出し、クラスタＣ_２とする。図１３の例では、利用者Ａのモデルパラメータベクトルβ_Ａ ^（１）を含むクラスタＣ_２が生成される。このクラスタＣ_２は、参照モデル記憶部２７５により記憶される。

　また、このとき、クラスタＣ_１とクラスタＣ_２とは一致しないため、行動選択学習処理部２７０は、モデルパラメータベクトル算出部２７９により、モデルパラメータベクトルβ_Ａ ^（１）をクラスタＣ_２に基づき算出されたモデルパラメータベクトルβ_Ａ ^（２）に更新する。

　次に、図１４を参照する。

　行動選択学習処理部２７０は、３回目の行動選択肢の提示において、端末装置３００から、提示された行動選択肢のうちの選択肢１０を選択結果として受信する。

　この場合、行動選択学習処理部２７０は、選択結果である選択肢１０と、提示された行動選択肢と、を含む３回目の選択履歴情報をクラスタＣ_２に与える。

　すると、行動選択学習処理部２７０は、クラスタＣ_２に含まれる各モデルパラメータベクトルβについて、選択肢１０の選択確率が最も高くなるモデルパラメータベクトルβの集合を抽出し、クラスタＣ_３とする。図１４の例では、利用者Ａのモデルパラメータベクトルβ_Ａ ^（２）を含むクラスタＣ_３が生成される。このクラスタＣ_３は、参照モデル記憶部２７５により記憶される。

　ここで、図１４の例では、クラスタＣ_２とクラスタＣ_３とは一致する。したがって、行動選択学習処理部２７０は、モデルパラメータベクトルβ_Ａ ^（２）を更新せず、このモデルパラメータベクトルβ_Ａ ^（２）に含まれる各パラメータの値を、利用者データベース２１０に格納する。

　図１５は、第一の実施形態の行動選択学習処理部の処理を説明する第三の図である。図１５では、妥当性判定部２８０による判定により、モデルパラメータベクトル算出部２７９により算出された利用者Ａのモデルパラメータベクトルβ_Ａが、妥当ではない、判定される場合について示している。

　図１５において、初めて端末装置３００から選択結果を受信した場合は、参照モデルとして、クラスタＣ_０を生成する。そして、行動選択学習処理部２７０は、クラスタＣ_０に、１回目の選択履歴情報を与える。この選択履歴情報に含まれる選択結果は選択肢３である。

　この場合、行動選択学習処理部２７０は、クラスタＣ_０に含まれる各モデルパラメータベクトルβについて、選択肢３の選択確率が最も高くなるモデルパラメータベクトルβを抽出し、クラスタＣ_１Ａとする。また、行動選択学習処理部２７０は、クラスタＣ_１Ａを用いて、利用者Ａのモデルパラメータベクトルβ_Ａ ^（３）が算出される。

　このとき、本実施形態では、モデルパラメータベクトルβ_Ａ ^（３）に基づき、クラスタＣ_０に与えた選択履歴情報に含まれる行動選択肢のうち、選択確率が最も高くなる選択肢を求め、利用者Ａの選択結果と、一致するか否かを判定する。図１５の場合、両者が一致しないため、行動選択学習処理部２７０は、利用者データベース２１０をモデルパラメータベクトルβ_Ａ ^（３）により更新せずに、処理を終了する。

　本実施形態では、以上のようにして、端末装置３００の利用者毎に、利用者による行動選択肢の選択履歴に基づきの利用者の行動の選択により得られる満足度に影響を与える要因と、その影響度とを示すモデルパラメータベクトルを生成する。そして、本実施形態では、利用者毎のモデルパラメータベクトルに基づき、行動選択肢を生成し、利用者に提示する。したがって、本実施形態によれば、簡素な手順で利用者が受け容れ易い行動の選択肢を提示することができる。

　尚、本実施形態の選択肢生成部２７２は、端末装置３００から行動選択肢の提示要求を受け付けると、交通運行データベース２４０、イベントデータベース２５０、店舗データベース２６０等から取り得る行動選択肢を生成する。そして、選択肢生成部２７２は、生成された行動選択肢について、利用者のモデルパラメータベクトルβに基づき選択確率を算出し、選択確率が高い順に、利用者に提示する行動選択肢を選択し、端末装置３００へ送信しても良い、
　本実施形態では、このとき参照されるモデルパラメータベクトルβが、利用者個々のものであるため、利用者に取って受け容れ易い行動選択肢を提示することができ、個々の利用者の行動を変化させる可能性を高めることができる。

　次に、図１６を参照して、行動選択肢が端末装置３００に表示された例について説明する。図１６は、第一の実施形態の端末装置に行動選択肢が表示された画面の例を示す図である。

　図１６に示す画面３０１は、表示欄３０４と表示欄３０５を有し、行動選択肢として、時間帯毎の移動手段と店舗の組合せが表示されている。

　画面３０１では、表示欄３０４には、行動選択肢として、移動手段ｎと時間帯ｌの組合せが表示される。また、画面３０１では、表示欄３０５には、行動選択肢として、移動手段ｎと時間帯ｌの組合せに対応付けられた店舗の情報が表示されている。

　図１６の例では、表示欄３０４において、「乗り場Ａから、タクシーＴで１７：３０～１７：４４に移動」という組合せが利用者により選択された場合を示している。この場合、表示欄３０５には、この組合せと対応付けられた店舗の店舗情報３０７が表示される。

　店舗情報３０７は、例えば店舗データベース２６０において、該当する店舗のクーポン有無が「有」の場合は、クーポンが表示される画面のＵＲＬ（Uniform Resource Locator）が含まれても良い。また、店舗情報３０７には、該当する店舗のホームページのＵＲＬが表示されていても良い。

　図１６の例では、店舗情報３０７において、クーポンボタン３０７ａが操作されると、クーポンが画面３０１に表示されても良い。また、図１６の例では、店舗情報３０７において、詳細ボタン３０７ｂが操作されると、店舗Ｋのホームページが画面３０１に表示されても良い。

　尚、図１６の例では、移動手段の混雑状況を示す情報が表示され、店舗の混雑状況を示す情報については表示されないものとしたが、これに限定されない。例えば立ち寄り先が映画館や飲食店等の座席数に制限がある施設である場合には、店舗データベース２６０に格納された施設毎の混雑度レベルに応じた混雑状況を示す情報を表示させても良い。

　（第二の実施形態）
　以下に図面を参照して、第二の実施形態について説明する。第二の実施形態は、行動選択学習処理部２７０におけるクラスタリングの方法が第一の実施形態と相違する。よって、以下の第二の実施形態の説明では、第一の実施形態との相違点についてのみ説明し、第一の実施形態と同様の機能構成を有するものには、第一の実施形態の説明で用いた符号と同様の符号を付与し、その説明を省略する。

　本実施形態では、利用者による一連の行動選択肢の選択において、選択確率が最も高くなる選択肢が、利用者の選択した選択肢と一致する割合が一定以上であるモデルパラメータベクトルβを、利用者と類似した行動を示すモデルパラメータベクトルと見なす。

　以下に、図１７を参照して、本実施形態のクラスタリング部２７８によるクラスタリングについて説明する。図１７は、第二の実施形態のクラスタリングについて説明する図である。

　尚、図１７では、利用者による一連の行動選択肢の選択を３回とし、選択確率が最も高くなる選択肢が、利用者の選択した選択肢と一致する割合が６割以上のモデルパラメータベクトルβからクラスタを生成する例を示す。

　図１７において、１回目の行動選択肢の提示において、利用者が行動選択肢のうち、選択肢１が選択され、２回目の行動選択肢の提示において、利用者が行動選択肢のうち、選択肢２が選択され、３回目の行動選択肢の提示において、利用者が行動選択肢のうち、選択肢３が選択されたとする。

　この場合、行動選択学習処理部２７０は、選択確率が最も高くなる選択肢が、利用者の選択した選択肢と２回以上一致するモデルパラメータベクトルβの集合を抽出し、クラスタを生成する。

　例えば、行動選択学習処理部２７０は、参照モデル（クラスタＣ_０）を生成する。そして、クラスタＣ_０に含まれるモデルパラメータベクトルβから、１回目の選択において、選択肢１の選択確率が最も高くなるモデルパラメータベクトルβの集合をクラスタＣ_１として抽出する。

　次に、行動選択学習処理部２７０は、クラスタＣ_０に含まれるモデルパラメータベクトルβから、２回目の選択の行動選択肢において、選択肢２の選択確率が最も高くなるモデルパラメータベクトルβの集合をクラスタＣ_２として抽出する。

　同様にして、行動選択学習処理部２７０は、クラスタＣ_０に含まれるモデルパラメータベクトルβから、３回目の選択の行動選択肢において、選択肢３の選択確率が最も高くなるモデルパラメータベクトルβの集合をクラスタＣ_３として抽出する。

　そして、行動選択学習処理部２７０は、抽出されたクラスタＣ_１、クラスタＣ_２、クラスタＣ_３において、選択確率が最も高くなる選択肢が、利用者の選択した選択肢と２回以上一致するモデルパラメータベクトルβの集合を抽出参照モデル（クラスタ）として抽出し、抽出参照モデルに基づき、モデルパラメータベクトルβを算出する。

　本実施形態では、このようにして、利用者のモデルパラメータベクトルβの算出の元となるクラスタを生成することで、利用者のモデルパラメータベクトルβと類似したモデルパラメータベクトルを含めて、利用者のモデルパラメータベクトルβを更新できる。

　尚、上述した方法により、利用者のモデルパラメータベクトルβと類似したモデルパラメータベクトルを抽出する場合、例えば、過去に遡る選択の回数が予め指定されているものとした。例えば、過去１０回の選択について遡る場合には、過去１０回の選択において、利用者の選択結果と、各選択における行動選択肢のうち、選択確率が最も高くなる選択肢とが一致する回数が６回以上となるモデルパラメータベクトルを抽出し、クラスタを生成すれば良い。

　以下に、図１８を参照して、本実施形態における行動選択学習処理部２７０の処理について説明する。図１８は、第二の実施形態の行動選択学習装置の処理を説明するフローチャートである。図１８では、本実施形態における利用者のモデルパラメータベクトルの更新処理の詳細を示している。

　本実施形態の行動選択学習処理部２７０は、参照モデル生成部２７４により、参照モデルを生成し、参照モデル記憶部２７５に記憶させる（ステップＳ１８０１）。

　続いて、行動選択学習処理部２７０は、所定回数分の選択履歴情報において、各行動選択肢について、参照モデルに含まれるモデルパラメータベクトルβ毎に、選択確率を算出する（ステップＳ１８０２）。

　続いて、行動選択学習処理部２７０は、クラスタリング部２７８により、所定回数分の選択履歴情報において、選択確率が最も高くなる選択肢が、選択結果と一致する割合が、所定の値以上であるモデルパラメータベクトルβを抽出する（ステップＳ１８０３）。このときの所定の値は、例えば、９割程度であっても良く、予め設定されていても良い。

　続いて、行動選択学習処理部２７０は、クラスタリング部２７８により、抽出したモデルパラメータベクトルβの集合を、抽出参照モデル（クラスタ）として参照モデル記憶部２７５に記憶させね（ステップＳ１８０４）。

　次に、行動選択学習処理部２７０は、抽出参照モデルに含まれるモデルパラメータベクトルβに基づき、利用者のモデルパラメータベクトルβを算出し（ステップＳ１８０５）、ステップＳ１８０６へ進む。

　ステップＳ１８０６からステップＳ１８０８の処理は、図１２のステップＳ１２１０からステップＳ１２１２の処理と同様であるから、説明を省略する。

　尚、本実施形態では、行動選択肢における選択結果と、選択確率が最も高くなる選択肢とが一致する割合が一定以上のモデルパラメータベクトルβの集合を抽出参照モデルとするものとしたが、これに限定されない。

　本実施形態では、例えば、過去Ｎ回の利用者による行動選択肢の選択結果と、選択確率が最も高くなる選択肢と、が一致する確率が閾値以上のモデルパラメータベクトルβの集合を、抽出参照モデルとしても良い。

　ここで、例えば、利用者が過去ｋ回目の選択において選択しただ選択肢をｉ_ｋであった場合、選択肢ｉ_ｋの選択確率をＰｒｏｂ_ｉｋとする。この場合、過去Ｎ回連続で利用者と同じ選択肢を選択する確率が、以下の式（５）に示す条件を満たすモデルパラメータベクトルβから、抽出参照モデルを生成し、利用者のモデルパラメータベクトルを更新すれば良い。尚、Ｐは閾値である。

　（第三の実施形態）
　以下に図面を参照して、第三の実施形態について説明する。第三の実施形態では、行動選択肢が提示された際に、利用者が提示された行動選択肢を閲覧するのみで、選択する操作を行わない場合を考慮した点が、第一の実施形態と相違する。よって、以下の第三の実施形態の説明では、第一の実施形態との相違点についてのみ説明し、第一の実施形態と同様の機能構成を有するものには、第一の実施形態の説明で用いた符号と同様の符号を付与し、その説明を省略する。

　図１９は、第三の実施形態の行動選択学習システムの有する各装置の機能について説明する図である。

　本実施形態の行動選択学習システム１００Ａは、行動選択学習装置２００Ａと、端末装置３００と、有する。本実施形態の行動選択学習装置２００Ａは、行動選択学習処理部２７０Ａを有する。

　本実施形態の行動選択学習処理部２７０Ａは、第一の実施形態の行動選択学習処理部２７０の有する各部に加え、選択行動推定部２８２を有する。

　本実施形態の選択行動推定部２８２は、位置情報受信部２８１が端末装置３００から受信する位置情報に基づき、端末装置３００の利用者が選択した行動選択肢を推定する。例えば、行動選択学習処理部２７０Ａは、端末装置３００に対して、バスを用いる行動選択肢、鉄道を用いる行動選択肢、タクシーを用いる行動選択肢の３つを提示した場合について考える。この場合、行動選択学習処理部２７０は、選択結果を受信しなくても、端末装置３００の位置情報が示す場所がバス停の近辺である場合には、行動選択肢が選択されたものと推定できる。

　以下に、図２０を参照して、本実施形態の行動選択学習装置２００Ａの処理について説明する。図２０は、第三の実施形態の行動選択学習装置の処理を説明するフローチャートである。

　図２０のステップＳ２００１からステップＳ２００３の処理は、図１１のステップＳ１１０１からステップＳ１１０３までの処理と同様であるから、説明を省略する。

　行動選択学習処理部２７０Ａの選択肢取得部２７３は、行動選択肢を送信してから、所定時間内に選択結果を受信したか否かを判定する（ステップＳ２００４）。

　ステップＳ２００４において、所定時間内に選択結果を受信しない場合、行動選択学習処理部２７０は、位置情報受信部２８１が受信した位置情報に基づき、選択行動推定部２８２により、端末装置３００において選択された行動を推定する（ステップＳ２００５）。このとき、本実施形態の選択行動推定部２８２は、推定した結果の行動選択肢を、選択履歴データベース２２０の選択結果に格納しても良い。

　ステップＳ２００４において、所定時間内に選択結果を受信した場合、行動選択学習処理部２７０Ａは、ステップＳ２００６へ進む。ステップＳ２００６の処理は、図１１のステップＳ１１０５の処理と同様であるから、説明を省略する。

　以上のように、本実施形態によれば、端末装置３００において、利用者が行動選択肢を選択する操作を行わなくても、端末装置３００の利用者が選択した行動を推定することができる。したがって、本実施形態によれば、端末装置３００の利用者が、提示された行動選択肢を参照して行動を選択した場合であっても、利用者毎のモデルパラメータベクトルβにその行動を反映させることができる。

　本発明は、具体的に開示された実施形態に限定されるものではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。

　１００、１００Ａ　行動選択学習システム
　２００、２００Ａ　行動選択学習装置
　２１０　利用者データベース
　２２０　選択履歴データベース
　２３０　位置情報データベース
　２４０　交通運行データベース
　２５０　イベントデータベース
　２６０　店舗データベース
　２７０、２７０Ａ　行動選択学習処理部
　２７１　要求受付部
　２７２　選択肢生成部
　２７３　選択肢取得部
　２７４　参照モデル生成部
　２７５　参照モデル記憶部
　２７６　選択確率算出部
　２７７　参照モデル選択決定部
　２７８　クラスタリング部
　２７９　モデルパラメータベクトル算出部
　２８０　妥当性判定部
　２８１　位置情報受信部
　２８２　選択行動推定部
　３００　端末装置
　３１０　提示処理部

Claims

　行動選択肢の選択に影響を与える要因毎の影響度を示すモデルパラメータベクトルの集合である参照モデルを生成する参照モデル生成部と、
　前記モデルパラメータベクトルのそれぞれについて、行動選択肢毎の選択確率を算出する選択確率算出部と、
　前記行動選択肢毎の選択確率と、利用者による前記行動選択肢の選択履歴と、に基づき、前記参照モデルから抽出されたモデルパラメータベクトルの部分集合を用いて、前記利用者毎のモデルパラメータベクトルを算出するモデルパラメータベクトル算出部と、
　前記利用者毎のモデルパラメータベクトルに基づき、前記行動選択肢を生成して端末装置に送信する選択肢生成部と、を有する行動選択学習装置。
　前記行動選択肢毎の選択確率が最も高い行動選択肢を、前記モデルパラメータベクトルにおいて選択される行動選択肢とする選択決定部を有する請求項１記載の行動選択学習装置。
　前記参照モデルから前記部分集合を抽出するクラスタリング部を有し、
　前記クラスタリング部は、
　前記行動選択肢毎の選択確率が最も高い行動選択肢が、前記利用者により選択された行動選択肢と一致する前記モデルパラメータベクトルを抽出する、請求項２記載の行動選択学習装置。
　前記クラスタリング部は、
　前記行動選択肢毎の選択確率が最も高い行動選択肢が、前記利用者により選択された行動選択肢と一致した割合が、所定の割合以上の前記モデルパラメータベクトルを抽出する、請求項３記載の行動選択学習装置。
　前記クラスタリング部は、
　前記行動選択肢毎の選択確率が最も高い行動選択肢が、前記利用者により選択された行動選択肢と一致する確率が、所定の確率以上の前記モデルパラメータベクトルを抽出する、請求項３又は４記載の行動選択学習装置。
　前記モデルパラメータベクトル算出部は、
　前記部分集合に含まれるモデルパラメータベクトルそれぞれについて算出された、行動選択肢毎の選択確率に基づき算出される、請求項１乃至５の何れか一項に記載の行動選択学習装置。
　前記端末装置において選択された行動選択肢を取得する選択肢取得部と、
　前記選択肢生成部により生成された行動選択肢と、前記選択肢取得部により取得された行動選択肢と、を対応付けた選択履歴情報を格納する選択履歴記憶部と、を有する請求項１乃至６の何れか一項に記載の行動選択学習装置。
　前記端末装置の位置情報を受信する位置情報受信部と、
　前記位置情報に基づき、前記端末装置の利用者が選択した行動選択肢を推定する選択行動推定部と、を有し、
　前記選択行動推定部により推定された行動選択肢が、前記選択肢生成部により生成された行動選択肢と対応付けられて前記選択履歴記憶部に格納される、請求項７記載の行動選択学習装置。
　前記利用者毎のモデルパラメータベクトルが格納された利用者情報記憶部と、
　前記利用者情報記憶部に格納された前記利用者毎のモデルパラメータベクトルを、前記モデルパラメータベクトル算出部により算出された利用者毎のモデルパラメータベクトルに更新するか否かを判定する妥当性判定部と、を有し、
　前記妥当性判定部は、
　前記モデルパラメータベクトル算出部により算出された利用者毎のモデルパラメータベクトルについて算出された行動選択肢毎の選択確率のうち、最も選択確率が高い行動選択肢と、前記選択履歴が示す行動選択肢とが一致する場合に、前記利用者情報記憶部に格納された前記利用者毎のモデルパラメータベクトルを更新する、と判定する、請求項１乃至８の何れか一項に記載の行動選択学習装置。
　前記行動選択肢の選択に影響を与える要因は、利用者が行動選択肢の選択により得られる満足度に影響を与える要因である、請求項１乃至９の何れか一項に記載の行動選択学習装置。
　行動選択肢の選択に影響を与える要因毎の影響度を示すモデルパラメータベクトルの集合である参照モデルを生成する処理と、
　前記モデルパラメータベクトルのそれぞれについて、行動選択肢毎の選択確率を算出する処理と、
　前記行動選択肢毎の選択確率と、利用者による前記行動選択肢の選択履歴と、に基づき、前記参照モデルから抽出されたモデルパラメータベクトルの部分集合を用いて、前記利用者毎のモデルパラメータベクトルを算出する処理と、
　前記利用者毎のモデルパラメータベクトルに基づき、前記行動選択肢を生成して端末装置に送信する処理と、をコンピュータに実行させる行動選択学習プログラム。
　コンピュータによる行動選択学習方法であって、該コンピュータが、
　行動選択肢の選択に影響を与える要因毎の影響度を示すモデルパラメータベクトルの集合である参照モデルを生成し、
　前記モデルパラメータベクトルのそれぞれについて、行動選択肢毎の選択確率を算出し、
　前記行動選択肢毎の選択確率と、利用者による前記行動選択肢の選択履歴と、に基づき、前記参照モデルから抽出されたモデルパラメータベクトルの部分集合を用いて、前記利用者毎のモデルパラメータベクトルを算出し、
　前記利用者毎のモデルパラメータベクトルに基づき、前記行動選択肢を生成して端末装置に送信する、行動選択学習方法。
　端末装置と、行動選択学習装置とを有する行動選択学習システムであって、
　前記行動選択学習装置、
　行動選択肢の選択に影響を与える要因毎の影響度を示すモデルパラメータベクトルの集合である参照モデルを生成する参照モデル生成部と、
　前記モデルパラメータベクトルのそれぞれについて、行動選択肢毎の選択確率を算出する選択確率算出部と、
　前記行動選択肢毎の選択確率と、利用者による前記行動選択肢の選択履歴と、に基づき、前記参照モデルから抽出されたモデルパラメータベクトルの部分集合を用いて、前記利用者毎のモデルパラメータベクトルを算出するモデルパラメータベクトル算出部と、
　前記利用者毎のモデルパラメータベクトルに基づき、前記行動選択肢を生成して端末装置に送信する選択肢生成部と、を有する行動選択学習システム。