WO2018131214A1

WO2018131214A1 - 予測装置及び予測方法

Info

Publication number: WO2018131214A1
Application number: PCT/JP2017/034045
Authority: WO
Inventors: 純幸沖本; 秦　秀彦; 伊藤　智祥; 山口　晃一郎
Original assignee: パナソニックＩｐマネジメント株式会社
Priority date: 2017-01-13
Filing date: 2017-09-21
Publication date: 2018-07-19
Also published as: JP6562373B2; US20190180202A1; JPWO2018131214A1

Abstract

予測装置（１）は、領域内の商品の配置変更後の人の流れを予測する装置であって、領域内の複数の人の流れを示す動線情報と、商品の配置位置を示す配置情報と、商品の配置変更を示す変更情報とを取得する取得部（１０、３０）と、動線情報と配置情報とに基づいて、逆強化学習により、領域内の人の行動モデルを生成し、行動モデルと変更情報とに基づいて、商品の配置変更後の人の流れを予測する制御部（４０）と、を備える。

Description

予測装置及び予測方法

　本開示は、買い物客の流れを予測する予測装置及び予測方法に関する。

　特許文献１は、店舗内における顧客の滞在確率及び滞在時間と店舗内の棚間の距離などに基づいて、店舗内の複数の棚のそれぞれに対して顧客が滞在する確率を計算する顧客シミュレータシステムを開示する。これにより、棚にある商品の配置を変更した場合の顧客単価を算出し、配置変更後の売上の予測を可能にしている。

特許第５９０５１２４号公報

　本開示は、商品配置変更後の買い物客の流れを予測する予測装置及び予測方法を提供する。

　本開示の予測装置は、領域内の商品の配置変更後の人の流れを予測する予測装置であって、領域内の複数の人の流れを示す動線情報と、商品の配置位置を示す配置情報と、商品の配置変更を示す変更情報と、を取得する取得部と、動線情報と配置情報とに基づいて、逆強化学習により、領域内の人の行動モデルを生成し、行動モデルと変更情報とに基づいて、商品の配置変更後の人の流れを予測する制御部と、を備える。

　本開示の予測方法は、領域内の商品の配置変更後の人の流れを予測する予測方法であって、領域内の複数の人の流れを示す動線情報と、商品の配置位置を示す配置情報と、商品の配置変更を示す変更情報とを取得するステップと、動線情報と配置情報とに基づいて、逆強化学習により、領域内の人の行動モデルを生成するステップと、行動モデルと変更情報とに基づいて、商品の配置変更後の人の流れを予測するステップと、を含む。

　本開示の予測装置及び予測方法によれば、商品配置変更後の買い物客の流れを精度良く予測することが可能になる。

図１は本開示の実施の形態１における予測装置の構成を示すブロック図である。図２は実施の形態１における店舗のエリアを説明するための図である。図３は実施の形態１における買い物客の行動モデルの生成を説明するためのフローチャートである。図４は実施の形態１における状態を表す特徴ベクトルの一例を示す図である。図５は実施の形態１における動線情報の一例を示す図である。図６は実施の形態１における購買品情報の一例を示す図である。図７は実施の形態１における商品配置変更後の買い物客の動線予測を説明するためのフローチャートである。図８は図７の動線予測の具体例を説明するためのフローチャートである。図９は実施の形態１における報酬に基づいた戦略の決定を説明するための図である。図１０Ａは実施の形態１における予測した行動及び動線の表示例を示す図である。図１０Ｂは実施の形態１における予測した行動及び動線の表示例を示す図である。

　以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。

　なお、発明者らは、当業者が本開示を十分に理解するために添付図面および以下の説明を提供するのであって、これらによって特許請求の範囲に記載の主題を限定することを意図するものではない。

　（本開示に至った経緯）
　発明者らは、店舗内の商品配置を変更すると、買い物客の行動は変化するため、商品の配置を精度よく最適化するためには、配置変更に伴う買い物客の行動の変化を考慮する必要があると考えた。一方、特許文献１は、複数の棚のうち移動距離がより近い棚に移動する確率が高いという条件に基づいて、買い物客の行動をシミュレーションしている。

　しかし、買い物客が立ち寄る棚は、買い物客の購買目的によって変わる。よって、買い物客が、常に移動経路の短いコースを選んで買い物をするとは限らない。そのため、複数の棚のうち移動距離がより近い棚に移動する確率が高いという条件に従うと、買い物客の流れを精度良くシミュレーションすることができない。

　このような課題を鑑み、本開示では、商品配置変更後の買い物客の流れを精度良く予測することを可能にする予測装置を提供する。具体的には、本開示の予測装置は、実際の商品配置（店舗レイアウト）及び買い物客の実際の動線に基づいて、逆強化学習により、商品配置変更後の買い物客の流れを予測する。

　以下、本開示の予測装置について、詳細を説明する。

　（実施の形態１）
　１．構成
　図１は、本実施の形態の予測装置の構成を示すブロック図である。図１において、本実施の形態の予測装置１は、通信部１０、記憶部２０、操作部３０、制御部４０、及び表示部５０を含む。

　通信部１０は、所定の通信規格（例えばＬＡＮ、ＷｉＦｉ、Ｂｌｕｅｔｏｏｔｈ(登録商標）、ＵＳＢ）に準拠して外部機器との通信を行うためのインタフェース回路を備える。通信部１０は、商品配置情報２１と、動線情報２２と、購買品情報２３とを取得する。

　商品配置情報２１は、商品の実際の配置位置を示す情報である。商品配置情報２１は、例えば、商品の識別番号（ＩＤ）と商品が配置されている棚の識別番号（ＩＤ）などを含む。

　動線情報２２は、店舗内にいる買い物客の流れを示す情報である。動線情報２２は、店舗内に設置されたカメラの映像等から生成される。

　図２は、実施の形態１における店舗のエリアの一例を示す図である。図２において、店舗内の通路が複数のエリアｓ１～ｓ２６に分けて示されている。図２に示す通路のエリア分割は単なる一例であって、通路は任意の数及び任意の配置のエリアに分割することが可能である。

　動線情報２２は、買い物客の流れを、例えば通過したエリア（通路）の識別番号ｓ１～ｓ２６によって示される。

　購買品情報２３は、買い物客が店舗で購入した商品を示す情報である。購買品情報２３は、店舗内のＰＯＳ端末装置等から取得される。

　記憶部２０は、通信部１０を介して取得した商品配置情報２１、動線情報２２、及び購買品情報２３と、制御部４０により生成される行動モデル情報２４とを格納する。記憶部２０は、例えば、ハードディスク（ＨＤＤ）、ＳＳＤ、ＲＡＭ、ＤＲＡＭ、強誘電体メモリ、フラッシュメモリ、又は磁気ディスク、又はこれらの組み合わせによって実現できる。

　操作部３０は、ユーザによる予測装置１への入力を受け付ける。操作部３０は、キーボード、マウス、タッチパネル等で構成される。操作部３０は、商品配置変更情報２５を取得する。

　商品配置変更情報２５は、配置を変更しようとする商品と変更後の場所とを示す。具体的には、商品配置変更情報２５は、例えば、配置変更する商品の識別番号（ＩＤ）と、変更後の棚の識別番号（ＩＤ）とを含む。

　制御部４０は、商品配置情報２１から店舗内のエリアｓ１～ｓ２６のそれぞれの特徴を示す特徴ベクトル（エリア特徴情報）ｆ（ｓ）を生成する第１の特徴ベクトル生成部４１と、動線情報２２と購買品情報２３とに基づいて買い物客の行動モデルを生成するモデル生成部４２と、を含む。

　特徴ベクトルｆ（ｓ）は、少なくとも、エリアｓ１～ｓ２６のそれぞれで購入可能な商品を示す情報を含む。なお、特徴ベクトルｆ（ｓ）は、エリアで購入可能な商品を示す情報に加えて、エリアから商品棚、出入り口、又はレジまでの距離を示す情報、及びエリアの広さを示す情報などを含んでもよい。

　モデル生成部４２は、動線情報分割部４２ａと、報酬関数学習部４２ｂとを含む。動線情報分割部４２ａは、動線情報２２を購買品情報２３に基づいて分割する。報酬関数学習部４２ｂは、特徴ベクトルｆ（ｓ）と分割した動線情報２２とに基づいて報酬ｒ（ｓ）を学習する。

　「買い物客の行動モデル」は、下記の式（１）で表される報酬関数に相当する。

　ｒ（ｓ）＝φ（ｆ（ｓ））・・・（１）
　式（１）において、報酬ｒ（ｓ）は、特徴ベクトルｆ（ｓ）の写像φ（ｆ（ｓ））として表現されている。報酬関数学習部４２ｂは、買い物客の動線すなわちエリア遷移に関する複数の系列データから、報酬ｒ（ｓ）を学習することによって、買い物客の行動モデル情報２４を取得する。行動モデル情報２４は、式（１）における関数（写像）φである。

　制御部４０は、さらに、第２の特徴ベクトル生成部４４と、動線予測部４５とを含む。

　第２の特徴ベクトル生成部４４は、操作部３０を介して入力された商品配置変更情報２５に基づいて、商品配置情報２１を修正する商品配置情報修正部４３と、修正後の商品配置情報２１に基づいて、商品の配置を変更した場合の店舗内の各エリアの特徴を示す特徴ベクトルＦ（ｓ）を生成する。動線予測部４５は、商品配置変更後の特徴ベクトルＦ（ｓ）と行動モデル情報２４とに基づいて、商品配置変更後の買い物客の動線（流れ）を予測する。なお、商品配置情報修正部４３は、商品配置変更情報２５に基づいて、実際の商品配置情報２１を修正する代わりに、配置変更後の商品配置情報２１を新たに生成しても良い。

　制御部４０は、半導体素子などで実現可能である。制御部４０の機能は、ハードウェアのみで構成してもよいし、ハードウェアとソフトウェアとを組み合わせることにより実現してもよい。制御部４０は、例えば、マイコン、ＣＰＵ、ＭＰＵ、ＤＳＰ、ＦＰＧＡ、ＡＳＩＣで構成することができる。

　表示部５０は、例えば、予測された動線又は行動の結果を表示する。表示部５０は、液晶ディスプレイ又は有機ＥＬディスプレイ等で構成される。

　通信部１０及び操作部３０は、外部から情報を取得する取得部に相当する。制御部４０は、記憶部２０に格納されている情報を取得する取得部に相当する。また、通信部１０は、予測結果を外部に出力する出力部に相当する。制御部４０は、予測結果を記憶部２０に出力する出力部に相当する。表示部５０は、予測結果を画面に出力する出力部に相当する。

　２．動作
　２．１　全体の動作
　図３は、実施の形態における買い物客の行動モデルの生成を説明するためのフローチャートである。図３において、予測装置１は、最初に、店舗内の実際の商品の配置位置と、店舗内の買い物客の動線とに基づいて、買い物客の行動モデルを生成する。

　図７は、実施の形態における商品配置変更後の買い物客の動線予測を説明するためのフローチャートである。図７において、予測装置１は、図３で示される行動モデルに基づいて、商品の配置を変更した場合の買い物客の動線を予測する。

　２．２　行動モデルの生成
　まず、買い物客の行動モデルの生成について説明する。買い物客の行動モデルは、逆強化学習によって、生成する。逆強化学習とは、「状態」と「行動」から、「報酬」を推定するものである。

　本実施の形態においては、「状態」とは店舗内を離散的に分割したエリアに対し、買い物客が特定のエリアに居ることを表す。また買い物客は、「行動」によってあるエリアから別のエリアに移動する（状態を遷移する）。「報酬」とは、買い物客の動線を説明する仮想的な数量で、買い物客は１つ状態を遷移するごと得られる「報酬」の総和が最大となる「行動」を繰り返すものと仮定する。言い換えると、各エリアに割り振った仮想的な「報酬」に対し、その「報酬」の和が大きくなる「行動」列（状態遷移列）と、買い物客がよく通る動線が一致するように「報酬」を逆強化学習によって推定する。この結果、「報酬」の高いエリアは、買い物客がよく居るまたは通過するエリアに概ね対応することになる。

　図３は、制御部４０による行動モデルの生成の動作を示す。図３において、第１の特徴ベクトル生成部４１は、記憶部２０から商品配置情報２１を取得する（Ｓ１０１）。第１の特徴ベクトル生成部４１は、商品配置情報２１に基づいて、店舗内の各エリアの特徴ベクトルｆ（ｓ）を生成する（Ｓ１０２）。

　図４は、特徴ベクトルｆ（ｓ）の一例を示す図である。図４において、例えば、エリアｓ１の特徴ベクトルｆ（ｓ１）は、「０，０，０，０，・・・１」である。ここで、「１」はエリア内で取得できる商品を示し、「０」はエリア内で取得できない商品を示している。商品を取得できるか否かは、例えば、エリアｓ１～ｓ２６のそれぞれから手が届く棚（具体的には、各エリアに隣接している棚、又は各エリアから所定範囲内にある棚）にその商品が配置されているか否かで決定する。なお、第１の特徴ベクトル生成部４１が生成した特徴ベクトルｆ（ｓ）をユーザが操作部３０を介して修正しても良い。

　図３において、動線情報分割部４２ａは、記憶部２０から動線情報２２を取得する（Ｓ１０３）。

　図５は、動線情報２２の一例を示す図である。図５において、例えば、動線情報２２は、映像の中で識別された買い物客の識別番号（ＩＤ）Ｇ_１～Ｇ_ｍと、その買い物客が通過したエリア（通路）の識別番号ｓ１～ｓ２６とを示す。買い物客が通過したエリア（通路）の識別番号ｓ１～ｓ２６は、例えば、買い物客が通過した順を示す。なお、動線情報２２は、買い物客が通過したエリアと、その通過順序を特定できる情報であれば良い。例えば、動線情報２２は、買い物客の識別番号（ＩＤ）と、その買い物客が通過したエリアの識別番号（ＩＤ）と、エリアを通過した時間とを含んでも良い。

　図３において、動線情報分割部４２ａは、さらに、記憶部２０から購買品情報２３を取得する（Ｓ１０４）。

　図６は、購買品情報２３の一例を示す図である。図６において、購買品情報２３は、例えば、買い物客の識別番号（ＩＤ）Ｇ_１～Ｇ_ｍと、購入された商品の名称又は識別番号（ＩＤ）と、購入された商品の数とを含む。購買品情報２３は、さらに、商品が購入された日時（図示せず）を含む。

　ここで、動線情報２２と購買品情報２３は、買い物客の識別番号Ｇ_１～Ｇ_ｍ等によって対応付けされている。制御部４０は、例えば、買い物客がレジに滞在する時刻と、レジでの購入品入力が完了する時刻がほぼ一致するという事実から、動線情報２２に含まれる日時と購買品情報２３に含まれる日時とに基づいて、動線情報２２と購買品情報２３との対応付けを行っても良い。また、制御部４０は、通信部１０を介して、買い物客の識別番号等によって対応付けされた動線情報２２と購買品情報２３とを外部から取得して、記憶部２０に格納しておいても良い。

　図３において、動線情報分割部４２ａは、動線情報２２と購買品情報２３とに基づいて、買い物客を複数のグループにグループ分けする（Ｓ１０５）。グループ分けは、任意の方法で行うことができる。例えば、所定の商品を購入した買い物客を同一のグループにする。図６において、例えば、商品Ｘｏを購入した買い物客Ｇ_１，Ｇ_３を同一のグループにする。

　図３において、動線情報分割部４２ａは、グループ内の動線（状態遷移系列）を複数の購買段階に段階分けする（Ｓ１０６）。「購買段階」とは、例えば、目的買いの段階、ついで買いの段階、支払いの段階である。段階分けは、任意の方法で行うことができる。例えば、所定の条件（所定の商品を購入するまでか又は購入した後か、所定のエリアを通過するまでか又は通過した後か）に基づいて、段階分けしても良い。

　具体的には、例えば、図２、図５に示すように、商品Ｘｏを購入したグループにおいて、入店から商品Ｘｏを購入するまでの第１の購買段階ｍ１と、商品Ｘｏを購入してから退店するまでの第２の購買段階ｍ２とに、グループ内のそれぞれの買い物客の動線を分割する。なお、段階分けは２段階に限らない。例えば、３段階以上に購買段階を分けても良い。

　図３において、報酬関数学習部４２ｂは、ステップＳ１０２で生成された特徴ベクトルｆ（ｓ）と、ステップＳ１０６で得られた購買段階毎に分割された複数の動線（状態遷移系列）とを使用して、逆強化学習（購買行動学習）により、購買段階ｍ１，ｍ２毎に行動モデルを生成する（Ｓ１０７）。

　具体的には、ステップＳ１０２で生成された特徴ベクトルｆ（ｓ）を用いて、購買段階ｍ１，ｍ２に対応する複数の動線データを学習データとして、式（１）で表される各状態ｓの報酬関数を学習する。この学習では、写像φによって推定された報酬ｒ（ｓ）から計算される各エリアの通過（または滞在）確率が、学習データから求めたエリアの通過（または滞在）確率と最もよく一致するよう、写像φを求める。

　そのような写像φを求める方法としては、勾配法による更新を繰り返す方法や、ニューラルネットによる学習方法が利用可能である。なお、報酬ｒ（ｓ）から各エリアの通過（または滞在）確率を求める方法については、強化学習に基づく方法が利用可能で、具体的な方法は後述する［２．３節　商品配置変更後の動線予測］に述べる方法を用いる。

　図３において、報酬関数学習部４２ｂは、式（１）で得られたφを行動モデル情報２４として、記憶部２０に保存する（Ｓ１０８）。

　２．３．　商品配置変更後の動線予測
　次に、商品の配置を変更した場合の買い物客の動線の予測について説明する。商品の配置を変更した場合の買い物客の動線は、強化学習によって求める。強化学習とは、「状態」と「報酬」から、「行動」を推定するものである。

　図７は、制御部４０による商品配置変更後の動線予測の動作を示す図である。図７において、商品配置情報修正部４３は、操作部３０を介して、商品配置変更情報２５を取得する（Ｓ２０１）。商品配置情報修正部４３は、取得した商品配置変更情報２５に基づいて、商品配置情報２１を修正することによって商品配置変更後の商品配置情報２１を生成する（Ｓ２０２）。第２の特徴ベクトル生成部４４は、商品配置変更後の商品配置情報２１に基づいて、商品配置変更後の各エリアの特徴ベクトルＦ（ｓ）生成する（Ｓ２０３）。商品配置変更後の特徴ベクトルＦ（ｓ）の生成は、実際の商品配置に基づく特徴ベクトルｆ（ｓ）の生成と同一の方法で行うことができる。

　さらに、図７において、動線予測部４５は、商品配置変更後の特徴ベクトルＦ（ｓ）と、ステップＳ１０８で記憶部２０に保存した行動モデル情報２４とを使用して、商品配置変更後の買い物客の流れ（動線）を予測する（Ｓ２０４）。その後、動線予測部４５は、予測した結果を、例えば、表示部５０、記憶部２０、又は通信部１０を介して外部に、出力する（Ｓ２０５）。

　図８は、図７における商品配置変更後の買い物客の動線予測（Ｓ２０４）の詳細を示す図である。図８において、動線予測部４５は、まず、商品配置変更後の特徴ベクトルＦ（ｓ）と行動モデル情報２４とに基づいて、商品配置変更後の各エリア（＝状態ｓ）の報酬Ｒ（ｓ）を下記の式（２）により算出する（Ｓ３０１）。

　Ｒ（ｓ）＝φ（Ｆ（ｓ））・・・（２）
　式（２）における関数（写像）φは、図３におけるステップＳ１０８で記憶部２０に保存した行動モデル情報２４である。

　図２、図５で示された購買段階ｍ１に対する買い物客の動線を予測する場合は、購買段階ｍ１のために求めたφを使用する。また、購買段階ｍ２に対する買い物客の動線を予測する場合は、購買段階ｍ２のために求めたφを使用する。すなわち、購買段階ｍ１，ｍ２に応じた関数（写像）φによって、報酬Ｒ（ｓ）を算出する。

　図８において、動線予測部４５は、報酬Ｒ（ｓ）に基づいて、強化学習により、最適な行動ａを学習する（Ｓ３０２～Ｓ３０５）。まず、動線予測部４５は、戦略π（ｓ）および期待報酬和Ｕ^π（ｓ）の初期値を設定する（Ｓ３０２）。戦略π（ｓ）は、各エリア（状態ｓ）において次に取るべき行動ａを示す。期待報酬和Ｕ^π（ｓ）は、ｓを起点として戦略πに基づいた行動を続けた際に、得られるであろう報酬の総和を示し、以下の式（３）のような意味を持つ。

　Ｕ^π（ｓ_ｉ）＝Ｒ（ｓ_ｉ）＋γＲ（ｓ_ｉ＋１）＋γ^２Ｒ（ｓ_ｉ＋２）＋・・＋γ^ｎＲ（ｓ_ｉ＋ｎ）・・・（３）
　ここで、γは時間的に将来の報酬を割り引くための係数である。

　次に、動線予測部４５は、状態ｓにおいて取りうる行動ａを取った場合に、得られる報酬の総和の期待値ΣＴ（ｓ，ａ，ｓ'）Ｕ^π（ｓ'）を、取りうる行動ａ毎に算出する（Ｓ３０３）。動線予測部４５は、取りうる行動ａ毎に算出した期待値ΣＴ（ｓ，ａ，ｓ'）Ｕ^π（ｓ'）の中から、これが最大となる行動ａを、状態ｓの新たな戦略π（ｓ）として更新するとともに、期待報酬和Ｕ^π（ｓ）を更新する（Ｓ３０４）。

　具体的には、ステップＳ３０３及びＳ３０４において、動線予測部４５は、各エリア（状態ｓ）の報酬Ｒ（ｓ）に基づいて、各エリアの最適な戦略π（ｓ）と期待報酬和Ｕ^π（ｓ）を下記の式（４）（５）によって更新する。

　Ｔ（ｓ，ａ，ｓ'）は、状態ｓにおいて、行動ａを行うことによって、状態ｓ'に遷移する確率である。

　本実施の形態においては、状態ｓはエリアを意味し、行動ａはエリア間の移動方向を意味する。従って、状態ｓ（エリア）と行動ａ（移動方向）が決まれば自ずと次の状態ｓ'（エリア）が一意に決まることから、Ｔ（ｓ，ａ，ｓ'）は店舗内のエリア配置に基づいて決めることができる。すなわち、状態ｓに対応するエリアから行動ａに対応する方向に隣接するエリアがｓ'であるならば、Ｔ（ｓ，ａ，ｓ'）＝１であり、そうでないエリアに対応する状態ｓ''に対しては、Ｔ（ｓ，ａ，ｓ''）＝０としてよい。

　動線予測部４５は、全状態ｓの戦略π（ｓ）及び期待報酬和Ｕ^π（ｓ）を決定したか否かを判断する（Ｓ３０５）。ここでの決定は、全状態ｓの戦略π（ｓ）及び期待報酬和Ｕ^π（ｓ）が収束することを意味する。全状態ｓの戦略π（ｓ）及び期待報酬和Ｕ^π（ｓ）が決定するまで、ステップＳ３０３及びステップＳ３０４を繰り返す。すなわち、式（４）（５）において期待値ΣＴ（ｓ，ａ，ｓ'）Ｕ^π（ｓ'）が最大となる行動ａを新たな戦略としてπ（ｓ）を更新し、同時にＵ^π（ｓ）を更新することで、最終的に最適な戦略π（ｓ）と期待報酬和Ｕ^π（ｓ）が得られる。

　さらに、図９を用いて、エリアｓ１６の最適な戦略π（ｓ１６）を求める場合を例として説明する。

　図９は、エリアｓ１６及びその周辺のエリアの報酬Ｒ（ｓ）と、エリアｓ１６（状態ｓ）の取りうる行動ａと、最適な戦略π（ｓ）のイメージを示す図である。図９において、エリアの配置に応じて、例えば、Ｔ（ｓ１６，ａ１，ｓ１３）＝１（１００％）、Ｔ（ｓ１６，ａ１，ｓ１５）＝０などと予め決めておく。なお、確率Ｔは「１」と「０」であるとは限らない。例えば、図２に示すエリアｓ１４の場合、行動ａ３を行うことによって、エリアｓ１７，ｓ１８に遷移する確率Ｔ（ｓ１４，ａ３，ｓ１７），Ｔ（ｓ１４，ａ３，ｓ１８）を、それぞれ０．５に予め決めておいても良い。予め決められたＴ（ｓ，ａ，ｓ'）の値は、記憶部２０に格納されている。

　エリアＳ１６では、行動ａ１、ａ２、ａ３、ａ４を取ることが可能である。この場合、行動ａ１、ａ２、ａ３、ａ４をそれぞれ取ったときの期待値ΣＴ（ｓ１６，ａ１，ｓ'）Ｕ^π（ｓ'）、ΣＴ（ｓ１６，ａ２，ｓ'）Ｕ^π（ｓ'）、ΣＴ（ｓ１６，ａ３，ｓ'）Ｕ^π（ｓ'）、ΣＴ（ｓ１６，ａ４，ｓ'）Ｕ^π（ｓ'）をそれぞれ算出する。ただし、この場合のΣは、ｓ'、すなわち、ｓ１３、ｓ１５、ｓ１７、ｓ２０に関する和を意味する。

　そして、動線予測部４５は、算出した期待値の中で最大となる行動ａを選択する。例えば、ΣＴ（ｓ１６，ａ３，ｓ'）Ｕ^π（ｓ'）が最大となる場合は、π（ｓ１６）＝ａ３と更新し、Ｕ^π（ｓ１６）＝ΣＴ（ｓ１６，ａ３，ｓ'）Ｕ^π（ｓ'）と更新する。このように、式（４）、（５）に基づく更新を、各エリアについて複数回繰り返していくことで、最終的に、各エリアの最適な戦略π（ｓ）と期待報酬和Ｕ^π（ｓ）が決まる。

　上記の説明では、戦略π（ｓ）は、１つの行動のみを決定論的に選択する方法であったが、これを確率的に求めることも可能である。すなわち、状態ｓで行動ａを取るべき確率として、式（６）のように戦略π（ｓ）を決定することが可能である。

　ただし、式（６）の右辺分母は、正規化項でＰ（ａ｜ｓ）がａに関して総和が１になるようにするためのものである。

　図８において、最適な戦略π（ｓ）が求まると、動線予測部４５は、配置変更後の隣接するエリア間（ある状態ｓ_ｉから次の状態ｓ_ｉ＋１）の遷移確率Ｐ（ｓ_ｉ＋１｜ｓ_ｉ）を下記の式（７）によって算出する（Ｓ３０６）。

　確率Ｔ（ｓ_ｉ，ａ，ｓ_ｉ＋１）は、状態ｓ_ｉにおいて行動ａを行うことによって状態ｓ_ｉ＋１に遷移する確率であり、上述したように予め決めておいた値である。

　なお、先に述べた行動１つのみを選択する決定論的な戦略π（ｓ）を用いる場合には、その行動を採る時のみＰ（ａ｜ｓ_ｉ）＝１、それ以外の行動を採る時はＰ（ａ｜ｓ_ｉ）＝０とすることで、Ｐ（ｓ_ｉ＋１｜ｓ_ｉ）を求めることができる。

　動線予測部４５は、所定の経路（エリアｓ_ａ→ｓ_ｂ）の遷移確率Ｐ（ｓ_ａ→ｓ_ｂ）を、ステップＳ３０６で算出した遷移確率Ｐ（ｓ_ｉ＋１｜ｓ_ｉ）に基づいて、算出する（Ｓ３０７）。具体的には、式（７）を使用して、エリアｓ_ａからエリアｓ_ｂまでの遷移確率の積を求めることによって、経路ｓ_ａ→ｓ_ｂの遷移確率Ｐ（ｓ_ａ→ｓ_ｂ）を算出する。例えば、動線予測部４５は、入店から商品Ｘｏを購入するまでの動線の遷移確率Ｐ（ｓ１→ｓ１２）を、Ｐ（ｓ１）×Ｐ（ｓ６｜ｓ１）×Ｐ（ｓ９｜ｓ６）×Ｐ（ｓ１２｜ｓ９）により、算出する。なお、遷移確率Ｐ（ｓ_ａ→ｓ_ｂ）を算出すべき所定の経路（エリアｓ_ａ→ｓ_ｂ）は、操作部３０を介して、指定されても良い。

　あるいは、遷移確率を行列とし、その行列積を繰り返すことで遷移確率Ｐ（ｓ_ａ→ｓ_ｂ）を求めることもできる。遷移確率の行列とは、行列の（ｉ，ｊ）成分がＰ（ｓ_ｊ｜ｓ_ｉ）となっている行列で、この行列自身の積を繰り返すことで、あらゆる経路を通ってエリアｓ_ａからエリアｓ_ｂに到達する確率の和を求めることができる。

　遷移確率Ｐ（ｓ_ａ→ｓ_ｂ）が高いときは、多くの買い物客がその経路（エリアｓ_ａ→ｓ_ｂ）を通ることを意味する。一方、遷移確率Ｐ（ｓ_ａ→ｓ_ｂ）が低いときは、買い物客がその経路（エリアｓ_ａ→ｓ_ｂ）をほとんど通らないことを意味する。予測結果の出力（図７のステップＳ２０５）として、例えば、ステップＳ３０７で算出した所定の経路の遷移確率Ｐ（ｓ_ａ→ｓ_ｂ）を含む情報を出力する。

　なお、図７のステップＳ２０５において出力される予測結果は、ステップＳ３０３～ステップＳ３０５で求めた最適な戦略π（ｓ）を示す情報であっても良い。この場合、ステップＳ３０６、Ｓ３０７を省略しても良い。また、出力する予測結果は、ステップＳ３０６で算出した商品配置変更後の遷移確率Ｐ（ｓ_ｉ＋１｜ｓ_ｉ）を示す情報であっても良い。この場合、ステップＳ３０７を省略しても良い。

　図１０Ａ、図１０Ｂは、表示部５０による予測結果の表示例を示している。図１０Ａは、各エリアの最適な戦略π（ｓ）の行動ａを矢印６１で示し、各エリアの報酬Ｒ（ｓ）を円形６２で示している。報酬Ｒ（ｓ）の大きさが円形６２のサイズから分かるように、例えば、報酬Ｒ（ｓ）が大きいほど、円形６２のサイズを大きくする。なお、報酬Ｒ（ｓ）が大きいほど、円形６２を濃く表示しても良い。

　図１０Ｂは、隣接するエリア間の遷移確率Ｐ（ｓ_ｉ＋１｜ｓ_ｉ）の一部を線６３によって示している。線６３によって遷移確率Ｐ（ｓ_ｉ＋１｜ｓ_ｉ）の大きさが分かるように、例えば、遷移確率Ｐ（ｓ_ｉ＋１｜ｓ_ｉ）が大きいほど、線６３を太くする。なお、遷移確率Ｐ（ｓ_ｉ＋１｜ｓ_ｉ）が大きいほど、線６３を濃く表示しても良い。

　３．効果等
　本開示の予測装置１は、店舗（領域の一例）内の商品の配置変更後の人の流れを予測する予測装置であって、店舗内の複数の人の流れを示す動線情報２２と、商品の配置位置を示す商品配置情報２１とを取得する通信部１０（取得部の一例）と、商品の配置変更を示す商品配置変更情報２５とを取得する操作部３０（取得部の一例）と、動線情報２２と商品配置情報２１とに基づいて、逆強化学習により、店舗内の人の行動モデル（行動モデル情報２４＝φ）を生成し、行動モデルと商品配置変更情報２５とに基づいて、商品の配置変更後の人の流れを予測する制御部４０と、を備える。

　これにより、実際に商品の配置を変更しなくても、商品の配置を変更した場合の人の流れを精度良く予測することができる。また、予測した人の流れに基づいて、売上が向上する位置に商品の配置を変更することが可能になる。あるいは、併売の可能性を考慮して、安売りやイベント等を行う場合に、どこで行うべきかを決定し、店内での人の流れをスムーズにしたり逆に滞留させたりして顧客単価向上を狙うといった、レイアウト変更の検討に利用することが可能である。

　行動モデルの生成は、具体的に、以下のように行う。店舗（領域の一例）は、複数のエリア（区域の一例であって、例えば、図２に示すエリアｓ１～ｓ２６）を含み、動線情報２２は、複数の人のそれぞれが通過したエリアを示す。制御部４０は、複数のエリアのそれぞれを逆強化学習における「状態」とし、動線情報２２に基づいて、各状態の報酬ｒ（ｓ）を学習することによって、行動モデル情報２４（関数（写像）φ）を生成する。より具体的には、制御部４０は、商品配置情報２１に基づいて、複数のエリアのそれぞれで取得可能な商品を示す特徴ベクトルｆ（ｓ）（区域特徴情報）を生成し、逆強化学習における状態を特徴ベクトルｆ（ｓ）によって表す。

　行動モデルを生成する前に、通信部１０（取得部の一例）は、店舗内の複数の人が購入した商品を示す購買品情報２３をさらに取得する。そして、制御部４０は、購買品情報２３に基づいて、複数の人をグループ分けし、グループ分け後の動線情報２２に基づいて、行動モデルを生成する。

　これにより、例えば、同一商品を購入したグループ（すなわち、同一の購買目的を持つグループ）についての行動モデルを生成できるため、より精度の良い行動モデルを生成できる。

　さらに、制御部４０は、動線情報２２に基づいて、複数の人のそれぞれの流れを複数の購買段階に分け、複数の購買段階のそれぞれに対応させて行動モデルを生成する。報酬の大きさは、購買段階に応じて変化する。例えば、目的商品を購入する前と購入した後では、同一のエリアであっても報酬の大きさは変化すると考えられる。よって、購買段階毎に行動モデルをそれぞれ生成することによって、より精度の良い行動モデルを生成できる。

　行動モデルに基づく、商品配置変更後の人の流れの予測は、具体的に、以下のように行う。図１において、まず、制御部４０は、行動モデル情報２４（関数（写像）φ）と商品配置変更情報２５とに基づいて、商品の配置変更後の報酬Ｒ（ｓ）を算出する。制御部４０は、商品の配置変更後の報酬Ｒ（ｓ）に基づいて、店舗内の人が各状態において取るべき行動を示す戦略π（ｓ）を決定する。制御部４０は、決定した戦略π（ｓ）に基づいて、商品の配置変更後のエリア間の人の遷移確率Ｐ（ｓ_ｉ＋１｜ｓ_ｉ）を算出する。また、予測装置１は、予測した人の流れを示す結果（例えば、遷移確率）を出力する出力部（例えば、通信部１０、制御部４０、表示部５０）をさらに備える。

　これにより、商品の配置を変更した場合の人の流れを示すことができる。よって、例えば、店舗の経営者は、予測した人の流れに基づいて、売上が向上する位置に商品の配置を実際に変更することが可能になる。

　本開示の予測方法は、店舗（領域の一例）内の商品の配置変更後の人の流れを予測する予測方法である。すなわち、図３に示す商品の配置位置を示す商品配置情報２１を取得するステップＳ１０１と、店舗内の複数の人の流れを示す動線情報２２を取得するステップＳ１０３と、商品の配置変更を示す商品配置変更情報２５を取得するステップＳ２０１と、動線情報２２と商品配置情報２１とに基づいて、逆強化学習により、店舗内の人の行動モデルを生成するステップＳ１０２及びＳ１０７と、図７に示すように行動モデルと商品配置変更情報２５とに基づいて、商品の配置変更後の人の流れを予測するステップＳ２０２～Ｓ２０４と、を含む。

　これにより、実際に商品の配置を変更しなくても、商品の配置を変更した場合の人の流れを精度良く予測することができる。また、予測した人の流れに基づいて、売上が向上する位置に商品の配置を変更することが可能になる。

　（他の実施の形態）
　以上のように、本出願において開示する技術の例示として、実施の形態１を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置き換え、付加、省略などを行った実施の形態にも適用可能である。また、上記実施の形態１で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。そこで、以下、他の実施の形態を例示する。

　［１］グループ分けの他の例
　上記実施の形態１のステップＳ１０５では、所定の商品を購入した買い物客を同一のグループにした。しかし、グループ分けは、上記実施の形態１の方法に限らない。動線情報２２と購買品情報２３を使用してグループ分けする方法であれば、任意の方法でグループ分けを行うことができる。

　例えば、マルチモーダルＬＤＡ（Ｌａｔｅｎｔ　Ｄｉｒｉｃｈｌｅｔ　Ａｌｌｏｃａｔｉｏｎ）を使用して、来店動機が類似している買い物客を同一のグループにしても良い。図１において、動線情報分割部４２ａは、マルチモーダルＬＤＡを使用することによって、所定期間（例えば、１ヶ月分）の動線情報２２と購買品情報２３から、買い物客の特性をＮ次元（例えば、Ｎ＝２０）のベクトルで表すことができる。動線情報２２と購買品情報２３に基づいたＮ次元の分類は、Ｎ個の来店動機による分類に相当する。動線情報分割部４２ａは、来店動機のベクトルの類似度に基づいて、買い物客をグループ分けすることができる。さらに、例えば、動線情報分割部４２ａは、各買い物客のベクトル表現の中で一番大きな数値に基づいて、グループ分けしても良い。

　また、その他のグループ分けの方法として、動線情報分割部４２ａは、例えば、非負値テンソル因子分解と呼ばれる手法、ニューラルネットワークを用いた教師なし学習、又はクラスタリング手法（Ｋ－ｍｅａｎｓ法など）を用いても良い。

　［２］段階分けの他の例
　上記実施の形態１では、図３のステップＳ１０６において、複数の購買段階への段階分けを、所定条件（商品Ｘｏを購入するまでか、あるいは購入した後か）に基づいて行った。しかし、段階分けは、上記実施の形態１の方法に限らない。例えば、隠れマルコフモデル（ＨＭＭ）を使用して、段階分けを行っても良い。

　ＨＭＭを使用する場合、買い物客の行動が、例えば状態遷移系列｛ｓ１、・・・、ｓ２６｝で観測されたときの確率Ｐ（ｓ１、・・・、ｓ２６）を下記の式（８）で表すことができる。

　ここで、Ｐ（ｍ_ｉ｜ｍ_ｉ－１）は、購買段階ｍ_ｉ－１（例えば、目的商品を買う段階）から購買段階ｍ_ｉ（例えば、支払いを行う段階）に遷移する確率である。

　Ｐ（ｓ_ｊ｜ｍ_ｉ）は、購買段階ｍ_ｉでエリアｓ_ｊに滞在または通過する確率（例えば、支払いを行う段階でｓ２６に滞在または通過する確率など）である。

　式（８）の値が最大となる遷移確率Ｐ（ｍ_ｉ｜ｍ_ｉ－１）及び出力確率Ｐ（ｓ_ｊ｜ｍ_ｉ）を求める。

　まず、Ｂａｕｍ－Ｗｅｌｃｈアルゴリズム又はＶｉｔｅｒｂｉアルゴリズムを使用し、初期値のＰ（ｍ_ｉ｜ｍ_ｉ－１）及びＰ（ｓ_ｊ｜ｍ_ｉ）に従って状態遷移系列を分割し、その分割に従ってＰ（ｍ_ｉ｜ｍ_ｉ－１）及びＰ（ｓ_ｊ｜ｍ_ｉ）を再計算することを、収束するまで繰り返す。これにより、状態遷移系列を購買段階ｍ毎に分割することができる。

　ここで、Ｐ（ｓ_ｊ｜ｍ_ｉ）は、購買段階ｍ_ｉがエリアｓ_ｊで開始する確率（前の購買段階ｍ_ｉ－１から次の購買段階ｍ_ｉに遷移したときに最初にエリアｓ_ｊである確率）Ｐ（ｓ_ｊ｜ｍ_ｉ－１ｍ_ｉ）と、購買段階ｍ_ｉから同一の購買段階ｍ_ｉに遷移するときにエリアｓ_ｊである確率Ｐ（ｓ_ｊ｜ｓ_ｊ－１）の両方を含む。Ｐ（ｓ_ｊ｜ｍ_ｉ－１ｍ_ｉ）は、購買段階ｍ_ｉの開始エリアとしてエリアｓ_ｊが発生する回数を同一グループの動線情報２２に基づいてカウントすることによって求める。Ｐ（ｓ_ｊ｜ｓ_ｊ－１）は、購買段階ｍ_ｉに対応する部分系列群（例えば、ｓ１、・・・、ｓ１２）から、逆強化学習により、得られる。

　上記のように、購買段階の遷移確率Ｐ（ｍ_ｉ｜ｍ_ｉ－１）をＨＭＭによって推定できる。さらに、購買段階ｍ_ｉ毎のエリアｓ_ｊの出力確率Ｐ（ｓ_ｊ｜ｍ_ｉ）を、段階ｍ_ｉの状態遷移系列（動線）に基づいて、逆強化学習によって推定できる。

　これにより、動線情報２２が示す状態遷移系列を購買段階毎に分割することができる。

　［３］予測結果の出力の他の例
　制御部４０は、購買段階分け後の退店動線上に、所定の商品と所定の関係にある別の商品の配置変更を提案して、例えば、提案した配置変更を表示部５０に出力しても良い。所定の関係にある別の商品は、例えば、所定の商品と同時に購入されることが多い商品である。

　制御部４０は、操作部３０を介して複数の商品配置変更情報２５を入力した場合、入力したそれぞれの商品配置変更情報２５に基づいて、商品配置変更後の遷移確率Ｐ（ｓ_ｉ＋１｜ｓ_ｉ）を算出する。

　これにより、所定の経路の遷移確率Ｐ（ｓ_ａ→ｓ_ｂ）を算出しても良い。そして、所定の経路の遷移確率Ｐ（ｓ_ａ→ｓ_ｂ）が高くなる商品配置変更情報２５を複数の商品配置変更情報２５から抽出して、例えば、抽出した商品配置変更情報２５を表示部５０に出力しても良い。

　以上のように、本開示における技術の例示として、実施の形態を説明した。そのために、添付図面および詳細な説明を提供した。したがって、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、上記技術を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。

　また、上述の実施の形態は、本開示における技術を例示するためのものであるから、特許請求の範囲またはその均等の範囲において種々の変更、置き換え、付加、省略などを行うことができる。

　なお、本実施の形態における店舗を所定の領域としてもよい。その場合、店舗内の複数のエリアを所定の領域内の複数の区域としてもよい。

　本開示の予測装置によれば、商品の配置変更後の買い物客の動線を予測することが可能になるため、売上を向上させるような商品の配置位置の情報をユーザに提供する種々の装置において有用である。

　　１　　　予測装置
　　１０　　通信部(取得部)
　　２０　　記憶部
　　２１　　商品配置情報
　　２２　　動線情報
　　２３　　購買品情報
　　２４　　行動モデル情報
　　３０　　操作部（取得部）
　　４０　　制御部
　　４１　　第１の特徴ベクトル生成部
　　４２　　モデル生成部
　　４２ａ　動線情報分割部
　　４２ｂ　報酬関数学習部
　　４３　　商品配置情報修正部
　　４４　　第２の特徴ベクトル生成部
　　４５　　動線予測部
　　５０　　表示部

Claims

　領域内の商品の配置変更後の人の流れを予測する予測装置であって、
　前記領域内の複数の人の流れを示す動線情報と、前記商品の配置位置を示す配置情報と、前記商品の配置変更を示す変更情報と、を取得する取得部と、
　前記動線情報と前記配置情報とに基づいて、逆強化学習により、前記領域内の人の行動モデルを生成し、前記行動モデルと前記変更情報とに基づいて、前記商品の配置変更後の人の流れを予測する制御部と、を備える、
予測装置。
　前記領域は、複数の区域を含み、
　前記動線情報は、前記複数の人のそれぞれが通過した区域を示し、
　前記制御部は、前記複数の区域のそれぞれを前記逆強化学習における状態とし、前記動線情報に基づいて、前記逆強化学習における各状態の報酬を学習することによって、前記行動モデルを生成する、
請求項１に記載の予測装置。
　前記制御部は、前記配置情報に基づいて、前記複数の区域のそれぞれで取得可能な商品を示す区域特徴情報を生成し、前記逆強化学習における前記状態を前記区域特徴情報によって表す、
請求項２に記載の予測装置。
　前記制御部は、前記行動モデルと前記変更情報とに基づいて、前記商品の配置変更後の報酬を算出する、
請求項２に記載の予測装置。
　前記制御部は、前記商品の配置変更後の報酬に基づいて、前記領域内の人が各状態において取るべき行動を示す戦略を決定する、
請求項４に記載の予測装置。
　前記制御部は、決定した前記戦略に基づいて、前記商品の配置変更後の区域間の人の遷移確率を算出する、
請求項５に記載の予測装置。
　前記取得部は、前記領域内の複数の人が購入した商品を示す購買品情報をさらに取得し、
　前記制御部は、前記購買品情報に基づいて、前記複数の人をグループ分けし、グループ分け後の前記動線情報に基づいて、前記行動モデルを生成する、
請求項１に記載の予測装置。
　前記制御部は、前記動線情報に基づいて、前記複数の人のそれぞれの流れを複数の購買段階に分け、前記複数の購買段階のそれぞれに対応させて前記行動モデルを生成する、
請求項１に記載の予測装置。
　前記制御部は、前記複数の購買段階を隠れマルコフモデルによって決定する、
請求項８に記載の予測装置。
　予測した前記人の流れを示す結果を出力する出力部をさらに備える、
請求項１に記載の予測装置。
　領域内の商品の配置変更後の人の流れを予測する予測方法であって、
　前記領域内の複数の人の流れを示す動線情報と、前記商品の配置位置を示す配置情報と、前記商品の配置変更を示す変更情報とを取得するステップと、
　前記動線情報と前記配置情報とに基づいて、逆強化学習により、前記領域内の人の行動モデルを生成するステップと、
　前記行動モデルと前記変更情報とに基づいて、前記商品の配置変更後の人の流れを予測するステップと、を含む、
予測方法。