WO2022118428A1

WO2022118428A1 - 行動予測方法、行動予測装置及びプログラム

Info

Publication number: WO2022118428A1
Application number: PCT/JP2020/045032
Authority: WO
Inventors: 健倉島; 浩之戸田
Original assignee: 日本電信電話株式会社
Priority date: 2020-12-03
Filing date: 2020-12-03
Publication date: 2022-06-09
Also published as: JP7476984B2; JPWO2022118428A1; US20230394363A1

Abstract

或る人の複数の行動のそれぞれについて当該行動の時間と当該行動の後の前記或る人の状態を示す数値とを含む第１の行動履歴から、或る時点において前記数値が閾値を超えるまでの前記或る人の労力を示す第１の特徴量を抽出する第１の抽出手順と、前記第１の行動履歴から、前記或る時点までに前記或る人が前記閾値の示す状態に馴化している度合いを示す第２の特徴量を抽出する第２の抽出手順と、前記第１の特徴量及び前記第２の特徴量と、前記第１の行動履歴における或る時点の行動から次の行動までの時間間隔とに基づいて、前記第１の特徴量及び前記第２の特徴量を説明変数とし、前記時間間隔を被説明変数とする予測モデルを学習する学習手順と、をコンピュータが実行することで、行動の予測を効率化する。

Description

行動予測方法、行動予測装置及びプログラム

　本発明は、行動予測方法、行動予測装置及びプログラムに関する。

　従来、人物に関する過去の履歴情報をもとに、深層学習技術を用いて人物が次の行動を起こす時間を予測する方法がある。例えば、時系列データの扱いに特化したＬＳＴＭ（Long short-term memory）などのリカレントニューラルネットワークを使うことで、時系列データに存在する規則性又はパターンを自動的に抽出して、次に行動が起きる時間を予測することができる（例えば、非特許文献１）。

Hochreiter, Sepp and Schmidhuber, Jurgen. "Long short-term memory." Neural computation 9.8 (1997): 1735-1780.

　しかしながら、従来技術では、人物に関する過去の履歴情報から自動的に規則性又はパターンが抽出及び学習される。つまり、従来技術では、どのような特徴量を重視すべきか、どういった数式で予測を行うか、といったことを無数にある可能性の中から探し出す処理が行われる。したがって、従来技術を適用するためには大量のデータを用意する必要があり、大量のデータを用意ができない状況においては正確な予測が困難であった。

　また、従来技術においては、大量のデータが存在する状況においても、ハイパーパラメータと呼ばれる数値（例えば、深層学習における層数や各層におけるノード（ニューロン）数など）を人手で設定する必要があり、そのチューニングに多くの時間を割く必要があった。

　本発明は、上記の点に鑑みてなされたものであって、行動の予測を効率化することを目的とする。

　そこで上記課題を解決するため、或る人の複数の行動のそれぞれについて当該行動の時間と当該行動の後の前記或る人の状態を示す数値とを含む第１の行動履歴から、或る時点において前記数値が閾値を超えるまでの前記或る人の労力を示す第１の特徴量を抽出する第１の抽出手順と、前記第１の行動履歴から、前記或る時点までに前記或る人が前記閾値の示す状態に馴化している度合いを示す第２の特徴量を抽出する第２の抽出手順と、前記第１の特徴量及び前記第２の特徴量と、前記第１の行動履歴における或る時点の行動から次の行動までの時間間隔とに基づいて、前記第１の特徴量及び前記第２の特徴量を説明変数とし、前記時間間隔を被説明変数とする予測モデルを学習する学習手順と、をコンピュータが実行する。

　行動の予測を効率化することができる。

本発明の実施の形態における行動予測装置１０のハードウェア構成例を示す図である。本発明の実施の形態における行動予測装置１０の機能構成例を示す図である。労力度抽出部１３及び馴化度抽出部１４のそれぞれが実行する処理を説明するための図である。

　本実施の形態では、ステータス（状態）を示すレーティングが与えられた人物が、或る行動を起こした結果に応じて自身のレーティングが確率的に変化する状況において、その人物が次の行動を起こす時間を行動履歴から予測する行動予測装置１０が開示される（例えば、人物は何らかのゲームに参加することができ、その結果に応じて人物のゲームスキルを示すレーティングが変化する。）。また、レーティングに関して何らかの参照点が存在する状況が想定される（例えば、人物のレーティングがある一定値以上になると、何らかの称号が与えられる状況など。）。

　なお、レーティングとは、人物の評価点、所有する金額など、広義の意味で人物のステータスを数値化したものを意味する総称をいう。本実施の形態では、レーティングが高いほど良い評価である場合として動作を述べるが、その逆であっても動作を逆転することで動作する。

　また、参照点とは、レーティングにおける丸め値（１００で割り切れる数値など）、自身が過去に記録したレーティングの最大値（最小値）、称号が与えられる境目（段階）となるレーティング値など、人物が価値を判断する際に基準とする数値を意味する総称をいう。

　以下、図面に基づいて本発明の実施の形態を説明する。図１は、本発明の実施の形態における行動予測装置１０のハードウェア構成例を示す図である。図１の行動予測装置１０は、それぞれバスＢで相互に接続されているドライブ装置１００、補助記憶装置１０２、メモリ装置１０３、プロセッサ１０４、及びインタフェース装置１０５等を有する。

　行動予測装置１０での処理を実現するプログラムは、ＣＤ－ＲＯＭ等の記録媒体１０１によって提供される。プログラムを記憶した記録媒体１０１がドライブ装置１００にセットされると、プログラムが記録媒体１０１からドライブ装置１００を介して補助記憶装置１０２にインストールされる。但し、プログラムのインストールは必ずしも記録媒体１０１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１０２は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。

　メモリ装置１０３は、プログラムの起動指示があった場合に、補助記憶装置１０２からプログラムを読み出して格納する。プロセッサ１０４は、ＣＰＵ若しくはＧＰＵ（Graphics Processing Unit）、又はＣＰＵ及びＧＰＵであり、メモリ装置１０３に格納されたプログラムに従って行動予測装置１０に係る機能を実行する。インタフェース装置１０５は、ネットワークに接続するためのインタフェースとして用いられる。

　図２は、本発明の実施の形態における行動予測装置１０の機能構成例を示す図である。図２において、行動予測装置１０は、操作部１１、出力部１２、労力度抽出部１３、馴化度抽出部１４、予測モデル構築部１５及び時間予測部１６を有する。これら各部は、行動予測装置１０にインストールされた１以上のプログラムが、プロセッサ１０４に実行させる処理により実現される。行動予測装置１０は、また、予測モデル記憶部１７を利用する。予測モデル記憶部１７は、例えば、補助記憶装置１０２、又は行動予測装置１０にネットワークを介して接続可能な記憶装置等を用いて実現可能である。なお、行動予測装置１０の構成要素のうち、労力度抽出部１３、馴化度抽出部１４、予測モデル構築部１５は外部の参照点・行動履歴記憶部２０と接続される。図２において、参照点・行動履歴記憶部２０は、行動予測装置１０の外部に示されているが、行動予測装置１０が参照点・行動履歴記憶部２０を有してもよい。

　参照点・行動履歴記憶部２０は、参照点を示す情報（参照点情報）と、複数の人物それぞれの行動履歴情報を記憶している。参照点・行動履歴記憶部２０は、行動予測装置１０からの要求に従って、参照点情報、人物の行動履歴情報を読み出し、これらの情報を行動予測装置１０に送信する。Ｍ個の参照点は、
Ｒ＝＜ｒ_１，ｒ_２，…，ｒ_Ｍ＞
と表現できる。ｒは特定のレーティングを示す数値であり、数値の昇順（ｒ_ｉ＜ｒ_ｉ＋１）にソートされているとする。

　人物ｕの行動履歴情報は、
Ｈｕ＝｛（ｓ_ｕ１，ｔ_ｕ１），…，（ｓ_ｕｎ，ｔ_ｕｎ）｝
と表現できる。行動履歴情報の各要素が行動イベントを示しており、ｔが行動を起こした時間（時刻等のタイミング）、ｓが行動を起こした後の人物のレーティングを示す。参照点・行動履歴記憶部２０には、複数人物に関してのこのような行動履歴情報が記憶されている。

　操作部１１は、行動予測装置１０の利用者から、予測モデル構築の実行に関する操作を受け付ける。操作部１１は、斯かる操作を受け付けると、予測モデルの構築に関する実行指令を労力度抽出部１３及び馴化度抽出部１４へ送信する。操作部１１は、また、予測を実施したい人物（予測対象の人物）の行動履歴情報を受け付けると（行動履歴情報の形式は上記した通りである。）、当該行動履歴情報を時間予測部１６に送信する。操作部１１が入力を受け付けるためのハードウェアは、キーボードやマウスやメニュー画面やタッチパネル等、所定のものに限定されない。操作部１１は、例えば、マウス等の入力手段のデバイスドライバや、メニュー画面の制御ソフトウェアがプロセッサ１０４に実行させる処理により実現される。

　出力部１２は、時間予測部１６から送信される予測結果を受け取り出力する。ここで、出力とは、ディスプレイへの表示、プリンタへの印字、音出力、外部装置への送信等を含む概念である。出力部１２は、例えば、出力デバイスのドライバソフト、又は出力デバイスのドライバソフトと出力デバイス等がプロセッサ１０４に実行させる処理によりされる。

　労力度抽出部１３は、或る行動イベントによるレーティングの変化により、或る時点において或る参照点ｒ_ｉを（良い方向に）超えた人物に関して、一つ前の参照点ｒ_ｉ－１を超えてから次の参照点ｒ_ｉを超えるまでの当該人物の労力の度合い（どの程度労力を割いたか）を示す特徴量（以下、「労力度」という。））を当該人物の行動履歴情報及び参照点情報から抽出する。労力度抽出部１３は、例えば、或る人物が、一つ前の参照点ｒ_ｉ－１を超えてから次の参照点ｒ_ｉを超えるまでに何回の行動イベントを行ったか、又は時間がどの程度かかったか（参照点ｒ_ｉ－１を超えてから参照点ｒ_ｉを超えるまでの経過時間）を数値化した値を労力度として、当該人物の行動履歴情報及び参照点情報に基づいて抽出する。労力度抽出部１３は、抽出した労力度としての特徴量を予測モデル構築部１５に送信する。

　馴化度抽出部１４は、或る行動イベントによるレーティングの変化により、或る時点において或る参照点ｒ_ｉを（良い方向に）超えた人物に関して、過去にその参照点ｒ_ｉを（良い方向に）超えた経験を何度行ったことがあるかを示す特徴量（参照点ｒ_ｉに当該人物が馴化している度合い（又は程度）を示す特徴量）（以下、「馴化度」という。）を当該人物の行動履歴情報及び参照点情報から抽出する。馴化度抽出部１４は、抽出した馴化度としての特徴量を予測モデル構築部１５に送信する。

　予測モデル構築部１５は、人物に関する情報と当該人物の行動履歴に基づいて、当該人物が次に行動を起こす時間情報を予測する予測モデルを構築（学習）する。人物に関する情報は、参照点・行動履歴記憶部２０から送信されてくる行動履歴情報から計算される基本的な特徴量（行動イベントの時間間隔の人物毎の平均値、レーティングの人物毎の平均値など）である。予測モデル構築部１５は、更に、労力度抽出部１３又は馴化度抽出部１４から送信された労力度及び馴化度も人物に関する情報として用いる。予測モデルのパラメータ推定に用いる機械学習器は、回帰木など教師あり学習器であれば何を用いても良い。予測モデル構築部１５によって構築した予測モデルに関する各種情報（例えば、予測モデルのパラメータ等）は予測モデル記憶部１７に送信される。なお、予測モデルは、複数の人物に対して共通である。すなわち、予測モデル構築部１５は、複数の人物に関する情報と、当該複数の人物の行動履歴を学習データとして、予測モデルを学習する。

　予測モデル記憶部１７は、予測モデル構築部１５から送信されてきた予測モデルに関する各種情報を記憶する。予測モデル記憶部１７はこれらの情報が保存され、復元可能なものであればなんでもよい。例えば、当該情報は、データベースや、予め備えられた汎用的な記憶装置（メモリやハードディスク装置）の特定領域に記憶される。

　時間予測部１６は、操作部１１から送信された予測対象の人物の行動履歴情報である予測対象行動履歴情報を受け付け、予測対象行動履歴情報から計算される基本的な特徴量（当該人物に関する行動イベントの時間間隔の平均値、当該人物に関するレーティングの平均値など）と、労力度抽出部１３又は馴化度抽出部１４が予測対象行動履歴情報から計算した労力度及び馴化度とを人物に関する情報とし、当該情報と予測モデル記憶部１７に記憶された予測モデルとを用いて（当該情報に当該予測モデルを適用して）、予測対象の人物が次に行動を起こす時間情報（時刻等のタイミング）の予測値を計算する。

　以下、具体的な例を用いて労力度抽出部１３及び馴化度抽出部１４のそれぞれが実行する処理について説明する。図３は、労力度抽出部１３及び馴化度抽出部１４のそれぞれが実行する処理を説明するための図である。図３には、２人の人物（人物Ａ、人物Ｂ）のレーティングの時系列変化が示されている。横軸が時間、縦軸がレーティングであり、黒丸が各行動イベントである。また、参照点となるレーティングｒ_１とレーティングｒ_２が点線によって示されている。

　図中左側の人物Ａのｉ番目の行動イベント（その結果、レーティングｒ_２を超えた）について、労力度抽出部１３は、人物Ａが、一つ前のレーティングｒ_１を超えてから３回の行動イベントを経ているため、この３回を労力度として抽出する。又は、労力度抽出部１３は、時間間隔のｄｅｌｔａ１を労力度として抽出しもよい。馴化度抽出部１４は、レーティング上昇の結果、人物Ａがレーティングｒ_２を超えた経験は初めてであるため、馴化度として１を抽出する。

　一方、図中右側の人物Ｂに関して、労力度抽出部１３は、３回、又はｄｅｌｔａ３を労力度として抽出する。馴化度抽出部１４は、レーティングｒ_２を良い方向に超えた経験が２回目であるため、人物Ｂの馴化度として２を抽出する。なお、人物Ｂの労力のカウント方法だが、レーティングｒ_２を初めて超えたケースを除き、ｒ_１を超えてからｒ_１とｒ_２の間のレーティングを記録した回数として２回とカウントしてもよい。また、レーティングｒ_２を初めて超えたケースのタイミングでカウントをクリアし、その後にｒ_１とｒ_２の間のレーティングだった回数（１回）を用いてもよい。

　予測モデル構築部１５においては、人物Ａのケースにおいては、労力度（３回又はｄｅｌｔａ１）、馴化度（１回）、人物Ａの基本的な特徴量（人物Ａのｉ番目の行動イベントまでの時間間隔の平均値、人物Ａのｉ番目の行動イベントまでのレーティングの平均値など）を説明変数として、ｉ＋１番目の行動イベントまでの時間間隔であるｄｅｌｔａ２を被説明変数としたデータの組み合わせを生成し、これらのデータに基づいて予測モデルを教師あり学習技術を用いて構築（学習）する。予測モデル構築部１５は、同様に、人物Ｂに関する情報にも基づいて予測モデルを学習する。斯かる予測モデルは、例えば、人物Ｃの次の行動の予測に用いることができる（但し、人物Ａ又は人物Ｂの次の予測に用いられてもよい。）。

　上述したように、本実施の形態によれば、人間の行動を予測する上で重要な特徴・特徴量を明示的に指定し、どのような特徴量を重視すべきか、どういった数式で予測を行うか、についての無数にある可能性を適切に絞り込むことで、予測のためにデータから学習すべき事項を効率的に減らすことができる。そのため、少量のデータしか存在しない場合でも高精度な予測が可能となる。また、従来技術で必要としていたパラメータチューニングのコストを減らすこともできる。よって、行動の予測を効率化することができる。

　なお、本実施の形態において、労力度は、第１の特徴量の一例である。馴化度は、第２の特徴量の一例である。労力度抽出部１３は、第１の抽出部の一例である。馴化度抽出部１４は、第２の抽出部の一例である。予測モデル構築部１５は、学習部の一例である。時間予測部１６は、予測部の一例である。参照点は、閾値の一例である。

　以上、本発明の実施の形態について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

１０　　　　　行動予測装置
１１　　　　　操作部
１２　　　　　出力部
１３　　　　　労力度抽出部
１４　　　　　馴化度抽出部
１５　　　　　予測モデル構築部
１６　　　　　時間予測部
１７　　　　　予測モデル記憶部
２０　　　　　参照点・行動履歴記憶部
１００　　　　ドライブ装置
１０１　　　　記録媒体
１０２　　　　補助記憶装置
１０３　　　　メモリ装置
１０４　　　　プロセッサ
１０５　　　　インタフェース装置
Ｂ　　　　　　バス

Claims

　或る人の複数の行動のそれぞれについて当該行動の時間と当該行動の後の前記或る人の状態を示す数値とを含む第１の行動履歴から、或る時点において前記数値が閾値を超えるまでの前記或る人の労力を示す第１の特徴量を抽出する第１の抽出手順と、
　前記第１の行動履歴から、前記或る時点までに前記或る人が前記閾値の示す状態に馴化している度合いを示す第２の特徴量を抽出する第２の抽出手順と、
　前記第１の特徴量及び前記第２の特徴量と、前記第１の行動履歴における或る時点の行動から次の行動までの時間間隔とに基づいて、前記第１の特徴量及び前記第２の特徴量を説明変数とし、前記時間間隔を被説明変数とする予測モデルを学習する学習手順と、
をコンピュータが実行することを特徴とする行動予測方法。
　前記閾値は複数の段階を有し、
　前記第１の抽出手順は、前記或る時点において超えた第１の段階より一つ下の第２の段階を超えた時点から前記第１の段階を超えるまでの前記或る人の労力を示す第１の特徴量を抽出し、
　前記第２の抽出手順は、前記或る時点までに前記或る人が前記第１の段階に馴化している度合いを示す前記第２の特徴量を抽出する、
ことを特徴とする請求項１記載の行動予測方法。
　前記予測モデルを用いて、第２の行動履歴の次の行動の時間を予測する予測手順、
をコンピュータが実行することを特徴とする請求項１又は２記載の行動予測方法。
　或る人の複数の行動のそれぞれについて当該行動の時間と当該行動の後の前記或る人の状態を示す数値とを含む第１の行動履歴から、或る時点において前記数値が閾値を超えるまでの前記或る人の労力を示す第１の特徴量を抽出する第１の抽出部と、
　前記第１の行動履歴から、前記或る時点までに前記或る人が前記閾値の示す状態に馴化している度合いを示す第２の特徴量を抽出する第２の抽出部と、
　前記第１の特徴量及び前記第２の特徴量と、前記第１の行動履歴における或る時点の行動から次の行動までの時間間隔とに基づいて、前記第１の特徴量及び前記第２の特徴量を説明変数とし、前記時間間隔を被説明変数とする予測モデルを学習する学習部と、
を有することを特徴とする行動予測装置。
　前記閾値は複数の段階を有し、
　前記第１の抽出部は、前記或る時点において超えた第１の段階より一つ下の第２の段階を超えた時点から前記第１の段階を超えるまでの前記或る人の労力を示す第１の特徴量を抽出し、
　前記第２の抽出部は、前記或る時点までに前記或る人が前記第１の段階に馴化している度合いを示す前記第２の特徴量を抽出する、
ことを特徴とする請求項４記載の行動予測装置。
　前記予測モデルを用いて、第２の行動履歴の次の行動の時間を予測する予測部、
を有することを特徴とする請求項４又は５記載の行動予測装置。
　請求項１乃至３いずれか一項記載の行動予測方法をコンピュータに実行させることを特徴とするプログラム。