WO2023007922A1

WO2023007922A1 - 情報処理装置

Info

Publication number: WO2023007922A1
Application number: PCT/JP2022/021018
Authority: WO
Inventors: 央倉沢; 佳徳礒田; 樹柴田; 洋樹浅井
Original assignee: 株式会社Ｎｔｔドコモ
Priority date: 2021-07-30
Filing date: 2022-05-20
Publication date: 2023-02-02
Also published as: JPWO2023007922A1

Abstract

本発明は、ユーザ行動などの時系列データを、機械学習処理において扱うにあたって、その負荷を軽減することができる時系列データ処理装置を提供することを目的とする。　行動分析装置１００は、ユーザ行動を示す一または複数の時系列データのうち、非重要行動データを取得する時系列データ取得部１０１と、非重要行動データを一般化処理する一般化処理部１０２と、を備える。本開示において、非重要行動データは、ユーザの行動履歴のうち、その頻度が低い行動を示す。そして、一般化処理部１０２は、一般化処理として、非重要行動データを所定の文字列（例えば［ＵＮＫ］）に置き換える。また、一般化処理部１０２は、非重要行動データを、当該行動カテゴリを示すよう一般化処理を行う。

Description

情報処理装置

　本発明は、ユーザの行動などを示す時系列データを処理する情報処理装置に関する。

　非特許文献1に記載されている自然言語処理を行うＢＥＲＴ（Bidirectional Encoder Representations from Transformers）による機械学習方法が知られている。このＢＥＲＴは、自己注意（Ｓｅｌｆ－Ａｔｔｅｎｔｉｏｎ）機構付きのエンコーダデコーダモデルを有しており、自然言語処理および画像処理を行う。

Ｊａｃｏｂ　Ｄｅｖｌｉｎ、他２名、BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding、［online］、掲載日：２０１９年５月２４日、掲載者：arXiv.org、検索日：２０２１年７月２日、https://arxiv.org/pdf/1810.04805.pdf、英語

　顧客体験またはユーザ行動のそれぞれにおける時間経過が、その顧客体験またはユーザ行動を把握する上で重要である。そして、局所的または大局的な時系列データの隣接関係の学習をＢＥＲＴにおいて適切に行う必要がある。一方で、顧客体験またはユーザ行動のそれぞれにおける時間経過が、その顧客体験またはユーザ行動を把握する上で重要であるが、異なるタイミングで発生したユーザ行動を区別して学習すると、その学習量が膨大となる。

　そこで、上述の課題を解決するために、本発明は、ユーザ行動などの行動データを、機械学習処理において扱うにあたって、その負荷を軽減することができる情報処理装置を提供することを目的とする。

　本発明の情報処理装置は、ユーザ行動を示す一または複数の行動データのうち、非重要行動データを取得する取得部と、前記非重要行動データを一般化処理する処理部と、を備える。

　本発明によると、機械学習の処理を行う際においてその負荷を軽減したデータを生成することができる。

本開示におけるユーザ行動を取得して分析する行動分析装置１００を含む通信システムのシステム構成図である。行動分析装置１００の機能構成を示すブロック図である。一般化処理の具体例を示す模式図である。行動識別子の挿入処理を示す模式図である。ＢＥＲＴを模式的に示したモデルを示す図である。行動分析装置１００の学習処理を示すフローチャートである。、行動分析装置１００の処理内容を示すフローチャートである。行動履歴データベース１０１ａを示す図である。全ユーザに対して、分類ごとの発生頻度を集計した図である。ユーザ行動の分類の頻度を、階層ごとに構成された分類ごとに集計した図である。図９および図１０（a）～図１０（ｃ）で示される集計表をマージした図である。マージされた集計表から、発生頻度が上位１２件の分類を取り出した図である。管理テーブル（図１２）に基づいて、行動識別子を一般化した図である。一般化処理された行動履歴データに対して、その行動の間の時間間隔に基づいて区切りを示す行動識別子を挿入した図である。ユーザの行動履歴データベース１０１aからアテンションの重みの算出および選択処理を模式的に示した図である。、本開示の一実施の形態に係る行動分析装置１００のハードウェア構成の一例を示す図である。

　添付図面を参照しながら本開示の実施形態を説明する。可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。

　図１は、本開示におけるユーザ行動を取得して分析する行動分析装置１００を含む通信システムのシステム構成図である。この行動分析装置１００は、ユーザがＷＥＢサイトにアクセスした操作履歴を時系列データとして扱う時系列データ処理装置として機能する。また、行動分析装置１００は、ユーザがある企業の電話サービス（製品の相談または質問等）を利用した場合に、その利用の状態を時系列データとして扱う。

　行動分析装置１００は、分析対象であるユーザが操作するＰＣ２００がＷＥＢサーバ３００に対するアクセス履歴を収集して分析する。また、電話サービスを利用したユーザの行動履歴については、そのサービス運営者がその行動履歴を記録しておき、行動分析装置１００の行動履歴データベース１０１ａに登録する。

　ＰＣ２００は、一般的なパーソナルコンピュータであって、ＷＥＢサーバ３００にネットワークを介してアクセスする。

　ＷＥＢサーバ３００は、ＰＣ２００に対してＷＥＢ情報の提供を行うサーバである。

　行動分析装置１００は、ＷＥＢサーバ３００におけるどの情報に対してＰＣ２００がアクセスしたか、その行動履歴データを収集する。例えば、ＰＣ２００が携帯電話の通信会社のサイトにアクセスした場合、どのような情報にアクセスしたか、収集する。より具体的には、携帯電話の料金プランの情報、携帯端末の種類の情報を収集する。

　図２は、行動分析装置１００の機能構成を示すブロック図である。この行動分析装置１００は、行動履歴データベース１０１ａ、時系列データ取得部１０１、一般化処理部１０２、データ加工部１０３、学習部１０４、学習モデル１０４ａ、ＢＥＲＴ処理部１０５、範囲選択部１０６および出力部１０７を含んで構成されている。以下各構成について説明する。

　行動履歴データベース１０１ａは、ＰＣ２００がＷＥＢサーバ３００にアクセスした行動履歴データを記憶する部分である。ＰＣ２００またはＷＥＢサーバ３００は、アクセスする度にまたは定期的に行動履歴データを行動履歴データベース１０１ａに記憶する。また、行動履歴データベース１０１ａは、上述したとおり、ＷＥＢアクセス以外のユーザの行動をオペレータによる操作に従って記憶する。本開示においては、ＷＥＢサーバ３００以外の方法、例えば電話などにより、ＷＥＢサーバ３００が提供するサービスと同等のサービスをユーザが受けた場合に、そのユーザの行動を電話オペレータ等が登録する。本開示においては、ユーザの行動とは、ユーザがあるサービスを受けようとした場合に、そのサービスを受けることに対する行動を示している。

　時系列データ取得部１０１は、行動履歴データベース１０１ａから行動履歴データである時系列データを取得する部分である。

　一般化処理部１０２は、時系列データのうち、発生頻度の低い時系列データを一般化処理する部分である。例えば、一般化処理部１０２は、一般化処理として、発生頻度の低い時系列データの全部または一部を、所定の記号または文字列に置き換える。

　図３は、一般化処理の具体例を示す模式図である。図では、行動Ａ１、行動Ａ２・・・で示した行動識別子を、ＷＥＢサイトに対するアクセス情報として示している。図３（ａ）では、あるユーザは、行動Ａ１、行動Ａ２・・・行動Ｂ３、行動Ｂ４、行動Ｂ５を行った。この行動Ａ１等は、行動識別子を示し、ＷＥＢサーバ３００における一の情報に対してアクセスしたことを示す。また、行動Ａ１と、行動Ｂ１とは、異なる行動カテゴリを示す。そして、一般化処理部１０２は、低頻度の行動を、行動カテゴリ＋［ＵＮＫ］に置き換える。例えば、一般化処理部１０２は、行動Ｂ４の発生頻度が低い場合に、行動Ｂ４をＢ［ＵＮＫ］に置き換える（図３（ｂ））。一般化処理部１０２の更なる詳細な処理内容については、後述する。

　データ加工部１０３は、複数あるユーザ行動を示す時系列データに対して、時系列データ間が所定時間以上あいている場合に、各時系列データを区別するための行動識別子を挿入する部分である。

　図４は、行動識別子の挿入処理を示す模式図である。なお、本図においては、カテゴリの表記を省略している。図４（ａ）に示される通り、行動１と行動２との間は６分であり、行動２と行動３との間は２６分であるとする。他の行動についても、図に示された通りであるとする。このようなユーザの行動において、時間的に連続していて明確な区切りがない場合が多い。また、ユーザの行動間の時間間隔もまちまちである場合が多い。

　図４（ｂ）に示される通り、データ加工部１０３は、行動間の間隔を閾値パラメータで対数をとった実数以下の最大の整数の数だけ区切りを表す行動識別子を挿入する。例えば、図４に示されるように、行動１と行動２との間は６分である。データ加工部１０３は、閾値パラメータを５とした場合、Ｌｏｇ５（６）＝１を計算して、間隔が６分である行動１と行動２と間に、１つの区切りを表す行動識別子を挿入する。他の行動においても同様の計算を行う。

　このように区切りを示す行動識別子を挿入することで、行動の区切りを示すことができる。また、いわゆるログスケールを取って、区切りを示す行動識別子の個数を時間間隔が長いほど多く挿入するとともに、ある程度時間間隔が長くなった場合には、その個数を制限する方向に調整する関数を使う。これにより、時間間隔の長さと、区切りの行動識別子との個数との関係を示すことができる。ユーザの行動によっては、ある程度長く経過した場合には、その行動の意味に変化がない場合が多い。例えば、５分後に行ったユーザの行動と、１年後に行ったユーザの行動と、では、明確に区別する必要があるが、１年後に行ったユーザの行動と、２年後に行ったユーザの行動とは、その行動の意味または行動の内容に区別する必要がない場合がある。

　なお、データ加工部１０３は、区切りを示す行動識別子を挿入することに代えて、またはそれに加えて、ユーザの行動の長さに応じて行動識別子を挿入してもよい。例えば、データ加工部１０３は、ユーザ行動として在宅、外出、または移動があった場合に、在宅時間、外出時間、または移動時間のそれぞれの長さに応じた行動識別子を追加してもよい。例えば在宅を示す行動識別子を１時間であれば、１つ、２時間であれば２つとするように、その行動識別子を追加してもよい。また、時間を示す行動識別子をその前後のどちらかに追加してもよい。

　学習部１０４は、一般化処理して、データ加工された時系列データを用いて機械学習を行う部分である。本開示においては、自然言語処理の言語モデルに利用されているＢＥＲＴ（Bidirectional Encoder Representations from Transformers）を用いた機械学習を行う。ＢＥＲＴでは、事前学習とファインチューニングとを行うことで学習処理を行う。事前学習では、時系列データを用いて、穴埋め問題処理と隣接予測処理とを行う。通常のＢＥＲＴによる学習では、文章を入力しているが、本開示においては、上記の通り、一般化処理され、データ加工された時系列データを入力することにより、ＢＥＲＴによる学習モデル１０４ａを生成する。

　図５は、ＢＥＲＴを模式的に示したモデルを示す図である。このモデルは、ベクトルのシーケンス(Ｅ１… ＥＮ）を入力とし、ベクトルのシーケンス(Ｔ１…ＴＮ)が出力されるモデルである。また、入力層と出力層との間に隠れ層(Ｔｒｍ=Transformer)を複数重ねた構造である。この図は、非特許文献１から抜粋した図である。

　ＢＥＲＴ処理部１０５は、ＢＥＲＴによる学習モデル１０４ａを用いた処理を行う部分である。ＢＥＲＴ処理部１０５は、ＢＥＲＴの学習モデル１０４ａにおけるＳｅｌｆＡｔｔｅｎｔｉｏｎ（自己注意）機能を用いて、入力した複数の時系列データの相互に関連する度合いを示すアテンションの重みを算出する。上記学習部１０４は、このアテンションの重みを算出するために学習モデル１０４ａを学習する。

　範囲選択部１０６は、ＢＥＲＴ処理部１０５が算出したアテンションの重みに基づいて、指定されたユーザの行動に関連する行動を導出する部分である。範囲選択部１０６は、比較対象となる時系列データを受け付けており、当該比較対象の時系列データとの間のアテンションの重みと、事前に入力された閾値とを比較して、閾値以上のアテンションの重みを有する時系列データを選択する。なお、範囲選択部１０６は、最も古い時系列データ以降の時系列データを選択してもよい。この場合、アテンションの重みが閾値未満の時系列データを含む場合がある。

　出力部１０７は、選択された時系列データを出力する部分である。本開示において、出力部１０７は、表示部に出力する、または通信部を介して外部に出力することを含む。

　つぎに、本開示の行動分析装置１００の動作について説明する。図６は、行動分析装置１００の学習処理を示すフローチャートである。

　時系列データ取得部１０１は、複数のユーザの行動履歴データと、時間間隔の閾値パラメータとを受け付ける（Ｓ１０１）。そして、時系列データ取得部１０１は、行動履歴データから、行動した日時、ユーザ識別子および行動識別子を取得する（Ｓ１０２）。

　一般化処理部１０２は、ユーザ識別子に基づいてユーザごとに取得された行動識別子をソートして、ユーザごとの行動識別子において発生頻度が低頻度の行動識別子に対して、一般化処理を行う。すなわち、低頻度の行動識別子を一般化した記号に置換する（Ｓ１０３）。

　データ加工部１０３は、閾値パラメータに基づいて、行動識別子間に、区切りを示す行動識別子を挿入する（Ｓ１０４）。これら処理は、例えば、１０００個の時系列データに対して行われる。

　学習部１０４は、ＢＥＲＴを用いた学習処理を行い、ＢＥＲＴによる学習モデル１０４ａを生成し、記憶する（Ｓ１０５、Ｓ１０６）。例えば、１０００個の時系列データを用いた学習処理が行われる。

　つぎに、学習した学習モデル１０４ａを用いた処理について説明する。ここでは、学習モデル１０４ａのＳｅｌｆＡｔｔｅｎｔｉｏｎ機能を用いて、指定したユーザの行動に対して関連する他の行動を特定する処理を示す。図７は、行動分析装置１００の処理内容を示すフローチャートである。

　処理Ｓ２０１～Ｓ２０４は、処理Ｓ１０１～Ｓ１０４と概ね同じである。すなわち、行動分析装置１００において、時系列データ取得部１０１は、ユーザの行動履歴データおよび閾値パラメータを取得する。なお、時系列データ取得部１０１は、アテンションの重みに対する閾値および比較対象となるユーザの行動対象情報をさらに取得する。そして、時系列データ取得部１０１は、行動履歴データから行動識別子等を時系列データとして取得し、一般化処理部１０２は、一般化処理し、データ加工部１０３は、時系列データの所定条件を満たした箇所に、区切りを示す行動識別子を挿入する。

　ＢＥＲＴ処理部１０５は、学習モデル１０４ａに、行動識別子および区切り識別子を含んだ時系列データを入力し、時系列データごとのアテンションの重みを取得する（Ｓ２０５）。

　範囲選択部１０６は、各時系列データの組み合わせごとのアテンションの重みと、事前に受け付けられたアテンションの重みに対する閾値とに基づいて、全時系列データから、事前に指定されたユーザの時系列データに対応する行動履歴データを選択する（Ｓ２０６）。すなわち、範囲選択部１０６は、処理Ｓ２０１で受け付けた比較対象となる行動対象情報（一時系列データ）と各時系列データとのアテンションの重みのうち、そのアテンションの重みが閾値以上の時系列データ（行動履歴データ）を選択する。

　出力部１０７は、選択された時系列データ（行動履歴データ）およびアテンションの重みを出力する（Ｓ２０７）。

　このようにして、行動対象情報に関連する他の行動履歴データを選択することができる。

　つぎに、一般化処理について図8から図１１を用いて説明する。図８は、行動履歴データベース１０１ａを示す図である。図に示される通り、行動履歴データベース１０１ａは、ユーザＩＤ、日時、および分類１～分類４を対応付けている。ユーザＩＤは、ユーザを識別するための識別子である。日時は、ユーザが行動した日時を示す。図では、日にちおよび時刻を示しているが、日にちのみでもよい。分類１～分類４は、ユーザの行動の分類カテゴリを示す。分類１は、ＷＥＢアクセスか、コールセンタへの電話を示す。分類２は、コーポレートサイトであるか、ＯＬＴ（オンライン手続き）、総合ＩＣ（Information Center）などの分類を示す。分類３は、ＷＥＢ閲覧であるか、入電であるか（電話）の分類を示す。分類４は、ユーザ行動の具体例の分類を示す。図では、ＭｙＰａｇｅにアクセスした、ポイントのページにアクセスしたなどを示している。

　図９は、全ユーザの所定の期間における行動履歴データに対して、分類ごとの発生頻度を集計した図である。例えば、図は、分類１：ＷＥＢ、分類２：コーポレートサイト、分類３：閲覧、分類４：Ｍｙ＿Ｐａｇｅへの行動を起こした頻度は、２０であることを示す。この頻度は、行動履歴データベース１０１ａに記載されている各ユーザの行動履歴から集計される情報である。本開示においては、一般化処理部１０２が、時系列データに対して一般化処理を行う際に、分類ごとの頻度の集計処理を行う。

　図１０は、ユーザ行動の分類の頻度を、階層ごとに構成された分類ごとに集計した図である。すなわち、大分類ごと、中分類ごと、小分類ごと、にそれぞれのユーザ行動の頻度を集計する。本開示においては、分類は、分類１～分類４に分けられている。分類１は、ユーザの行動の最上位概念の分類を示す。分類２～分類４は、その数値が大きくなるにしたがって、その概念が狭くなるよう定義されている。

　図１０（a）は、分類１に含まれるユーザ行動の頻度を集計した図である。分類１は、分類２から分類４を含んだ分類である。図に示される通り、ユーザが、ＷＥＢを使ったか、コールセンタを使ったか、それぞれに分類されるユーザ行動の頻度を集計する。

　図１０（ｂ）は、分類２に含まれるユーザ行動の頻度を集計した図である。分類２は、分類３および分類４を含んで分類である。例えば、コーポレートサイトにアクセスした頻度、およびＯＬＴにアクセスした頻度などを集計したことを示す。

　図１０（ｃ）は、分類３に含まれるユーザ行動の頻度を集計した図である。

　図１１は、図９および図１０（a）～図１０（ｃ）で示される集計表をマージした図である。図１１では、分類は、マージしたのち、頻度の多い順に並び変えられている。なお、本開示においては、同一頻度の分類については、大分類で構成される分類を上位にしている。また、大分類で集計した頻度においては、中分類および小分類の項目が欠損している。この欠損部分には、一般的な情報であることを示す［ＵＮＫ］という文字列を記述する。なお、［ＵＮＫ］以外の文字列としてもよい。また、その他の記号としてもよく、一般的な情報であることを示すための文字列または記号とすればよい。

　図１２は、図１１に示されるマージされた集計表から、発生頻度が上位１２件の分類を取り出した図である。本開示において、これを管理テーブルと称する。なお、当然ながら１２件に限定するものではなく、任意の値としてもよい。

　図１３は、管理テーブル（図１２）に基づいて、行動識別子を一般化した図である。一般化処理部１０２は、管理テーブルに記述されている各分類に一致する行動履歴レコードを、行動履歴データベース１０１ａから探索する。そして、一致する行動履歴レコードにおける各分類を“／”で連結して、行動識別子として生成する。一般化処理部１０２は、上位の分類が一致するものの、下位の分類が一致しない行動履歴レコードについては、一致しない下位の分類については、［ＵＮＫ］に置き換える。そして、各分類を“／”で連結して、行動識別子として生成する。

　例えば、管理テーブルに記述されているレコードＲ１（分類１：ＷＥＢ、分類２：コーポレートサイト、分類３：閲覧、分類４：Ｍｙ＿Ｐａｇｅ）が、行動履歴データベース１０１ａにも記述されていれば、それに基づいて行動識別子が生成される。

　一方、例えば、管理テーブルに記述されているレコードＲ２（分類１：ＷＥＢ、分類２：ＯＬＴ、分類３：閲覧、分類４：［ＵＮＫ］）のうち、分類１～分類３までが、行動履歴データベース１０１ａにも記述されている場合、分類４の内容に関わらず、分類４：［ＵＮＫ］を用いて、行動識別子が生成される。図１３では、行動履歴レコードＲ２の行動識別子として、ＷＥＢ／ＯＬＴ／閲覧／［ＵＮＫ］が生成される（レコードＲ２１参照）。レコードＲ２１においては、分類４として、「料金プラン　オプション」が登録されているが、この項目へのアクセスの頻度が低いため、一般化処理される。なお、行動識別子ＷＥＢ／ＯＬＴ／閲覧／［ＵＮＫ］のうち、ＷＥＢ／ＯＬＴ／閲覧が行動カテゴリに相当する。

　このように、全体の発生頻度に対して、各発生頻度が低い場合には、［ＵＮＫ］という文字列を使って一般化処理する。図１３においては、レコードＲ３１（分類１:ＷＥＢ、分類２：ＯＬＴ、分類３：閲覧、分類４：ご契約内容の確認）の行動識別子は、ＷＥＢ／ＯＬＴ／閲覧／［ＵＮＫ］となり、レコードＲ２１の行動識別子と同じとなる。レコードＲ２１とレコードＲ３１とは、ユーザの全体の行動からすると同じ行動として扱われることになる。

　そして、ＢＥＲＴ等のアテンション付きエンコーダモデルにおいて、その関連度を求める場合には、同じ行動として扱われることになる。よって、アテンションの重みを算出する際に、その算出処理を軽減することができる。

　図１４は、一般化処理された行動履歴データに対して、その行動の間の時間間隔に基づいて区切りを示す行動識別子を挿入した図を示す。

　図に示されるとおり、レコードＲ４１～Ｒ４３が、ユーザの行動の間に挿入されている。これらレコードＲ４１～Ｒ４３は、図４で示した区切りを示す行動識別子を示す。図１４では、“ＳＥＰ”を挿入することで区切りを示している。よって、ユーザの行動における隣接関係を把握することを容易にする。すなわち、時間間隔が小さい場合には、隣接する行動間においては密接な関係があると考えられる。一方で、時間間隔が大きい場合には、その隣接する行動間においてそれほど関連性はないと考えられる。本開示では、それら隣接する行動の関連性を明確にしている。

　図１４に示される区切りを示す行動識別子の挿入は、時系列データ取得部１０１により取得された行動履歴データに対して行われ、そして、学習部１０４によりＢＥＲＴによる学習処理が行われる。

　時系列データ取得部１０１は、全行動履歴データから、例えば１０００個の行動履歴データを時系列データとして取得する。そして、その１０００個の時系列データに対して、一般化処理部１０２およびデータ加工部１０３は、上述した一般化処理および区切りを示す行動識別子の挿入処理を行う。

　学習部１０４は、それら処理がなされた時系列データに対して、穴埋め問題処理および隣接予測処理を行う。穴埋め問題は、一または複数の時系列データのレコードのうちランダムでマスクすることにより行う。隣接予測処理は、レコード同士の隣接予測を行う。このようにして、学習モデル１０４ａが学習される。

　図１５は、ユーザの行動履歴データベース１０１ａからアテンションの重みの算出および選択処理を模式的に示した図である。図１５（ａ）では、便宜上、その行動が発生した日時と行動識別子とを示す。図４に示されるように行動セグメント対象（行動対象情報）とするレコードが、オペレータによりあらかじめ指定される。

　図１５（ｂ）は、ＢＥＲＴ処理部１０５によるセルフアテンション機構に基づいて算出されたセルフアテンションの重みを対応付けた図である。図では、行動識別子ＷＥＢ／コーポレートサイト／閲覧／お客様サポートが行動セグメント対象として指定されている。そして、これとの関連度合いがセルフアテンションの重みで表される。

　図１５（ｃ）は、セルフアテンションの重みの閾値が０．３とした場合の範囲選択部１０６が選択した範囲を示す図である。セルフアテンションの重みが０．３以上のセルフアテンションの重みをもつ行動識別子が選択される。なお、本開示においては、０．３以上のセルフアテンションの重みをもつ行動識別子が選択されているが、これに限らず、０．３以上のセルフアテンションの重みをもつ行動識別子のうち最も古く発生した行動識別子以降に発生する行動識別子を選択してもよい。

　つぎに、本開示の行動分析装置１００の作用効果について説明する。本開示において、行動分析装置１００は、時系列データを一般化処理するための情報処理装置として機能する。

　本開示の行動分析装置１００は、ユーザ行動を示す一または複数の行動データのうち、非重要行動データを取得する時系列データ取得部１０１と、非重要行動データを一般化処理する一般化処理部１０２と、を備える。

　本開示において、非重要行動データは、ユーザの行動履歴のうち、その頻度が低い行動を示す。そして、一般化処理部１０２は、一般化処理として、非重要行動データを所定の文字列（例えば［ＵＮＫ］）に置き換える。また、一般化処理部１０２は、非重要行動データを、行動カテゴリを示すよう一般化処理を行う。上述したとおり、行動識別子ＷＥＢ／ＯＬＴ／閲覧／［ＵＮＫ］があった場合、ＷＥＢ／ＯＬＴ／閲覧／が行動カテゴリを示す。なお、非重要行動データは、発生頻度のみに基づくものではなく、そのほかの事情に基づいてもよい。例えば、あらかじめ学習には必要はないと思われるデータには、非重要行動データである旨の方法を付加しておいてもよい。また、所定時間経過したデータについても非重要行動データとして扱ってもよい。

　本開示において、行動分析装置１００は、ユーザの行動データの履歴を記憶する行動履歴データベース１０１ａ（履歴記憶部）をさらに備える。そして、時系列データ取得部１０１は、行動履歴データベース１０１ａを参照して、非重要行動データを取得する。

　機械学習部として機能するＢＥＲＴ処理部１０５は、時系列データ同士のアテンションの重みを、自己注意機能に基づいて算出し、当該アテンションの重みに基づいて、任意の時系列データに対して関連性の高い１または複数の他の時系列データを取得する。

　この構成により、時系列データに適したデータ形態で学習処理を行って得た学習モデルの自己注意機能を用いて関連性の高い時系列データを算出することができる。

　ＢＥＲＴ処理部１０５は、アテンションの重みが所定値以上の他の時系列データのうち、所定条件を満たした一の他の時系列データ以降に発生した時系列データを取得する。

　この構成によれば、関連性の高い時系列データの発生以降の他の時系列データを関連したものとして扱うことになる。この中には、関連性の高くない時系列データも含む場合があるが、関連性の高い時系列データに囲まれた時系列データであることから、全く関連性がないわけでもない。このような時系列データをも含ませることができる。

　上記実施形態の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック（構成部）は、ハードウェアおよびソフトウェアの少なくとも一方の任意の組み合わせによって実現される。また、各機能ブロックの実現方法は特に限定されない。すなわち、各機能ブロックは、物理的または論理的に結合した１つの装置を用いて実現されてもよいし、物理的または論理的に分離した２つ以上の装置を直接的または間接的に（例えば、有線、無線などを用いて）接続し、これら複数の装置を用いて実現されてもよい。機能ブロックは、上記１つの装置または上記複数の装置にソフトウェアを組み合わせて実現されてもよい。

　機能には、判断、決定、判定、計算、算出、処理、導出、調査、探索、確認、受信、送信、出力、アクセス、解決、選択、選定、確立、比較、想定、期待、見做し、報知（broadcasting）、通知（notifying）、通信（communicating）、転送（forwarding）、構成（configuring）、再構成（reconfiguring）、割り当て（allocating、mapping）、割り振り（assigning）などがあるが、これらに限られない。たとえば、送信を機能させる機能ブロック（構成部）は、送信部（transmitting　unit）や送信機（transmitter）と呼称される。いずれも、上述したとおり、実現方法は特に限定されない。

　例えば、本開示の一実施の形態における行動分析装置１００などは、本開示の行動分析方法の処理を行うコンピュータとして機能してもよい。図１６は、本開示の一実施の形態に係る行動分析装置１００のハードウェア構成の一例を示す図である。上述の行動分析装置１００は、物理的には、プロセッサ１００１、メモリ１００２、ストレージ１００３、通信装置１００４、入力装置１００５、出力装置１００６、バス１００７などを含むコンピュータ装置として構成されてもよい。

　なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。行動分析装置１００のハードウェア構成は、図に示した各装置を１つまたは複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。

　行動分析装置１００における各機能は、プロセッサ１００１、メモリ１００２などのハードウェア上に所定のソフトウェア（プログラム）を読み込ませることによって、プロセッサ１００１が演算を行い、通信装置１００４による通信を制御したり、メモリ１００２およびストレージ１００３におけるデータの読み出しおよび書き込みの少なくとも一方を制御したりすることによって実現される。

　プロセッサ１００１は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ１００１は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置（ＣＰＵ：Central　Processing　Unit）によって構成されてもよい。例えば、上述の一般化処理部１０２、データ加工部１０３などは、プロセッサ１００１によって実現されてもよい。

　また、プロセッサ１００１は、プログラム（プログラムコード）、ソフトウェアモジュール、データなどを、ストレージ１００３および通信装置１００４の少なくとも一方からメモリ１００２に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態において説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、一般化処理部１０２は、メモリ１００２に格納され、プロセッサ１００１において動作する制御プログラムによって実現されてもよく、他の機能ブロックについても同様に実現されてもよい。上述の各種処理は、１つのプロセッサ１００１によって実行される旨を説明してきたが、２以上のプロセッサ１００１により同時または逐次に実行されてもよい。プロセッサ１００１は、１以上のチップによって実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。

　メモリ１００２は、コンピュータ読み取り可能な記録媒体であり、例えば、ＲＯＭ（Read　Only　Memory）、ＥＰＲＯＭ（Erasable　Programmable　ＲＯＭ）、ＥＥＰＲＯＭ（Electrically　Erasable　Programmable　ＲＯＭ）、ＲＡＭ（Random　Access　Memory）などの少なくとも１つによって構成されてもよい。メモリ１００２は、レジスタ、キャッシュ、メインメモリ（主記憶装置）などと呼ばれてもよい。メモリ１００２は、本開示の一実施の形態に係る行動分析方法を実施するために実行可能なプログラム（プログラムコード）、ソフトウェアモジュールなどを保存することができる。

　ストレージ１００３は、コンピュータ読み取り可能な記録媒体であり、例えば、ＣＤ－ＲＯＭ（Compact　Disc　ＲＯＭ）などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Ｂｌｕ－ｒａｙ（登録商標）ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー（登録商標）ディスク、磁気ストリップなどの少なくとも１つによって構成されてもよい。ストレージ１００３は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリ１００２およびストレージ１００３の少なくとも一方を含むデータベース、サーバその他の適切な媒体であってもよい。

　通信装置１００４は、有線ネットワークおよび無線ネットワークの少なくとも一方を介してコンピュータ間の通信を行うためのハードウェア（送受信デバイス）であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。通信装置１００４は、例えば周波数分割複信（ＦＤＤ：Frequency　Division　Duplex）および時分割複信（ＴＤＤ：Time　Division　Duplex）の少なくとも一方を実現するために、高周波スイッチ、デュプレクサ、フィルタ、周波数シンセサイザなどを含んで構成されてもよい。例えば、上述の出力部１０７は、通信装置１００４によって実現されてもよい。

　入力装置１００５は、外部からの入力を受け付ける入力デバイス（例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど）である。出力装置１００６は、外部への出力を実施する出力デバイス（例えば、ディスプレイ、スピーカー、LEDランプなど）である。なお、入力装置１００５および出力装置１００６は、一体となった構成（例えば、タッチパネル）であってもよい。

　また、プロセッサ１００１、メモリ１００２などの各装置は、情報を通信するためのバス１００７によって接続される。バス１００７は、単一のバスを用いて構成されてもよいし、装置間ごとに異なるバスを用いて構成されてもよい。

　また、行動分析装置１００は、マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ：Digital　Signal　Processor）、ＡＳＩＣ（Application　Specific　Integrated　Circuit）、ＰＬＤ（Programmable　Logic　Device）、ＦＰＧＡ（Field　Programmable　Gate　Array）などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部または全てが実現されてもよい。例えば、プロセッサ１００１は、これらのハードウェアの少なくとも１つを用いて実装されてもよい。

　情報の通知は、本開示において説明した態様／実施形態に限られず、他の方法を用いて行われてもよい。例えば、情報の通知は、物理レイヤシグナリング（例えば、ＤＣＩ（Downlink　Control　Information）、ＵＣＩ（Uplink　Control　Information））、上位レイヤシグナリング（例えば、ＲＲＣ（Radio　Resource　Control）シグナリング、ＭＡＣ（Medium　Access　Control）シグナリング、報知情報（ＭＩＢ（Master　Information　Block）、ＳＩＢ（System　Information　Block）））、その他の信号またはこれらの組み合わせによって実施されてもよい。また、ＲＲＣシグナリングは、ＲＲＣメッセージと呼ばれてもよく、例えば、ＲＲＣ接続セットアップ（RRC　Connection　Setup）メッセージ、ＲＲＣ接続再構成（RRC　Connection　Reconfiguration）メッセージなどであってもよい。

　本開示において説明した各態様／実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本開示において説明した方法については、例示的な順序を用いて様々なステップの要素を提示しており、提示した特定の順序に限定されない。

　入出力された情報等は特定の場所（例えば、メモリ）に保存されてもよいし、管理テーブルを用いて管理してもよい。入出力される情報等は、上書き、更新、または追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。

　判定は、１ビットで表される値（０か１か）によって行われてもよいし、真偽値（Boolean：trueまたはfalse）によって行われてもよいし、数値の比較（例えば、所定の値との比較）によって行われてもよい。

　本開示において説明した各態様／実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知（例えば、「Ｘであること」の通知）は、明示的に行うものに限られず、暗黙的（例えば、当該所定の情報の通知を行わない）ことによって行われてもよい。

　以上、本開示について詳細に説明したが、当業者にとっては、本開示が本開示中に説明した実施形態に限定されるものではないということは明らかである。本開示は、請求の範囲の記載により定まる本開示の趣旨および範囲を逸脱することなく修正および変更態様として実施することができる。したがって、本開示の記載は、例示説明を目的とするものであり、本開示に対して何ら制限的な意味を有するものではない。

　ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。

　また、ソフトウェア、命令、情報などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、有線技術（同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ：Digital　Subscriber　Line）など）および無線技術（赤外線、マイクロ波など）の少なくとも一方を使用してウェブサイト、サーバ、または他のリモートソースから送信される場合、これらの有線技術および無線技術の少なくとも一方は、伝送媒体の定義内に含まれる。

　本開示において説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、またはこれらの任意の組み合わせによって表されてもよい。

　なお、本開示において説明した用語および本開示の理解に必要な用語については、同一のまたは類似する意味を有する用語と置き換えてもよい。

　また、本開示において説明した情報、パラメータなどは、絶対値を用いて表されてもよいし、所定の値からの相対値を用いて表されてもよいし、対応する別の情報を用いて表されてもよい。例えば、無線リソースはインデックスによって指示されるものであってもよい。

　本開示で使用する「判断(determining)」、「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、判定(judging)、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking　up、search、inquiry)（例えば、テーブル、データベースまたは別のデータ構造での探索）、確認(ascertaining)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信(receiving)（例えば、情報を受信すること）、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)（例えば、メモリ中のデータにアクセスすること）した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。また、「判断（決定）」は、「想定する（assuming）」、「期待する（expecting）」、「みなす（considering）」などで読み替えられてもよい。

　「接続された(connected)」、「結合された(coupled)」という用語、またはこれらのあらゆる変形は、２またはそれ以上の要素間の直接的または間接的なあらゆる接続または結合を意味し、互いに「接続」または「結合」された２つの要素間に１またはそれ以上の中間要素が存在することを含むことができる。要素間の結合または接続は、物理的なものであっても、論理的なものであっても、或いはこれらの組み合わせであってもよい。例えば、「接続」は「アクセス」で読み替えられてもよい。本開示で使用する場合、２つの要素は、１またはそれ以上の電線、ケーブルおよびプリント電気接続の少なくとも一つを用いて、並びにいくつかの非限定的かつ非包括的な例として、無線周波数領域、マイクロ波領域および光（可視および不可視の両方）領域の波長を有する電磁エネルギーなどを用いて、互いに「接続」または「結合」されると考えることができる。

　本開示において使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。

　本開示において、「含む（include）」、「含んでいる（including）」およびそれらの変形が使用されている場合、これらの用語は、用語「備える（comprising）」と同様に、包括的であることが意図される。さらに、本開示において使用されている用語「または（or）」は、排他的論理和ではないことが意図される。

　本開示において、例えば、英語でのa,　anおよびtheのように、翻訳により冠詞が追加された場合、本開示は、これらの冠詞の後に続く名詞が複数形であることを含んでもよい。

　本開示において、「ＡとＢが異なる」という用語は、「ＡとＢが互いに異なる」ことを意味してもよい。なお、当該用語は、「ＡとＢがそれぞれＣと異なる」ことを意味してもよい。「離れる」、「結合される」などの用語も、「異なる」と同様に解釈されてもよい。

１００…行動分析装置、２００…ＰＣ、３００…ＷＥＢサーバ、１０１ａ…行動履歴データベース、１０１…時系列データ取得部、１０２…一般化処理部、１０３…データ加工部、１０４…学習部、１０４ａ…機械学習モデル、、１０５…ＢＥＲＴ処理部、１０６…範囲選択部、１０７…出力部。

Claims

　ユーザ行動を示す一または複数の時系列データのうち、非重要行動データを取得する取得部と、
　前記非重要行動データを一般化処理する処理部と、
を備える、情報処理装置。
　前記非重要行動データは、ユーザの行動履歴のうち、その頻度が低い行動を示す、
請求項１に記載の情報処理装置。
　前記処理部は、一般化処理として、前記非重要行動データを所定の文字列に置き換える、
請求項１または２に記載の情報処理装置。
　前記処理部は、前記非重要行動データを、行動カテゴリを示すよう一般化処理を行う、
請求項１から３のいずれか一項に記載の情報処理装置。
　ユーザの行動を示す前記時系列データの履歴を記憶する履歴記憶部をさらに備え、
　前記取得部は、前記履歴記憶部を参照して、非重要行動データを取得する、
請求項２に記載の情報処理装置。
　一般化処理された非重要行動データを含む時系列データを用いて機械学習に関する処理を行う機械学習処理部、
をさらに備える情報処理装置。
　前記機械学習処理部は、
　前記非重要行動データを含む時系列データ同士のアテンションの重みを、自己注意機能に基づいて算出し、
　当該アテンションの重みに基づいて、任意の時系列データに対して関連性の高い一または複数の他の時系列データを取得する、
請求項６に記載の情報処理装置。
　前記処理部は、
　前記アテンションの重みに基づいて関連性が高いと判断された前記他の時系列データのうち、所定の時間が経過した一の他の行動データを特定し、
　当該一の他の時系列データ以降に発生した一または複数の時系列データを取得する、
請求項７に記載の情報処理装置。