WO2024013949A1

WO2024013949A1 - 生成プログラム、生成方法および情報処理装置

Info

Publication number: WO2024013949A1
Application number: PCT/JP2022/027749
Authority: WO
Inventors: 源太鈴木
Original assignee: 富士通株式会社
Priority date: 2022-07-14
Filing date: 2022-07-14
Publication date: 2024-01-18

Abstract

情報処理装置は、人物を含む映像情報を取得し、取得をした映像情報に含まれる人物の表面を構成する複数の部位を有するアバターを生成し、取得をした映像情報を分析することで、人物の関節の位置を含む骨格情報を生成する。情報処理装置は、生成された骨格情報に基づいて、映像情報に含まれる人物の行動を特定し、特定をされた人物の行動に基づいて、生成されたアバターが有する複数の部位毎に、人物の動きを反映させるか否か判定する。情報処理装置は、生成された骨格情報の骨格の位置の時系列の変化に基づいて、アバターが有する複数の部位のうち、人物の動きを反映させると判定された部位を移動させる。映像データを分析することで、顧客の購買行動を特定するサービスに適用することができる。

Description

生成プログラム、生成方法および情報処理装置

　本発明は、生成プログラム等に関する。

　店舗に設置されたカメラの映像データをＤＢ（Data　Base）に格納し、映像データをＡＩ（Artificial　Intelligence）で分析することで、顧客の購買行動を特定する従来技術がある。たとえば、かかる従来技術では、ＡＩによる各顧客の購買行動を集計し、集計結果を示す画面情報を表示する。

　図１６は、従来技術を説明するための図である。たとえば、図１６に示す画面情報３０には、画面領域３０ａ，３０ｂ，３０ｃが含まれる。画面領域３０ａには、カメラが撮影した売り場の様子を目視可能な映像データが表示される。画面領域３０ｂには、時間毎の来客人数を示すグラフが表示される。画面領域３０ｃには、顧客の購買行動の種別と、該当する購買行動を行った顧客の人数を示すグラフが表示される。

　店舗の管理者は、画面領域３０ａを目視確認することで、顧客個別の事象を確認することができる。管理者は、画面領域３０ｂ，３０ｃを確認することで、各時間帯の顧客の人数や、商品に興味を持っている顧客がどのような購買行動を行うのかを確認することができる。

特開２０１８－１４７３７８号公報

　しかしながら、映像データをそのままＤＢに格納すると、ＤＢに格納された映像データの量が多くなり、映像データに対する処理量が増加する。なお、単純に、映像データの一部の情報を削除してＤＢに格納することも考えられるが、顧客個別の事象等を確認するための部分も削除されてしまう場合もありえた。

　このため、元の映像データの重要な部分のデータを残しつつ、データ量を減らした映像データを生成することが求められる。

　１つの側面では、本発明は、元の映像データの重要な部分の情報を残しつつ、データ量を減らした映像データを生成することができる生成プログラム、生成方法および情報処理装置を提供することを目的とする。

　第１の案では、コンピュータに次の処理を実行させる。コンピュータは、人物を含む映像情報を取得する。コンピュータは、取得をした映像情報に含まれる人物の表面を構成する複数の部位を有するアバターを生成する。コンピュータは、取得をした映像情報を分析することで、人物の関節の位置を含む骨格情報を生成する。コンピュータは、生成された骨格情報に基づいて、映像情報に含まれる人物の行動を特定する。コンピュータは、特定をされた人物の行動に基づいて、生成されたアバターが有する複数の部位毎に、人物の動きを反映させるか否か判定する。コンピュータは、生成された骨格情報の骨格の位置の時系列の変化に基づいて、アバターが有する複数の部位のうち、人物の動きを反映させると判定された部位を移動させる。

　元の映像データの重要な部分の情報を残しつつ、データ量を減らした映像データを生成することができる。

図１は、本実施例に係るシステムを示す図である。図２は、本実施例に含まれる情報処理装置の処理を説明するための図である。図３は、本実施例に係る情報処理装置の構成を示す機能ブロック図である。図４は、映像ＤＢのデータ構造の一例を示す図である。図５は、歩行の動作判定を説明するための図である。図６は、フレームから生成される３Ｄアバターの一例を示す図である。図７は、３Ｄアバターの歩行姿勢を匿名化する処理を説明するための図である。図８は、生成部の処理を説明するための図である。図９は、表示制御部が生成する画面情報の一例を示す図（１）である。図１０は、入力画面の一例を示す図である。図１１は、表示制御部が生成する画面情報の一例を示す図（２）である。図１２は、本実施例に係る情報処理装置の処理手順を示すフローチャートである。図１３は、生成処理の処理手順を示すフローチャートである。図１４は、本実施例に係る情報処理装置の効果を補足説明するための図である。図１５は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。図１６は、従来技術を説明するための図である。

　以下に、本願の開示する生成プログラム、生成方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

　まず、本実施例に係るシステムの一例について説明する。本実施例に係るシステムは、映像データをＡＩで分析することで、顧客の購買行動を特定するシステムに関連する。図１は、本実施例に係るシステムを示す図である。図１に示すように、このシステムは、カメラ４０ａ，４０ｂ，４０ｃ，４０ｄと、情報処理装置１００とを有する。カメラ４０ａ～４０ｄと、情報処理装置１００とは、有線または無線によって相互に接続される。カメラ４０ａ～４０ｄは、店舗の異なる位置に設置される。以下の説明では、カメラ４０ａ～４０ｄをまとめて「カメラ４０」と表記する。

　カメラ４０は、撮影範囲の映像を撮影し、映像のデータを、情報処理装置１００に送信する。以下の説明では、映像のデータを「映像データ」と表記する。映像データには、時系列のフレームが含まれる。フレームは、カメラ４０にあるタイミングで撮影された静止画像である。各フレームには、時系列の昇順に、フレーム番号が付与される。

　本実施例に係る情報処理装置１００は、カメラ４０から映像データを分析し、映像データに含まれる人物の属性情報、購買行動、動作等を判定し、属性情報や購買行動等と関連付けて、映像データを映像ＤＢ１４２に保存する。情報処理装置１００は、映像データを映像ＤＢ１４２に保存する場合に、下記に説明する３Ｄアバターを生成し、映像データの人物の画像と置き換える。また、情報処理装置１００は、人物の動作が歩行である場合には、３Ｄアバターの歩行姿勢の匿名化を行う一方で、人物がどの商品を見ているかを確認可能な３Ｄアバターの頭部の位置の情報を維持する。これによって、映像データに含まれる人物の重要な部分のデータを残しつつ、人物の個人情報を除去することができる。個人情報には、歩行の際の姿勢および両腕の動作、歩幅、その他の歩行の態様が含まれる。また、個人情報には、個人を特定可能な人物の顔画像、耳介の画像、手のひらの画像等が含まれる。

　図２は、本実施例に含まれる情報処理装置の処理を説明するための図である。情報処理装置１００は、映像データに含まれるフレーム５０を取得し、フレーム５０の人物の領域５０ａを特定する。人物の領域は、たとえば、Bounding　Boxに対応する領域となる。情報処理装置１００は、人物の領域の画像を基にして、人物の「骨格情報」および「属性情報」を推定する。骨格情報は、人物の各関節の位置が設定された情報である。属性情報には、人物の年代、性別、体形、髪型、服装等が含まれる。

　情報処理装置１００は、人物の領域５０ａの画像を、生成モデルに入力することで、３Ｄアバターａｖ１を生成する。情報処理装置１００は、３Ｄアバターａｖ１の頭部の部位、手の部位を低解像度化する。

　また、情報処理装置１００は、骨格情報を基にして、人物の動作が歩行であると判定した場合には、３Ｄアバターａｖ１の所定の部位を移動させることで、３Ｄアバターａｖ１の歩行姿勢を匿名化する。情報処理装置１００が、上記の処理を実行することで、３Ｄアバターａｖ２が生成される。歩行姿勢を匿名化する処理の詳細は後述する。

　一方、情報処理装置１００は、フレーム５０の人物の領域５０ａを除去することで、画像情報５０ｂを生成する。

　情報処理装置１００は、３Ｄアバターａｖ２を、画像情報５０ｂの人物の領域を除去した領域５０ａに配置することで、画像情報５０ｃを生成する。

　情報処理装置１００は、映像データに含まれる各フレームについて、上記処理を繰り返し実行する。以下の説明では、映像データの各フレームの人物を３Ｄアバターで置き換えた映像データを「変換映像データ」と表記する。情報処理装置１００は、係る変換映像データを、映像データの代わりに、映像ＤＢ１４２に登録する。

　上記のように、本実施例に係る情報処理装置１００は、映像データから生成した３Ｄアバターの頭部の部位、手の部位を低解像度化するとともに、人物の動作が歩行である場合には、３Ｄアバターの歩行姿勢を匿名化する。情報処理装置１００は、低解像度化、匿名化を行った３Ｄアバターを、映像データの人物の領域に設定することで、元の映像データの重要な部分のデータを残しつつ、データ量を減らした映像データを生成することができる。たとえば、変換映像データからは、顔、耳介、手のひら、歩行姿勢に関する個人情報が削除されているが、３Ｄアバターの頭部の向き等の情報は残してあるので、人物がどの商品を眺めているか等の情報を後から確認することができる。

　次に、図１及び図２で説明した処理を実行する情報処理装置の構成例について説明する。図３は、本実施例に係る情報処理装置の構成を示す機能ブロック図である。図３に示すように、情報処理装置１００は、通信部１１０、入力部１２０、表示部１３０、記憶部１４０、制御部１５０を有する。

　通信部１１０は、有線又は無線でカメラ４０等に接続され、カメラ４０等との間で情報の送受信を行う。たとえば、通信部１１０は、ＮＩＣ（Network　Interface　Card）等によって実現される。通信部１１０は、図示しないネットワークに接続されていてもよい。

　入力部１２０は、各種の情報を、情報処理装置１００に入力する入力装置である。入力部１２０は、キーボードやマウス、タッチパネル等に対応する。たとえば、ユーザは、入力部１２０を操作して、検索条件等を入力する。

　表示部１３０は、制御部１５０から出力される情報を表示する表示装置である。表示部１３０は、液晶ディスプレイ、有機ＥＬ（Electro　Luminescence）ディスプレイ、タッチパネル等に対応する。たとえば、表示部１３０は、検索条件の検索結果を表示する。

　記憶部１４０は、骨格推定モデルＭ１、属性推定モデルＭ２、生成モデルＭ３、姿勢判定モデルＭ４、変換パーツテーブル１４１、映像ＤＢ１４２を有する。たとえば、記憶部１４０は、メモリ等の記憶装置である。

　骨格推定モデルＭ１は、人物の領域の画像を入力とし、人物の骨格情報を出力とする訓練済みの機械学習モデルである。骨格情報は、人物の関節と関節の位置とを対応付けた情報である。たとえば、骨格推定モデルＭ１は、ＮＮ（Neural　Network）である。

　属性推定モデルＭ２は、人物の領域の画像を入力とし、人物の属性情報を出力とする訓練済みの機械学習モデルである。属性情報には、人物の年代、性別、体形、髪型、服装等が含まれる。たとえば、属性推定モデルＭ２は、ResNet等のＮＮである。

　生成モデルＭ３は、人物の領域の画像を基にして、３Ｄアバターを生成するモデルである。たとえば、生成モデルＭ３は、「Mesh　Graphormer」と、「Texformer」との機能を有する。Mesh　Graphormerは、１つのフレームの人物の領域の画像を基にして、人物の姿勢や、人物の各頂点を推定し、３次元の人物のメッシュモデルを生成する。Texformerは、１つのフレームの人物の領域の画像を基にして、人物のテクスチャを生成する。生成モデルＭ３は、Mesh　Graphormerによって推定された３次元の人物のメッシュモデルに、Texformerによって生成されたテクスチャを設定することで、３Ｄアバターを生成する。

　姿勢判定モデルＭ４は、人物の骨格情報を入力とし、人物の姿勢を出力とする訓練済みの機械学習モデルである。人物の姿勢には、立つ、歩く、しゃがむ、座る、寝る等の姿勢である。姿勢判定モデルＭ４は、Multi　Layer　Perceptron等のＮＮである。

　変換パーツテーブル１４１は、３Ｄアバターの特徴量を変換する場合に利用する人物の部位を保持するテーブルである。たとえば、変換パーツテーブル１４１には、髪型、髪の色、肌の色等が異なる複数の頭部のパーツが格納される。

　映像ＤＢ１４２は、映像データの人物を３Ｄアバターに置き換えた変換映像データ等を格納する。図４は、映像ＤＢのデータ構造の一例を示す図である。図４に示すように、この映像ＤＢ１４２は、識別番号、変換映像データ、３Ｄアバター、属性情報、購買行動、時間を対応付ける。識別番号は、変換映像データ（映像データ）を識別する番号である。変換映像データは、映像データの各フレームの人物を３Ｄアバターで置き換えた映像データである。

　３Ｄアバターは、映像データのフレームから生成される３次元のアバターの情報である。属性情報は、映像データの人物の属性情報である。購買行動は、映像情報の人物の購買行動を示す情報である。時間は、映像データが撮影された時間帯の情報である。たとえば、時間帯には、映像データの開始時刻および終了時刻に対応する。

　図３の説明に戻る。制御部１５０は、取得部１５１、骨格推定部１５２、属性推定部１５３、検出部１５４、生成部１５５、表示制御部１５６を有する。制御部１５０は、たとえば、ＣＰＵ（Central　Processing　Unit）やＭＰＵ（Micro　Processing　Unit）等である。

　取得部１５１は、通信部１１０を介して、カメラ４０から映像データを取得する。本実施例では説明の便宜上、映像データには、１人の人物が含まれ、映像データの開始時刻をＴｓ、映像データの終了時刻をＴｅとする。取得部１５１は、映像データに、固有の識別番号を設定する。取得部１５１は、映像データを、骨格推定部１５２に出力する。取得部１５１は、映像データの識別番号と対応付けて、映像データの時間（映像データの時間帯＜開始時刻Ｔｓ、終了時刻Ｔｅ＞）を、映像ＤＢ１４２に登録する。

　骨格推定部１５２は、映像データのフレームに含まれる人物の領域を特定し、特定した人物の領域の画像を、骨格推定モデルＭ１に入力することで、人物の骨格情報を推定する。骨格推定部１５２は、映像データの時系列のフレームについて、上記処理を繰り返し実行することで、時系列のフレームから、時系列の人物の骨格情報をそれぞれ推定する。

　骨格推定部１５２には、上記の処理によって骨格推定情報を生成し、生成した骨格推定情報を、属性推定部１５３、検出部１５４、生成部１５５に出力する。たとえば、骨格推定情報には、識別番号と、映像データと、時系列のフレームの骨格情報とが含まれる。

　属性推定部１５３は、映像データのフレームに含まれる人物の領域を特定し、特定した人物の領域の画像を、属性推定モデルＭ２に入力することで、人物の属性情報を推定する。属性推定部１５３は、映像データの識別番号と対応付けて、推定した属性情報を映像ＤＢ１４２に登録する。

　検出部１５４は、映像データの時系列のフレームから推定された時系列の骨格情報を基にして、映像データの人物の動作、購買行動を検出する。

　まず、検出部１５４が、人物の動作を検出する処理の一例について説明する。検出部１５４は、時系列の骨格情報から、一つの骨格情報を取得し、骨格情報を姿勢判定モデルＭ４に入力することで、人物の動作が「歩行」であるか否かを判定する。検出部１５４は、人物の動作が歩行であると判定した場合には、歩行検出情報を、生成部１５５に出力する。

　図５は、歩行の動作判定を説明するための図である。たとえば、検出部１５４は、図５に示す骨格情報を、姿勢判定モデルＭ４に入力することで、人物の動作を判定する。検出部１５４は、骨格推定部１５２に推定された骨格情報をそのまま利用してもよいし、図５の骨格情報ＳＫ１０のように、一部の関節位置を抽出して、利用してもよい。骨格情報ＳＫ１０には、関節ｐ１，ｐ２，ｐ３，ｐ４，ｐ５，ｐ６、ｐ７，ｐ８が含まれる。

　関節ｐ１は、左肩の関節である。関節ｐ２は、右肩の関節である。関節ｐ３は、左腰の関節である。関節ｐ４は、右腰の関節である。関節ｐ５は、左膝の関節である。関節ｐ６は、右膝の関節である。関節ｐ７は、左足首の関節である。関節ｐ８は、右足首の関節である。たとえば、姿勢判定モデルＭ４は、骨格情報ＳＫ１０が入力されると、関節ｐ３，ｐ４，ｐ５，ｐ６の角度のパターンに応じて、姿勢を、立つ、歩く、しゃがむ、座る、寝る等の何れかに分類する。

　たとえば、検出部１５４は、フレーム番号ｎのフレームから推定された骨格情報を、姿勢判定モデルＭ４に入力し、人物の姿勢が「歩く」である場合、フレーム番号ｎを設定した歩行検出情報を、生成部１５５に出力する。

　続いて、検出部１５４が、人物の購買行動を検出する処理について説明する。検出部１５４は、映像データの時系列のフレームから推定された時系列の骨格情報の遷移パターンを基にして、人物の購買行動を検出する。検出部１５４は、所定の関節の位置の遷移パターンと、購買行動とを対応付けたテーブルを基にして、人物の購買行動を検出する。

　たとえば、検出部１５４は、骨格情報の手首の関節が前後方向に移動した場合、人物が商品を手に取ったことを検出する。検出部１５４は、商品を手に取ったことを検出した後に、手首の関節が下方向（買い物カゴの領域）に移動した場合に、商品を購入したことを検出する。検出部１５４は、商品を手に取ったことを検出した後に、手首の関節が、頭部の前方に移動した場合には、商品を調べたことを検出する。

　なお、検出部１５４は、各カメラ４０ａ～４０ｄによって撮影された映像データに含まれる人物のトラッキングを行い、Ｐｏｓ（Point　of　sales）レジシステムとデータ通信を実行して、商品の識別情報（以下、商品識別情報）や、商品を購入したか否かを検出してもよい。また、検出部１５４は、映像データに含まれる商品棚の境界位置を推定し、人物の手首の関節の位置が、境界位置の前後方向に移動した場合に、商品を手に取ったことを検出してもよい。検出部１５４は、映像データに含まれる商品の位置を特定し、特定した商品の方向に、骨格情報の手首の関節が移動した場合に、商品を手に取ったことを検出してもよい。

　購買行動には「Grab&Buy　Few（少しの商品を手に取って、購入した）」、「Grab&Buy　Many（たくさんの商品を手に取って、購入した）」、「Grab&Not　Buy（商品を手に取ったが、購入しなかった）」が含まれる。また、購買行動には、「Examine&Buy　Few（少しの商品を調べて、購入した）」、「Examine&Buy　Many（たくさんの商品を調べて、購入した）」、「Examine&Not　Buy（商品を調べて、購入しなかった）」が含まれる。検出部１５４は、その他の購買行動を検出してもよい。

　検出部１５４は、映像データの識別番号と対応付けて、検出した購買行動を映像ＤＢ１４２に登録する。検出部１５４は、人物が商品を購入したことを検出した場合には、映像データの識別情報と対応付けて、検出した商品識別情報を、映像ＤＢ１４２に登録してもよい。

　更に、検出部１５４は、映像データを解析して、人物の行動特徴を検出してもよい。人物の行動特徴には、スマートフォンを持っているか否か、ショッピングカートの大きさ、ショッピングリストを持っているか否か、歩く速度、人物の他にともに行動している人物の特徴等が含まれる。検出部１５４は、映像データの識別情報と対応付けて、検出した行動特徴を、映像ＤＢ１４２に登録してもよい。

　生成部１５５は、３Ｄアバターを生成する処理、３Ｄアバターの特徴量を変換する処理、３Ｄアバターの歩行姿勢を匿名化する処理、変換映像データを生成する処理を実行する。

　生成部１５５が実行する３Ｄアバターを生成する処理について説明する。生成部１５５は、映像データのフレームに含まれる人物の領域を特定し、特定した人物の領域の画像を、生成モデルＭ３に入力することで、３Ｄアバターを生成する。たとえば、生成部１５５は、人物の領域の画像を、Mesh　Graphormerに入力し、３次元の人物のメッシュモデルを生成する。生成部１５５は、人物の領域の画像を、Texformerに入力して、人物のテクスチャを生成する。生成部１５５は、Mesh　Graphormerによって推定された３次元の人物のメッシュモデルに、Texformerによって生成されたテクスチャを設定することで、３Ｄアバターを生成する。生成部１５５は、１つのフレームから、かかるフレームに含まれる人物の３Ｄアバターを生成することが可能である。

　図６は、フレームから生成される３Ｄアバターの一例を示す図である。たとえば、生成部１５５が、フレーム６０の人物の領域の画像を、生成モデルＭ３に入力することで、３Ｄアバター６０ａが生成される。生成部１５５が、フレーム６１の人物の領域の画像を、生成モデルＭ３に入力することで、３Ｄアバター６１ａが生成される。生成部１５５が、フレーム６２の人物の領域の画像を、生成モデルＭ３に入力することで、３Ｄアバター６２ａが生成される。生成部１５５が、フレーム６３の人物の領域の画像を、生成モデルＭ３に入力することで、３Ｄアバター６３ａが生成される。

　続いて、生成部１５５が実行する３Ｄアバターの特徴量を変換する処理について説明する。生成部１５５は、フレーム番号ｎのフレームから推定された骨格情報と、フレーム番号ｎのフレームから生成した３Ｄアバターとを基にして、３Ｄアバターを構成する複数の部位のうち、特徴量を変換する部位を特定する。たとえば、生成部１５５は、骨格情報と、３Ｄアバターとを重ねて配置し、骨格情報の頭、手首の関節位置を基準として、３Ｄアバターの頭（顔、耳介を含む）の部位と、手の部位を特定する。

　生成部１５５は、３Ｄアバターの手の部位、頭の部位を低解像度化する（ぼかす）。また、生成部１５５は、３Ｄアバターの頭部の部位の位置を、所定の方向へ所定の距離ずらす。所定の方向、所定の距離は、予め設定される。生成部１５５が、かかる処理を実行することで、３Ｄアバターの特徴量を変換する。

　なお、生成部１５５は、アバターの頭の部位の特徴と類似する頭部のパーツを、変換パーツテーブル１４１から選択し、選択した頭部のパーツによって、アバターの頭部の部位を置き換えることで、３Ｄアバターの特徴量を変換してもよい。生成部１５５は、映像データの識別番号と対応付けて、特徴量を変換した３Ｄアバターの情報を、映像ＤＢ１４２に登録する。

　続いて、生成部１５５が、３Ｄアバターの歩行姿勢を匿名化する処理について説明する。生成部１５５は、検出部１５４から取得する歩行検出情報に設定されるフレーム番号のフレームから生成した３Ｄアバターを選択し、選択した３Ｄアバターの歩行姿勢を匿名化する。

　図７は、３Ｄアバターの歩行姿勢を匿名化する処理を説明するための図である。たとえば、生成部１５５は、歩行姿勢であると判定された３Ｄアバターに対応する骨格情報を、骨格情報ＳＫ２０とする。骨格情報ＳＫ２０には、関節ｐ１～ｐ１３が含まれる。関節ｐ１～ｐ８の関節の説明は、図５と同様である、関節ｐ９は、左肘の関節である。関節ｐ１０は、右肘の関節である。関節ｐ１１は、左手首の関節である。関節ｐ１２は、右手首の関節である。関節ｐ１３は、頭部の各関節に対応する。

　生成部１５５は、骨格情報ＳＫ２０の関節ｐ３，ｐ５，ｐ７のｘ座標の値が同じ値となるように、関節ｐ５，ｐ７を移動させる。生成部１５５は、骨格情報ＳＫ２０の関節ｐ４，ｐ６，ｐ８のｘ座標の値が同じ値となるように、関節ｐ６，ｐ８を移動させる。生成部１５５は、骨格情報ＳＫ２０の関節ｐ９，ｐ１１のｘ座標の値が同じ値となるように、関節ｐ１１を移動させる。生成部１５５は、骨格情報ＳＫ２０の関節ｐ１０，ｐ１２のｘ座標の値が同じ値となるように、関節ｐ１２を移動させる。上記のように、どの関節の組のｘ座標を同じにするかに関する情報は、設定情報として、予め記憶部１４０に登録される。生成部１５５は、設定情報を基にして、上記の処理を実行する。

　生成部１５５が、上記処理を実行することで、骨格情報ＳＫ２０は、骨格情報ＳＫ２０ａとなる。生成部１５５は、３Ｄアバターの姿勢を、骨格情報ＳＫ２０ａに合わせて調整する。たとえば、生成部１５５は、３Ｄアバターの各部位のうち、歩行に関連する関節ｐ３～１２に対応する部位を特定し、特定した部位を、骨格情報ＳＫ２０ａの関節ｐ３～１２に位置に合わせて移動させることで、３Ｄアバターの歩行姿勢を匿名化する。

　なお、生成部１５５は、頭部の各関節ｐ１３をそのままとすることで、人物が向いていた方向をユーザが確認できるように、３Ｄアバターの顔の向きの情報をそのままとする。たとえば、生成部１５５は、検出部１５４によって、人物が商品に手を伸ばす等の購買行動（物体を探索する動作）が検出された場合、３Ｄアバターの各部位のうち、頭部の各関節ｐ１３に対応する部位をそのままとすることで、購買行動に関する人の動きを反映させる。

　生成部１５５は、歩行検出情報に設定されたフレーム番号に対応する３Ｄアバターについて、上記処理をそれぞれ実行することで、３Ｄアバターの歩行姿勢を匿名化する。

　続いて、生成部１５５が、変換映像データを生成する処理について説明する。生成部１５５の処理は、フレームの人物の動作が歩行である場合と、動作が歩行以外の場合とで、処理が異なるため、フレームの人物の動作が歩行である場合の処理、動作が歩行以外の場合の処理について、順に説明する。

　図２を用いて、生成部１５５が実行する、フレームの人物の動作が歩行である場合の処理について説明する。生成部１５５は、フレーム５０の人物の領域５０ａを特定し、人物の領域（Bounding　Box）を除去することで、画像情報５０ｂを生成する。フレーム５０の人物の動作を、歩行とする。生成部１５５は、歩行姿勢を匿名化した３Ｄアバターａｖ２を、画像情報５０ｂの領域５０ａに配置することで、画像情報５０ｃを生成する。なお、３Ｄアバターａｖ２は、フレーム５０を基にして生成された３Ｄアバターである。

　生成部１５５は、映像データに含まれる各フレームのうち、歩行検出情報に設定されたフレーム番号に対応するフレームについて、上記処理を繰り返し実行する。

　続いて、生成部１５５が実行する、フレームの人物の動作が歩行以外の場合の処理について説明する。図８は、生成部の処理を説明するための図である。生成部１５５は、フレーム５５の人物の領域５５ａを特定し、人物の領域５５ａをピクセル単位で除去することで、画像情報５５ｂを生成する。フレーム５５の人物の動作を、歩行以外の動作とする。生成部１５５は、３Ｄアバターａｖ３を、画像情報５５ｂの領域５５ａに配置することで、画像情報５５ｃを生成する。なお、３Ｄアバターａｖ３は、フレーム５５を基にして生成された３Ｄアバターである。

　生成部１５５は、映像データに含まれる各フレームのうち、歩行検出情報に設定されたフレーム番号以外のフレーム番号に対応するフレームについて、上記処理を繰り返し実行する。

　図２、図８で説明したように、生成部１５５は、映像データに含まれる時系列のフレームについて、人物の領域を除去し、除去した領域に、生成した３Ｄアバターを配置することで、変換映像データを生成する。生成部１５５は、映像データの識別番号と対応付けて、変換映像データを、映像ＤＢ１４２に登録する。

　映像データに対して、取得部１５１、骨格推定部１５２、属性推定部１５３、検出部１５４、生成部１５５が上記処理を実行することで、映像ＤＢ１４２には、識別番号、変換映像データ、３Ｄアバター、属性情報、購買行動、時間が関連付けられて登録される。取得部１５１、骨格推定部１５２、属性推定部１５３、検出部１５４、生成部１５５は、カメラ４０から映像データを取得する度に、上記処理を繰り返し実行し、各情報を映像ＤＢ１４２に登録する。

　表示制御部１５６は、ユーザの操作する入力部１２０を介して、検索条件を受け付けた場合に、映像ＤＢ１４２を基にして、検索条件に対応する画面情報を生成し、画面情報を表示部１３０に出力して表示させる。なお、ユーザは、検索条件として、商品識別情報を指定してもよい。

　たとえば、表示制御部１５６は、検索条件として時間が指定された場合には、検索条件の時間に対応するレコードの３Ｄアバターを抽出し、抽出した３Ｄアバターを配列した画面情報を生成する。

　図９は、表示制御部が生成する画面情報の一例を示す図（１）である。図９に示す画面情報７０には、検索条件に対応する複数の３Ｄアバターが整列されている。ユーザは、画面情報７０を参照することで、指定した時間に店舗で買い物を行っている人物の特徴を容易に把握することができる。たとえば、スーツ姿の３Ｄアバターが多い場合には、該当する時間において、ビジネスマンが多いことが把握できる。

　また、表示制御部１５６は、検索条件を指定するための入力画面を、表示部１３０に出力して、検索条件の指定を受け付けてもよい。図１０は、入力画面の一例を示す図である。図１０に示す入力画面７５には、人物の属性の項目を選択する領域７５ａと、人物の行動特徴の項目を選択する領域７５ｂと、購買行動の項目を選択する領域７５ｃとが含まれる。

　たとえば、人物の属性の項目には、Gender、Age、Clothes、Beard、Hair、Shape等が含まれる。人物の行動特徴の項目には、Smartphone、Shopping　Cart、Shopping　List、Motion　Speed、People　With等が含まれる。なお、Smartphoneは、人物がスマートフォンを所持しているか否かを選択する項目である。Shopping　Cartは、ショッピングカートのサイズを選択する項目である。Motion　Speedは、人物の移動速度を選択する項目である。People　Withは、人物とともに行動する他の人物を選択する項目である。購買行動の項目は、上述した購買行動の説明と同様である。

　表示制御部１５６は、入力画面７５を表示し、入力部１２０を操作するユーザによって、各項目が選択されると、選択された検索条件に対応する画面情報を生成し、画面情報を表示部１３０に出力して表示させる。

　図１１は、表示制御部が生成する画面情報の一例を示す図（２）である。表示制御部１５６は、検索情報と、映像ＤＢ１４２の各レコードとを比較し、検索条件にヒットするレコードを特定する。表示制御部１５６は、特定したレコードに設定された購買行動の割合を算出し、算出結果を、画面情報８０の領域８０ａに表示させる。表示制御部１５６は、その他の統計情報を、領域８０ａに表示させてもよい。

　次に、本実施例に係る情報処理装置１００の処理手順の一例について説明する。図１２は、本実施例に係る情報処理装置の処理手順を示すフローチャートである。図１２に示すように、情報処理装置１００の取得部１５１は、カメラ４０から映像データを取得する（ステップＳ１０１）。

　情報処理装置１００の骨格推定部１５２は、映像データのフレームを骨格推定モデルＭ１に入力し、骨格情報を推定する（ステップＳ１０２）。情報処理装置１００の属性推定部１５３は、映像データのフレームを属性推定モデルＭ２に入力し、属性情報を推定する（ステップＳ１０３）。

　情報処理装置１００の検出部１５４は、骨格情報を姿勢判定モデルＭ４に入力し、人物の動作を検出する（ステップＳ１０４）。検出部１５４は、時系列の骨格情報の遷移を基にして、人物の購買行動を検出する（ステップＳ１０５）。

　情報処理装置１００の生成部１５５は、生成処理を実行する（ステップＳ１０６）。情報処理装置１００は、各情報を、映像ＤＢ１４２に登録する（ステップＳ１０７）。

　次に、図１２のステップＳ１０６に示した生成処理の処理手順について説明する。図１３は、生成処理の処理手順を示すフローチャートである。図１３に示すように、情報処理装置１００の生成部１５５は、映像データの人物の領域を特定する（ステップＳ２０１）。

　生成部１５５は、人物の領域の画像を生成モデルＭ３に入力し、３Ｄアバターを生成する（ステップＳ２０２）。生成部１５５は、３Ｄアバターの有する複数の部位から、所定の部位を特定する（ステップＳ２０３）。生成部１５５は、３Ｄアバターの所定の部位（頭部、手）の特徴量を変換する（ステップＳ２０４）。

　生成部１５５は、人物の動作が歩行であるか否かを判定する（ステップＳ２０５）。生成部１５５は、人物の動作が歩行である場合には（ステップＳ２０５，Ｙｅｓ）、３Ｄアバターの部位を移動させることで、３Ｄアバターの歩行姿勢を匿名化する（ステップＳ２０６）。

　生成部１５５は、人物の領域（Bounding　Box）を除去する（ステップＳ２０７）。生成部は、人物の領域（Bounding　Box）を除去した領域に、歩行姿勢を匿名化した３Ｄアバターを配置する（ステップＳ２０８）。

　一方、生成部１５５は、人物の動作が歩行でない場合には（ステップＳ２０５，Ｎｏ）、人物の領域（ピクセル単位）で除去し（ステップＳ２０９）、人物の領域（ピクセル単位）で除去した領域に、３Ｄアバターを配置する（ステップＳ２１０）。

　次に、本実施例に係る情報処理装置１００の効果について説明する。情報処理装置１００は、映像データから生成した３Ｄアバターの頭部の部位、手の部位を低解像度化するとともに、人物の動作が歩行である場合には、３Ｄアバターの歩行姿勢を匿名化する。情報処理装置１００は、低解像度化、匿名化を行った３Ｄアバターを、映像データの人物の領域に設定することで、元の映像データの重要な部分のデータを残しつつ、データ量を減らした映像データを生成することができる。たとえば、変換映像データからは、顔、耳介、手のひら、歩行姿勢に関する個人情報が削除されているが、３Ｄアバターの頭部の向き等の情報は残してあるので、人物がどの商品を眺めているか等の情報を後から確認することができる。

　図１４は、本実施例に係る情報処理装置の効果を補足説明するための図である。たとえば、従来技術のように、単純にフレーム５０に含まれる人物の個人情報（顔、手、歩容）にマスクをかけると、画像情報５０ｄに示すものとなる。しかし、画像情報５０ｄでは、人物の個別の事象等を確認するための部分もマスクされており、係る画像情報５０ｄをユーザが参照しても、事象を確認することが難しい。一方、情報処理装置１００は、フレーム５０から、画像情報５０ｃを生成する。画像情報５０ｃでは、３Ｄアバターの頭部の向き等の情報は残してあるので、ユーザは、人物がどの商品を眺めているか等の情報を後から確認することができる。

　情報処理装置１００は、図７で説明したように、人物の動作が歩行である場合には、３Ｄアバターの各部位のうち、歩行に関連する関節ｐ３～１２に対応する部位を特定し、特定した部位を、移動後の関節ｐ３～１２に位置に合わせて移動させることで、３Ｄアバターの歩行姿勢を匿名化する。これによって、３Ｄアバターの歩行姿勢を除去することができる。

　情報処理装置１００は、人物が商品に手を伸ばす等の購買行動（物体を探索する動作）が検出された場合、３Ｄアバターの各部位のうち、頭部の各関節に対応する部位をそのままとすることで、３Ｄアバターに、購買行動に関する人の動きを反映させる。これによって、ユーザは、人物の購買行動を後から確認することができる。

　情報処理装置１００は、映像データに含まれる人物や、商品を格納する商品棚の境界位置を推定し、人物の手首の関節の位置が、境界位置の前後方向に移動した場合に、商品を手に取ったことを検出する。情報処理装置は、商品を手に取ったことを検出した場合に、３Ｄアバターの各部位のうち、購買行動に関する人の動きを反映させると判定し、３Ｄアバターの頭部の各関節に対応する部位をそのままとする。これによって、ユーザは、３Ｄアバターを参照することで、人物の購買行動を後から確認することができる。

　なお、情報処理装置１００は、３Ｄアバターの複数の部位を、複数のグループに分類し、複数のグループのうち、購買行動に対応する、グループに含まれる部位を選択し、選択した部位をそのままとし、他のグループの部位については、設定情報に基づいて、匿名化を行ってもよい。購買行動に対応する部位のグループは、予め設定されているものとする。

　次に、上記実施例に示した情報処理装置１００と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図１５は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

　図１５に示すように、コンピュータ２００は、各種演算処理を実行するＣＰＵ２０１と、ユーザからのデータの入力を受け付ける入力装置２０２と、ディスプレイ２０３とを有する。また、コンピュータ２００は、有線または無線ネットワークを介して、外部装置等との間でデータの授受を行う通信装置２０４と、インタフェース装置２０５とを有する。また、コンピュータ２００は、各種情報を一時記憶するＲＡＭ２０６と、ハードディスク装置２０７とを有する。そして、各装置２０１～２０７は、バス２０８に接続される。

　ハードディスク装置２０７は、取得プログラム２０７ａ、骨格推定プログラム２０７ｂ、属性推定プログラム２０７ｃ、検出プログラム２０７ｄ、生成プログラム２０７ｅ、表示制御プログラム２０７ｆを有する。また、ＣＰＵ２０１は、各プログラム２０７ａ～２０７ｆを読み出してＲＡＭ２０６に展開する。

　取得プログラム２０７ａは、取得プロセス２０６ａとして機能する。骨格推定プログラム２０７ｂは、骨格推定プロセス２０６ｂとして機能する。属性推定プログラム２０７ｃは、属性推定プロセス２０６ｃとして機能する。検出プログラム２０７ｄは、検出プロセス２０６ｄとして機能する。生成プログラム２０７ｅは、生成プロセス２０６ｅとして機能する。表示制御プログラム２０７ｆは、表示制御プロセス２０６ｆとして機能する。

　取得プロセス２０６ａの処理は、取得部１５１の処理に対応する。骨格推定プロセス２０６ｂの処理は、骨格推定部１５２の処理に対応する。属性推定プロセス２０６ｃの処理は、属性推定部１５３の処理に対応する。検出プロセス２０６ｄの処理は、検出部１５４の処理に対応する。生成プロセス２０６ｅの処理は、生成部１５５の処理に対応する。表示制御プロセス２０６ｆの処理は、表示制御部１５６の処理に対応する。

　なお、各プログラム２０７ａ～２０７ｆについては、必ずしも最初からハードディスク装置２０７に記憶させておかなくても良い。例えば、コンピュータ２００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＤＶＤ、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ２００が各プログラム２０７ａ～２０７ｆを読み出して実行するようにしてもよい。

　１００　　情報処理装置
　１１０　　通信部
　１２０　　入力部
　１３０　　表示部
　１４０　　記憶部
　１４１　　変換パーツテーブル
　１４２　　映像ＤＢ
　１５０　　制御部
　１５１　　取得部
　１５２　　骨格推定部
　１５３　　属性推定部
　１５４　　検出部
　１５５　　生成部
　１５６　　表示制御部

Claims

　人物を含む映像情報を取得し、
　取得をした前記映像情報に含まれる前記人物の表面を構成する複数の部位を有する３次元のアバターを生成し、
　取得をした前記映像情報を分析することで、前記人物の関節の位置を含む骨格情報を生成し、
　生成された前記骨格情報に基づいて、前記映像情報に含まれる前記人物の行動を特定し、
　特定をされた前記人物の行動に基づいて、生成された前記３次元のアバターが有する複数の部位毎に、前記人物の動きを反映させるか否か判定し、
　生成された前記骨格情報の骨格の位置の時系列の変化に基づいて、前記３次元のアバターが有する複数の部位のうち、前記人物の動きを反映させると判定された部位を移動させる
　処理をコンピュータに実行させることを特徴とする生成プログラム。
　前記人物の行動を特定する処理によって特定された行動が、前記人物が物体を探索する動作である場合、前記移動させる処理は、前記骨格情報の骨格の位置の時系列の変化に基づいて、前記３次元のアバターが有する複数の部位のうち、前記人物の動きを反映させると判定された部位を移動させることを特徴とする請求項１に記載の生成プログラム。
　前記取得する処理によって取得された前記映像情報であって、店内の人物を含む前記映像情報を分析することで、前記映像情報に含まれる前記人物と商品とをそれぞれ特定し、前記人物の骨格情報を基にして、特定された前記商品に対する前記人物の行動を特定する処理を更にコンピュータに実行させ、前記判定する処理は、特定された前記商品に対する前記人物の行動に基づいて、生成された前記３次元のアバターが有する複数の部位毎に、前記人物の動きを反映させるか否か判定することを特徴とする請求項１に記載の生成プログラム。
　前記人物の行動を特定する処理によって特定された行動が、前記人物の歩行を示す動作である場合には、前記移動させる処理は、記憶部に記憶された設定情報に基づいて、前記３次元のアバターが有する複数の部位のうち、歩行に関連する部位を移動させることを特徴とする請求項１に記載の生成プログラム。
　人物を含む映像情報を取得し、
　取得をした前記映像情報に含まれる前記人物の表面を構成する複数の部位を有する３次元のアバターを生成し、
　取得をした前記映像情報を分析することで、前記人物の関節の位置を含む骨格情報を生成し、
　生成された前記骨格情報に基づいて、前記映像情報に含まれる前記人物の行動を特定し、
　特定をされた前記人物の行動に基づいて、生成された前記３次元のアバターが有する複数の部位毎に、前記人物の動きを反映させるか否か判定し、
　生成された前記骨格情報の骨格の位置の時系列の変化に基づいて、前記３次元のアバターが有する複数の部位のうち、前記人物の動きを反映させると判定された部位を移動させる
　処理をコンピュータが実行することを特徴とする生成方法。
　前記人物の行動を特定する処理によって特定された行動が、前記人物が物体を探索する動作である場合、前記移動させる処理は、前記骨格情報の骨格の位置の時系列の変化に基づいて、前記３次元のアバターが有する複数の部位のうち、前記人物の動きを反映させると判定された部位を移動させることを特徴とする請求項５に記載の生成方法。
　前記取得する処理によって取得された前記映像情報であって、店内の人物を含む前記映像情報を分析することで、前記映像情報に含まれる前記人物と商品とをそれぞれ特定し、前記人物の骨格情報を基にして、特定された前記商品に対する前記人物の行動を特定する処理を更にコンピュータに実行させ、前記判定する処理は、特定された前記商品に対する前記人物の行動に基づいて、生成された前記３次元のアバターが有する複数の部位毎に、前記人物の動きを反映させるか否か判定することを特徴とする請求項５に記載の生成方法。
　前記人物の行動を特定する処理によって特定された行動が、前記人物の歩行を示す動作である場合には、前記移動させる処理は、記憶部に記憶された設定情報に基づいて、前記３次元のアバターが有する複数の部位のうち、歩行に関連する部位を移動させることを特徴とする請求項５に記載の生成方法。
　人物を含む映像情報を取得し、
　取得をした前記映像情報に含まれる前記人物の表面を構成する複数の部位を有する３次元のアバターを生成し、
　取得をした前記映像情報を分析することで、前記人物の関節の位置を含む骨格情報を生成し、
　生成された前記骨格情報に基づいて、前記映像情報に含まれる前記人物の行動を特定し、
　特定をされた前記人物の行動に基づいて、生成された前記３次元のアバターが有する複数の部位毎に、前記人物の動きを反映させるか否か判定し、
　生成された前記骨格情報の骨格の位置の時系列の変化に基づいて、前記３次元のアバターが有する複数の部位のうち、前記人物の動きを反映させると判定された部位を移動させる
　処理を実行する制御部を有する情報処理装置。
　前記人物の行動を特定する処理によって特定された行動が、前記人物が物体を探索する動作である場合、前記移動させる処理は、前記骨格情報の骨格の位置の時系列の変化に基づいて、前記３次元のアバターが有する複数の部位のうち、前記人物の動きを反映させると判定された部位を移動させることを特徴とする請求項９に記載の情報処理装置。
　前記取得する処理によって取得された前記映像情報であって、店内の人物を含む前記映像情報を分析することで、前記映像情報に含まれる前記人物と商品とをそれぞれ特定し、前記人物の骨格情報を基にして、特定された前記商品に対する前記人物の行動を特定する処理を更にコンピュータに実行させ、前記判定する処理は、特定された前記商品に対する前記人物の行動に基づいて、生成された前記３次元のアバターが有する複数の部位毎に、前記人物の動きを反映させるか否か判定することを特徴とする請求項９に記載の情報処理装置。
　前記人物の行動を特定する処理によって特定された行動が、前記人物の歩行を示す動作である場合には、前記移動させる処理は、記憶部に記憶された設定情報に基づいて、前記３次元のアバターが有する複数の部位のうち、歩行に関連する部位を移動させることを特徴とする請求項９に記載の情報処理装置。