WO2024013951A1

WO2024013951A1 - 生成プログラム、生成方法および情報処理装置

Info

Publication number: WO2024013951A1
Application number: PCT/JP2022/027756
Authority: WO
Inventors: 源太鈴木
Original assignee: 富士通株式会社
Priority date: 2022-07-14
Filing date: 2022-07-14
Publication date: 2024-01-18

Abstract

情報処理装置は、人物を含む映像情報を取得し、取得した映像情報を分析することで、人物の属性を含む属性情報および人物の関節の位置を含む骨格情報を生成する。情報処理装置は、取得した映像情報に含まれる人物の表面を構成する複数の部位を有し、部位毎に人物に関連する特徴量を有する３次元のアバターを取得する。情報処理装置は、生成された属性情報および骨格情報に基づいて、取得した３次元のアバターが有する複数の部位の中から、特徴量を変換する部位を特定する。情報処理装置は、映像情報に含まれる人物のアバターとして、特定された部位の特徴量が変換された３次元のアバターを生成する。映像データをＡＩで分析することで、顧客の購買行動を特定するサービスに適用することができる。

Description

生成プログラム、生成方法および情報処理装置

　本発明は、生成プログラム等に関する。

　店舗に設置されたカメラの映像データをＤＢ（Data　Base）に格納し、映像データをＡＩ（Artificial　Intelligence）で分析することで、顧客の購買行動を特定する従来技術がある。たとえば、かかる従来技術では、ＡＩによる各顧客の購買行動を集計し、集計結果を示す画面情報を表示する。

　図１２は、従来技術を説明するための図である。たとえば、図１２に示す画面情報３０には、画面領域３０ａ，３０ｂ，３０ｃが含まれる。画面領域３０ａには、カメラが撮影した売り場の様子を目視可能な映像データが表示される。画面領域３０ｂには、時間毎の来客人数を示すグラフが表示される。画面領域３０ｃには、顧客の購買行動の種別と、該当する購買行動を行った顧客の人数を示すグラフが表示される。

　店舗の管理者は、画面領域３０ａを目視確認することで、顧客個別の事象を確認することができる。管理者は、画面領域３０ｂ，３０ｃを確認することで、各時間帯の顧客の人数や、商品に興味を持っている顧客がどのような購買行動を行うのかを確認することができる。

　また、従来技術では、上記の処理に加えて、カメラの映像データをＡＩで分析し、顧客の属性情報を推定する場合もある。顧客の属性情報には、顧客の年代、性別、体形、髪型、服装等が含まれる。

　ここで、近年では、個人情報保護法や、ＧＤＰＲ（General　Data　Protection　Regulation）等の制約によって、映像データに含まれる個人情報を削除することが求められている。このため、従来技術では、映像データに含まれる顧客の領域をぼかしたり、顧客の領域をマスクするなどの加工を行うことで、上記の制約に対応している。

特開２０１８－１４７３７８号公報

Lin,　L.　Wang　and　Z.　Liu,"Mesh　Graphormer,"　2021　IEEE/CVF　International　Conference　on　Computer　Vision　(ICCV),　Montreal,　QC,　Canada,　2021　pp.　12919-12928.doi:　10.1109/ICCV48922.2021.01270

X.　Xu　and　C.Change,"3D　Human　Texture　Estimation　from　a　Single　Image　with　Transformers,"　2021　IEEE/CVF　International　Conference　on　Computer　Vision　(ICCV),　Montreal,　QC,　Canada,　2021,　pp.　13829-13838,

　しかしながら、従来技術のように、映像データに含まれる顧客の領域を加工すると、顧客本来の属性情報が変化してしまい、加工済みの映像データをＡＩによって分析すると、加工前の映像データに対する分析結果と同じ結果が得られない。また、加工済みの映像データを目視して、顧客個別の事象を確認することも難しい。

　このため、人物の属性情報を維持しつつ、映像データに含まれる人物の情報に変更を加えることが求められている。

　１つの側面では、本発明は、人物の属性情報を維持しつつ、映像データに含まれる人物の情報に変更を加えることができる生成プログラム、生成方法および情報処理装置を提供することを目的とする。

　第１の案では、生成プログラムは、コンピュータに次の処理を実行させる。コンピュータは、人物を含む映像情報を取得する。コンピュータは、取得した映像情報を分析することで、人物の属性を含む属性情報および人物の関節の位置を含む骨格情報を生成する。コンピュータは、取得した映像情報に含まれる人物の表面を構成する複数の部位を有し、部位毎に人物に関連する特徴量を有する３次元のアバターを取得する。コンピュータは、生成された属性情報および骨格情報に基づいて、取得した３次元のアバターが有する複数の部位の中から、特徴量を変換する部位を特定する。コンピュータは、映像情報に含まれる人物のアバターとして、特定された部位の特徴量が変換された３次元のアバターを生成する。

　人物の属性情報を維持しつつ、映像データに含まれる人物の情報に変更を加えることができる。

図１は、本実施例に係るシステムを示す図である。図２は、本実施例に係る情報処理装置の処理を説明するための図である。図３は、本実施例に係る情報処理装置の構成を示す機能ブロック図である。図４は、映像ＤＢのデータ構造の一例を示す図である。図５は、フレームから生成される３Ｄアバターの一例を示す図である。図６は、表示制御部が生成する画面情報の一例を示す図（１）である。図７は、入力画面の一例を示す図である。図８は、表示制御部が生成する画面情報の一例を示す図（２）である。図９は、本実施例に係る情報処理装置の処理手順を示すフローチャートである。図１０は、アバター生成処理の処理手順を示すフローチャートである。図１１は、本実施例に係る情報処理装置の効果を補足説明するための図である。図１２は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。図１３は、従来技術を説明するための図である。

　以下に、本願の開示する生成プログラム、生成方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

　まず、本実施例に係るシステムの一例について説明する。本実施例に係るシステムは、映像データをＡＩで分析することで、顧客の購買行動を特定するシステムに関連する。図１は、本実施例に係るシステムを示す図である。図１に示すように、このシステムは、カメラ４０ａ，４０ｂ，４０ｃ，４０ｄと、情報処理装置１００とを有する。カメラ４０ａ～４０ｄと、情報処理装置１００とは、有線または無線によって相互に接続される。カメラ４０ａ～４０ｄは、店舗の異なる位置に設置される。以下の説明では、カメラ４０ａ～４０ｄをまとめて、「カメラ４０」と表記する。

　カメラ４０は、撮影範囲の映像を撮影し、映像のデータを、情報処理装置１００に送信する。以下の説明では、映像のデータを「映像データ」と表記する。映像データには、時系列のフレームが含まれる。フレームは、カメラ４０にあるタイミングで撮影された静止画像である。各フレームには、時系列の昇順に、フレーム番号が付与される。

　本実施例に係る情報処理装置１００は、カメラ４０から映像データを分析し、映像データに含まれる人物の属性情報および購買行動を特定し、属性情報や購買行動等と関連付けて、映像データを映像ＤＢ１４２に保存する。情報処理装置１００は、映像データを映像ＤＢ１４２に保存する場合に、下記に説明する３Ｄアバターを生成し、映像データの人物の画像と置き換えることで、映像データに含まれる人物の属性情報を維持しつつ、人物の個人情報を除去する。個人情報は、個人を特定可能な人物の顔画像、耳介の画像、手のひらの画像等が含まれる。

　図２は、本実施例に係る情報処理装置の処理を説明するための図である。情報処理装置１００は、映像データに含まれるフレーム５０を取得し、フレーム５０の人物の領域を特定する。情報処理装置１００は、人物の領域の画像を基にして、人物の「骨格情報」および「属性情報」を推定する。骨格情報は、人物の各関節の位置が設定された情報である。属性情報には、人物の年代、性別、体形、髪型、服装等が含まれる。

　情報処理装置１００は、人物の領域の画像を、生成モデルに入力することで、３Ｄアバターａｖ１を生成する。３Ｄアバターａｖ１は、人物の複数の部位から構成される。情報処理装置１００は、３Ｄアバターａｖ１の複数の部位のうち、特定の部位の特徴量を変換することで、３Ｄアバターａｖ２を生成し、３Ｄアバターａｖ１に含まれる個人情報を除去する。たとえば、特定の部位は、頭部（顔、耳を含む）の部位、手（手のひらを含む）の部位等である。なお、情報処理装置１００は、３Ｄアバターａｖ２の属性情報が、フレーム５０の人物の属性情報と同一となるように、特徴量の変換具合を調整する。

　一方、情報処理装置１００は、フレーム５０の人物の領域５０ａを除去することで、画像情報５０ｂを生成する。

　情報処理装置１００は、３Ｄアバターａｖ２を、画像情報５０ｂの人物の領域を除去した領域５０ａに配置することで、画像情報５０ｃを生成する。

　情報処理装置１００は、映像データに含まれる各フレームについて、上記処理を繰り返し実行する。情報処理装置１００は、映像データに含まれる各フレームの人物が、フレーム５０の人物と同じである場合には、３Ｄアバターａｖ２を再利用してもよい。以下の説明では、映像データの各フレームの人物を３Ｄアバターで置き換えた映像データを「変換映像データ」と表記する。情報処理装置１００は、係る変換映像データを、映像データの代わりに、映像ＤＢ１４２に登録する。

　上記のように、本実施例に係る情報処理装置１００は、映像データから生成した３Ｄアバターの各部位の中から特徴量を変換する部位を特定し、元の人物の属性情報が保たれるように、特定した部位の特徴量を変換する。情報処理装置１００は、特徴量を変換した３Ｄアバターを、映像データの人物の領域に設定することで、人物の属性情報を変化させないで、人物の個人情報を削減することができる。

　次に、図２で説明した処理を実行する情報処理装置１００の構成例について説明する。図３は、本実施例に係る情報処理装置の構成を示す機能ブロック図である。図３に示すように、情報処理装置１００は、通信部１１０、入力部１２０、表示部１３０、記憶部１４０、制御部１５０を有する。

　通信部１１０は、有線又は無線でカメラ４０等に接続され、カメラ４０等との間で情報の送受信を行う。たとえば、通信部１１０は、ＮＩＣ（Network　Interface　Card）等によって実現される。通信部１１０は、図示しないネットワークに接続されていてもよい。

　入力部１２０は、各種の情報を、情報処理装置１００に入力する入力装置である。入力部１２０は、キーボードやマウス、タッチパネル等に対応する。たとえば、ユーザは、入力部１２０を操作して、検索条件等を入力する。

　表示部１３０は、制御部１５０から出力される情報を表示する表示装置である。表示部１３０は、液晶ディスプレイ、有機ＥＬ（Electro　Luminescence）ディスプレイ、タッチパネル等に対応する。たとえば、表示部１３０は、検索条件の検索結果を表示する。

　記憶部１４０は、骨格推定モデルＭ１、属性推定モデルＭ２、生成モデルＭ３、変換パーツテーブル１４１、映像ＤＢ１４２を有する。たとえば、記憶部１４０は、メモリ等の記憶装置である。

　骨格推定モデルＭ１は、人物の領域の画像を入力とし、人物の骨格情報を出力とする訓練済みの機械学習モデルである。骨格情報は、人物の関節と関節の位置とを対応付けた情報である。たとえば、骨格推定モデルＭ１は、ＮＮ（Neural　Network）である。

　属性推定モデルＭ２は、人物の領域の画像を入力とし、人物の属性情報を出力とする訓練済みの機械学習モデルである。属性情報には、人物の年代、性別、体形、髪型、服装等が含まれる。たとえば、属性推定モデルＭ２は、ResNet等のＮＮである。

　生成モデルＭ３は、人物の領域の画像を基にして、３Ｄアバターを生成するモデルである。たとえば、生成モデルＭ３は、「Mesh　Graphormer」と、「Texformer」との機能を有する。Mesh　Graphormerは、１つのフレームの人物の領域の画像を基にして、人物の姿勢や、人物の各頂点を推定し、３次元の人物のメッシュモデルを生成する。Texformerは、１つのフレームの人物の領域の画像を基にして、人物のテクスチャを生成する。生成モデルＭ３は、Mesh　Graphormerによって推定された３次元の人物のメッシュモデルに、Texformerによって生成されたテクスチャを設定することで、３Ｄアバターを生成する。

　変換パーツテーブル１４１は、３Ｄアバターの特徴量を変換する場合に利用する人物の部位を保持するテーブルである。たとえば、変換パーツテーブル１４１には、髪型、髪の色、肌の色等が異なる複数の頭部のパーツが格納される。

　映像ＤＢ１４２は、映像データの人物を３Ｄアバターに置き換えた変換映像データ等を格納する。図４は、映像ＤＢのデータ構造の一例を示す図である。図４に示すように、この映像ＤＢ１４２は、識別番号、変換映像データ、３Ｄアバター、属性情報、購買行動、時間を対応付ける。識別番号は、変換映像データ（映像データ）を識別する番号である。変換映像データは、映像データの各フレームの人物を３Ｄアバターで置き換えた映像データである。

　３Ｄアバターは、映像データのフレームから生成される３次元のアバターの情報である。属性情報は、映像データの人物の属性情報である。購買行動は、映像情報の人物の購買行動を示す情報である。時間は、映像データが撮影された時間帯の情報である。たとえば、時間帯には、映像データの開始時刻および終了時刻に対応する。

　図３の説明に戻る。制御部１５０は、取得部１５１、骨格推定部１５２、属性推定部１５３、検出部１５４、生成部１５５、表示制御部１５６を有する。制御部１５０は、たとえば、ＣＰＵ（Central　Processing　Unit）やＭＰＵ(Micro　Processing　Unit)等である。

　取得部１５１は、通信部１１０を介して、カメラ４０から映像データを取得する。本実施例では説明の便宜上、映像データには、１人の人物が含まれ、映像データの開始時刻をＴｓ、映像データの終了時刻をＴｅとする。取得部１５１は、映像データに、固有の識別番号を設定する。取得部１５１は、映像データを、骨格推定部１５２に出力する。取得部１５１は、映像データの識別番号と対応付けて、映像データの時間（映像データの時間帯＜開始時刻Ｔｓ、終了時刻Ｔｅ＞）を、映像ＤＢ１４２に登録する。

　骨格推定部１５２は、映像データのフレームに含まれる人物の領域を特定し、特定した人物の領域の画像を、骨格推定モデルＭ１に入力することで、人物の骨格情報を推定する。骨格推定部１５２は、映像データの時系列のフレームについて、上記処理を繰り返し実行することで、時系列のフレームから、時系列の人物の骨格情報をそれぞれ推定する。

　骨格推定部１５２には、上記の処理によって骨格推定情報を生成し、生成した骨格推定情報を、属性推定部１５３、検出部１５４、生成部１５５に出力する。たとえば、骨格推定情報には、識別番号と、映像データと、時系列のフレームの骨格情報とが含まれる。

　属性推定部１５３は、映像データのフレームに含まれる人物の領域を特定し、特定した人物の領域の画像を、属性推定モデルＭ２に入力することで、人物の属性情報を推定する。属性推定部１５３は、映像データの識別番号と対応付けて、推定した属性情報を映像ＤＢ１４２に登録する。

　検出部１５４は、映像データの時系列のフレームから推定された時系列の骨格情報の遷移パターンを基にして、人物の購買行動を検出する。検出部１５４は、所定の関節の位置の遷移パターンと、購買行動とを対応付けたテーブルを基にして、人物の購買行動を検出する。

　たとえば、検出部１５４は、骨格情報の手首の関節が前後方向に移動した場合、人物が商品を手に取ったことを検出する。検出部１５４は、商品を手に取ったことを検出した後に、手首の関節が下方向（買い物カゴの領域）に移動した場合に、商品を購入したことを検出する。検出部１５４は、商品を手に取ったことを検出した後に、手首の関節が、頭部の前方に移動した場合には、商品を調べたことを検出する。

　なお、検出部１５４は、各カメラ４０ａ～４０ｄによって撮影された映像データに含まれる人物のトラッキングを行い、Ｐｏｓ（Point　of　sales）レジシステムとデータ通信を実行して、商品の識別情報（以下、商品識別情報）や、商品を購入したか否かを検出してもよい。また、検出部１５４は、映像データに含まれる商品棚の境界位置を推定し、人物の手首の関節の位置が、境界位置の前後方向に移動した場合に、商品を手に取ったことを検出してもよい。

　購買行動には「Grab&Buy　Few（少しの商品を手に取って、購入した）」、「Grab&Buy　Many（たくさんの商品を手に取って、購入した）」、「Grab&Not　Buy（商品を手に取ったが、購入しなかった）」が含まれる。また、購買行動には、「Examine&Buy　Few（少しの商品を調べて、購入した）」、「Examine&Buy　Many（たくさんの商品を調べて、購入した）」、「Examine&Not　Buy（商品を調べて、購入しなかった）」が含まれる。検出部１５４は、その他の購買行動を検出してもよい。

　検出部１５４は、映像データの識別番号と対応付けて、検出した購買行動を映像ＤＢ１４２に登録する。検出部１５４は、人物が商品を購入したことを検出した場合には、映像データの識別情報と対応付けて、検出した商品識別情報を、映像ＤＢ１４２に登録してもよい。

　更に、検出部１５４は、映像データを解析して、人物の行動特徴を検出してもよい。人物の行動特徴には、スマートフォンを持っているか否か、ショッピングカートの大きさ、ショッピングリストを持っているか否か、歩く速度、人物の他にともに行動している人物の特徴等が含まれる。検出部１５４は、映像データの識別情報と対応付けて、検出した行動特徴を、映像ＤＢ１４２に登録してもよい。

　生成部１５５は、３Ｄアバターを生成する処理、３Ｄアバターの特徴量を変換する処理、変換映像データを生成する処理を実行する。後述するように、３Ｄアバターの特徴量を変換する処理には、複数種類の処理があり、生成部１５５は、３Ｄアバターの属性情報が、元の属性情報と同じとなる変換によって得られた３Ｄアバターを採用する。

　生成部１５５が実行する３Ｄアバターを生成する処理について説明する。生成部１５５は、映像データのフレームに含まれる人物の領域を特定し、特定した人物の領域の画像を、生成モデルＭ３に入力することで、３Ｄアバターを生成する。たとえば、生成部１５５は、人物の領域の画像を、Mesh　Graphormerに入力し、３次元の人物のメッシュモデルを生成する。生成部１５５は、人物の領域の画像を、Texformerに入力して、人物のテクスチャを生成する。生成部１５５は、Mesh　Graphormerによって推定された３次元の人物のメッシュモデルに、Texformerによって生成されたテクスチャを設定することで、３Ｄアバターを生成する。生成部１５５は、１つのフレームから、かかるフレームに含まれる人物の３Ｄアバターを生成することが可能である。

　図５は、フレームから生成される３Ｄアバターの一例を示す図である。たとえば、生成部１５５が、フレーム６０の人物の領域の画像を、生成モデルＭ３に入力することで、３Ｄアバター６０ａが生成される。生成部１５５が、フレーム６１の人物の領域の画像を、生成モデルＭ３に入力することで、３Ｄアバター６１ａが生成される。生成部１５５が、フレーム６２の人物の領域の画像を、生成モデルＭ３に入力することで、３Ｄアバター６２ａが生成される。生成部１５５が、フレーム６３の人物の領域の画像を、生成モデルＭ３に入力することで、３Ｄアバター６３ａが生成される。

　続いて、生成部１５５が実行する３Ｄアバターの特徴量を変換する処理について説明する。生成部１５５は、フレーム番号ｎのフレームから推定された骨格情報と、フレーム番号ｎのフレームから生成した３Ｄアバターとを基にして、３Ｄアバターを構成する複数の部位のうち、特徴量を変換する部位を特定する。たとえば、生成部１５５は、骨格情報と、３Ｄアバターとを重ねて配置し、骨格情報の頭、手首の関節位置を基準として、３Ｄアバターの頭（顔、耳介を含む）の部位と、手の部位を特定する。

　ここで、生成部１５５が実行する特徴量を変換する処理には、第１変換処理、第２変換処理がある。

　第１変換処理について説明する。生成部１５５は、３Ｄアバターの手の部位、頭の部位を低解像度化する（ぼかす）。また、生成部１５５は、３Ｄアバターの頭部の部位の位置を、所定の方向へ所定の距離ずらす。所定の方向、所定の距離は、予め設定される。

　第２変換処理について説明する。生成部１５５は、３Ｄアバターの手の部位を低解像度化する。生成部１５５は、３Ｄアバターの頭の部位の特徴と類似する頭部のパーツを、変換パーツテーブル１４１から選択し、選択した頭部のパーツによって、アバターの頭部の部位を置き換える。

　生成部１５５は、３Ｄアバターに対し、第１変換処理を実行し、第１変換処理を行った３Ｄアバターの属性情報が、映像データの人物の属性情報と一致する場合には、第１変換処理を実行した３Ｄアバターを採用することを決定する。

　一方、生成部１５５は、第１変換処理を行った３Ｄアバターの属性情報が、映像データの人物の属性情報と一致しない場合には、元の３Ｄアバターに対し、第２変換処理を実行する。生成部１５５は、第２変換処理を行った３Ｄアバターの属性情報が、映像データの人物の属性情報と一致する場合には、第２変換処理を実行した３Ｄアバターを採用することを決定する。

　ここで、生成部１５５は、第２変換処理を行った３Ｄアバターの属性情報が、映像データの人物の属性情報と一致しない場合には、第２変換処理で置き換える頭部のパーツを変更し、再度、第２変換処理を実行する。生成部１５５は、第２変換処理を行った３Ｄアバターの属性情報が、映像データの人物の属性情報と一致するまで、上記処理を繰り返し実行する。

　なお、上記の処理において、生成部１５５は、第１変換処理または第２変換処理を行った３Ｄアバターに対して、所定の視点位置から画像を撮影し、撮影した画像を、属性推定モデルＭ２に入力することで、３Ｄアバターの属性情報を特定する。生成部１５５は、映像データの識別番号に対応する映像ＤＢ１４２に登録された属性情報を、映像データの人物の属性情報として利用する。

　生成部１５５は、第１変換処理または第２変換処理を行った３Ｄアバターの属性情報が、映像データの人物の属性情報と完全に一致しなくても、一部の属性が一致する場合に、変換処理を実行した３Ｄアバターを採用することを決定してもよい。たとえば、生成部１５５は、属性情報に含まれる人物の年代、性別、体形、髪型、服装のうち、年代、性別が一致していれば、第１変換処理または第２変換処理を行った３Ｄアバターを採用してもよい。

　生成部１５５は、採用することを決定した３Ｄアバターを、映像データの識別番号と対応付けて、映像ＤＢ１４２に登録する。

　続いて、生成部１５５が、変換映像データを生成する処理について説明する。生成部１５５は、映像データに含まれる時系列のフレームについて、人物の領域を除去し、除去した領域に、採用することを決定した３Ｄアバターを配置することで、変換映像データを生成する。生成部１５５は、映像データの識別番号と対応付けて、変換映像データを、映像ＤＢ１４２に登録する。

　映像データに対して、取得部１５１、骨格推定部１５２、属性推定部１５３、検出部１５４、生成部１５５が上記処理を実行することで、映像ＤＢ１４２には、識別番号、変換映像データ、３Ｄアバター、属性情報、購買行動、時間が関連付けられて登録される。取得部１５１、骨格推定部１５２、属性推定部１５３、検出部１５４、生成部１５５は、カメラ４０から映像データを取得する度に、上記処理を繰り返し実行し、各情報を映像ＤＢ１４２に登録する。

　表示制御部１５６は、ユーザの操作する入力部１２０を介して、検索条件を受け付けた場合に、映像ＤＢ１４２を基にして、検索条件に対応する画面情報を生成し、画面情報を表示部１３０に出力して表示させる。なお、ユーザは、検索条件として、商品識別情報を指定してもよい。

　たとえば、表示制御部１５６は、検索条件として時間が指定された場合には、検索条件の時間に対応するレコードの３Ｄアバターを抽出し、抽出した３Ｄアバターを配列した画面情報を生成する。

　図６は、表示制御部が生成する画面情報の一例を示す図（１）である。図６に示す画面情報７０には、検索条件に対応する複数の３Ｄアバターが整列されている。ユーザは、画面情報７０を参照することで、指定した時間に店舗で買い物を行っている人物の特徴を容易に把握することができる。たとえば、スーツ姿の３Ｄアバターが多い場合には、該当する時間において、ビジネスマンが多いことが把握できる。

　また、表示制御部１５６は、検索条件を指定するための入力画面を、表示部１３０に出力して、検索条件の指定を受け付けてもよい。図７は、入力画面の一例を示す図である。図７に示す入力画面７５には、人物の属性の項目を選択する領域７５ａと、人物の行動特徴の項目を選択する領域７５ｂと、購買行動の項目を選択する領域７５ｃとが含まれる。

　たとえば、人物の属性の項目には、Gender、Age、Clothes、Beard、Hair、Shape等が含まれる。人物の行動特徴の項目には、Smartphone、Shopping　Cart、Shopping　List、Motion　Speed、People　With等が含まれる。なお、Smartphoneは、人物がスマートフォンを所持しているか否かを選択する項目である。Shopping　Cartは、ショッピングカートのサイズを選択する項目である。Motion　Speedは、人物の移動速度を選択する項目である。People　Withは、人物とともに行動する他の人物を選択する項目である。購買行動の項目は、上述した購買行動の説明と同様である。

　表示制御部１５６は、入力画面７５を表示し、入力部１２０を操作するユーザによって、各項目が選択されると、選択された検索条件に対応する画面情報を生成し、画面情報を表示部１３０に出力して表示させる。

　図８は、表示制御部が生成する画面情報の一例を示す図（２）である。表示制御部１５６は、検索情報と、映像ＤＢ１４２の各レコードとを比較し、検索条件にヒットするレコードを特定する。表示制御部１５６は、特定したレコードに設定された購買行動の割合を算出し、算出結果を、画面情報８０の領域８０ａに表示させる。表示制御部１５６は、その他の統計情報を、領域８０ａに表示させてもよい。

　次に、本実施例に係る情報処理装置１００の処理手順の一例について説明する。図９は、本実施例に係る情報処理装置の処理手順を示すフローチャートである。図９に示すように、情報処理装置１００の取得部１５１は、カメラ４０から映像データを取得する（ステップＳ１０１）。

　情報処理装置１００の骨格推定部１５２は、映像データのフレームを骨格推定モデルＭ１に入力し、骨格情報を推定する（ステップＳ１０２）。情報処理装置１００の属性推定部１５３は、映像データのフレームを属性推定モデルＭ２に入力し、属性情報を推定する（ステップＳ１０３）。

　情報処理装置１００の検出部１５４は、時系列の骨格情報の遷移を基にして、人物の購買行動を検出する（ステップＳ１０４）。情報処理装置１００の生成部１５５は、生成処理を実行する（ステップＳ１０５）。生成部１５５は、映像データの各フレームについて、人物の領域を除去し、３Ｄアバターを設定することで、変換映像データを生成する（ステップＳ１０６）。情報処理装置１００は、各情報を、映像ＤＢ１４２に登録する（ステップＳ１０７）。

　次に、図９のステップＳ１０５に示した生成処理の処理手順について説明する。図１０は、生成処理の処理手順を示すフローチャートである。図１０に示すように、情報処理装置１００の生成部１５５は、映像データの人物の領域を特定する（ステップＳ２０１）。

　生成部１５５は、人物の領域の画像を生成モデルＭ３に入力し、３Ｄアバターを生成する（ステップＳ２０２）。生成部１５５は、３Ｄアバターの有する複数の部位から、所定の部位を特定する（ステップＳ２０３）。

　生成部１５５は、３Ｄアバターの所定の部位の特徴量を変換する（ステップＳ２０４）。生成部１５５は、特徴量を変換した３Ｄアバターの属性情報を推定する（ステップＳ２０５）。

　生成部１５５は、映像データの人物の元の属性情報に対し、特徴量を変換した後の３Ｄアバターの属性情報が条件を満たすか否かを判定する（ステップＳ２０６）。たとえば、ステップＳ２０６において、生成部１５５は、元の属性情報に含まれる複数の属性のうち、事前に指定される一部の特徴と、特徴量を変換した後の３Ｄアバターの属性情報の特徴が一致する場合、条件を満たすと判定する。

　生成部１５５は、条件を満たす場合には（ステップＳ２０７，Ｙｅｓ）、特徴量を変換した３Ｄアバターを出力する（ステップＳ２０８）。一方、生成部１５５は、条件を満たさない場合には（ステップＳ２０７，Ｎｏ）、ステップＳ２０４に移行する。

　次に、本実施例に係る情報処理装置１００の効果について説明する。情報処理装置１００は、映像データから生成した３Ｄアバターの各部位の中から特徴量を変換する部位を特定し、元の人物の属性情報が保たれるように、特定した部位の特徴量を変換する。情報処理装置１００は、特徴量を変換した３Ｄアバターを、映像データの人物の領域に設定することで、人物の属性情報を変化させないで、人物の個人情報を削減することができる。また、元の属性情報と同じ人物の属性情報を有する変換映像データを、映像ＤＢ１４２に保存することができ、後の分析等に利用することができる。

　図１１は、本実施例に係る情報処理装置の効果を補足説明するための図である。たとえば、従来技術のように、単純にフレーム５０に含まれる人物の個人情報（顔、手）にマスクをかけると、画像情報５０ｄに示すものとなる。しかし、画像情報５０ｄは、属性情報が変化しており、ＡＩ等で分析する場合に、オリジナルのフレーム５０の分析結果と、画像情報５０ｄとの分析結果が異なるものとなる。一方、情報処理装置１００は、フレーム５０から、画像情報５０ｃを生成する。画像情報５０ｃの属性情報は、フレーム５０の属性情報と同一であるため、フレーム５０の代わりに、画像情報５０ｃを保存し、画像情報５０ｃに対して、後にＡＩで分析をおこなってもフレーム５０と同じ分析結果を得られる。

　情報処理装置１００は、３Ｄアバターが有する複数の部位のうち、顔、耳介、手のひらの部位の特徴量を変換する。これによって、３Ｄアバターから、適切に個人情報を削除することができる。

　情報処理装置１００は、３Ｄアバターが有する複数の部位のうち、頭部（顔）の部位の特徴量を繰り返し変換し、頭部の部位の特徴量が変換される度に、３Ｄアバターの属性情報が、元の属性情報に対応するか否かを判定する。これによって、属性情報が条件を満たす、３Ｄアバターを生成することができる。たとえば、情報処理装置１００は、元の属性情報に含まれる複数の属性のうち、事前に指定される一部の特徴と、特徴量を変換した後の３Ｄアバターの属性情報の特徴が一致する場合、条件を満たすと判定する。

　情報処理装置１００は、生成モデルＭ３に映像データのフレームを入力することで、３Ｄアバターを生成する。これによって、効率的に、３Ｄアバターを生成することができる。

　次に、上記実施例に示した情報処理装置１００と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図１２は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

　図１２に示すように、コンピュータ２００は、各種演算処理を実行するＣＰＵ２０１と、ユーザからのデータの入力を受け付ける入力装置２０２と、ディスプレイ２０３とを有する。また、コンピュータ２００は、有線または無線ネットワークを介して、外部装置等との間でデータの授受を行う通信装置２０４と、インタフェース装置２０５とを有する。また、コンピュータ２００は、各種情報を一時記憶するＲＡＭ２０６と、ハードディスク装置２０７とを有する。そして、各装置２０１～２０７は、バス２０８に接続される。

　ハードディスク装置２０７は、取得プログラム２０７ａ、骨格推定プログラム２０７ｂ、属性推定プログラム２０７ｃ、検出プログラム２０７ｄ、生成プログラム２０７ｅ、表示制御プログラム２０７ｆを有する。また、ＣＰＵ２０１は、各プログラム２０７ａ～２０７ｆを読み出してＲＡＭ２０６に展開する。

　取得プログラム２０７ａは、取得プロセス２０６ａとして機能する。骨格推定プログラム２０７ｂは、骨格推定プロセス２０６ｂとして機能する。属性推定プログラム２０７ｃは、属性推定プロセス２０６ｃとして機能する。検出プログラム２０７ｄは、検出プロセス２０６ｄとして機能する。生成プログラム２０７ｅは、生成プロセス２０６ｅとして機能する。表示制御プログラム２０７ｆは、表示制御プロセス２０６ｆとして機能する。

　取得プロセス２０６ａの処理は、取得部１５１の処理に対応する。骨格推定プロセス２０６ｂの処理は、骨格推定部１５２の処理に対応する。属性推定プロセス２０６ｃの処理は、属性推定部１５３の処理に対応する。検出プロセス２０６ｄの処理は、検出部１５４の処理に対応する。生成プロセス２０６ｅの処理は、生成部１５５の処理に対応する。表示制御プロセス２０６ｆの処理は、表示制御部１５６の処理に対応する。

　なお、各プログラム２０７ａ～２０７ｆについては、必ずしも最初からハードディスク装置２０７に記憶させておかなくても良い。例えば、コンピュータ２００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＤＶＤ、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ２００が各プログラム２０７ａ～２０７ｆを読み出して実行するようにしてもよい。

　１００　　情報処理装置
　１１０　　通信部
　１２０　　入力部
　１３０　　表示部
　１４０　　記憶部
　１４１　　変換パーツテーブル
　１４２　　映像ＤＢ
　１５０　　制御部
　１５１　　取得部
　１５２　　骨格推定部
　１５３　　属性推定部
　１５４　　検出部
　１５５　　生成部
　１５６　　表示制御部

Claims

　人物を含む映像情報を取得し、
　取得した前記映像情報を分析することで、前記人物の属性を含む属性情報および前記人物の関節の位置を含む骨格情報を生成し、
　取得した前記映像情報に含まれる前記人物の表面を構成する複数の部位を有し、前記部位毎に前記人物に関連する特徴量を有する３次元のアバターを取得し、
　生成された前記属性情報および前記骨格情報に基づいて、取得した前記３次元のアバターが有する複数の部位の中から、前記特徴量を変換する部位を特定し、
　前記映像情報に含まれる人物のアバターとして、特定された部位の特徴量が変換された３次元のアバターを生成する
　処理をコンピュータに実行させることを特徴とする生成プログラム。
　前記骨格情報と、予め設定された設定情報とを基にして、取得した前記３次元のアバターが有する複数の部位のうち、特定の部位が有する特徴量を変換し、
　前記特徴量が変換された前記３次元のアバターの属性が、前記属性情報に含まれる属性を満たすか否かを判定し、
　前記３次元のアバターの属性が、前記属性情報に含まれる属性を満たす場合に、前記映像情報に含まれる人物に含まれる人物を示すアバターとして、前記特徴量が変換された前記３次元のアバターを出力する処理を更にコンピュータに実行させることを特徴とする請求項１に記載の生成プログラム。
　前記特徴量を変換する処理は、前記３次元のアバターが有する複数の部位のうち、顔、耳介、手のひらの部位の特徴量を変換することを特徴とする請求項１に記載の生成プログラム。
　前記変換する処理は、前記３次元のアバターが有する複数の部位のうち、顔の部位の特徴量を繰り返し変換し、前記判定する処理は、前記顔の部位の特徴量が変換される度に、前記３次元のアバターの属性が、前記属性情報に含まれる属性を満たすか否かを判定することを特徴とする請求項３に記載の生成プログラム。
　映像情報のフレームを入力とし、３次元のアバターを出力とする訓練済みの機械学習モデルに、前記映像情報のフレームを入力することで、前記３次元のアバターを生成する処理を更にコンピュータに実行させることを特徴とする請求項１に記載の生成プログラム。
　人物を含む映像情報を取得し、
　取得した前記映像情報を分析することで、前記人物の属性を含む属性情報および前記人物の関節の位置を含む骨格情報を生成し、
　取得した前記映像情報に含まれる前記人物の表面を構成する複数の部位を有し、前記部位毎に前記人物に関連する特徴量を有する３次元のアバターを取得し、
　生成された前記属性情報および前記骨格情報に基づいて、取得した前記３次元のアバターが有する複数の部位の中から、前記特徴量を変換する部位を特定し、
　前記映像情報に含まれる人物のアバターとして、特定された部位の特徴量が変換された３次元のアバターを生成する
　処理をコンピュータが実行することを特徴とする生成方法。
　前記骨格情報と、予め設定された設定情報とを基にして、取得した前記３次元のアバターが有する複数の部位のうち、特定の部位が有する特徴量を変換し、
　前記特徴量が変換された前記３次元のアバターの属性が、前記属性情報に含まれる属性を満たすか否かを判定し、
　前記３次元のアバターの属性が、前記属性情報に含まれる属性を満たす場合に、前記映像情報に含まれる人物に含まれる人物を示すアバターとして、前記特徴量が変換された前記３次元のアバターを出力する処理を更に実行することを特徴とする請求項６に記載の生成方法。
　前記特徴量を変換する処理は、前記３次元のアバターが有する複数の部位のうち、顔、耳介、手のひらの部位の特徴量を変換することを特徴とする請求項６に記載の生成方法。
　前記変換する処理は、前記３次元のアバターが有する複数の部位のうち、顔の部位の特徴量を繰り返し変換し、前記判定する処理は、前記顔の部位の特徴量が変換される度に、前記３次元のアバターの属性が、前記属性情報に含まれる属性を満たすか否かを判定することを特徴とする請求項８に記載の生成方法。
　映像情報のフレームを入力とし、３次元のアバターを出力とする訓練済みの機械学習モデルに、前記映像情報のフレームを入力することで、前記３次元のアバターを生成する処理を更にコンピュータに実行させることを特徴とする請求項６に記載の生成方法。
　人物を含む映像情報を取得し、
　取得した前記映像情報を分析することで、前記人物の属性を含む属性情報および前記人物の関節の位置を含む骨格情報を生成し、
　取得した前記映像情報に含まれる前記人物の表面を構成する複数の部位を有し、前記部位毎に前記人物に関連する特徴量を有する３次元のアバターを取得し、
　生成された前記属性情報および前記骨格情報に基づいて、取得した前記３次元のアバターが有する複数の部位の中から、前記特徴量を変換する部位を特定し、
　前記映像情報に含まれる人物のアバターとして、特定された部位の特徴量が変換された３次元のアバターを生成する
　処理を実行する制御部を有する情報処理装置。
　前記骨格情報と、予め設定された設定情報とを基にして、取得した前記３次元のアバターが有する複数の部位のうち、特定の部位が有する特徴量を変換し、
　前記特徴量が変換された前記３次元のアバターの属性が、前記属性情報に含まれる属性を満たすか否かを判定し、
　前記３次元のアバターの属性が、前記属性情報に含まれる属性を満たす場合に、前記映像情報に含まれる人物に含まれる人物を示すアバターとして、前記特徴量が変換された前記３次元のアバターを出力する処理を更に実行することを特徴とする請求項１１に記載の情報処理装置。
　前記特徴量を変換する処理は、前記３次元のアバターが有する複数の部位のうち、顔、耳介、手のひらの部位の特徴量を変換することを特徴とする請求項１１に記載の情報処理装置。
　前記変換する処理は、前記３次元のアバターが有する複数の部位のうち、顔の部位の特徴量を繰り返し変換し、前記判定する処理は、前記顔の部位の特徴量が変換される度に、前記３次元のアバターの属性が、前記属性情報に含まれる属性を満たすか否かを判定することを特徴とする請求項１３に記載の情報処理装置。
　映像情報のフレームを入力とし、３次元のアバターを出力とする訓練済みの機械学習モデルに、前記映像情報のフレームを入力することで、前記３次元のアバターを生成する処理を更に実行することを特徴とする請求項１１に記載の情報処理装置。