WO2022269708A1

WO2022269708A1 - 情報処理装置及び情報処理方法

Info

Publication number: WO2022269708A1
Application number: PCT/JP2021/023457
Authority: WO
Inventors: 駿介高宮; 知之兼清; 仁志瀬下
Original assignee: 日本電信電話株式会社
Priority date: 2021-06-21
Filing date: 2021-06-21
Publication date: 2022-12-29

Abstract

この発明の一態様では、情報処理装置は、動作を行っている第１の人物を撮影して得られた訓練用動画を取得するインターフェースと、前記訓練用動画から、前記第１の人物における関節の位置を時系列で示す訓練用骨格データを生成し、前記訓練用骨格データにおける関節間の距離と、前記第１の人物と異なる第２の人物における関節間の距離と、が整合するように前記訓練用骨格データを修正する、プロセッサと、を備える。

Description

情報処理装置及び情報処理方法

　本発明は、情報処理装置及び情報処理方法に関する。

　任意の人物が行った動作（ピッチングなど）を示すデータ（動画など）から当該動作のカテゴリ（フォームなど）を特定する技術が提供されている。そのような技術には、当該人物が行った各カテゴリの動作を示すデータセットを元に深層学習を行い、動作のカテゴリを特定するネットワークを生成するものがある。

　従来、データセットを生成するために、当該人物が各カテゴリの動作を行う必要がある。

Schroff, et al., "FaceNet: A Unified Embedding for Face Recognition and Clustering", Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2015

　しかしながら、当該人物が各カテゴリの動作を行うことは、困難である。また、オペレータは、当該人物が行った動作を示すデータを各カテゴリに分類する必要がある。

　上記の課題を解決するため、動作のカテゴリを特定する推論モデルを生成するためのデータを効果的に生成することができる技術を提供する。

　実施形態によれば、情報処理装置は、動作のカテゴリを特定する推論モデルを生成するためのデータを効果的に生成することができる。

図１は、第１の実施形態に係る情報処理装置の構成例を示すブロック図である。図２は、第１の実施形態に係る情報処理装置の動作例を示すブロック図である。図３は、第１の実施形態に係る情報処理装置の動作例を示すフローチャートである。図４は、第２の実施形態に係る情報処理装置の動作例を示すフローチャートである。

　以下、図面を参照してこの発明に係わる実施形態を説明する。
（第１の実施形態）
　まず、第１の実施形態について説明する。

　実施形態に係る情報処理装置は、任意の人物が行った動作（たとえば、スポーツ、トレーニング又はダンスなどの動作）を示すデータ（たとえば、動画）を取得する。情報処理装置は、当該データに基づいて、当該動作のカテゴリ（たとえば、フォーム）を特定する。情報処理装置は、特定されたカテゴリをオペレータに提示する。

　たとえば、情報処理装置がカテゴリを特定する動作は、ピッチングである。また、動作のカテゴリは、ピッチングのフォーム（たとえば、オーバーハンド、スリークォータ、サイドハンド又はアンダーハンドなど）などである。また、カテゴリは、動作の善し悪しに関するものであってもよい。　
　なお、動作及びカテゴリの構成は、特定の構成に限定されるものではない。

　図１は、情報処理装置１０（コンピュータ）の構成例を示すブロック図である。図１が示すように、情報処理装置１０は、プロセッサ１１、ＲＯＭ１２、ＲＡＭ１３、ＮＶＭ１４、通信部１５、操作部１６及び表示部１７などを備える。

　プロセッサ１１と、ＲＯＭ１２、ＲＡＭ１３、ＮＶＭ１４、通信部１５、操作部１６及び表示部１７と、は、データバスなどを介して互いに接続する。　
　なお、情報処理装置１０は、図１が示すような構成の他に必要に応じた構成を具備したり、情報処理装置１０から特定の構成が除外されたりしてもよい。

　プロセッサ１１は、情報処理装置１０全体の動作を制御する機能を有する。プロセッサ１１は、内部キャッシュ及び各種のインターフェースなどを備えてもよい。プロセッサ１１は、内部メモリ、ＲＯＭ１２又はＮＶＭ１４が予め記憶するプログラムを実行することにより種々の処理を実現する。

　なお、プロセッサ１１がプログラムを実行することにより実現する各種の機能のうちの一部は、ハードウエア回路により実現されるものであってもよい。この場合、プロセッサ１１は、ハードウエア回路により実行される機能を制御する。

　ＲＯＭ１２は、制御プログラム及び制御データなどが予め記憶された不揮発性のメモリである。ＲＯＭ１２に記憶される制御プログラム及び制御データは、情報処理装置１０の仕様に応じて予め組み込まれる。

　ＲＡＭ１３は、揮発性のメモリである。ＲＡＭ１３は、プロセッサ１１の処理中のデータなどを一時的に格納する。ＲＡＭ１３は、プロセッサ１１からの命令に基づき種々のアプリケーションプログラムを格納する。また、ＲＡＭ１３は、アプリケーションプログラムの実行に必要なデータ及びアプリケーションプログラムの実行結果などを格納してもよい。

　ＮＶＭ１４は、データの書き込み及び書き換えが可能な不揮発性のメモリである。ＮＶＭ１４は、たとえば、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）又はフラッシュメモリなどから構成される。ＮＶＭ１４は、情報処理装置１０の運用用途に応じて制御プログラム、アプリケーション及び種々のデータなどを格納する。

　通信部１５は、外部装置と通信するためのインターフェースである。たとえば、通信部１５は、ネットワークを通じて外部装置に接続する。たとえば、通信部１５は、有線又は無線のＬＡＮ（Local Area Network）接続をサポートするインターフェースである。

　また、通信部１５は、ＨＤＤ、ＳＳＤ又はＵＳＢ（Universal Serial Bus）メモリなどの記憶装置に接続するものであってもよい。たとえば、通信部１５は、ＵＳＢ接続をサポートするインターフェースであってもよい。

　操作部１６は、オペレータから種々の操作の入力を受け付ける。操作部１６は、入力された操作を示す信号をプロセッサ１１へ送信する。操作部１６は、タッチパネルから構成されてもよい。

　表示部１７は、プロセッサ１１からの画像データを表示する。たとえば、表示部１７は、液晶モニタから構成される。操作部１６がタッチパネルから構成される場合、表示部１７は、操作部１６と一体的に形成されてもよい。

　たとえば、情報処理装置１０は、デスクトップＰＣ、ノートＰＣ、又は、タブレットＰＣなどである。

　次に、情報処理装置１０が実現する機能について説明する。情報処理装置１０が実現する機能は、プロセッサ１１が内部メモリ、ＲＯＭ１２又はＮＶＭ１４などに格納されるプログラムを実行することで実現される。たとえば、プロセッサ１１は、情報処理装置１０にインストールされたアプリケーションの機能として以下の機能を実現する。

　まず、プロセッサ１１は、目的の人物（第２の人物）が行った動作を示すデータを取得する機能を有する。

　プロセッサ１１は、目的の人物が行った動作を示すデータとして、目的の人物が行った動作を撮影して得られた動画（クエリ動画）を取得する。ここでは、クエリ動画は、１回の試行（動作）を行っている目的の人物の動画である。

　たとえば、プロセッサ１１は、通信部１５を通じて、クエリ動画を取得する。プロセッサ１１は、通信部１５を通じて、外部装置からクエリ動画をダウンロードしてもよい。また、プロセッサ１１は、通信部１５を通じて、カメラなどの撮影装置からクエリ動画を取得してもよい。

　プロセッサ１１がクエリ動画を取得する方法は、特定の方法に限定されるものではない。

　また、プロセッサ１１は、クエリ動画から間接の位置を時系列で示すデータ（クエリ骨格データ）を生成する機能を有する。

　たとえば、間接は、手首、腕、肩、首、腰、股関節、膝又は足首などである。

　クエリ動画を取得すると、プロセッサ１１は、クエリ動画から、目的の人物の各間接の位置を特定する。ここでは、プロセッサ１１は、三次元空間における関節の位置を特定する。

　たとえば、ＮＶＭ１４は、画像から各間接の位置を特定するための推論モデルを予め格納する。たとえば、推論モデルは、深層学習などで得られたネットワークなどである。

　プロセッサ１１は、推論モデルなどを用いて、クエリ動画の各フレームにおいて、各間接の位置を特定する。

　クエリ動画の各フレームにおいて各間接の位置を特定すると、プロセッサ１１は、各フレームの順序に従って、各間接の位置を時系列で示すクエリ骨格データを生成する。

　また、プロセッサ１１は、訓練用動画から関節の位置を時系列で示すデータ（訓練用骨格データ）を生成する機能を有する。

　プロセッサ１１は、通信部１５などを通じて訓練用動画を取得する。

　訓練用動画は、目的の人物と異なる所定の人物（第１の人物）が行った所定のカテゴリの動作を示すデータである。即ち、訓練用動画は、所定のカテゴリに属する動作を行っている当該人物を撮影して得られた動画である。

　また、訓練用動画は、１回の試行（動作）を行っている当該人物の動画である。

　プロセッサ１１は、所定のカテゴリの訓練用動画として、複数の訓練用動画を取得してもよい。たとえば、プロセッサ１１は、訓練用動画として、複数回試行している当該人物の動画を試行ごとに分割した動画を取得する。

　なお、訓練用動画は、カテゴリごと又は試行ごとに異なる人物を撮影して得られた動画であってもよい。

　ここでは、プロセッサ１１は、各カテゴリＦ１…Ｆｎの訓練用動画（データセット）を取得する。また、プロセッサ１１は、カテゴリごとに、ｍ個の訓練用動画を取得する。

　なお、ＮＶＭ１４は、訓練用動画を格納するものであってもよい。この場合、プロセッサ１１は、所定のインターフェースなどを通じて訓練用動画をＮＶＭ１４から取得する。

　訓練用動画を取得すると、プロセッサ１１は、各訓練用動画から訓練用骨格データを生成する。プロセッサ１１は、１つの訓練用動画から１つの訓練用骨格データを生成する。ここでは、プロセッサ１１は、カテゴリＦｉごとに訓練用骨格データＰ１乃至Ｐｍを生成する。

　プロセッサ１１が訓練用骨格データを生成する方法は、プロセッサ１１がクエリ骨格データを生成する方法と同様であるため説明を省略する。　
　なお、ＮＶＭ１４は、訓練用骨格データを予め格納するものであってもよい。

　また、プロセッサ１１は、目的の人物における各関節間の距離に基づいて訓練用骨格データを修正する機能を有する。

　図２は、プロセッサ１１が訓練用骨格データを修正する動作を説明するための図である。

　訓練用骨格データを生成すると、プロセッサ１１は、クエリ骨格データなどから目的の人物における各関節間の距離を取得する。なお、プロセッサ１１は、目的の人物における各関節間の距離をＮＶＭ１４などから取得してもよい。また、プロセッサ１１は、通信部１５を通じて目的の人物における各関節間の距離を取得するものであってもよい。

　目的の人物における各関節間の距離を取得すると、プロセッサ１１は、各時刻において、訓練用骨格データにおける各関節間の距離と、目的の人物における各関節間の距離とが整合（たとえば、一致）するように、訓練用骨格データを修正する。

　たとえば、プロセッサ１１は、訓練用骨格データにおいて、位置を固定する関節を１つ設定する。位置を固定する関節を１つ固定すると、プロセッサ１１は、当該関節を起点として、訓練用骨格データにおける各関節の距離と目的の人物における各関節間の距離とが整合するように、訓練用骨格データの各関節の位置を修正する。

　図２が示すように、プロセッサ１１は、各カテゴリＦｉの訓練用骨格データを修正する。即ち、プロセッサ１１は、各カテゴリＦｉの各訓練用骨格データＰｉを修正する。

　上記の修正により、カテゴリＦｉにおける修正後の訓練用骨格データは、目的の人物がカテゴリＦｉの動作を行った場合における訓練用骨格データに近似する。

　なお、プロセッサ１１は、訓練用骨格データにおける各関節間の距離の比と目的の人物における各関節間の距離の比とが整合（たとえば、一致）するように訓練用骨格データを修正してもよい。

　また、プロセッサは、修正後の訓練用骨格データを用いて、動作のカテゴリを特定する推論モデル（第１のカテゴリ推論モデル）を生成する機能を有する。

　第１のカテゴリ推論モデルは、クエリ骨格データに基づいて目的の人物が行った動作のカテゴリを特定する。第１のカテゴリ推論モデルは、クエリ骨格データ又は修正後の訓練用骨格データを入力すると特徴量を出力する。

　ここでは、プロセッサ１１は、深層学習により第１のカテゴリ推論モデルを生成する。プロセッサ１１は、以下のように第１のカテゴリ推論モデルを生成する。

　まず、プロセッサ１１は、カテゴリＦｉを無作為に選ぶ。カテゴリＦｉを選ぶと、プロセッサ１１は、修正後の訓練用骨格データＰ１乃至Ｐｍ（データセット）からＰ１、Ｐ２及びＰ３を次の様に選ぶ。プロセッサ１１は、Ｐ１及びＰ３をカテゴリＦｉの修正後の訓練用骨格データＰ１乃至Ｐｍから無作為に選ぶ。ただし、Ｐ１とＰ３とは、異なる。

　Ｐ１及びＰ３を選ぶと、プロセッサ１１は、カテゴリＦｊ（ｊは、ｉと異なる）の修正後の訓練用骨格データＰ１乃至ＰｍからＰ２を無作為に選ぶ。

　即ち、Ｐ１及びＰ３は、同じカテゴリＦｉのデータセットから選択されたデータであり、ここでは、ポジティブデータと呼ぶ。また、Ｐ２は、カテゴリＦｉと異なるカテゴリＦｊのデータセットから選択されたデータであり、ここでは、ネガティブデータと呼ぶ。

　Ｐ１、Ｐ２及びＰ３を選択すると、プロセッサ１１は、第１のカテゴリ推論モデルにＰ１、Ｐ２及びＰ３を入力して、特徴量空間に写像された特徴量ｆ（Ｐ１）、ｆ（Ｐ２）及びｆ（Ｐ３）を算出する。ここでは、ｆ（Ｐｉ）は、Ｐｉを第１のカテゴリ推論モデルに入力して得られた特徴量を示す。

　また、特徴量空間におけるｆ（Ｐ１）とｆ（Ｐ２）との距離ｄ１とし、特徴量空間におけるｆ（Ｐ１）とｆ（Ｐ３）との距離ｄ２とする。

　特徴量ｆ（Ｐ１）、ｆ（Ｐ２）及びｆ（Ｐ３）を算出すると、プロセッサ１１は、距離ｄ２が距離ｄ１よりも小さくなるように第１のカテゴリ推論モデルを更新する。即ち、プロセッサ１１は、第１のカテゴリ推論モデルのパラメータを更新する。たとえば、プロセッサ１１は、triplet lossを損失関数と用いてパラメータを更新する。

　プロセッサ１１は、上記の動作を繰り返して、第１のカテゴリ推論モデルを生成する。

　上記の動作により、第１のカテゴリ推論モデルは、同じカテゴリに属する修正後の訓練用骨格データの特徴量を近くに写像し、異なるカテゴリに属する修正後の訓練用骨格データの特徴量を遠くに写像する。

　なお、第１のカテゴリ推論モデルの構成及び生成方法は、特定の構成に限定されるものではない。

　また、プロセッサ１１は、第１のカテゴリ推論モデル及びクエリ骨格データに基づいて目的の人物が行った動作のカテゴリを特定する機能を有する。

　第１のカテゴリ推論モデルを生成すると、プロセッサ１１は、カテゴリＦｉのデータセットから１つの修正後の訓練用骨格データを取得する。１つの修正後の訓練用骨格データを取得すると、プロセッサ１１は、第１のカテゴリ推論モデルを用いて、クエリ骨格データの特徴量と取得された１つの修正後の訓練用骨格データの特徴量とを算出する。両特徴量を算出すると、プロセッサ１１は、両特徴量の距離を算出する。両特徴量の距離を算出すると、プロセッサ１１は、両特徴量の距離が所定の閾値以下であるかを判定する。

　両特徴量の距離が所定の閾値以下であると判定すると、プロセッサ１１は、クエリ骨格データのカテゴリがカテゴリＦｉであるものと判定する。

　両特徴量の距離が所定の閾値以下でないと判定すると、プロセッサ１１は、他のカテゴリＦｊについて同様の動作を行う。

　なお、プロセッサ１１は、各カテゴリについて、上記の通り距離を算出してもよい。プロセッサ１１は、クエリ骨格データのカテゴリとして、最も小さい距離に対応するカテゴリを特定してもよい。

　なお、プロセッサ１１が第１のカテゴリ推論モデルに従ってカテゴリを特定する方法は、特定の方法に限定されるものではない。

　クエリ骨格データのカテゴリを特定すると、プロセッサ１１は、特定されたカテゴリを表示部１７に表示する。たとえば、プロセッサ１１は、特定されたカテゴリを示すメッセージなどを表示部１７に表示する。

　次に、情報処理装置１０の動作例について説明する。　
　図３は、情報処理装置１０の動作例について説明するためのフローチャートである。

　まず、情報処理装置１０のプロセッサ１１は、通信部１５などを通じてクエリ動画を取得する（Ｓ１１）。クエリ動画を取得すると、プロセッサ１１は、クエリ動画からクエリ骨格データを生成する（Ｓ１２）。

　クエリ骨格データを生成すると、プロセッサ１１は、通信部１５などを通じて訓練用動画を取得する（Ｓ１３）。訓練用動画を取得すると、プロセッサ１１は、訓練用動画から訓練用骨格データを生成する（Ｓ１４）。

　訓練用骨格データを生成すると、プロセッサ１１は、訓練用骨格データにおける各関節の距離と目的の人物における各関節間の距離とが整合するように、訓練用骨格データを修正する（Ｓ１５）。

　訓練用骨格データを修正すると、プロセッサ１１は、修正後の訓練用骨格データを元に深層学習を行うことで第１のカテゴリ推論モデルを生成する（Ｓ１６）。第１のカテゴリ推論モデルを生成すると、プロセッサ１１は、生成された第１のカテゴリ推論モデル及びクエリ骨格データに基づいて目的の人物が行った動作のカテゴリを特定する（Ｓ１７）。

　目的の人物が行った動作のカテゴリを特定すると、プロセッサ１１は、特定されたカテゴリを表示部１７などに表示する（Ｓ１８）。　
　特定されたカテゴリを表示部１７などに表示すると、プロセッサ１１は、動作を終了する。

　なお、プロセッサ１１は、修正後の訓練用骨格データを外部装置に送信するものであってもよい。この場合、外部装置は、第１のカテゴリ推論モデルを生成し、目的の人物が行った動作のカテゴリを特定するものであってもよい。

　また、第１のカテゴリ推論モデルは、クエリ骨格データを入力すると、動作のカテゴリを示すベクトルなどの情報を出力するものであってもよい。

　以上のように構成された情報処理装置は、目的の人物における各関節間の距離と整合するように、訓練用骨格データを修正する。そのため、情報処理装置は、目的の人物が各カテゴリの動作を行った場合に得られる訓練用骨格データと同様の訓練用骨格データを生成することができる。従って、情報処理装置は、目的の人物に各カテゴリの動作を行わせることなく、目的の人物に対応する訓練用骨格データを生成することができる。
（第２の実施形態）
　次に、第２の実施形態について説明する。　
　第２の実施形態に係る情報処理装置は、クエリ動画から動作のカテゴリを特定するカテゴリ推論モデル（第２のカテゴリ推論モデル）を生成する点で第１の実施形態に係るそれと異なる。従って、その他の点については、同一の符号を付して詳細な説明を省略する。

　第２の実施形態に係る情報処理装置１０の構成は、第１の実施形態に係るそれと同様であるため説明を省略する。

　情報処理装置１０は、第１の実施形態に係る情報処理装置１０が実現する機能に加えて以下の機能を実現する。

　プロセッサ１１は、修正後の訓練用骨格データに基づいて訓練用動画を修正する機能を有する。

　プロセッサ１１は、訓練用動画における各関節の距離と目的の人物における各関節間の距離とが整合するように、訓練用動画を修正する。即ち、プロセッサ１１は、各関節間の距離と目的の人物における各関節間の距離とが整合するように、訓練用動画において各関節の位置を修正する。

　プロセッサ１１は、所定の画像処理アルゴリズムなどに従って訓練用動画を修正する。たとえば、プロセッサ１１は、訓練用画像の各フレームにおいて、各関節の位置が所望の位置になるように、腕、脚又は首などの位置及び長さを修正する。

　また、プロセッサ１１は、修正後の訓練用動画を用いて、動作のカテゴリを特定する推論モデル（第２のカテゴリ推論モデル）を生成する機能を有する。

　第２のカテゴリ推論モデルは、クエリ動画に基づいて目的の人物が行った動作のカテゴリを特定する。第２のカテゴリ推論モデルは、クエリ動画又は修正後の訓練用動画を入力すると特徴量を出力する。

　プロセッサ１１は、深層学習により第２のカテゴリ推論モデルを生成する。

　プロセッサ１１が第２のカテゴリ推論モデルを生成する方法は、プロセッサ１１が第１のカテゴリ推論モデルを生成する方法と同様であるため説明を省略する。

　また、プロセッサ１１は、第２のカテゴリ推論モデル及びクエリ動画に基づいて目的の人物が行った動作のカテゴリを特定する機能を有する。

　プロセッサ１１が第２のカテゴリ推論モデル及びクエリ動画に基づいて目的の人物が行った動作のカテゴリを特定する方法は、プロセッサ１１が第１のカテゴリ推論モデル及びクエリ骨格データに基づいて目的の人物が行った動作のカテゴリを特定する方法と同様であるため説明を省略する。

　次に、情報処理装置１０の動作例について説明する。　
　図４は、情報処理装置１０の動作例について説明するためのフローチャートである。

　まず、情報処理装置１０のプロセッサ１１は、通信部１５などを通じてクエリ動画を取得する（Ｓ２１）。クエリ動画を取得すると、プロセッサ１１は、クエリ動画からクエリ骨格データを生成する（Ｓ２２）。

　クエリ骨格データを生成すると、プロセッサ１１は、通信部１５などを通じて訓練用動画を取得する（Ｓ２３）。訓練用動画を取得すると、プロセッサ１１は、訓練用動画から訓練用骨格データを生成する（Ｓ２４）。

　訓練用骨格データを生成すると、プロセッサ１１は、訓練用骨格データにおける各関節の距離と目的の人物における各関節間の距離とが整合するように、訓練用骨格データを修正する（Ｓ２５）。

　訓練用骨格データを修正すると、プロセッサ１１は、修正後の訓練用骨格データに基づいて訓練用動画を修正する（Ｓ２６）。訓練用動画を修正すると、プロセッサ１１は、修正後の訓練用動画を元に深層学習を行うことで第２のカテゴリ推論モデルを生成する（Ｓ２７）。

　第２のカテゴリ推論モデルを生成すると、プロセッサ１１は、生成された第２のカテゴリ推論モデル及びクエリ動画に基づいて目的の人物が行った動作のカテゴリを特定する（Ｓ２８）。

　目的の人物が行った動作のカテゴリを特定すると、プロセッサ１１は、特定されたカテゴリを表示部１７などに表示する（Ｓ２９）。　
　特定されたカテゴリを表示部１７などに表示すると、プロセッサ１１は、動作を終了する。

　なお、プロセッサ１１は、修正後の訓練用動画を外部装置に送信するものであってもよい。この場合、外部装置は、第２のカテゴリ推論モデルを生成し、目的の人物が行った動作のカテゴリを特定するものであってもよい。

　また、第２のカテゴリ推論モデルは、クエリ動画を入力すると、動作のカテゴリを示すベクトルなどの情報を出力するものであってもよい。

　また、プロセッサ１１は、クエリ動画に所定の前処理を行って第２のカテゴリ推論モデルに入力するものであってもよい。プロセッサ１１は、第２のカテゴリ推論モデルを生成する場合においても、補正後の訓練用画像に前処理を行ってもよい。

　以上のように構成された情報処理装置は、修正後の訓練用骨格データを用いて訓練用動画を修正する。その結果、情報処理装置は、目的の人物が各カテゴリの動作を行った場合に得られる訓練用動画と同様の訓練用動画を生成することができる。

　なお、この発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。例えば、情報処理装置の種類や構成、表示デバイスの種類やその構成、情報提示位置の決定処理の手順と内容、提示情報の種類やその生成方法等については、この発明の要旨を逸脱しない範囲で種々変形して実施できる。

　また、実施形態は可能な限り適宜選択したり組み合わせて実施してもよい。さらに、上記実施形態には種々の段階の発明が含まれており、開示される複数の構成要件における適当な組み合わせにより種々の発明が抽出され得る。

　１０…情報処理装置
　１１…プロセッサ
　１２…ＲＯＭ
　１３…ＲＡＭ
　１４…ＮＶＭ
　１５…通信部
　１６…操作部
　１７…表示部

Claims

　動作を行っている第１の人物を撮影して得られた訓練用動画を取得するインターフェースと、
　　前記訓練用動画から、前記第１の人物における関節の位置を時系列で示す訓練用骨格データを生成し、
　　前記訓練用骨格データにおける関節間の距離と、前記第１の人物と異なる第２の人物における関節間の距離と、が整合するように前記訓練用骨格データを修正する、
　プロセッサと、
を備える情報処理装置。
　前記プロセッサは、
　　前記インターフェースを通じて、動作を行っている前記第２の人物を撮影して得られたクエリ動画を取得し、
　　前記クエリ動画から、前記第２の人物における関節の位置を時系列で示すクエリ骨格データを生成し、
　　修正後の前記訓練用骨格データに基づいて、動作のカテゴリを特定する第１のカテゴリ推論モデルを生成し、
　　前記第１のカテゴリ推論モデル及び前記クエリ骨格データに基づいて、前記第２の人物が行っている動作のカテゴリを特定する、
請求項１に記載の情報処理装置。
　前記第１のカテゴリ推論モデルは、前記クエリ骨格データを入力すると特徴量を出力し、
　前記プロセッサは、深層学習によって前記第１のカテゴリ推論モデルを生成する、
請求項２に記載の情報処理装置。
　前記プロセッサは、
　　修正後の前記訓練用骨格データに基づいて、前記訓練用動画における関節間の距離と、前記第２の人物における関節間の距離と、が整合するように、前記訓練用動画を修正する、
請求項１に記載の情報処理装置。
　前記プロセッサは、
　　前記インターフェースを通じて、動作を行っている前記第２の人物を撮影して得られたクエリ動画を取得し、
　　修正後の前記訓練用動画に基づいて、動作のカテゴリを特定する第２のカテゴリ推論モデルを生成し、
　　前記第２のカテゴリ推論モデル及び前記クエリ動画に基づいて、前記第２の人物が行っている動作のカテゴリを特定する、
請求項４に記載の情報処理装置。
　前記第２のカテゴリ推論モデルは、クエリ骨格データを入力すると特徴量を出力し、
　前記プロセッサは、深層学習によって前記第２のカテゴリ推論モデルを生成する、
請求項５に記載の情報処理装置。
　　前記プロセッサは、
　　前記インターフェースを通じて、動作を行っている第２の人物を撮影して得られたクエリ動画を取得し、
　　前記クエリ動画から、前記第２の人物における関節の位置を時系列で示すクエリ骨格データを生成し、
　　前記クエリ骨格データに基づいて、前記訓練用骨格データを修正する、
請求項１に記載の情報処理装置。
　プロセッサによって実行される情報処理方法であって、
　動作を行っている第１の人物を撮影して得られた訓練用動画を取得し、
　前記訓練用動画から、前記第１の人物における関節の位置を時系列で示す訓練用骨格データを生成し、
　前記訓練用骨格データにおける関節間の距離と、前記第１の人物と異なる第２の人物における関節間の距離と、が整合するように前記訓練用骨格データを修正する、
情報処理方法。