WO2023275940A1

WO2023275940A1 - 姿勢推定装置、姿勢推定システム、姿勢推定方法

Info

Publication number: WO2023275940A1
Application number: PCT/JP2021/024378
Authority: WO
Inventors: 侑也 ▲高▼久
Original assignee: 株式会社Sportip
Priority date: 2021-06-28
Filing date: 2021-06-28
Publication date: 2023-01-05
Also published as: JPWO2023275940A1

Abstract

【課題】【解決手段】ユーザの姿勢を推定する姿勢推定装置であって、ユーザの動作を含む動画像から前記身体の部位を特定し、当該部位の回転を解析する解析部と、少なくとも１つの前記部位の回転に係る基準値を記憶する基準値記憶部と、前記画像における前記部位の回転および前記基準値を比較して前記運動の評価値を決定する評価部とを備えることを特徴とする、姿勢推定装置、を提供する。

Description

姿勢推定装置、姿勢推定システム、姿勢推定方法

　本開示は、姿勢推定装置、姿勢推定システム、姿勢推定方法に関する。

　姿勢を解析する技術が知られている。

特願２０１８－５５８５６１

　上述した技術は、多くの動画の画像データの中から、所定の結果が生じやすいフォームを含む動作を表す動画の画像データを容易に特定することを目的とし、選手の一連の動作をビデオカメラで撮像して解析を行っている。しかしながら、実際の身体の動作は３次元的なものであり、平面的な動作を解析しても、関節の回転を捉えることが難しく、特許文献１に記載の技術ではこの点で動作を正確に捉えてトレーニングに活かすことができない。

　そこで、本開示は上記問題点に鑑みてなされたものであり、その目的は、身体の動作を容易かつ正確に解析することのできる技術を提供することである。

　本開示によれば、ユーザの姿勢を推定する姿勢推定装置であって、ユーザの動作を含む動画像から前記身体の部位を特定し、当該部位の回転を解析する解析部と、少なくとも１つの前記部位の回転に係る基準値を記憶する基準値記憶部と、前記画像における前記部位の回転および前記基準値を比較して前記運動の評価値を決定する評価部とを備えることを特徴とする、姿勢推定装置。が提供される。

　本開示によれば、身体の動作を正確に解析することができる。

本実施形態に係る動作解析装置の全体構成例を示す図である。同実施形態に係るサーバ装置１を実現するコンピュータのハードウェア構成例を示す図である。同実施形態に係るサーバ装置１のソフトウェア構成例を示す図である。同実施形態に係るユーザ情報記憶部１３１に記憶される情報の構成例を示す図である。同実施形態に係る基準値情報記憶部１３４に記憶される情報の構成例を示す図である。同実施形態に係る評価条件情報記憶部１３５に記憶される情報の構成例を示す図である。同実施形態に係る改善条件情報記憶部１３６に記憶される情報の構成例を示す図である。同実施形態に係るユーザに配したラインの例を示す図である。同実施形態に係るユーザに配したラインの例を示す他の図である。同実施形態に係るユーザに配したマーカと、前処理の例を示す図である。同実施形態に係るサーバ装置１における一連の制御に係るフローチャート図である。

　本発明の実施形態の内容を列記して説明する。本発明の一実施形態は、以下のような構成を備える。
　［項目１］
　ユーザの姿勢を推定する姿勢推定装置であって、
　ユーザの動作を含む動画像から前記身体の部位を特定し、当該部位の回転を解析する解析部と、
　少なくとも１つの前記部位の回転に係る基準値を記憶する基準値記憶部と、
　前記画像における前記部位の回転および前記基準値を比較して前記運動の評価値を決定する評価部と
を備えることを特徴とする、姿勢推定装置。
　［項目２］
　前記部位は関節を含み、
　前記関節を繋ぐボーンを生成し、前記関節の間の中点を取り、前記中点を通り、前記ボーンと垂直に直行する面において、仮想の座標点を複数点生成する前処理部と、
を備え、
　前記解析部は、前記仮想の座標点の位置を解析することで、前記ボーンの３次元回転座標を導出すること、
を特徴とする、請求項１に記載の姿勢推定装置。
　［項目３］
　前記解析部は前記ユーザの身体に配したサインを含む一連の動作を含む画像を解析し、
　前記サインはラインを含み、
　前記解析部は前記ラインを解析し、前記部位のねじれを解析すること、
を特徴とする、請求項１または２に記載の姿勢推定装置。
　［項目４］
　前記前処理部は、前記仮想の座標点を４点生成すること、
を特徴とする、請求項２に記載の姿勢推定装置。
　［項目５］
　ユーザの姿勢を推定する姿勢推定システムであって、
　ユーザの動作を含む動画像から当該ユーザの身体の部位を特定し、当該部位の回転を解析する解析機能と、
　少なくとも１つの前記部位の回転に係る基準値を記憶する基準値記憶機能と、
　前記画像における前記部位の回転および前記基準値を比較して前記動作の評価値を決定する評価機能と
を備えることを特徴とする、姿勢推定システム。
　［項目６］
　ユーザの姿勢を推定する姿勢推定方法であって、
　ユーザの動作を含む動画像から当該ユーザの身体の部位を特定し、当該部位の回転を解析する解析ステップと、
　少なくとも１つの前記部位の回転に係る基準値を記憶する基準値記憶ステップと、
　前記画像における前記部位の回転および前記基準値を比較して前記動作の評価値を決定する評価ステップと
を備えることを特徴とする、姿勢推定方法。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書および図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　サーバ装置１は、ユーザの動作を解析し、技能の向上、正しい効果を得るトレーニングやリハビリなどに活かすアドバイスを生成し、ユーザに提示する。本実施形態のサーバ装置１は、ユーザの一連の動作を含む画像において、ユーザが手頃に撮影できる装置を用いて取得した画像などを、モーションキャプチャなどを用いて取得した６次元座標を教師データとして機械学習を行うことにより予測モデルを生成し、この予測モデルを用いて、ユーザの動作を簡易的に捉えた画像から、ユーザの動作を６次元的に解析するモデルを提供しようとするものである。本実施形態では、機械学習には畳み込みニューラルネットワーク（Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋｓ；ＣＮＮ）および勾配ブースティングツリーアルゴリズムを用いるものとするが、これらに限定するものではない。

＝＝概要＝＝
　図１は動作解析システムの全体構成を示す図である。図１に示すように、動作解析システムは、サーバ装置１、ユーザ端末３、撮影端末４を含む。サーバ装置１は、ネットワーク２を介してユーザ端末３、撮影端末４と接続される。ユーザ端末３、撮影端末４は１台だけ示してあるが、これ以上存在してもよいことは言うまでもない。また、ユーザ端末３、撮影端末４の具体的な機器は、携帯端末およびパーソナルコンピュータに限定されず、例えば、スマートフォン、タブレットコンピュータ、ウェアラブル端末、その他の電子機器であってもよい。

＝＝サーバ装置１＝＝
　サーバ装置１は、身体運動を評価するコンピュータである。サーバ装置１は、たとえば、ワークステーションやパーソナルコンピュータ、クラウドコンピューティングにより論理的に実現される仮想コンピュータなどである。サーバ装置１は、ユーザ端末３が撮影した動画像を受信し、受信した動画像を解析して身体運動の評価を行う。また、サーバ装置１は、身体運動の改善策に係る提案も行う。身体運動の評価および改善策の提案の詳細については後述する。

＝＝ユーザ端末３＝＝
　ユーザ端末３は、身体運動を行うユーザまたはその支援者が操作するコンピュータである。ユーザ端末３は、たとえば、スマートフォンやタブレットコンピュータ、パーソナルコンピュータなどである。ユーザ端末３はカメラ等の撮像装置を備えており、これにより運動中におけるユーザの身体を撮像することができる。本実施形態では、運動中のユーザの身体を撮像した動画像はユーザ端末３からサーバ装置１に送信されるものとする。ユーザは、たとえばユーザ端末３で実行されるアプリケーションやＷｅｂブラウザによりサーバ装置１にアクセスすることができる。

＝＝撮影端末４＝＝
　撮影端末４は、ユーザの動作を詳細に取得する装置である。撮影端末４は、たとえば、モーションキャプチャなどであり、光学式、磁気式、機械式及び慣性センサ式などの方式でよいが、これらに限定されない。本実施形態の撮影端末４は、光学式であり、複数のカメラと反射マーカをトラッカとして用い、撮影および計測空間周囲にカメラを設置して利用する。

　以下、サーバ装置１の構成について説明する。

　図２は、本実施形態のサーバ装置１のハードウェア構成例を示す図である。サーバ装置１は、プロセッサ１０１、メモリ１０２、記憶装置１０３、通信インタフェース１０４、入力装置１０５、出力装置１０６を備える。プロセッサ１０１は、サーバ装置１全体の動作を制御し、各要素間におけるデータの送受信の制御、及びアプリケーションの実行及び認証処理に必要な情報処理等を行う演算装置である。例えばプロセッサ１０１は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）等のプロセッサであり、記憶装置１０３に格納されメモリ１０２に展開されたプログラム等を実行して各情報処理を実施する。メモリ１０２は、ＤＲＡＭ（Ｄｙｎａｍｉｃ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）等の揮発性記憶装置で構成される主記憶と、フラッシュメモリまたはＨＤＤ（Ｈａｒｄ　Ｄｉｓｃ　Ｄｒｉｖｅ）等の不揮発性記憶装置で構成される補助記憶と、を含む。メモリ１０２は、プロセッサ１０１のワークエリア等として使用され、また、サーバ装置１の起動時に実行されるＢＩＯＳ（Ｂａｓｉｃ　Ｉｎｐｕｔ／Ｏｕｔｐｕｔ　Ｓｙｓｔｅｍ）、及び各種設定情報等を格納する。記憶装置１０３は、各種のデータやプログラムを記憶する、例えばハードディスクドライブやソリッドステートドライブ、フラッシュメモリなどである。通信インタフェース１０４は、ネットワーク２に接続するためのインタフェースであり、例えばイーサネット（登録商標）に接続するためのアダプタ、公衆電話回線網に接続するためのモデム、無線通信を行うための無線通信機、シリアル通信のためのＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）コネクタやＲＳ２３２Ｃコネクタなどである。入力装置１０５は、たとえばキーボードやマウス、タッチパネル、ボタン、マイクロフォンなどを通じてデータの入力を受け付ける装置である。出力装置１０６は、データを出力する、たとえばディスプレイやプリンタ、スピーカなどを備える。

　図３は、サーバ装置１の機能構成を示すブロック図である。図３に示すように、サーバ装置１は、ユーザ情報取得部１１１と、画像情報取得部１１２と、前処理部１１３と、解析部１１４と、評価部１１５と、評価情報提示部１１６と、学習部１１７と、の各処理部と、ユーザ情報記憶部１３１と、画像情報記憶部１３２と、前処理データ記憶部１３３と、基準値情報記憶部１３４と、評価条件情報記憶部１３５と、改善条件記憶部１３６と、の各記憶部と、を含んで構成される。

　なお、上記各処理部は、サーバ装置１が備えるプロセッサ１０１が記憶装置１０３に記憶されているプログラムをメモリ１０２に読み出して実行することにより実現され、上記各記憶部は、サーバ装置１が備えるメモリ１０２および記憶装置１０３が提供する記憶領域の一部として実現される。

　ここで、本実施の形態において、ユーザ情報記憶部１３１と、画像情報記憶部１３２と、前処理データ記憶部１３３と、基準値情報記憶部１３４と、評価条件情報記憶部１３５と、改善条件記憶部１３６と、の各記憶部のデータ構成について示す。

　ユーザ情報記憶部１３１は、ユーザ情報取得部１１１が受け付けた、図４に一例を示すユーザ情報を記憶する。図４に示すように、当該ユーザ情報は、ユーザの属性や目指している状態を示す情報であり、例えば、ユーザＩＤに紐づけて、氏名、生年月日、性別、身長、体重、運動歴、ニーズ（技能向上、効果検証など）などの情報から構成される。

　画像情報記憶部１３２は、画像情報取得部１１２が受け付けた、ユーザの一連の動作を捉えた画像の情報を記憶する。画像には２種類あり、ユーザがユーザ端末３で撮像した画像と、撮影端末４で取得した画像が含まれる。

　前処理データ記憶部１３３は、画像情報記憶部１３２に記憶された画像を、前処理部１１３が学習用に前処理したデータが記憶される。

　基準値情報記憶部１３４は、身体運動に係る、身体の部位の位置、動き、回転、ねじれ、姿勢等、また部位同士の関係から導き出す関係に関する基準値を含む情報（以下、基準情報という。）を記憶する。図５は、基準値情報記憶部１３４が記憶する基準情報の構成例を示す図である。同図に示すように、基準情報には、身体運動を行った際に、身体の部位の絶対位置や、身体の部位がどのように動いたのかという情報（移動速度や移動距離、移動の方向など）、部位の絶対位置または他の部位もしくは他の基準物に対する相対位置に関する基準情報（以下、位置基準情報という。）と、関節部位を含む３つの部位について、２つの部位のそれぞれと関節部位とを結ぶ直線により形成される角度の基準情報（以下、角度基準情報という。）、部位自体が骨などを中心に回転する角度や、回転の速度、回転に要する時間や、部位の動き出しの時点と部位が回転を始める、または終わる時点の関係、回転した後に戻る回転をするなどの回転の組み合わせなどの回転情報と、部位のねじれ基準情報と、が含まれるが、これに限定されない。また、基準値は身体運動ごと（モードごと）に準備され、各身体運動（モード）に対して、目的ごと、前記身体情報の特徴ごと、前記評価情報の特徴ごと、更には特定の個人（一定の成果を上げた選手やプロ選手、有段者、経験者などの熟練者等を想定しているが、これに限らない）の身体運動を基準値化したものなどの複数の基準値が存在していてもよい。

　位置基準情報には、モードとチェックポイントＩＤとに対応付けて、身体の部位と、当該部位の基準となる位置が含まれる。部位は複数あってもよい。当該位置について、鉛直方向の位置は、たとえば、地面からの高さとしてもよいし、いずれかの足先からの距離とすることができる。また、たとえばモードが「ウェイトリフティング」の場合は、両肩を結ぶ線とシャフトの間の距離など、身体の部位や部位と部位を繋ぐ線からの距離としてもよい。部位の水平方向の位置は、所定の基準物（たとえば、マウンドプレートや床上のマークなど）からの距離としてもよいし、肩や胸、足などの基準部位からの距離としてもよい。位置基準情報は、予め登録されているものとする。

　動き基準情報には、モードとチェックポイントＩＤとに対応付けて、部位の移動速度や移動距離、ある時点での移動の方向やある期間での移動の軌跡などの情報の基準値等とが含まれる。

　角度基準情報には、モードとチェックポイントＩＤとに対応付けて、２つの部位（部位１および部位２）と、１つの関節部位と、部位１と関節部位とを結ぶ直線と、部位２と関節部位とを結ぶ直線との間の角度の基準値とが含まれる。

　回転基準情報には、モードとチェックポイントＩＤとに対応付けて、身体の部位と、当該部位の基準となる回転の情報が含まれる。当該部位の回転について、ボーンを回転の軸とする回転の角度、回転の速度、回転時間（回転の始点と終点の時間の情報）などの基準値とが含まれる。

　ねじれ基準情報には、モードとチェックポイントＩＤとに対応付けて、身体の部位と、当該部位の基準となるねじれの情報が含まれる。当該ねじれについて、ボーンを回転の軸とする回転の角度、回転の速度、回転時間（回転の始点と終点の時間の情報）などの基準値とが含まれる。

　なお、ここまで身体の部位と記載した内容は、道具の部分と置き換えてもよい。例えば、基準値情報記憶部１３４は、道具を用いた身体運動に係る、道具の部分の位置、動き、回転、ねじれ、また部分同士の関係から導き出す関係に関する基準値を含む情報（以下、基準情報という。）を記憶する。本開示において、身体の部位と記載した内容は、道具の部分と置き換えることは、全ての段落に、記載する内容に適用してよい。

　関係基準情報には、モードとチェックポイントＩＤとに対応付けて、道具の部分と身体の部位との関係で表される基準に関する情報が含まれる。関係基準情報には、モードとチェックポイントＩＤとに対応付けて、一つ以上の部分と部位において、移動速度、移動距離、角度等から得られる情報が含まれる。関係基準情報には、たとえば、モードがバッティングの場合、ボールをミートした時点でのバットの先端の移動速度と、バットとバットを持つ利き腕からなる角度など、が基準情報として含まれる。

　評価条件情報記憶部１３５は、評価を行うための情報（以下、評価条件情報という。）を記憶する。図６は、評価条件情報記憶部１３５に記憶されている評価条件情報の構成例を示す図である。評価条件情報には、カテゴリ、条件、評価ランク、コメントが含まれている。カテゴリは、評価のカテゴリである。カテゴリとしては、たとえば、「筋力」、「球速」、「コントロール」などとすることができる。条件は、画像における道具の各部分の位置、向きまたは動き（時系列における位置の変化）など、また、身体の各部位の位置または動き（時系列における位置の変化）に対する条件である。たとえば、ウェイトリフティングの動きを分析する場合、バーベルを持ち上げる瞬間のチェックポイントについて、肘の角度や腕を伸ばす速度などに対する条件、また、バーベルを持ち上げて下ろす期間中のシャフトの動きや上下する速度などに対する条件を評価条件情報に設定することができる。また、ピッチングフォームを分析する場合、ボールをリリースするチェックポイントについて、肘の角度や腕の回線速度などに対する条件を評価条件情報に設定することができる。評価ランクは、上記条件が満たされた場合の評価値である。コメントは、上記条件が満たされた場合における、身体の姿勢や動きについての説明である。

　改善条件記憶部１３６は、改善策に係る情報（以下、改善策情報という。）を記憶する。図７は、改善条件記憶部１３６に記憶される改善策情報の構成例を示す図である。同図に示すように、改善策情報には、目的、カテゴリおよび条件に対応付けてアドバイスが含まれる。条件は、道具自体への条件（バーベルの重量等）、道具の使い方、身体条件（柔軟性など）に対する条件であってもよいし、身体の部位の位置や動き、角度、回転、ねじれに対する条件であってもよい。

　以上がサーバ装置１のデータ構成についての説明である。

　ここで、本実施の形態において、ユーザ情報取得部１１１と、画像情報取得部１１２と、前処理部１１３と、解析部１１４と、評価部１１５と、評価情報提示部１１６と、学習部１１７と、の各処理部の機能について示す。

　ユーザ情報取得部１１１は、ネットワーク２を介して、ユーザ端末３から、ユーザに関する情報を取得する。当該送受信における通信は、有線、無線のいずれでもよく、また、互いの通信が実行できるのであれば、どのような通信プロトコルを用いてもよい。なお、ユーザ情報は、前記サーバ装置１を用いて事業を行う事業者が、当該ユーザへのヒアリングやアンケート等で回収した情報を、事業者の端末からネットワーク２を介して、サーバ装置１に入力してもよいし、当該事業者がサーバ装置１に直接入力してもよい。

　画像情報取得部１１２は、ネットワーク２を介して、ユーザ端末３または撮影端末４から、ユーザの一連の動作を撮影した画像の情報を受け付ける。当該送受信における通信は、有線、無線のいずれでもよく、また、互いの通信が実行できるのであれば、どのような通信プロトコルを用いてもよい。また、サーバ装置１を用いる事業者が、ユーザ端末３または撮影端末４から、取り外し可能な記憶媒体を通じて、サーバ装置１に当該画像情報を移動させてもよい。

　前処理部１１３は、撮影端末４が取得した画像を、解析部１１４が解析するための前処理を行う。なお、当該前処理データは、学習部１１７が姿勢予測モデルを生成するために用いてもよい。

　ここで、撮影端末４で撮影する画像について説明する。撮影端末４は、ユーザの関節等にサインとしてマーカを配し、撮影端末４が備える複数のカメラで、当該ユーザの一連の動作を撮影する。撮影端末４は、当該マーカの位置を検出し、各関節（マーカを付けた部位）の位置を特定する。当該データはサーバ装置１に送信される。なお、モーションキャプチャシステムは、深度センサ及びカラーカメラを備えてもよく、映像からユーザの関節点の位置情報を自動的に抽出し、被験者の動作を検出してもよい。この場合、ユーザは、身体にマーカを配する必要はない。

　また、撮影端末４で撮影する画像には、以下に説明するラインをユーザの身体に配し、撮影端末４が備える複数のカメラで、当該ユーザの一連の動作を撮影したものを含んでもよい。当該ラインは、図８に一例を示すように、ユーザの腕や足、胴体などに配され、サインとして用いられる。当該ラインは直接肌に張り付けてもよいし、当該ラインの付いたタイツ等を着用することで、当該ラインを配してもよいが、これらの方法に限定されない。当該タイツ等は、着用するユーザの表皮の動きが伝わるように、身体にフィットするサイズであることが望ましく、更に、内側に一定の密着性や粘着性などを持つシリコン等の素材を配しておくとよい。ラインを配する身体の場所は、部位のねじれを観察する場所であり、例えば、関節と関節の間（腕で言えば、上腕、前腕、手関節より先の部分で手指を含む）や、首回り、腰回りなどであるが、これらの部位に限定されない。ラインの色は一般的な画像処理技術で認識しやすい色であれば何色でもよく、ラインの色を１本おきに変更したり、ライン自体の太さを１本おきに変更したりしてもよい。ラインは、部位の外側、内側、またそれらの中間地点の少なくとも４か所に配することが望ましいが、これらに限定されない。撮影端末４に含まれる複数のカメラで、当該ラインを配したユーザの一連の動作を撮影する。図８は、一例として、腕を曲げた状態、図９は、力こぶを作った状態で、ラインがどのように見えるかを示した図である。図８では、図示はしていないが、手のひらの面が手前を向いており、また、図９では力こぶを作るために手のひらの面がユーザの身体の方を向いているため、手首をひねる動作が加わり、その様子をラインのねじれとして観察（手首付近のライン１５１、ライン１５２、ライン１５３は裏側に回るため画像から消え、新たにこれまで画像に表れていなかったライン１５４が現れる）することができるようになる。撮影端末４は、当該ラインの位置を検出し、各部位のねじれを特定する。当該データはサーバ装置１に送信される。

　更に、撮影端末４で撮影する画像には、身体にマーカとラインを併せて配したユーザの一連の動作の画像を含んでいてもよい。

　前処理部１１３は、撮影端末４から送信され、画像情報記憶部１３２が記憶する、ユーザの一連の動作における各マーカの座標の情報を含むデータをもとに、各関節を繋ぐボーンを生成する。次に、前処理部１１３は、図１０に示すように、各関節（１００１ａ、１００１ｂ、１００１ｃ）を繋ぐボーン（１００２ａ、１００２ｂ）の中点（１００３ａ、１００３ｂ）を取り、当該中点を通り、当該ボーンと垂直に直行する面において、仮想の座標点（１００４ａ、１００４ｂ、１００４ｃ、１００４ｄ、１００４ｅ、１００４ｆ、１００４ｇ、１００４ｈ）を複数点生成する。図１０では、一例として仮想の座標点を４点ずつ生成している。

　解析部１１４は、画像情報記憶部１３２に記憶される画像情報または、前処理データ記憶部１３３に記憶される前処理データを解析し、ユーザの姿勢を解析する。

　解析部１１４は、画像情報を解析して、身体の各部位の特徴量を抽出し、各部位の、画像における位置を特定する。なお、解析部１１４による画像解析の手法については一般的なものを採用するものとして、ここでは詳細な説明を省略する。解析部１１４は、フレームごとまたはキーフレームごとに画像情報を解析するようにしてもよいし、チェックポイントごとに画像情報を解析するようにしてもよいし、ランダムなタイミングで解析するようにしてもよい。このことにより、解析部１１４は、各部位の動きを３次元的に解析する。

　解析部１１４はまた、チェックポイントＩＤごとに、画像情報から抽出した各部位の位置と、基準値情報記憶部１３４に記憶されている位置基準情報などとを比較し、最も近い時点をチェックポイントの時点として特定する。

　また、解析部１１４は、前処理部１１３が前処理をした、前記仮想の座標点の位置を解析することで、身体部位の３次元回転座標（Ｒｏｌｌ、Ｐｉｔｃｈ、Ｙａｗ）を解析し、前記画像情報から、ユーザの姿勢を解析する。例えば、解析部１１４は、投球においてボールが手から離れる直前と直後で、肘から手首にかけての部位がどのように回転するか、などを解析する。これにより、各部位を剛体と見做した場合の、各部位の回転の動き（３次元回転）を解析することができる。

　また、解析部１１４は、前記ラインを解析することで、各部位のねじれを導出してもよい。例えば、解析部１１４は、投球においてボールが手から離れる直前と直後で、肘から手首にかけての部位において、肘に近い部分と手首に近い部分がどのようにねじれるか、などを解析する。これにより、各部位は単なる剛体ではなく、筋肉と骨格からなる身体の部位として解析することとなる。

　また、解析部１１４は、後述する学習部１１７によって生成された姿勢予測モデルをもとに、ユーザ端末３で撮影された画像情報を入力情報とし、各部位の３次元回転、または各部位のねじれを解析してもよい。

　また、解析部１１４は、画像情報取得部１１２が取得した画像から、前処理部１１３の処理を介さず、部位の位置座標の特定と３次元回転座標を解析してもよい。たとえば、ユーザ端末３がＲＧＢカメラであり、撮影端末４がモーションキャプチャである場合に、解析部１１４はユーザ端末３で撮像した画像情報を解析して、身体の各部位の特徴量を抽出し、各部位の、画像における位置座標を特定する。解析部１１４は、当該部位の位置座標情報を、撮影端末４から得られた画像から解析した当該部位の位置座標情報によってキャリブレーションを行い、画像座標系における各部位の奥行きを導出し、３次元回転座標を解析する。

　評価部１１５は、画像情報に基づいてユーザの身体部位の動きを評価する。本実施形態では、評価部１１５は、画像情報から特定された身体の部位の各部分の位置、部位の動き、部位同士が形成する角度、部位の回転、部位のねじれのいずれかが満たす条件を含む評価条件情報を評価条件情報記憶部１３５から検索し、条件が満たされた評価条件情報があればそれに含まれる評価ランクおよびコメントを取得する。なお、評価部１１５は、当該部位の動き、部位の回転、部位のねじれ等を評価して、身体運動の回数をカウントしてもよい。

　評価部１１５は、画像情報に基づいてユーザの身体部位の動きを評価する。本実施形態では、評価部１１５は、画像情報から特定された身体の各部位または道具の各部分の位置、部位、部分の動き、部位同士、部分同士、部位と部分が形成する角度、部位、部分の回転、部位、部分、部位と部分の関係におけるねじれのいずれかが満たす条件を含む評価条件情報を評価条件情報記憶部１３５から検索し、条件が満たされた評価条件情報があればそれに含まれる評価ランクおよびコメントを取得する。

　評価情報提示部１１６は、評価情報をユーザ端末３に送信する。評価情報提示部１１６は、解析部１１４が特定した動画の時間軸における時点と各部位の位置と、各部位の動きと、部位同士が形成する角度と、各部位の回転と、各部位のねじれを含む、位置情報を生成する。

　評価情報提示部１１６は、評価部１１５が取得した評価ランクおよびコメントについて、部位の位置が条件を満たす場合には、時点、部位および姿勢値と、評価ランクおよびコメントとを含む姿勢情報を生成する。評価情報提示部１１６は、評価部１１５が取得した評価ランクおよびコメントについて、部位の動き（時系列における位置の変化）が条件を満たす場合には、時点、部位および姿勢値のリストと、評価ランクおよびコメントとを含む動き情報を生成する。評価情報提示部１１６は、評価部１１５が取得した評価ランクおよびコメントについて、部位同士が形成する角度の動き（時系列における位置の変化）が条件を満たす場合には、時点、部位および姿勢値のリストと、評価ランクおよびコメントとを含む角度情報を生成する。評価情報提示部１１６は、評価部１１５が取得した評価ランクおよびコメントについて、部位の回転が条件を満たす場合には、時点、部位および姿勢値のリストと、評価ランクおよびコメントとを含む回転情報を生成する。評価情報提示部１１６は、評価部１１５が取得した評価ランクおよびコメントについて、部位のねじれが条件を満たす場合には、時点、部位および姿勢値のリストと、評価ランクおよびコメントとを含むねじれ情報を生成する。

　また、評価情報提示部１１６は、解析部１１４が解析した、各チェックポイントに対応する時点と、当該チェックポイントを示すチェックポイントＩＤとを含むチェックポイント情報を生成する。評価情報提示部１１６は、生成した位置情報、姿勢情報、動き情報、角度情報、開店情報、評価情報およびチェックポイント情報を含む評価情報を作成してユーザ端末３に送信する。なお、評価部１１５および評価情報提示部１１６は、本発明のコメント出力部に該当しうる。

　評価情報提示部１１６は、評価情報と改善策情報のいずれかまたは両方を、ユーザ端末３に送信する。評価情報提示部１１６は、ユーザ端末３から評価情報、改善策情報のいずれかまたは両方のリクエストを受信し、それらリクエストに含まれているモードおよび目的に対応する改善策情報のうち、ユーザ情報に含まれているユーザの身体情報や、解析部１１４が特定した各部分や各部位の位置や向き、動き等が条件を満たされるものを検索する。評価情報提示部１１６は、検索した改善策情報のアドバイスを取得し、目的およびアドバイスを設定した改善策情報を作成し、作成した改善策情報をユーザ端末３に応答する。評価情報提示部１１６は、また、基準情報に含まれている各部分や各部位の位置や向き、速度、角度等を改善策情報に含めて送信する。なお、評価情報提示部１１６は、当該リクエストが無くても、評価情報と基準値を基に改善策を検索してもよく、当該改善策を評価情報提示部１１６がユーザ端末３に送信してもよい。

　評価情報提示部１１６は、評価情報をユーザ端末３に送信する。評価情報提示部１１６は、解析部１１４が特定した動画の時間軸における時点と各部位の位置とを含む位置情報を生成する。評価部２１３が取得した評価ランクおよびコメントについて、部位の位置が条件を満たす場合には、時点、部位および姿勢値と、評価ランクおよびコメントとを含む姿勢情報を生成し、部位の動き（時系列における位置の変化）が条件を満たす場合には、時点、部位および姿勢値のリストと、評価ランクおよびコメントとを含む動き情報を生成する。また、評価情報提示部１１６は、解析部１１４が解析した、各チェックポイントに対応する時点と、当該チェックポイントを示すチェックポイントＩＤとを含むチェックポイント情報を生成する。評価情報提示部１１６は、生成した位置情報、姿勢情報、動き情報およびチェックポイント情報を含む評価情報を作成してユーザ端末３に送信する。なお、評価部１１５および評価情報提示部１１６は、本開示のコメント出力部に該当しうる。

　学習部１１７は、ユーザの姿勢を推測する学習モデルを生成する。学習部１１７は、撮影端末４で撮像したユーザの一連の動作を含む映像と、解析部１１４が解析した、各部位の位置、動き、角度、回転、ねじれのデータを教師データとし、当該教師データを用いて、ユーザ端末３で撮影した、ユーザの一連の動作を含む画像を入力情報とし、ユーザの姿勢（各部位の位置、動き、角度、回転、ねじれ）に関する値を出力とする学習モデルを生成する。

　図１１を用いて、本実施形態の代表的な処理の流れを説明する。ユーザ情報取得部１１１がユーザ情報を受け付ける（１００１）。画像情報取得部１１２が画像情報を受け付ける（１００３）。前処理部１１３が、当該画像情報を前処理することにより、仮想の座標点を生成する（１００４）。解析部１１４が、画像情報から部位を特定し、部位の動きを解析する（１００４）。更に、解析部１１４は、当該下層の座標点の情報をもとに、部位の回転を解析する（１００５）。更に、解析部１１４は、当該画像情報から、部位のねじれを解析する（１００６）。評価部１１５は、部位の位置、動き、回転、ねじれ等を、基準値と比較して評価する（１００７）。評価情報提示部１１６は、評価結果をユーザに提示する（１００８）。

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　また、本実施形態について説明したが、上記実施形態は本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。本発明は、その趣旨を逸脱することなく、変更、改良され得るとともに、本発明にはその等価物も含まれる。

　たとえば、本実施形態では、サーバ装置１において画像の解析を行うものとしたが、これに限らず、ユーザ端末３において画像の解析を行い、各部位の位置関係、角度、回転、ねじれを特定するようにしてもよい。

　また、本実施形態では、身体の部位の位置は２次元の画像上の位置であることを想定したが、これに限らず、３次元の位置としてもよい。たとえば、ユーザ端末３が、カメラに加えてデプスカメラを備えている場合に、サーバ装置１は、カメラからの画像と、デプスカメラからの深度マップとに基づいて、身体の部位の３次元の位置を特定することができる。また、たとえば、サーバ装置１は、２次元画像から３次元を推定して、身体の部位の３次元の位置を特定してもよい。なお、ユーザ端末３が備えるカメラに代えてデプスカメラを設けるようにし、サーバ装置１は、デプスカメラからの深度マップのみから３次元の位置を特定することも可能である。この場合、ユーザ端末３から画像データとともに、または画像データに代えて深度マップをサーバ装置１に送信するようにし、サーバ装置１の解析部１１４が３次元の位置を解析するようにすることができる。

　また、本実施形態では、運動中のユーザの身体を撮像した画像がユーザ端末３からサーバ装置１に送信されるものとしたが、これに限らず、ユーザ端末３において画像から特徴量を抽出し、特徴量をサーバ装置１に送信するようにしてもよいし、ユーザ端末３が特徴量に基づいて身体の部位を推定し、当該部位の絶対的な位置（画像のＸＹ座標上の位置としてもよいし、基準位置（たとえば、地面や足先、頭、身体の重心など）からの実寸での距離としてもよいし、その他の任意の座標系での位置とすることもできる。）または複数部位間の相対的な位置関係を取得し、これらの絶対的な位置や相対的な位置関係をサーバ装置１に送信するようにしてもよい。

　また、本実施形態では、改善策情報にはサーバ装置１側で準備されたコンテンツが提供されるものとしたが、これに限らず、たとえば、サーバ装置１は、基準値を含めるようにして、基準値に基づく正しい動きや姿勢（各部位の位置や角度、回転、ねじれなど）となる印やボーンを動画または動画から抽出した静止画に重畳して表示するようにしてもよい。これにより、どのような動きや姿勢とするべきかを容易に把握することができる。

　また、本実施形態では、サーバ装置１は、身体の部位の位置または動き（経時的な位置の変化）、部位同士が形成する角度、回転、ねじれ等について評価するものとしたが、これに限らず、サーバ装置１は、運動に用いる道具の部分の位置又は動き（経時的な位置の変化）、道具の部分同士、または身体の部位と道具の部位が形成する角度、道具の部分の回転、ねじれ等を評価してもよく、更に、ユーザが装着している道具の位置を特定して評価するようにしてもよい。

　また、本実施形態では、改善策については動作の改善の方策や、トレーニング方法に関するアドバイス等のコンテンツを提供するものとしたが、たとえば、サーバ装置１は、道具のレコメンデーションを行うようにしてもよい。この場合、サーバ装置１は、ユーザの身体情報（身長、体重等）に対応付けて、道具と当該道具のサイズ（長さ等）の基準値を記憶しておき、画像データからユーザが使用している道具の特徴量を抽出して道具の形状を特定し、当該形状と身体情報に含まれるユーザのサイズ（たとえば身長等）に基づいて道具の大きさを推定し、推定した道具の大きさと、基準値との差が所定の閾値以上であれば、基準値のサイズの道具をレコメンドすることができる。さらに、道具自体への条件（バーベルの重量等）、道具の使い方、身体条件（柔軟性など）、道具の部位の位置や向き、動きなどの情報から、目的に応じた道具をレコメンドしてもよい。

　また、本実施形態では、改善策についてはアドバイス等のコンテンツを提供するものとしたが、たとえば、サーバ装置１は、行っている身体運動を中断させてもよい。この場合、サーバ装置１は、ユーザの身体情報（目的、身長、体重等）に対応付けて、身体運動を中断すべき基準値を記憶しておき、画像データからユーザが行っている身体運動の回数や速度など（例えば、バーベルを持ち上げるスピードが極端に落ちてしまう、また、一度に行う回数が多すぎるなど）が基準値から外れた場合に、身体運動を中断させる。この場合、ユーザ端末３に対して中止するようにコメントを出してもよいし、画面を消すなどディスプレイの表示を変化させることによってユーザに知らせてもよいし、アラート音などの音を出してもよいし、バイブレーションによってユーザに知らせてもよい。

　また、本実施形態では、改善策についてはアドバイス等のコンテンツを提供するものとしたが、たとえば、サーバ装置１は、病気や怪我の判定やその改善に向けた身体運動を提示してもよい。この場合、サーバ装置１は、前記身体情報にユーザが入力した症状や、評価情報から、ユーザが発症していると想定される病気や怪我の候補を抽出し、絞り込みのためのスクリーニングテストを提示する。ユーザがスクリーニングテストを行い、病名や怪我の場所や程度が絞り込めた段階で、サーバ装置１は、医師の診察を受けることや、改善に向けた身体運動、または身体運動を行うための道具や、食事などの物品のレコメンドなどを行ってもよい。

　また、道具の部分の位置を推定することにより、サーバ装置１は、道具のスピード、加速度、移動距離、軌道等を推定することができる。また、サーバ装置１は、時系列での道具の位置の変化のパターンを抽出することにより、パターンの回数を、道具を使った動作の回数として推定することができる。

　また、本実施形態では、運動の評価を行うものとしたが、これに限らず、ある姿勢または動きを検出した場合に、その動作に対する課題を提案するようにしてもよい。この場合、サーバ装置１は、ひとつまたは一連の姿勢または動きに対応付けて、評価コメントに代えて、課題を記憶しておき、当該課題を出力すればよい。

　また、本実施形態では、運動の評価を行うものとしたが、これに限らず、サーバ装置１は、ある道具の動き、道具の向き、姿勢または身体の部位の動きを検出した場合に、行うべきトレーニング、リハビリ、演奏、またはその準備段階であるストレッチや筋力トレーニング、姿勢など、目的等に応じて身体運動を改善する内容を提示するようにしてもよい。この場合、サーバ装置１は、ひとつまたは一連の道具の部分の動き、道具の部分の向き、身体の姿勢または身体の部位の動きに対応付けて、評価コメントに代えて、トレーニング等の実施内容を記憶しておき、当該内容を出力すればよい。

　また、本実施形態では、運動の評価を行うものとしたが、これに限らず、サーバ装置１は、ユーザが行った動作を自動検出するようにすることもできる。この場合、サーバ装置１は、たとえばシュートやパスなどの所定の動作を行う道具の各部分の位置や姿勢（身体の各部位の位置）を基準情報として記憶しておき、画像から解析した道具の部分や身体の部位の位置と基準情報とを比較して、画像中のユーザが行った動作を特定することができる。

　また、本実施形態では、サーバ装置１は、過去に撮像した画像を解析して運動の評価を行うものとしたが、これに限らず、リアルタイムに解析処理を行い、所定の動作を検出した場合に、次にとるべき戦術をレコメンドするようにしてもよい。この場合、サーバ装置１は、姿勢または動きに対応付けて、評価コメントに代えて戦術を記憶しておき、リアルタイムに戦術を出力すればよい。

　また、本実施形態では、評価部１１５が評価した結果を、評価情報提示部１１６は、ユーザの支援者（訓練に関するトレーナ、コーチ、指導者でもよいし、介護者、理学療法士、医療従事者等のリハビリ関係者等も含む）が使用する支援者端末に提示してもよい。ユーザ端末３および支援者の端末は、例えば眼鏡型、コンタクトレンズ型、帽子型、ＨＭＤ（ヘッドマウントディスプレイ）などの形をしていてもよく、ユーザ端末３または支援者の端末が備える撮像機能によりユーザまたは支援者の視野に近い範囲を撮像し、撮像した画像は通信ネットワーク２を介してサーバ装置１に送られる。評価部１１５が、当該画像の処理を行い、その結果は、通信ネットワーク２を介して支援者の端末またはユーザ端末３に送られる。支援者の端末は、例えば、虚像投影方式、網膜投影方式、その他の方式、更に、脳波などの脳活動を利用して、文字・画像・映像等を脳への直接刺激によって感覚器を介さずに入力するＢＭＩ（ブレインマシンインターフェース）等のインタフェースを介して、情報を支援者またはユーザに対して出力する。この通信と処理を高速で行うことにより、支援者がユーザの身体運動を見ると、ほぼリアルタイムでユーザの身体運動の評価を確認することができる。また、ユーザもほぼリアルタイムに自身の身体運動の評価やグループ内評価を確認することができる。なお、支援者の視野においては、ユーザの身体運動は実像を見ており、評価部１１５が処理を行った結果が、支援者の端末を通じて、支援者が肉眼で見ている視野に重ねる形で、支援者が視認できる状態となってよい。さらに、支援者の端末がＨＭＤなどの場合は、支援者の端末が撮像した画像に、評価部１１５が処理を行った結果が重なる形で、支援者に提示されてもよい。

　また、本実施形態では、基準値は複数存在してよく、ユーザはその基準値を有償で選択してもよい。

　また、本実施形態では、基準値はプロ選手などの熟練者等の身体運動（道具を用いて行うものを含む）を基に作成したものを含んでもよい。

　また、本実施形態では、ユーザ端末３、撮影端末４、前記支援者の端末は眼鏡型などウェアラブル端末でもよく、当該ウェアラブル端末で撮像し、解析、評価を行った結果を、ウェアラブル端末に出力してもよいが、モバイル端末等のウェアラブルではないユーザ端末３、撮影端末４，前記支援者の端末が同時に存在してもよく、当該ウェアラブルではない端末にも解析、評価を行った結果を表示してもよい。

　本明細書において説明した装置は、単独の装置として実現されてもよく、一部または全部がネットワークで接続された複数の装置（例えばクラウドサーバ）等により実現されてもよい。例えば、サーバ装置１のプロセッサ１０１および記憶装置１０３は、互いにネットワークで接続された異なるサーバにより実現されてもよい。

　本明細書において説明した装置による一連の処理は、ソフトウェア、ハードウェア、およびソフトウェアとハードウェアとの組合せのいずれを用いて実現されてもよい。本実施形態に係るサーバ装置１の各機能を実現するためのコンピュータプログラムを作製し、ＰＣ等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリ等である。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信されてもよい。

　また、本明細書においてフローチャート図を用いて説明した処理は、必ずしも図示された順序で実行されなくてもよい。いくつかの処理ステップは、並列的に実行されてもよい。また、追加的な処理ステップが採用されてもよく、一部の処理ステップが省略されてもよい。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　１　　　　サーバ装置
　２　　　　ネットワーク
　３　　　　ユーザ端末
　４　　　　撮影端末
　１０１　　プロセッサ
　１０２　　メモリ
　１０３　　記憶装置
　１０４　　通信インタフェース
　１０５　　入力装置
　１０６　　出力装置
　１１１　　ユーザ情報取得部
　１１２　　画像情報取得部
　１１３　　前処理部
　１１４　　解析部
　１１５　　評価部
　１１６　　評価情報提示部
　１１７　　学習部
　１３１　　ユーザ情報記憶部
　１３２　　画像情報記憶部
　１３３　　学習用データ記憶部

Claims

　ユーザの姿勢を推定する姿勢推定装置であって、
　ユーザの動作を含む動画像から当該ユーザの身体の部位を特定し、当該部位の回転を解析する解析部と、
　少なくとも１つの前記部位の回転に係る基準値を記憶する基準値記憶部と、
　前記画像における前記部位の回転および前記基準値を比較して前記動作の評価値を決定する評価部と
を備えることを特徴とする、姿勢推定装置。
　前記部位は関節を含み、
　前記関節を繋ぐボーンを生成し、前記関節の間の中点を取り、前記中点を通り、前記ボーンと垂直に直行する面において、仮想の座標点を複数点生成する前処理部と、
を備え、
　前記解析部は、前記仮想の座標点の位置を解析することで、前記ボーンの３次元回転座標を導出すること、
を特徴とする、請求項１に記載の姿勢推定装置。
　前記解析部は前記ユーザの身体に配したサインを含む一連の動作を含む画像を解析し、
　前記サインはラインを含み、
　前記解析部は前記ラインを解析し、前記部位のねじれを解析すること、
を特徴とする、請求項１または２に記載の姿勢推定装置。
　前記前処理部は、前記仮想の座標点を４点生成すること、
を特徴とする、請求項２に記載の姿勢推定装置。
　ユーザの姿勢を推定する姿勢推定システムであって、
　ユーザの動作を含む動画像から当該ユーザの身体の部位を特定し、当該部位の回転を解析する解析機能と、
　少なくとも１つの前記部位の回転に係る基準値を記憶する基準値記憶機能と、
　前記画像における前記部位の回転および前記基準値を比較して前記動作の評価値を決定する評価機能と
を備えることを特徴とする、姿勢推定システム。
　ユーザの姿勢を推定する姿勢推定方法であって、
　ユーザの動作を含む動画像から当該ユーザの身体の部位を特定し、当該部位の回転を解析する解析ステップと、
　少なくとも１つの前記部位の回転に係る基準値を記憶する基準値記憶ステップと、
　前記画像における前記部位の回転および前記基準値を比較して前記動作の評価値を決定する評価ステップと
を備えることを特徴とする、姿勢推定方法。