WO2022030439A1

WO2022030439A1 - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: WO2022030439A1
Application number: PCT/JP2021/028599
Authority: WO
Inventors: 靖宮島; 真吾山下; 一浩五十嵐
Original assignee: ハイパーダイン株式会社
Priority date: 2020-08-07
Filing date: 2021-08-02
Publication date: 2022-02-10
Also published as: JP6908312B1; US20230334693A1; JP2022030683A; EP4216150A1

Abstract

複数の対象オブジェクトのそれぞれに含まれる特徴点の空間的関係と複数の対象オブジェクトの間の意味情報とを関連付けた関係情報を記憶する記憶部２１０と、画像に含まれる複数の画像オブジェクトのそれぞれから抽出される特徴点の空間的関係と関係情報とに基づいて、複数の画像オブジェクトの間の意味関係を推定する意味推定部２３８と、を備える、情報処理装置２０。

Description

情報処理装置、情報処理方法及びプログラム

関連出願の相互参照

　本出願は、２０２０年８月７日に出願された日本特許出願番号２０２０－１３４８４７に基づくもので、ここにその記載内容を援用する。

　本発明は、情報処理装置、情報処理方法及びプログラムに関する。

　従来、画像に含まれる複数の画像オブジェクト（例えば、人又は物体の画像オブジェクト）の関係を推定する技術がある。

　例えば、特許文献１には、画像と、その画像に含まれる複数の物体間の関係とを対応付けた学習データに基づいて学習済みモデルを生成し、その学習済みモデルを用いて画像に含まれる物体間の関係を認識する技術が記載されている。

　また、特許文献２には、画像に含まれる人の領域及び物体の領域を検出し、人の姿勢とその人の周囲に存在する物体との位置関係に応じて、人の行動を判別する技術が記載されている。

特開２０１９－１０１９０７号公報特開２０１８－２０６３２１号公報

　しかしながら、特許文献１に記載の技術では、様々な物体間の関係を学習済みモデルに推定させるためには、それぞれの物体間の関係をモデルに学習させる必要がある。このため、特許文献１に記載の技術では、複数の物体について、学習していない未知の関係を推定できない。また、特許文献２に記載の技術では、人の領域に基づき行動が判別されるため、人の行動を詳細に判別することができない。このため、画像に含まれる人と物体の関係をより詳細に推定できる技術が求められていると考えられる。

　そこで、本発明は、画像に含まれる複数の画像オブジェクトについて、多様な関係をより詳細に推定することを可能とする情報処理装置、情報処理方法及びプログラムを提供することを目的とする。

　本発明の一態様に係る情報処理装置は、複数の対象オブジェクトのそれぞれに含まれる特徴点の空間的関係と複数の対象オブジェクトの間の意味情報とを関連付けた関係情報を記憶する記憶部と、画像に含まれる複数の画像オブジェクトのそれぞれから抽出される特徴点の空間的関係と関係情報とに基づいて、複数の画像オブジェクトの間の意味関係を推定する意味推定部と、を備える。

　この態様によれば、予め指定された関係情報に基づいて、意味関係が推定される。ユーザは、所望に応じた様々な関係情報を設定できるため、複数の画像オブジェクトについて、より多様な関係の推定が可能となる。また、複数の画像オブジェクトの間の関係の推定には、画像オブジェクトの特徴点が用いられるため、より詳細な関係の推定が可能となる。

　上記態様において、意味推定部は、画像オブジェクトに付帯する付帯情報に基づいて、複数の画像オブジェクトの間の意味関係を推定してもよい。

　この態様によれば、関係情報に加えて、意味関係の推定に画像オブジェクトに応じた情報が用いられるため、より詳細あるいは正確に意味関係を推定することが可能となる。

　上記態様において、複数の画像オブジェクトは、人の画像オブジェクトを含み、付帯情報は、人の年齢、性別、体格、筋力、運動能力、装備品又は携行品の少なくともいずれかに関する情報を含んでもよい。

　この態様によれば、人の画像オブジェクトに応じた付帯情報が用いられるため、より詳細あるいは正確に意味関係を推定することが可能となる。

　上記態様において、複数の画像オブジェクトは、人の画像オブジェクトを含み、付帯情報は、人の画像オブジェクトの特徴点に基づき推定される人の位置、体格、姿勢及び向きの少なくともいずれかに関する情報を含んでもよい。

　この態様によれば、実際の人の画像オブジェクトに応じた付帯情報が用いられるため、より詳細あるいは正確に意味関係を推定することが可能となる。

　上記態様において、複数の画像オブジェクトは、物体の画像オブジェクトを含み、付帯情報は、物体の重さ、材質、重量分布及び重心の少なくともいずれかに関する情報を含んでもよい。

　この態様によれば、物体の画像オブジェクトに応じた付帯情報が用いられるため、より詳細あるいは正確に意味関係を推定することが可能となる。

　上記態様において、複数の画像オブジェクトは、物体の画像オブジェクトを含み、付帯情報は、物体の画像オブジェクトの特徴点に基づき推定される物体の位置、大きさ、形状及び向きの少なくともいずれかに関する情報を含んでもよい。

　この態様によれば、実際の物体の画像オブジェクトに応じた付帯情報が用いられるため、より詳細あるいは正確に意味関係を推定することが可能となる。

　上記態様において、複数の画像オブジェクトは、人の画像オブジェクト及び物体の画像オブジェクトを含み、複数の画像オブジェクトの間の意味関係は、人による物体への動作、動作の目的又は物体が人に与える影響のうちの少なくともいずれかを含んでもよい。

　この態様によれば、より適切な意味関係を推定することが可能となる。

　上記態様において、複数のオブジェクトのそれぞれに含まれる特徴点は、第１ラベル情報が付与されている特徴点と、第１ラベル情報と特定の関係にある第２ラベル情報が付与された特徴点とを含み、意味推定部は、第１画像オブジェクトから抽出される第１ラベル情報が付与された特徴点と、第２ラベル情報が付与された第２画像オブジェクトの特徴点との空間的関係と関係情報とに基づいて、第１画像オブジェクトと第２画像オブジェクトの間の意味関係を推定してもよい。

　この態様によれば、特定の関係にある特徴点に基づいて意味関係が推定されるため、より正確に意味関係を推定することが可能となる。

　上記態様において、複数の画像オブジェクトは、人の画像オブジェクト及び物体の画像オブジェクトを含み、意味推定部により推定された人の画像オブジェクト及び物体の画像オブジェクトの間の意味関係が特定の意味条件を満たし、人の画像オブジェクトの特徴点に基づき推定される人の状態が特定の状態条件を満たす場合には、状態に応じた情報を生成する情報生成部を、さらに備えてもよい。

　この態様によれば、特定の条件を満たす画像オブジェクトに係る情報が生成されるため、ユーザが所望する情報が生成され易くなる。

　上記態様において、状態条件は、人の画像オブジェクトの特徴点に基づき推定される人の姿勢に関する条件を含み、情報生成部は、人の姿勢に応じた情報を生成してもよい。

　この態様によれば、ユーザは、画像に含まれる人の姿勢に関して、姿勢に応じた適切な情報を取得することが可能となる。

　上記態様において、状態条件は、人の画像オブジェクトの特徴点及び物体の画像オブジェクトに関する重さに関わる付帯情報に基づき推定される人にかかる負荷に関する条件を含み、情報生成部は、負荷に応じた情報を生成してもよい。

　この態様によれば、人にかかる負荷が所定の条件を満たす場合には、ユーザは、その負荷に関する適切な情報を取得することが可能となる。

　上記態様において、画像は、複数の画像オブジェクトを含み、意味推定部は、複数の画像オブジェクトのそれぞれについて意味関係を推定し、特定の条件に合致する意味関係に対応する画像オブジェクトの特徴点に関する、特定の条件に応じた情報を生成する特徴点情報生成部を、さらに備えてもよい。

　この態様によれば、画像に多くの画像オブジェクトが含まれる場合であっても、特定の条件を満たす画像オブジェクトに着目した情報を取得できる。

　本発明の他の態様に係る情報処理方法は、メモリ及びプロセッサを備える情報処理装置による情報処理方法であって、メモリが、複数の対象オブジェクトのそれぞれに含まれる特徴点の空間的関係と複数の対象オブジェクトの間の意味情報とを関連付けた関係情報を記憶することと、プロセッサが、画像に含まれる複数の画像オブジェクトのそれぞれから抽出される特徴点の空間的関係と関係情報とに基づいて、複数の画像オブジェクトの間の意味関係を推定することと、を含む。

　本発明の他の態様に係るプログラムは、コンピュータに、複数の対象オブジェクトのそれぞれに含まれる特徴点の空間的関係と複数の対象オブジェクトの間の意味情報とを関連付けた関係情報を記憶することと、画像に含まれる複数の画像オブジェクトのそれぞれから抽出される特徴点の空間的関係と関係情報とに基づいて、複数の画像オブジェクトの間の意味関係を推定することと、を実行させるためのプログラムである。

　本発明によれば、画像に含まれる複数の画像オブジェクトについて、多様な関係をより詳細に推定することを可能とする情報処理装置、情報処理方法及びプログラムを提供することができる。

第１実施形態に係る情報処理システムの構成概略図である。同実施形態に係る記憶部に記憶された関係情報リストの一例を示す図である。同実施形態に係る処理部の構成の一例を示す機能ブロック図である。同実施形態に係る撮像部が撮像する画像及び認識部の認識結果を示す図である。同実施形態に係る認識部が画像に基づき認識した画像オブジェクト及び抽出した特徴点に関する情報をリスト化した画像オブジェクトリストを示す図である。図５に示した２番の画像オブジェクトの付帯情報を表す付帯情報リストを示す図である。意味推定部が意味関係を推定した結果をリストにした意味関係リストを示す図である。本実施形態に係る情報処理装置が、画像に含まれる複数の画像オブジェクトの間の意味関係を推定する処理の流れを示すシーケンス図である。図８の意味推定処理の詳細を示すフローチャートである。第１実施形態に係る情報処理システムが意味推定ユニットによる意味推定に応じた情報を生成し、生成した情報を表示するまでの処理を示すフローチャートである。第２実施形態に係る情報処理装置が備える処理部の機能ブロック図である。同実施形態に係る意味推定ユニットの認識部が、第２実施形態に係る画像に含まれる画像オブジェクトを認識した結果を示す画像オブジェクトリストを示す図である。図１２に示した２番の画像オブジェクトの付帯情報を表す付帯情報リストを示す図である。第２実施形態に係る意味関係リストを示す図である。同実施形態に係る情報処理システムによる処理の流れを示すフローチャートである。本開示の一実施形態に係る入出力装置及び情報処理装置のハードウェア構成の一例を示す図である。

　添付図面を参照して、本発明の好適な実施形態について説明する。なお、各図において、同一の符号を付したものは、同一又は同様の構成を有する。

　［第１実施形態］
　図１を参照して、第１実施形態に係る情報処理システム１について説明する。本実施形態に係る情報処理システム１は、主として、入出力装置１０及び情報処理装置２０を備える。入出力装置１０及び情報処理装置２０は、通信ネットワーク１５を介して、互いに通信可能に接続されている。本実施形態では、情報処理装置２０は、クラウド上のサーバとして機能するものとする。

　通信ネットワーク１５は、各種の態様を取り得る。通信ネットワーク１５は、例えば、専用回線を通して相互に接続するデータ伝送ネットワーク（ＷＡＮ）又はローカル・エリア・ネットワーク（ＬＡＮ）等であってよい。本実施形態では、通信ネットワーク１５は、公共ネットワークの代表のインターネットであるものとして説明する。

　入出力装置１０は、情報の入力及び出力等を行ったり、情報処理装置２０と各種の情報の送受信を行ったりできる。入出力装置１０が有する機能は、撮像部１００、入力部１０２、出力部１０４、通信部１０６、制御部１０８及び記憶部１１０が協働することにより実現される。

　撮像部１００は、ＲＧＢカメラ、赤外線カメラ、ＴｏＦ（Ｔｉｍｅ　ｏｆ　Ｆｌｉｇｈｔ）カメラ又はレーザーレンジファインダ等の各種の撮像装置を含む。撮像部１００は、静止画像または動画像などの画像を撮像する。撮像部１００が撮像する画像は、２次元又は３次元の画像であって良いが、本実施形態では、撮像される画像は２次元の画像であるものとする。

　また、本実施形態では、撮像部１００は、ゴルフ場の画像を撮像する。例えば、撮像部１００は、１人又は複数のゴルフプレイヤ等を含む画像を撮像する。撮像部１００は、撮像した画像を記憶部１１０に記憶させてもよいし、撮像した画像を制御部１０８に伝送してもよい。

　入力部１０２は、ユーザの操作に応じて各種の入力情報を生成し、生成した入力情報を制御部１０８に伝送する。

　出力部１０４は、各種の情報を出力できる。具体的には、出力部１０４は、各種の情報を表示できる表示部及び各種の音声を出力できる音声出力部を備える。例えば、出力部１０４の表示部は、撮像部１００により撮像された画像及び情報処理装置２０による演算結果等を表示できる。あるいは、出力部１０４の音声出力部は、情報処理装置２０による演算結果等に応じて、音声を出力できる。

　通信部１０６は、各種の情報を他の装置と送受信できる。例えば、通信部１０６は、通信ネットワーク１５を介して、情報処理装置２０と各種の情報を送受信できる。例えば、通信部１０６は、撮像部１００により撮像された画像を情報処理装置２０に送信できる。あるいは、通信部１０６は、情報処理装置２０から各種の情報処理の結果（例えば、意味関係の推定結果及び推定結果に基づき生成された情報等）を受信できる。通信部１０６は、受信した情報を制御部１０８に伝送する。

　制御部１０８は、入出力装置１０が備える各種の機能を制御する。具体的には、制御部１０８は、出力部１０４の出力及び通信部１０６の送受信等を制御する。例えば、制御部１０８は、出力部１０４による画面の表示及び音声の出力等を制御できる。また、制御部１０８は、記憶部１１０に記憶されている各種の情報を用いて、各種の機能を制御できる。

　記憶部１１０は、各種の情報を記憶する。例えば、記憶部１１０は、撮像部１００が撮像した画像及び情報処理装置２０の処理結果等を記憶する。記憶部１１０が記憶している各種の情報は、必要に応じて制御部１０８により用いられる。

　情報処理装置２０は、各種の情報処理を実行する。本実施形態では、情報処理装置２０は、入出力装置１０から画像を受信し、その画像に含まれる複数の画像オブジェクトの間の意味関係を推定し、推定結果に応じた情報を入出力装置１０に送信できる。情報処理装置２０が有する機能は、通信部２００、記憶部２１０及び処理部２２０が協働することにより実現される。

　通信部２００は、各種の情報を他の装置と送受信できる。例えば、通信部２００は、通信ネットワーク１５を介して、入出力装置１０から画像を受信できる。あるいは、通信部２００は、通信ネットワーク１５を介して、情報処理装置２０による情報処理の結果を入出力装置１０に送信できる。

　記憶部２１０は、各種の情報を記憶する。例えば、記憶部２１０は、処理部２２０による情報処理に用いられる情報（画像等）及び処理部２２０による情報処理の結果等を記憶する。記憶部２１０が記憶している各種の情報は、必要に応じて処理部２２０により参照される。

　また、記憶部２１０は、各種の対象オブジェクトに付帯する付帯情報を記憶してよい。対象オブジェクトは、画像に含まれ得るオブジェクトであり、例えば人あるいは各種の物体等を示すオブジェクトである。付帯情報は、処理部２２０により参照され、各種の情報処理に用いられてよい。

　付帯情報は、例えば、対象オブジェクトが特定の人のオブジェクトである場合には、特定の人の年齢、性別、体格、筋力、運動能力、装備品又は携行品等に関する情報を含んでよい。また、対象オブジェクトが物体のオブジェクトである場合には、物体の重さ、材質、重量分布及び重心等に関する情報を含んでよい。このように、付帯情報は、画像のみに基づいて正確に推定できない情報を含み得る。

　また、記憶部２１０は、画像に含まれる画像オブジェクトから特徴点を抽出するための情報を記憶してよい。ここで、特徴点は、画像オブジェクトに含まれる特徴的な部分を示す情報である。例えば、記憶部２１０は、画像に含まれる画像オブジェクトの特徴点に関する情報がアノテーションされた画像を学習データとして、所定の機械学習アルゴリズムに基づき構築された学習済みモデルを記憶してよい。特徴点に関する情報は、例えば、その特徴点を含む画像オブジェクトの種類（例えば、人あるいは物体等）又はラベル情報（人の手、肩又は足等）を含んでよい。

　また、記憶部２１０は、各種の学習済みモデルを記憶してよい。例えば、学習済みモデルは、抽出された特徴点に基づいて、人の姿勢を推定するように学習された学習済みモデルであってもよい。

　また、記憶部２１０は、複数の対象オブジェクトのそれぞれに含まれる特徴点の空間的関係と複数の対象オブジェクトの間の意味情報とを関連付けた関係情報を記憶する。空間的関係は、例えば、位置関係、距離関係、方向関係及び密度関係等を含んでよい。ここで、密度関係は、画像における特徴点の密度を規定する情報であり、例えば、所定の範囲にいくつの特徴点が存在するかを規定する情報であってよい。

　また、複数の対象オブジェクトの間の意味情報は、複数の対象オブジェクトの間の意味を定義した情報である。例えば、複数の対象オブジェクトの間の意味情報は、人による物体への動作（例えば、物体の使用方法等）、動作の目的又は物体が人に与える影響のうちの少なくともいずれかを含んでよい。例えば、意味情報は、特定の画像オブジェクトが他の画像オブジェクトに何を行っているのかを示す情報（動作の目的）であり得る。

　ここで、対象オブジェクトの数が３つである場合を例に説明する。３つの対象オブジェクトのそれぞれを第１オブジェクト、第２オブジェクト及び第３オブジェクトと称する。また、第１オブジェクトは少なくとも１つの第１特徴点を含み、第２オブジェクトは少なくとも１つの第２特徴点を含み、第３オブジェクトは少なくとも１つの第３特徴点を含むものとする。この場合、関係情報は、これらの特徴点（すなわち、第１特徴点、第２特徴点及び第３特徴点）の空間的関係と、３つの対象オブジェクト（すなわち、第１オブジェクト、第２オブジェクト及び第３オブジェクト）の間の意味情報を関連付けた情報を含む。なお、ここでは、対象オブジェクトの数が３つである例について説明したが、対象オブジェクトの数は２つであってもよいし、４つ以上であってもよい。以下の説明では、主に、対象オブジェクトの数が２つである例を説明する。

　図２を参照して、複数の対象オブジェクトの空間的関係及び意味情報の具体例と、それらの情報の関係について説明する。図２は、本実施形態に係る記憶部２１０に記憶された関係情報リスト２１２の一例を示す図である。図２に示す関係情報リスト２１２には、Ｎｏ１～Ｎｏ４の４つの関係定義が含まれている。それぞれの関係定義は、対象オブジェクトの種類、対象オブジェクトの特徴点のラベル、複数の画像オブジェクトの空間的関係及び複数の画像オブジェクトの間の意味情報を含んでいる。また、それぞれの関係定義は、空間的関係と意味情報とを関連付ける関係情報である。以下では、Ｎｏ１～Ｎｏ４の関係定義を、第１～第４関係定義と称する。

　これらの関係定義は、後述するように、画像に含まれる複数の画像オブジェクトの間の意味関係を推定するために用いられる。複数の画像オブジェクトの間の意味関係は、複数の画像オブジェクトの間の関係を意味づける情報である。本実施形態では、画像に含まれる複数の画像オブジェクトの空間的関係が、関係定義に含まれる空間的関係を満たす場合には、その関係定義に含まれる意味情報に基づき意味関係が推定される。意味関係の推定の詳細については、図３を参照して後述する。ここでは、関係情報リスト２１２の内容について説明する。

　例えば、第１関係定義は、人の対象オブジェクトとゴルフクラブの対象オブジェクトとの関係定義である。具体的には、第１関係定義は、人の右手及び左手の特徴点とゴルフクラブのグリップの特徴点との空間的関係と、人の対象オブジェクト及びゴルフクラブの対象オブジェクトの間の意味情報とを関連付けている。

　本実施形態に係る関係定義では、あるラベル情報が付与された特徴点と、そのラベル情報と特定の関係にある他のラベル情報が付与された特徴点の空間的関係が規定されている。第１関係定義の空間的関係では、ゴルフクラブのグリップの特徴点と、グリップに関係する人の右手及び左手の特徴点について規定されている。具体的には、第１関係定義の空間的関係は、第１関係定義に関わる全ての特徴点（すなわち、人の右手及び左手の特徴点と、ゴルフクラブのグリップの特徴点）が互いに近接していることを規定している。ここで、３つの特徴点が近接していることは、３つの特徴点の間の距離が所定値（例えば１０ｃｍ）以内であることであってよい。すなわち、第１関係定義の空間的関係は、第１関係定義に関わる３つ全ての特徴点の距離が、１０ｃｍ以内となっていることであってよい。なお、所定値は１０ｃｍ以内に限定されるものではなく、任意の距離を設定してよい。

　また、第１関係定義の意味情報は、「人がゴルフクラブを持っている」という情報である。したがって、第１関係定義は、右手、左手及びグリップのいずれの特徴点も近接していることは、人がゴルフクラブを持っていることを意味することを定義している。

　また、関係定義には、複数の空間的関係が含まれてよい。例えば、第２関係定義には、（ａ）人の右手、左手及びゴルフクラブのグリップのそれぞれの特徴点が互いに近接していることと、（ｂ）ゴルフクラブのヘッドの特徴点が人の頭の特徴点よりも上にあることとの２つの空間的関係が含まれている。これらの２つの空間的関係を、画像に含まれる複数の画像オブジェクトの空間的関係が満たす場合には、第２関係定義に含まれる意味情報「人がゴルフクラブを振りかぶっている」に基づいて、意味関係が推定される。

　また、第３関係定義は、人の対象オブジェクトと部品の対象オブジェクトとの関係定義であり、２つの空間的関係を含んでいる。第１～第３関係定義は、人の対象オブジェクトと物体の対象オブジェクトとの関係定義であるが、これに限定されるものではなく、関係定義は、例えば、物体の対象オブジェクトと物体の対象オブジェクトとの関係定義であってもよいし、人の対象オブジェクトと人の対象オブジェクトとの関係定義であってもよい。

　第４関係定義は、物体の対象オブジェクトと物体の対象オブジェクトとの関係定義である。具体的には、第４関係定義は、自動車の対象オブジェクトと自転車の対象オブジェクトとの関係定義である。具体的には、第４関係定義では、自動車の屋根の特徴点と、自転車の前輪及び後輪の特徴点との空間的関係と、自動車及び自転車の間の意味情報とが関連付けられている。

　第４関係定義の空間的関係は、自転車の前輪及び後輪の特徴点が、自動車の屋根の特徴点に近接していることである。また、第４関係定義の意味情報は、「自転車が自動車の屋根に搭載されている」ことである。

　なお、関係情報リスト２１２に含まれ得る意味情報は、図２に示す例に限定されるものではない。各種の意味情報が、空間的関係に関連付けられて定義され得る。例えば、意味情報は、「人がゴルフクラブでボールを打ち抜いた」等の情報であってよい。

　その他、対象オブジェクトの種類が人及びゴルフクラブである場合には、意味情報は、「人がアプローチしようとしている」という情報であってよい。この意味情報に関連付けられる空間的関係は、例えば、人の左右の手の特徴点とゴルフクラブのグリップ及びシャフト上部の特徴点とが近接しており、ゴルフクラブが垂直方向に伸びている（より具体的には、ゴルフクラブのシャフトの伸びる方向が、人が立っている方向と平行になっている。）ことであってよい。

　あるいは、意味情報は、「人がテイクバックしている」という情報であってよい。この意味情報に関連付けられる空間的関係は、人の左右の手の特徴点とゴルフクラブのグリップ及びシャフト上端の特徴点とが近接しており、ゴルフクラブのヘッドの特徴点が下方を起点に弧を描きつつ上方に移動していることであってよい。さらに、意味情報が「人がダウンスイングしている」という情報である場合には、その意味情報には、人の左右の手の特徴点とゴルフクラブの上端の特徴点とが近接しており、ゴルフクラブのヘッドの特徴点が弧を描きつつ下方に移動していることを示す空間的関係が関連付けられてよい。

　図１に戻って、情報処理装置２０の処理部２２０について説明する。処理部２２０は、各種の情報処理を実行する。処理部２２０は、記憶部２１０に記憶されている各種の情報（例えば、画像、付帯情報、関係情報リスト及び各種の学習済みモデル等）を用いて、各種の情報処理を実行できる。また、処理部２２０は、実行した情報処理の結果（例えば、意味関係の推定結果等）を通信部２００に伝送できる。

　図３は、本実施形態に係る処理部２２０の構成の一例を示す機能ブロック図である。処理部２２０は、図３に示すように、意味推定ユニット２３０及び生成ユニット２４０を備える。

　意味推定ユニット２３０は、画像に含まれる画像オブジェクトを認識したり、画像に含まれる複数の画像オブジェクトの意味推定を行ったりできる。意味推定ユニット２３０が実行する処理は、画像取得部２３２、認識部２３４、付帯情報推定部２３６、姿勢推定部２３７及び意味推定部２３８が協働することにより実現される。

　画像取得部２３２は、各種の画像を取得し、取得した画像を認識部２３４に伝送できる。画像取得部２３２は、例えば、撮像部１００が撮像した画像を取得してもよいし、情報処理装置２０の記憶部２１０に記憶されている画像を取得してもよい。また、撮像部１００が動画像を撮像したり、記憶部２１０に動画像が記憶されていたりする場合には、画像取得部２３２は、動画像に含まれる特定のタイミングの静止画像を取得してよい。本実施形態では、画像取得部２３２は、撮像部１００が撮像した静止画像を取得する。

　また、本実施形態では、画像取得部２３２が取得する画像には、２人以上の人の画像オブジェクトが含まれており、ゴルフクラブを持っている人の画像オブジェクトが含まれているものとする。

　認識部２３４は、画像に基づいて、各種の情報を抽出あるいは認識し、抽出あるいは認識した結果を付帯情報推定部２３６、姿勢推定部２３７及び意味推定部２３８に伝送できる。例えば、認識部２３４は、画像に含まれる特徴点を抽出できる。具体的には、認識部２３４は、記憶部２１０に記憶されている、所定の機械学習アルゴリズムに基づき構築された学習済みモデルを用いて、画像から特徴点を抽出できる。

　また、認識部２３４は、抽出した特徴点に各種の情報を付与できる。例えば、認識部２３４は、番号、位置情報及びラベル情報等を付与できる。位置情報は、画像における特徴点の位置を特定する情報であり、本実施形態では、二次元の座標で表現される。なお、画像が三次元画像である場合には、位置情報は例えば三次元の座標で表現されてよい。また、ラベル情報は、画像オブジェクトに含まれる他の特徴点と区別する情報である。例えば、画像オブジェクトが人の画像オブジェクトである場合には、ラベル情報は、人の頭、腕、肩、腰及び足等を示す情報であってよい。

　本実施形態では、認識部２３４は、画像から複数の特徴点を抽出し、抽出した特徴点にラベル情報を付与できる。また、認識部２３４は、抽出した特徴点の集合に基づいて、画像オブジェクトを認識できる。さらに、認識部２３４は、認識した画像オブジェクトの種類（例えば、人あるいはゴルフクラブ等）を特定できる。例えば、認識部２３４は、複数の特徴点（人の手、頭、肩及び足等）の集合に基づいて、それらの特徴点を含む画像オブジェクトが人の画像オブジェクトであることを認識できる。

　なお、認識部２３４が特徴点及び画像オブジェクトを認識する方法は、特徴点を抽出した後に、抽出した特徴点の集合に基づいて画像オブジェクトを認識する上記方法（ボトムアップ方式）に限定されるものではない。例えば、認識部２３４が特徴点及び画像オブジェクトを認識する方法は、画像に含まれる画像オブジェクトを認識した後に、認識した画像オブジェクトに含まれる特徴点を抽出する方法（トップダウン方式）であってもよい。

　図４を参照して、本実施形態に係る認識部２３４の認識結果について説明する。図４は、本実施形態に係る撮像部１００が撮像する画像１２０及び認識部２３４の認識結果を示す図である。画像１２０は、人の画像オブジェクト（以下、「人オブジェクト１３０」とも称する。）と、ゴルフクラブの画像オブジェクト（以下、「クラブオブジェクト１６０」とも称する。）と、ゴルフボールの画像オブジェクト（以下、「ボールオブジェクト１６６」とも称する。）を含む。なお、画像１２０には、複数の人の画像オブジェクトが含まれているが、図４では省略されているものとする。

　認識部２３４は、人オブジェクト１３０、クラブオブジェクト１６０及びボールオブジェクト１６６のそれぞれについて特徴点を抽出し、抽出した特徴点のそれぞれにラベル情報を付与できる。図４には、それぞれの画像オブジェクトから抽出された特徴点が丸印で示されている。具体的には、人オブジェクト１３０について、顔の特徴点１３２、右肩の特徴点１３４、右肘の特徴点１３６、右手の特徴点１３８、左肩の特徴点１４０、左肘の特徴点１４２、左手の特徴点１４４、右腰の特徴点１４６、右足（の先）の特徴点１４８、左腰の特徴点１５０及び左足（の先）の特徴点１５２が抽出されている。また、クラブオブジェクト１６０について、グリップの特徴点１６２及びヘッドの特徴点１６４が抽出されている。さらに、ボールオブジェクト１６６について、中心の特徴点１６８が抽出されている。

　また、特定の条件を満たす特徴点同士は直線により接続されている。具体的には、ラベル情報が所定の条件を満たす特徴点同士が直線により接続されている。例えば、人オブジェクト１３０の右足の特徴点１４８及び右腰の特徴点１４６は、直線により接続されている。

　認識部２３４は、画像オブジェクトから抽出した特徴点に基づいて、画像オブジェクトの種類を特定できる。例えば、認識部２３４は、複数の特徴点の空間的関係に基づいて画像オブジェクトの種類を出力するように学習された学習済みモデルを用いて、画像オブジェクトの種類を特定してよい。例えば、認識部２３４は、人オブジェクト１３０から抽出された特徴点に基づいて、人オブジェクト１３０の種類が人であることを特定できる。また、認識部２３４は、クラブオブジェクト１６０から抽出された特徴点に基づいて、クラブオブジェクト１６０の種類がゴルフクラブであることを特定できる。

　図５は、本実施形態に係る認識部２３４が画像１２０に基づき認識した画像オブジェクト及び抽出した特徴点に関する情報（以下、「画像オブジェクト情報」と称する。）をリスト化した画像オブジェクトリスト１７０を示す図である。画像オブジェクトリスト１７０には、番号がそれぞれ付与された画像オブジェクト情報が含まれている。例えば、画像オブジェクトリスト１７０には、２つの人の画像オブジェクト情報及び１つのゴルフクラブの画像オブジェクト情報が含まれている。なお、２つの人の画像オブジェクトのそれぞれは、互いに異なる人の画像オブジェクトであるものとする。

　１番の画像オブジェクトは、図４に示す人オブジェクト１３０に対応し、２番の画像オブジェクトは、図４に示すクラブオブジェクト１６０に対応しているものとする。また、３番の画像オブジェクトは、図４に示す画像１２０において省略されているものとする。また、図５に示す特徴点は、図４に示す画像１２０において省略されている特徴点（例えば、ゴルフクラブのシャフトの特徴点）を含むものとする。

　図３に戻って、処理部２２０が備える付帯情報推定部２３６について説明する。付帯情報推定部２３６は、画像オブジェクトに付帯する付帯情報を推定できる。例えば、付帯情報推定部２３６は、記憶部２１０に記憶されている情報を参照して、画像オブジェクトに対応する対象オブジェクトの付帯情報を、画像オブジェクトの付帯情報として推定できる。例えば、記憶部２１０には、ゴルフクラブの対象オブジェクトの付帯情報が記憶されているとする。この場合、付帯情報推定部２３６は、その付帯情報をクラブオブジェクト１６０の付帯情報として推定できる。

　また、付帯情報推定部２３６は、画像オブジェクトから抽出される特徴点に基づいて、画像オブジェクトの付帯情報を推定できる。例えば、付帯情報推定部２３６は、人の画像オブジェクトから抽出される複数の特徴点の位置関係等に基づき、人の位置、体格及び向き等を推定できる。あるいは、付帯情報推定部２３６は、物体の画像オブジェクトから抽出される複数の特徴点の位置関係等に基づき、物体の位置、大きさ、形状及び向き等を推定できる。

　図６は、図５に示した２番の画像オブジェクトの付帯情報を表す付帯情報リスト１８１を示す図である。付帯情報リスト１８１には、付帯情報として、ゴルフクラブの重さ（３００ｇ）、長さ（１．２ｍ）及び重心位置（ヘッドからシャフト方向に３０ｃｍ）が含まれている。なお、付帯情報リスト１８１には、付帯情報推定部２３６により推定された付帯情報が含まれてよく、例えば、ゴルフクラブの長さは推定された付帯情報であってよい。一方、ゴルフクラブの重さ及び重心位置は、記憶部２１０に予め記憶されている付帯情報であってよい。付帯情報リスト１８１は、必要に応じて意味推定部２３８により参照される。

　図３に戻って、処理部２２０が備える姿勢推定部２３７について説明する。姿勢推定部２３７は、人の画像オブジェクトから抽出される複数の特徴点に基づき、人の姿勢を推定し、推定した結果を意味推定部２３８に伝送できる。例えば、姿勢推定部２３７は、各種の機械学習アルゴリズムに基づき構築された学習済みモデルを用いて、人の姿勢を推定してよい。

　あるいは、姿勢推定部２３７は、人の画像オブジェクトから抽出される複数の特徴点の空間的関係（例えば、位置関係等）に基づいて、人の姿勢を推定してよい。例えば、姿勢推定部２３７は、各種の関節の特徴点の位置関係に基づいて、人の姿勢を推定してよい。例えば、姿勢推定部２３７は、座っている姿勢、立っている姿勢又は足を開いている姿勢等の各種の姿勢を推定できる。姿勢推定部２３７は、推定した結果を意味推定部２３８に伝送する。

　意味推定部２３８は、画像に含まれる複数の画像オブジェクトのそれぞれから抽出される特徴点の空間的関係と、関係情報とに基づいて、複数の画像オブジェクトの間の意味関係を推定する。これにより、意味推定部２３８は、人や物体を含む複数の画像オブジェクトの特徴点を抽出し、ルールベースで意味関係を推定するため、画像に複数の人や複数の物体が存在する場合であっても、複数の人のうち特定の人の画像オブジェクトの特徴点と複数の物体のうち特定の物体の画像オブジェクトの特徴点との空間的関係のルールに基づいて、特定の人の画像オブジェクトと特定の物体の画像オブジェクトとの間の意味関係を推定できる。本実施形態では、意味推定部２３８は、図２を参照して説明した関係定義に含まれる関係情報を用いて、複数の画像オブジェクトの間の意味関係を推定する。ここでは、画像に含まれる人の画像オブジェクトと、その人が持っているゴルフクラブの画像オブジェクトに着目して、意味推定部２３８による意味推定を説明する。

　まず、意味推定部２３８は、認識部２３４により認識された人オブジェクト１３０の特徴点と、クラブオブジェクト１６０の特徴点との空間的関係を特定する。これにより、意味推定部２３８は、人の画像オブジェクトおよび物体の画像オブジェクトそれぞれに含まれる特徴点をリアルタイムで抽出することで、人が動いている場合のみならず、物体が動いている場合であっても、位置が変化する人と物体との空間的関係を特定することができる。ここでは、これらの画像オブジェクトの特徴点の空間的関係が、図２に示した第１関係定義の空間的関係を満たしているものとする。すなわち、人の両手（右手及び左手）の特徴点とゴルフクラブのグリップの特徴点とが近接しているものとする。

　本実施形態では、意味推定部２３８は、ある画像オブジェクトから抽出されるラベル情報が付与された特徴点と、その特徴点と特定の関係にあるラベル情報が付与された画像オブジェクトの特徴点との空間的関係に基づいて、それらの画像オブジェクトの間の意味関係を推定する。ここでは、ゴルフクラブのグリップと人の両手とが、特定の関係にあるものとする。このため、意味推定部２３８は、これらのラベル情報が付与された特徴点に基づいて、人オブジェクト１３０及びクラブオブジェクト１６０の間の意味関係を推定できる。具体的には、意味推定部２３８は、第１関係定義に基づいて、「人がゴルフクラブを持っている」と推定できる。

　なお、人がゴルフクラブを持っている場合に、人の手がゴルフクラブのグリップを覆っており、画像からゴルフクラブのグリップの特徴点が抽出されない場合が考えられる。この場合には、意味推定部２３８は、グリップの特徴点を用いずに、「人がゴルフクラブを持っている」ことを推定してもよい。例えば、人の肘（右肘又は左肘）の特徴点から人の手（右手又は左手）の特徴点に向かう延長線を基準とした、所定の範囲内にゴルフクラブのヘッドの特徴点が存在し、ヘッドの特徴点から人（例えば、人の手等）に向かってゴルフクラブのシャフトが伸びているとする。この場合には、意味推定部２３８は、ゴルフクラブのグリップの特徴点が抽出されなくても、「人がゴルフクラブを持っている」という動作を推定できる。

　あるいは、意味推定部２３８は、人オブジェクト１３０、クラブオブジェクト１６０の特徴点に加えて、ゴルフボールの画像オブジェクトの特徴点を用いて、意味関係を推定してもよい。例えば、意味推定部２３８は、「人がゴルフクラブでゴルフボールを打とうとしている」という意味関係を推定してよい。このように、本実施形態に係る意味推定部２３８は、物体を用いた人の動作の目的を推定できる。

　また、意味推定部２３８は、画像オブジェクトに付帯する付帯情報に基づいて、複数の画像オブジェクトの間の意味関係を推定できる。意味推定部２３８が意味推定に用いる付帯情報は、記憶部２１０に予め記憶されている付帯情報であってもよいし、付帯情報推定部２３６により推定された付帯情報であってもよい。

　例えば、ゴルフクラブの画像オブジェクトには、重さ３００ｇ及び大きさ１．２ｍ等の付帯情報が付与されているとする。意味推定部２３８は、その付帯情報を関係定義に含まれる意味情報に基づいて、意味情報を推定できる。例えば、意味推定部２３８は、意味情報を意味関係として推定してもよいし、意味情報に各種の情報（例えば付帯情報）を付加した情報を意味関係として推定してよい。例えば、意味推定部２３８は、「人が重さ３００ｇであり長さ１．２ｍのゴルフクラブを持っている」こと等を推定できる。これにより、意味推定部２３８は、より詳細な意味関係を推定できる。意味推定部２３８が推定した意味関係は、生成ユニット２４０に伝送される。

　図７は、意味推定部２３８が意味関係を推定した結果をリストにした意味関係リスト１７４を示す図である。意味関係リスト１７４では、意味関係が画像オブジェクト番号を用いて表現されている。なお、図７に示す画像オブジェクト番号は、図５に示した画像オブジェクトの番号に対応しているものとする。すなわち、［１］は人を意味しており、［２］はゴルフクラブを意味している。

　例えば、１番の意味関係は、［１］が重さ３００ｇ、長さ１．２ｍの［２］を持っていることを示している。また、２番の意味関係は、［１］が重さ３００ｇ、長さ１．２ｍの［２］を振りかぶっている動作を示している。このように、意味関係に含まれる画像オブジェクトの種類の組み合わせ（人とゴルフクラブ）が同一であっても、画像オブジェクトの特徴点の空間的関係が複数の関係定義の空間的関係を満たす場合には、複数の意味関係が推定され得る。

　図３に戻って、処理部２２０の生成ユニット２４０の機能について説明する。本実施形態に係る生成ユニット２４０は、ゴルフプレイヤ（以下、単に「プレイヤ」と称する。）のスイングを診断するためのアプリケーションを意図して構成されている。具体的には、生成ユニット２４０は、意味推定ユニット２３０による処理の結果に基づいて、プレイヤの状態に応じた各種の情報を生成する。生成ユニット２４０が有する機能は、検索部２４２、指標生成部２４４及び特徴点情報生成部２４６が協働することにより実現される。生成ユニット２４０が備える各機能部は、必要に応じて、意味推定ユニット２３０の各機能部から各種の情報（例えば、推定された意味関係等）を取得したり、記憶部２１０から各種の情報（例えば、関係情報リスト等）を取得したりできる。

　検索部２４２は、意味推定部２３８により推定された意味関係から、特定の条件に合致する意味関係を検索し、検索結果（例えば、特定の条件に合致する意味関係等）を指標生成部２４４に伝送できる。本実施形態では、特定の条件は、意味関係に「人がゴルフクラブを持っている」という情報が含まれることであるものとする。検索部２４２は、図７に示した意味関係リスト１７４を参照して、「人がゴルフクラブを持っている」という情報を含む意味関係（すなわち、１番の意味関係）を検索する。したがって、検索部２４２は、画像１２０に複数の人の画像オブジェクトが含まれる場合には、ゴルフクラブを持っている人に関する意味情報のみを検索できる。

　指標生成部２４４は、特定の条件に合致する意味関係に対応する画像オブジェクトの特徴点に関する、特定の条件に応じた情報を生成できる。本実施形態では、指標生成部２４４は、特徴点あるいは意味関係に基づきプレイヤの状況（フェーズ）を特定し、プレイヤの状況に応じたスイングを診断するための指標となる情報を生成できる。

　プレイヤのスイングを診断するにあたって、状況によって診断すべきポイントが異なる。例えば、プレイヤがゴルフクラブを振りかぶっている状況では、プレイヤの肘及び膝の位置が重要なポイントとなる。また、プレイヤがゴルフクラブを構えている状況（すなわち、アドレス時）では、右打ちにおいては右肩が左肩より下がっているとよく、プレイヤの右肩と左肩との位置関係が重要となる。このため、指標生成部２４４は、プレイヤの状況に応じた指標を生成することで、より適切な情報をプレイヤ等のユーザに提供できる。

　ここでは、人オブジェクト１３０及びクラブオブジェクト１６０の間には、「人がゴルフクラブを振りかぶっている」という動作の意味関係が推定されているものとする。この場合、プレイヤの肘及び膝の位置が重要なポイントとなる。指標生成部２４４は、例えば、プレイヤについて認識部２３４が認識した結果（例えば、肘あるいは膝の特徴点等の情報）に基づいて、適切な肘及び膝の位置を算出して生成できる。指標生成部２４４は、生成した情報を特徴点情報生成部２４６に伝送する。

　特徴点情報生成部２４６は、特定の条件に合致する意味関係に対応する画像オブジェクトの特徴点に関する、特定の条件に応じた情報を生成できる。本実施形態では、特徴点情報生成部２４６は、推定された意味関係に基づき特定されたフェーズに応じて、対応する人の画像オブジェクトの特徴点に関する情報を生成する。

　例えば、特徴点情報生成部２４６は、指標生成部２４４により生成された情報（例えば指標）に基づいて、プレイヤの状況（フェーズ）に応じたポイントに関する情報を生成できる。具体的には、特徴点情報生成部２４６は、ポイントとなる肘の特徴点、膝の特徴点及び肩の特徴点等の特徴点に関して、例えば理想的な位置を示す補助線を表示するための座標を計算して生成できる。さらに、特徴点情報生成部２４６は、生成した座標に基づいて、表示部に補助線を重畳させるための重畳情報を生成できる。

　あるいは、特徴点情報生成部２４６は、プレイヤのポイントとなる関節又はその関節の特徴点が目立つ表示態様（例えば、赤いマーク）で表示部に表示させるための重畳情報を、特徴点情報として生成できる。

　特徴点情報生成部２４６は、生成した情報を通信部２００に伝送する。通信部２００に伝送された情報は、通信ネットワーク１５を介して入出力装置１０に送信され、入出力装置１０に伝送される。特徴点情報生成部２４６により生成された情報に基づいて、出力部１０４の表示部は各種の画面を表示する。

　以上、本実施形態に係る情報処理システム１の機能について説明した。次に、図８を参照して、本実施形態に係る情報処理装置２０が、画像に含まれる複数の画像オブジェクトの間の意味関係を推定する処理について説明する。以下、図８に示すシーケンス図に沿って、本実施形態に係る情報処理システム１の処理について説明する。

　まず、入出力装置１０の撮像部１００は、画像を撮像する（ステップＳ１０１）。次いで、通信部１０６は、撮像部１００により撮像された画像を情報処理装置２０に送信する（ステップＳ１０３）。次いで、情報処理装置２０の通信部２００は、ステップＳ１０３において送信された画像を受信する（ステップＳ１０５）。

　次いで、処理部２２０の画像取得部２３２は、ステップＳ１０５において受信された画像を取得する（ステップＳ１０７）。次いで、認識部２３４は、画像から複数の特徴点を抽出する（ステップＳ１０９）。このとき、認識部２３４は、抽出した特徴点にラベル情報を付与してよい。

　次いで、認識部２３４は、ステップＳ１０９において抽出された特徴点の集合に基づいて、画像オブジェクトを認識する（ステップＳ１１１）。具体的には、認識部２３４は、複数の集合に基づいて、それぞれの集合に応じた画像オブジェクトを認識する。このとき、認識部２３４は、認識した画像オブジェクトの種類を特定してよい。次いで、認識部２３４は、ステップＳ１１１における認識結果に基づいて、画像オブジェクトリストを生成する（ステップＳ１１３）。

　次いで、付帯情報推定部２３６は、認識部２３４により認識された画像オブジェクトの付帯情報を推定する（ステップＳ１１５）。また、姿勢推定部２３７は、認識部２３４により認識された人の画像オブジェクトの特徴点に基づいて、人の姿勢を推定する（ステップＳ１１７）。なお、認識部２３４が人の画像オブジェクトを認識していない場合には、姿勢推定部２３７は、人の姿勢を推定しなくてよい。

　次いで、意味推定部２３８は、意味推定処理を行う（ステップＳ１１９）。意味推定処理の詳細は、図９を参照して後述する。意味推定部２３８が意味推定処理を行うと、図８に示す処理は終了する。

　図９は、図８の意味推定処理の詳細を示すフローチャートである。まず、意味推定部２３８は、関係情報リストから、対象オブジェクトの種類の全てが画像オブジェクトリストに含まれている関係定義を抽出し、抽出した関係定義をリストにした関係定義リストを生成する（ステップＳ２０１）。例えば、人の画像オブジェクト及びゴルフクラブの画像オブジェクトについて認識された結果が画像オブジェクトリストに含まれているとする。この場合には、意味推定部２３８は、関係情報リストから、対象オブジェクトの種類の組み合わせに、人及びゴルフクラブの両方を含む組み合わせの関係定義を抽出して、関係定義リストを生成する。例えば、意味推定部２３８は、図２に示した関係情報リスト２１２から、対象オブジェクトの組み合わせに人及びゴルフクラブを含む第１関係定義及び第２関係定義を抽出して、関係定義リストを生成する。

　次いで、意味推定部２３８は、未処理の関係定義が関係定義リストにあるか否かを判定する（ステップＳ２０３）。ここで、未処理の関係定義は、後述するステップＳ２０７及びＳ２０９の処理が行われていない関係定義である。未処理の関係定義が関係定義リストにあると判定された場合（ステップＳ２０３：ＹＥＳ）、ステップＳ２０５に進む。一方、未処理の関係定義が関係定義リストにないと判定された場合（ステップＳ２０３：ＮＯ）、ステップＳ２２１に進む。以下、ステップＳ２０３においてＹＥＳと判定された場合の処理を説明した後に、ステップＳ２０３においてＮＯと判定された場合の処理を説明する。

　ステップＳ２０３においてＹＥＳと判定されると、意味推定部２３８は、未処理の関係定義を関係定義リストから取得する（ステップＳ２０５）。次いで、意味推定部２３８は、ステップＳ２０５において取得した関係定義に含まれる全ての種類の画像オブジェクトの情報を、画像オブジェクトリストから抽出する（ステップＳ２０７）。例えば、意味推定部２３８は、取得した関係定義に人及びゴルフクラブの画像オブジェクトが含まれる場合には、画像オブジェクトリストから人の画像オブジェクト及びゴルフクラブの画像オブジェクトの情報を、画像オブジェクトリストから抽出する。

　次いで、意味推定部２３８は、ステップＳ２０５において取得した関係定義に合致する全ての画像オブジェクトの種類の組み合わせリストを生成する（ステップＳ２０９）。例えば、関係定義に人及びゴルフクラブの組み合わせが規定されている場合には、意味推定部２３８は、ステップＳ２０７において抽出された画像オブジェクトの情報に基づいて、人の画像オブジェクト及びゴルフクラブの画像オブジェクトの組み合わせリストを生成する。

　例えば、ステップＳ２０７において、２つの人の画像オブジェクト（以下、図９に示すフローチャートの説明では、「第１人オブジェクト」と「第２人オブジェクト」と称する。）の情報と、１つのゴルフクラブの画像オブジェクトの情報が抽出されているとする。この場合、意味推定部２３８は、第１人オブジェクト及びゴルフクラブの組み合わせと、第２人オブジェクト及びゴルフクラブの組み合わせとで構成された、２つの組み合わせを含む組み合わせリストを生成できる。

　次いで、意味推定部２３８は、未処理の組み合わせが組み合わせリストにあるか否かを判定する（ステップＳ２１１）。ここで、未処理の組み合わせは、後述するステップＳ２１５の処理が行われていない組み合わせである。未処理の組み合わせが組み合わせリストにあると判定された場合（ステップＳ２１１：ＹＥＳ）、ステップＳ２１３に進む。一方、未処理の組み合わせが組み合わせリストにないと判定された場合（ステップＳ２１１：ＮＯ）、ステップＳ２０３に戻る。ステップＳ２１１においてＹＥＳと判定されると、意味推定部２３８は、未処理の組み合わせを組み合わせリストから取得する（ステップＳ２１３）。

　次いで、意味推定部２３８は、ステップＳ２１３において取得した未処理の組み合わせに含まれる画像オブジェクトの特徴点の空間的関係が、関係定義の空間的関係を満たすか否かを判定する（ステップＳ２１５）。未処理の組み合わせに含まれる画像オブジェクトの特徴点の空間的関係が、関係定義の空間的関係を満たすと判定された場合（ステップＳ２１５：ＹＥＳ）、ステップＳ２１７に進む。一方、未処理の組み合わせに含まれる画像オブジェクトの特徴点の空間的関係が、関係定義の空間的関係を満たさないと判定された場合（ステップＳ２１５：ＮＯ）、ステップＳ２１１に戻る。

　意味推定部２３８は、ステップＳ２１５においてＹＥＳと判定すると、関係定義に含まれる関係情報及び複数の画像オブジェクトの特徴点の空間的関係に基づいて、複数の画像オブジェクトの間の意味関係を推定する（ステップＳ２１７）。このとき、意味推定部２３８は、さらに付帯情報を用いて意味関係を推定してもよい。次いで、意味推定部２３８は、ステップＳ２１７において推定した意味関係を意味関係リストに登録する（ステップＳ２１９）。意味推定部２３８が意味関係を意味関係リストに登録すると、ステップＳ２１１に戻る。

　このようにして、意味推定部２３８は、ステップＳ２０１において生成した関係定義リストに含まれる全ての関係定義について、画像に含まれる複数の画像オブジェクトの空間的関係が合致するか否かを判定する。さらに、意味推定部２３８は、合致した空間的関係に対応する複数の画像オブジェクトについて推定した意味関係を意味関係リストに登録する。意味推定部２３８が関係定義リストに含まれる全ての関係定義について、複数の画像オブジェクトの空間的関係が合致するか否かを判定したうえで、推定した意味関係を意味関係リストに登録すると、ステップＳ２０３においてＮＯと判定され、ステップＳ２２１に進む。

　意味推定部２３８は、意味関係リストを他の機能部に伝送する（ステップＳ２２１）。例えば、意味推定部２３８は、生成ユニット２４０に意味関係リストを出力する。意味推定部２３８が意味関係リストを他の機能部に出力すると、意味推定処理は終了する。

　図１０を参照して、第１実施形態に係る情報処理システム１が意味推定ユニット２３０による意味推定に応じた情報を生成し、生成した情報を表示するまでの処理を説明する。図１０に示す処理が開始される時点では、図８及び図９を参照して説明した、複数の画像オブジェクトの意味関係の推定及び人の姿勢の推定等の各種の処理が実行されているものとする。

　まず、情報処理装置２０の生成ユニット２４０が備える検索部２４２は、意味推定ユニット２３０から推定された意味関係等の情報を取得する（ステップＳ３０１）。このとき、検索部２４２は、推定された意味関係を意味関係リストとして取得してよい。また、検索部２４２は、意味関係に加えて、推定された人の姿勢等の各種の情報を取得してよい。

　次いで、検索部２４２は、「人がゴルフクラブを持っている」ことを示す意味関係があるか否かを判定する（ステップＳ３０３）。本実施形態では、検索部２４２は、ステップＳ３０１において取得した意味関係リストに基づいて、「人がゴルフクラブを持っている」ことを示す意味関係を検索する。「人がゴルフクラブを持っている」ことを示す意味関係がないと判定されると（ステップＳ３０３：ＮＯ）、図１０に示す処理は終了する。一方、「人がゴルフクラブを持っている」ことを示す意味関係があると判定されると（ステップＳ３０３：ＹＥＳ）、ステップＳ３０５に進む。

　次いで、指標生成部２４４は、ステップＳ３０３において検索された意味関係に基づいて、ゴルフのショットのフェーズを特定する（ステップＳ３０５）。具体的には、指標生成部２４４は、検索された意味関係に含まれる複数の画像オブジェクトの認識結果に基づいて、ゴルフのショットのフェーズを特定する。例えば、指標生成部２４４は、人の画像オブジェクトに含まれる複数の特徴点の位置関係（例えば、肩の特徴点と腰の特徴点の位置関係）に基づいて、ゴルフのショットのフェーズを特定してよい。特定されるフェーズは、例えば、アドレス、テイクバック又は他のフェーズであってよい。

　次いで、指標生成部２４４は、ステップＳ３０５において特定されたフェーズに応じた特徴点の情報を、画像オブジェクトリストより取得する（ステップＳ３０７）。具体的には、指標生成部２４４は、画像オブジェクトリストから、特定されたフェーズに応じた特徴点の情報（座標等により表された位置情報又はラベル情報等）を取得できる。

　例えば、指標生成部２４４は、特定されたフェーズがアドレスである場合には、人の画像オブジェクトに含まれる、肘の特徴点及び膝の特徴点等のアドレスの際に重要となる特徴点の情報を取得してよい。また、指標生成部２４４は、特定されたフェーズがテイクバックである場合には、人の画像オブジェクトに含まれる、両肩の特徴点及び腕の特徴点等のテイクバックの際に重要となる特徴点の情報を取得してよい。さらに、特定されたフェーズが他のフェーズである場合には、指標生成部２４４は、特定されたフェーズの際に重要となる特徴点の情報を取得してよい。

　次いで、指標生成部２４４は、ステップＳ３０９において取得した特徴点の情報に基づいて、特定されたフェーズに応じた指標を生成する（ステップＳ３０９）。具体的には、指標生成部２４４は、フェーズに応じた重要なポイントの理想的な位置を算出してよい。

　例えば、図４に示した画像１２０では、ゴルフクラブのヘッドの特徴点１６４が、人の頭の特徴点１３２よりも高い位置で保持されている。このため、「人がゴルフクラブを振りかぶっている」という動作の意味関係が推定されており、フェーズはバックスイングに特定されているものとする。このフェーズでは、人の肘及び膝の位置が重要となる。このため、指標生成部２４４は、肘の特徴点及び膝の特徴点に基づき、理想的な肘及び膝の位置を指標として算出してよい。

　また、フェーズがアドレスである場合には、右打ちにおいては右肩が左肩より下がっていることが好ましく、右肩及び左肩の位置が重要となる。このため、指標生成部２４４は、理想的な右肩及び左肩の位置を、指標として生成し得る。

　次いで、特徴点情報生成部２４６は、特徴点情報及び重畳情報を生成する（ステップＳ３１１）。次いで、情報処理装置２０の通信部２００は、ステップＳ３１１において生成された重畳情報を入出力装置１０に送信する（ステップＳ３１３）。次いで、入出力装置１０の通信部１０６は、ステップＳ３１３において送信された重畳情報を受信する（ステップＳ３１５）。受信された重畳情報は、制御部１０８に伝送される。

　次いで、制御部１０８は、ステップＳ３１５において受信された重畳情報に基づいて、重畳情報を出力部１０４に画面を表示させる（ステップＳ３１７）。これにより、出力部１０４の表示部により、例えば、撮像部１００が撮像した画像の上に重畳情報が重ねられた画面が表示される。例えば、人の画像オブジェクトの上に、特定の関節を赤く示す画面が表示部に表示される。これにより、ユーザは、ゴルフのスイングにおける重要なポイントあるいは適切なフォーム等を認識できる。

　本実施形態に係る情報処理装置２０は、画像に含まれる複数の画像オブジェクトのそれぞれから抽出される特徴点の空間的関係と関係情報とに基づいて、複数の画像オブジェクトの間の意味関係を推定する。関係情報は、ユーザが所望の関係に設定することができる情報である。このため、ユーザが適宜関係情報を設定することにより、複数の画像オブジェクトについて、より多様な意味関係を推定することが可能となる。また、画像オブジェクトの特徴点に基づき意味関係が推定されるため、詳細かつ精度よく意味関係を推定することが可能となる。

　特に、ゴルフ場におけるゴルフスイング（あるいは工場における作業）等、特定の場面が想定される場合には、人と物体との間の意味関係の推定には、既知の前提条件が存在し得る。既知の前提条件は、例えば、人がボールの前でゴルフクラブを下方向に向けて持っている場合には、人がこれからゴルフクラブでボールを打つところである、という条件であり得る。あるいは、前提条件は、工場で特定の組み立てが行われている場合には、物体の重さあるいは人が物体を持つべき位置が分かっており、人が動く範囲も決まっていること等である。本実施形態に係る情報処理システム１では、このような前提条件を例えば関係情報として使用できるため、より堅牢で実用的な意味関係の推定が可能となる。

　また、本実施形態では、画像に複数の人の画像オブジェクトが含まれている。このような画像に基づいて、プレイヤのフォームの分析あるいは採点等を行うアプリケーションでは、従来、画像内に一人のプレイヤが含まれるか、プレイヤが特定の場所に立った状態であることを前提として分析等が行われていた。しかしながら、実際のゴルフ場では、ゴルフのプレー中の画像等には、キャディー、他のプレイヤ及び観客等が存在するため、スイングするプレイヤを自動的に特定することが難しい。このため、プレイヤのフォーム等を記録あるいは診断できる場所が制限されていた。

　本実施形態に係る情報処理装置２０は、推定された意味関係を用いることにより、画像内に複数の人と複数の物体とが存在する場合には、着目すべき意味関係（例えば、人が物体に対して特定の動作を行っていることを示す意味関係）に関わる人及び物体を特定することが可能となる。したがって、本実施形態に係る情報処理装置２０は、画像の中に多数の人の画像オブジェクトが含まれる場合に、自動的にゴルフクラブを持っている人を特定し、例えばスイングの記録あるいは解析に必要な情報を、場所の制限を受けることなく生成できる。

　また、本実施形態に係る情報処理装置２０は、空間的関係及び意味関係を用いることにより、人又は物体が他の物体等の背後に隠れている場合であっても、人及び物体の空間的関係が矛盾しないように、他の物体等の背後に人又は物体等が存在することを推定できる。このため、本実施形態に係る情報処理装置２０は、オクルージョンに対して堅牢である。すなわち、情報処理装置２０は、画像オブジェクトが他の画像オブジェクトの裏側に隠れている場合にも、裏側に隠れている画像オブジェクトを適切に認識できる。

　また、本実施形態では、画像オブジェクトの付帯情報に基づいて意味関係が推定される。このため、より適切な意味関係を推定することが可能となる。

　また、複数の画像オブジェクトの間の意味関係は、人による物体への動作、動作の目的又は物体が人に与える影響のうちの少なくともいずれかを含む。人による物体への動作は、例えば、人が物体を持つこと又は人が物体を投げること等であってよい。また、動作の目的は、例えば、人が物体を移動させること等であってよい。さらに、物体が人に与える影響は、例えば、物体が人に負荷を与えること又はその負荷の大きさ等であってよい。

　［第２実施形態］
　第２実施形態では、主に第１実施形態と異なる点について説明し、第１実施形態と実質的に同一の内容を適宜省略して説明する。なお、第２実施形態では、第１実施形態で説明した各種の構成が適用され得る。

　第１実施形態では、画像にはゴルフクラブの画像オブジェクトと、そのゴルフクラブを振りかぶっている人の画像オブジェクトが含まれているものとして説明した。これに対し、第２実施形態に係る画像は、特定の製品が製造される工場において撮像された画像であり、物体（製品の部品）の画像オブジェクトと、その部品を持ち運んでいる人（作業者）の画像オブジェクトが含まれているものとして説明する。

　図１１は、第２実施形態に係る情報処理装置が備える処理部２６０の機能ブロック図である。第２実施形態では、情報処理装置は、図１及び図３に示した処理部２２０に代えて、図１１に示す処理部２６０を備える。すなわち、第２実施形態に係る処理部２６０は、意味推定ユニット２３０及び生成ユニット２７０を備える。なお、第２実施形態に係る意味推定ユニット２３０が有する機能は、図３を参照して説明した意味推定ユニット２３０が有する機能と実質的に同一である。このため、意味推定ユニット２３０の機能の詳細な説明を省略する。ここでは、意味推定ユニット２３０が本実施形態において認識又は推定する結果の一例について説明する。

　図１２は、意味推定ユニット２３０の認識部２３４が、第２実施形態に係る画像に含まれる画像オブジェクトを認識した結果を示す画像オブジェクトリスト１８０を示す図である。第２実施形態では、認識部２３４は、画像に含まれる人（作業者）の画像オブジェクト及び部品の画像オブジェクトを認識する。また、認識部２３４は、それぞれの画像オブジェクトから複数の特徴点を抽出し、抽出したそれぞれの特徴点の位置を座標により特定している。

　また、認識部２３４は、抽出した特徴点のそれぞれにラベル情報を付与できる。例えば、人の画像オブジェクトの特徴点には、頭、右手、左手及び右肘等のラベル情報を付与している。また、認識部２３４は、部品の画像オブジェクトの特徴点には、取っ手及び蓋等のラベル情報を付与している。なお、認識部２３４が特徴点に付与するラベル情報の種類は、これらの情報に限定されるものではない。

　図１３は、図１２に示した２番の画像オブジェクトの付帯情報を表す付帯情報リスト１８２を示す図である。画像オブジェクトの付帯情報は、画像オブジェクトの種類、画像オブジェクトが示す物体の重さ、大きさ及び重心を含む。これらの付帯情報は、予め記憶部２１０に記憶されていてもよいし、画像オブジェクトに含まれる特徴点に基づいて推定されてもよい。例えば、大きさ（７０ｍｍ×４０ｍｍ×５ｍｍ）の情報は、画像オブジェクトの複数の特徴点に基づいて推定され得る。

　図１４は、本実施形態に係る意味関係リスト１８４を示す図である。意味関係リスト１８４には、「［１］が重さ１８ｋｇ、大きさ７０ｍｍ×４０ｍｍ×５ｍｍの［２］を持っている」という意味関係が登録されている。ここで、［Ｘ］は、図１２に示したオブジェクト認識リストの画像オブジェクトの番号を示している。したがって、［１］は人を意味しており、［２］は部品を意味している。

　なお、推定される意味関係には、他の付帯情報が含まれてもよく、例えば、部品の材質（例えば、金属）等の情報が含まれてよい。また、意味関係の推定には、姿勢推定部２３７による姿勢の推定結果が用いられてよい。例えば、「作業者が足を開いて重い部品を持っている」あるいは「作業者が中腰で重い物体を持っている」等の状況に関する意味関係の推定が行われてもよい。

　生成ユニット２７０は、意味推定ユニット２３０の推定結果に応じて、各種の情報を生成する。生成ユニット２７０が備える機能は、負荷推定部２７２、姿勢クラス判定部２７３、危険レベル判定部２７４、情報生成部２７６及び時間計測部２７８が協働することにより実現される。

　負荷推定部２７２は、画像に人の画像オブジェクトが含まれる場合には、その人にかかる負荷を推定できる。具体的には、負荷推定部２７２は、推定された意味関係に関わる画像オブジェクトの情報、付帯情報及び姿勢情報に基づいて、人にかかる負荷を推定できる。

　例えば、負荷推定部２７２は、物体の画像オブジェクトの情報及び付帯情報に基づいて、物体の重さ及び重心を取得できる。負荷推定部２７２は、取得した物体の重さ及び重心と、人の画像オブジェクトのオブジェクト情報及び付帯情報等に基づいて、人にかかる負荷を推定できる。ここで、負荷推定部２７２は、各種の公知の技術を用いて、負荷を推定してよい。

　姿勢クラス判定部２７３は、画像に人の画像オブジェクトが含まれる場合に、その人の姿勢のクラスを判定できる。本実施形態では、姿勢クラス判定部２７３は、人の画像オブジェクトから抽出される複数の特徴点に基づいて、姿勢のクラスを判定できる。例えば、姿勢クラス判定部２７３は、例えば、腰の曲がる角度に応じて、姿勢のクラスを判定してよい。より具体的には、姿勢クラス判定部２７３は、腰の曲がる角度が大きいほど、危険なクラスであることを判定してよい。

　危険レベル判定部２７４は、人の画像オブジェクトから抽出される特徴点に基づいて、人の姿勢の危険レベルを判定できる。本実施形態では、危険レベル判定部２７４は、姿勢に関する情報に基づいて、危険レベルを判定できる。例えば、危険レベル判定部２７４は、姿勢クラス判定部２７３により判定された姿勢クラスに基づいて、危険レベルを判定してよい。例えば、危険レベル判定部２７４は、姿勢クラスがより危険なクラスに属する場合には、危険レベル判定部２７４は、危険レベルが高いことを判定してよい。

　また、危険レベル判定部２７４は、人が持っている物体（部品等）に関する情報（例えば、重量等）、あるいはその物体により人に生じる負荷等に基づいて危険レベルを判定してもよい。本実施形態では、危険レベルは、ＡＣ（Action Category）レベルと呼ばれるカテゴリを用いて、１～５の５段階で表現されるものとする。また、危険レベルの値が高いほど、危険度が高いものとする。なお、危険レベル判定部２７４は、各種の公知の人間工学的な警告の基準を用いて、危険レベルを判定してよい。

　情報生成部２７６は、意味推定ユニット２３０又は生成ユニット２７０により推定又は判定された結果に応じて、各種の情報を生成できる。情報生成部２７６が生成した情報は、通信部２００に伝送され、通信ネットワーク１５を介して、入出力装置１０に送信される。

　情報生成部２７６は、例えば、意味推定部２３８により推定された人の画像オブジェクト及び物体の画像オブジェクトの間の意味関係が特定の意味条件を満たし、人の画像オブジェクトの特徴点に基づき推定される人の状態が特定の状態条件を満たす場合には、その状態に応じた情報を生成してよい。

　本実施形態では、特定の意味条件は、推定された意味関係が、「人が物体を持っていること」を含む条件であるものとする。上述のように、本実施形態では、推定される意味関係は、「作業者が部品を持っていること」を含むため、特定の意味条件を満たす。

　また、特定の状態条件は、人の画像オブジェクトから抽出される特徴点に基づき推定される人の姿勢に関する条件であってよい。例えば、特定の状態条件は、人の画像オブジェクトの特徴点に基づき推定される人の姿勢に関する条件であってよい。例えば、特定の状態条件は、姿勢クラス判定部２７３により判定された姿勢クラスが、特定のクラスに属することであってよい。このとき、情報生成部２７６は、人の姿勢に応じた情報を生成できる。具体的には、情報生成部２７６は、姿勢クラスが危険なクラスに属する場合には、ユーザに警告を示すための情報（例えば、警告画像あるいは警告の音声）を生成できる。

　また、特定の状態条件は、人の画像オブジェクトの特徴点及び物体の画像オブジェクトに関する重さに関わる付帯情報に基づき推定される人にかかる負荷に関する条件であってよい。例えば、特定の状態条件は、負荷推定部２７２により推定された負荷の大きさに関する条件であってよい。このとき、情報生成部２７６は、負荷に応じた情報を生成できる。例えば、情報生成部２７６は、負荷の大きさが所定値を超える場合には、ユーザに警告を示すための情報を生成できる。

　本実施形態では、特定の状態条件は、危険レベル判定部２７４により判定された危険レベルが所定のレベルであるものとして説明する。この場合、情報生成部２７６は、判定された危険レベルが所定の危険レベルを超える場合に、危険レベルに応じた情報を生成する。より具体的には、情報生成部２７６は、姿勢が危険であることを示す表示画面の情報、あるいは音声で警告するための情報等を生成できる。情報生成部２７６により生成された情報に基づいて、入出力装置１０において警告の表示あるいは警告の音声出力等が行われる。

　また、特定の状態条件は、人にかかる負荷に応じた条件であってよい。例えば、特定の状態条件は、人にかかる負荷が所定値を超えることであってよい。あるいは、特定の状態条件は、人にかかる負荷の積算値が所定値を超えることであってよい。

　情報生成部２７６は、負荷に関する特定の条件が満たされた場合には、負荷がかかっていることを警告する画面情報又は音声により警告するための情報等を生成してよい。あるいは、情報生成部２７６は、負荷がかかっている部分を赤く表示するための重畳情報、人が持っている物体の付帯情報（例えば重量）を画面に重畳させるための重畳情報を生成してよい。表示部では、撮像部１００により撮像された画像の上に、情報生成部２７６により生成された重畳情報が重畳される。

　時間計測部２７８は、時間を計測できる。具体的には、時間計測部２７８は、積算タイマをリセットあるいは積算タイマに時間を加算することにより、時間を計測できる。例えば、時間計測部２７８は、所定の危険レベルが継続した時間を計測できる。

　図１５は、第２実施形態に係る情報処理システムによる処理の流れを示すフローチャートである。以下、図１５に示すフローチャートに沿って、第２実施形態に係るコンピュータシステムによる処理を説明する。なお、図１５に示す処理が実行されている間には、撮像部１００により画像の撮像が行われ、意味推定ユニット２３０によりその画像に含まれる画像オブジェクトの認識及び意味関係の推定が実行され続けているものとする。

　まず、時間計測部２７８は、積算タイマを０にリセットする（ステップＳ４０１）。

　次いで、負荷推定部２７２、姿勢クラス判定部２７３及び危険レベル判定部２７４は、意味推定ユニット２３０から、意味関係及び特徴点等の情報を取得する（ステップＳ４０３）。ここでは、負荷推定部２７２、姿勢クラス判定部２７３及び危険レベル判定部２７４は、「人が物体を持っている」という意味情報を含む意味関係及びその意味関係に関連する画像オブジェクトの認識結果あるいは付帯情報等を取得する。

　次いで、負荷推定部２７２は、ステップＳ４０３において取得した情報に基づいて、負荷を推定する（ステップＳ４０５）。具体的には、負荷推定部２７２は、姿勢推定部２３７により推定された姿勢及び人が持っている物体の付帯情報（例えば、重さ等）に応じて、人にかかる負荷を推定してよい。次いで、姿勢クラス判定部２７３は、人の画像オブジェクトから抽出される複数の特徴点に基づいて、姿勢のクラスを判定する（ステップＳ４０７）。

　次いで、危険レベル判定部２７４は、危険レベルを判定する（ステップＳ４０９）。このとき、危険レベル判定部２７４は、ステップＳ４０５において算出された負荷及びステップＳ４０７において判定された姿勢クラスに基づいて危険レベルを判定してよい。

　次いで、危険レベル判定部２７４は、判定した危険レベルが４以上であるか否かを判定する（ステップＳ４１１）。危険レベルが４未満であると判定されると（ステップＳ４１１：ＮＯ）、ステップＳ４１９に進む。一方、危険レベルが４以上であると判定されると（ステップＳ４１１：ＹＥＳ）、ステップＳ４１３に進む。以下では、ステップＳ４１１においてＹＥＳと判定された場合の処理を説明した後に、ステップＳ４１１においてＮＯと判定された場合の処理を説明する。

　ステップＳ４１１においてＹＥＳと判定されると、情報生成部２７６は、緊急警告情報を生成する（ステップＳ４１３）。緊急警告情報は、一定時間、出力部に緊急警告画面を表示させたり、緊急警告を音声で出力させたりするための情報である。生成された緊急警告情報は、通信部２００に伝送され、通信ネットワーク１５を介して入出力装置１０に送信される。

　次いで、入出力装置１０の出力部１０４は、緊急警告を出力する（ステップＳ４１５）。具体的には、出力部１０４は、ステップＳ４１３において生成された緊急警告情報に基づいて、緊急警告を表示したり、音声により緊急警告を出力したりしてよい。これにより、作業者は、緊急警告に気づき、例えば姿勢を直すことができる。

　緊急警告が出力されると、情報処理装置２０の処理部２６０は、処理を終了するか否かを判定する（ステップＳ４１７）。具体的には、処理部２６０は、意味推定ユニット２３０及び生成ユニット２７０による各種の処理を終了するか否かを判定する。例えば、撮像部１００による撮像が終了している場合には、処理部２６０は、処理を終了することを判定してよい。処理を終了することが判定された場合（ステップＳ４１７：ＹＥＳ）、図１５に示す処理は終了する。一方、処理を終了しないことが判定された場合（ステップＳ４１７：ＮＯ）、ステップＳ４０３に戻る。

　ステップＳ４１１においてＮＯと判定されると、危険レベル判定部２７４は、危険レベルが３以上であるか否かを判定する（ステップＳ４１９）。危険レベルが３未満であると判定されると（ステップＳ４１９：ＮＯ）、ステップＳ４０１に戻る。一方、危険レベルが３以上であると判定されると（ステップＳ４１９：ＹＥＳ）、ステップＳ４２１に進む。

　次いで、時間計測部２７８は、危険レベルが３の状態の時間を積算タイムに加算する（ステップＳ４２１）。例えば、時間計測部２７８は、危険レベルが３であると前回判定されてから、危険レベルが３であると今回判定されるまでの時間を積算タイムに加算してよい。

　次いで、時間計測部２７８は、積算タイマに基づいて、危険レベルが３の状態が所定時間以上続いたか否かを判定する（ステップＳ４２３）。危険レベルが３の状態が所定時間以上続いていないと判定されると（ステップＳ４２３：ＮＯ）、ステップＳ４１７に進む。一方、危険レベルが３の状態が所定時間以上続いたと判定されると（ステップＳ４２３：ＹＥＳ）、ステップＳ４２５に進む。

　ステップＳ４２３においてＹＥＳと判定されると、情報生成部２７６は、警告情報を生成する（ステップＳ４２５）。警告情報は、出力部に警告を表示させるための情報又は警告を音声として出力させるための情報であって良い。生成された警告情報は、通信ネットワーク１５を介して、入出力装置１０に送信される。

　次いで、入出力装置１０の出力部１０４は、ステップＳ４２５において生成された警告情報に基づいて、警告を出力する（ステップＳ４２７）。具体的には、出力部１０４は、警告を表示したり、音声として警告を出力したりする。これにより、ユーザは、姿勢を正したりすることができる。

　本実施形態によれば、意味推定部２３８により推定された人の画像オブジェクト及び物体の画像オブジェクトの間の意味関係が特定の意味条件を満たし、人の画像オブジェクトの特徴点に基づき推定される人の状態が特定の状態条件を満たす場合には、状態に応じた情報が生成される。このため、特定の条件を満たす意味関係に関わる人の状態を生成することが可能になる。これにより、例えば、人の状態を適切にユーザに通知することが可能となる。

　従来の技術では、人手によって姿勢の判定結果を装置に入力したり、人の身体に特殊な装置をつけさせたりすることにより、人の姿勢が判定される。本実施形態に係る情報処理システム１では、人の姿勢を判定するための処理の主要部分が自動化される。さらに、情報処理システム１は、撮像部１００が撮像した画像を用いて姿勢を判定できるため、人に非接触で姿勢を判定できる。

　図１６は、本開示の一実施形態に係る入出力装置１０及び情報処理装置２０のハードウェア構成の一例を示す図である。入出力装置１０及び情報処理装置２０は、演算部に相当するＣＰＵ（Central Processing Unit）又はＧＰＵ（Graphics Processing Unit）を有するプロセッサ１０ａと、記憶部１１０、２１０に相当するＲＡＭ（Random Access Memory）１０ｂと、記憶部１１０、２１０に相当するＲＯＭ（Read only Memory）１０ｃと、通信部１０ｄと、入力部１０ｅと、出力部１０ｆと、を有する。これらの各構成は、バスを介して相互にデータ送受信可能に接続される。なお、本例では入出力装置１０及び情報処理装置２０が一台のコンピュータで構成される場合について説明するが、入出力装置１０及び情報処理装置２０は、複数のコンピュータが組み合わされて実現されてもよい。また、図１６で示す構成は一例であり、入出力装置１０及び情報処理装置２０はこれら以外の構成を有してもよいし、これらの構成のうち一部を有さなくてもよい。ここで、演算部は、制御部１０８及び処理部２２０を含む。

　ＣＰＵ１０ａは、ＲＡＭ１０ｂ又はＲＯＭ１０ｃに記憶されたプログラムの実行に関する制御やデータの演算、加工を行う制御部である。ＣＰＵ１０ａは、画像に含まれる画像オブジェクトを認識して、複数の間の画像オブジェクトの意味関係を推定するプログラム（推定プログラム）を実行する演算部である。ＣＰＵ１０ａは、入力部１０ｅや通信部１０ｄから種々のデータを受け取り、データの演算結果を出力部１０ｆに表示したり、ＲＡＭ１０ｂに格納したりする。

　ＲＡＭ１０ｂは、記憶部のうちデータの書き換えが可能なものであり、例えば半導体記憶素子で構成されてよい。ＲＡＭ１０ｂは、ＣＰＵ１０ａが実行するプログラム、画像及び推定結果といったデータを記憶してよい。なお、これらは例示であって、ＲＡＭ１０ｂには、これら以外のデータが記憶されていてもよいし、これらの一部が記憶されていなくてもよい。

　ＲＯＭ１０ｃは、記憶部のうちデータの読み出しが可能なものであり、例えば半導体記憶素子で構成されてよい。ＲＯＭ１０ｃは、例えば推定プログラムや、書き換えが行われないデータを記憶してよい。

　通信部１０ｄは、入出力装置１０及び情報処理装置２０を他の機器に接続するインターフェースである。通信部１０ｄは、インターネット等の通信ネットワークに接続されてよい。

　入力部１０ｅは、ユーザからデータの入力を受け付けるものであり、例えば、各種のボタン、マウス、キーボード及びタッチパネルを含んでよい。

　出力部１０ｆは、表示部あるいは音声出力部として機能するものである。出力部１０ｆは、例えば、ＬＣＤ（Liquid Crystal Display）等の各種の表示装置を備え、各種の情報を表示してよい。出力部１０ｆは、例えば、画像及び重畳情報等を表示してよい。また、出力部１０ｆは、例えば、スピーカ等の各種の音声出力装置を備え、各種の情報を音声として出力してよい。出力部１０ｆは、例えば、警告を音声として出力してよい。

　推定プログラムは、ＲＡＭ１０ｂやＲＯＭ１０ｃ等のコンピュータによって読み取り可能な記憶媒体に記憶されて提供されてもよいし、通信部１０ｄにより接続される通信ネットワークを介して提供されてもよい。入出力装置１０及び情報処理装置２０では、ＣＰＵ１０ａが推定プログラムを実行することにより、図１等を用いて説明した様々な動作が実現される。なお、これらの物理的な構成は例示であって、入出力装置１０及び情報処理装置２０は、必ずしも独立した構成でなくてもよい。例えば、入出力装置１０及び情報処理装置２０は、ＣＰＵ１０ａとＲＡＭ１０ｂやＲＯＭ１０ｃが一体化したＬＳＩ（Large-Scale Integration）を備えていてもよい。

　以上説明した実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。実施形態が備える各要素及びその配置、材料、条件、形状、サイズ等は、例示したものに限定されるわけではなく適宜変更することができる。また、異なる実施形態で示した構成同士を部分的に置換し又は組み合わせることが可能である。

　図８～図１０及び図１５を参照して説明した各ステップの処理は、本明細書で説明する順序に沿って時系列に実行されてもよいし、矛盾が生じない限り、各ステップの処理が上述した順序と異なる順序で実行されるようにしてもよい。また、各ステップの処理は本明細書で説明したように直列で実施されてもよいし、複数のステップの処理が並列に実行されてもよい。

　上記実施形態では、情報処理装置２０の意味推定ユニット２３０が意味推定を行い、意味推定の結果を後段の機能部（例えば、生成ユニット２４０及び２７０等）に伝送するものとして説明した。これに限らず、意味推定ユニット２３０の後段の機能部が意味推定部を備えてもよい。あるいは、意味推定ユニット２３０が部分的に意味関係を推定し、後段の機能部がアプリケーションに固有の意味関係を追加で推定してもよい。

　上記実施形態では、情報処理装置２０は、１つの画像に基づいて意味関係の推定等の処理を実行するものとして説明した。これに限らず、情報処理装置２０は、複数の画像との関係を用いて、各種の処理を実行してよい。例えば、意味推定部２３８は、時系列で並べられた複数の画像のそれぞれに含まれる特定の画像オブジェクトの位置関係に基づいて、意味関係を推定してもよい。

　例えば、人が右手を上げて、その手にボールを持っているオブジェクト画像を含む画像があるとする。この画像のみでは、人がボールを投げるところなのか、ボールをキャッチするのかを判別することは難しい。しかしながら、過去の画像と現在の画像との関係を見ることにより、ボールが近づいてきているのか、遠ざかっているのかを識別できる。したがって、過去の画像と現在の画像との関係を見ることにより、人がボールを投げるところなのか、ボールをキャッチするところなのかを判別することが可能となる。

　また、画像に物体を手で持っている作業者の画像オブジェクトが含まれているとする。この場合には、意味推定部２３８は、複数の時系列で並べられた複数の画像に含まれる、特定の画像オブジェクトの特徴点（例えば、人の手の特徴点、あるいは物体の特定部分の特徴点）の位置関係に基づいて、意味関係を推定できる。例えば、意味推定部２３８は、作業者が物体を持ち上げているのか、又は作業者が物体を下ろしているのかを示す意味関係を推定できる。

　上記実施形態では、情報処理装置２０は、クラウド上のサーバとして機能するものとして説明したが、これに限定されるものではない。例えば、情報処理装置２０は、入出力装置１０と一体となって構成されてもよい。

　１…情報処理システム、１０…入出力装置、１００…撮像部、１０４…出力部、１０８…制御部、１１０…記憶部、１２０…画像、１３０…人オブジェクト、１３２，１３４，１３６，１３８，１４０，１４２，１４４，１４６，１４８，１５０，１５２，１６２，１６４，１６８…特徴点、１６０…クラブオブジェクト、１６６…ボールオブジェクト、１７０，１８０…画像オブジェクトリスト、１７４，１８４…意味関係リスト、１８２…付帯情報リスト、２０…情報処理装置、２１０…記憶部、２１２…関係情報リスト、２３２…画像取得部、２３４…認識部、２３６…付帯情報推定部、２３７…姿勢推定部、２３８…意味推定部、２４４…指標生成部、２４６…特徴点情報生成部、２７２…負荷推定部、２７３…姿勢クラス判定部、２７４…危険レベル判定部、２７６…情報生成部、２７８…時間計測部

Claims

　複数の対象オブジェクトのそれぞれに含まれる特徴点の空間的関係と前記複数の対象オブジェクトの間の意味情報とを関連付けた関係情報を記憶する記憶部と、
　画像に含まれる複数の画像オブジェクトのそれぞれから抽出される特徴点の空間的関係と前記関係情報とに基づいて、前記複数の画像オブジェクトの間の意味関係を推定する意味推定部と、
を備える、情報処理装置。
　前記意味推定部は、前記画像オブジェクトに付帯する付帯情報に基づいて、前記複数の画像オブジェクトの間の意味関係を推定する、
請求項１に記載の情報処理装置。
　前記複数の画像オブジェクトは、人の画像オブジェクトを含み、
　前記付帯情報は、前記人の年齢、性別、体格、筋力、運動能力、装備品又は携行品の少なくともいずれかに関する情報を含む、
請求項２に記載の情報処理装置。
　前記複数の画像オブジェクトは、人の画像オブジェクトを含み、
　前記付帯情報は、前記人の画像オブジェクトの特徴点に基づき推定される前記人の位置、体格、姿勢及び向きの少なくともいずれかに関する情報を含む、
請求項２又は３に記載の情報処理装置。
　前記複数の画像オブジェクトは、物体の画像オブジェクトを含み、
　前記付帯情報は、前記物体の重さ、材質、重量分布及び重心の少なくともいずれかに関する情報を含む、
請求項２から４のいずれか一項に記載の情報処理装置。
　前記複数の画像オブジェクトは、物体の画像オブジェクトを含み、
　前記付帯情報は、前記物体の画像オブジェクトの特徴点に基づき推定される前記物体の位置、大きさ、形状及び向きの少なくともいずれかに関する情報を含む、
請求項２から５のいずれか一項に記載の情報処理装置。
　前記複数の画像オブジェクトは、人の画像オブジェクト及び物体の画像オブジェクトを含み、
　前記複数の画像オブジェクトの間の意味関係は、前記人による前記物体への動作、前記動作の目的又は前記物体が前記人に与える影響のうちの少なくともいずれかを含む、
請求項１から６のいずれか一項に記載の情報処理装置。
　前記複数のオブジェクトのそれぞれに含まれる特徴点は、第１ラベル情報が付与されている特徴点と、前記第１ラベル情報と特定の関係にある第２ラベル情報が付与された特徴点とを含み、
　前記意味推定部は、第１画像オブジェクトから抽出される第１ラベル情報が付与された特徴点と、前記第２ラベル情報が付与された第２画像オブジェクトの特徴点との空間的関係と前記関係情報とに基づいて、前記第１画像オブジェクトと前記第２画像オブジェクトの間の意味関係を推定する、
請求項１から７のいずれか一項に記載の情報処理装置。
　前記複数の画像オブジェクトは、人の画像オブジェクト及び物体の画像オブジェクトを含み、
　前記意味推定部により推定された前記人の画像オブジェクト及び前記物体の画像オブジェクトの間の意味関係が特定の意味条件を満たし、前記人の画像オブジェクトの特徴点に基づき推定される前記人の状態が特定の状態条件を満たす場合には、前記状態に応じた情報を生成する情報生成部を、さらに備える、
請求項１から８のいずれか一項に記載の情報処理装置。
　前記状態条件は、前記人の画像オブジェクトの特徴点に基づき推定される前記人の姿勢に関する条件を含み、
　前記情報生成部は、前記人の姿勢に応じた情報を生成する、
　請求項９に記載の情報処理装置。
　前記状態条件は、前記人の画像オブジェクトの特徴点及び前記物体の画像オブジェクトに関する重さに関わる付帯情報に基づき推定される前記人にかかる負荷に関する条件を含み、
　前記情報生成部は、前記負荷に応じた情報を生成する、
　請求項１０に記載の情報処理装置。
　前記画像は、複数の画像オブジェクトを含み、
　前記意味推定部は、前記複数の画像オブジェクトのそれぞれについて意味関係を推定し、
　特定の条件に合致する意味関係に対応する画像オブジェクトの特徴点に関する、前記特定の条件に応じた情報を生成する特徴点情報生成部を、さらに備える、
請求項１から１１のいずれか一項に記載の情報処理装置。
　メモリ及びプロセッサを備える情報処理装置による情報処理方法であって、
　前記メモリが、複数の対象オブジェクトのそれぞれに含まれる特徴点の空間的関係と前記複数の対象オブジェクトの間の意味情報とを関連付けた関係情報を記憶することと、
　前記プロセッサが、画像に含まれる複数の画像オブジェクトのそれぞれから抽出される特徴点の空間的関係と前記関係情報とに基づいて、前記複数の画像オブジェクトの間の意味関係を推定することと、
を含む、情報処理方法。
　コンピュータに、
　複数の対象オブジェクトのそれぞれに含まれる特徴点の空間的関係と前記複数の対象オブジェクトの間の意味情報とを関連付けた関係情報を記憶することと、
　画像に含まれる複数の画像オブジェクトのそれぞれから抽出される特徴点の空間的関係と前記関係情報とに基づいて、前記複数の画像オブジェクトの間の意味関係を推定することと、
を実行させるためのプログラム。
　複数の対象オブジェクトのそれぞれに含まれる特徴点の空間的関係と前記複数の対象オブジェクトの間の意味情報とを関連付けた関係情報を記憶する記憶部と、
　動画像に含まれる複数の画像オブジェクトのそれぞれから特徴点を抽出する認識部であって、前記複数の画像オブジェクトは人の画像オブジェクト及び物体の画像オブジェクトを含む、認識部と、
　前記複数の画像オブジェクトに含まれる特徴点の空間的関係と前記関係情報とに基づいて、前記複数の画像オブジェクトの間の意味関係を推定する意味推定部と、
を備える、情報処理装置。