WO2024075206A1

WO2024075206A1 - ピックアンドプレース動作予測装置、予測方法、および予測プログラム

Info

Publication number: WO2024075206A1
Application number: PCT/JP2022/037250
Authority: WO
Inventors: 雅人宮原; 仁志瀬下; 大祐佐藤; 成宗松村; 匡人福田; 太智金田
Original assignee: 日本電信電話株式会社
Priority date: 2022-10-05
Filing date: 2022-10-05
Publication date: 2024-04-11

Abstract

ピックアンドプレース動作予測装置は、到達点系列予測部と動作予測部とを有する。到達点系列予測部は、ピックアンドプレース作業を行う作業者に関する第三者視点の映像情報と過去の骨格座標系列の少なくともいずれかと、過去の到達点系列を入力として受け取り、機械学習による予測モデルを用いて、未来の到達点系列を予測する。動作予測部は、過去の骨格座標系列と、到達点系列予測部によって予測された未来の到達点系列とを入力として受け取り、機械学習による予測モデルを用いて、作業者の未来の骨格座標系列を予測する。

Description

ピックアンドプレース動作予測装置、予測方法、および予測プログラム

　本発明は、ピックアンドプレース動作予測装置、予測方法、および予測プログラムに関する。

　人が部屋の片付け作業や陳列業務などの作業を繰り返し行う際に、ロボット技術によるサポートを行うことが考えられる。その際に、ロボットが作業者である人の動きを予測することで、効率よく作業を進めたり、人との衝突を回避して安全に作業を実行したりすることができる。

　また、遠隔地にある人型ロボットやアーム型ロボットを人が操作して片付け作業を行う際には、操作情報となる人の動作を予測し、遠隔地のロボットを先行動作させることで、通信遅延による作業効率の低下の悪影響を低減させることが期待される。

　人の動作を予測する技術はこれまでにも多くの技術が提案されている。多くの骨格予測手法では、映像やセンサなどから抽出された人の過去の骨格情報の時系列情報（骨格座標系列）を入力として、未来時刻の骨格座標系列の予測を行う。近年では、骨格以外の人の動きの特性の知見を考慮したモデルに改良することで、予測精度を向上させた手法が生まれている。非特許文献１では、人の動作が空間中の一点に向かう目的志向であるという知見を活用している。歩行者が映る第三者視点の映像情報から、映像に映る部屋のどこまで歩くかという到達点を事前に予測し、予測した到達点と過去の骨格座標系列を用いて未来の骨格位置座標を予測する。

　片付け作業や陳列業務など対象物を掴んで所定の場所に置くピックアンドプレース作業を繰り返し行う人の動きを予測する際にも、到達点の活用は有効であると期待される。人が対象物を掴む動きをする際には「物体を掴む位置」が到達点となり、人が物体を置く際には「物体を置く位置」が到達点となる。非特許文献１と同様に、これらの動きの到達点を事前に予測して、骨格座標系列と併せて動作予測に活用することで、予測精度を上げることが期待される。

Z. Cao, H. Gao, K. Mangalam, Q.-Z. Cai, M. Vo, and J. Malik, "Long-Term Human Motion Prediction with Scene Context", Computer Vision - ECCV 2020, Cham, 2020, pp. 387-404. <URL:https://doi.org/10.1007/978-3-030-58452-8_23>.

　非特許文献１の手法を用いて、ピックアンドプレース作業を行う人の動作を予測する際には、二つの課題がある。以下、図５を参照して、これら二つの課題について説明する。図５は、ピックアンドプレース作業を行う人の動作の予測における二つの課題を模式的に示す図である。

　一点目の課題（課題１）は、動作切り替わり区間で予測精度が低下する点である。ピックアンドプレース作業では、「皿を掴む」→「棚に運ぶ」のような到達点の異なる動作への切り替わりが起こる。予測時刻と予測時刻先の間で、過去の観測情報（骨格座標系列、映像情報）では絞り込めない移動方向の変化が起こり、骨格座標系列や現在の動作の到達点では絞りきれない移動方向の変化が発生することで、動作切り替わり区間での動作予測の精度が低下する。

　二点目の課題（課題２）は、観測情報が不足した段階での動作予測が困難である点である。同じ到達点内の動作でも、ある程度動作が継続して、入力となる骨格座標系列や映像情報などの時系列の観測情報が十分に得られるまで動作を絞り込むのが難しい。

　本発明は、上記事情に着目してなされたもので、その目的は、ピックアンドプレース作業を行う人の動作をいち早く高い精度で予測することができるピックアンドプレース動作予測装置、予測方法、および予測プログラムを提供することにある。

　本発明の一態様は、ピックアンドプレース動作予測装置である。ピックアンドプレース動作予測装置は、到達点系列予測部と動作予測部とを有する。到達点系列予測部は、ピックアンドプレース作業を行う作業者に関する第三者視点の映像情報と過去の骨格座標系列の少なくともいずれかと、過去の到達点系列を入力として受け取り、機械学習による予測モデルを用いて、未来の到達点系列を予測する。動作予測部は、過去の骨格座標系列と、到達点系列予測部によって予測された未来の到達点系列とを入力として受け取り、機械学習による予測モデルを用いて、作業者の未来の骨格座標系列を予測する。

　本発明の一態様は、ピックアンドプレース動作予測方法である。ピックアンドプレース動作予測方法は、ピックアンドプレース作業を行う作業者に関する第三者視点の映像情報と過去の骨格座標系列と過去の到達点系列を入力として受け取り、機械学習による予測モデルを用いて、未来の到達点系列を予測するステップと、過去の骨格座標系列と、未来の到達点系列とを入力として受け取り、機械学習による予測モデルを用いて、作業者の未来の骨格座標系列を予測するステップとを有する。

　本発明の一態様は、ピックアンドプレース動作予測プログラムである。ピックアンドプレース動作予測プログラムは、プロセッサと記憶装置を有するコンピュータに、上記のピックアンドプレース動作予測装置の構成要素の少なくとも一部の機能を実行させる。

　本発明によれば、ピックアンドプレース作業を行う人の動作をいち早く高い精度で予測することができるピックアンドプレース動作予測装置、予測方法、および予測プログラムが提供される。

図１は、実施形態に係るピックアンドプレース動作予測装置の機能構成を示すブロック図である。図２は、実施形態に係るピックアンドプレース動作予測装置のハードウェア構成を示すブロック図である。図３は、実施形態に係るピックアンドプレース動作予測装置が実行する未来の骨格座標系列を予測する処理の流れを示すフローチャートである。図４は、実施形態に係るピックアンドプレース動作予測装置が実行する未来の骨格座標系列を予測する処理の流れを模式的に示す図である。図５は、ピックアンドプレース作業を行う人の動作予測の従来例における課題を模式的に示す図である。

　以下、図面を参照して本発明に係る実施形態について説明する。

　〈構成例〉
　（機能構成）
　まず、図１を参照して、実施形態に係るピックアンドプレース動作予測装置の機能構成について説明する。図１は、実施形態に係るピックアンドプレース動作予測装置の機能構成を示すブロック図である。

　ピックアンドプレース動作予測装置１０は、ピックアンドプレース作業を行う人の未来の身体動作を予測する装置である。ピックアンドプレース作業は、操作対象である物体を掴み、移動し、物体を置く作業である。そのような作業は、一例として、片付け作業があげられる。以下では、便宜上、ピックアンドプレース作業を行う人を作業者と称する。作業者の身体動作は、作業者の骨格座標系列で表現される。つまり、骨格座標系列は身体動作を意味する。

　ピックアンドプレース動作予測装置１０への入力情報は、作業者の過去の骨格座標系列、第三者視点の映像情報およびdepth情報、過去の到達点系列である。過去の骨格座標系列は、映像やセンサなどから抽出された作業者の過去の骨格情報の時系列情報である。第三者視点の映像情報は、作業者と作業空間全体が映った映像情報であり、また、depth情報は、作業空間内の各物体の位置を示す情報である。過去の到達点系列は、過去のピックアンドプレース作業における到達点の時系列情報である。すなわち、過去の到達点系列は、作業者が物体を「掴んだ位置」と「置いた位置」の時系列情報である。過去の到達点系列の表現方法は、物体の中心位置の３次元位置座標や、物体の配置候補位置の組み合わせのone-hot表現で表すことが考えられる。

　また、ピックアンドプレース動作予測装置１０からの出力情報は、作業者の未来の骨格座標系列である。未来の骨格座標系列は、動作予測を行う予測時刻よりも先の予測時刻先における作業者の骨格情報の時系列情報である。未来の骨格座標系列は、例えば、作業者と協調作業するロボットに利用される。あるいは、未来の骨格座標系列は、遠隔地にある人型ロボットやアーム型ロボットの遠隔操作に利用される。

　ピックアンドプレース動作予測装置１０は、入力部２０と、到達点系列予測部３０と、動作予測部４０と、出力部５０とを有する。

　入力部２０は、外部からピックアンドプレース動作予測装置１０に入力される作業者の過去の骨格座標系列と第三者視点の映像情報およびdepth情報と過去の到達点系列を受け取る。入力部２０は、受け取った過去の骨格座標系列と第三者視点の映像情報およびdepth情報と到達点系列を到達点系列予測部３０に渡す。入力部２０はまた、受け取った過去の骨格座標系列を動作予測部４０に渡す。

　入力情報の作業者の過去の骨格座標系列は、作業者の全身骨格に関するものだけでなく、作業者の左右の腕や上半身のみなど、ピックアンドプレース作業に関連する一部の身体部位のみに関するものでもよい。

　到達点系列予測部３０は、入力部２０から第三者視点の映像情報およびdepth情報と過去の骨格座標系列と過去の到達点系列を入力として受け取り、機械学習による予測モデルを用いて、未来の到達点系列を予測する。到達点系列予測部３０は、予測モデルを記憶しておくモデル記憶部３１を有する。到達点系列予測部３０は、予測した未来の到達点系列を動作予測部４０に渡す。

　ピックアンドプレース作業では、物体を掴む際には「掴む位置」、物体を運ぶ動作や置く動作では物体を「置く位置」が到達点となる。到達点の表現方法は、物体の中心位置の３次元位置座標で表すことが考えられる。未来の到達点系列は、作業者が未来で物体を「掴む位置」と「置く位置」の３次元位置座標の系列である。予め物体を「置く位置」が作業中で決まっている場合には、物体を「置く位置」の組み合わせのone-hot表現で表すことが考えられる。未来の到達点系列の予測において、必ずしも入力情報の全てを用いる必要はなく、用いる予測モデルに合わせて選択をすればよい。

　一例では、到達点系列予測部３０は、一つ過去の到達点を用いた次の到達点の逐次的な予測を繰り返し行うことで、再帰的に将来の到達点系列を予測する。到達点を逐次的に予測する既存手法としては、Markovモデルのように、ある到達点から次の到達点への遷移確率を事前に別の作業データから学習し、予測に用いる手法が考えられる。また、非特許文献１のように、映像情報およびdepth情報からVariational Auto Encoder（ＶＡＥ）などの深層生成モデルを用いて現在の動作の到達点を推定し、その後、Markovモデルなどの逐次的な予測モデルを用いて、再帰的に未来の動作の到達点を予測する方法が考えられる。

　別の例では、到達点系列予測部３０は、過去の到達点系列を用いて直接に未来の到達点系列を予測する。直接に到達点系列を予測する方法としては、Seq-to-Seqなどの既存の決定的な深層学習ベースの時系列予測モデルを用いる方法、ガウス過程回帰やNeural Processなどの確率ベースの時系列予測手法が考えられる。

　動作予測部４０は、入力部２０から作業者の過去の骨格座標系列を、到達点系列予測部３０から未来の到達点系列を入力として受け取り、機械学習による予測モデルを用いて、作業者の未来の骨格座標系列を予測する。動作予測部４０は、予測モデルを記憶しておくモデル記憶部４１を有する。動作予測部４０は、予測した未来の骨格座標系列を出力部５０に渡す。

　動作予測部４０が用いる予測モデルとしては、既存の骨格予測で用いられるようなＲＮＮやSeq-to-Seqなどの既存の深層学習ベースの時系列予測モデルが考えられる。

　また、ガウス過程などのベイズベースの手法やNeural Processなどの深層ベイズベースの手法を用いることで、人の動きの不確実性を考慮した確率的な予測を行う手法も考えられる。確率的な予測を行うことで、尤もらしい動作系列だけでなく、起こりうる全ての動作系列の候補とその確率値も、ロボット等の外部装置に渡すことができる。動作系列の候補と確率値を活用方法の例として、ロボットが作業者と協調作業を行う際などに、より安全なロボットの動作経路の生成が考えられる。

　出力部５０は、動作予測部４０から未来の骨格座標系列を受け取り、ピックアンドプレース動作予測装置１０の外部へ出力する。ピックアンドプレース動作予測装置１０から出力される未来の骨格座標系列は、一例では、ピックアンドプレース作業を行う作業者と協調動作するロボットの制御に利用される。別の例では、未来の骨格座標系列は、遠隔地においてピックアンドプレース作業を行う人型ロボットやアーム型ロボットの遠隔操作に利用される。

　（ハードウェア構成）
　次に、ピックアンドプレース動作予測装置１０のハードウェア構成について説明する。例えば、ピックアンドプレース動作予測装置１０は、パーソナルコンピュータやサーバコンピュータ等で構成される。

　図２は、実施形態に係るピックアンドプレース動作予測装置１０のハードウェア構成を示すブロック図である。図２に示されるように、ピックアンドプレース動作予測装置１０は、プロセッサ６１と、ＲＯＭ（Read Only Memory）６２と、ＲＡＭ（Random Access Memory）６３と、補助記憶装置６４と、入出力インタフェース６５とを有する。

　プロセッサ６１とＲＯＭ６２とＲＡＭ６３と補助記憶装置６４と入出力インタフェース６５は、バス６６を介して互いに電気的に接続されており、バス６６を介してデータのやりとりを行う。

　プロセッサ６１は、たとえば、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphical Processing Unit）等を含む汎用ハードウェアプロセッサで構成される。プロセッサ６１は、ＲＯＭ６２とＲＡＭ６３と補助記憶装置６４と入出力インタフェース６５の全体を制御する。

　ＲＯＭ６２は、主記憶装置の一部を構成する不揮発性メモリである。ＲＯＭ６２は、プロセッサ６１の起動時に必要な起動プログラムを非一時的に記憶している。プロセッサ６１は、ＲＯＭ６２内のプログラムを実行することにより起動する。ＲＯＭ６２は、たとえば、ＥＰＲＯＭ（Erasable Programmable Read Only Memory）で構成され、起動プログラムに加えて、起動時の諸設定を記憶している。

　ＲＡＭ６３は、主記憶装置の一部を構成する揮発性メモリである。ＲＡＭ６３は、プロセッサ６１の処理に必要なプログラムとプログラムの実行に必要なデータを一時的に記憶する。ＲＡＭ６３は、プロセッサ６１は、ＲＡＭ６３内のプログラムを実行することにより、ＲＡＭ６３内のデータを演算し、演算結果をＲＡＭ６３に記憶させる。

　補助記憶装置６４は、ＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）等の不揮発性メモリで構成される。補助記憶装置６４は、プロセッサ６１が実行するプログラムとプログラムの実行に必要なデータを非一時的に記憶している。プロセッサ６１は、補助記憶装置６４内のプログラムとデータをＲＡＭ６３内に読み込み、プログラムを実行することにより各種機能を実行する。

　入出力インタフェース６５は、外部の入力デバイス７１や出力デバイス７２等と接続され、入力デバイス７１からの情報の入力、出力デバイス７２への情報の出力を可能にする。たとえば、入出力インタフェース６５は、有線のインタフェースであっても、無線のインタフェースであってもよい。有線のインタフェースは、デバイスが接続されるポート等を含む。無線のインタフェースは、Bluetooth（登録商標）、WiFi（登録商標）等を含む。入出力インタフェース６５は、入力部２０と、出力部５０を構成する。

　入力デバイス７１は、ピックアンドプレース動作予測装置１０に、映像情報、depth情報、過去の骨格座標系列、過去の到達点系列を入力する機器を含む。例えば、入力デバイス７１は、受信装置を含む。また、入力デバイス７１は、ディスクドライブ、キーボード、マウス、タッチパネル等を含み得る。入力デバイス７１は、これに限らず、他の任意の入力機器を含み得る。出力デバイス７２は、未来の骨格座標系列を出力する機器を含む。例えば、出力デバイス７２は、送信装置を含む。また、出力デバイス７２は、ディスクドライブ、ディスプレイ等を含み得る。出力デバイス７２は、これに限らず、他の任意の出力機器を含み得る。入力デバイス７１と出力デバイス７２は、両者の機能を有する入出力デバイス７３で構成されてもよい。

　補助記憶装置６４に非一時的に記憶されるプログラムは、たとえば、プログラムを非一時的に記録したコンピュータで読み取り可能な記録媒体７４を介して、コンピュータに提供される。そのような記録媒体７４は、非一時的コンピュータ読取可能記録媒体と呼ばれる。非一時的コンピュータ読取可能記録媒体は、フレキシブルディスク、光ディスク（ＣＤ－ＲＯＭ、ＣＤ－Ｒ、ＤＶＤ－ＲＯＭ、ＤＶＤ－Ｒ等）、光磁気ディスク（ＭＯ等）等のディスクや、半導体メモリ等を含む。

　補助記憶装置６４に非一時的に記憶されるプログラムは、記録媒体７４がディスクである場合には、入力デバイス７１であるディスクドライブと入出力インタフェース６５を介して、記録媒体７４が半導体メモリある場合には、入出力インタフェース６５であるポートを介して、補助記憶装置６４に読み込まれ非一時的に記憶される。また、プログラムは、ネットワーク上のサーバに格納されており、サーバからダウンロードされ、補助記憶装置６４に非一時的に記憶されてもよい。

　補助記憶装置６４に非一時的に記憶されるプログラムは、ピックアンドプレース動作予測プログラムを含む。ピックアンドプレース動作予測プログラムは、ピックアンドプレース動作予測装置１０を構成するコンピュータに、入力部２０と到達点系列予測部３０と動作予測部４０と出力部５０の機能を実行させるプログラムである。

　プロセッサ６１は、起動時に、ＲＯＭ６２内のプログラムを実行し、ＲＡＭ６３内にＯＳを読み込み起動する。プロセッサ６１は、ＯＳによる制御の下、指示入力や外部機器の接続等を監視する。また、プロセッサ６１は、ＯＳによる制御の下、ＲＡＭ６３内にプログラムエリアとデータエリアを設定する。プロセッサ６１は、ピックアンドプレース動作予測装置１０の起動の指示入力に対して、補助記憶装置６４からピックアンドプレース動作予測プログラムをＲＡＭ６３のプログラムエリアに読み込むとともに、ピックアンドプレース動作予測プログラムの実行に必要な予測モデルやデータを補助記憶装置６４からＲＡＭ６３のデータエリアに読み込む。プロセッサ６１は、ピックアンドプレース動作予測プログラムに従ってデータエリアのデータを演算し、演算結果をデータエリアに書き込む。このような動作によって、プロセッサ６１とＲＡＭ６３と補助記憶装置６４と入出力インタフェース６５は共働して、ピックアンドプレース動作予測装置１０の入力部２０と到達点系列予測部３０と動作予測部４０と出力部５０の機能を実行する。

　〈動作例〉
　次に、図３を参照して、ピックアンドプレース動作予測装置１０が実行する作業者の未来の身体動作すなわち骨格座標系列を予測する処理について説明する。図３は、実施形態に係るピックアンドプレース動作予測装置１０が実行する未来の骨格座標系列を予測する処理の流れを示すフローチャートである。言い換えれば、図３は、実施形態に係るピックアンドプレース動作予測方法のフローチャートである。

　ステップＳ１において、到達点系列予測部３０は、入力部２０から第三者視点の映像情報およびdepth情報と過去の骨格座標系列と過去の到達点系列を取得する。

　ステップＳ２において、到達点系列予測部３０は、ステップＳ１において取得した映像情報およびdepth情報と過去の骨格座標系列と過去の到達点系列を入力として、機械学習による予測モデルを用いて、未来の到達点系列を予測する。

　ステップＳ３において、動作予測部４０は、入力部２０から作業者の過去の骨格座標系列を取得するとともに、ステップＳ２において予測された未来の到達点系列を到達点系列予測部３０から取得する。

　ステップＳ４において、動作予測部４０は、ステップＳ３において取得した過去の骨格座標系列と未来の到達点系列を入力として、機械学習による予測モデルを用いて、作業者の未来の骨格座標系列すなわち身体動作を予測する。

　図４に、第三者視点の映像情報およびdepth情報と過去の骨格座標系列と過去の到達点系列から、上記のステップＳ１～ステップＳ４の処理を経て、ピックアンドプレース動作予測装置が作業者の未来の骨格座標系列を予測する処理の流れを模式的に示す。

　〈効果〉
　実施形態に係るピックアンドプレース動作予測装置１０では、到達点系列予測部３０は、第三者視点の映像情報およびdepth情報と過去の骨格座標系列に加えて、過去の到達点系列を入力として、機械学習による予測モデルを用いて、未来の到達点系列を予測する。動作予測部４０は、作業者の過去の骨格座標系列と、到達点系列予測部３０が予測した未来の到達点系列を入力として、機械学習による予測モデルを用いて、作業者の未来の骨格座標系列を予測する。動作予測部４０が行う予測は、過去の骨格座標系列の他、未来の到達点系列に基づくため、ピックアンドプレース作業を行う作業者の身体動作を早いタイミングで絞り込むことができる。つまり、動作切り替わりのタイミングや、従来用いられていた過去の観測情報（骨格座標系列、映像情報）では絞りきれないタイミングでも、動作予測の精度を向上させることができる。つまり、動作切り替わり区間での動作予測の精度が向上する。このため、実施形態に係るピックアンドプレース動作予測装置１０は、作業者の未来の身体動作をいち早く高い精度で予測することができる。

　実施形態に係るピックアンドプレース動作予測装置１０を、ピックアンドプレース作業を行う作業者と協調動作するロボットに適用した場合、作業者の身体動作をロボットが予測して動作することで、効率良く作業を進めたり、作業者との衝突を回避して安全に作業を実行したりすることができる。

　実施形態に係るピックアンドプレース動作予測装置１０を、遠隔地においてピックアンドプレース作業を行う人型ロボットやアーム型ロボットに適用した場合、遠隔作業の先行実行の誤動作による失敗が削減され、作業者が所望した方向へ動いているか確認する時間を短縮することが期待できるため、遠隔作業全体の作業時間の短縮できる。

　実施形態では、ピックアンドプレース動作予測装置１０がプロセッサ６１と記憶装置（ＲＯＭ６２とＲＡＭ６３と補助記憶装置６４）を有するコンピュータで構成され、記憶装置がピックアンドプレース動作予測プログラムを記憶し、プロセッサ６１がピックアンドプレース動作予測プログラムを実行することにより、ピックアンドプレース作業を行う作業者の身体動作を予測する例について説明した。しかし、プロセッサ６１が実行するピックアンドプレース動作予測プログラムの一部の機能は、コンピュータにすでに記録されているプログラムとの組み合わせによって実施されてもよく、また、ＰＬＤ（Programmable Logic Device）やＦＰＧＡ（Field Programmable Gate Array）、ＧＰＵ（Graphic Processing Unit）等のハードウェアを用いて実施されてもよい。

　なお、本発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。更に、上記実施形態には種々の発明が含まれており、開示される複数の構成要件から選択された組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、課題が解決でき、効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。

　　１０…ピックアンドプレース動作予測装置
　　２０…入力部
　　３０…到達点系列予測部
　　３１…モデル記憶部
　　４０…動作予測部
　　４１…モデル記憶部
　　５０…出力部
　　６１…プロセッサ
　　６２…ＲＯＭ
　　６３…ＲＡＭ
　　６４…補助記憶装置
　　６５…入出力インタフェース
　　６６…バス
　　７１…入力デバイス
　　７２…出力デバイス
　　７３…入出力デバイス
　　７４…記録媒体

Claims

　ピックアンドプレース作業を行う作業者に関する第三者視点の映像情報と過去の骨格座標系列の少なくともいずれかと、過去の到達点系列を入力として受け取り、機械学習による予測モデルを用いて、未来の到達点系列を予測する到達点系列予測部と、
　前記過去の骨格座標系列と、前記到達点系列予測部によって予測された前記未来の到達点系列とを入力として受け取り、機械学習による予測モデルを用いて、前記作業者の未来の骨格座標系列を予測する動作予測部と、
　を有する、ピックアンドプレース動作予測装置。
　前記到達点系列予測部は、前記映像情報に加えてdepth情報を入力として受け取り、前記予測モデルを用いて、前記未来の到達点系列を予測する、
　請求項１に記載のピックアンドプレース動作予測装置。
　前記到達点系列予測部は、一つ過去の到達点を用いた次の到達点の逐次的な予測を繰り返し行うことで、再帰的に前記未来の到達点系列を予測する、
　請求項１に記載のピックアンドプレース動作予測装置。
　前記到達点系列予測部は、前記過去の到達点系列を用いて直接に前記未来の到達点系列を予測する、
　請求項１に記載のピックアンドプレース動作予測装置。
　前記動作予測部は、前記作業者の動きの不確実性を考慮した確率的な前記未来の到達点系列の予測を行う、
　請求項１に記載のピックアンドプレース動作予測装置。
　ピックアンドプレース作業を行う作業者に関する第三者視点の映像情報と過去の骨格座標系列と過去の到達点系列を入力として受け取り、機械学習による予測モデルを用いて、未来の到達点系列を予測するステップと、
　前記過去の骨格座標系列と、前記未来の到達点系列とを入力として受け取り、機械学習による予測モデルを用いて、前記作業者の未来の骨格座標系列を予測するステップと、
　を有する、ピックアンドプレース動作予測方法。
　プロセッサと記憶装置を有するコンピュータに、
　請求項１から５までのいずれかひとつに記載のピックアンドプレース動作予測装置の構成要素の少なくとも一部の機能を実行させる、
　ピックアンドプレース動作予測プログラム。