WO2020246075A1

WO2020246075A1 - 行動制御装置と行動制御方法およびプログラム

Info

Publication number: WO2020246075A1
Application number: PCT/JP2020/006447
Authority: WO
Inventors: 由香有木; 脩繁田; 充奨沢田; 清和宮澤; 嵩明加藤; 康史林田
Original assignee: ソニー株式会社
Priority date: 2019-06-04
Filing date: 2020-02-19
Publication date: 2020-12-10

Abstract

行動体２０の行動決定部２４は、撮像部２１で取得された時系列撮像画像に生じた行動体２０に対する行動に応じた画像変化に基づき、行動体２０に対して行われた行動、例えば行動体２０の姿勢変化を生じさせる行動、行動体２０の位置変化を生じさせる行動、撮像画像に含まれる被写体の属性変化、行動体２０に対するユーザの指示操作等に応じて、行動体２０が行う行動を決定する。行動実行部２５は、行動決定部２４で決定された行動を行動体２０で行わせる。行動体の行動を行動体で取得された撮像画像に基づいて自律的に決定できる。

Description

行動制御装置と行動制御方法およびプログラム

　この技術は、行動制御装置と行動制御方法およびプログラムに関し、行動体の行動を行動体で取得された撮像画像に基づいて自律的に決定できるようにする。

　近年、犬や猫等をモデルとしたペット型ロボットや人をモデルとした人間型ロボット等の開発が進められている。例えば、特許文献１では、アプリケーションプログラムを外部記憶からロードして実行することで、歩行や跳躍、ダンスなど全身動作を利用した各種パフォーマンスが行われる。また、特許文献２では、外部情報の認識結果と、二次元空間における感情や種々の気持ちの状態を示す行動マップを利用して、ロボットの動作が決定されている。

特開２００３－２６６３３９号公報特許第６４３６５４９号公報

　ところで、特許文献１のようにアプリケーションプログラムをロードして実行する場合、自律的な動作をロボットで行うことができない。また、特許文献２のように行動マップを用いる場合、ロボットが位置する二次元空間毎および感情や気持ち毎の行動マップを生成しなければならない。

　そこで、この技術では、行動体の行動を行動体で取得された撮像画像に基づいて自律的に決定できる行動制御装置と行動制御方法およびプログラムを提供することを目的とする。

　この技術の第１の側面は、
　行動体で取得された時系列撮像画像における画像変化に基づき、前記行動体に対して行われた行動に応じて前記行動体が行う行動を、学習モデルを用いて決定する行動決定部
を備える行動制御装置にある。

　この技術において、行動決定部は、行動体で取得された時系列撮像画像に生じた行動体に対する行動に応じた画像変化に基づき、例えば画像変化が予め設定された閾値を超えたとき、行動体に対して行われた行動や行動体に対して行われた行動の速度に応じて行動体が行う行動を決定する。行動体に対して行われた行動とは、例えば、行動体の姿勢変化を生じさせる行動、行動体の位置変化を生じさせる行動、撮像画像に含まれる被写体の属性変化、行動体に対するユーザの指示操作である。また、行動決定部は、時系列撮像画像に生じた行動体に対する行動に応じた画像変化に基づき、行動体が行う行動を、学習モデルを用いて決定する。

　行動実行部は、行動決定部で決定された行動を行動体で行わせる。学習モデルは、通信部によって外部から取得する。学習モデルは、行動決定部で決定された行動を行動体で開始後に行われた行動体に対する行動に応じた画像変化を用いた強化学習によって生成されてもよい。

　この技術の第２の側面は、
　行動体で取得された時系列撮像画像における画像変化に基づき、前記行動体に対して行われた行動に応じて前記行動体が行う行動を、学習モデルを用いて行動決定部で決定すること
を含む行動制御方法にある。

　この技術の第３の側面は、
　行動体の行動制御をコンピュータで実行させるプログラムであって、
　前記行動体で取得した時系列撮像画像における画像変化に基づき、前記行動体に対して行われた行動に応じて前記行動体が行う行動を、学習モデルを用いて決定する手順と
を前記コンピュータで実行させるプログラムにある。

　なお、本技術のプログラムは、例えば、様々なプログラムコードを実行可能な汎用コンピュータに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体、例えば、光ディスクや磁気ディスク、半導体メモリなどの記憶媒体、あるいは、ネットワークなどの通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、コンピュータ上でプログラムに応じた処理が実現される。

行動制御システムの構成を例示した図である。行動体制御動作を例示したフローチャートである。行動体の第１の動作例を示す図である。行動体の第２の動作例を示す図である。

　以下、本技術を実施するための形態について説明する。なお、説明は以下の順序で行う。
　１．実施の形態の構成
　２．実施の形態の動作

　＜１．実施の形態の構成＞
　図１は、本技術を用いた行動制御システム１０の構成を例示している。行動制御システム１０は、行動体２０とサーバ３０を有している。

　行動体２０は、撮像部２１、通信部２２、記憶部２３、行動決定部２４、行動実行部２５、電源部２６等を有している。

　撮像部２１は、ＣＭＯＳ（Complementary Metal Oxide Semiconductor）やＣＣＤ（Charge Coupled Device）等の撮像素子を用いて構成されている。撮像部２１は、行動体２０の前方あるいは周囲の撮像を行い、取得した撮像画像を通信部２２や行動決定部２４へ出力する。

　通信部２２は、サーバ３０との通信を行う。例えば通信部２２は撮像部２１で取得した撮像画像を無線通信でサーバ３０へ送信する。また、通信部２２は、サーバ３０から取得した学習モデル等を記憶部２３へ出力する。

　記憶部２３は、コンピュータプログラムや各種設定情報、サーバ３０から取得した学習モデル等を記憶する。

　行動決定部２４は、記憶部２３に記憶されているコンピュータプログラムを実行して各部の制御を行うことで行動体２０を動作させる。具体的には、撮像部２１で取得された時系列撮像画像における画像変化に基づき、行動体２０に対して行われた行動に応じて行動体２０が行う行動を、サーバ３０で生成された学習モデルを用いて決定する。また、行動決定部２４は、決定した行動を行動体２０で行うように制御信号を生成して行動実行部２５へ出力する。

　行動実行部２５は、行動体２０で種々の動作を行うための駆動機構を有している。例えば行動体２０がロボットである場合、行動実行部２５は、頭部や四肢、目や口等を動かすための駆動機構や音声出力機構等を有している。行動実行部２５は、行動決定部２４からの制御信号に基づき各駆動機構を駆動して、行動決定部２４で決定した行動（例えば移動動作や姿勢変更動作，表情変更動作，音声出力動作等）を行動体２０で行わせる。

　サーバ３０は、通信部３１、記憶部３２、学習モデル生成部３３、制御部３４を有している。通信部３１は、行動体２０との通信を行う。例えば通信部３１は行動体２０と無線通信を行い、撮像部２１で取得した撮像画像を取得して制御部３４へ出力する。また、通信部３１は、学習モデル生成部３３で生成した学習モデルを行動体２０へ送信する。

　記憶部３２は、コンピュータプログラムや各種設定情報、行動体２０で取得された撮像画像や学習モデル生成部３３で生成された学習モデル等を記憶する。

　学習モデル生成部３３は、記憶部３２に記憶されている時系列撮像画像を入力として行動を決定する学習済みの学習モデルを生成する。学習モデル生成部３３は、時系列撮像画像を用いた機械学習を行い、学習済みの学習モデル（例えばＤＮＮ（Deep Neural Network）モデル等）を生成する。なお、学習に用いる撮像画像は、行動体２０で取得された撮像画像に限らず、予め学習用に記憶されている撮像画像を用いてもよい。

　制御部３４は、記憶部３２に記憶されているコンピュータプログラムを実行して各部の制御を行うことでサーバ３０を動作させる。例えば、制御部３４は、通信部３１を介して行動体２０から取得した時系列撮像画像を記憶部３２に記憶させる。また、制御部３４は、記憶部３２に記憶されている時系列撮像画像を用いた機械学習を所定タイミングあるいは所定期間経過毎に学習モデル生成部３３で行わせて、学習済みの学習モデルを生成させる。さらに、制御部３４は、学習モデル生成部３３で生成された学習モデルを所定のタイミングあるいは行動体２０からの要求に応じて通信部３１から行動体２０へ送信する。なお、サーバ３０に情報提示部３５を設けて、記憶部３２に記憶されている情報例えば撮像画像等を確認できるようにしてもよい。

　＜２．実施の形態の動作＞
　次に、実施の形態の動作について説明する。なお、以下の説明では、サーバ３０で生成された学習済みの学習モデルが行動体２０に供給されているとする。

　図２は行動体制御動作を例示したフローチャートである。ステップＳＴ１で行動体２０は、撮像画像を取得する。行動体２０の撮像部２１は撮像画像の取得を開始してステップＳＴ２に進む。

　ステップＳＴ２で行動体２０は行動を決定する。行動体２０の行動決定部２４は、撮像部２１で取得された時系列撮像画像を学習モデルに入力して行動体２０の行動を決定してステップＳＴ３に進む。

　ステップＳＴ３で行動体２０は行動を実行する。行動体２０の行動決定部２４は、ステップＳＴ２で決定した行動に対応する制御信号を生成して行動実行部２５へ出力することで、ステップＳＴ２で決定した行動を行動体２０で行いステップＳＴ２に戻る。

　このように、行動決定部２４は、決定した行動を行動体２０で行うことによって生じた時系列撮像画像における画像変化に基づき、行動体２０がその後に行う行動を、学習モデルを用いて決定することから、行動体２０は、取得した撮像画像に基づいて自律的に行動を行うことができる。また、ステップＳＴ３の行動の開始後に行動体２０に対して行われた行動に応じた画像変化に基づき、行動体に対して行われた行動に応じて行動体２０が行う行動が学習モデルを用いて決定される。したがって、行動体２０は、取得した撮像画像に基づいて、行動体に対して行われた行動に応じた応答動作を自律的に行うことができるようになる。

　図３は、行動体の第１の動作例を示している。第１の動作例では、行動体（例えばペット型ロボット）に対して行われた行動が行動体の姿勢変化を生じさせる行動である場合を例示している。

　行動体２０は、図３の（ａ）に示すように、壁面Ｗａ，Ｗｂ，Ｗｃ，Ｗｄで区切られた空間の床面ＦＬを破線の矢印で示すように移動しており、移動中に撮像画像を取得する。なお、図３の（ｂ）は、行動体２０が図３の（ａ）に示す位置で取得した撮像画像を例示している。

　行動体２０は取得した撮像画像に基づき壁面までの距離を測定して、壁面にぶつからないように移動する。なお、壁面までの距離は、例えば行動体２０で右視点と左視点の撮像画像を取得して、右視点と左視点の撮像画像で生じた視差に基づいて算出してもよく、像面位相差検出画素を有する撮像素子を撮像部２１で用いて、距離を算出してもよい。

　図３の（ｃ）は、行動体２０の行動に対して、行動体２０が壁面Ｗｂに近づき過ぎないように、行動体２０の向きを矢印の方向に変更する行動が行動体２０に行われた場合を示している。なお、図３の（ｄ）は、行動体２０が図３の（ｃ）に示す位置で取得した撮像画像を例示している。

　このように、行動体２０で行われた行動（移動動作）に対して行われた行動体２０に対する行動（方向の変更操作）に応じて学習を行い学習モデルを生成すれば、図３の（ｅ）に示すように、行動体２０が壁面Ｗｂに近づく前に行動体２０の向きが変更されて、例えば破線の矢印で示すように、コーナーで行動体２０を滑らかに移動させることが可能となる。

　図４は、行動体の第２の動作例を示している。第２の動作例では、行動体（例えばペット型ロボット）に対して行われた行動が行動体の位置変化を生じさせる行動である場合を例示している。

　行動体２０は、図４の（ａ）に示すように、床面ＦＬを移動しており、移動中に撮像画像を取得する。なお、図４の（ｂ）は、行動体２０が取得した撮像画像を例示している。

　図４の（ｃ）は、行動体２０で行われた行動に対して、行動体２０が持ち上げられた場合を示しており、図４の（ｄ）は、行動体２０が持ち上げられたときの撮像画像を例示している。

　このように、行動体２０が持ち上げられた場合、行動体２０で取得される時系列画像では、行動体２０の持ち上げ操作による高低差変化に応じた画像変化が生じる。行動決定部２４は、持ち上げ操作時の時系列撮像画像を学習モデルに入力したことに応じて、例えば行動体２０の手足を縮める行動を決定して、決定した行動を行うように行動実行部２５を制御する。したがって、持ち上げ動作を示す画像変化に応じて、持ち上げ動作に対する行動体２０の応答動作を学習モデルに基づき決定できるようになる。

　また、画像変化は予め設定した閾値よりも大きな変化を生じたときに、画像変化に応じた行動を行うようにすれば、微少な画像変化によって行動が行われてしまうことを防止できる。さらに、画像変化は、二次元の変化に限らずデプス方向の変化（壁面等の被写体までの距離の変化）や変化の速度情報を用いてもよい。

　また、行動体に対して行われた行動は、撮像画像に含まれる被写体の属性変化でもよい。例えば、行動体２０の撮像部２１で取得された撮像画像で示された人が大人である場合、大人であれば行動体２０が大きな動きを行っても対応可能であるとして、行動体２０は大きな動きを生じる行動を可能とする。また、撮像画像で示された人が子供である場合、安全性を考慮して行動体２０は大きな動きを生じない行動に限定してもよい。また、被写体の属性変化として人の表情の変化に応じて行動体２０の行動を決定してもよい。

　さらに、画像変化で示された行動体に対して行われた行動の速度に応じて行動体２０の行動を決定する場合、例えば足が突然出てきた場合にゆっくりした動作で危険回避する行動を行うようにしてもよい。また、放り投げられそうになった場合や急激な持ち上げ操作等が行われたことを画像変化で検出した場合、自衛の体勢とする行動を行うようにしてもよい。また、行動体２０の転倒などを行動体２０に対して行われた行動として、転倒時の画像変化に応じて行動体２０の応答動作を決定してもよい。

　ところで、上述の動作では、サーバ３０で生成された学習モデルを用いて行動を決定する場合を例示したが、行動体に対して行われた行動に応じた画像変化を報酬とする強化学習アプローチに基づいて行動体２０の行動をよりリアルタイムに反映させてもよい。

　例えば、現在の環境がどのような状態であるかを示す状態と、行動体２０が環境に対してどのような行動を起こすことができるかを示す行動、行動体に対して行われた行動に応じた画像変化を報酬とする。ここで、ある状態ＰＳにおいてある行動ＰＡを取ったときに高い報酬ＰＲを得られる行動を選択する学習を行う。

　このような、強化学習アプローチに基づいて行動体２０の行動を決定すれば、強化学習を行わないで決定した行動に比べて、リアルタイムの画像変化に応じた最適な行動を決定できるようになる。

　以上のように、本技術の実施の形態の動作を行えば、ＩＭＵ（Inertial Measurement Unit）等のセンサを用いることなく、行動体で取得された撮像画像に基づき、行動体に対して行われた行動に応じた動作を行うことができるようになる。また、撮像画像に基づき行動体に対する行動スピードに応じて、その後に行動体で行う動作を決定すれば、詳細な動作を行うことが可能となる。

　また、行動制御装置を例えばロボットに適用する場合、ユーザの年齢や性別等の情報を登録しなくとも、時系列の撮像画像に応じて行動を決定できる。

　また、行動制御装置を無人飛行体（例えばドローン等）に設けるようにすれば、行動体に対するユーザの指示操作を行動体に対して行われた行動として、行動体で取得した撮像画像に基づき、適切な動作を行動体で容易に行うことが可能となる。例えば、ドローンはユーザからの操作信号を受信して、ユーザ操作をトリガとしてユーザ操作に応じた動作を開始したのち時系列の撮像画像に応じて行動を決定して飛行動作を行う。このようにすれば、ユーザは連続してドローンを制御しなくとも、飛行方向等を必要に応じて指示するだけで、ドローンは指示された方向に安定した飛行を自律的に行うことが可能となり、直感的なインタフェースでドローンを容易に移動できるようになる。

　また、行動制御装置をゲームインタフェースに適用すれば、例えば操作するキャラクタで取得された撮像画像に基づきキャラクタの行動を決定して、決定された動作に対して行われたキャラクタに対する行動に基づき新たな行動が決定される。したがって、キャラクタとユーザのインタラクションをより密接なものとすることが可能となる。

　さらに、行動制御装置は無人飛行体やゲームインタフェースに適用する場合に限らず医療分野、例えば手術用のロボットに適用することも可能である。この場合、術者が行った手術中の患部の撮像画像を取得して教師画像として学習を行い学習モデルを生成して、手術用のロボットは、撮像画像の画像変化に応じて行動を決定する。また、決定された行動に対する管理者等の行動に基づき新たな行動を決定することで、適切に手術等を行うことが可能となる。

　なお、上述の実施の形態では、学習モデルをサーバ３０から行動体２０に供給する場合を例示したが、学習モデル生成部を行動体２０に設けて、行動体２０で学習モデルを生成してもよい。

　明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させる。または、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。

　例えば、プログラムは記録媒体としてのハードディスクやＳＳＤ（Solid State Drive）、ＲＯＭ（Read Only Memory）に予め記録しておくことができる。あるいは、プログラムはフレキシブルディスク、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory），ＭＯ（Magneto optical）ディスク，ＤＶＤ（Digital Versatile Disc）、ＢＤ（Blu-Ray Disc（登録商標））、磁気ディスク、半導体メモリカード等のリムーバブル記録媒体に、一時的または永続的に格納（記録）しておくことができる。このようなリムーバブル記録媒体は、いわゆるパッケージソフトウェアとして提供することができる。

　また、プログラムは、リムーバブル記録媒体からコンピュータにインストールする他、ダウンロードサイトからＬＡＮ（Local Area Network）やインターネット等のネットワークを介して、コンピュータに無線または有線で転送してもよい。コンピュータでは、そのようにして転送されてくるプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。

　なお、本明細書に記載した効果はあくまで例示であって限定されるものではなく、記載されていない付加的な効果があってもよい。また、本技術は、上述した技術の実施の形態に限定して解釈されるべきではない。この技術の実施の形態は、例示という形態で本技術を開示しており、本技術の要旨を逸脱しない範囲で当業者が実施の形態の修正や代用をなし得ることは自明である。すなわち、本技術の要旨を判断するためには、請求の範囲を参酌すべきである。

　また、本技術の行動制御装置は以下のような構成も取ることができる。
　（１）　行動体で取得された時系列撮像画像における画像変化に基づき、前記行動体に対して行われた行動に応じて前記行動体が行う行動を、学習モデルを用いて決定する行動決定部
を備える行動制御装置。
　（２）　前記行動決定部は、前記画像変化が予め設定された閾値を超えたとき、前記行動体が行う行動を決定する（１）に記載の行動制御装置。
　（３）　前記行動決定部は、前記行動体に対して行われた行動の速度に応じて前記行動体が行う行動を決定する（１）または（２）に記載の行動制御装置。
　（４）　前記行動決定部は、決定した行動を前記行動体で行うことによって生じた前記時系列撮像画像における画像変化に基づき、前記行動体がその後に行う行動を、学習モデルを用いて決定する（１）乃至（３）のいずれかに記載の行動制御装置。
　（５）　前記学習モデルは、前記行動決定部で決定された行動を前記行動体で開始後に行われた前記行動体に対する行動に応じた画像変化を用いた強化学習によって生成される（１）乃至（４）のいずれかに記載の行動制御装置。
　（６）　前記行動体に対して行われた行動は、前記行動体の姿勢変化を生じさせる行動である（１）乃至（５）のいずれかに記載の行動制御装置。
　（７）　前記行動体に対して行われた行動は、前記行動体の位置変化を生じさせる行動である（１）乃至（６）のいずれかに記載の行動制御装置。
　（８）　前記行動体に対して行われた行動は、前記時系列撮像画像に含まれる被写体の属性変化である（１）乃至（７）のいずれかに記載の行動制御装置。
　（９）　前記行動体に対して行われた行動は、前記行動体に対するユーザの指示操作である（１）乃至（８）のいずれかに記載の行動制御装置。
　（１０）　前記行動決定部と、前記行動決定部で決定された行動を前記行動体で行わせる行動実行部を前記行動体に設けた（１）乃至（９）のいずれかに記載の行動制御装置。
　（１１）　前記学習モデルを外部から取得する通信部をさらに備える（１０）に記載の行動制御装置。

　１０・・・行動制御システム
　２０・・・行動体
　２１・・・撮像部
　２２・・・通信部
　２３・・・記憶部
　２４・・・行動決定部
　２５・・・行動実行部
　２６・・・電源部
　３０・・・サーバ
　３１・・・通信部
　３２・・・記憶部
　３３・・・学習モデル生成部
　３４・・・制御部
　３５・・・情報提示部

Claims

　行動体で取得された時系列撮像画像における画像変化に基づき、前記行動体に対して行われた行動に応じて前記行動体が行う行動を、学習モデルを用いて決定する行動決定部
を備える行動制御装置。
　前記行動決定部は、前記画像変化が予め設定された閾値を超えたとき、前記行動体が行う行動を決定する
請求項１に記載の行動制御装置。
　前記行動決定部は、前記行動体に対して行われた行動の速度に応じて前記行動体が行う行動を決定する
請求項１に記載の行動制御装置。
　前記行動決定部は、決定した行動を前記行動体で行うことによって生じた前記時系列撮像画像における画像変化に基づき、前記行動体がその後に行う行動を、学習モデルを用いて決定する
請求項１に記載の行動制御装置。
　前記学習モデルは、前記行動決定部で決定された行動を前記行動体で開始後に行われた前記行動体に対する行動に応じた画像変化を用いた強化学習によって生成される
請求項１に記載の行動制御装置。
　前記行動体に対して行われた行動は、前記行動体の姿勢変化を生じさせる行動である
請求項１に記載の行動制御装置。
　前記行動体に対して行われた行動は、前記行動体の位置変化を生じさせる行動である
請求項１に記載の行動制御装置。
　前記行動体に対して行われた行動は、前記時系列撮像画像に含まれる被写体の属性変化である
請求項１に記載の行動制御装置。
　前記行動体に対して行われた行動は、前記行動体に対するユーザの指示操作である
請求項１に記載の行動制御装置。
　前記行動決定部と、前記行動決定部で決定された行動を前記行動体で行わせる行動実行部を前記行動体に設けた
請求項１に記載の行動制御装置。
　前記学習モデルを外部から取得する通信部をさらに備える
請求項１０に記載の行動制御装置。
　行動体で取得された時系列撮像画像における画像変化に基づき、前記行動体に対して行われた行動に応じて前記行動体が行う行動を、学習モデルを用いて行動決定部で決定すること
を含む行動制御方法。
　行動体の行動制御をコンピュータで実行させるプログラムであって、
　前記行動体で取得した時系列撮像画像における画像変化に基づき、前記行動体に対して行われた行動に応じて前記行動体が行う行動を、学習モデルを用いて決定する手順と
を前記コンピュータで実行させるプログラム。