WO2020246075A1 - 行動制御装置と行動制御方法およびプログラム - Google Patents

行動制御装置と行動制御方法およびプログラム Download PDF

Info

Publication number
WO2020246075A1
WO2020246075A1 PCT/JP2020/006447 JP2020006447W WO2020246075A1 WO 2020246075 A1 WO2020246075 A1 WO 2020246075A1 JP 2020006447 W JP2020006447 W JP 2020006447W WO 2020246075 A1 WO2020246075 A1 WO 2020246075A1
Authority
WO
WIPO (PCT)
Prior art keywords
action
action body
control device
change
learning model
Prior art date
Application number
PCT/JP2020/006447
Other languages
English (en)
French (fr)
Inventor
由香 有木
脩 繁田
充奨 沢田
清和 宮澤
嵩明 加藤
康史 林田
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Publication of WO2020246075A1 publication Critical patent/WO2020246075A1/ja

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63HTOYS, e.g. TOPS, DOLLS, HOOPS OR BUILDING BLOCKS
    • A63H11/00Self-movable toy figures
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/10Simultaneous control of position or course in three dimensions
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • B25J13/08Controls for manipulators by means of sensing devices, e.g. viewing or touching devices

Definitions

  • This technology makes it possible to autonomously determine the behavior of a behavioral body based on the captured image acquired by the behavioral body with respect to the behavioral control device, the behavioral control method, and the program.
  • Patent Document 1 In recent years, the development of pet-type robots modeled on dogs and cats and human-type robots modeled on humans has been promoted. For example, in Patent Document 1, by loading and executing an application program from an external memory, various performances utilizing whole body movements such as walking, jumping, and dancing are performed. Further, in Patent Document 2, the operation of the robot is determined by using the recognition result of external information and an action map showing emotions and various feeling states in a two-dimensional space.
  • Patent Document 2 When an application program is loaded and executed as in Patent Document 1, an autonomous operation cannot be performed by a robot. Further, when an action map is used as in Patent Document 2, it is necessary to generate an action map for each two-dimensional space in which the robot is located and for each emotion or feeling.
  • the first aspect of this technology is An action provided with an action determination unit that uses a learning model to determine an action performed by the action body according to an action performed on the action body based on an image change in a time-series captured image acquired by the action body. It is in the control device.
  • the action determination unit is based on an image change according to the action of the action body generated in the time-series captured image acquired by the action body, for example, when the image change exceeds a preset threshold value, the action body
  • the action performed by the action body is determined according to the speed of the action performed on the action body and the action performed on the action body.
  • the actions performed on the action body include, for example, an action that causes a change in the posture of the action body, an action that causes a change in the position of the action body, a change in the attribute of the subject included in the captured image, and a user's instruction on the action body. It is an operation.
  • the action determination unit determines the action performed by the action body using the learning model based on the image change according to the action of the action body generated in the time-series captured image.
  • the action execution department causes the action body to perform the action determined by the action decision department.
  • the learning model is acquired from the outside by the communication unit.
  • the learning model may be generated by reinforcement learning using an image change according to the action for the action body performed after the action determined by the action determination unit is started in the action body.
  • the second aspect of this technology is Based on the image change in the time-series captured image acquired by the action body, the action determination unit determines the action performed by the action body according to the action performed on the action body by using the learning model. It is in the behavior control method including.
  • the third aspect of this technology is It is a program that executes the behavior control of a behavioral body on a computer. Based on the image change in the time-series captured image acquired by the action body, the computer determines the action performed by the action body according to the action performed on the action body by using the learning model. It is in the program to be executed.
  • the program of the present technology provides, for example, a storage medium or communication medium provided in a computer-readable format to a general-purpose computer capable of executing various program codes, for example, a storage medium such as an optical disk, a magnetic disk, or a semiconductor memory. Or, it is a program that can be provided by a communication medium such as a network. By providing such a program in a computer-readable format, processing according to the program can be realized on the computer.
  • FIG. 1 illustrates the configuration of the behavior control system 10 using the present technology.
  • the action control system 10 has an action body 20 and a server 30.
  • the action body 20 has an imaging unit 21, a communication unit 22, a storage unit 23, an action determination unit 24, an action execution unit 25, a power supply unit 26, and the like.
  • the image pickup unit 21 is configured by using an image pickup element such as CMOS (Complementary Metal Oxide Semiconductor) or CCD (Charge Coupled Device).
  • CMOS Complementary Metal Oxide Semiconductor
  • CCD Charge Coupled Device
  • the communication unit 22 communicates with the server 30.
  • the communication unit 22 transmits the captured image acquired by the imaging unit 21 to the server 30 by wireless communication. Further, the communication unit 22 outputs the learning model or the like acquired from the server 30 to the storage unit 23.
  • the storage unit 23 stores computer programs, various setting information, learning models acquired from the server 30, and the like.
  • the action determination unit 24 operates the action body 20 by executing a computer program stored in the storage unit 23 and controlling each unit. Specifically, based on the image change in the time-series captured image acquired by the imaging unit 21, the learning generated by the server 30 of the action performed by the action body 20 according to the action performed on the action body 20. Determined using the model. Further, the action determination unit 24 generates a control signal so that the action body 20 performs the determined action, and outputs the control signal to the action execution unit 25.
  • the action execution unit 25 has a drive mechanism for performing various actions on the action body 20.
  • the action execution unit 25 has a drive mechanism, a voice output mechanism, and the like for moving the head, limbs, eyes, mouth, and the like.
  • the action execution unit 25 drives each drive mechanism based on the control signal from the action determination unit 24, and the action determined by the action determination unit 24 (for example, movement motion, posture change motion, facial expression change motion, voice output motion, etc.). Is performed by the action body 20.
  • the server 30 has a communication unit 31, a storage unit 32, a learning model generation unit 33, and a control unit 34.
  • the communication unit 31 communicates with the action body 20.
  • the communication unit 31 wirelessly communicates with the action body 20, acquires the captured image acquired by the imaging unit 21, and outputs the captured image to the control unit 34. Further, the communication unit 31 transmits the learning model generated by the learning model generation unit 33 to the action body 20.
  • the storage unit 32 stores a computer program, various setting information, an captured image acquired by the action body 20, a learning model generated by the learning model generation unit 33, and the like.
  • the learning model generation unit 33 generates a learned learning model that determines an action by inputting a time-series captured image stored in the storage unit 32.
  • the learning model generation unit 33 performs machine learning using time-series captured images, and generates a learned learning model (for example, a DNN (Deep Neural Network) model).
  • the captured image used for learning is not limited to the captured image acquired by the action body 20, and an captured image stored in advance for learning may be used.
  • the control unit 34 operates the server 30 by executing a computer program stored in the storage unit 32 and controlling each unit. For example, the control unit 34 stores the time-series captured image acquired from the action body 20 via the communication unit 31 in the storage unit 32. Further, the control unit 34 generates a learned learning model by causing the learning model generation unit 33 to perform machine learning using the time-series captured images stored in the storage unit 32 at a predetermined timing or every predetermined period elapses. Let me. Further, the control unit 34 transmits the learning model generated by the learning model generation unit 33 from the communication unit 31 to the action body 20 in response to a predetermined timing or a request from the action body 20.
  • the server 30 may be provided with an information presentation unit 35 so that information stored in the storage unit 32, such as a captured image, can be confirmed.
  • FIG. 2 is a flowchart illustrating an action body control operation.
  • the action body 20 acquires a captured image.
  • the imaging unit 21 of the action body 20 starts acquiring the captured image and proceeds to step ST2.
  • step ST2 the action body 20 determines the action.
  • the action determination unit 24 of the action body 20 inputs the time-series captured image acquired by the image pickup unit 21 into the learning model, determines the action of the action body 20, and proceeds to step ST3.
  • step ST3 the action body 20 executes the action.
  • the action determination unit 24 of the action body 20 generates a control signal corresponding to the action determined in step ST2 and outputs the control signal to the action execution unit 25, so that the action determined in step ST2 is performed by the action body 20 in step ST2.
  • the action determination unit 24 determines the action to be performed by the action body 20 thereafter by using the learning model based on the image change in the time-series captured image generated by performing the determined action in the action body 20. Therefore, the action body 20 can autonomously perform an action based on the acquired captured image. Further, based on the image change according to the action performed on the action body 20 after the start of the action in step ST3, the action performed by the action body 20 according to the action performed on the action body 20 uses the learning model. Will be decided. Therefore, the action body 20 can autonomously perform a response action according to the action performed on the action body based on the acquired captured image.
  • FIG. 3 shows a first motion example of the action body.
  • the action performed on the action body for example, a pet type robot
  • the action body is an action that causes a posture change of the action body.
  • the action body 20 is moving the floor surface FL of the space divided by the wall surfaces Wa, Wb, Wc, and Wd as shown by the broken line arrows, and is imaged during the movement. Get an image.
  • FIG. 3B illustrates an image captured by the action body 20 at the position shown in FIG. 3A.
  • the action body 20 measures the distance to the wall surface based on the acquired captured image and moves so as not to hit the wall surface.
  • the distance to the wall surface may be calculated based on the parallax generated between the captured images of the right viewpoint and the left viewpoint by acquiring the captured images of the right viewpoint and the left viewpoint by the action body 20, for example, and the image plane position.
  • An image pickup device having phase difference detection pixels may be used in the image pickup unit 21 to calculate the distance.
  • FIG. 3C an action of changing the direction of the action body 20 in the direction of the arrow is performed on the action body 20 so that the action body 20 does not come too close to the wall surface Wb with respect to the action of the action body 20.
  • FIG. 3D exemplifies a captured image acquired by the action body 20 at the position shown in FIG. 3C.
  • FIG. 4 shows a second motion example of the action body.
  • the action performed on the action body for example, a pet type robot
  • the action body is an action that causes a change in the position of the action body.
  • the action body 20 is moving on the floor surface FL, and acquires an captured image during the movement.
  • FIG. 4B exemplifies the captured image acquired by the action body 20.
  • FIG. 4 (c) shows the case where the action body 20 is lifted with respect to the action performed by the action body 20
  • FIG. 4 (d) shows the case where the action body 20 is lifted. The captured image is illustrated.
  • the time-series image acquired by the action body 20 causes an image change according to the height difference change due to the lifting operation of the action body 20.
  • the action determination unit 24 determines, for example, an action of contracting the limbs of the action body 20 in response to input of the time-series captured image at the time of the lifting operation into the learning model, and the action execution unit 25 performs the determined action. To control. Therefore, the response motion of the action body 20 to the lifting motion can be determined based on the learning model according to the image change indicating the lifting motion.
  • the image change occurs larger than the preset threshold value, if the action is performed according to the image change, it is possible to prevent the action from being performed by a slight image change.
  • the image change is not limited to the two-dimensional change, and the change in the depth direction (change in the distance to the subject such as the wall surface) and the speed information of the change may be used.
  • the action performed on the action body may be a change in the attribute of the subject included in the captured image.
  • the action body 20 can handle even if the action body 20 makes a large movement if it is an adult. Allows actions that cause large movements.
  • the action body 20 may be limited to actions that do not cause a large movement in consideration of safety.
  • the behavior of the action body 20 may be determined according to the change in the facial expression of the person as the attribute change of the subject.
  • the action of the action body 20 when determining the action of the action body 20 according to the speed of the action performed on the action body indicated by the image change, for example, when the foot suddenly comes out, the action of avoiding danger by a slow movement is performed. You may do it.
  • the response action of the action body 20 may be determined according to the image change at the time of the fall, assuming that the action body 20 falls or the like is performed on the action body 20.
  • a state indicating what kind of state the current environment is an action indicating what kind of action the action body 20 can take with respect to the environment, and an action performed on the action body.
  • the reward is the corresponding image change.
  • learning is performed to select an action that can obtain a high reward PR when a certain action PA is taken in a certain state PS.
  • the behavior of the action body 20 is determined based on such a reinforcement learning approach, it becomes possible to determine the optimum behavior according to the real-time image change as compared with the behavior determined without performing reinforcement learning.
  • the action is performed on the action body based on the captured image acquired by the action body without using a sensor such as an IMU (Inertial Measurement Unit). You will be able to perform actions according to your actions. Further, if the action to be performed by the action body is determined after that according to the action speed with respect to the action body based on the captured image, it is possible to perform a detailed action.
  • a sensor such as an IMU (Inertial Measurement Unit).
  • the behavior control device when applied to a robot, for example, the behavior can be determined according to the time-series captured images without registering information such as the age and gender of the user.
  • the action control device is provided in the unmanned flying object (for example, a drone)
  • the user's instruction operation for the action body is regarded as the action performed on the action body based on the captured image acquired by the action body.
  • Appropriate movements can be easily performed by the action body.
  • the drone receives an operation signal from the user, starts an operation according to the user operation by using the user operation as a trigger, and then determines an action according to a time-series captured image to perform a flight operation. In this way, the drone can autonomously perform stable flight in the instructed direction by simply instructing the flight direction and the like as necessary without the user continuously controlling the drone.
  • the intuitive interface makes it easy to move the drone.
  • the action control device is applied to the game interface, for example, the action of the character is determined based on the captured image acquired by the character to be operated, and a new action is performed on the character based on the determined action. The action is decided. Therefore, it is possible to make the interaction between the character and the user closer.
  • the behavior control device can be applied not only to unmanned aerial vehicles and game interfaces, but also to medical fields such as surgical robots.
  • the surgeon acquires a captured image of the affected area during surgery, learns it as a teacher image, generates a learning model, and the surgical robot determines the action according to the image change of the captured image. ..
  • the surgical robot determines the action according to the image change of the captured image. ..
  • by deciding a new action based on the action of the manager or the like with respect to the decided action it becomes possible to perform an appropriate operation or the like.
  • the learning model is supplied from the server 30 to the action body 20 is illustrated, but a learning model generation unit may be provided in the action body 20 and the learning model may be generated by the action body 20. Good.
  • the series of processes described in the specification can be executed by hardware, software, or a composite configuration of both.
  • the program that records the processing sequence is installed in the memory in the computer embedded in the dedicated hardware and executed.
  • the program can be pre-recorded on a hard disk as a recording medium, SSD (Solid State Drive), or ROM (Read Only Memory).
  • the program is a flexible disk, CD-ROM (Compact Disc Read Only Memory), MO (Magneto optical) disk, DVD (Digital Versatile Disc), BD (Blu-Ray Disc (registered trademark)), magnetic disk, semiconductor memory card. It can be temporarily or permanently stored (recorded) in a removable recording medium such as.
  • a removable recording medium can be provided as so-called package software.
  • the program may be transferred from the download site to the computer wirelessly or by wire via a network such as LAN (Local Area Network) or the Internet.
  • the computer can receive the program transferred in this way and install it on a recording medium such as a built-in hard disk.
  • the behavior control device of the present technology can have the following configuration.
  • An action determination unit that uses a learning model to determine an action performed by the action body according to an action performed on the action body based on an image change in a time-series captured image acquired by the action body. Behavior control device equipped with.
  • the action determining unit determines the action to be performed by the action body thereafter by using the learning model based on the image change in the time-series captured image generated by performing the determined action by the action body.
  • the behavior control device according to any one of (1) to (3).
  • the learning model is generated by reinforcement learning using an image change according to an action on the action body performed after the action determined by the action determination unit is started by the action body (1) to.
  • the behavior control device according to any one of (4).
  • (6) The action control device according to any one of (1) to (5), wherein the action performed on the action body is an action that causes a posture change of the action body.
  • the action control device according to any one of (1) to (6), wherein the action performed on the action body is an action that causes a position change of the action body.
  • the action control device according to any one of (1) to (7), wherein the action performed on the action body is a change in the attribute of the subject included in the time-series captured image.
  • the action control device according to any one of (1) to (8), wherein the action performed on the action body is an instruction operation of the user on the action body.
  • the behavior control device according to (10), further including a communication unit that acquires the learning model from the outside.
  • Action control system 20 ... Action body 21 ... Imaging unit 22 ... Communication unit 23 ... Memory unit 24 ... Action decision unit 25 ... Action execution unit 26 ... Power supply Unit 30 ... Server 31 ... Communication unit 32 ... Storage unit 33 ... Learning model generation unit 34 ... Control unit 35 ... Information presentation unit

Abstract

行動体20の行動決定部24は、撮像部21で取得された時系列撮像画像に生じた行動体20に対する行動に応じた画像変化に基づき、行動体20に対して行われた行動、例えば行動体20の姿勢変化を生じさせる行動、行動体20の位置変化を生じさせる行動、撮像画像に含まれる被写体の属性変化、行動体20に対するユーザの指示操作等に応じて、行動体20が行う行動を決定する。行動実行部25は、行動決定部24で決定された行動を行動体20で行わせる。行動体の行動を行動体で取得された撮像画像に基づいて自律的に決定できる。

Description

行動制御装置と行動制御方法およびプログラム
 この技術は、行動制御装置と行動制御方法およびプログラムに関し、行動体の行動を行動体で取得された撮像画像に基づいて自律的に決定できるようにする。
 近年、犬や猫等をモデルとしたペット型ロボットや人をモデルとした人間型ロボット等の開発が進められている。例えば、特許文献1では、アプリケーションプログラムを外部記憶からロードして実行することで、歩行や跳躍、ダンスなど全身動作を利用した各種パフォーマンスが行われる。また、特許文献2では、外部情報の認識結果と、二次元空間における感情や種々の気持ちの状態を示す行動マップを利用して、ロボットの動作が決定されている。
特開2003-266339号公報 特許第6436549号公報
 ところで、特許文献1のようにアプリケーションプログラムをロードして実行する場合、自律的な動作をロボットで行うことができない。また、特許文献2のように行動マップを用いる場合、ロボットが位置する二次元空間毎および感情や気持ち毎の行動マップを生成しなければならない。
 そこで、この技術では、行動体の行動を行動体で取得された撮像画像に基づいて自律的に決定できる行動制御装置と行動制御方法およびプログラムを提供することを目的とする。
 この技術の第1の側面は、
 行動体で取得された時系列撮像画像における画像変化に基づき、前記行動体に対して行われた行動に応じて前記行動体が行う行動を、学習モデルを用いて決定する行動決定部
を備える行動制御装置にある。
 この技術において、行動決定部は、行動体で取得された時系列撮像画像に生じた行動体に対する行動に応じた画像変化に基づき、例えば画像変化が予め設定された閾値を超えたとき、行動体に対して行われた行動や行動体に対して行われた行動の速度に応じて行動体が行う行動を決定する。行動体に対して行われた行動とは、例えば、行動体の姿勢変化を生じさせる行動、行動体の位置変化を生じさせる行動、撮像画像に含まれる被写体の属性変化、行動体に対するユーザの指示操作である。また、行動決定部は、時系列撮像画像に生じた行動体に対する行動に応じた画像変化に基づき、行動体が行う行動を、学習モデルを用いて決定する。
 行動実行部は、行動決定部で決定された行動を行動体で行わせる。学習モデルは、通信部によって外部から取得する。学習モデルは、行動決定部で決定された行動を行動体で開始後に行われた行動体に対する行動に応じた画像変化を用いた強化学習によって生成されてもよい。
 この技術の第2の側面は、
 行動体で取得された時系列撮像画像における画像変化に基づき、前記行動体に対して行われた行動に応じて前記行動体が行う行動を、学習モデルを用いて行動決定部で決定すること
を含む行動制御方法にある。
 この技術の第3の側面は、
 行動体の行動制御をコンピュータで実行させるプログラムであって、
 前記行動体で取得した時系列撮像画像における画像変化に基づき、前記行動体に対して行われた行動に応じて前記行動体が行う行動を、学習モデルを用いて決定する手順と
を前記コンピュータで実行させるプログラムにある。
 なお、本技術のプログラムは、例えば、様々なプログラムコードを実行可能な汎用コンピュータに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体、例えば、光ディスクや磁気ディスク、半導体メモリなどの記憶媒体、あるいは、ネットワークなどの通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、コンピュータ上でプログラムに応じた処理が実現される。
行動制御システムの構成を例示した図である。 行動体制御動作を例示したフローチャートである。 行動体の第1の動作例を示す図である。 行動体の第2の動作例を示す図である。
 以下、本技術を実施するための形態について説明する。なお、説明は以下の順序で行う。
 1.実施の形態の構成
 2.実施の形態の動作
 <1.実施の形態の構成>
 図1は、本技術を用いた行動制御システム10の構成を例示している。行動制御システム10は、行動体20とサーバ30を有している。
 行動体20は、撮像部21、通信部22、記憶部23、行動決定部24、行動実行部25、電源部26等を有している。
 撮像部21は、CMOS(Complementary Metal Oxide Semiconductor)やCCD(Charge Coupled Device)等の撮像素子を用いて構成されている。撮像部21は、行動体20の前方あるいは周囲の撮像を行い、取得した撮像画像を通信部22や行動決定部24へ出力する。
 通信部22は、サーバ30との通信を行う。例えば通信部22は撮像部21で取得した撮像画像を無線通信でサーバ30へ送信する。また、通信部22は、サーバ30から取得した学習モデル等を記憶部23へ出力する。
 記憶部23は、コンピュータプログラムや各種設定情報、サーバ30から取得した学習モデル等を記憶する。
 行動決定部24は、記憶部23に記憶されているコンピュータプログラムを実行して各部の制御を行うことで行動体20を動作させる。具体的には、撮像部21で取得された時系列撮像画像における画像変化に基づき、行動体20に対して行われた行動に応じて行動体20が行う行動を、サーバ30で生成された学習モデルを用いて決定する。また、行動決定部24は、決定した行動を行動体20で行うように制御信号を生成して行動実行部25へ出力する。
 行動実行部25は、行動体20で種々の動作を行うための駆動機構を有している。例えば行動体20がロボットである場合、行動実行部25は、頭部や四肢、目や口等を動かすための駆動機構や音声出力機構等を有している。行動実行部25は、行動決定部24からの制御信号に基づき各駆動機構を駆動して、行動決定部24で決定した行動(例えば移動動作や姿勢変更動作,表情変更動作,音声出力動作等)を行動体20で行わせる。
 サーバ30は、通信部31、記憶部32、学習モデル生成部33、制御部34を有している。通信部31は、行動体20との通信を行う。例えば通信部31は行動体20と無線通信を行い、撮像部21で取得した撮像画像を取得して制御部34へ出力する。また、通信部31は、学習モデル生成部33で生成した学習モデルを行動体20へ送信する。
 記憶部32は、コンピュータプログラムや各種設定情報、行動体20で取得された撮像画像や学習モデル生成部33で生成された学習モデル等を記憶する。
 学習モデル生成部33は、記憶部32に記憶されている時系列撮像画像を入力として行動を決定する学習済みの学習モデルを生成する。学習モデル生成部33は、時系列撮像画像を用いた機械学習を行い、学習済みの学習モデル(例えばDNN(Deep Neural Network)モデル等)を生成する。なお、学習に用いる撮像画像は、行動体20で取得された撮像画像に限らず、予め学習用に記憶されている撮像画像を用いてもよい。
 制御部34は、記憶部32に記憶されているコンピュータプログラムを実行して各部の制御を行うことでサーバ30を動作させる。例えば、制御部34は、通信部31を介して行動体20から取得した時系列撮像画像を記憶部32に記憶させる。また、制御部34は、記憶部32に記憶されている時系列撮像画像を用いた機械学習を所定タイミングあるいは所定期間経過毎に学習モデル生成部33で行わせて、学習済みの学習モデルを生成させる。さらに、制御部34は、学習モデル生成部33で生成された学習モデルを所定のタイミングあるいは行動体20からの要求に応じて通信部31から行動体20へ送信する。なお、サーバ30に情報提示部35を設けて、記憶部32に記憶されている情報例えば撮像画像等を確認できるようにしてもよい。
 <2.実施の形態の動作>
 次に、実施の形態の動作について説明する。なお、以下の説明では、サーバ30で生成された学習済みの学習モデルが行動体20に供給されているとする。
 図2は行動体制御動作を例示したフローチャートである。ステップST1で行動体20は、撮像画像を取得する。行動体20の撮像部21は撮像画像の取得を開始してステップST2に進む。
 ステップST2で行動体20は行動を決定する。行動体20の行動決定部24は、撮像部21で取得された時系列撮像画像を学習モデルに入力して行動体20の行動を決定してステップST3に進む。
 ステップST3で行動体20は行動を実行する。行動体20の行動決定部24は、ステップST2で決定した行動に対応する制御信号を生成して行動実行部25へ出力することで、ステップST2で決定した行動を行動体20で行いステップST2に戻る。
 このように、行動決定部24は、決定した行動を行動体20で行うことによって生じた時系列撮像画像における画像変化に基づき、行動体20がその後に行う行動を、学習モデルを用いて決定することから、行動体20は、取得した撮像画像に基づいて自律的に行動を行うことができる。また、ステップST3の行動の開始後に行動体20に対して行われた行動に応じた画像変化に基づき、行動体に対して行われた行動に応じて行動体20が行う行動が学習モデルを用いて決定される。したがって、行動体20は、取得した撮像画像に基づいて、行動体に対して行われた行動に応じた応答動作を自律的に行うことができるようになる。
 図3は、行動体の第1の動作例を示している。第1の動作例では、行動体(例えばペット型ロボット)に対して行われた行動が行動体の姿勢変化を生じさせる行動である場合を例示している。
 行動体20は、図3の(a)に示すように、壁面Wa,Wb,Wc,Wdで区切られた空間の床面FLを破線の矢印で示すように移動しており、移動中に撮像画像を取得する。なお、図3の(b)は、行動体20が図3の(a)に示す位置で取得した撮像画像を例示している。
 行動体20は取得した撮像画像に基づき壁面までの距離を測定して、壁面にぶつからないように移動する。なお、壁面までの距離は、例えば行動体20で右視点と左視点の撮像画像を取得して、右視点と左視点の撮像画像で生じた視差に基づいて算出してもよく、像面位相差検出画素を有する撮像素子を撮像部21で用いて、距離を算出してもよい。
 図3の(c)は、行動体20の行動に対して、行動体20が壁面Wbに近づき過ぎないように、行動体20の向きを矢印の方向に変更する行動が行動体20に行われた場合を示している。なお、図3の(d)は、行動体20が図3の(c)に示す位置で取得した撮像画像を例示している。
 このように、行動体20で行われた行動(移動動作)に対して行われた行動体20に対する行動(方向の変更操作)に応じて学習を行い学習モデルを生成すれば、図3の(e)に示すように、行動体20が壁面Wbに近づく前に行動体20の向きが変更されて、例えば破線の矢印で示すように、コーナーで行動体20を滑らかに移動させることが可能となる。
 図4は、行動体の第2の動作例を示している。第2の動作例では、行動体(例えばペット型ロボット)に対して行われた行動が行動体の位置変化を生じさせる行動である場合を例示している。
 行動体20は、図4の(a)に示すように、床面FLを移動しており、移動中に撮像画像を取得する。なお、図4の(b)は、行動体20が取得した撮像画像を例示している。
 図4の(c)は、行動体20で行われた行動に対して、行動体20が持ち上げられた場合を示しており、図4の(d)は、行動体20が持ち上げられたときの撮像画像を例示している。
 このように、行動体20が持ち上げられた場合、行動体20で取得される時系列画像では、行動体20の持ち上げ操作による高低差変化に応じた画像変化が生じる。行動決定部24は、持ち上げ操作時の時系列撮像画像を学習モデルに入力したことに応じて、例えば行動体20の手足を縮める行動を決定して、決定した行動を行うように行動実行部25を制御する。したがって、持ち上げ動作を示す画像変化に応じて、持ち上げ動作に対する行動体20の応答動作を学習モデルに基づき決定できるようになる。
 また、画像変化は予め設定した閾値よりも大きな変化を生じたときに、画像変化に応じた行動を行うようにすれば、微少な画像変化によって行動が行われてしまうことを防止できる。さらに、画像変化は、二次元の変化に限らずデプス方向の変化(壁面等の被写体までの距離の変化)や変化の速度情報を用いてもよい。
 また、行動体に対して行われた行動は、撮像画像に含まれる被写体の属性変化でもよい。例えば、行動体20の撮像部21で取得された撮像画像で示された人が大人である場合、大人であれば行動体20が大きな動きを行っても対応可能であるとして、行動体20は大きな動きを生じる行動を可能とする。また、撮像画像で示された人が子供である場合、安全性を考慮して行動体20は大きな動きを生じない行動に限定してもよい。また、被写体の属性変化として人の表情の変化に応じて行動体20の行動を決定してもよい。
 さらに、画像変化で示された行動体に対して行われた行動の速度に応じて行動体20の行動を決定する場合、例えば足が突然出てきた場合にゆっくりした動作で危険回避する行動を行うようにしてもよい。また、放り投げられそうになった場合や急激な持ち上げ操作等が行われたことを画像変化で検出した場合、自衛の体勢とする行動を行うようにしてもよい。また、行動体20の転倒などを行動体20に対して行われた行動として、転倒時の画像変化に応じて行動体20の応答動作を決定してもよい。
 ところで、上述の動作では、サーバ30で生成された学習モデルを用いて行動を決定する場合を例示したが、行動体に対して行われた行動に応じた画像変化を報酬とする強化学習アプローチに基づいて行動体20の行動をよりリアルタイムに反映させてもよい。
 例えば、現在の環境がどのような状態であるかを示す状態と、行動体20が環境に対してどのような行動を起こすことができるかを示す行動、行動体に対して行われた行動に応じた画像変化を報酬とする。ここで、ある状態PSにおいてある行動PAを取ったときに高い報酬PRを得られる行動を選択する学習を行う。
 このような、強化学習アプローチに基づいて行動体20の行動を決定すれば、強化学習を行わないで決定した行動に比べて、リアルタイムの画像変化に応じた最適な行動を決定できるようになる。
 以上のように、本技術の実施の形態の動作を行えば、IMU(Inertial Measurement Unit)等のセンサを用いることなく、行動体で取得された撮像画像に基づき、行動体に対して行われた行動に応じた動作を行うことができるようになる。また、撮像画像に基づき行動体に対する行動スピードに応じて、その後に行動体で行う動作を決定すれば、詳細な動作を行うことが可能となる。
 また、行動制御装置を例えばロボットに適用する場合、ユーザの年齢や性別等の情報を登録しなくとも、時系列の撮像画像に応じて行動を決定できる。
 また、行動制御装置を無人飛行体(例えばドローン等)に設けるようにすれば、行動体に対するユーザの指示操作を行動体に対して行われた行動として、行動体で取得した撮像画像に基づき、適切な動作を行動体で容易に行うことが可能となる。例えば、ドローンはユーザからの操作信号を受信して、ユーザ操作をトリガとしてユーザ操作に応じた動作を開始したのち時系列の撮像画像に応じて行動を決定して飛行動作を行う。このようにすれば、ユーザは連続してドローンを制御しなくとも、飛行方向等を必要に応じて指示するだけで、ドローンは指示された方向に安定した飛行を自律的に行うことが可能となり、直感的なインタフェースでドローンを容易に移動できるようになる。
 また、行動制御装置をゲームインタフェースに適用すれば、例えば操作するキャラクタで取得された撮像画像に基づきキャラクタの行動を決定して、決定された動作に対して行われたキャラクタに対する行動に基づき新たな行動が決定される。したがって、キャラクタとユーザのインタラクションをより密接なものとすることが可能となる。
 さらに、行動制御装置は無人飛行体やゲームインタフェースに適用する場合に限らず医療分野、例えば手術用のロボットに適用することも可能である。この場合、術者が行った手術中の患部の撮像画像を取得して教師画像として学習を行い学習モデルを生成して、手術用のロボットは、撮像画像の画像変化に応じて行動を決定する。また、決定された行動に対する管理者等の行動に基づき新たな行動を決定することで、適切に手術等を行うことが可能となる。
 なお、上述の実施の形態では、学習モデルをサーバ30から行動体20に供給する場合を例示したが、学習モデル生成部を行動体20に設けて、行動体20で学習モデルを生成してもよい。
 明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させる。または、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。
 例えば、プログラムは記録媒体としてのハードディスクやSSD(Solid State Drive)、ROM(Read Only Memory)に予め記録しておくことができる。あるいは、プログラムはフレキシブルディスク、CD-ROM(Compact Disc Read Only Memory),MO(Magneto optical)ディスク,DVD(Digital Versatile Disc)、BD(Blu-Ray Disc(登録商標))、磁気ディスク、半導体メモリカード等のリムーバブル記録媒体に、一時的または永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体は、いわゆるパッケージソフトウェアとして提供することができる。
 また、プログラムは、リムーバブル記録媒体からコンピュータにインストールする他、ダウンロードサイトからLAN(Local Area Network)やインターネット等のネットワークを介して、コンピュータに無線または有線で転送してもよい。コンピュータでは、そのようにして転送されてくるプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
 なお、本明細書に記載した効果はあくまで例示であって限定されるものではなく、記載されていない付加的な効果があってもよい。また、本技術は、上述した技術の実施の形態に限定して解釈されるべきではない。この技術の実施の形態は、例示という形態で本技術を開示しており、本技術の要旨を逸脱しない範囲で当業者が実施の形態の修正や代用をなし得ることは自明である。すなわち、本技術の要旨を判断するためには、請求の範囲を参酌すべきである。
 また、本技術の行動制御装置は以下のような構成も取ることができる。
 (1) 行動体で取得された時系列撮像画像における画像変化に基づき、前記行動体に対して行われた行動に応じて前記行動体が行う行動を、学習モデルを用いて決定する行動決定部
を備える行動制御装置。
 (2) 前記行動決定部は、前記画像変化が予め設定された閾値を超えたとき、前記行動体が行う行動を決定する(1)に記載の行動制御装置。
 (3) 前記行動決定部は、前記行動体に対して行われた行動の速度に応じて前記行動体が行う行動を決定する(1)または(2)に記載の行動制御装置。
 (4) 前記行動決定部は、決定した行動を前記行動体で行うことによって生じた前記時系列撮像画像における画像変化に基づき、前記行動体がその後に行う行動を、学習モデルを用いて決定する(1)乃至(3)のいずれかに記載の行動制御装置。
 (5) 前記学習モデルは、前記行動決定部で決定された行動を前記行動体で開始後に行われた前記行動体に対する行動に応じた画像変化を用いた強化学習によって生成される(1)乃至(4)のいずれかに記載の行動制御装置。
 (6) 前記行動体に対して行われた行動は、前記行動体の姿勢変化を生じさせる行動である(1)乃至(5)のいずれかに記載の行動制御装置。
 (7) 前記行動体に対して行われた行動は、前記行動体の位置変化を生じさせる行動である(1)乃至(6)のいずれかに記載の行動制御装置。
 (8) 前記行動体に対して行われた行動は、前記時系列撮像画像に含まれる被写体の属性変化である(1)乃至(7)のいずれかに記載の行動制御装置。
 (9) 前記行動体に対して行われた行動は、前記行動体に対するユーザの指示操作である(1)乃至(8)のいずれかに記載の行動制御装置。
 (10) 前記行動決定部と、前記行動決定部で決定された行動を前記行動体で行わせる行動実行部を前記行動体に設けた(1)乃至(9)のいずれかに記載の行動制御装置。
 (11) 前記学習モデルを外部から取得する通信部をさらに備える(10)に記載の 行動制御装置。
 10・・・行動制御システム
 20・・・行動体
 21・・・撮像部
 22・・・通信部
 23・・・記憶部
 24・・・行動決定部
 25・・・行動実行部
 26・・・電源部
 30・・・サーバ
 31・・・通信部
 32・・・記憶部
 33・・・学習モデル生成部
 34・・・制御部
 35・・・情報提示部

Claims (13)

  1.  行動体で取得された時系列撮像画像における画像変化に基づき、前記行動体に対して行われた行動に応じて前記行動体が行う行動を、学習モデルを用いて決定する行動決定部
    を備える行動制御装置。
  2.  前記行動決定部は、前記画像変化が予め設定された閾値を超えたとき、前記行動体が行う行動を決定する
    請求項1に記載の行動制御装置。
  3.  前記行動決定部は、前記行動体に対して行われた行動の速度に応じて前記行動体が行う行動を決定する
    請求項1に記載の行動制御装置。
  4.  前記行動決定部は、決定した行動を前記行動体で行うことによって生じた前記時系列撮像画像における画像変化に基づき、前記行動体がその後に行う行動を、学習モデルを用いて決定する
    請求項1に記載の行動制御装置。
  5.  前記学習モデルは、前記行動決定部で決定された行動を前記行動体で開始後に行われた前記行動体に対する行動に応じた画像変化を用いた強化学習によって生成される
    請求項1に記載の行動制御装置。
  6.  前記行動体に対して行われた行動は、前記行動体の姿勢変化を生じさせる行動である
    請求項1に記載の行動制御装置。
  7.  前記行動体に対して行われた行動は、前記行動体の位置変化を生じさせる行動である
    請求項1に記載の行動制御装置。
  8.  前記行動体に対して行われた行動は、前記時系列撮像画像に含まれる被写体の属性変化である
    請求項1に記載の行動制御装置。
  9.  前記行動体に対して行われた行動は、前記行動体に対するユーザの指示操作である
    請求項1に記載の行動制御装置。
  10.  前記行動決定部と、前記行動決定部で決定された行動を前記行動体で行わせる行動実行部を前記行動体に設けた
    請求項1に記載の行動制御装置。
  11.  前記学習モデルを外部から取得する通信部をさらに備える
    請求項10に記載の行動制御装置。
  12.  行動体で取得された時系列撮像画像における画像変化に基づき、前記行動体に対して行われた行動に応じて前記行動体が行う行動を、学習モデルを用いて行動決定部で決定すること
    を含む行動制御方法。
  13.  行動体の行動制御をコンピュータで実行させるプログラムであって、
     前記行動体で取得した時系列撮像画像における画像変化に基づき、前記行動体に対して行われた行動に応じて前記行動体が行う行動を、学習モデルを用いて決定する手順と
    を前記コンピュータで実行させるプログラム。
PCT/JP2020/006447 2019-06-04 2020-02-19 行動制御装置と行動制御方法およびプログラム WO2020246075A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019104309 2019-06-04
JP2019-104309 2019-06-04

Publications (1)

Publication Number Publication Date
WO2020246075A1 true WO2020246075A1 (ja) 2020-12-10

Family

ID=73652406

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/006447 WO2020246075A1 (ja) 2019-06-04 2020-02-19 行動制御装置と行動制御方法およびプログラム

Country Status (1)

Country Link
WO (1) WO2020246075A1 (ja)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005071265A (ja) * 2003-08-27 2005-03-17 Matsushita Electric Ind Co Ltd 学習装置および方法、並びにロボットのカスタマイズ方法
JP2005346471A (ja) * 2004-06-03 2005-12-15 Canon Inc 情報処理方法、情報処理装置
WO2007043679A1 (ja) * 2005-10-14 2007-04-19 Sharp Kabushiki Kaisha 情報処理装置およびプログラム
WO2017163538A1 (ja) * 2016-03-25 2017-09-28 ソニー株式会社 情報処理装置
WO2017217038A1 (ja) * 2016-06-14 2017-12-21 ソニー株式会社 情報処理装置および記憶媒体
WO2018008385A1 (ja) * 2016-07-05 2018-01-11 Groove X株式会社 自律行動型ロボット
JP2018173763A (ja) * 2017-03-31 2018-11-08 積水化学工業株式会社 行動支援システム、行動支援方法
WO2019003405A1 (ja) * 2017-06-30 2019-01-03 日本電気株式会社 着陸装置、着陸制御方法、着陸制御プログラム
JP2019010967A (ja) * 2017-06-30 2019-01-24 株式会社 日立産業制御ソリューションズ 自動制御装置およびその制御方法
JP2019043495A (ja) * 2017-09-07 2019-03-22 株式会社デンソー 自動運転調整装置、自動運転調整システム、及び自動運転調整方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005071265A (ja) * 2003-08-27 2005-03-17 Matsushita Electric Ind Co Ltd 学習装置および方法、並びにロボットのカスタマイズ方法
JP2005346471A (ja) * 2004-06-03 2005-12-15 Canon Inc 情報処理方法、情報処理装置
WO2007043679A1 (ja) * 2005-10-14 2007-04-19 Sharp Kabushiki Kaisha 情報処理装置およびプログラム
WO2017163538A1 (ja) * 2016-03-25 2017-09-28 ソニー株式会社 情報処理装置
WO2017217038A1 (ja) * 2016-06-14 2017-12-21 ソニー株式会社 情報処理装置および記憶媒体
WO2018008385A1 (ja) * 2016-07-05 2018-01-11 Groove X株式会社 自律行動型ロボット
JP2018173763A (ja) * 2017-03-31 2018-11-08 積水化学工業株式会社 行動支援システム、行動支援方法
WO2019003405A1 (ja) * 2017-06-30 2019-01-03 日本電気株式会社 着陸装置、着陸制御方法、着陸制御プログラム
JP2019010967A (ja) * 2017-06-30 2019-01-24 株式会社 日立産業制御ソリューションズ 自動制御装置およびその制御方法
JP2019043495A (ja) * 2017-09-07 2019-03-22 株式会社デンソー 自動運転調整装置、自動運転調整システム、及び自動運転調整方法

Similar Documents

Publication Publication Date Title
US11000952B2 (en) More endearing robot, method of controlling the same, and non-transitory recording medium
KR102623574B1 (ko) 전자 장치 및 그 동작 방법
JP7173031B2 (ja) 情報処理装置、情報処理方法、およびプログラム
EP3178617B1 (en) Hybrid reality based i-bot navigation and control
KR102235003B1 (ko) 충돌 검출, 추정 및 회피
JP3855812B2 (ja) 距離計測方法、その装置、そのプログラム、その記録媒体及び距離計測装置搭載型ロボット装置
JP4968929B2 (ja) 画像処理装置及び画像処理方法
JP2006082150A (ja) ロボット装置及びその行動制御方法
US20220097230A1 (en) Robot control device, robot control method, and program
US11780098B2 (en) Robot, robot control method, and recording medium
JP2020049648A (ja) 社会的合図をプログラム的に解釈するように構成された対話型自律ロボット
JP6885160B2 (ja) 移動装置、移動装置の制御方法及びプログラム
JP2024009862A (ja) 情報処理装置、情報処理方法、およびプログラム
JP7139643B2 (ja) ロボット、ロボットの制御方法及びプログラム
WO2020246075A1 (ja) 行動制御装置と行動制御方法およびプログラム
JP2004302644A (ja) 顔識別装置、顔識別方法、記録媒体、及びロボット装置
JP2003271958A (ja) 画像処理方法、その装置、そのプログラム、その記録媒体及び画像処理装置搭載型ロボット装置
JP2004302645A (ja) 顔登録装置、顔登録方法、記録媒体、及びロボット装置
US20220355480A1 (en) Control device, mobile body, and control method
JP2002326176A (ja) ロボット装置、並びに、画像記憶方法及び画像記憶装置、並びに、制御プログラム及び記録媒体
JP4379052B2 (ja) 動体検出装置、動体検出方法、及びロボット装置
WO2021131959A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP2005074562A (ja) ロボット装置、ロボット装置の制御方法、及び記録媒体
JP7275518B2 (ja) ロボット制御装置、ロボット、ロボット制御方法およびプログラム
US11969876B2 (en) Robot and control method of robot

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20818679

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20818679

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP