WO2019216016A1 - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
WO2019216016A1
WO2019216016A1 PCT/JP2019/009537 JP2019009537W WO2019216016A1 WO 2019216016 A1 WO2019216016 A1 WO 2019216016A1 JP 2019009537 W JP2019009537 W JP 2019009537W WO 2019216016 A1 WO2019216016 A1 WO 2019216016A1
Authority
WO
WIPO (PCT)
Prior art keywords
autonomous mobile
mobile body
learning
information processing
control unit
Prior art date
Application number
PCT/JP2019/009537
Other languages
English (en)
French (fr)
Inventor
真人 西尾
雄平 矢部
智雄 水上
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to CN201980029509.XA priority Critical patent/CN112106004A/zh
Priority to US17/052,035 priority patent/US11847822B2/en
Priority to JP2020518166A priority patent/JP7375748B2/ja
Publication of WO2019216016A1 publication Critical patent/WO2019216016A1/ja
Priority to US18/508,626 priority patent/US20240078798A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • G06V10/7784Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/40Software arrangements specially adapted for pattern recognition, e.g. user interfaces or toolboxes therefor
    • G06F18/41Interactive pattern learning with a human teacher
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • G06V10/7784Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors
    • G06V10/7788Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors the supervisor being a human, e.g. interactive learning with a human teacher
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes

Definitions

  • the present disclosure relates to an information processing apparatus, an information processing method, and a program.
  • Patent Literature 1 discloses a technique for changing the properties of an autonomous mobile body by creating a new behavior pattern in accordance with the properties of other information home appliances.
  • the present disclosure proposes a new and improved information processing apparatus, information processing method, and program capable of more efficiently realizing learning related to pattern recognition.
  • an operation control unit that controls the operation of an autonomous mobile body that acts based on recognition processing is provided, and the operation control unit is based on detection of the start of teaching related to pattern recognition learning.
  • an information processing apparatus that causes the autonomous mobile body to acquire information related to a learning target that is learned in association with a taught label.
  • the processor includes controlling the operation of the autonomous mobile body that acts based on the recognition process, and the controlling the operation detects the start of teaching related to pattern recognition learning. Based on the above, there is provided an information processing method further including causing the autonomous mobile body to acquire information related to a learning target to be learned in association with a taught label.
  • the computer includes an operation control unit that controls the operation of the autonomous mobile body that behaves based on the recognition process, and the operation control unit detects the start of teaching related to pattern recognition learning. Based on the above, a program for causing the autonomous mobile body to perform information acquisition related to the learning target learned in association with the taught label is provided.
  • the autonomous mobile body 10 is an information processing apparatus that executes situation estimation based on collected sensor information and autonomously selects and executes various operations according to the situation.
  • One feature of the autonomous mobile body 10 is that, unlike a robot that simply performs an operation in accordance with a user instruction command, the autonomous mobile body 10 autonomously executes an operation that is estimated to be optimal for each situation.
  • the autonomous mobile body 10 can perform, for example, user recognition based on a captured image, object recognition, and the like, and perform various autonomous actions according to the recognized user, object, and the like. It is. Moreover, the autonomous mobile body 10 which concerns on this embodiment can also perform the voice recognition based on a user's instruction
  • the autonomous mobile body 10 performs teacher learning based on a given correct label, thereby associating the feature of the object extracted from the image with the label and recognizing the object.
  • the autonomous mobile body 10 collects learning data dynamically based on teaching and performs pattern recognition learning on an object or the like, so that learning data is not prepared in advance. Even so, one of the features is to acquire recognition ability for various events.
  • the autonomous mobile body 10 can automatically collect learning data based on teaching by a user, for example.
  • the autonomous mobile body 10 can identify an object designated by the user with a gesture such as pointing, as a learning target, and can extract a label from the voice uttered by the user thereafter.
  • the autonomous mobile body 10 according to the present embodiment may automatically perform shooting of a learning target that is learned in association with the taught label.
  • the autonomous mobile body 10 According to the above-described function of the autonomous mobile body 10 according to the present embodiment, it is possible to automatically generate learning data related to pattern recognition learning of various events based on teaching, and events that can be newly observed in daily life It is possible to efficiently acquire the recognition ability for.
  • the autonomous mobile body 10 may be an autonomous mobile robot that autonomously moves in space and executes various operations.
  • the autonomous mobile body 10 may be, for example, an autonomous mobile robot having a shape imitating an animal such as a human or a dog or an operation capability.
  • the autonomous mobile body 10 may be, for example, a vehicle or other device having communication capability with the user.
  • the level of the shape, ability, desire, and the like of the autonomous mobile body 10 according to an embodiment of the present disclosure can be appropriately designed according to the purpose and role.
  • FIG. 1 is a diagram illustrating a hardware configuration example of an autonomous mobile body 10 according to an embodiment of the present disclosure.
  • the autonomous mobile body 10 is a dog-type quadruped walking robot having a head, a trunk, four legs, and a tail.
  • the autonomous mobile body 10 includes two displays 510 on the head.
  • the autonomous mobile body 10 includes various sensors.
  • the autonomous mobile body 10 includes, for example, a microphone 515, a camera 520, a ToF (Time of Flight) sensor 525, a human sensor 530, a distance sensor 535, a touch sensor 540, an illuminance sensor 545, a foot button 550, and an inertial sensor 555.
  • a microphone 515 a camera 520
  • a ToF (Time of Flight) sensor 525 a human sensor 530
  • a distance sensor 535 a touch sensor 540
  • an illuminance sensor 545 a foot button 550
  • an inertial sensor 555 an inertial sensor 555.
  • the microphone 515 has a function of collecting ambient sounds.
  • the above sounds include, for example, user's utterances and surrounding environmental sounds.
  • the autonomous mobile body 10 may include four microphones on the head. By providing a plurality of microphones 515, it is possible to collect sound generated in the surroundings with high sensitivity and realize localization of the sound source.
  • the camera 520 has a function of photographing the user and the surrounding environment.
  • the autonomous mobile body 10 may include two wide-angle cameras at the nose tip and the waist.
  • the wide-angle camera placed at the tip of the nose shoots an image corresponding to the front field of view of the autonomous mobile body (that is, the field of view of the dog), and the wide-angle camera at the waist shoots an image of the surrounding area centered on the upper side.
  • the autonomous mobile body 10 can extract a feature point of a ceiling based on an image photographed by a wide-angle camera placed on the waist, and can realize SLAM (Simultaneous Localization and Mapping).
  • SLAM Simultaneous Localization and Mapping
  • the ToF sensor 525 has a function of detecting a distance from an object existing in front of the head.
  • the ToF sensor 525 is provided at the nose of the head. According to the ToF sensor 525, it is possible to detect the distance to various objects with high accuracy, and it is possible to realize an operation according to the relative position with respect to an object or an obstacle including the user.
  • the human sensor 530 has a function of detecting the location of a user or a pet raised by the user.
  • the human sensor 530 is disposed on the chest, for example. According to the human sensor 530, it is possible to realize various operations on the moving object, for example, operations corresponding to emotions such as interest, fear, and surprise by detecting the moving object existing in the front. .
  • the distance measuring sensor 535 has a function of acquiring the state of the front floor surface of the autonomous mobile body 10.
  • the distance measuring sensor 535 is disposed on the chest, for example. According to the distance measuring sensor 535, the distance from the object existing on the front floor surface of the autonomous mobile body 10 can be detected with high accuracy, and an operation according to the relative position with the object can be realized.
  • the touch sensor 540 has a function of detecting contact by the user.
  • the touch sensor 540 is disposed at a site where the user is likely to touch the autonomous mobile body 10, such as the top of the head, under the chin, or the back.
  • the touch sensor 540 may be, for example, a capacitance type or pressure sensitive type touch sensor. According to the touch sensor 540, it is possible to detect a contact action such as touching, stroking, hitting, and pressing by a user, and it is possible to perform an operation according to the contact action.
  • the illuminance sensor 545 detects the illuminance of the space where the autonomous mobile body 10 is located.
  • the illuminance sensor 545 may be arranged at the base of the tail on the back of the head. According to the illuminance sensor 545, it is possible to detect ambient brightness and perform an operation according to the brightness.
  • the sole button 550 has a function of detecting whether or not the leg bottom surface of the autonomous mobile body 10 is in contact with the floor.
  • the sole button 550 is disposed at a portion corresponding to the paws of the four legs. According to the sole button 550, contact or non-contact between the autonomous mobile body 10 and the floor surface can be detected, and for example, it is possible to grasp that the autonomous mobile body 10 is lifted by the user. .
  • Inertial sensor 555 is a six-axis sensor that detects physical quantities such as the speed, acceleration, and rotation of the head and torso. In other words, inertial sensor 555 detects the X-axis, Y-axis, and Z-axis accelerations and angular velocities. Inertial sensors 555 are disposed on the head and the trunk, respectively. According to the inertial sensor 555, it is possible to detect the movements of the head and torso of the autonomous mobile body 10 with high accuracy and to realize operation control according to the situation.
  • the autonomous mobile body 10 may further include various communication devices including a temperature sensor, a geomagnetic sensor, and a GNSS (Global Navigation Satellite System) signal receiver, for example.
  • GNSS Global Navigation Satellite System
  • FIG. 2 is a configuration example of the actuator 570 provided in the autonomous mobile body 10 according to an embodiment of the present disclosure.
  • the autonomous mobile body 10 according to an embodiment of the present disclosure has a total of 22 rotational degrees of freedom, one for the ear and the tail, and one for the mouth, in addition to the rotation locations shown in FIG.
  • the autonomous mobile body 10 has both the movement of tilting and tilting the neck by having three degrees of freedom in the head.
  • the autonomous mobile body 10 can realize a natural and flexible operation closer to a real dog by reproducing the swing motion of the waist by the actuator 570 provided in the waist.
  • the autonomous mobile body 10 may realize the above-described 22 rotational degrees of freedom by combining, for example, a uniaxial actuator and a biaxial actuator.
  • a uniaxial actuator may be employed at the elbow or knee portion of the leg
  • a biaxial actuator may be employed at the base of the shoulder or thigh.
  • FIG. 3 and 4 are diagrams for describing the operation of the actuator 570 provided in the autonomous mobile body 10 according to the embodiment of the present disclosure.
  • the actuator 570 can drive the movable arm 590 at an arbitrary rotational position and rotational speed by rotating the output gear by the motor 575.
  • an actuator 570 includes a rear cover 571, a gear BOX cover 572, a control board 573, a gear BOX base 574, a motor 575, a first gear 576, a second gear 577, and an output gear. 578, a detection magnet 579, and two bearings 580 are provided.
  • the actuator 570 may be, for example, a magnetic svGMR (spin-valve giant magnetoresistive).
  • the control board 573 rotates the motor 575 based on the control by the main processor, whereby power is transmitted to the output gear 578 via the first gear 576 and the second gear 577 and the movable arm 590 is driven. Is possible.
  • the position sensor provided on the control board 573 detects the rotation angle of the detection magnet 579 that rotates in synchronization with the output gear 578, thereby detecting the rotation angle of the movable arm 590, that is, the rotation position with high accuracy. Can do.
  • the magnetic svGMR is excellent in durability because it is a non-contact type, and has an advantage that it is less affected by signal fluctuation due to distance fluctuation of the detection magnet 579 and the position sensor when used in the GMR saturation region.
  • the configuration example of the actuator 570 provided in the autonomous mobile body 10 according to an embodiment of the present disclosure has been described above. According to said structure, it becomes possible to control the bending operation of the joint part with which the autonomous mobile body 10 is provided with high precision, and to detect the rotation position of a joint part correctly.
  • FIG. 5 is a diagram for describing functions of the display 510 included in the autonomous mobile body 10 according to an embodiment of the present disclosure.
  • the display 510 has a function of visually expressing eye movements and emotions of the autonomous mobile body 10. As shown in FIG. 5, the display 510 can express eyeball, pupil, and eyelid movements according to emotions and actions. The display 510 does not display characters, symbols, images that are not related to eye movements, and the like, thereby producing a natural motion close to an animal such as a real dog.
  • the autonomous mobile body 10 includes two displays 510r and 510l corresponding to the right eye and the left eye, respectively.
  • the displays 510r and 510l are realized by, for example, two independent OLEDs (Organic Light Emitting Diode). OLED makes it possible to reproduce the curved surface of the eyeball, as compared to the case where a pair of eyeballs are represented by a single flat display or the case where two eyeballs are each represented by two independent flat displays. Thus, a more natural exterior can be realized.
  • the displays 510r and 510l can express the line of sight and emotion of the autonomous mobile body 10 as shown in FIG. 5 with high accuracy and flexibility.
  • the user can intuitively grasp the state of the autonomous mobile body 10 from the movement of the eyeball displayed on the display 510.
  • FIG. 6 is a diagram illustrating an operation example of the autonomous mobile body 10 according to an embodiment of the present disclosure.
  • the operation of the joint unit and the eyeball of the autonomous mobile body 10 will be described. Therefore, the external structure of the autonomous mobile body 10 is shown in a simplified manner.
  • the external structure of the autonomous mobile body 10 may be shown in a simplified manner, but the hardware configuration and exterior of the autonomous mobile body 10 according to an embodiment of the present disclosure are shown in the drawings. It is not limited to an example, It can design suitably.
  • FIG. 7 is a diagram illustrating an example of a system configuration according to an embodiment of the present disclosure.
  • the information processing system includes a plurality of autonomous mobile bodies 10 and an information processing server 20.
  • the autonomous mobile body 10 and the information processing server 20 and the autonomous mobile bodies 10 are connected to each other via the network 30 so that they can communicate with each other.
  • the autonomous mobile body 10 is an information processing apparatus that executes situation estimation based on collected sensor information and autonomously selects and executes various operations according to the situation.
  • the autonomous mobile body 10 according to an embodiment of the present disclosure may be, for example, an autonomous mobile robot having a shape imitating an animal such as a human or a dog or an operation capability.
  • the autonomous mobile body 10 according to an embodiment of the present disclosure may automatically collect learning data based on teachings and perform pattern recognition learning based on the learning data.
  • the information processing server 20 is an information processing apparatus that is connected to a plurality of autonomous mobile bodies 10 and has a function of collecting various types of information from the autonomous mobile bodies 10.
  • the information processing server 20 accumulates learning data collected by a plurality of autonomous mobile bodies 10, for example. Further, the information processing server 20 according to an embodiment of the present disclosure controls a user interface for the user to confirm the learning status of the autonomous mobile body 10.
  • the network 30 has a function of connecting the autonomous mobile body 10, the information processing server 20, and the autonomous mobile bodies 10.
  • the network 30 may include a public line network such as the Internet, a telephone line network, a satellite communication network, various LANs (Local Area Network) including Ethernet (registered trademark), a WAN (Wide Area Network), and the like. Further, the network 30 may include a dedicated line network such as an IP-VPN (Internet Protocol-Virtual Private Network). Further, the network 30 may include a wireless communication network such as Wi-Fi (registered trademark) or Bluetooth (registered trademark).
  • the autonomous mobile body 10 may further perform information communication with various external devices in addition to the information processing server 20.
  • the external device may include, for example, a server that transmits weather, news, and other service information, various information processing terminals owned by the user, home appliances, and the like.
  • the system configuration according to an embodiment of the present disclosure can be flexibly modified according to specifications and operations.
  • FIG. 8 is a diagram illustrating a functional configuration example of the autonomous mobile body 10 according to an embodiment of the present disclosure.
  • an autonomous moving body 10 according to an embodiment of the present disclosure includes an input unit 110, a recognition unit 120, a learning unit 130, an action plan unit 140, an operation control unit 150, a drive unit 160, an output unit 170, And a server communication unit 180.
  • the input unit 110 has a function of collecting various information related to the user and the surrounding environment.
  • the input unit 110 collects, for example, user's utterances and environmental sounds generated around the user, image information related to the users and the surrounding environment, and various sensor information.
  • the input unit 110 includes various sensors shown in FIG.
  • the recognition unit 120 has a function of performing various recognitions related to the user, the surrounding environment, and the state of the autonomous mobile body 10 based on various information collected by the input unit 110.
  • the recognition unit 120 performs human identification, facial expression and line of sight recognition, object recognition, motion recognition, spatial region recognition, color recognition, shape recognition, marker recognition, obstacle recognition, step recognition, brightness recognition, and the like. It's okay.
  • the recognition unit 120 may have a function of specifying a learning target indicated by a user's gesture such as pointing.
  • the recognition unit 120 according to the present embodiment may have a function of extracting a noun phrase by performing morphological analysis on a voice uttered by a user after the above-described gesture or the like, for example.
  • the noun phrase can be used as a label in pattern recognition learning by the learning unit 130.
  • the recognition unit 120 performs emotion recognition, word understanding, sound source localization, and the like related to the user's voice.
  • the recognition unit 120 can recognize contact by a user or the like, ambient temperature, existence of a moving object, posture of the autonomous mobile body 10, and the like.
  • the recognition unit 120 has a function of estimating and understanding the surrounding environment and situation where the autonomous mobile body 10 is placed based on the recognized information. At this time, the recognition unit 120 may comprehensively estimate the situation using environmental knowledge stored in advance.
  • the learning unit 130 has a function of learning the environment (situation) and action, and the action of the action on the environment.
  • the learning unit 130 realizes the above learning using, for example, a machine learning algorithm such as deep learning.
  • the learning algorithm employed by the learning unit 130 is not limited to the above example, and can be designed as appropriate.
  • the learning unit 130 performs pattern recognition learning based on the label collected by the recognition unit 120 based on the teaching and the learning target image captured by the input unit 110.
  • the behavior planning unit 140 has a function of planning the behavior performed by the autonomous mobile body 10 based on the situation estimated by the recognition unit 120 and the knowledge learned by the learning unit 130.
  • the operation control unit 150 has a function of controlling the operations of the drive unit 160 and the output unit 170 based on the action plan by the action plan unit 140.
  • the operation control unit 150 performs, for example, rotation control of the actuator 570, display control of the display 510, audio output control by a speaker, and the like based on the above action plan.
  • the motion control unit 150 acquires information on a learning target that is learned in association with a taught label based on the recognition unit 120 detecting the start of teaching related to pattern recognition learning. May be performed by the input unit 110.
  • the motion control unit 150 controls the drive unit 160 to take a position and posture where the learning target specified by the recognition unit 120 can be photographed, and the input unit 110 Have the subject to be photographed.
  • the operation control unit 150 controls the driving unit 160 to change the position and posture of the autonomous mobile body 10 and cause the input unit 110 to photograph the learning target from a plurality of angles. Also good.
  • images of a plurality of side surfaces and upper surfaces to be learned can be collected and used as learning data, thereby realizing more efficient pattern recognition learning. It becomes possible to do. Details of the functions of the operation control unit 150 according to this embodiment will be described later.
  • the drive unit 160 has a function of bending and stretching a plurality of joints included in the autonomous mobile body 10 based on control by the operation control unit 150. More specifically, the drive unit 160 drives the actuator 570 provided in each joint unit based on control by the operation control unit 150.
  • the output unit 170 has a function of outputting visual information and sound information based on control by the operation control unit 150.
  • the output unit 170 includes a display 510 and a speaker.
  • the server communication unit 180 has a function of performing information communication with the information processing server 20 and other autonomous mobile bodies 10. For example, the server communication unit 180 transmits collected learning data and the like to the information processing server 20. For example, the server communication unit 180 receives learning data accumulated by the information processing server 20 and information related to learning knowledge learned based on the learning data.
  • the function configuration example of the autonomous mobile body 10 according to an embodiment of the present disclosure has been described above.
  • said structure demonstrated using FIG. 8 is an example to the last, and the function structure of the autonomous mobile body 10 which concerns on one Embodiment of this indication is not limited to the example which concerns.
  • the functional configuration of the autonomous mobile body 10 according to an embodiment of the present disclosure can be flexibly modified according to specifications and operations.
  • FIG. 9 is a diagram illustrating a functional configuration example of the information processing server 20 according to an embodiment of the present disclosure.
  • the information processing server 20 according to an embodiment of the present disclosure includes a recognition unit 210, a learning unit 220, a storage unit 230, an application control unit 240, and a terminal communication unit 250.
  • the recognition unit 210 according to the present embodiment may have a function equivalent to that of the recognition unit 210 included in the autonomous mobile body 10. That is, the recognition unit 210 according to the present embodiment has a function of specifying a learning target and extracting a label based on the teaching. Note that the recognition unit 210 according to the present embodiment may specify a learning target and extract a label based on information collected by a plurality of autonomous mobile bodies 10.
  • the learning unit 220 according to the present embodiment may have a function equivalent to that of the learning unit 130 included in the autonomous mobile body 10. That is, the learning unit 220 according to the present embodiment performs pattern recognition learning based on the label acquired by the recognition unit 210 and the image related to the learning target. Note that the learning unit 220 according to the present embodiment may perform pattern recognition learning based on information collected by the plurality of autonomous mobile bodies 10. That is, the learning unit 220 according to the present embodiment functions as collective intelligence common to the plurality of autonomous mobile bodies 10.
  • the storage unit 230 stores collected learning data, learning knowledge learned by the learning unit 220 and the autonomous mobile body 10, and a pattern recognition result based on the learning knowledge.
  • the application control unit 240 controls a user interface related to state confirmation and function control of the autonomous mobile body 10.
  • the application control unit 240 may display the above user interface on an information processing terminal owned by the user.
  • the application control unit 240 provides a means for confirming the learning status of the autonomous mobile body 10 and a means for associating a label related to pattern recognition learning with a learning target in the user interface.
  • the application control unit 240 may provide a means for the user to particularly correct the association between the label learned by the autonomous mobile body 10 and the learning target. Details of the functions of the application control unit 240 according to the present embodiment will be described later. In addition, the function which the application control part 240 which concerns on this embodiment has can also be implement
  • the terminal communication unit 250 performs information communication with a plurality of autonomous mobile bodies 10 via the network 30.
  • the terminal communication unit 250 according to the present embodiment receives learning data, a pattern recognition result, and the like from the autonomous mobile body 10.
  • the terminal communication unit 250 transmits learning data collected by a plurality of autonomous mobile bodies 10 and learning knowledge learned based on the learning data to the autonomous mobile bodies 10.
  • the function configuration example of the information processing server 20 according to an embodiment of the present disclosure has been described above.
  • the above-described configuration described with reference to FIG. 9 is merely an example, and the functional configuration of the information processing server 20 according to an embodiment of the present disclosure is not limited to the example.
  • the information processing server 20 according to the present embodiment may have functions equivalent to those of the action planning unit 140 and the operation control unit 150 of the autonomous mobile body 10.
  • the information processing server 20 according to the present embodiment can estimate the situation based on the sensor information collected by the input unit 110 of the autonomous mobile body 10, and remotely control the drive unit 160 and the output unit 170. Is possible.
  • the functional configuration of the information processing server 20 according to an embodiment of the present disclosure can be flexibly modified according to specifications and operations.
  • FIG. 10 is a diagram showing an outline of pattern recognition learning based on the teaching according to the present embodiment.
  • FIG. 10 shows an example in which the teaching according to the present embodiment is executed by the user.
  • the teaching according to the present embodiment may be performed by a gesture or utterance such as pointing by the user as shown on the left side of FIG.
  • a gesture or utterance such as pointing by the user as shown on the left side of FIG.
  • the user indicates the object O1 that is “sojiki” with the finger UH, and teaches the autonomous mobile body 10 that the object O1 is “sojiki” by the utterance UO. .
  • the recognition unit 120 first, based on the user's utterance such as “Remember”, the user's gesture instructing the start of learning by teaching, or the sound of ringing a finger, Detect the start of teaching.
  • the motion control unit 150 may cause the autonomous mobile body 10 to perform an operation indicating that learning based on teaching is started.
  • the motion control unit 150 may change the color of the iris expressed by the display 510 such as barking, raising an ear or tail.
  • the output unit 170 output a voice indicating that learning is disclosed.
  • the operation control unit 150 controls the driving unit 160 to change the position and posture of the autonomous mobile body 10 so that the user's finger UF and the object O1 indicated by the finger UF are within the visual field FV.
  • the recognition unit 120 specifies the object O1 as a learning target based on the direction indicated by the user's finger UF.
  • the operation control unit 150 causes the input unit 110 to photograph the object O1 specified as the learning target by the recognition unit 120.
  • the recognition unit 120 extracts a noun phrase “sojiki” used as a label by performing morphological analysis on the user's utterance UO.
  • the learning unit 130 associates the label extracted as described above with the captured image to be learned as learning data, and executes object recognition learning related to the object O1.
  • the autonomous mobile body 10 without preparing learning data in advance, learning data related to various objects is automatically collected on a daily basis, and object recognition learning based on the learning data is performed. Is possible.
  • pattern recognition learning is given as an example of pattern recognition learning according to the present embodiment, but pattern recognition learning according to the present embodiment is not limited to such an example.
  • the pattern recognition learning according to the present embodiment includes, for example, motion recognition learning. That is, the learning target according to the present embodiment may be an action of an object.
  • FIG. 11 is a diagram showing an outline of motion recognition learning based on the teaching according to the present embodiment.
  • FIG. 11 a case where the user teaches the autonomous mobile body 10 about a “jump” operation performed by a person is illustrated.
  • the user indicates an utterance UO that teaches that the action performed by the person P1 is “jump” while showing the person P1 who performs “jump” with the finger UH. Is going.
  • the recognition unit 120 recognizes the phrase “motion” included in the utterance UO, so that the user P1 performs the object recognition (or user recognition) related to the person P1. It may be detected that teaching is performed.
  • the recognizing unit 120 may detect a teaching related to motion recognition based on an utterance such as “Please remember the motion” uttered by the user.
  • the recognizing unit 120 specifies an operation performed by the person P1 as a learning target based on the direction indicated by the user's finger UF.
  • the motion control unit 150 causes the input unit 110 to capture the motion of the person P1 identified as the learning target by the recognition unit 120.
  • the recognition unit 120 extracts a noun phrase “jump” used as a label by performing morphological analysis on the user's utterance UO.
  • the learning unit 130 executes object recognition learning related to the operation performed by the person P1 using the extracted label and the captured image to be learned as learning data.
  • learning data related to various operations performed by the object can be automatically collected, and object recognition learning can be performed based on the learning data. Is possible.
  • the learning unit 130 uses, for example, the motion data collected by the information processing terminal worn by the person performing the motion. It may be used as learning data.
  • the autonomous mobile body 10 learning based on teaching is repeatedly executed, and the collective intelligence learned by the information processing server 20 is used to show the right side in the figure.
  • “jump” performed by a person P2 different from the person P1 can be recognized with high accuracy.
  • the pattern recognition learning according to the present embodiment may include, for example, spatial domain recognition learning. That is, the learning target according to the present embodiment may be an arbitrary space region.
  • the space area according to the present embodiment may be an arbitrary predetermined area (location) in the space.
  • the space area according to the present embodiment is not necessarily a closed space physically separated from other space areas.
  • the space area according to the present embodiment may be, for example, “house” or “first floor” of “house”.
  • the space area according to the present embodiment may be “living room” on the “first floor” or “near the sofa” in “living room”.
  • FIG. 12 is a diagram showing an outline of spatial domain recognition learning based on the teaching according to the present embodiment.
  • a case where the user teaches the autonomous mobile body 10 of the space region D ⁇ b> 1 that is “Genkan” is illustrated.
  • the user performs an utterance UO that teaches that the space area D1 in which the autonomous mobile body 10 is located is "Genkan”.
  • the recognition unit 120 may detect that the teaching relating to the spatial region D1 is performed by recognizing the word “here” included in the utterance UO.
  • the recognizing unit 120 may detect a teaching related to space area recognition based on an utterance such as “Please remember the place” uttered by the user.
  • the recognizing unit 120 specifies the space region D1 where the autonomous mobile body 10 is currently located as a learning target based on the user's utterance UO.
  • the operation control unit 150 causes the input unit 110 to photograph the spatial region specified as the learning target by the recognition unit 120.
  • the recognition unit 120 extracts a noun phrase “Genkan” used as a label by performing morphological analysis on the user's utterance UO.
  • the learning unit 130 associates the label extracted as described above with the photographed learning target image as learning data, and executes spatial region recognition learning related to “Genkan”.
  • learning data related to various spatial regions can be automatically collected, and spatial region recognition learning based on the learning data can be performed. Is possible.
  • the learning unit 130 loses the user who is tracking in the spatial region D1 (ie, goes out). ) And the fact that utterances such as “I ’m right now” and “I ’ll come” are often detected in the space region D1 may be used as features of the space region to be learned.
  • the autonomous mobile body 10 learning based on teaching is repeatedly executed, and the collective intelligence learned by the information processing server 20 is used to show the right side in the figure. As described above, it is possible to recognize the space region D2 having a different taste from the space region D1 as “epileptic”.
  • the operation control unit 150 has a function of causing the input unit 110 to photograph the learning target specified by the recognition unit 120.
  • the operation control unit 150 may control the input unit 110 and the driving unit 160 so that pattern recognition is performed with high accuracy and efficiency.
  • the operation control unit 150 can change the position and posture of the autonomous mobile body 10 by controlling the driving unit 160 so that the entire specified object is correctly captured.
  • FIG. 13 is a diagram for explaining the shooting control of the learning target according to the present embodiment.
  • FIG. 13 shows an example in which the user teaches the autonomous mobile body 10 the object O3 which is “reizouko” by the utterance UO.
  • the operation control unit 150 moves the autonomous mobile body 10 to a position and posture where the entire specified object O3 can be photographed, and then inputs the input unit. 110 may photograph the object O3. According to the above function of the operation control unit 150 according to the present embodiment, it is possible to perform highly accurate pattern recognition learning based on the image I2 obtained by correctly copying the entire object O3.
  • the operation control unit 150 may perform the above-described control when the recognition unit 120 determines that the boundary of the object cannot be recognized. For example, in the image I1 shown in the drawing, there is a portion where the boundary between the background and the object O3 cannot be recognized at the upper end of the image. As described above, when the recognition unit 120 cannot correctly recognize the boundary between the background and the learning target, the operation control unit 150 determines that the learning target and the autonomous mobile object 10 are not recognized until the recognition unit 120 can correctly recognize the boundary.
  • the drive unit 160 may be controlled so that the distance to the distance increases.
  • the operation control unit 150 may perform control to bring the autonomous mobile body 10 closer to the learning target. At this time, the operation control unit 150 can perform the above control based on the fact that the recognition unit 120 determines that the background ratio in the image is larger than a predetermined value.
  • the operation control unit 150 it is possible to perform efficient pattern recognition learning based on an image photographed at an appropriate distance from the learning target.
  • the motion control unit 150 may control the driving unit 160 and the input unit 110 so that the learning target specified by the recognition unit 120 is photographed from a plurality of angles.
  • the operation control unit 150 causes the driving unit 160 to capture the object O4 that is the “pet bottle” identified as the learning target by the recognition unit 120 from the upper surface and the five side surfaces. And the input unit 110 is controlled.
  • the motion control unit 150 moves the autonomous mobile body 10 and captures a plurality of images so that pattern recognition learning is efficiently performed based on images to be learned from various angles. be able to.
  • the features of the learning target are extracted from various angles as compared to the case of performing learning based on an image obtained by photographing one aspect of the learning target. It is possible to obtain a learning effect with high generalization.
  • the shooting control according to the present embodiment has been described in detail above.
  • the teaching which concerns on this embodiment is performed by the user was described as a main example above, the teaching which concerns on this embodiment is not limited to the example which concerns.
  • the teaching according to the present embodiment may be performed based on information acquired from a learning target, for example.
  • the teaching according to the present embodiment may be realized by a marker such as a QR code (registered trademark) assigned to a learning target, for example.
  • FIG. 15 is a diagram for explaining teaching using a marker according to the present embodiment.
  • the upper part of FIG. 15 shows an example in which teaching related to object recognition learning is realized by the marker M1 given to the object O1 which is “sojiki”.
  • the recognition unit 120 can acquire the label “sojiki” based on the image of the marker M1 captured by the input unit 110.
  • the teaching related to the spatial domain recognition learning is realized by the marker M2 attached to the door installed in the spatial domain D1 which is “Genkan”. Also in this case, the recognizing unit 120 can acquire the label “Engekan” based on the image of the marker M2 captured by the input unit 110.
  • the marker according to the present embodiment it is possible to realize teaching related to an object, a spatial region, or the like instead of explicit teaching by the user, and automatically recognize the recognition ability of the autonomous mobile body 10. It becomes possible to raise.
  • FIG. 16 is a diagram for explaining teaching using wireless communication according to the present embodiment.
  • the object O1 that is “sojiki” has transmitted the label “sojiki” and the images I3a and I3b of the object O1 to the autonomous mobile body 10 by wireless communication.
  • the learning unit 130 can perform object recognition learning related to the object O1 based on the received label “Sojiki” and the images I3a and I3b.
  • the object O3 to be learned is stored in the closet and the object O3 cannot be photographed, it is prepared in advance.
  • the autonomous mobile body 10 can perform object recognition learning related to the object O3.
  • NFC Near Field Communication
  • Bluetooth registered trademark
  • RFID Radio Frequency IDentification
  • a beacon may be used for the wireless communication according to the present embodiment.
  • teaching according to the present embodiment may be realized by non-audible sounds such as ultrasonic waves emitted from a learning target, for example.
  • FIG. 17 is a diagram for explaining teaching using a non-audible sound according to the present embodiment.
  • the recognition unit 120 is based on the non-audible sound NAS1 emitted by the object O5 during “dehydrating”, the object O5 is “sensiki”, and the object O5 is “dehydrating”. An example of detecting this is shown.
  • the recognition unit 120 is based on the non-audible sound NAS ⁇ b> 2 emitted by the object O ⁇ b> 5 during “drying”, the object O ⁇ b> 5 is “senseki”, and the object O ⁇ b> 5 is “drying”. An example of detecting this is shown.
  • the learning unit 130 may detect the audible sound AS1 that is the operation sound generated by the object O5 during “dehydration” or the object O5 during “drying”. It is also possible to learn the audible sound AS2 which is an operation sound emitted from the object together with the operation state of the object O5.
  • the autonomous mobile body 10 according to the present embodiment can acquire recognition ability gradually even for an object that does not emit non-audible sound by repeatedly performing learning as described above.
  • the teaching variation according to the present embodiment has been described. Subsequently, correction of association between a label and a learning target according to the present embodiment will be described.
  • the autonomous mobile body 10 according to the present embodiment can perform pattern recognition learning based on various teachings.
  • the application control unit 240 of the information processing server 20 provides a user interface for the user (or developer or service provider) to correct the association between the label and the learning target. Good.
  • FIG. 18 and FIG. 19 are diagrams showing an example of a user interface according to the present embodiment.
  • FIG. 18 illustrates an example of a user interface that the application control unit 240 displays on the information processing terminal 40 possessed by the user after pattern recognition learning based on teaching is performed.
  • the user selects the boundary recognition result related to the “PET bottle” that is the correct learning target in the image I4 displayed on the user interface, and the field F1 corresponding to the label.
  • the correct spelling “PET bottle” it is possible to easily correct the learning object and the label that are incorrectly associated with each other.
  • the user may be able to correct the association not only immediately after learning by teaching but also from the history of pattern recognition by the autonomous mobile body 10.
  • FIG. 19 shows an example of a user interface that displays a history of objects recognized by the autonomous mobile body 10 during autonomous behavior.
  • the object of “Chance” was erroneously recognized as “Reizuko”.
  • the user may be able to correct the association as shown on the right side in the figure by selecting the erroneous recognition history and inputting the correct label.
  • the application control unit 240 it is possible to find and correct erroneous learning content immediately after learning or at an arbitrary time point thereafter. It becomes.
  • the correction of the learning result according to the present embodiment may be automatically performed by the autonomous mobile body 10.
  • the learning unit 130 according to the present embodiment detects, for example, a shift between collective intelligence and its own learning knowledge by comparing the learning result accumulated in the information processing server 20 with its own learning result, and the label It is also possible to automatically correct the learning target.
  • autonomous learning can be performed by collecting and learning learning data dynamically on a daily basis without preparing learning data in advance. It becomes possible to improve the recognition ability of the body 10 effectively with low burden.
  • the operation control unit 150 may cause the autonomous mobile body 10 to perform a guiding operation for guiding the teaching by the user.
  • FIG. 20 is a diagram for explaining the guidance operation according to the present embodiment.
  • the operation control unit 150 when an unknown object Ox that cannot be recognized by the recognition unit 120 is detected during the autonomous behavior of the autonomous mobile body 10, the operation control unit 150 according to the present embodiment guides the user to teach the object Ox. The operation can be performed by the autonomous mobile body 10.
  • the motion control unit 150 causes the autonomous mobile body 10 to perform a motion of holding the object Ox as a guidance operation based on the recognition unit 120 detecting the unrecognizable object Ox. Yes.
  • the guidance operation according to the present embodiment includes various operations such as barking, smelling, threatening, tilting the neck, seeing the user and the target alternately, and barking.
  • operation control unit 150 can cause the autonomous mobile body 10 to perform various actions on the learned event in addition to the above-described guidance operation.
  • the operation control unit 150 can also prompt the user to use the furniture by performing an action on a newly recognized object such as furniture.
  • the operation control unit 150 may cause the autonomous mobile body 10 to perform the above-described operation based on, for example, detecting that “sojiki” has not moved for a predetermined time or more.
  • the motion control unit 150 may cause a love expression such as hugging or holding an object defined as a favorite among the objects learned by the autonomous mobile body 10.
  • the above-mentioned popularity may be defined based on, for example, the number of times of recognition or identification of an object (for example, a manufacturer).
  • the operation control unit 150 may cause the autonomous mobile body 10 to imitate the newly learned operation.
  • the motion control unit 150 can cause the autonomous mobile body 10 to perform the learned motion based on sequence data generated from the captured motion image.
  • sequence data may be information including control signals related to time-series changes in the rotational position of the joints of the autonomous mobile body 10, eyeball expression, and sound output.
  • the sequence data can be generated based on, for example, estimation of a joint position of an object to be operated and estimation of the magnitude of bending / extending motion.
  • the operation control unit 150 is based on comparison with exercise learning data accumulated as collective intelligence in the information processing server 20.
  • the autonomous mobile body 10 may be made to perform a behavior related to the evaluation of the user's exercise. At this time, the evaluation may be performed based on, for example, a deviation from the average value of learning data accumulated as collective intelligence.
  • the operation control unit 150 causes the driving unit 160 and the output unit so that the autonomous mobile body 10 greets the user with “epileptic” when the user returns home. It is also possible to control 170.
  • the motion control unit 150 when the learning unit 130 learns the motion state of the object and the like, when an abnormality is detected from the operation sound, the motion control unit 150 notifies the autonomous mobile body 10 of the notification related to the abnormality. You may let it be done. Further, for example, the motion control unit 150 can cause the autonomous mobile body 10 to perform an action according to the recognized motion state of the object. For example, when it is recognized that the microwave oven is operating, the operation control unit 150 may cause the autonomous mobile body 10 to perform an action such as preparing a dish.
  • FIG. 21 is a flowchart showing a flow of operations of the autonomous mobile body 10 according to the present embodiment.
  • the recognition unit 120 detects a teaching (S1101).
  • the recognizing unit 120 can detect the start of teaching based on, for example, speech by a user, detection of a QR code, reception of information by wireless communication, detection of inaudible sound, and the like.
  • the operation control unit 150 causes the autonomous mobile body 10 to perform an operation indicating that the pattern recognition learning starts based on the start of the teaching detected in step S1101 (S1102).
  • the above operation may be, for example, an operation of moving, moving an ear or tail, or changing an iris color.
  • the recognition unit 120 specifies a learning target (S1103).
  • the recognition unit 120 may specify a learning target based on a gesture such as a user's pointing, or may specify a learning target based on information acquired from the learning target.
  • the recognition unit 120 acquires a label (S1104).
  • the recognition unit 120 may extract a label from the user's utterance or may acquire a label from information acquired from a learning target.
  • the operation control unit 150 controls the drive unit 160 so that the entire learning target specified in step S1103 has a position and posture where photographing is possible (S1105).
  • the operation control unit 150 controls the driving unit 160 and the input unit 110 so that the learning target is photographed from a plurality of angles (S1106).
  • the learning unit 130 performs pattern recognition learning based on the label acquired in step S1104 and the image photographed in step S1106 (S1107).
  • the operation control unit 150 causes the autonomous mobile body 10 to perform an operation indicating the end of pattern recognition learning (S1102).
  • the above operation may be, for example, an operation of moving, moving an ear or tail, or changing an iris color.
  • the environmental map according to the present embodiment is a map including information such as the arrangement of objects and the structure of buildings in the real space where the autonomous mobile body 10 exists.
  • the environment map according to the present embodiment may be, for example, a map in which information acquired by SLAM is visualized for a user (hereinafter, a map visualized for the user may be simply referred to as a SLAM map). is there).
  • the autonomous mobile body 10 according to the present embodiment can realize SLAM using an image captured by a wide-angle camera (camera 520) disposed on the waist.
  • the environment map generated as described above is presented to the user, and the user performs labeling on an arbitrary designated area on the environment map, so that the pattern recognition of the spatial area is performed. Realize teaching related to learning.
  • one feature of the application control unit 240 of the information processing server 20 according to the present embodiment is that the user controls a user interface for performing teaching using an environment map.
  • the application control unit 240 according to the present embodiment provides the above-described user interface as a function of a Web application, and displays the information on the information processing terminal 40 such as a smartphone or a PC (Personal Computer) possessed by the user. Good.
  • the user interface control function described above may be realized as a function of the autonomous mobile body 10.
  • FIG. 22 is an example of a user interface UI2 for performing teaching using the environment map according to the present embodiment.
  • the environment map EM generated based on the sensor information collected by the autonomous mobile body 10 is presented to the user.
  • the environment map EM according to the present embodiment may be a SLAM map, for example.
  • the application control unit 240 may arrange the SLAM map received from the autonomous mobile body 10 on the user interface UI2.
  • the environment map EM such as a SLAM map may be generated by the information processing server 20 based on sensor information (including position information and images) collected by the autonomous mobile body 10.
  • sensor information including position information and images
  • the environment map EM for example, information on the real space recognized by the autonomous mobile body 10 may be shown in units of blocks.
  • the environment map EM includes a plurality of blocks defined by a predetermined unit (distance) in a two-dimensional coordinate system corresponding to a horizontal plane in real space.
  • the above blocks indicate the attributes of the corresponding space area in the real space.
  • the block B1 indicates a space area (for example, a wall) in which the autonomous mobile body 10 cannot move (enter).
  • the block B2 indicates a space area where the autonomous mobile body 10 has actually moved so far (that is, a movable open space area).
  • the block B3 indicates a space area where the autonomous mobile body 10 has not yet moved.
  • a block B4 indicates an area in which it is difficult to determine whether it is immovable, movable, or not moved.
  • the attributes of the spatial region as described above indicated by the blocks B1 to B4 may be expressed by, for example, a difference in color, pattern, or shape.
  • FIG. 22 shows an example in which the above attribute is expressed by a color difference.
  • the environmental map EM shows the current position CP of the autonomous mobile body 10 and the position of the charge station CS for supplying power to the autonomous mobile body 10. Good.
  • the user designates an arbitrary designated area and assigns a label, thereby teaching a spatial area on the real space corresponding to the designated area. be able to.
  • the user first selects an arbitrary designated area by dragging or the like on the environment map EM.
  • the area selected and designated by the user is indicated by a dotted line.
  • the user assigns a tag T including the name of the spatial region, that is, a label, to the selected designated region.
  • FIG. 22 shows an example in which a tag T including the name “Kitchen” is assigned to the designated area selected by the user.
  • the application control unit 240 provides a means for the user to specify an arbitrary designated area in the environment map EM and give a label to the designated area in the user interface UI2. Is one of the features. According to the above feature of the application control unit 240 according to the present embodiment, it is possible to easily and accurately realize pattern recognition learning related to the spatial region using the visualized environment map EM.
  • the application control unit 240 may have a function of presenting a candidate for a label (tag) that can be assigned to the designated area by the user interface UI2.
  • the application control unit 240 displays candidate OPs such as “Kitchen”, “Bed room”, and “Living room” on the user interface UI2 as labels (tags) that can be assigned by the user. Is displayed.
  • the user can easily assign a label to the designated area by dragging a target tag from the presented candidate OP onto the environment map EM.
  • the application control unit 240 presents a plurality of general label candidates in advance, so that it is possible to absorb the shaking of the notation by each user and converge the types of label names. . According to this, highly versatile learning data that can be shared by a plurality of autonomous mobile bodies 10 can be efficiently collected, and highly accurate pattern recognition learning can be realized.
  • FIGS. 23 to 27 are diagrams showing an example of the process of generating the environment map EM according to this embodiment.
  • the environment map EM according to the present embodiment may be a SLAM map for a user generated based on sensor information collected by the autonomous mobile body 10.
  • the symbols relating to the blocks B1 to B4, the current position CP of the autonomous mobile body 10, and the charge station CS are omitted, but the visual representations common to FIGS. It shall conform to the code given to 22.
  • FIG. 23 shows an example of the environment map EM at the start of generation. At this point in time, sufficient sensor information for determining the attributes of the space area has not yet been accumulated, so that only the current position CP of the autonomous mobile body 10 is shown in the environment map EM.
  • FIG. 24 shows an example of the environmental map EM when a certain amount of time has elapsed from the time shown in FIG.
  • the attributes of the spatial region are determined based on the sensor information collected along with the autonomous movement of the autonomous mobile body 10, and visual information such as blocks B1 to B4 is added on the environment map EM. I understand.
  • the movement trajectory of the autonomous mobile body 10 is, for example, a line extending from the current position CP. May be indicated.
  • FIG. 25 shows an example of the environment map EM at a time when a further time has elapsed from the time shown in FIG. Comparing FIG. 24 and FIG. 25, it can be seen that the density of the blocks is increased due to the accumulation of sensor information with the passage of time.
  • the environment map EM according to the present embodiment can be dynamically updated based on the sensor information collected by the autonomous mobile body 10 along with the autonomous movement.
  • FIG. 26 shows an example of the environmental map EM at the time when further time has elapsed from the time shown in FIG. Referring to FIG. 26, it can be seen that the scale of the environmental map EM is changed due to the expansion of the movement range of the autonomous mobile body 10, and is updated as a map corresponding to a wider real space. In addition, with the accumulation of sensor information, the density of blocks further increases.
  • FIG. 27 shows an example of the environmental map EM at the time when further time has elapsed from the time shown in FIG. 26 and 27 are compared, the scale of the environmental map EM shown in FIG. 27 is further changed compared to the environmental map EM shown in FIG. 26, and the map corresponds to a wider spatial area.
  • a block is added to a new area due to the expansion of the movement range of the autonomous mobile body 10.
  • the autonomous mobile body 10 As described above, the autonomous mobile body 10 according to the present embodiment generates an environment map EM such as a SLAM map based on sensor information (including position information, images, etc.) collected along with autonomous movement. Can be updated.
  • the application control unit 240 displays the environment map EM on the user interface UI2, so that the user understands the range of the space area in the real space that the autonomous mobile body 10 recognizes. Thus, it can be used for subsequent learning.
  • the motion control unit 150 moves the autonomous mobile body 10 to the space area in the real space corresponding to the designated area to which the label is given, and autonomously moves information acquisition related to the space area. It can be performed by the body 10.
  • FIG. 28 is a diagram for explaining the movement control and information acquisition to the space area corresponding to the designated area according to the present embodiment.
  • An environment map EM is shown on the left side of FIG. 28, and an example of an image taken by the wide-angle camera (camera 520) in which the autonomous mobile body 10 is arranged at the tip of the nose is shown on the right side of FIG.
  • the operation control unit 150 for example, that the label is assigned on the environment map EM, or that the user speaks “Go to this place” after the label is assigned. Based on the above, the autonomous mobile body 10 may be moved to a spatial area corresponding to a designated area to which a label is assigned. In addition to the movement control described above, the operation control unit 150 according to the present embodiment causes the autonomous mobile body 10 to capture an image of the space area.
  • the operation control unit 150 it is possible to accurately collect information related to the spatial region in the real space corresponding to the designated region to which the user has given the label on the environment map EM. it can.
  • the imaging of the image does not necessarily have to be performed immediately after the label is applied, and may be performed, for example, when the autonomous mobile body 10 reaches the corresponding space area in the autonomous movement after the label is applied.
  • the various information collected as described above is used for pattern recognition learning of the spatial region by the autonomous mobile body 10.
  • the learning unit 130 of the autonomous mobile body 10 can perform pattern recognition learning by associating the label given via the user interface UI2 with the image of the spatial region captured as described above.
  • the learning unit 130 learns an image (which may be each frame of a moving image) taken in time series along with the movement to the space area together with the time series information, and reaches the space area. It is also possible to learn the features of
  • the image of the spatial region actually viewed from the viewpoint of the autonomous mobile body 10 (that is, the image photographed by the camera 520 arranged at the tip of the nose) is associated with the converged name without the notation.
  • the attached teacher learning data with annotations that can be shared by a plurality of autonomous mobile bodies 10 can be efficiently accumulated, and can be used to improve the accuracy of environment recognition by the autonomous mobile bodies 10.
  • the sharing of the teacher learning data among the plurality of autonomous mobile bodies 10 can be realized by collecting and distributing the teacher learning data by the information processing server 20.
  • the name of the space area can be estimated based on the learning result.
  • the operation control unit 150 causes the autonomous mobile body 10 to capture an image of a spatial region
  • the information collection control according to the present embodiment is not limited to such an example.
  • the motion control unit 150 according to the present embodiment can cause the autonomous mobile body 10 to collect various sensor information related to the spatial region.
  • the motion control unit 150 may cause the autonomous mobile body 10 to collect voice data related to the spatial region.
  • the learning unit 130 can perform learning by associating the voice data with the label.
  • the recognition unit 120 of the autonomous mobile body 10 can estimate, for example, that the spatial region where the current position is located is a riverside based on the detection of the sound of flowing water.
  • the operation control unit 150 may cause the autonomous mobile body 10 to collect vibration data related to the space region.
  • the learning unit 130 can learn by associating the vibration data with the label.
  • the recognition unit 120 of the autonomous mobile body 10 can estimate, for example, that the current spatial region is an expressway based on the detection of characteristic vibrations due to vehicles or the like. It becomes.
  • the operation control unit 150 may cause the autonomous mobile body 10 to collect sensor information related to odors such as odor intensity related to the space region.
  • the learning unit 130 can perform learning by associating the sensor information related to the odor with the label.
  • the recognition unit 120 of the autonomous mobile body 10 can estimate, for example, that the toilet is currently located based on the detection of a strong odor.
  • the environment map EM is two-dimensional.
  • the environment map EM according to the present embodiment can be extended to multiple dimensions.
  • the autonomous mobile body 10 is an unmanned aircraft such as a drone capable of flying
  • the autonomous mobile body 10 may generate a SLAM map including altitude information.
  • the user can select a designated area in which the altitude is designated and label it.
  • the environment map EM in this embodiment may include time information.
  • the user can specify the time and area to perform labeling (for example, the evening sea).
  • the environment map EM according to the present embodiment may be defined together with metadata.
  • the environment map EM according to the present embodiment can also include 6-dimensional information such as coordinates (x, y, z) of the F room on the E floor of the D building.
  • a plurality of environment maps EM according to the present embodiment may be generated.
  • the user can also label the entire environment map EM (for example, the label “1st floor for the environment map EM1). ”And the label“ second floor ”is given to the environmental map EM2.
  • the image as shown in FIG. 28 and the movement trajectory of the autonomous mobile body 10 on the environment map EM may be displayed in real time on the user interface UI2.
  • the user can determine whether or not the designated area is correctly recognized, whether or not the autonomous mobile body 10 is correctly moving to the space area corresponding to the designated area, Thus, it is possible to grasp whether or not the spatial area corresponding to the designated area is “seeing”.
  • the above-described real-time display of the image and the environment map EM can be applied to a system such as monitoring and watching.
  • FIG. 29 is a flowchart showing a flow of teaching learning using the environment map EM according to the present embodiment.
  • an environment map EM is generated based on the sensor information collected by the recognition unit 120 of the autonomous mobile body 10 (S2101). As described above, the environment map EM according to the present embodiment may be generated by the information processing server 20.
  • the application control unit 240 of the information processing server 20 presents the environment map EM generated in step S2101 to the user via the user interface UI2.
  • the user selects an arbitrary designated area in the environment map EM and executes labeling for the designated area (S2102).
  • the motion control unit 150 of the autonomous mobile body 10 moves the autonomous mobile body 10 to a space area on the real space corresponding to the designated area selected in step S2101, and sensor information (image or the like) related to the space area. Are collected (S2103).
  • the learning unit 130 of the autonomous mobile body 10 performs pattern recognition learning related to the spatial region by associating the label given in step S2102 with the sensor information collected in step S2103 (S2104).
  • FIG. 30 is a block diagram illustrating a hardware configuration example of the information processing server 20 according to an embodiment of the present disclosure.
  • the information processing server 20 includes, for example, a processor 871, a ROM 872, a RAM 873, a host bus 874, a bridge 875, an external bus 876, an interface 877, an input device 878, and an output device 879.
  • the hardware configuration shown here is an example, and some of the components may be omitted. Moreover, you may further include components other than the component shown here.
  • the processor 871 functions as, for example, an arithmetic processing unit or a control unit, and controls all or part of the operation of each component based on various programs recorded in the ROM 872, RAM 873, storage 880, or removable recording medium 901. .
  • the ROM 872 is a means for storing a program read by the processor 871, data used for calculation, and the like.
  • a program to be read by the processor 871 various parameters that change as appropriate when the program is executed, and the like are temporarily or permanently stored.
  • the processor 871, the ROM 872, and the RAM 873 are connected to each other via, for example, a host bus 874 capable of high-speed data transmission.
  • the host bus 874 is connected to an external bus 876 having a relatively low data transmission speed via a bridge 875, for example.
  • the external bus 876 is connected to various components via an interface 877.
  • the input device 878 for example, a mouse, a keyboard, a touch panel, a button, a switch, a lever, or the like is used. Furthermore, as the input device 878, a remote controller (hereinafter referred to as a remote controller) capable of transmitting a control signal using infrared rays or other radio waves may be used.
  • the input device 878 includes a voice input device such as a microphone.
  • the output device 879 is a display device such as a CRT (Cathode Ray Tube), LCD, or organic EL, an audio output device such as a speaker or a headphone, a printer, a mobile phone, or a facsimile. It is a device that can be notified visually or audibly.
  • the output device 879 according to the present disclosure includes various vibration devices that can output a tactile stimulus.
  • the storage 880 is a device for storing various data.
  • a magnetic storage device such as a hard disk drive (HDD), a semiconductor storage device, an optical storage device, a magneto-optical storage device, or the like is used.
  • the drive 881 is a device that reads information recorded on a removable recording medium 901 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory, or writes information to the removable recording medium 901.
  • a removable recording medium 901 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory
  • the removable recording medium 901 is, for example, a DVD medium, a Blu-ray (registered trademark) medium, an HD DVD medium, or various semiconductor storage media.
  • the removable recording medium 901 may be, for example, an IC card on which a non-contact IC chip is mounted, an electronic device, or the like.
  • connection port 882 is a port for connecting an external connection device 902 such as a USB (Universal Serial Bus) port, an IEEE 1394 port, a SCSI (Small Computer System Interface), an RS-232C port, or an optical audio terminal. is there.
  • an external connection device 902 such as a USB (Universal Serial Bus) port, an IEEE 1394 port, a SCSI (Small Computer System Interface), an RS-232C port, or an optical audio terminal. is there.
  • the external connection device 902 is, for example, a printer, a portable music player, a digital camera, a digital video camera, or an IC recorder.
  • the communication device 883 is a communication device for connecting to a network.
  • the autonomous mobile body 10 includes the operation control unit 150 that controls the operation of the autonomous mobile body 10.
  • the motion control unit 150 acquires information on a learning target that is learned in association with a taught label based on detection of the start of teaching related to pattern recognition learning.
  • the autonomous mobile body 10 performs the above. According to such a configuration, learning related to pattern recognition can be more efficiently realized.
  • a computer-readable recording medium can also be provided.
  • each step related to the processing of the autonomous mobile body 10 in this specification does not necessarily have to be processed in time series in the order described in the flowchart.
  • each step related to the processing of the autonomous mobile body 10 may be processed in an order different from the order described in the flowchart, or may be processed in parallel.
  • An operation control unit that controls the operation of the autonomous mobile body that acts based on the recognition process; With The operation control unit causes the autonomous mobile body to perform information acquisition related to a learning target that is learned in association with a taught label, based on detection of the start of teaching related to pattern recognition learning.
  • Information processing device (2)
  • the learning object includes a spatial domain, The operation control unit causes the autonomous mobile body to perform information acquisition related to the spatial region based on the label given in the environmental map generated based on the sensor information collected by the autonomous mobile body.
  • the information processing apparatus according to (1).
  • the operation control unit moves the autonomous mobile body to the space area on the real space corresponding to the designated area to which the label is assigned in the environmental map.
  • the operation control unit causes the autonomous mobile body to photograph the space area corresponding to the designated area.
  • the environmental map is generated or updated using SLAM technology.
  • the operation control unit controls the position or posture of the autonomous mobile body so that the learning object is photographed from a plurality of angles.
  • the operation control unit controls the position or posture of the autonomous mobile body so that the entire learning target is photographed.
  • the motion control unit controls the position or posture of the autonomous mobile body based on a result of boundary recognition related to the learning target.
  • the teaching is performed by a user;
  • the operation control unit causes the autonomous mobile body to perform shooting of the learning target specified based on an instruction of the user.
  • the user's instruction is performed by a gesture,
  • (11) The teaching is performed based on information acquired from the learning target.
  • (12) The teaching is performed by photographing a marker given to the learning target.
  • the teaching is performed based on information transmitted by wireless communication from the learning target.
  • (14) The teaching is performed based on a non-audible sound emitted from the learning target.
  • the information processing apparatus includes any one of (11) to (13).
  • the label is extracted from the user's utterance, The information processing apparatus according to (9) or (10).
  • the learning object includes an object, The operation control unit causes the autonomous mobile body to take an image of the object specified based on the teaching.
  • the information processing apparatus according to any one of (1) and 6 to (15).
  • the learning target includes an action of an object, The motion control unit causes the autonomous mobile body to perform information acquisition related to the motion of the object specified based on the teaching;
  • the information processing apparatus according to any one of (1) and 6 to (16).
  • the learning object includes a spatial domain, The operation control unit causes the autonomous mobile body to perform information acquisition related to the spatial region specified based on the teaching.
  • the information processing apparatus causes the autonomous mobile body to perform an operation indicating that the pattern recognition learning has started or ended.
  • the information processing apparatus causes the autonomous mobile body to perform a guidance operation for guiding the teaching by a user.
  • the information processing apparatus according to any one of (1) and 6 to (19).
  • An application control unit that controls a user interface for associating the label and the learning target with respect to the pattern recognition learning; Further comprising The information processing apparatus according to any one of (1) to (20).
  • the application control unit provides a means for the user to specify an arbitrary designated area in the environment map and attach the label to the designated area in the user interface.
  • the information processing apparatus according to (21).
  • the application control unit presents the label candidates that can be given by the user to the designated area in the user interface.
  • the application control unit provides means for the user to correct the association between the label and the learning target in the user interface.
  • a learning unit that performs the pattern recognition learning based on the label and the learning target image; Further comprising The information processing apparatus according to any one of (1) to (24).
  • the processor controls the movement of the autonomous mobile body acting based on the recognition process; Including Controlling the operation causes the autonomous mobile body to acquire information related to the learning target learned in association with the taught label based on the detection of the start of teaching related to pattern recognition learning. thing, Further including Information processing method.

Abstract

【課題】パターン認識に係る学習をより効率的に実現する。 【解決手段】認識処理に基づいて行動する自律移動体の動作を制御する動作制御部、を備え、前記動作制御部は、パターン認識学習に係る教示の開始が検出されたことに基づいて、教示されるラベルと対応付けて学習される学習対象に係る情報取得を前記自律移動体に行わせる、情報処理装置が提供される。また、プロセッサが、認識処理に基づいて行動する自律移動体の動作を制御すること、を含み、前記動作を制御することは、パターン認識学習に係る教示の開始が検出されたことに基づいて、教示されるラベルと対応付けて学習される学習対象に係る情報取得を前記自律移動体に行わせること、をさらに含む、情報処理方法が提供される。

Description

情報処理装置、情報処理方法、およびプログラム
 本開示は、情報処理装置、情報処理方法、およびプログラムに関する。
 近年、学習機能を有する種々の装置が開発されている。上記の装置には、推定した状況に基づいて自律動作を行うロボットなどの自律移動体が含まれる。また、上記のような自律移動体の取り得る行動をより多様化させるための技術も多く提案されている。例えば、特許文献1には、他の情報家電機器の性質に合わせ、新しい行動パターンを創り出すことにより、自律移動体の性質に変化を持たせる技術が開示されている。
特開2003-140710号公報
 ところで、自律移動体の行動は、一般的に、自律移動体が認識できる対象が増加するほど、より多様化することが想定される。しかし、上記のような対象を大幅に増加させるためには、当該対象に係る大量の学習データを用意することが求められる。
 そこで、本開示では、パターン認識に係る学習をより効率的に実現することが可能な、新規かつ改良された情報処理装置、情報処理方法、およびプログラムを提案する。
 本開示によれば、認識処理に基づいて行動する自律移動体の動作を制御する動作制御部、を備え、前記動作制御部は、パターン認識学習に係る教示の開始が検出されたことに基づいて、教示されるラベルと対応付けて学習される学習対象に係る情報取得を前記自律移動体に行わせる、情報処理装置が提供される。
 また、本開示によれば、プロセッサが、認識処理に基づいて行動する自律移動体の動作を制御すること、を含み、前記動作を制御することは、パターン認識学習に係る教示の開始が検出されたことに基づいて、教示されるラベルと対応付けて学習される学習対象に係る情報取得を前記自律移動体に行わせること、をさらに含む、情報処理方法が提供される。
 また、本開示によれば、コンピュータを、認識処理に基づいて行動する自律移動体の動作を制御する動作制御部、を備え、前記動作制御部は、パターン認識学習に係る教示の開始が検出されたことに基づいて、教示されるラベルと対応付けて学習される学習対象に係る情報取得を前記自律移動体に行わせる、情報処理装置、として機能させるためのプログラムが提供される。
 以上説明したように本開示によれば、パターン認識に係る学習をより効率的に実現することが可能となる。
 なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の第1の実施形態に係る自律移動体のハードウェア構成例を示す図である。 同実施形態に係る自律移動体が備えるアクチュエータの構成例である。 同実施形態に係る自律移動体が備えるアクチュエータの動作について説明するための図である。 同実施形態に係る自律移動体が備えるアクチュエータの動作について説明するための図である。 同実施形態に係る自律移動体が備えるディスプレイの機能について説明するための図である。 同実施形態に係る自律移動体の動作例を示す図である。 同実施形態に係るシステム構成の一例を示す図である。 同実施形態に係る自律移動体の機能構成例を示す図である。 同実施形態に係る情報処理サーバの機能構成例を示す図である。 同実施形態に係る教示に基づくパターン認識学習の概要を示す図である。 同実施形態に係る教示に基づく動作認識学習の概要を示す図である。 同実施形態に係る教示に基づく空間領域認識学習の概要を示す図である。 同実施形態に係る学習対象の撮影制御について説明するための図である。 同実施形態に係る学習対象の撮影制御について説明するための図である。 同実施形態に係るマーカを利用した教示について説明するための図である。 同実施形態に係る無線通信を利用した教示について説明するための図である。 同実施形態に係る非可聴音を利用した教示について説明するための図である。 同実施形態に係るユーザインタフェースの一例を示す図である。 同実施形態に係るユーザインタフェースの一例を示す図である。 同実施形態に係る誘導動作について説明するための図である。 同実施形態に係る自律移動体10の動作の流れを示すフローチャートである。 本開示の第2の実施形態に係る環境地図を用いた教示を行うためのユーザインタフェースの一例である。 同実施形態に係る環境地図の生成過程の一例を示す図である。 同実施形態に係る環境地図の生成過程の一例を示す図である。 同実施形態に係る環境地図の生成過程の一例を示す図である。 同実施形態に係る環境地図の生成過程の一例を示す図である。 同実施形態に係る環境地図の生成過程の一例を示す図である。 同実施形態に係る指定領域に対応する空間領域への移動制御と情報取得について説明するための図である。 同実施形態に係る環境地図を用いた教示学習の流れを示すフローチャートである。 本開示の一実施形態に係る情報処理サーバのハードウェア構成例を示すブロック図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 なお、説明は以下の順序で行うものとする。
 1.第1の実施形態
  1.1.自律移動体10の概要
  1.2.自律移動体10のハードウェア構成例
  1.3.システム構成例
  1.4.自律移動体10の機能構成例
  1.5.情報処理サーバ20の機能構成例
  1.6.機能の詳細
  1.7.動作の流れ
 2.第1の実施形態
  2.1.概要
  2.2.環境地図を用いた教示の詳細
  2.3.環境地図EMを用いた教示学習の流れ
 3ハードウェア構成例
 4.まとめ
 <1.第1の実施形態>
 <<1.1.自律移動体10の概要>>
 まず、本開示の一実施形態に係る自律移動体10の概要について説明する。本開示の一実施形態に係る自律移動体10は、収集したセンサ情報に基づく状況推定を実行し、状況に応じた種々の動作を自律的に選択し実行する情報処理装置である。自律移動体10は、単にユーザの指示コマンドに従った動作を行うロボットとは異なり、状況ごとに最適であると推測した動作を自律的に実行することを特徴の一つとする。
 本開示の一実施形態に係る自律移動体10は、例えば、撮影した画像に基づくユーザ認識や、物体認識などを実行し、認識したユーザや物体などに応じた種々の自律行動を行うことが可能である。また、本実施形態に係る自律移動体10は、例えば、ユーザの発話に基づく音声認識を実行し、ユーザの指示などに基づく行動を行うこともできる。
 この際、上記のユーザ認識や物体認識を行うためには、予めユーザや物体の特徴をラベルと対応付けて学習することが求められる。自律移動体10は、例えば、与えられた正解ラベルに基づく教師学習を行うことで、画像から抽出した物体の特徴とラベルとを対応付け、当該物体の認識が行えるようになる。
 一方、上記のような教師学習を実現するためには、予め物体に係る正解ラベルと画像とを対応付けた学習データが必要となる。しかし、自律移動体10が日常において遭遇し得るすべての物体に係る学習データを予め開発者が用意し、また自律移動体10に学習させることは、現実的に困難である。また、例え、多くの物体に係るパターン認識学習を予め行った場合であっても、これまでには世にない物体や、既存のものとは意匠が異なる物体が普及した場合、事前の学習知識のみでは、上記のような物体に対応することが困難である。
 本開示に係る技術思想は、上記の点に着目して発想されたものであり、パターン認識に係る学習をより効率的に実現することを可能とする。このために、本開示の一実施形態に係る自律移動体10は、教示に基づいて動的に学習データを収集し、物体などに係るパターン認識学習を行うことで、予め学習データが用意されない場合であっても、種々の事象に対する認識能を獲得することを特徴の一つとする。
 本実施形態に係る自律移動体10は、例えば、ユーザによる教示に基づいて、学習データを自動で収集することが可能である。自律移動体10は、例えば、ユーザが指差しなどのジェスチャにより指示した物体を学習対象として特定し、また、その後にユーザが発した音声からラベルを抽出することができる。また、本実施形態に係る自律移動体10は、教示されたラベルと対応付けて学習する学習対象の撮影を自動的に行ってよい。
 本実施形態に係る自律移動体10が有する上記の機能によれば、教示に基づいて種々の事象のパターン認識学習に係る学習データを自動で生成することができ、日常において新たに観察し得る事象に対する認識能を効率的に獲得することが可能となる。
 以下、上記の特徴を実現する自律移動体10の構成について詳細に説明する。なお、本開示の一実施形態に係る自律移動体10は、空間内を自律的に移動し、種々の動作を実行する自律移動型ロボットであってよい。自律移動体10は、例えば、ヒトやイヌなどの動物を模した形状や、動作能力を有する自律移動型ロボットであってもよい。また、自律移動体10は、例えば、ユーザとのコミュニケーション能力を有する車両やその他の装置であってもよい。本開示の一実施形態に係る自律移動体10の形状、能力、また欲求などのレベルは、目的や役割に応じて適宜設計され得る。
 <<1.2.自律移動体10のハードウェア構成例>>
 次に、本開示の一実施形態に係る自律移動体10のハードウェア構成例について説明する。なお、以下では、自律移動体10がイヌ型の四足歩行ロボットである場合を例に説明する。
 図1は、本開示の一実施形態に係る自律移動体10のハードウェア構成例を示す図である。図1に示すように、自律移動体10は、頭部、胴部、4つの脚部、および尾部を有するイヌ型の四足歩行ロボットである。また、自律移動体10は、頭部に2つのディスプレイ510を備える。
 また、自律移動体10は、種々のセンサを備える。自律移動体10は、例えば、マイクロフォン515、カメラ520、ToF(Time of Flight)センサ525、人感センサ530、測距センサ535、タッチセンサ540、照度センサ545、足裏ボタン550、慣性センサ555を備える。
 (マイクロフォン515)
 マイクロフォン515は、周囲の音を収集する機能を有する。上記の音には、例えば、ユーザの発話や、周囲の環境音が含まれる。自律移動体10は、例えば、頭部に4つのマイクロフォンを備えてもよい。複数のマイクロフォン515を備えることで、周囲で発生する音を感度高く収集すると共に、音源の定位を実現することが可能となる。
 (カメラ520)
 カメラ520は、ユーザや周囲環境を撮影する機能を有する。自律移動体10は、例えば、鼻先と腰部に2つの広角カメラを備えてもよい。この場合、鼻先に配置される広角カメラは、自律移動体の前方視野(すなわち、イヌの視野)に対応した画像を撮影し、腰部の広角カメラは、上方を中心とする周囲領域の画像を撮影する。自律移動体10は、例えば、腰部に配置される広角カメラにより撮影された画像に基づいて、天井の特徴点などを抽出し、SLAM(Simultaneous Localization and Mapping)を実現することができる。
 (ToFセンサ525)
 ToFセンサ525は、頭部前方に存在する物体との距離を検出する機能を有する。ToFセンサ525は、頭部の鼻先に備えられる。ToFセンサ525によれば、種々の物体との距離を精度高く検出することができ、ユーザを含む対象物や障害物などとの相対位置に応じた動作を実現することが可能となる。
 (人感センサ530)
 人感センサ530は、ユーザやユーザが飼育するペットなどの所在を検知する機能を有する。人感センサ530は、例えば、胸部に配置される。人感センサ530によれば、前方に存在する動物体を検知することで、当該動物体に対する種々の動作、例えば、興味、恐怖、驚きなどの感情に応じた動作を実現することが可能となる。
 (測距センサ535)
 測距センサ535は、自律移動体10の前方床面の状況を取得する機能を有する。測距センサ535は、例えば、胸部に配置される。測距センサ535によれば、自律移動体10の前方床面に存在する物体との距離を精度高く検出することができ、当該物体との相対位置に応じた動作を実現することができる。
 (タッチセンサ540)
 タッチセンサ540は、ユーザによる接触を検知する機能を有する。タッチセンサ540は、例えば、頭頂、あご下、背中など、ユーザが自律移動体10に対し触れる可能性が高い部位に配置される。タッチセンサ540は、例えば、静電容量式や感圧式のタッチセンサであってよい。タッチセンサ540によれば、ユーザによる触れる、撫でる、叩く、押すなどの接触行為を検知することができ、当該接触行為に応じた動作を行うことが可能となる。
 (照度センサ545)
 照度センサ545は、自律移動体10が位置する空間の照度を検出する。照度センサ545は、例えば、頭部背面において尾部の付け根などに配置されてもよい。照度センサ545によれば、周囲の明るさを検出し、当該明るさに応じた動作を実行することが可能となる。
 (足裏ボタン550)
 足裏ボタン550は、自律移動体10の脚部底面が床と接触しているか否かを検知する機能を有する。このために、足裏ボタン550は、4つの脚部の肉球に該当する部位にそれぞれ配置される。足裏ボタン550によれば、自律移動体10と床面との接触または非接触を検知することができ、例えば、自律移動体10がユーザにより抱き上げられたことなどを把握することが可能となる。
 (慣性センサ555)
 慣性センサ555は、頭部や胴部の速度や加速度、回転などの物理量を検出する6軸センサである。すなわち、慣性センサ555は、X軸、Y軸、Z軸の加速度および角速度を検出する。慣性センサ555は、頭部および胴部にそれぞれ配置される。慣性センサ555によれば、自律移動体10の頭部および胴部の運動を精度高く検出し、状況に応じた動作制御を実現することが可能となる。
 以上、本開示の一実施形態に係る自律移動体10が備えるセンサの一例について説明した。なお、図1を用いて説明した上記の構成はあくまで一例であり、自律移動体10が備え得るセンサの構成は係る例に限定されない。自律移動体10は、上記の構成のほか、例えば、温度センサ、地磁気センサ、GNSS(Global Navigation Satellite System)信号受信機を含む各種の通信装置などをさらに備えてよい。自律移動体10が備えるセンサの構成は、仕様や運用に応じて柔軟に変形され得る。
 続いて、本開示の一実施形態に係る自律移動体10の関節部の構成例について説明する。図2は、本開示の一実施形態に係る自律移動体10が備えるアクチュエータ570の構成例である。本開示の一実施形態に係る自律移動体10は、図2に示す回転箇所に加え、耳部と尾部に2つずつ、口に1つの合計22の回転自由度を有する。
 例えば、自律移動体10は、頭部に3自由度を有することで、頷きや首を傾げる動作を両立することができる。また、自律移動体10は、腰部に備えるアクチュエータ570により、腰のスイング動作を再現することで、より現実のイヌに近い自然かつ柔軟な動作を実現することが可能である。
 なお、本開示の一実施形態に係る自律移動体10は、例えば、1軸アクチュエータと2軸アクチュエータを組み合わせることで、上記の22の回転自由度を実現してもよい。例えば、脚部における肘や膝部分においては1軸アクチュエータを、肩や大腿の付け根には2軸アクチュエータをそれぞれ採用してもよい。
 図3および図4は、本開示の一実施形態に係る自律移動体10が備えるアクチュエータ570の動作について説明するための図である。図3を参照すると、アクチュエータ570は、モータ575により出力ギアを回転させることで、可動アーム590を任意の回転位置および回転速度で駆動させることができる。
 図4を参照すると、本開示の一実施形態に係るアクチュエータ570は、リアカバー571、ギアBOXカバー572、制御基板573、ギアBOXベース574、モータ575、第1ギア576、第2ギア577、出力ギア578、検出用マグネット579、2個のベアリング580を備える。
 本開示の一実施形態に係るアクチュエータ570は、例えば、磁気式svGMR(spin-valve Giant Magnetoresistive)であってもよい。制御基板573が、メインプロセッサによる制御に基づいて、モータ575を回転させることで、第1ギア576および第2ギア577を介して出力ギア578に動力が伝達され、可動アーム590を駆動させることが可能である。
 また、制御基板573に備えられる位置センサが、出力ギア578に同期して回転する検出用マグネット579の回転角を検出することで、可動アーム590の回転角度、すなわち回転位置を精度高く検出することができる。
 なお、磁気式svGMRは、非接触方式であるため耐久性に優れるとともに、GMR飽和領域において使用することで、検出用マグネット579や位置センサの距離変動による信号変動の影響が少ないという利点を有する。
 以上、本開示の一実施形態に係る自律移動体10が備えるアクチュエータ570の構成例について説明した。上記の構成によれば、自律移動体10が備える関節部の屈伸動作を精度高く制御し、また関節部の回転位置を正確に検出することが可能となる。
 続いて、図5を参照して、本開示の一実施形態に係る自律移動体10が備えるディスプレイ510の機能について説明する。図5は、本開示の一実施形態に係る自律移動体10が備えるディスプレイ510の機能について説明するための図である。
 (ディスプレイ510)
 ディスプレイ510は、自律移動体10の目の動きや感情を視覚的に表現する機能を有する。図5に示すように、ディスプレイ510は、感情や動作に応じた眼球、瞳孔、瞼の動作を表現することができる。ディスプレイ510は、文字や記号、また眼球運動とは関連しない画像などを敢えて表示しないことで、実在するイヌなどの動物に近い自然な動作を演出する。
 また、図5に示すように、自律移動体10は、右眼および左眼にそれぞれ相当する2つのディスプレイ510rおよび510lを備える。ディスプレイ510rおよび510lは、例えば、独立した2つのOLED(Organic Light Emitting Diode)により実現される。OLEDによれば、眼球の曲面を再現することが可能となり、1枚の平面ディスプレイにより一対の眼球を表現する場合や、2枚の独立した平面ディスプレイにより2つの眼球をそれぞれ表現する場合と比較して、より自然な外装を実現することができる。
 以上述べたように、ディスプレイ510rおよび510lによれば、図5に示すような自律移動体10の視線や感情を高精度かつ柔軟に表現することが可能となる。また、ユーザはディスプレイ510に表示される眼球の動作から、自律移動体10の状態を直観的に把握することが可能となる。
 以上、本開示の一実施形態に係る自律移動体10のハードウェア構成例について説明した。上記の構成によれば、図6に示すように、自律移動体10の関節部や眼球の動作を精度高くまた柔軟に制御することで、より実在の生物に近い動作および感情表現を実現することが可能となる。なお、図6は、本開示の一実施形態に係る自律移動体10の動作例を示す図であるが、図6では、自律移動体10の関節部および眼球の動作について着目して説明を行うため、自律移動体10の外部構造を簡略化して示している。同様に、以下の説明においては、自律移動体10の外部構造を簡略化して示す場合があるが、本開示の一実施形態に係る自律移動体10のハードウェア構成および外装は、図面により示される例に限定されず、適宜設計され得る。
 <<1.2.自律移動体10のハードウェア構成例>>
 次に、本開示の一実施形態に係るシステム構成例について説明する。図7は、本開示の一実施形態に係るシステム構成の一例を示す図である。図7を参照すると、本開示の一実施形態に係る情報処理システムは、複数の自律移動体10および情報処理サーバ20を備える。なお、自律移動体10と情報処理サーバ20、また自律移動体10同士は、ネットワーク30を介して互いに通信が行えるように接続される。
 (自律移動体10)
 本開示の一実施形態に係る自律移動体10は、収集したセンサ情報に基づく状況推定を実行し、状況に応じた種々の動作を自律的に選択し実行する情報処理装置である。上述したように、本開示の一実施形態に係る自律移動体10は、例えば、ヒトやイヌなどの動物を模した形状や、動作能力を有する自律移動型ロボットであってもよい。本開示の一実施形態に係る自律移動体10は、教示に基づき学習データを自動で収集し、当該学習データに基づくパターン認識学習を行ってよい。
 (情報処理サーバ20)
 本開示の一実施形態に係る情報処理サーバ20は、複数の自律移動体10と接続され、自律移動体10から各種の情報を収集する機能を有する情報処理装置である。情報処理サーバ20は、例えば、複数の自律移動体10により収集された学習データを蓄積する。また、本開示の一実施形態に係る情報処理サーバ20は、自律移動体10の学習状況をユーザが確認するためのユーザインタフェースを制御する。
 (ネットワーク30)
 ネットワーク30は、自律移動体10と情報処理サーバ20、自律移動体10同士を接続する機能を有する。ネットワーク30は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク30は、IP-VPN(Internet Protocol-Virtual Private Network)などの専用回線網を含んでもよい。また、ネットワーク30は、Wi-Fi(登録商標)、Bluetooth(登録商標)など無線通信網を含んでもよい。
 以上、本開示の一実施形態に係るシステム構成例について説明した。なお、図7を用いて説明した上記の構成はあくまで一例であり、本開示の一実施形態に係る情報処理システムの構成は係る例に限定されない。例えば、自律移動体10は、情報処理サーバ20のほか、種々の外部装置とさらに情報通信を行ってもよい。上記の外部装置には、例えば、天気やニュース、その他のサービス情報を発信するサーバや、ユーザが所持する各種の情報処理端末、家電機器などが含まれ得る。本開示の一実施形態に係るシステム構成は、仕様や運用に応じて柔軟に変形され得る。
 <<1.4.自律移動体10の機能構成例>>
 次に、本開示の一実施形態に係る自律移動体10の機能構成例について説明する。図8は、本開示の一実施形態に係る自律移動体10の機能構成例を示す図である。図8を参照すると、本開示の一実施形態に係る自律移動体10は、入力部110、認識部120、学習部130、行動計画部140、動作制御部150、駆動部160、出力部170、およびサーバ通信部180を備える。
 (入力部110)
 入力部110は、ユーザや周囲環境に係る種々の情報を収集する機能を有する。入力部110は、例えば、ユーザの発話や周囲で発生する環境音、ユーザや周囲環境に係る画像情報、および種々のセンサ情報を収集する。このために、入力部110は、図1に示す各種のセンサを備える。
 (認識部120)
 認識部120は、入力部110が収集した種々の情報に基づいて、ユーザや周囲環境、また自律移動体10の状態に係る種々の認識を行う機能を有する。一例としては、認識部120は、人識別、表情や視線の認識、物体認識、動作認識、空間領域認識、色認識、形認識、マーカー認識、障害物認識、段差認識、明るさ認識などを行ってよい。
 本実施形態に係る認識部120は、例えば、ユーザが指差しなどのジェスチャにより示した学習対象を特定する機能を有してよい。また、本実施形態に係る認識部120は、例えば、上記のジェスチャなどの後にユーザが発した音声を形態素解析することにより名詞句を抽出する機能を有してよい。当該名詞句は、学習部130によるパターン認識学習におけるラベルとして用いられ得る。
 また、認識部120は、ユーザの声に係る感情認識、単語理解、音源定位などを行う。また、認識部120は、ユーザなどによる接触や、周囲の温度、動物体の存在、自律移動体10の姿勢などを認識することができる。
 さらには、認識部120は、認識した上記の情報に基づいて、自律移動体10が置かれた周囲環境や状況を推定し、理解する機能を有する。この際、認識部120は、事前に記憶される環境知識を用いて総合的に状況推定を行ってもよい。
 (学習部130)
 学習部130は、環境(状況)と行動、また当該行動による環境への作用を学習する機能を有する。学習部130は、例えば、深層学習(Deep Learning)などの機械学習アルゴリズムを用いて、上記の学習を実現する。なお、学習部130が採用する学習アルゴリズムは、上記の例に限定されず、適宜設計可能である。
 本実施形態に係る学習部130は、認識部120が教示に基づいて収集したラベルと、入力部110が撮影した学習対象の画像とに基づいてパターン認識学習を行う。
 (行動計画部140)
 行動計画部140は、認識部120が推定した状況と学習部130が学習した知識に基づいて、自律移動体10が行う行動を計画する機能を有する。
 (動作制御部150)
 動作制御部150は、行動計画部140による行動計画に基づいて、駆動部160および出力部170の動作を制御する機能を有する。動作制御部150は、例えば、上記の行動計画に基づいて、アクチュエータ570の回転制御や、ディスプレイ510の表示制御、スピーカによる音声出力制御などを行う。
 本実施形態に係る動作制御部150は、例えば、認識部120がパターン認識学習に係る教示の開始を検出したことに基づいて、教示されるラベルと対応付けて学習される学習対象に係る情報取得を入力部110に行わせてよい。
 より具体的には、本実施形態に係る動作制御部150は、認識部120により特定された学習対象が撮影可能な位置および姿勢を取るために駆動部160を制御し、また入力部110に当該学習対象の撮影を行わせる。
 この際、本実施形態に係る動作制御部150は、駆動部160を制御することで、自律移動体10の位置や姿勢を変化させ、入力部110に、学習対象を複数の角度から撮影させてもよい。本実施形態に係る動作制御部150が有する上記の機能によれば、例えば、学習対象の複数の側面や上面の画像を収集し学習データとすることができ、より効率的なパターン認識学習を実現することが可能となる。本実施形態に係る動作制御部150が有する機能の詳細については別途後述する。
 (駆動部160)
 駆動部160は、動作制御部150による制御に基づいて、自律移動体10が有する複数の関節部を屈伸させる機能を有する。より具体的には、駆動部160は、動作制御部150による制御に基づき、各関節部が備えるアクチュエータ570を駆動させる。
 (出力部170)
 出力部170は、動作制御部150による制御に基づいて、視覚情報や音情報の出力を行う機能を有する。このために、出力部170は、ディスプレイ510やスピーカを備える。
 (サーバ通信部180)
 サーバ通信部180は、情報処理サーバ20や他の自律移動体10との情報通信を行う機能を有する。例えば、サーバ通信部180は、収集された学習データなどを情報処理サーバ20に送信する。また、例えば、サーバ通信部180は、情報処理サーバ20が蓄積する学習データや、当該学習データに基づいて学習された学習知識に係る情報を受信する。
 以上、本開示の一実施形態に係る自律移動体10の機能構成例について説明した。なお、図8を用いて説明した上記の構成はあくまで一例であり、本開示の一実施形態に係る自律移動体10の機能構成は係る例に限定されない。本開示の一実施形態に係る自律移動体10の機能構成は、仕様や運用に応じて柔軟に変形され得る。
 <<1.5.情報処理サーバ20の機能構成例>>
 次に、本開示の一実施形態に係る情報処理サーバ20の機能構成例について説明する。図9は、本開示の一実施形態に係る情報処理サーバ20の機能構成例を示す図である。図9を参照すると、本開示の一実施形態に係る情報処理サーバ20は、認識部210、学習部220、記憶部230、アプリケーション制御部240、および端末通信部250を備える。
 (認識部210)
 本実施形態に係る認識部210は、自律移動体10が備える認識部210と同等の機能を有してよい。すなわち、本実施形態に係る認識部210は、教示に基づいて、学習対象の特定やラベルの抽出を行う機能を有する。なお、本実施形態に係る認識部210は、複数の自律移動体10が収集した情報に基づいて学習対象の特定やラベルの抽出を行ってよい。
 (学習部220)
 本実施形態に係る学習部220は、自律移動体10が備える学習部130と同等の機能を有してよい。すなわち、本実施形態に係る学習部220は、認識部210が取得したラベルと学習対象に係る画像とに基づくパターン認識学習を行う。なお、本実施形態に係る学習部220は、複数の自律移動体10が収集した情報に基づいてパターン認識学習を行ってよい。すなわち、本実施形態に係る学習部220は、複数の自律移動体10に共通する集合知として機能する。
 (記憶部230)
 本実施形態に係る記憶部230は、収集された学習データや、学習部220や自律移動体10が学習した学習知識、また当該学習知識に基づくパターン認識の結果などを記憶する。
 (アプリケーション制御部240)
 本実施形態に係るアプリケーション制御部240は、自律移動体10の状態確認や機能制御に係るユーザインタフェースを制御する。アプリケーション制御部240は、上記のユーザインタフェースをユーザが所持する情報処理端末などに表示させてもよい。アプリケーション制御部240は、例えば、上記ユーザインタフェースにおいて、自律移動体10の学習状況を確認するための手段や、パターン認識学習に係るラベルと学習対象との対応付けを行うための手段を提供する。
 本実施形態に係るアプリケーション制御部240は、特に、自律移動体10が学習したラベルと学習対象との対応付けを、ユーザが修正するための手段を提供してもよい。本実施形態に係るアプリケーション制御部240が有する機能の詳細については別途後述する。なお、本実施形態に係るアプリケーション制御部240が有する機能は、自律移動体10の機能として実現することも可能である。すなわち、本実施形態に係る自律移動体10は、図8に示した構成に加え、アプリケーション制御部を別途備えてもよい。
 (端末通信部250)
 本実施形態に係る端末通信部250は、ネットワーク30を介して複数の自律移動体10との情報通信を行う。例えば、本実施形態に係る端末通信部250は、自律移動体10から、学習データやパターン認識結果などを受信する。また、端末通信部250は、複数の自律移動体10により収集された学習データや、当該学習データに基づいて学習された学習知識を自律移動体10に送信する。
 以上、本開示の一実施形態に係る情報処理サーバ20の機能構成例について説明した。なお、図9を用いて説明した上記の構成はあくまで一例であり、本開示の一実施形態に係る情報処理サーバ20の機能構成は係る例に限定されない。例えば、上述したように、本実施形態に係る情報処理サーバ20は、自律移動体10の行動計画部140や動作制御部150と同等の機能を有してもよい。この場合、本実施形態に係る情報処理サーバ20は、自律移動体10の入力部110が収集したセンサ情報に基づいて状況推定を行い、駆動部160や出力部170を遠隔的に制御することが可能である。本開示の一実施形態に係る情報処理サーバ20の機能構成は、仕様や運用に応じて柔軟に変形され得る。
 <<1.6.機能の詳細>>
 次に、本開示の第1の実施形態に係る自律移動体10および情報処理サーバ20が有する機能について詳細に説明する。なお、以下においては、パターン認識学習が自律移動体10の学習部130により行われる場合を主な例として説明するが、上述したように、本実施形態に係るパターン認識学習は、情報処理サーバ20の学習部220により行われてもよいし、学習部130および学習部220の両者によりそれぞれ行われてもよい。
 まず、本実施形態に係る教示に基づくパターン認識学習の概要について説明する。図10は、本実施形態に係る教示に基づくパターン認識学習の概要を示す図である。なお、図10では、本実施形態に係る教示が、ユーザにより実行される場合の一例が示されている。
 本実施形態に係る教示は、例えば、図10の左側に示すように、ユーザによる指差しなどのジェスチャや発話によって行われてもよい。図10に示す一例の場合、ユーザは、指UHにより「そうじき」である物体O1を示すともに、発話UOにより、物体O1が「そうじき」であることを自律移動体10に教示している。
 この際、本実施形態に係る認識部120は、まず、「覚えてね」などのユーザの発話や、教示による学習の開始を指示するユーザのジェスチャ、また指を鳴らすなどの音に基づいて、教示の開始を検出する。また、この際、本実施形態に係る動作制御部150は、教示に基づく学習を開始することを示す動作を自律移動体10に行わせてもよい。動作制御部150は、例えば、吠える、耳や尻尾を立てる、ディスプレイ510により表現される虹彩の色を変化させてもよい。また、自律移動体10が言語を用いてユーザとのコミュニケーションを行う場合には、学習を開示する旨の音声を出力部170に出力させることも可能である。
 次に、動作制御部150は、駆動部160を制御することで、ユーザの指UFおよび指UFにより示される物体O1が視野FVに収まるように、自律移動体10の位置や姿勢を変化させる。
 続いて、認識部120は、ユーザの指UFが示す方向に基づいて物体O1を学習対象として特定する。また、本実施形態に係る動作制御部150は、認識部120が学習対象として特定した物体O1を入力部110に撮影させる。
 また、認識部120は、ユーザの発話UOを形態素解析することで、ラベルとして用いられる名詞句「そうじき」を抽出する。
 続いて、学習部130は、上記のように抽出されたラベルと、撮影された学習対象の画像とを対応付けて学習データとし、物体O1に係る物体認識学習を実行する。
 このように、本実施形態に係る自律移動体10によれば、予め学習データを用意しなくとも、日常において種々の物体に係る学習データを自動で収集し、当該学習データに基づく物体認識学習を行うことが可能である。
 また、本実施形態に係る自律移動体10が有する上記の機能によれば、教示に基づく学習を繰り返し実行し、また、情報処理サーバ20により学習された集合知を利用することで、図中右側に示すように、物体O1とは形状(特徴)が異なる物体O2を「そうじき」として認識することなどが可能となる。これによれば、例えば、ユーザが「そうじき」を新たに買い換えた場合などにおいても、一から学習をし直すことなく柔軟に対応することができる。
 なお、本実施形態に係る教示に基づくパターン認識学習の概要について説明した。なお、図10では、本実施形態に係るパターン認識学習の一例として物体認識学習を挙げたが、本実施形態に係るパターン認識学習は、係る例に限定されない。本実施形態に係るパターン認識学習には、例えば、動作認識学習が含まれる。すなわち、本実施形態に係る学習対象は、物体の動作であってもよい。
 図11は、本実施形態に係る教示に基づく動作認識学習の概要を示す図である。図11に示す一例では、ユーザが、人物が行う「ジャンプ」動作を自律移動体10に教示する場合が示されている。
 具体的には、ユーザは、図中左側に示すように、「ジャンプ」を行う人物P1を指UHにより示しながら、人物P1が行っている動作が「ジャンプ」であることを教示する発話UOを行っている。
 この際、本実施形態に係る認識部120は、発話UOに含まれる「動作」という語句を認識することで、ユーザが人物P1に係る物体認識(またはユーザ認識)ではなく、人物P1が行っている動作を教示していることを検出してもよい。また、認識部120は、ユーザが発した「動作を覚えてね」などの発話に基づいて、動作認識に係る教示を検出してもよい。
 続いて、認識部120は、ユーザの指UFが示す方向に基づいて人物P1が行う動作を学習対象として特定する。また、本実施形態に係る動作制御部150は、認識部120が学習対象として特定した人物P1の動作を入力部110に撮影させる。
 また、認識部120は、ユーザの発話UOを形態素解析することで、ラベルとして用いられる名詞句「ジャンプ」を抽出する。
 続いて、学習部130は、上記のように抽出されたラベルと、撮影された学習対象の画像とを対応づけて学習データとし、人物P1が行う動作に係る物体認識学習を実行する。
 このように、本実施形態に係る自律移動体10によれば、物体そのものに加え、物体が行う種々の動作に係る学習データを自動で収集し、当該学習データに基づく物体認識学習を行うことが可能である。
 なお、上記では、学習データとして、動作の画像を用いる場合を一例として述べたが、本実施形態に係る学習部130は、例えば、動作を行う人物が装着する情報処理端末が収集したモーションデータを学習データとして用いてもよい。
 本実施形態に係る自律移動体10が有する上記の機能によれば、教示に基づく学習を繰り返し実行し、また、情報処理サーバ20により学習された集合知を利用することで、図中右側に示すように、人物P1とは異なる人物P2が行う「ジャンプ」なども精度高く認識することが可能となる。
 また、本実施形態に係るパターン認識学習には、例えば、空間領域認識学習が含まれてよい。すなわち、本実施形態に係る学習対象は、任意の空間領域であってもよい。ここで、本実施形態に係る空間領域とは、空間における任意の所定領域(場所)であってよい。なお、本実施形態に係る空間領域は、必ずしも他の空間領域と物理的に区切られた閉空間でなくてよい。本実施形態に係る空間領域は、例えば、「家」であってもよいし、「家」の「1階」であってもよい。また、本実施形態に係る空間領域は、「1階」の「リビング」であってもよいし、「リビング」における「ソファ付近」であってもよい。
 図12は、本実施形態に係る教示に基づく空間領域認識学習の概要を示す図である。図12に示す一例では、ユーザが、「げんかん」である空間領域D1を自律移動体10に教示する場合が示されている。
 具体的には、ユーザは、図中左側に示すように、自律移動体10が位置している空間領域D1が「げんかん」であることを教示する発話UOを行っている。
 この際、本実施形態に係る認識部120は、発話UOに含まれる「ここ」という語句を認識することで、空間領域D1に係る教示を行っていることを検出してもよい。また、認識部120は、ユーザが発した「場所を覚えてね」などの発話に基づいて、空間領域認識に係る教示を検出してもよい。
 続いて、認識部120は、ユーザの発話UOに基づいて自律移動体10が現在位置する空間領域D1を学習対象として特定する。また、本実施形態に係る動作制御部150は、認識部120が学習対象として特定した空間領域を入力部110に撮影させる。
 また、認識部120は、ユーザの発話UOを形態素解析することで、ラベルとして用いられる名詞句「げんかん」を抽出する。
 続いて、学習部130は、上記のように抽出されたラベルと、撮影された学習対象の画像とを対応付けて学習データとし、「げんかん」に係る空間領域認識学習を実行する。
 このように、本実施形態に係る自律移動体10によれば、物体や動作に加え、種々の空間領域に係る学習データを自動で収集し、当該学習データに基づく空間領域認識学習を行うことが可能である。
 なお、上記では、学習データとして、空間領域の画像を用いる場合を一例として述べたが、本実施形態に係る学習部130は、例えば、空間領域D1においてトラッキング中のユーザが消失する(すなわち外出する)ことが多いことや、空間領域D1において、「ただいま」や「いってきます」などの発話がよく検出されることなどを、学習すべき空間領域の特徴として用いてもよい。
 本実施形態に係る自律移動体10が有する上記の機能によれば、教示に基づく学習を繰り返し実行し、また、情報処理サーバ20により学習された集合知を利用することで、図中右側に示すように、空間領域D1とは趣が異なる空間領域D2を「げんかん」として認識することが可能となる。
 以上、本実施形態に係るパターン認識学習の一例について説明した。続いて、本実施形態に係る学習対象の撮影について詳細に説明する。上述したように、本実施形態に係る動作制御部150は、認識部120が特定した学習対象を、入力部110に撮影させる機能を有する。
 この際、本実施形態に係る動作制御部150は、パターン認識が高精度かつ効率的に行われるよう、入力部110や駆動部160を制御してよい。
 例えば、本実施形態に係る動作制御部150は、駆動部160を制御することで、特定された物体の全体が正しく撮影されるよう、自律移動体10の位置や姿勢を変化させることができる。
 図13は、本実施形態に係る学習対象の撮影制御について説明するための図である。図13には、ユーザが発話UOにより「れいぞうこ」である物体O3を自律移動体10に教示する場合の一例が示されている。
 この際、図13の上段に示すように、教示が開始された際の自律移動体10の位置および姿勢では、物体O3との距離が近すぎるため、視野FVに物体O3の全体が映らない場合がある。このような状況で撮影された画像I1を用いてパターン認識学習を行う場合、物体O3の特徴を正しく抽出できず誤った学習が行われてしまう可能性が高い。
 このため、本実施形態に係る動作制御部150は、図13の下段に示すように、特定された物体O3の全体が撮影可能な位置および姿勢に自律移動体10を移動させた後、入力部110に物体O3を撮影させてよい。本実施形態に係る動作制御部150が有する上記の機能によれば、物体O3の全体を正しく写した画像I2に基づいて、精度の高いパターン認識学習を行うことが可能となる。
 なお、本実施形態に動作制御部150は、認識部120が物体の境界が認識できないと判定した場合に、上記のような制御を行ってよい。例えば、図中に示す画像I1では、画像上端において背景と物体O3との境界が認識できない箇所が存在する。このように、認識部120が背景と学習対象との境界を正しく認識できない場合、動作制御部150は、認識部120が上記の境界を正しく認識できるようになるまで、学習対象と自律移動体10との距離が遠くなるよう、駆動部160を制御してよい。
 一方、学習対象と自律移動体10との距離が遠すぎる場合には、動作制御部150は、自律移動体10を学習対象に近づける制御を行ってもよい。この際、動作制御部150は、認識部120が画像における背景の割合が所定より大きいと判定したことに基づいて、上記の制御を行うことが可能である。
 本実施形態に係る動作制御部150が有する上記の機能によれば、学習対象と適切な距離をおいて撮影した画像に基づいて、効率的なパターン認識学習を行うことが可能となる。
 また、本実施形態に係る動作制御部150は、認識部120が特定した学習対象が複数の角度から撮影されるよう、駆動部160および入力部110を制御してよい。
 例えば、図14に示す一例の場合、動作制御部150は、認識部120が学習対象として特定した「ペットボトル」である物体O4が、上面および5方向の側面から撮影されるよう、駆動部160および入力部110を制御している。
 すなわち、本実施形態に係る動作制御部150は、様々な角度から学習対象の画像に基づいて、パターン認識学習が効率的に行われるよう、自律移動体10を移動させ、複数の画像を撮影させることができる。
 本実施形態に係る動作制御部150が有する上記の機能によれば、学習対象の一側面を撮影した画像に基づく学習を行う場合と比較して、学習対象の特徴を様々な角度から抽出することができ、汎化性の高い学習効果を得ることが可能となる。
 以上、本実施形態に係る撮影制御について詳細に説明した。なお、上記では、本実施形態に係る教示がユーザにより行われる場合を主な例として述べたが、本実施形態に係る教示は係る例に限定されない。本実施形態に係る教示は、例えば、学習対象から取得される情報に基づいて行われてもよい。
 本実施形態に係る教示は、例えば、学習対象に付与されたQRコード(登録商標)などのマーカにより実現されてもよい。図15は、本実施形態に係るマーカを利用した教示について説明するための図である。
 例えば、図15の上段には、「そうじき」である物体O1に付与されたマーカM1により物体認識学習に係る教示が実現される一例が示されている。この場合、認識部120は、入力部110が撮影したマーカM1の画像に基づいてラベル「そうじき」を取得することができる。
 また、図15の下段には、「げんかん」である空間領域D1に設置されるドアに付与されたマーカM2により空間領域認識学習に係る教示が実現される一例が示されている。この場合も、認識部120は、入力部110が撮影したマーカM2の画像に基づいてラベル「げんかん」を取得することができる。
 このように、本実施形態に係るマーカによれば、ユーザによる明示的な教示に代えて、物体や空間領域などに係る教示を実現することができ、自律移動体10の認識能を自動的に高めることが可能となる。
 また、本実施形態に係る教示は、学習対象から無線通信により送信される情報に基づいて行われてもよい。図16は、本実施形態に係る無線通信を利用した教示について説明するための図である。
 図16に示す一例の場合、「そうじき」である物体O1は、無線通信により自律移動体10にラベル「そうじき」や物体O1の画像I3aおよびI3bを送信している。この際、本実施形態に係る学習部130は、受信したラベル「そうじき」、画像I3aおよびI3bに基づいて、物体O1に係る物体認識学習を行うことができる。
 上記のような無線通信を用いた教示によれば、例えば、図示するように、学習対象である物体O3がクローゼットの中に収納されており、物体O3を撮影できない状況であっても、予め用意された画像をラベルとともに自律移動体10に送信することで、自律移動体10が物体O3に係る物体認識学習を行うことが可能となる。
 本実施形態に係る無線通信は、例えば、NFC(Near Field Communication)、Bluetooth(商標登録)、RFID(Radio Frequency IDentification)、ビーコンなどが用いられてもよい。
 また、本実施形態に係る教示は、例えば、学習対象が発する超音波などの非可聴音により実現されてもよい。図17は、本実施形態に係る非可聴音を利用した教示について説明するための図である。
 図17に示す一例では、「せんたくき」である物体O5が、動作時に所定の非可聴音を発することで、教示を実現する一例が示されている。例えば、図17の上段には、「脱水中」に物体O5が発する非可聴音NAS1に基づいて認識部120が、物体O5が「せんたくき」であり、物体O5が「脱水中」であることを検出する場合の一例が示されている。
 例えば、図17の下段には、「乾燥中」に物体O5が発する非可聴音NAS2に基づいて認識部120が、物体O5が「せんたくき」であり、物体O5が「乾燥中」であることを検出する場合の一例が示されている。
 このように、本実施形態に係る非可聴音を利用した教示によれば、物体の名称だけではなく、動作状態なども併せて教示することが可能となる。また、本実施形態に係る非可聴音を利用した教示によれば、例えば、学習部130が、「脱水中」に物体O5が発する動作音である可聴音AS1や、「乾燥中」に物体O5が発する動作音である可聴音AS2を、物体O5の動作状態と併せて学習することも可能である。本実施形態に係る自律移動体10は、上記のような学習を繰り返し実行することで、非可聴音を発しない物体に対しても徐々に認識能を獲得することが可能である。
 以上、本実施形態に係る教示のバリエーションについて説明した。続いて、本実施形態に係るラベルと学習対象との対応付けの修正について説明する。上述したように、本実施形態に係る自律移動体10は、各種の教示に基づいて、パターン認識学習を行うことが可能である。
 しかし、例えば、ユーザによる教示に基づいて学習を行う際、学習対象やラベルが誤って取得されてしまう状況も想定される。このため、本実施形態に係る情報処理サーバ20のアプリケーション制御部240は、ラベルと学習対象との対応付けをユーザ(または、開発者やサービス提供者)が修正するためのユーザインタフェースを提供してよい。
 図18および図19は、本実施形態に係るユーザインタフェースの一例を示す図である。例えば、図18には、教示に基づくパターン認識学習が行われた後、アプリケーション制御部240が、ユーザが所持する情報処理端末40に表示させるユーザインタフェースの一例が示されている。
 なお、図18に示す一例では、ユーザが「ペットボトル」を指差しにより指定し、発話により教示を行った場合において、図中左側に示すように、「ペットボトル」の近くにあった「グラス」が誤って学習対象として特定され、またラベルが誤って「ぺっとぼる」として抽出された場合の一例が示されている。
 この際、ユーザは、図中右側に示すように、ユーザインタフェースに表示される画像I4において、正しい学習対象である「ペットボトル」に係る境界認識結果を選択し、また、ラベルに対応するフィールドF1に、正しい綴り「ペットボトル」を入力することで、誤って対応付けられた学習対象とラベルとを容易に修正することが可能である。
 なお、ユーザは、教示による学習の直後のみではなく、自律移動体10によるパターン認識の履歴から対応付けの修正を行えてもよい。
 例えば、図19には、自律移動体10が自律行動中に認識した物体の履歴を表示するユーザインタフェースの一例が示されている。ここで、図中左側の履歴に着目すると、「タンス」である物体が、誤って「れいぞうこ」として認識されていたことがわかる。
 この際、ユーザは、当該誤った認識の履歴を選択し、正しいラベルを入力することで、図中右側に示すように、対応付けを修正できてよい。このように、本実施形態に係るアプリケーション制御部240が制御するユーザインタフェースによれば、学習の直後や、その後の任意の時点で、誤った学習の内容を発見し、容易に修正することが可能となる。
 なお、本実施形態に係る学習結果の修正は、自律移動体10により自動的に行われてもよい。本実施形態に係る学習部130は、例えば、情報処理サーバ20に蓄積される学習結果と、自身の学習結果とを比較することで、集合知と自身の学習知識とのずれを検出し、ラベルや学習対象を自動で修正することも可能である。
 以上、本実施形態に係る教示に基づく学習、当該学習結果の修正について説明した。本実施形態に係る自律移動体10および情報処理サーバ20が有する上記の機能によれば、予め学習データを用意せずとも、日常において動的に学習データを収集し学習を行うことで、自律移動体10の認識能を低負担かつ効果的に向上させることが可能となる。
 なお、本実施形態に係る動作制御部150は、より効果的に学習データを収集するために、ユーザによる教示を誘導するための誘導動作を自律移動体10に行わせてもよい。
 図20は、本実施形態に係る誘導動作について説明するための図である。例えば、自律移動体10の自律行動中に、認識部120が認識できない未知の物体Oxを検出した場合、本実施形態に係る動作制御部150は、物体Oxに対するユーザの教示を誘導するための誘導動作を自律移動体10に行わせることができる。
 図20に示す一例の場合、動作制御部150は、認識部120が、認識できない物体Oxを検出したことに基づいて、物体Oxに対して吠える動作を誘導動作として自律移動体10に行わせている。
 このように、本実施形態に係る誘導動作によれば、自律移動体10の挙動に対してユーザが未知の物体Oxに対する教示を行う可能性を高めることができ、より効率的に学習データを収集できる効果が期待される。
 なお、本実施形態に係る誘導動作には、例えば、吠える、匂いを嗅ぐ、威嚇する、首を傾げる、ユーザと対象とを交互に見る、怯える、などの種々の動作が挙げられる。
 なお、本実施形態に係る動作制御部150は、上記のような誘導動作の他にも、学習した事象に対する種々の行動を自律移動体10に行わせることができる。
 例えば、動作制御部150は、新たに認識した家具などの物体に対するアクションを行うことで、ユーザに当該家具の使用を促すことも可能である。動作制御部150は、例えば、「そうじき」が所定時間以上可動していないことが検出されたことに基づいて、上記のような動作を自律移動体10に行わせてもよい。
 また、例えば、動作制御部150は、自律移動体10が学習した物体のうち、お気に入りとして定義された物体に対し、抱きつく、抱えるなどの愛情表現を取らせてもよい。上記のお気入りは、例えば、認識回数や、物体の特定(例えば、製造元など)に基づいて、定義されてもよい。
 また、例えば、動作制御部150は、新たに学習された動作を自律移動体10に模倣させてもよい。この際、動作制御部150は、撮影された動作の画像から生成されるシーケンスデータに基づいて、自律移動体10に学習した動作を実行させることが可能である。なお、上記のシーケンスデータとは、自律移動体10が有する関節部の回転位置の時系列変化や眼球表現、音出力に係る制御信号を含む情報であってよい。シーケンスデータは、例えば、動作を行う物体の関節位置推定、および屈伸運動の大きさの推定などに基づいて生成され得る。
 また、例えば、学習部130がユーザが行うエクササイズなどの動作を新たに学習した場合、動作制御部150は、情報処理サーバ20に集合知として蓄積されるエクササイズの学習データなどとの比較に基づいて、ユーザのエクササイズの評価に係る挙動を自律移動体10に行わせてもよい。この際、上記の評価は、例えば、集合知として蓄積される学習データの平均値との乖離などに基づいて行われてよい。
 また、例えば、動作制御部150は、学習部130が新たに「げんかん」を学習した場合、ユーザの帰宅時に、自律移動体10が「げんかん」でユーザを出迎えるよう駆動部160や出力部170を制御することも可能である。
 また、例えば、学習部130が、物体の動作状態などを併せて学習した場合において、動作音から異常が検出された際には、動作制御部150は、当該異常に係る通知を自律移動体10に行わせてもよい。また、例えば、動作制御部150は、認識した物体の動作状態に応じた行動を自律移動体10に行わせることも可能である。例えば、電子レンジが動作中であることが認識された場合、動作制御部150は、皿を準備するなどの行動を自律移動体10に行わせてもよい。
 <<1.7.動作の流れ>>
 次に、本実施形態に係る自律移動体10の動作の流れについて詳細に説明する。図21は、本実施形態に係る自律移動体10の動作の流れを示すフローチャートである。
 図21を参照すると、まず、認識部120が教示を検出する(S1101)。認識部120は、例えば、ユーザによる発話や、QRコードの検出、無線通信による情報の受信、非可聴音の検出などに基づいて、教示の開始を検出することができる。
 次に、動作制御部150が、ステップS1101において検出された教示の開始に基づいて、パターン認識学習を開始することを示す動作を自律移動体10に行わせる(S1102)。上記動作は、例えば、吠える、耳や尻尾を動かす、虹彩の色を変化させる動作などであってもよい。
 次に、認識部120が、学習対象を特定する(S1103)。認識部120は、例えば、ユーザの指差しなどのジェスチャに基づいて、学習対象を特定してもよいし、学習対象から取得される情報に基づいて、学習対象を特定してもよい。
 また、認識部120は、ラベルを取得する(S1104)。認識部120は、例えば、ユーザの発話からラベルを抽出してもよいし、学習対象から取得される情報からラベルを取得してもよい。
 次に、動作制御部150は、ステップS1103において特定された学習対象の全体が撮影可能な位置および姿勢となるように、駆動部160を制御する(S1105)。
 次に、動作制御部150は、複数の角度から学習対象が撮影されるよう駆動部160および入力部110を制御する(S1106)。
 次に、学習部130は、ステップS1104において取得されたラベルと、ステップS1106において撮影された画像に基づくパターン認識学習を実行する(S1107)。
 次に、動作制御部150が、パターン認識学習の終了を示す動作を自律移動体10に行わせる(S1102)。上記動作は、例えば、吠える、耳や尻尾を動かす、虹彩の色を変化させる動作などであってもよい。
 <2.第2の実施形態>
 <<2.1.概要>>
 以上、本開示の第1の実施形態について説明した。続いて、本開示の第2の実施形態について説明する。上記の第1の実施形態では、パターン認識学習に係る教示が、ユーザの発話やジェスチャ、または学習対象から取得される情報に基づいて行われる場合を述べた。一方、本開示の第2の実施形態では、主に環境地図を用いた教示について説明する。
 本実施形態に係る環境地図とは、自律移動体10が存在する実空間における物体の配置や建物の構造などの情報を含んだ地図である。本実施形態に係る環境地図は、例えば、SLAMにより取得された情報をユーザ向けに可視化した地図であってもよい(以下、当該ユーザ向けに可視化した地図を、単に、SLAM地図、と称する場合がある)。上述したように、本実施形態に係る自律移動体10は、腰部に配置される広角カメラ(カメラ520)により撮影した画像を用いてSLAMを実現することができる。
 本開示の第2の実施形態では、上記のように生成された環境地図がユーザに提示され、ユーザが、環境地図上における任意の指定領域に対しラベル付けを行うことで、空間領域のパターン認識学習に係る教示を実現する。
 このために、本実施形態に係る情報処理サーバ20のアプリケーション制御部240は、ユーザが環境地図を用いた教示を行うためのユーザインタフェースを制御すること、を特徴の一つとする。本実施形態に係るアプリケーション制御部240は、例えば、上記のユーザインタフェースをWebアプリケーションの一機能として提供し、ユーザが所持するスマートフォンやPC(Personal Computer)などの情報処理端末40などに表示させてもよい。なお、上記のユーザインタフェースの制御機能は、自律移動体10の機能として実現されてもよい。
 以下、本実施形態に係る環境地図を用いた教示について詳細に説明する。なお、以下においては、主に第1の実施形態との差異について中心に述べ、第1の実施形態と共通する機能や効果については、詳細な説明を省略する。
 <<2.2.環境地図を用いた教示の詳細>>
 図22は、本実施形態に係る環境地図を用いた教示を行うためのユーザインタフェースUI2の一例である。図22に示すように、本実施形態に係るユーザインタフェースUI2では、自律移動体10が収集したセンサ情報に基づいて生成された環境地図EMがユーザに提示される。上述したように、本実施形態に係る環境地図EMは、例えば、SLAM地図であり得る。アプリケーション制御部240は、自律移動体10から受信したSLAM地図をユーザインタフェースUI2に配置してもよい。一方、SLAM地図などの環境地図EMは、自律移動体10が収集したセンサ情報(位置情報、画像などを含む)に基づいて情報処理サーバ20が生成してもよい。以下においては、本実施形態に係る環境地図がSLAM地図である場合を例として説明を行う。
 本実施形態に係る環境地図EMでは、例えば、自律移動体10が認識した実空間の情報がブロック単位で示されてもよい。図22に示す一例の場合、環境地図EMには、実空間の水平面に対応する2次元の座標系において、所定の単位(距離)で定義された複数のブロックが配置されている。
 また、上記のブロックは、対応する実空間上の空間領域の属性を示している。例えば、ブロックB1は、自律移動体10が移動(進入)することができない空間領域(例えば、壁など)を示している。また、ブロックB2は、自律移動体10がこれまでに実際に移動した空間領域(すなわち移動可能な開空間領域)を示している。また、ブロックB3は、自律移動体10が未だ移動したことがない空間領域を示している。また、ブロックB4は、移動不可能、移動可能、未移動の判別が困難な領域を示している。
 ブロックB1~B4により示される上記のような空間領域の属性は、例えば、色やパターン、形状の違いなどにより表現されてもよい。図22では、色の違いにより上記の属性が表現される場合の一例を示している。
 また、図22に示すように、本実施形態に係る環境地図EMには、自律移動体10の現在位置CPや自律移動体10に電力を供給するためのチャージステーションCSの位置が示されてもよい。
 ユーザは、ユーザインタフェースUI2に表示される上記のような環境地図EMにおいて、任意の指定領域を指定しラベルを付与することで、当該指定領域に対応する実空間上の空間領域に係る教示を行うことができる。
 この際、ユーザは、まず、環境地図EM上においてドラッグ操作などにより任意の指定領域を選択する。図22に示す一例では、ユーザが選択指定した領域が点線により示されている。次に、ユーザは、選択した指定領域に対し、空間領域の名称を含むタグT、すなわちラベルを付与する。図22では、ユーザが選択した指定領域に対し、名称「Kitchen」を含むタグTを付与した場合の一例が示されている。
 このように、本実施形態に係るアプリケーション制御部240は、ユーザインタフェースUI2において、ユーザが環境地図EMにおける任意の指定領域を指定し、当該指定領域に対しラベルを付与するための手段を提供すること、を特徴の一つとする。本実施形態に係るアプリケーション制御部240が有する上記の特徴によれば、可視化された環境地図EMを用いて、空間領域に係るパターン認識学習を高精度かつ容易に実現することが可能となる。
 また、本実施形態に係るアプリケーション制御部240は、ユーザインタフェースUI2において、指定領域に対しユーザ付与することが可能なラベル(タグ)の候補を提示する機能を有してもよい。
 図22に示す一例の場合、アプリケーション制御部240は、ユーザが付与することが可能なラベル(タグ)として、「Kitchen」、「Bed room」、「Living room」などの候補OPをユーザインタフェースUI2上に表示させている。
 この場合、ユーザは、提示される候補OPの中から目的のタグを環境地図EM上にドラッグすることなどにより、容易に指定領域に対するラベルの付与を行うことが可能である。
 また、アプリケーション制御部240が上記のように、予め一般的なラベルの候補を複数提示することにより、ユーザごとによる表記の揺れなどを吸収し、ラベルの名称の種類を収束することが可能となる。これによれば、複数の自律移動体10で共有可能な汎用性の高い学習データを効率的に収集し、精度の高いパターン認識学習を実現することが可能となる。
 次に、図23~図27を用いて本実施形態に係る環境地図EMの生成について詳細に説明する。図23~図27は、本実施形態に係る環境地図EMの生成過程の一例を示す図である。上述したように、本実施形態に係る環境地図EMは、自律移動体10が収集したセンサ情報に基づいて生成された、ユーザ向けのSLAM地図であってもよい。なお、図23~図27では、ブロックB1~B4、自律移動体10の現在位置CP、チャージステーションCSに係る符号を省略しているが、図22~図27に共通する各視覚表現は、図22に付与した符号に準拠するものとする。
 図23は、生成の開始時点における環境地図EMの一例を示している。この時点においては、まだ空間領域の属性を判定する十分なセンサ情報が蓄積されていないことから、環境地図EMには、自律移動体10の現在位置CPのみが示されている。
 図24は、図23に示す時点からある程度の時間が経過した時点の環境地図EMの一例を示している。図24を参照すると、自律移動体10の自律移動に伴い収集されたセンサ情報に基づいて空間領域の属性が判定され、ブロックB1~B4などの視覚情報が環境地図EM上に付加されていることがわかる。また、図24に示すように、本実施形態に係る環境地図EMでは、自律移動体10の現在位置CPに加え、自律移動体10の移動の軌跡が、例えば、現在位置CPから延長する線などにより示されてもよい。
 また、図25は、図24に示す時点からさらに時間が経過した時点の環境地図EMの一例を示している。図24と図25とを比較すると、時間経過に伴いセンサ情報が蓄積されたことにより、ブロックの密度が高くなっていることがわかる。このように、本実施形態に係る環境地図EMは、自律移動体10が自律移動に伴い収集したセンサ情報に基づいて動的に更新され得る。
 また、図26は、図25に示す時点からさらに時間が経過した時点の環境地図EMの一例を示している。図26を参照すると、自律移動体10の移動範囲が拡大したことにより環境地図EMの尺度が変更され、より広域の実空間に対応する地図として更新されていることがわかる。また、センサ情報の蓄積に伴い、ブロックの密度がさらに上昇している。
 また、図27は、図26に示す時点からさらに時間が経過した時点の環境地図EMの一例を示している。図26と図27を比較すると、図27に示す環境地図EMは、図26に示す環境地図EMに比べてさらに尺度が変更され、より広域な空間領域に対応する地図となっている。また、自律移動体10の移動範囲が拡大したことにより、新たな領域にブロックが追加されていることがわかる。
 以上、本実施形態に係る環境地図EMの生成過程について述べた。上述したように、本実施形態に係る自律移動体10は、自律移動に伴い収集したセンサ情報(位置情報、画像などを含む)に基づいて、SLAM地図などの環境地図EMを生成し、また動的に更新することができる。また、本実施形態に係るアプリケーション制御部240が、ユーザインタフェースUI2上に環境地図EMを表示させることで、ユーザが、自律移動体10が認識している実空間上の空間領域の範囲などを把握し、以降の学習に役立てることが可能となる。
 次に、本実施形態に係る指定領域に対応する空間領域への移動制御と情報取得について詳細に説明する。上述したように、ユーザは、ユーザインタフェースUI2上に表示される環境地図EMを用いて指定領域に対するラベルの付与を行うことができる。この際、本実施形態に係る動作制御部150は、ラベルが付与された指定領域に対応する実空間上の空間領域に、自律移動体10を移動させ、当該空間領域に係る情報取得を自律移動体10に行わせることができる。
 図28は、本実施形態に係る指定領域に対応する空間領域への移動制御と情報取得について説明するための図である。図28の左側には環境地図EMが示されており、図28の右側には、自律移動体10が鼻先に配置される広角カメラ(カメラ520)により撮影した画像の一例が示されている。
 本実施形態に係る動作制御部150は、例えば、環境地図EM上においてラベル付与が行われたことや、ラベルの付与が行われた後にユーザが「この場所に行って」などと発話してことなどに基づいて、自律移動体10をラベルが付与された指定領域に対応する空間領域に移動させてもよい。また、本実施形態に係る動作制御部150は、上記の移動制御に加え、上記空間領域の画像を自律移動体10に撮影させる。
 このように、本実施形態に係る動作制御部150によれば、ユーザが環境地図EM上でラベルを付与した指定領域に対応する実空間上の空間領域に係る情報収集を精度高く実現することができる。なお、画像の撮影は、必ずしもラベルの付与直後に行われなくてもよく、例えば、ラベルの付与後の自律移動において自律移動体10が該当する空間領域に差し掛かった際に行われてもよい。
 また、上記のように収集された各種の情報は、自律移動体10による空間領域のパターン認識学習に用いられる。例えば、自律移動体10の学習部130は、ユーザインタフェースUI2を介して付与されたラベルと、上記のように撮影された空間領域の画像とを対応付けてパターン認識学習を行うことができる。なお、学習部130は、空間領域への移動に伴い時系列に撮影された画像(動画像の各フレームであってもよい)を当該時系列情報と共に学習することで、当該空間領域に至るまでの特徴をより精度高く学習することも可能である。
 上述した一連の手法によれば、表記揺れのない収束された名称に、実際に自律移動体10の視点から見た空間領域の画像(すなわち鼻先に配置されるカメラ520により撮影した画像)を対応付けた、複数の自律移動体10で共有が可能なアノテーション付きの教師学習データを効率的に蓄積することができ、自律移動体10による環境認識の精度向上に役立てることが可能となる。なお、複数の自律移動体10の間における上記教師学習データの共有は、情報処理サーバ20による教師学習データの収集および配布により実現され得る。
 このような学習手法によれば、自律移動体10がラベルが付与されていない空間領域に移動した場合であっても、学習結果を基に当該空間領域の名称を推定することが可能となる。
 なお、上記では、動作制御部150が自律移動体10に空間領域の画像を撮影させる場合を主な例として述べたが、本実施形態に係る情報収集制御は係る例に限定されない。本実施形態に係る動作制御部150は、自律移動体10に空間領域に係る種々のセンサ情報を収集させることができる。
 例えば、本実施形態に係る動作制御部150は、自律移動体10に空間領域に係る音声データを収集させてもよい。この場合、学習部130は、当該音声データとラベルとを対応付けて学習を行うことができる。この結果、自律移動体10の認識部120は、例えば、水の流れる音が検出されたことに基づいて、現在位置する空間領域が川辺であること、などを推定することが可能となる。
 また、例えば、本実施形態に係る動作制御部150は、自律移動体10に空間領域に係る振動データを収集させてもよい。この場合、学習部130は、当該振動データとラベルとを対応付けて学習を行うことができる。この結果、自律移動体10の認識部120は、例えば、車両等による特徴的な振動が検出されたことに基づいて、現在位置する空間領域が高速道路であること、などを推定することが可能となる。
 また、例えば、本実施形態に係る動作制御部150は、自律移動体10に空間領域に係る臭気強度などの匂いに係るセンサ情報を収集させてもよい。この場合、学習部130は、当該匂いに係るセンサ情報とラベルとを対応付けて学習を行うことができる。この結果、自律移動体10の認識部120は、例えば、強い臭気が検出されたことに基づいて、現在位置するトイレであること、などを推定することが可能となる。
 また、上記では、環境地図EMが2次元である場合を例示したが、本実施形態に係る環境地図EMは多次元にも拡張可能である。例えば、自律移動体10が飛行が可能なドローンなどの無人航空機である場合、自律移動体10は高度情報を含むSLAM地図を生成してもよい。この場合、ユーザは、高度を指定した指定領域を選択しラベル付与を行うことも可能である。
 また、本実施形態に環境地図EMは、時間情報を含んでもよい。この場合、ユーザは、時間および領域を指定してラベル付けを行うことが可能である(例えば、夕方の海、など)。さらには、本実施形態に係る環境地図EMは、メタデータとともに定義されてもよい。本実施形態に係る環境地図EMは、例えば、DビルのE階のF室の座標(x,y,z)などの6次元の情報を含むことも可能である。本実施形態に係る環境地図EMは複数生成されてもよく、またこの場合、ユーザは環境地図EM全体に対してラベル付けを行うことも可能である(例えば、環境地図EM1に対しラベル「1階」を、環境地図EM2に対しラベル「2階」を付与するなど)。
 また、図28に示したような画像や、環境地図EM上における自律移動体10の移動の軌跡は、ユーザインタフェースUI2上にリアルタイムに表示されてもよい。ユーザは、上記の情報を視認することで、指定領域が正しく認識されているか否か、指定領域に対応する空間領域に自律移動体10が正しく移動しているか否か、自律移動体10がどのように指定領域に対応する空間領域を「見て」いるか、などを把握することができる。また、上記のような画像および環境地図EMのリアルタイム表示は、例えば、監視や見守りなどのシステムに応用可能である。
 <<2.3.環境地図EMを用いた教示学習の流れ>>
 次に、本実施形態に係る環境地図を用いた教示学習の流れについて詳細に説明する。図29は、本実施形態に係る環境地図EMを用いた教示学習の流れを示すフローチャートである。
 図29を参照すると、まず、自律移動体10の認識部120が収集したセンサ情報に基づいて、環境地図EMを生成する(S2101)。なお、上述したように、本実施形態に係る環境地図EMは、情報処理サーバ20により生成されてもよい。
 次に、情報処理サーバ20のアプリケーション制御部240は、ステップS2101において生成された環境地図EMをユーザインタフェースUI2を介してユーザに提示する。ユーザは、環境地図EMにおける任意の指定領域を選択し、当該指定領域に対するラベル付けを実行する(S2102)。
 次に、自律移動体10の動作制御部150は、ステップS2101において選択された指定領域に対応する実空間上の空間領域に自律移動体10を移動させ、空間領域に係るセンサ情報(画像など)を収集させる(S2103)。
 次に、自律移動体10の学習部130は、ステップS2102において付与されたラベルと、ステップS2103において収集されたセンサ情報とを対応づけて空間領域に係るパターン認識学習を実行する(S2104)。
 <3.ハードウェア構成例>
 次に、本開示の一実施形態に係る情報処理サーバ20のハードウェア構成例について説明する。図30は、本開示の一実施形態に係る情報処理サーバ20のハードウェア構成例を示すブロック図である。図30を参照すると、情報処理サーバ20は、例えば、プロセッサ871と、ROM872と、RAM873と、ホストバス874と、ブリッジ875と、外部バス876と、インターフェース877と、入力装置878と、出力装置879と、ストレージ880と、ドライブ881と、接続ポート882と、通信装置883と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。
 (プロセッサ871)
 プロセッサ871は、例えば、演算処理装置又は制御装置として機能し、ROM872、RAM873、ストレージ880、又はリムーバブル記録媒体901に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。
 (ROM872、RAM873)
 ROM872は、プロセッサ871に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。RAM873には、例えば、プロセッサ871に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。
 (ホストバス874、ブリッジ875、外部バス876、インターフェース877)
 プロセッサ871、ROM872、RAM873は、例えば、高速なデータ伝送が可能なホストバス874を介して相互に接続される。一方、ホストバス874は、例えば、ブリッジ875を介して比較的データ伝送速度が低速な外部バス876に接続される。また、外部バス876は、インターフェース877を介して種々の構成要素と接続される。
 (入力装置878)
 入力装置878には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置878としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ(以下、リモコン)が用いられることもある。また、入力装置878には、マイクロフォンなどの音声入力装置が含まれる。
 (出力装置879)
 出力装置879は、例えば、CRT(Cathode Ray Tube)、LCD、又は有機EL等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置879は、触覚刺激を出力することが可能な種々の振動デバイスを含む。
 (ストレージ880)
 ストレージ880は、各種のデータを格納するための装置である。ストレージ880としては、例えば、ハードディスクドライブ(HDD)等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。
 (ドライブ881)
 ドライブ881は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体901に記録された情報を読み出し、又はリムーバブル記録媒体901に情報を書き込む装置である。
 (リムーバブル記録媒体901)
リムーバブル記録媒体901は、例えば、DVDメディア、Blu-ray(登録商標)メディア、HD DVDメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体901は、例えば、非接触型ICチップを搭載したICカード、又は電子機器等であってもよい。
 (接続ポート882)
 接続ポート882は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)、RS-232Cポート、又は光オーディオ端子等のような外部接続機器902を接続するためのポートである。
 (外部接続機器902)
 外部接続機器902は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はICレコーダ等である。
 (通信装置883)
 通信装置883は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線LAN、Bluetooth(登録商標)、又はWUSB(Wireless USB)用の通信カード、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、又は各種通信用のモデム等である。
 <4.まとめ>
 以上説明したように、本開示の一実施形態に係る自律移動体10は、自律移動体10の動作を制御する動作制御部150を備える。また、本開示の一実施形態に係る動作制御部150は、パターン認識学習に係る教示の開始が検出されたことに基づいて、教示されるラベルと対応付けて学習される学習対象に係る情報取得を自律移動体10に行わせる、ことを特徴の一つとする。係る構成によれば、パターン認識に係る学習をより効率的に実現することが可能となる。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 また、コンピュータに内蔵されるCPU、ROMおよびRAMなどのハードウェアに、自律移動体10または情報処理サーバ20が有する構成と同等の機能を発揮させるためのプログラムも作成可能であり、当該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。
 また、本明細書の自律移動体10の処理に係る各ステップは、必ずしもフローチャートに記載された順序に沿って時系列に処理される必要はない。例えば、自律移動体10の処理に係る各ステップは、フローチャートに記載された順序と異なる順序で処理されても、並列的に処理されてもよい。
 なお、以下のような構成も本開示の技術的範囲に属する。
(1)
 認識処理に基づいて行動する自律移動体の動作を制御する動作制御部、
 を備え、
 前記動作制御部は、パターン認識学習に係る教示の開始が検出されたことに基づいて、教示されるラベルと対応付けて学習される学習対象に係る情報取得を前記自律移動体に行わせる、
情報処理装置。
(2)
 前記学習対象は、空間領域を含み、
 前記動作制御部は、前記自律移動体が収集したセンサ情報に基づいて生成された環境地図において付与された前記ラベルに基づいて、前記空間領域に係る情報取得を前記自律移動体に行わせる、
前記(1)に記載の情報処理装置。
(3)
 前記動作制御部は、前記環境地図において前記ラベルが付与された指定領域に対応する実空間上の前記空間領域に前記自律移動体を移動させる、
前記(2)に記載の情報処理装置。
(4)
 前記動作制御部は、前記指定領域に対応する前記空間領域を前記自律移動体に撮影させる、
前記(3)に記載の情報処理装置。
(5)
 前記環境地図は、SLAM技術を用いて生成または更新される、
前記(2)~(4)のいずれかに記載の情報処理装置。
(6)
 前記動作制御部は、前記学習対象が複数の角度から撮影されるよう前記自律移動体の位置または姿勢を制御する、
前記(1)に記載の情報処理装置。
(7)
 前記動作制御部は、前記学習対象の全体が撮影されるよう前記自律移動体の位置または姿勢を制御する、
前記(1)または(2)に記載の情報処理装置。
(8)
 前記動作制御部は、前記学習対象に係る境界認識の結果に基づいて、前記自律移動体の位置または姿勢を制御する、
前記(7)に記載の情報処理装置。
(9)
 前記教示は、ユーザにより実行され、
 前記動作制御部は、前記ユーザの指示に基づいて特定された前記学習対象の撮影を前記自律移動体に行わせる、
前記(1)、6~(8)のいずれかに記載の情報処理装置。
(10)
 前記ユーザの指示は、ジェスチャにより行われる、
前記(9)に記載の情報処理装置。
(11)
 前記教示は、前記学習対象から取得される情報に基づいて行われる、
前記(1)、6~(10)のいずれかに記載の情報処理装置。
(12)
 前記教示は、前記学習対象に付与されるマーカの撮影により行われる、
前記(11)に記載の情報処理装置。
(13)
 前記教示は、前記学習対象から無線通信により送信される情報に基づいて行われる、
前記(11)または(12)に記載の情報処理装置。
(14)
 前記教示は、前記学習対象から発せられる非可聴音に基づいて行われる、
前記(11)~(13)のいずれかに記載の情報処理装置。
(15)
 前記ラベルは、前記ユーザの発話から抽出される、
前記(9)または(10)に記載の情報処理装置。
(16)
 前記学習対象は、物体を含み、
 前記動作制御部は、前記教示に基づいて特定された前記物体の撮影を前記自律移動体に行わせる、
前記(1)、6~(15)のいずれかに記載の情報処理装置。
(17)
 前記学習対象は、物体の動作を含み、
 前記動作制御部は、前記教示に基づいて特定された前記物体の動作に係る情報取得を前記自律移動体に行わせる、
前記(1)、6~(16)のいずれかに記載の情報処理装置。
(18)
 前記学習対象は、空間領域を含み、
 前記動作制御部は、前記教示に基づいて特定された前記空間領域に係る情報取得を前記自律移動体に行わせる、
前記(1)、6~(17)のいずれかに記載の情報処理装置。
(19)
 前記動作制御部は、前記パターン認識学習が開始または終了したことを示す動作を前記自律移動体に行わせる、
前記(1)、6~(18)のいずれかに記載の情報処理装置。
(20)
 前記動作制御部は、ユーザによる前記教示を誘導するための誘導動作を前記自律移動体に行わせる、
前記(1)、6~(19)のいずれかに記載の情報処理装置。
(21)
 前記パターン認識学習に係る前記ラベルと前記学習対象との対応付けを行うためのユーザインタフェースを制御するアプリケーション制御部、
 をさらに備える、
前記(1)~(20)のいずれかに記載の情報処理装置。
(22)
 前記アプリケーション制御部は、前記ユーザインタフェースにおいて、ユーザが環境地図における任意の指定領域を指定し、前記指定領域に対し前記ラベルを付与するための手段を提供する、
前記(21)に記載の情報処理装置。
(23)
 前記アプリケーション制御部は、前記ユーザインタフェースにおいて、前記指定領域に対しユーザが付与することが可能な前記ラベルの候補を提示する、
前記(22)に記載の情報処理装置。
(24)
 前記アプリケーション制御部は、前記ユーザインタフェースにおいて、前記ラベルと前記学習対象との対応付けをユーザが修正するための手段を提供する、
前記(21)に記載の情報処理装置。
(25)
 前記ラベルと前記学習対象の画像に基づいて前記パターン認識学習を行う学習部、
 をさらに備える、
前記(1)~(24)のいずれかに記載の情報処理装置。
(26)
 プロセッサが、認識処理に基づいて行動する自律移動体の動作を制御すること、
 を含み、
 前記動作を制御することは、パターン認識学習に係る教示の開始が検出されたことに基づいて、教示されるラベルと対応付けて学習される学習対象に係る情報取得を前記自律移動体に行わせること、
 をさらに含む、
情報処理方法。
(27)
 コンピュータを、
 認識処理に基づいて行動する自律移動体の動作を制御する動作制御部、
 を備え、
 前記動作制御部は、パターン認識学習に係る教示の開始が検出されたことに基づいて、教示されるラベルと対応付けて学習される学習対象に係る情報取得を前記自律移動体に行わせる、
 情報処理装置、
として機能させるためのプログラム。
 10   
 10   自律移動体
 110  入力部
 120  認識部
 130  学習部
 140  行動計画部
 150  動作制御部
 160  駆動部
 170  出力部
 510  ディスプレイ
 570  アクチュエータ
 20   情報処理サーバ
 210  認識部
 220  学習部
 230  記憶部
 240  アプリケーション制御部

Claims (27)

  1.  認識処理に基づいて行動する自律移動体の動作を制御する動作制御部、
     を備え、
     前記動作制御部は、パターン認識学習に係る教示の開始が検出されたことに基づいて、教示されるラベルと対応付けて学習される学習対象に係る情報取得を前記自律移動体に行わせる、
    情報処理装置。
  2.  前記学習対象は、空間領域を含み、
     前記動作制御部は、前記自律移動体が収集したセンサ情報に基づいて生成された環境地図において付与された前記ラベルに基づいて、前記空間領域に係る情報取得を前記自律移動体に行わせる、
    請求項1に記載の情報処理装置。
  3.  前記動作制御部は、前記環境地図において前記ラベルが付与された指定領域に対応する実空間上の前記空間領域に前記自律移動体を移動させる、
    請求項2に記載の情報処理装置。
  4.  前記動作制御部は、前記指定領域に対応する前記空間領域を前記自律移動体に撮影させる、
    請求項3に記載の情報処理装置。
  5.  前記環境地図は、SLAM技術を用いて生成または更新される、
    請求項2に記載の情報処理装置。
  6.  前記動作制御部は、前記学習対象が複数の角度から撮影されるよう前記自律移動体の位置または姿勢を制御する、
    請求項1に記載の情報処理装置。
  7.  前記動作制御部は、前記学習対象の全体が撮影されるよう前記自律移動体の位置または姿勢を制御する、
    請求項1に記載の情報処理装置。
  8.  前記動作制御部は、前記学習対象に係る境界認識の結果に基づいて、前記自律移動体の位置または姿勢を制御する、
    請求項7に記載の情報処理装置。
  9.  前記教示は、ユーザにより実行され、
     前記動作制御部は、前記ユーザの指示に基づいて特定された前記学習対象の撮影を前記自律移動体に行わせる、
    請求項1に記載の情報処理装置。
  10.  前記ユーザの指示は、ジェスチャにより行われる、
    請求項9に記載の情報処理装置。
  11.  前記教示は、前記学習対象から取得される情報に基づいて行われる、
    請求項1に記載の情報処理装置。
  12.  前記教示は、前記学習対象に付与されるマーカの撮影により行われる、
    請求項11に記載の情報処理装置。
  13.  前記教示は、前記学習対象から無線通信により送信される情報に基づいて行われる、
    請求項11に記載の情報処理装置。
  14.  前記教示は、前記学習対象から発せられる非可聴音に基づいて行われる、
    請求項11に記載の情報処理装置。
  15.  前記ラベルは、前記ユーザの発話から抽出される、
    請求項9に記載の情報処理装置。
  16.  前記学習対象は、物体を含み、
     前記動作制御部は、前記教示に基づいて特定された前記物体の撮影を前記自律移動体に行わせる、
    請求項1に記載の情報処理装置。
  17.  前記学習対象は、物体の動作を含み、
     前記動作制御部は、前記教示に基づいて特定された前記物体の動作に係る情報取得を前記自律移動体に行わせる、
    請求項1に記載の情報処理装置。
  18.  前記学習対象は、空間領域を含み、
     前記動作制御部は、前記教示に基づいて特定された前記空間領域に係る情報取得を前記自律移動体に行わせる、
    請求項1に記載の情報処理装置。
  19.  前記動作制御部は、前記パターン認識学習が開始または終了したことを示す動作を前記自律移動体に行わせる、
    請求項1に記載の情報処理装置。
  20.  前記動作制御部は、ユーザによる前記教示を誘導するための誘導動作を前記自律移動体に行わせる、
    請求項1に記載の情報処理装置。
  21.  前記パターン認識学習に係る前記ラベルと前記学習対象との対応付けを行うためのユーザインタフェースを制御するアプリケーション制御部、
     をさらに備える、
    請求項1に記載の情報処理装置。
  22.  前記アプリケーション制御部は、前記ユーザインタフェースにおいて、ユーザが環境地図における任意の指定領域を指定し、前記指定領域に対し前記ラベルを付与するための手段を提供する、
    請求項21に記載の情報処理装置。
  23.  前記アプリケーション制御部は、前記ユーザインタフェースにおいて、前記指定領域に対しユーザが付与することが可能な前記ラベルの候補を提示する、
    請求項22に記載の情報処理装置。
  24.  前記アプリケーション制御部は、前記ユーザインタフェースにおいて、前記ラベルと前記学習対象との対応付けをユーザが修正するための手段を提供する、
    請求項21に記載の情報処理装置。
  25.  前記ラベルと前記学習対象の画像に基づいて前記パターン認識学習を行う学習部、
     をさらに備える、
    請求項1に記載の情報処理装置。
  26.  プロセッサが、認識処理に基づいて行動する自律移動体の動作を制御すること、
     を含み、
     前記動作を制御することは、パターン認識学習に係る教示の開始が検出されたことに基づいて、教示されるラベルと対応付けて学習される学習対象に係る情報取得を前記自律移動体に行わせること、
     をさらに含む、
    情報処理方法。
  27.  コンピュータを、
     認識処理に基づいて行動する自律移動体の動作を制御する動作制御部、
     を備え、
     前記動作制御部は、パターン認識学習に係る教示の開始が検出されたことに基づいて、教示されるラベルと対応付けて学習される学習対象に係る情報取得を前記自律移動体に行わせる、
     情報処理装置、
    として機能させるためのプログラム。
PCT/JP2019/009537 2018-05-09 2019-03-08 情報処理装置、情報処理方法、およびプログラム WO2019216016A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201980029509.XA CN112106004A (zh) 2018-05-09 2019-03-08 信息处理装置、信息处理方法和程序
US17/052,035 US11847822B2 (en) 2018-05-09 2019-03-08 Information processing device and information processing method
JP2020518166A JP7375748B2 (ja) 2018-05-09 2019-03-08 情報処理装置、情報処理方法、およびプログラム
US18/508,626 US20240078798A1 (en) 2018-05-09 2023-11-14 Information processing device, information processing method, and program

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2018-090918 2018-05-09
JP2018090918 2018-05-09
JP2018-156149 2018-08-23
JP2018156149 2018-08-23

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US17/052,035 A-371-Of-International US11847822B2 (en) 2018-05-09 2019-03-08 Information processing device and information processing method
US18/508,626 Continuation US20240078798A1 (en) 2018-05-09 2023-11-14 Information processing device, information processing method, and program

Publications (1)

Publication Number Publication Date
WO2019216016A1 true WO2019216016A1 (ja) 2019-11-14

Family

ID=68467577

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/009537 WO2019216016A1 (ja) 2018-05-09 2019-03-08 情報処理装置、情報処理方法、およびプログラム

Country Status (4)

Country Link
US (2) US11847822B2 (ja)
JP (1) JP7375748B2 (ja)
CN (1) CN112106004A (ja)
WO (1) WO2019216016A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021086441A (ja) * 2019-11-28 2021-06-03 シャープ株式会社 学習装置、個体識別装置、動物監視装置、学習方法、および、制御プログラム
JP2022035936A (ja) * 2020-08-20 2022-03-04 上海姜歌机器人有限公司 ロボットの再位置決め方法、装置及び機器
WO2022158285A1 (ja) * 2021-01-19 2022-07-28 ソニーグループ株式会社 情報処理装置、情報処理方法及び情報処理プログラム
EP4099266A4 (en) * 2020-01-28 2023-07-05 Sony Group Corporation INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD AND PROGRAM

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2574886A (en) * 2018-06-22 2019-12-25 Ecole Polytechnique Fed Lausanne Epfl Teleoperation with a wearable sensor system
US11685047B2 (en) * 2020-05-21 2023-06-27 Intrinsic Innovation Llc Skill template distribution for robotic demonstration learning

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003345438A (ja) * 2002-05-29 2003-12-05 Mitsubishi Heavy Ind Ltd 移動ロボット
JP2004252111A (ja) * 2003-02-19 2004-09-09 Sony Corp 学習装置及び学習方法並びにロボット装置
JP2005128959A (ja) * 2003-10-27 2005-05-19 Sony Corp ロボット装置及びその物体学習方法
JP2013161391A (ja) * 2012-02-08 2013-08-19 Sony Corp 情報処理装置、情報処理方法およびコンピュータプログラム

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002140092A (ja) * 2000-10-31 2002-05-17 Nec Corp 音声認識ロボット
JP2003140710A (ja) 2001-10-29 2003-05-16 Sony Corp 情報家電機器制御システム、データベースサーバ、情報家電機器及び情報家電機器制御方法
US8140188B2 (en) 2008-02-18 2012-03-20 Toyota Motor Engineering & Manufacturing North America, Inc. Robotic system and method for observing, learning, and supporting human activities
US8996175B2 (en) * 2012-06-21 2015-03-31 Rethink Robotics, Inc. Training and operating industrial robots
KR102071575B1 (ko) * 2013-04-23 2020-01-30 삼성전자 주식회사 이동로봇, 사용자단말장치 및 그들의 제어방법
ES2613138T3 (es) * 2013-08-23 2017-05-22 Lg Electronics Inc. Robot limpiador y método para controlar el mismo
JP6352151B2 (ja) * 2014-11-07 2018-07-04 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法
CN105825268B (zh) * 2016-03-18 2019-02-12 北京光年无限科技有限公司 面向机器人动作学习的数据处理方法和系统
AU2017280957A1 (en) * 2016-06-19 2019-01-03 iDevices, LLC Application icon customization
KR101876968B1 (ko) * 2016-10-21 2018-07-12 네이버 주식회사 실내 자율 주행 로봇을 위한 제어 방법 및 시스템
US10430657B2 (en) * 2016-12-12 2019-10-01 X Development Llc Object recognition tool
KR20180070932A (ko) * 2016-12-19 2018-06-27 삼성전자주식회사 이동체 및 이동체의 제어 방법
CN107977668A (zh) * 2017-07-28 2018-05-01 北京物灵智能科技有限公司 一种机器人图像识别方法及系统
US20190102377A1 (en) * 2017-10-04 2019-04-04 Anki, Inc. Robot Natural Language Term Disambiguation and Entity Labeling
US10878294B2 (en) * 2018-01-05 2020-12-29 Irobot Corporation Mobile cleaning robot artificial intelligence for situational awareness
US10757323B2 (en) * 2018-04-05 2020-08-25 Motorola Mobility Llc Electronic device with image capture command source identification and corresponding methods

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003345438A (ja) * 2002-05-29 2003-12-05 Mitsubishi Heavy Ind Ltd 移動ロボット
JP2004252111A (ja) * 2003-02-19 2004-09-09 Sony Corp 学習装置及び学習方法並びにロボット装置
JP2005128959A (ja) * 2003-10-27 2005-05-19 Sony Corp ロボット装置及びその物体学習方法
JP2013161391A (ja) * 2012-02-08 2013-08-19 Sony Corp 情報処理装置、情報処理方法およびコンピュータプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021086441A (ja) * 2019-11-28 2021-06-03 シャープ株式会社 学習装置、個体識別装置、動物監視装置、学習方法、および、制御プログラム
EP4099266A4 (en) * 2020-01-28 2023-07-05 Sony Group Corporation INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD AND PROGRAM
JP2022035936A (ja) * 2020-08-20 2022-03-04 上海姜歌机器人有限公司 ロボットの再位置決め方法、装置及び機器
WO2022158285A1 (ja) * 2021-01-19 2022-07-28 ソニーグループ株式会社 情報処理装置、情報処理方法及び情報処理プログラム

Also Published As

Publication number Publication date
JP7375748B2 (ja) 2023-11-08
US20240078798A1 (en) 2024-03-07
JPWO2019216016A1 (ja) 2021-05-13
US11847822B2 (en) 2023-12-19
US20210240984A1 (en) 2021-08-05
CN112106004A (zh) 2020-12-18

Similar Documents

Publication Publication Date Title
WO2019216016A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP7400923B2 (ja) 情報処理装置および情報処理方法
JP7351383B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US20230266767A1 (en) Information processing apparatus, information processing method, and program
US20200269421A1 (en) Information processing device, information processing method, and program
JP2024009862A (ja) 情報処理装置、情報処理方法、およびプログラム
WO2019123744A1 (ja) 情報処理装置、情報処理方法、およびプログラム
US11938625B2 (en) Information processing apparatus, information processing method, and program
JP7363823B2 (ja) 情報処理装置、および情報処理方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19800272

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020518166

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19800272

Country of ref document: EP

Kind code of ref document: A1