WO2021053949A1 - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
WO2021053949A1
WO2021053949A1 PCT/JP2020/027500 JP2020027500W WO2021053949A1 WO 2021053949 A1 WO2021053949 A1 WO 2021053949A1 JP 2020027500 W JP2020027500 W JP 2020027500W WO 2021053949 A1 WO2021053949 A1 WO 2021053949A1
Authority
WO
WIPO (PCT)
Prior art keywords
event
information
feature data
information processing
unit
Prior art date
Application number
PCT/JP2020/027500
Other languages
English (en)
French (fr)
Inventor
大樹 島田
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US17/641,784 priority Critical patent/US20240042619A1/en
Priority to EP20864454.2A priority patent/EP4032594A4/en
Priority to JP2021546525A priority patent/JPWO2021053949A1/ja
Publication of WO2021053949A1 publication Critical patent/WO2021053949A1/ja

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • B25J13/003Controls for manipulators by means of an audio-responsive input
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/0005Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1664Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour

Definitions

  • This disclosure relates to information processing devices, information processing methods, and programs.
  • mobile robots that operate in a predetermined environment not only differ greatly in visual information, but also this visual information changes from moment to moment. Further, the space area that can be observed by the mobile robot is partially occupied by an object or the like existing in a predetermined environment. Therefore, a recognition system that is not affected by environmental differences and changes or visual occlusion under a predetermined environment such as a house has been desired.
  • this disclosure proposes an information processing device, an information processing method, and a program that can recognize a specific event from some information under a predetermined environment.
  • the information processing device of one aspect according to the present disclosure includes a sensor unit that senses environmental information of a predetermined area, event feature data related to a predetermined event, and spatial information of the predetermined event associated with the event feature data. Control to retrieve the event information from the storage unit based on the storage unit in which the event information including the meta information is stored and the sensing result by the sensor unit, and acquire the spatial information included in the event information. It is equipped with a department.
  • a specific event can be recognized from some information under a predetermined environment.
  • the effects described here are not necessarily limited, and may be any of the effects described in the present disclosure. Furthermore, the effects described herein are merely exemplary and not limited, and may have other effects.
  • the visual information differs greatly depending on each environment, and it changes from moment to moment. That is, the recognition of daily events in a predetermined environment such as a house differs greatly in each environment, and the characteristics of the event differ in each environment. Therefore, the mobile robot needs to learn the event for each environment. Furthermore, the space that can be observed by the mobile robot described above becomes partial from time to time. That is, since the space observed by the sensors differs from time to time in the mobile robot, the features are integrated from the inputs of multiple sensors, and even if the observation is incomplete, the incomplete information is complemented and the event is performed. Need to be recognized. Therefore, there has been a demand for a recognition system that is not affected by differences or changes in the environment in the house or visual occlusion.
  • daily events are defined by event feature data obtained based on inputs from a plurality of sensors and event meta information, and mapped three-dimensionally.
  • the event feature data is visual information and auditory information that characterize the event itself.
  • the event feature data includes object feature data indicating the feature amount of the object and voice feature data indicating the feature amount of voice.
  • the event meta information includes position information indicating a predetermined position as spatial information.
  • FIG. 1 is a diagram showing an example of an outline of a learning phase of an information processing apparatus according to the present embodiment.
  • the information processing device 1 according to the present embodiment exists in an environment of a predetermined area such as a house H.
  • a predetermined area such as a house H.
  • the information processing device 1 may be a humanoid robot, a drone, or the like instead of the pet-type robot.
  • the information processing device 1 is, for example, a pet-type robot provided with a pet-shaped housing, and can move in the house H.
  • the information processing device 1 as a pet-type robot learns an event in the house H based on the detection result of a sensor that senses environmental information in the house H.
  • a case of learning a person's visit, specifically a man's return home is described as an event, but the event is not necessarily limited to the above-mentioned person's visit to the house H.
  • various events can be detected.
  • the information processing device 1 includes a sensor unit 2 and can sense environmental information in a predetermined area.
  • the information processing device 1 includes a microphone sensor 21 and a camera sensor 22.
  • the information processing device 1 senses an event in the house H based on audio data as a part of the sensing result collected by the microphone sensor 21 and video data as a part of the sensing result captured by the camera sensor 22. To do.
  • the microphone sensor 21 acquires audio data and the camera sensor 22 acquires video data. Since the video data is data composed of a plurality of image data, the video data includes the concept of image data.
  • the information processing device 1 learns the interphase relationship between the audio data and the video data and converts it into event feature data. At the same time, the information processing device 1 maps the place where the learned event feature data is obtained and learns it as event meta information including three-dimensional position information as spatial information. In the example shown in FIG. 1, the position information of the door D of the entrance in the house H is mapped as the position where the learned event feature data is generated, and is used as the event meta information.
  • FIG. 2 is a diagram showing an outline of an outline of the recall phase of the information processing apparatus according to the present embodiment.
  • the information processing device 1 acquires voice data by the microphone sensor 21, it searches for event feature data based on the acquired voice data and obtains position information included in the related event meta information. Find out.
  • the voice feature data "EA0011” is searched out based on the voice data of, for example, the footsteps of a man and the sound of the door D opening acquired by the microphone sensor 21.
  • the voice feature data "EA0011” is searched, the related event feature ID "E001" and the event meta information "EM001" can be searched.
  • the information processing device 1 moves to the location of the position information included in the retrieved event meta information "EM001" by the drive mechanism described later. As a result, the information processing device 1 which is a pet-type robot can automatically move to a place where a similar event that has occurred now occurs based on an event that has occurred in the past.
  • the information processing device 1 can gradually refine the event information by sequentially updating the event DB when the audio data and the video data are acquired at the same time. Therefore, according to the information processing device 1, it is not necessary for the user to set detailed event information in advance, the event information can be optimized by a simple operation, and the optimization of the event information can be facilitated.
  • FIG. 3 is a block diagram showing a configuration example of the information processing device 1 according to the present embodiment.
  • the information processing device 1 includes a sensor unit 2, a communication unit 3, a storage unit 4, and a control unit 5.
  • the sensor unit 2 has a sensor that senses environmental information in a predetermined area (inside the house H).
  • the sensor unit 2 includes a microphone sensor 21, a camera sensor 22, and a depth sensor 23.
  • the microphone sensor 21 is a device that collects ambient sound and outputs audio data converted into a digital signal via an amplifier and an ADC (Analog Digital Converter). That is, the microphone sensor 21 assumes a sensor capable of inputting voice, such as a microphone.
  • the camera sensor 22 is an image pickup device that has a lens system such as an RGB camera and an image pickup element and captures an image (still image or moving image). It is assumed that the information acquired by the camera sensor 22, that is, the input is an image having a single color or a plurality of color information.
  • the depth sensor 23 is a device that acquires depth information such as an infrared range finder, an ultrasonic range finder, a LiDAR (Laser Imaging Detection and Ranging), or a stereo camera. That is, the depth sensor 23 is a so-called 3D sensor that measures the distance to the subject.
  • the information processing device 1 may acquire the sensing result of a predetermined area from the sensor unit 2 provided separately from the information processing device 1.
  • the communication unit 3 is a communication module that transmits / receives data to / from another communicable device via a predetermined network.
  • the communication unit 3 includes a reception unit 31 and a transmission unit 32.
  • the receiving unit 31 receives predetermined information from another device and outputs it to the control unit 5.
  • the transmission unit 32 transmits predetermined information to another device via the network.
  • the storage unit 4 is a storage device for recording at least event information.
  • the storage unit 4 stores the voice feature database (DB) 41, the object mask DB 42, the object feature DB 43, the event meta information DB 44, the event feature DB 45, the event DB 46, the threshold value DB 47, and the recall event meta information 48.
  • DB voice feature database
  • the voice feature data stored in the voice feature DB is information related to the feature amount of the voice data acquired by the information processing device 1.
  • the voice feature data is, for example, a feature amount extracted by the control unit 5 described later based on the voice data acquired by the microphone sensor 21.
  • FIG. 4 is a diagram showing a specific example of voice feature data according to the present embodiment. As shown in FIG. 4, the storage unit 4 stores the voice feature data 210 in which a predetermined feature amount is extracted from the voice data 200 acquired by the microphone sensor 21 in the voice feature DB 41.
  • the voice feature data is abstracted as "EA0015" or the like, but the voice feature data such as "EA0015" is a specific voice feature data as shown in FIG.
  • the object mask information stored in the object mask DB 42 is the information of the object mask for estimating the area of the object with respect to the video data acquired by the camera sensor 22.
  • the object mask information is information that serves as a reference for detecting an object.
  • FIG. 5A is a diagram showing a specific example of the image sequence according to the present embodiment, and FIGS. 5B and 5C are regions in which the object 101 included in the image sequence of the image data 100 in FIG. 5A is detected and the object exists. This is a specific example of the object mask information obtained by estimating.
  • the storage unit 4 shown in FIG. 3 stores various object mask information shown in FIG. 5C.
  • FIG. 5D is a diagram showing object feature data which is a feature amount of each object extracted based on each object mask information stored in the object mask DB 42 of the storage unit 4.
  • Each object feature data obtained from the object mask information shown in FIG. 5C is abstracted as "EB001" or the like in the following description, but the object feature data "EB001” or the like is shown in FIG. 5D.
  • Object feature data. Specific object feature data is, for example, 256-dimensional vector data. These object feature data are stored in the object feature DB 43 of the storage unit 4 shown in FIG.
  • FIG. 6 is a diagram showing an example of event feature data.
  • the event feature data includes the object feature data and the voice feature data associated with the event feature ID.
  • the object feature data is stored in the event feature DB 45 of the storage unit 4 shown in FIG.
  • the event meta information includes at least two-dimensional or three-dimensional position information.
  • the event meta information may include time information.
  • the event meta information is meta information including position information and time information related to a predetermined event.
  • the event meta information may further include information necessary for the behavior of the mobile robot.
  • the information required for the action of the mobile robot is, for example, category information, occurrence frequency information, occurrence date / time information, and the like related to the event.
  • the event feature DB 45 is a database in which the above-mentioned voice feature data and object feature data are associated with each other and stored as event feature data.
  • FIG. 6 is a diagram showing a specific example of event feature data.
  • the event feature data is data in which the object feature data and the voice feature data associated with each other are associated with the event feature ID.
  • the object feature data “EB003” and “EB005” are used as the event feature ID “EB003” (see FIG. 4). It is configured in association with "E001".
  • the event DB 46 is a database in which the above-mentioned event feature data and event meta information are associated with each other and stored as event information.
  • FIG. 7 is a diagram showing a specific example of event information.
  • the event information is data in which the event feature ID and the event meta information associated with each other are associated with the event ID.
  • the event feature ID "EM001” and the event meta information "EM001” related thereto are attached with the event ID "001" to form the event information.
  • the event feature ID "EM002" and the event meta information "EM002” related thereto are attached with the event ID "002" to form the event information.
  • the threshold value DB 47 includes threshold value information for determining the degree of agreement between the audio data acquired by the microphone sensor 21 and the video data acquired by the camera sensor 22.
  • the threshold value of the degree of matching is referred to as a matching threshold value in the present specification, and is a threshold value relating to the degree of matching between the audio feature data obtained from the audio data and the object feature data obtained from the video data.
  • the match threshold value is threshold information for determining whether or not to enter the learning phase, in other words, is a threshold value for determining whether or not the event should be registered.
  • the learning phase is a process in which the event DB 46 is changed by the registration process or the update process performed by the control unit 5.
  • the recall phase is a process in which the control unit 5 outputs the event meta information included in the predetermined event information from the event DB 46 under a predetermined condition.
  • the threshold value DB 47 includes threshold information for determining the degree of similarity between the voice feature data registered in the voice feature DB 41 and the voice data acquired by the microphone sensor 21. Further, the threshold value DB 47 includes threshold value information for determining the degree of similarity between the object feature data registered in the object feature DB 43 and the video data acquired by the camera sensor 22. These thresholds are referred to herein as recall thresholds. In other words, as for the recall threshold, is there event feature data including voice feature data and object feature data similar to the feature amount of the input voice data and video data in the event information stored in the event DB 46? It is a threshold value for determining whether or not.
  • the recall event meta information 48 is the event meta information included in the event information retrieved from the event DB 46.
  • the information processing device 1 makes an action plan based on the recall event meta information 48.
  • the control unit 5 has a function of controlling each configuration included in the information processing device 1.
  • the control unit 5 includes a voice feature extraction unit 51, an object area estimation unit 52, an object feature extraction unit 53, a sound source object estimation unit 54, a spatial position information acquisition unit 55, a time information acquisition unit 56, and learning. It includes a recall unit 57 and an action plan control unit 58.
  • the voice feature extraction unit 51 extracts the feature amount with a high degree of abstraction from the voice data input from the microphone sensor 21 and converts it into voice feature data.
  • the conversion process from the voice data to the voice feature data can be realized by a technique such as a Fourier transform process.
  • the object area estimation unit 52 estimates the area where the object 101 exists with respect to the plurality of image data 100 included in the video data shown in FIG. 5A acquired by the camera sensor 22, and the object area estimation unit 52 estimates the area where the object 101 exists. Outputs object mask information indicating the area.
  • the individual objects 101 included in the image data 100 are distinguished, and the respective object mask information is stored in the storage unit 4.
  • the object feature extraction unit 53 identifies the area of each object 101 from the plurality of image data 100 included in the input video data and the object mask information. As shown in FIG.
  • the object feature extraction unit 53 extracts a feature amount having a high degree of abstraction for each region of the object 101 from the region of the specified object 101 and converts it into object feature data.
  • the object feature extraction unit 53 is stored in the storage unit 4. It should be noted that the process of specifying the region of the object 101 and converting it into the object feature data can be realized by the existing technology.
  • the sound source object estimation unit 54 calculates the degree of agreement between the voice feature data obtained by the voice feature extraction unit 51 and the respective object feature data obtained by the object feature extraction unit 53.
  • the sound source object estimation unit 54 estimates the source of the voice data detected by the voice feature extraction unit 51, that is, the object 101 that is the sound source, based on the calculation of the degree of coincidence.
  • the sound source object estimation unit 54 estimates the direction in which the sound source is generated by using various orientation calculation algorithms such as the MUSIC (Multiple Signal Classification) method for the voice data, and the position of the object to be the sound source. To estimate.
  • MUSIC Multiple Signal Classification
  • the sound source object estimation unit 54 associates the object feature data estimated to have a high degree of agreement with the audio feature data, and outputs the event feature data as event feature data.
  • Examples of the method of calculating the degree of agreement between the voice feature data and the object feature data include, but are not necessarily limited to, a method of calculating the internal product of the object feature data and the voice feature data.
  • the calculation of the degree of agreement between the voice feature data and the object feature data can also be performed by, for example, a neural network obtained by machine learning.
  • the event feature data is assigned the event feature ID "E001"
  • the object feature data "EB003" and "EB005" are associated with the voice feature data "EA0015". ing.
  • the above microphone sensor 21, camera sensor 22, voice feature extraction unit 51, object area estimation unit 52, object feature extraction unit 53, sound source object estimation unit 54, voice feature DB 41, object mask DB 42, and object feature DB 43 are feature extraction. It constitutes a part 70.
  • the feature extraction unit 70 generally extracts event feature data from various data such as input audio data and video data. On the other hand, the feature extraction unit 70 calculates the degree of coincidence between the object feature data and the audio feature data, and calculates whether or not the video data includes an object as a sound source.
  • the spatial position information acquisition unit 55 creates a map of a predetermined area (inside the house H) based on the depth information detected by the depth sensor 23, and stores it in the storage unit 4 as map information as a base of event meta information.
  • the spatial position information acquisition unit 55 can generate map information by SLAM (Simulation Localization and Mapping).
  • the spatial position information acquisition unit 55 may update the map information at a predetermined cycle on the assumption that the furniture in the house H will be rearranged, and the map information may be updated every time the information processing device 1 is moved. May be generated each time. Further, the information processing device 1 may store a map generated by another device as map information.
  • the spatial position information acquisition unit 55 can calculate specific position information by comparing the depth information obtained by the depth sensor 23 with the map information stored in the storage unit 4.
  • a method of acquiring predetermined position information by the spatial position information acquisition unit 55 the following processing can be mentioned. That is, a process of acquiring coordinate information on the earth using a positioning system such as a GPS (Global Positioning System) system, or a relative position from a predetermined starting point using video data such as VisualSLAM. It is a process of self-position estimation to acquire.
  • the time information acquisition unit 56 is a time information receiving mechanism that receives time information from a time measuring mechanism such as a clock or a server that outputs time information via a predetermined network.
  • the spatial position information acquisition unit 55 outputs the position information associated with the observed event as a part of the event meta information.
  • the event meta information is stored in the event meta information database of the storage unit 4.
  • Event meta information includes at least event location information.
  • the position information of the event refers to the coordinate representation by two or more numerical values with the origin at an arbitrary position.
  • the position information can be represented by spatial information such as a relative position from a predetermined starting point in a map of the environment, that is, an XYZ position in the world coordinate system, or coordinate information of the world geodetic system obtained from GPS satellites.
  • the time information acquired by the time information acquisition unit 56 may be associated with the position information calculated by the spatial position information acquisition unit 55 as the time information at the time when the event occurs, and may be used as a part of the event meta information.
  • the depth sensor 23, the spatial position information acquisition unit 55, the time information acquisition unit 56, and the event meta information DB 44 constitute the event meta information acquisition unit 80.
  • the event meta information acquisition unit 80 generally outputs information necessary for searching for event information and the action of the mobile robot as event meta information based on the input from the depth sensor 23, and stores it in the storage unit 4.
  • the learning recall unit 57 as a part of the generation unit generates event information by associating the event feature data obtained by the feature extraction unit 70 with the event meta information obtained by the event meta information acquisition unit 80. It is stored in the event DB 46 of the storage unit 4.
  • the event feature data is stored in the event feature DB 45, and the event information is stored in the event DB 46, but the present invention is not necessarily limited to this. That is, instead of using a database, a system capable of outputting related information from a specific input such as a Boltzmann machine or a self-organizing map may be used.
  • the learning recall unit 57 performs any of registration processing, update processing, and recall processing for the event information based on the event feature data output from the feature extraction unit 70 and the matching threshold value and the recall threshold value stored in the threshold value DB 47. Determine if you want to do it.
  • the event memory unit 90 is composed of the above learning recall unit 57, the event feature DB 45, the event DB 46, and the threshold value DB 47.
  • the event memory unit 90 generally selects either registration, update, or recall processing for the event information, while generating the event information and storing it in the storage unit 4.
  • the action plan control unit 58 has a function of planning the action to be performed by the information processing device 1 based on the information acquired by the sensor unit 2 and various data stored in the storage unit 4. First, the action plan control unit 58 according to the present embodiment searches for the event meta information stored in the event meta information DB 44 corresponding to the voice data from the voice data acquired by the microphone sensor 21. Subsequently, the action plan control unit 58 determines to execute the action of moving to the position designated by the position information based on the position information included in the retrieved event meta information.
  • the action plan control unit 58 has a function of controlling the operation of the drive unit 6.
  • the drive unit 6 has a function of driving the physical configuration of the information processing device 1.
  • the drive unit 6 has a function for moving the position of the information processing device 1.
  • the drive unit 6 is, for example, an actuator driven by a motor 61.
  • the action plan control unit 58 controls the motor 61 of the drive unit 6 based on the above-mentioned action plan to drive the actuators provided in each joint portion provided in the drive unit 6.
  • the drive unit 6 may have any configuration as long as the information processing device 1 can realize a desired operation.
  • the drive unit 6 may have any configuration as long as the position of the information processing device 1 can be moved.
  • the drive unit 6 drives the caterpillar or the tire.
  • the drive unit 6 may further include sensors such as a GPS receiver and an acceleration sensor, which are necessary for controlling the mobile robot.
  • FIG. 9 is a flowchart showing a processing procedure executed by the information processing apparatus 1 according to the embodiment.
  • step ST1 the event feature is acquired by the feature extraction unit 70 of the information processing device 1.
  • the microphone sensor 21 acquires audio data
  • the camera sensor 22 acquires video data.
  • the camera sensor 22 may acquire a plurality of image data instead of acquiring the video data.
  • the voice feature extraction unit 51 of the control unit 5 extracts voice feature data from the acquired voice data and stores it in the voice feature DB 41.
  • the object area estimation unit 52 and the object feature extraction unit 53 extract the object feature data from the video data using the object mask data and store it in the object feature DB 43.
  • the sound source object estimation unit 54 estimates an object to be a sound source of the acquired voice data from the voice feature data and the object feature data.
  • Event feature data is generated by combining voice feature data and object feature data.
  • the event feature data may be composed of only the audio feature data or only the object feature data. Further, in parallel with the generation of the event feature data, the event meta information acquisition unit 80 generates the event meta information at the place where the audio data and the video data are acquired, and stores the event meta information in the event meta information DB 44.
  • the event memory unit 90 of the information processing device 1 determines whether or not the generated event feature data exceeds the match threshold value. Specifically, first, the sound source object estimation unit 54 calculates the degree of coincidence between the voice feature data included in the event feature data and the object feature data, and outputs the data to the learning recall unit 57. When the learning recall unit 57 determines that the input degree of matching exceeds the matching threshold value (step ST2: Yes), the process proceeds to step ST3.
  • the degree of coincidence between the voice feature data and the object feature data is high, it means that the camera sensor 22 captures the object that outputs the voice data at substantially the same time as the microphone sensor 21 acquires the voice data. .. In this case, as described above, the processing of the information processing device 1 enters the learning phase.
  • step ST3 the control unit 5 of the information processing device 1 recalls an event based on the event feature data.
  • the learning recall unit 57 of the control unit 5 searches for the event information stored in the event DB 46 based on the acquired event feature data.
  • the event DB 46 stores, for example, an event feature ID and event meta information associated with the event ID as shown in FIG. 7.
  • step ST4 the learning recall unit 57 determines whether or not there is event information having event feature data whose similarity to the acquired event feature data exceeds a predetermined recall threshold.
  • the learning recall unit 57 recalls the threshold value based on other information included in the event meta information and the threshold value based on the frequency of occurrence and the date and time of occurrence. It may be used as a threshold value.
  • the learning recall unit 57 updates the retrieved event feature data. Specifically, the learning recall unit 57 updates the event feature data included in the retrieved event information with the acquired event feature data. That is, for example, among the event feature data having the event feature ID "E001", the voice feature data is updated from the voice feature data "EA0015" shown in FIG. 6 to the voice feature data "EA0024” shown in FIG. The object feature data may be updated as needed. The updated event feature data of the event feature ID "E001" is stored in the event ID "001" shown in FIG. 7, and the event information is updated. As a result, the learning phase executed by the information processing device 1 is completed.
  • step ST4 determines in step ST4 that there is no event information including event feature data exceeding a predetermined recall threshold value (step ST4: No)
  • step ST6 the control unit 5 registers the event.
  • the learning recall unit 57 generates event feature data from the voice feature data and the object feature data output from the feature extraction unit 70.
  • the learning recall unit 57 acquires the event meta information output from the event meta information acquisition unit 80.
  • the learning recall unit 57 associates the event feature data with the event meta information, attaches an event ID, and stores the event in the event DB 46. As a result, the learning phase executed by the information processing device 1 is completed.
  • step ST2 determines in step ST2 that the calculated degree of matching is equal to or less than the matching threshold value (step ST2: No)
  • step ST7 the degree of coincidence between the voice feature data and the object feature data is equal to or less than the matching threshold value
  • the object that outputs the voice data is not captured by the camera sensor 22 at the time when the voice data is acquired by the microphone sensor 21. Become. In this case, as described above, the processing of the information processing device 1 enters the recall phase.
  • step ST7 the control unit 5 of the information processing device 1 recalls the event based on the voice feature data.
  • the learning recall unit 57 of the control unit 5 searches for the event information stored in the event DB 46 based on the acquired voice feature data.
  • the learning recall unit 57 may search for event information based on the acquired object feature data.
  • the event DB 46 stores, for example, an event feature ID and event meta information associated with the event ID as shown in FIG. 7.
  • step ST8 the learning recall unit 57 determines whether or not there is event information in which the similarity between the voice feature data included in the retrieved event information and the acquired voice feature data exceeds a predetermined recall threshold value. Is determined.
  • the learning recall unit 57 determines that there is event information including the voice feature data whose similarity with the acquired voice feature data exceeds the recall threshold value (step ST8: Yes)
  • the process proceeds to step ST9.
  • the acquired voice feature data is "EA0015" will be taken as an example.
  • step ST9 the control unit 5 outputs the event meta information of the corresponding event.
  • the learning recall unit 57 first searches for the event feature data "E001" (see FIG. 6) including the voice feature data "EA0015", and then searches for the event information of the event ID "001" shown in FIG. 7. ..
  • the learning recall unit 57 reads out the event meta information "EM001” included in the event information of the searched event ID "001".
  • the learning recall unit 57 outputs the read event meta information “EM001” as the recall event meta information 48 to the action plan control unit 58.
  • the recall phase executed by the information processing device 1 is completed.
  • the action plan control unit 58 into which the recall event meta information 48 is input executes an action plan based on the position information included in the recall event meta information 48, and controls the drive unit 6. As a result, the information processing device 1 moves to the location indicated by the position information included in the recall event meta information 48.
  • step ST8 when the learning recall unit 57 determines that there is no event information including the voice feature data whose similarity with the acquired voice feature data exceeds the recall threshold (step ST8: No), the information.
  • the recall phase executed by the processing device 1 ends.
  • the spatial position information acquisition unit 55 of the information processing device 1 has a predetermined area (inside the house H) based on the depth information detected by the depth sensor 23, for example, by VisualSLAM. Create a map of. In this case, for example, the position of the door D that emits voice is also included in the map information. The created map is stored in the event meta information DB 44 of the storage unit 4 as the map information that is the base of the event meta information. As a result, the information processing apparatus 1 can always estimate its own position from the starting point.
  • the object feature extraction unit 53 of the information processing device 1 detects a person or an object such as a resident of the house H by the camera sensor 22.
  • the detected objects 102, 103, and 104 are converted into object feature data and stored in the object feature DB of the storage unit 4.
  • the detection and identification of an object by the object feature extraction unit 53 can be realized by using known machine learning and pattern recognition techniques such as a boosting method, a neural network, and a hidden Markov model (HMM) method.
  • HMM hidden Markov model
  • the information processing device 1 acquires the voice generated at the door D as voice data.
  • the control unit 5 determines that the degree of coincidence between the video data and the voice data is high. In this case, the processing of the information processing device 1 shifts to the learning phase described above.
  • the information processing device 1 when the resident opens the front door D, the information processing device 1 may not be able to capture the sound generation status as video data. In this case, the information processing device 1 determines that the control unit 5 of the information processing device 1 has a low degree of coincidence between the video data and the audio data, and shifts to the recall phase. When shifting to the recall phase, the information processing device 1 searches for event information based on the input voice data and reads out the recall event meta information 48. The information processing device 1 executes an action plan based on the read recall event meta information 48, and moves to the position indicated by the position information included in the recall event meta information 48. As a result, the information processing device 1 can produce a situation in which the resident who has returned home in response to the generated voice is greeted.
  • the event information including the same audio data is searched for based on the audio data acquired by the information processing device 1, and the event information is moved to the position based on the associated event meta information. It may be based on video data.
  • the information processing device 1 that has acquired the light of thunder as video data searches for event information including object feature data based on the same video data, and moves to a position based on the associated event meta information. You may.
  • the information processing device 1 composed of the mobile robot can newly generate the event information that is not stored in the event DB 46 by acquiring the audio data and the video data corresponding to each other substantially at the same time. Only when moving to the learning phase. In this case, the generation of event information depends on chance. Therefore, various methods can be adopted in order to facilitate the simultaneous acquisition of audio data and video data related to each other.
  • the application installed in the mobile terminal device owned by the resident may be linked with the GPS information provided in the mobile terminal device. ..
  • the mobile terminal device application is set so that the resident can be notified of information about the mobile robot and the resident's position information can be transmitted to the mobile robot.
  • the mobile robot is moved to a random place and controlled to stand by. Further, when there is no resident in the house H, the person may wait at a different place each time. Further, an action plan for moving in the direction in which the sound is produced may be added to the microphone sensor 21 by using beamforming. Further, the application of the mobile terminal device may be used to greet the resident who returns home to the resident who is not out of the office together with the mobile robot.
  • FIG. 12 is a diagram showing a specific example of the event DB according to the modified example of the present disclosure.
  • 13A, 13B, and 13C are diagrams showing specific examples of the information processing method according to the modified example of the present disclosure and the movement of the information processing apparatus, respectively.
  • the information processing device 1A according to the modified example is, for example, a mobile robot that operates a household electric appliance (hereinafter, home appliance).
  • the event feature data of the object feature data and the voice feature data of each home appliance is the event meta information including the position information in which the home appliances are arranged in the event DB 46 of the storage unit 4. It is stored in association with.
  • event IDs "010", “011”, and "012" are set corresponding to, for example, a water heater, a dishwasher, and a microwave oven, and are stored in the event DB 46, respectively.
  • the event ID "010”, the event feature ID "E012”, the object feature data "EB012”, the voice feature data "EA0050”, and the event meta information "EM012” are associated with each other, and the event DB46 It is stored in.
  • the information processing device 1A emitted by the home appliance acquires the information.
  • the information processing device 1A extracts voice feature data from the acquired voice data, searches for voice feature data having a high degree of similarity to the extracted voice feature data, and searches for event meta information associated with the voice feature data. Put out.
  • the voice feature data “EA0050” having a high degree of similarity to the acquired and extracted voice feature data is searched for, and the associated event meta information “EM012” is searched for.
  • the information processing device 1A can recognize the position of the microwave oven, which is a home appliance.
  • the information processing device 1A moves from the position shown in FIG. 13B to the position shown in FIG. 13C based on the position information included in the retrieved event meta information "EM012" to operate the home appliance.
  • the information processing devices 1 and 1A are arranged in the predetermined area (house H) has been described, but the present invention is not limited to this.
  • the information processing device 1 can be configured as a server device.
  • FIG. 14 is a schematic view of the information processing device 300 according to the modified example.
  • the information processing apparatus 300 is shown in a simplified manner.
  • the information processing device 300 according to the modified example is a server device and includes an event meta information DB 144, an event feature DB 145, and an event DB 146.
  • the information processing device 300 receives voice data and video data as a sensing result of environmental information transmitted from, for example, the pet-type robot 400.
  • the pet-type robot 400 includes a sensor unit 2, a drive unit 6 that can move to a position designated by input position information, and a drive control unit that drives the drive unit 6.
  • the information processing device 300 controls the behavior of the pet-type robot 400 based on the event meta information stored in the event meta information DB and the event feature data stored in the event feature DB 145.
  • the information processing device 300 transmits position information to be moved by the pet-type robot 400 based on the received audio data or video data.
  • the pet-type robot 400 that has received the position information moves to a position that includes the received position information.
  • the information processing device 300 and the mobile terminal device 500 owned by the user may be made communicable so that the movement of the pet-type robot 400 can be controlled by the mobile terminal device 500.
  • the predetermined area has been described as the house H, but the present invention is not limited to this, and any area can be set as the predetermined area.
  • FIG. 15 is a hardware configuration diagram showing an example of a computer 1000 that realizes the functions of the information processing device 1.
  • the computer 1000 has a CPU 1100, a RAM 1200, a ROM (Read Only Memory) 1300, an HDD (Hard Disk Drive) 1400, a communication interface 1500, and an input / output interface 1600.
  • Each part of the computer 1000 is connected by a bus 1050.
  • the CPU 1100 operates based on the program stored in the ROM 1300 or the HDD 1400, and controls each part. For example, the CPU 1100 expands the program stored in the ROM 1300 or the HDD 1400 into the RAM 1200 and executes processing corresponding to various programs.
  • the ROM 1300 stores a boot program such as a BIOS (Basic Input Output System) executed by the CPU 1100 when the computer 1000 is started, a program that depends on the hardware of the computer 1000, and the like.
  • BIOS Basic Input Output System
  • the HDD 1400 is a computer-readable recording medium that non-temporarily records a program executed by the CPU 1100 and data used by such a program.
  • the HDD 1400 is a recording medium for recording a program according to the present disclosure, which is an example of program data 1450.
  • the communication interface 1500 is an interface for the computer 1000 to connect to an external network 1550 (for example, the Internet).
  • the CPU 1100 receives data from another device or transmits data generated by the CPU 1100 to another device via the communication interface 1500.
  • the input / output interface 1600 is an interface for connecting the input / output device 1650 and the computer 1000.
  • the CPU 1100 receives data from an input device such as a keyboard or mouse via the input / output interface 1600. Further, the CPU 1100 transmits data to an output device such as a display, a speaker, or a printer via the input / output interface 1600. Further, the input / output interface 1600 may function as a media interface for reading a program or the like recorded on a predetermined recording medium (media).
  • the media is, for example, an optical recording medium such as DVD (Digital Versatile Disc) or PD (Phase change rewritable Disk), a magneto-optical recording medium such as MO (Magneto-Optical disk), a tape medium, a magnetic recording medium, or a semiconductor memory.
  • an optical recording medium such as DVD (Digital Versatile Disc) or PD (Phase change rewritable Disk)
  • a magneto-optical recording medium such as MO (Magneto-Optical disk)
  • tape medium such as DVD (Digital Versatile Disc) or PD (Phase change rewritable Disk)
  • MO Magneto-optical disk
  • the CPU 1100 of the computer 1000 realizes the functions of the spatial position information acquisition unit 55 and the like by executing the program loaded on the RAM 1200.
  • the HDD 1400 stores the program related to the present disclosure and the data in the storage unit 4.
  • the CPU 1100 reads the program data 1450 from the HDD 1400 and executes the program, but as another example, these programs may be acquired from another device via the external network 1550.
  • both the image data and the audio data can be combined with the spatial information and stored in a state in which they can be recollected from each other.
  • all other information specifically, the audio data, the image data, and the event meta information can be searched out and used for the behavior control of the mobile robot.
  • the information processing devices 1 and 1A can move to a place where an event occurs as long as they can acquire audio data.
  • the information processing devices 1 and 1A such as a mobile robot cannot acquire audio data, they can move to a place where an event occurs as long as they can acquire video data.
  • event information is registered and continuously updated at the timing when audio data and video data can be acquired at the same time, the information processing devices 1 and 1A should be operated robustly against changes in the environment. Can be done.
  • the environment such as objects in the house H changes from moment to moment, by shifting to the learning phase at the timing when audio data and video data are acquired at the same time, it operates in response to changes in the environment from the next time onward. it can.
  • the present technology can also have the following configurations.
  • a sensor unit that senses environmental information in a predetermined area
  • a storage unit that stores event information including event feature data relating to a predetermined event and meta information including spatial information of the predetermined event associated with the event feature data.
  • the control unit Based on the sensing result by the sensor unit, the control unit that retrieves the event information from the storage unit and acquires the spatial information included in the event information.
  • Information processing device equipped with (2) The control unit The degree of similarity between the sensing result sensed by the sensor unit and the event feature data stored in the storage unit is determined.
  • the information processing device according to (1) above, wherein when the similarity exceeds a predetermined recall threshold value, event information including event feature data exceeding the recall threshold value is retrieved from the storage unit.
  • Information processing device (4) The control unit Based on the voice feature data obtained from the voice sensed by the sensor unit, the event information including the voice feature data whose similarity with the voice feature data exceeds a predetermined recall threshold is searched from the storage unit.
  • the information processing apparatus according to (3).
  • the control unit Based on the object feature data obtained from the object sensed by the sensor unit, the event information including the object feature data whose similarity with the object feature data exceeds a predetermined recall threshold is searched from the storage unit.
  • the information processing device according to (3).
  • the object feature data is a feature amount of the object sensed by the sensor unit.
  • the information processing device according to any one of (3) to (5) above, wherein the voice feature data is a feature amount of voice emitted from an object sensed by the sensor unit.
  • It is configured to be able to control a mobile robot equipped with a drive unit that moves the housing.
  • the control unit The information processing device according to any one of (1) to (6) above, wherein an action plan is performed based on the acquired spatial information, and control is performed to make the mobile robot act according to the action plan.
  • the information processing device according to any one of (1) to (7) above, which is a mobile robot.
  • the computer Event information including event feature data related to a predetermined event and meta information including spatial information of the predetermined event associated with the event feature data based on a sensing result by a sensor unit that senses environmental information of a predetermined area.
  • An information processing method that retrieves the event information from the storage unit in which the information is stored and outputs the spatial information included in the event information.
  • Computer A sensor unit that senses environmental information in a predetermined area, A storage unit that stores event information including event feature data relating to a predetermined event and meta information including spatial information of the predetermined event associated with the event feature data.
  • a control unit that retrieves the event information from the storage unit based on the sensing result by the sensor unit and outputs the spatial information included in the event information.
  • a program that functions as.
  • a sensor unit that senses environmental information in a predetermined area, The event feature data related to the predetermined event obtained based on the sensing result by the sensor unit and the meta information including the spatial information of the predetermined event obtained based on the sensing result are associated with each other to generate the event information.
  • the generator to generate and Information processing device equipped with.
  • the event feature data includes an object feature data obtained from an object that can be sensed by the sensor unit and a voice feature data obtained from a voice that can be sensed by the sensor unit.
  • the control unit The degree of coincidence between the object feature data and the voice feature data obtained based on the sensing result is determined.
  • the information processing device according to (10), wherein the generation unit generates the event information when the degree of matching exceeds a predetermined matching threshold.
  • the computer Event feature data related to a predetermined event obtained based on the sensing result by the sensor unit that senses the environmental information of the predetermined area, and meta information including the spatial information of the predetermined event obtained based on the sensing result.
  • An information processing method that generates event information by associating with each other.
  • Computer A sensor unit that senses environmental information in a predetermined area, The event feature data related to the predetermined event obtained based on the sensing result by the sensor unit and the meta information including the spatial information of the predetermined event obtained based on the sensing result are associated with each other to generate the event information.
  • the generator to generate and A program that functions as.

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mechanical Engineering (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Manipulator (AREA)

Abstract

情報処理装置は、所定エリアの環境情報をセンシングするセンサ部と、所定のイベントに関するイベント特徴データと、イベント特徴データに関連付けされた所定のイベントの空間情報を含むメタ情報とを含むイベント情報が記憶された記憶部と、センサ部によるセンシング結果に基づいて、記憶部からイベント情報を索出して、イベント情報に含まれる空間情報を取得する制御部と、を備える。

Description

情報処理装置、情報処理方法、およびプログラム
 本開示は、情報処理装置、情報処理方法、およびプログラムに関する。
 例えば、住宅などの環境下で動作するロボットやエージェント技術においては、住宅内やデバイス周辺の環境情報を認識する技術が開発され、導入されている。
特開平9-218955号公報 国際公開第2014/167700号
 しかしながら、所定の環境下で動作する移動型ロボットなどは、それぞれ視覚的な情報が大きく異なるのみならず、この視覚的な情報も時々刻々と変化する。さらに、移動型ロボットにより観測可能な空間領域は、所定の環境下に存在する物体などによって部分的になってしまう。そのため、住宅などの所定の環境下において、環境の差異や変化、または視覚的なオクルージョンに左右されない認識システムが望まれていた。
 そこで、本開示では、所定の環境下において、一部の情報から特定のイベントを認識できる情報処理装置、情報処理方法、およびプログラムを提案する。
 本開示に係る一態様の情報処理装置は、所定エリアの環境情報をセンシングするセンサ部と、所定のイベントに関するイベント特徴データと、前記イベント特徴データに関連付けされた前記所定のイベントの空間情報を含むメタ情報とを含むイベント情報が記憶された記憶部と、前記センサ部によるセンシング結果に基づいて、前記記憶部から前記イベント情報を索出して、前記イベント情報に含まれる前記空間情報を取得する制御部と、を備える。
 実施形態の一態様によれば、所定の環境下において一部の情報から特定のイベントを認識できる。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。さらに、本明細書に記載される効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
本開示の一実施形態による情報処理システムの学習フェーズの概要を示す図である。 本開示の一実施形態による情報処理システムの想起フェーズの概要を示す図である。 本開示の一実施形態による情報処理装置の構成例を示すブロック図である。 本開示の一実施形態による音声特徴の抽出および特徴量を示す図である。 本開示の一実施形態による学習フェーズの画像列を示す図である。 本開示の一実施形態による物体領域のマスク処理を示す図である。 本開示の一実施形態による物体特徴の抽出を示す図である。 本開示の一実施形態による物体特徴の特徴量を示す図である。 本開示の一実施形態によるイベント特徴データの具体例を示す図である。 本開示の一実施形態によるイベントDBの具体例を示す図である。 本開示の一実施形態による更新後のイベント特徴データの具体例を示す図である。 本開示の一実施形態による情報処理装置が実行する情報処理方法の一例を示すフローチャートである。 本開示の一実施形態による情報処理装置の初期設定の例を説明するための図である。 本開示の一実施形態による情報処理装置の初期設定の例を説明するための図である。 本開示の変形例によるイベントDBの具体例を示す図である。 本開示の変形例による情報処理方法の具体例を示す図である。 本開示の変形例による情報処理装置の位置の具体例を示す図である。 本開示の変形例による情報処理装置の移動の具体例を示す図である。 変形例による情報処理装置の模式図である。 本開示の情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
 以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。
(一実施形態)
[一実施形態によるシステムの構成]
 まず、本開示の一実施形態の概要について説明する。上述したように、近年、例えばペット型ロボットなどの移動型ロボットによって、住宅内やデバイス周辺などの所定の環境情報を認識する技術が開発されている。
 一方、住宅などの環境においては、それぞれの環境によって視覚的な情報が大きく異なっている上に、時々刻々と変化する。すなわち、住宅などの所定の環境での日常的なイベントの認識は、それぞれの環境での差異が大きく、環境ごとにイベントの特徴が異なる。そのため、移動型ロボットは、それぞれの環境ごとにイベントを学習する必要がある。さらに、上述した移動型ロボットが観測可能な空間は、その時々で部分的になる。すなわち、移動型ロボットは、その時々でセンサが観測する空間が異なるため、複数のセンサの入力から特徴を統合して、観測が不完全であったとしても、不完全な情報を補完してイベントを認識する必要がある。そのため、住宅内の環境の差異もしくは変化、または視覚的なオクルージョンに左右されない認識システムが求められていた。
 そこで、本開示においては、複数のセンサからの入力に基づいて得られるイベント特徴データとイベントメタ情報とによって日常のイベントを定義して、3次元的にマッピングする。これにより、住宅H内などの所定の環境の差異や、視覚的なオクルージョンに対して、より高い頑健性を有するイベントの認識処理が可能になる。ここで、イベント特徴データは、イベントの事象自体を特徴づける視覚的情報および聴覚的情報である。具体的にイベント特徴データは、物体の特徴量を示す物体特徴データ、および音声の特徴量を示す音声特徴データを含む。イベントメタ情報は、空間情報としての所定の位置を示す位置情報を含む。
 まず、本実施形態による情報処理装置の学習フェーズについて説明する。図1は、本実施形態による情報処理装置の学習フェーズの概要の一例を示す図である。図1に示すように、本実施形態による情報処理装置1は、住宅Hなどの所定エリアの環境下に存在する。なお、以下において、情報処理装置1がペット型ロボットである場合について説明するが、情報処理装置1は、ペット型ロボットに代えて、人型ロボットやドローンなどであってもよい。
 図1の例において、情報処理装置1は、例えばペットの形状の筐体を備えたペット型ロボットであり、住宅H内を移動可能である。ペット型ロボットとしての情報処理装置1は、住宅H内の環境情報をセンシングするセンサの検出結果に基づいて、住宅H内のイベントを学習する。なお、図1に示す例においては、イベントとして、人の来訪、具体的には男性の帰宅を学習する場合について記載しているが、イベントは必ずしも上述した住宅Hへの人の来訪に限定されず、種々のイベントを検出可能である。具体的な詳細は後述するが、情報処理装置1は、センサ部2を備え、所定エリアの環境情報をセンシング可能である。具体的に、情報処理装置1は、マイクセンサ21およびカメラセンサ22を備える。情報処理装置1は、マイクセンサ21によって集音したセンシング結果の一部としての音声データや、カメラセンサ22によって撮像したセンシング結果の一部としての映像データに基づいて、住宅H内のイベントをセンシングする。
 図1に示す例においては、住宅Hに住人の男性が帰宅した場合に、マイクセンサ21によって音声データを取得するとともに、カメラセンサ22によって映像データを取得する。なお、映像データは、複数の画像データから構成されるデータであるため、映像データは画像データの概念を含む。情報処理装置1は、音声データと映像データとの相間関係を学習してイベント特徴データにする。これとともに、情報処理装置1は、学習したイベント特徴データが得られた場所をマッピングして、空間情報としての3次元の位置情報を含むイベントメタ情報として学習する。図1に示す例においては、住宅H内の玄関のドアDの位置情報が、学習したイベント特徴データの発生した位置としてマッピングされ、イベントメタ情報とされる。
 図2は、本実施形態による情報処理装置の想起フェーズの概要の一例を示す図である。図2に示すように、情報処理装置1は、マイクセンサ21によって音声データを取得した場合に、取得した音声データに基づいてイベント特徴データを索出し、関連するイベントメタ情報に含まれる位置情報を索出する。図2に示す例においては、まず、マイクセンサ21が取得した例えば男性の足音およびドアDが開く音の音声データに基づいて、音声特徴データ「EA0011」が索出される。音声特徴データ「EA0011」が索出されると、関連したイベント特徴ID「E001」およびイベントメタ情報「EM001」を索出できる。情報処理装置1は、後述する駆動機構によって、索出したイベントメタ情報「EM001」に含まれる位置情報の場所まで移動する。これによって、ペット型ロボットである情報処理装置1は、過去に発生したイベントに基づいて、現在発生した同様のイベントの発生場所に、自動で移動することができる。
 また、情報処理装置1は、上述した学習フェーズにおいて、音声データと映像データとを同時に取得した場合に、イベントDBを逐次更新することによって、イベント情報を徐々に洗練させることができる。したがって、情報処理装置1によれば、ユーザが詳細なイベント情報を予め設定しておく必要が無く、簡易な操作でイベント情報を最適化でき、イベント情報の最適化を容易にできる。
[実施形態による情報処理装置の構成]
 次に、一実施形態による情報処理装置1の構成例について説明する。図3は、本実施形態による情報処理装置1の構成例を示すブロック図である。図2に示すように、情報処理装置1は、センサ部2、通信部3、記憶部4、および制御部5を備える。
 センサ部2は、所定エリア(住宅H内)における環境情報をセンシングするセンサを有する。図2に示す例において、センサ部2は、マイクセンサ21、カメラセンサ22、およびデプスセンサ23を備える。マイクセンサ21は、周囲の音を収音し、アンプおよびADC(Analog Digital Converter)を介してデジタル信号に変換した音声データを出力する装置である。すなわち、マイクセンサ21は、例えばマイクロフォンなどの音声入力可能なセンサを想定する。カメラセンサ22は、RGBカメラなどの、レンズ系、および撮像素子を有し、画像(静止画像または動画像)を撮像する撮像装置である。カメラセンサ22が取得する情報、すなわち入力は、単色または複数の色情報を有する映像であると想定する。デプスセンサ23は、赤外線測距装置、超音波測距装置、LiDAR(Laser Imaging Detection and Ranging)、またはステレオカメラなどの深度情報を取得する装置である。すなわち、デプスセンサ23は、被写体までの距離を測定する、いわゆる3Dセンサである。なお、情報処理装置1は、情報処理装置1とは別に設けられたセンサ部2から所定エリアのセンシング結果を取得することにしてもよい。
 通信部3は、通信可能な他の装置と所定のネットワークを介してデータを送受信する通信モジュールである。通信部3は、受信部31および送信部32を備える。受信部31は、他の装置から所定の情報を受信して制御部5に出力する。送信部32はネットワークを介して所定の情報を他の装置に送信する。
 記憶部4は、少なくともイベント情報を記録するための記憶装置である。記憶部4は、音声特徴データベース(DB)41、物体マスクDB42、物体特徴DB43、イベントメタ情報DB44、イベント特徴DB45、イベントDB46、閾値DB47、および想起イベントメタ情報48が記憶される。
 音声特徴DBに格納される音声特徴データは、情報処理装置1が取得した音声データの特徴量に関する情報である。音声特徴データは、例えば、マイクセンサ21が取得した音声データに基づいて、後述する制御部5によって抽出された特徴量である。図4は、本実施形態に係る音声特徴データの具体例を示す図である。図4に示すように、記憶部4には、マイクセンサ21が取得した音声データ200から所定の特徴量が抽出された音声特徴データ210が、音声特徴DB41に格納される。なお、以下の説明においては、音声特徴データを「EA0015」などと抽象化して示すが、音声特徴データとしての「EA0015」などは、図4に示すような具体的な音声特徴データである。
 図3に戻り、物体マスクDB42に格納される物体マスク情報は、カメラセンサ22による取得された映像データに対して、物体の領域を推定するための物体マスクの情報である。物体マスク情報は、物体の検出基準となる情報である。図5Aは、本実施形態による画像列の具体例を示す図であり、図5Bおよび図5Cは、図5Aにおける画像データ100の画像列に含まれる物体101を検出して、物体が存在する領域を推定することで得られる物体マスク情報の具体例である。図3に示す記憶部4には、図5Cに示す各種の物体マスク情報が格納される。図5Dは、記憶部4の物体マスクDB42に格納されたそれぞれの物体マスク情報に基づいて抽出された、それぞれの物体の特徴量である物体特徴データを示す図である。なお、図5Cに示す物体マスク情報から得られたそれぞれの物体特徴データは、以下の説明において「EB001」などと抽象化して示すが、物体特徴データ「EB001」などは、図5Dに示す具体的な物体特徴データである。具体的な物体特徴データは、例えば256次元のベクトルデータなどである。これらの物体特徴データは、図3に示す記憶部4の物体特徴DB43に格納される。
 また、図6は、イベント特徴データの一例を示す図である。図6に示すように、イベント特徴データは、イベント特徴IDに紐付けされた物体特徴データおよび音声特徴データを含む。物体特徴データは、図3に示す記憶部4のイベント特徴DB45に格納される。
 また、イベントメタ情報は、少なくとも2次元または3次元の位置情報を含む。イベントメタ情報は、時刻情報を含んでいてもよい。本実施形態においてイベントメタ情報は、所定のイベントに関連した位置情報および時刻情報を含むメタ情報である。イベントメタ情報はさらに、移動型ロボットの行動に必要な情報を含んでいてもよい。移動型ロボットの行動に必要な情報とは、例えば、イベントに関する、カテゴリ情報、発生頻度情報や、発生日時情報などである。
 イベント特徴DB45は、上述した音声特徴データと物体特徴データとが互いに関連付けられて、イベント特徴データとして格納されたデータベースである。図6は、イベント特徴データの具体例を示す図である。図6に示すように、イベント特徴データは、互いに関連付けられた物体特徴データと音声特徴データとが、イベント特徴IDに関連付けられて構成されたデータである。図6に示す例においては、物体特徴データ「EB003」,「EB005」(図5C,図5D参照)と、これに関連した音声特徴データ「EA0015」(図4参照)とが、イベント特徴ID「E001」に関連付けされて構成されている。
 さらに、イベントDB46は、上述したイベント特徴データとイベントメタ情報とが互いに関連付けられて、イベント情報として格納されたデータベースである。図7は、イベント情報の具体例を示す図である。図7に示すように、イベント情報は、互いに関連付けられたイベント特徴IDとイベントメタ情報とが、イベントIDに関連付けられて構成されたデータである。図7に示す例においては、イベント特徴ID「EM001」と、これに関連したイベントメタ情報「EM001」とが、イベントID「001」を付されて、イベント情報が構成されている。また、イベント特徴ID「EM002」と、これに関連したイベントメタ情報「EM002」とが、イベントID「002」を付されて、イベント情報が構成されている。
 閾値DB47は、マイクセンサ21が取得した音声データとカメラセンサ22が取得した映像データとの間の一致度を判定するための閾値の情報を含む。この一致度の閾値は、本明細書において一致閾値といい、音声データから得られる音声特徴データと、映像データから得られる物体特徴データとの一致度に関する閾値である。また、一致閾値は、学習フェーズに入るか否かを決定するための閾値の情報であり、換言すると、登録すべきイベントであるか否かを判断するための閾値である。入力された音声データや映像データが一致閾値を超えた場合に学習フェーズに入り、一致閾値以下の場合に想起フェーズに入る。ここで、学習フェーズとは、制御部5が行う登録処理または更新処理によって、イベントDB46が変更される処理である。想起フェーズとは、所定の条件下において、制御部5によってイベントDB46から所定のイベント情報に含まれるイベントメタ情報を出力する処理である。
 閾値DB47は、音声特徴DB41に登録された音声特徴データと、マイクセンサ21が取得した音声データとの類似度を判定するための閾値の情報を含む。また、閾値DB47は、物体特徴DB43に登録された物体特徴データと、カメラセンサ22が取得した映像データとの類似度を判定するための閾値の情報を含む。これらの閾値は、本明細書において想起閾値という。換言すると想起閾値は、イベントDB46に格納されているイベント情報の中に、入力された音声データや映像データの特徴量と類似する音声特徴データや物体特徴データを含んだイベント特徴データが存在するか否かを判定する閾値である。
 想起イベントメタ情報48は、イベントDB46から索出されたイベント情報に含まれるイベントメタ情報である。情報処理装置1は、想起イベントメタ情報48に基づいて行動計画を行う。
 次に、制御部5について説明する。制御部5は、情報処理装置1が備える各構成を制御する機能を有する。図3に示すように、制御部5は、音声特徴抽出部51、物体領域推定部52、物体特徴抽出部53、音源物体推定部54、空間位置情報取得部55、時刻情報取得部56、学習想起部57、および行動計画制御部58を備える。
 音声特徴抽出部51は、マイクセンサ21から入力された音声データを抽象度の高い特徴量を抽出して、音声特徴データに変換する。ここで、音声データから音声特徴データへの変換処理は、例えばフーリエ変換処理などの技術によって実現可能である。
 物体領域推定部52は、カメラセンサ22が取得した図5Aに示す映像データに含まれる複数の画像データ100に対して、図5Bに示すように物体101の存在する領域を推定し、物体101の領域を示す物体マスク情報を出力する。これにより、図5Cに示すように、画像データ100に含まれる個々の物体101が区別されて、それぞれの物体マスク情報が記憶部4に格納される。物体特徴抽出部53は、入力された映像データに含まれる複数の画像データ100と、物体マスク情報とから、それぞれの物体101の領域を特定する。物体特徴抽出部53は特定した物体101の領域から、図5Dに示すように、それぞれの物体101の領域ごとに抽象度の高い特徴量を抽出して、物体特徴データに変換する。物体特徴抽出部53は、記憶部4に格納される。なお、物体101の領域の特定や物体特徴データへの変換の処理は既存の技術によって実現可能である。
 図3に戻り、音源物体推定部54は、音声特徴抽出部51によって得られた音声特徴データと、物体特徴抽出部53によって得られたそれぞれの物体特徴データとの間における一致度を計算する。音源物体推定部54は、音源物体推定部54は、一致度の計算に基づいて、音声特徴抽出部51によって検出された音声データの発生源、すなわち音源となっている物体101を推定する。具体的に、音源物体推定部54は、例えば、音声データについてMUSIC(Multiple Signal Classification)法などの各種方位演算アルゴリズムを用いることで、音源の発生する方位を推定して、音源となる物体の位置を推定する。音源物体推定部54は、一致度が高いと推定される物体特徴データと音声特徴データとを関連付けして、イベント特徴データとして出力する。音声特徴データと物体特徴データとの間における一致度の計算方法としては、例えば、物体特徴データと音声特徴データとの内積計算による方法が挙げられるが、必ずしも限定されない。音声特徴データと物体特徴データとの間における一致度の計算は、例えば機械学習によって得られたニューラルネットワークによって実行することも可能である。ここで、図5Cおよび図6に示す例では、イベント特徴データは、イベント特徴ID「E001」が付され、物体特徴データ「EB003」、「EB005」と、音声特徴データ「EA0015」とが関連付けられている。
 以上のマイクセンサ21、カメラセンサ22、音声特徴抽出部51、物体領域推定部52、物体特徴抽出部53、音源物体推定部54、音声特徴DB41、物体マスクDB42、および物体特徴DB43は、特徴抽出部70を構成する。特徴抽出部70は、総じて、入力された音声データおよび映像データなどの各種データからイベント特徴データを抽出する。一方で特徴抽出部70は、物体特徴データと音声特徴データとの一致度を計算して、映像データ内に音源となる物体が含まれているか否かを計算する。
 空間位置情報取得部55は、デプスセンサ23によって検出される深度情報に基づいて、所定エリア(住宅H内)のマップを作成し、イベントメタ情報のベースとなるマップ情報として記憶部4に記憶する。空間位置情報取得部55は、SLAM(Simulation Localization and Mapping)によってマップ情報を生成することが可能である。なお、空間位置情報取得部55は、住宅H内の家具の配置換えなどが行われることを想定して、所定の周期でマップ情報を更新してもよく、情報処理装置1の移動ごとにマップを毎回生成してもよい。また、情報処理装置1は、他の装置で生成されたマップをマップ情報として記憶してもよい。空間位置情報取得部55は、デプスセンサ23によって得られた深度情報を記憶部4に格納されたマップ情報と比較することにより、特定の位置情報を算出できる。空間位置情報取得部55によって、所定の位置情報を取得する方法としては、以下の処理を挙げることができる。すなわち、例えばGPS(Global Positioning System)システムのような、測位システムを利用して地球上の座標情報を取得する処理や、例えばVisualSLAMのような、映像データを利用して所定の起点からの相対位置を取得する自己位置推定の処理である。
 時刻情報取得部56は、例えば時計などの計時機構や、所定のネットワークを介して時刻情報を出力するサーバからの時刻情報を受信する時刻情報受信機構である。
 空間位置情報取得部55は、観測したイベントに関連付けられる位置情報を、イベントメタ情報の一部として出力する。イベントメタ情報は記憶部4のイベントメタ情報データベースに格納される。イベントメタ情報は、少なくともイベントの位置情報を含む。ここで、イベントの位置情報は、任意の位置を原点とした、2つ以上の数値による座標表現を指す。位置情報は、例えば環境のマップ内における所定の起点からの相対位置、すなわちワールド座標系でのXYZ位置や、GPS衛星から得られる世界測地系の座標情報などの空間情報で表すことができる。また、時刻情報取得部56が取得した時刻情報を、イベントが発生した時刻の時刻情報として、空間位置情報取得部55が算出した位置情報と関連付けてイベントメタ情報の一部としてもよい。
 以上のデプスセンサ23、空間位置情報取得部55、時刻情報取得部56、およびイベントメタ情報DB44は、イベントメタ情報取得部80を構成する。イベントメタ情報取得部80は、総じて、デプスセンサ23からの入力に基づいて、イベント情報の索出や移動型ロボットの行動に必要な情報をイベントメタ情報として出力して、記憶部4に格納する。
 生成部の一部としての学習想起部57は、特徴抽出部70によって得られたイベント特徴データと、イベントメタ情報取得部80によって得られたイベントメタ情報とを関連付けて、イベント情報を生成し、記憶部4のイベントDB46に格納する。なお、本実施形態においてイベント特徴データがイベント特徴DB45に格納され、イベント情報がイベントDB46に格納されているが、必ずしもこれに限定されない。すなわち、データベースを用いる代わりに、ボルツマンマシンや自己組織化マップのような特定入力から関連する情報を出力可能なシステムを用いてもよい。
 学習想起部57は、特徴抽出部70から出力されたイベント特徴データと、閾値DB47に格納された一致閾値や想起閾値とに基づいて、イベント情報に対する登録処理、更新処理、または想起処理のいずれを実行するかを判定する。
 以上の学習想起部57、イベント特徴DB45、イベントDB46、および閾値DB47によって、イベントメモリ部90が構成される。イベントメモリ部90は、総じて、イベント情報に対して、登録、更新、または想起のいずれかの処理を選択する一方、イベント情報を生成して記憶部4に格納する。
 行動計画制御部58は、センサ部2が取得した情報と、記憶部4に格納された各種データに基づいて、情報処理装置1が行う行動を計画する機能を有する。本実施形態による行動計画制御部58は、まず、マイクセンサ21が取得した音声データから、当該音声データに対応した、イベントメタ情報DB44に格納されたイベントメタ情報を索出する。行動計画制御部58は、続いて、索出したイベントメタ情報に含まれる位置情報に基づいて、位置情報によって指定された位置まで移動する行動を実行する決定を行う。
 また、行動計画制御部58は、駆動部6の動作を制御する機能を有する。駆動部6は、情報処理装置1における物理的構成を駆動する機能を有する。駆動部6は、情報処理装置1の位置の移動を行うための機能を有する。駆動部6は、例えば、モータ61により駆動するアクチュエータである。行動計画制御部58は、例えば、上述した行動計画に基づいて、駆動部6のモータ61を制御して、駆動部6に設けられた各関節部が備えるアクチュエータを駆動させる。なお、駆動部6は、情報処理装置1が所望の動作を実現可能であれば、どのような構成であってもよい。駆動部6は、情報処理装置1の位置の移動などを実現可能であれば、どのような構成であってもよい。情報処理装置1がキャタピラやタイヤなどの移動機構を有する場合、駆動部6は、キャタピラやタイヤなどを駆動する。駆動部6はさらに、移動型ロボットの制御に必要な、例えばGPS受信部や加速度センサなどのセンサを含んでいてもよい。
[実施形態による情報処理方法]
 次に、本実施形態による情報処理装置1が実行する処理手順について説明する。図9は、実施形態に係る情報処理装置1が実行する処理手順を示すフローチャートである。
 図9に示すように、まず、ステップST1において、情報処理装置1の特徴抽出部70によってイベント特徴を取得する。具体的に、まず、マイクセンサ21が音声データを取得するとともに、カメラセンサ22が映像データを取得する。なお、カメラセンサ22は、映像データを取得する代わりに複数の画像データを取得してもよい。制御部5の音声特徴抽出部51は、取得した音声データから音声特徴データを抽出して音声特徴DB41に格納する。物体領域推定部52および物体特徴抽出部53は、映像データから物体マスクデータを用いて物体特徴データを抽出し、物体特徴DB43に格納する。音源物体推定部54は、音声特徴データと物体特徴データとから、取得した音声データの音源となる物体を推定する。音声特徴データと物体特徴データとが組み合わせられて、イベント特徴データが生成される。なお、音声データが得られなかったり、映像データから物体特徴データが抽出できなかったりした場合、イベント特徴データは、音声特徴データのみ、または物体特徴データのみから構成される場合もある。また、イベント特徴データの生成と並行して、イベントメタ情報取得部80によって、音声データおよび映像データを取得した場所におけるイベントメタ情報が生成され、イベントメタ情報DB44に格納される。
 次に、ステップST2に移行すると、情報処理装置1のイベントメモリ部90は、生成されたイベント特徴データが、一致閾値を超えているか否かを判定する。具体的に、まず、音源物体推定部54がイベント特徴データに含まれる音声特徴データと物体特徴データとの間の一致度を計算して、学習想起部57に出力する。学習想起部57が、入力された一致度は一致閾値を超えていると判定した場合(ステップST2:Yes)、ステップST3に移行する。音声特徴データと物体特徴データとの一致度が高い場合には、マイクセンサ21によって音声データを取得するのと略同時に、当該音声データを出力した物体をカメラセンサ22によって撮像していることになる。この場合、上述したように、情報処理装置1の処理は学習フェーズに入る。
 次に、学習フェーズとしてのステップST3において、情報処理装置1の制御部5は、イベント特徴データに基づいてイベントを想起する。具体的に、制御部5の学習想起部57は、取得したイベント特徴データに基づいて、イベントDB46に格納されたイベント情報を索出する。イベントDB46には、例えば図7に示すようなイベントIDに関連付けされたイベント特徴IDとイベントメタ情報とが格納されている。
 続いてステップST4に移行して学習想起部57は、取得したイベント特徴データに対する類似度が、所定の想起閾値を超えたイベント特徴データを有するイベント情報が存在するか否かを判定する。なお、学習想起部57は、イベント特徴データに関する類似度の閾値以外にも、イベントメタ情報に含まれる他の情報に基づいた閾値や、発生頻度や発生日時に基づいた閾値を、類似度に関する想起閾値として用いてもよい。学習想起部57が、所定の想起閾値を超えたイベント特徴データを含むイベント情報が存在すると判定した場合(ステップST4:Yes)、ステップST5に移行する。なお、索出されたイベント情報に含まれるイベント特徴データが、図6に示すイベント特徴ID「E001」のイベント特徴データであるとして説明する。
 ステップST5において学習想起部57は、索出したイベント特徴データの更新を行う。具体的に、学習想起部57は、索出したイベント情報に含まれるイベント特徴データを、取得したイベント特徴データに更新する。すなわち、例えばイベント特徴IDが「E001」のイベント特徴データのうち、音声特徴データが、図6に示す音声特徴データ「EA0015」から図8に示す音声特徴データ「EA0024」に更新される。なお、必要に応じて、物体特徴データを更新してもよい。更新したイベント特徴ID「E001」のイベント特徴データは、図7に示すイベントID「001」に格納されて、イベント情報が更新される。以上により、情報処理装置1が実行する学習フェーズが終了する。
 また、ステップST4において学習想起部57が、所定の想起閾値を超えたイベント特徴データを含むイベント情報が存在しないと判定した場合(ステップST4:No)、ステップST6に移行する。ステップST6において制御部5は、イベントの登録を行う。具体的に学習想起部57は、特徴抽出部70から出力された音声特徴データと物体特徴データとから、イベント特徴データを生成する。一方で、学習想起部57は、イベントメタ情報取得部80から出力されたイベントメタ情報を取得する。学習想起部57は、イベント特徴データとイベントメタ情報とを関連付けて、イベントIDを付して、イベントDB46に格納する。以上により、情報処理装置1が実行する学習フェーズが終了する。
 また、ステップST2において学習想起部57が、計算した一致度は一致閾値以下であると判定した場合(ステップST2:No)、ステップST7に移行する。音声特徴データと物体特徴データとの一致度が一致閾値以下の場合には、マイクセンサ21によって音声データを取得した時点では、当該音声データを出力した物体はカメラセンサ22によって撮像されていないことになる。この場合、上述したように、情報処理装置1の処理は想起フェーズに入る。
 次に、想起フェーズとしてのステップST7において、情報処理装置1の制御部5は、音声特徴データに基づいてイベントを想起する。具体的に、制御部5の学習想起部57は、取得した音声特徴データに基づいて、イベントDB46に格納されたイベント情報を索出する。なお、学習想起部57は、取得した物体特徴データに基づいてイベント情報を索出してもよい。イベントDB46には、例えば図7に示すようなイベントIDに関連付けされたイベント特徴IDとイベントメタ情報とが格納されている。
 続いて、ステップST8において学習想起部57は、索出したイベント情報に含まれる音声特徴データと、取得した音声特徴データとの類似度が、所定の想起閾値を超えたイベント情報が存在するか否かを判定する。学習想起部57が、取得した音声特徴データとの類似度が想起閾値を超えた音声特徴データを含む、イベント情報が存在すると判定した場合(ステップST8:Yes)、ステップST9に移行する。以下の説明では、例えば取得した音声特徴データが「EA0015」である場合を例にする。
 ステップST9において制御部5は、該当するイベントのイベントメタ情報を出力する。具体的に、学習想起部57は、まず音声特徴データ「EA0015」を含むイベント特徴データ「E001」(図6参照)を索出し、図7に示すイベントID「001」のイベント情報を索出する。次に、学習想起部57は、索出したイベントID「001」のイベント情報に含まれるイベントメタ情報「EM001」を読み出す。学習想起部57は、読み出したイベントメタ情報「EM001」を想起イベントメタ情報48として、行動計画制御部58に出力する。以上により、情報処理装置1が実行する想起フェーズが終了する。
 想起イベントメタ情報48が入力された行動計画制御部58は、想起イベントメタ情報48に含まれる位置情報に基づいた行動計画を実行して、駆動部6を制御する。その結果、情報処理装置1は、想起イベントメタ情報48に含まれる位置情報に示す場所に移動する。
 他方、ステップST8において、学習想起部57が、取得した音声特徴データとの類似度が想起閾値を超えた音声特徴データを含む、イベント情報が存在しないと判定した場合(ステップST8:No)、情報処理装置1が実行する想起フェーズが終了する。
[実施例]
 次に、実施形態による情報処理装置1の具体的な実施例について説明する。本実施例においては、住宅Hに夫や父親が帰宅した場合を例に説明する。まず、事前の準備として、図10に示すように、情報処理装置1の空間位置情報取得部55が、デプスセンサ23によって検出される深度情報に基づいて、例えばVisualSLAMによって、所定エリア(住宅H内)のマップを作成する。この場合、音声を発する例えばドアDの位置などもマップ情報に含められる。作成したマップは、イベントメタ情報のベースとなるマップ情報として、記憶部4のイベントメタ情報DB44に記憶される。これにより、情報処理装置1は、常に起点からの自らの位置を推定することが可能になる。
 また、図11に示すように、情報処理装置1の物体特徴抽出部53が、カメラセンサ22によって住宅Hの住人などの人物や物体を検出する。検出された物体102,103,104は、物体特徴データに変換されて記憶部4の物体特徴DBに格納される。物体特徴抽出部53による物体の検出や識別は、ブースティング法、ニューラルネットワーク、隠れマルコフモデル(Hidden Markov Model:HMM)法などの公知の機械学習やパターン認識技術を利用して実現できる。
 その後、図1に示すように、住宅Hの住人が外から帰宅して玄関のドアDを開ける際に、ドアDにおいて音声が発生する。音声は例えば、玄関のドアDの開閉音や帰宅した住人の発する声などである。情報処理装置1は、ドアDにおいて発生した音声を音声データとして取得する。住人がドアDを開けた時点で略同時に、情報処理装置1が音声の発生状況を映像データとして撮像可能な場合、制御部5は映像データと音声データとの一致度が高いと判定する。この場合、情報処理装置1の処理は、上述した学習フェーズに移行する。
 一方、図2に示すように、住人が玄関のドアDを開けた時点で、情報処理装置1が音声の発生状況を映像データとして撮像不能な場合がある。この場合、情報処理装置1は、情報処理装置1の制御部5は、映像データと音声データとの一致度が低いと判定して、想起フェーズに移行する。想起フェーズに移行すると、情報処理装置1は、入力された音声データに基づいて、イベント情報を索出して、想起イベントメタ情報48を読み出す。情報処理装置1は、読み出した想起イベントメタ情報48に基づいて行動計画を実行して、想起イベントメタ情報48に含まれる位置情報の示す位置まで移動する。これにより、情報処理装置1が、発生した音声に反応して帰宅した住人を出迎える状況を演出できる。
 本実施例においては、情報処理装置1が取得した音声データに基づいて、同様の音声データを含むイベント情報を索出し、関連付けされたイベントメタ情報に基づいた位置に移動しているが、取得した映像データに基づいてもよい。例えば、雷の光を映像データとして取得した情報処理装置1が、同様の映像データに基づいた物体特徴データを含むイベント情報を索出し、関連付けされたイベントメタ情報に基づいた位置に移動するようにしてもよい。
 なお、上述したように、移動型ロボットからなる情報処理装置1は、イベントDB46に格納されていないイベント情報を新たに生成できるのは、互いに対応する音声データと映像データとを略同時に取得して学習フェーズに移行した場合に限られる。この場合、イベント情報を生成するのは偶然に依存してしまう。そこで、互いに関連する音声データと映像データとを同時に取得しやすくするために、種々の方法を採用することができる。上述した実施例において、例えば、玄関のドアDの位置がマッピングされていない場合などは、住人が所持する携帯端末装置にインストールされたアプリと携帯端末装置が備えるGPS情報とを連携させてもよい。まず、携帯端末装置のアプリによって、住人に移動型ロボットに関する情報を通知できたり、住人の位置情報を移動型ロボットに送信できたりするように設定する。そして、住人が住宅Hに近づいたら、移動型ロボットをランダムな場所まで移動させて待機するように制御する。また、住宅Hに住人がいない状況の場合、その都度、異なる場所で待機するようにしてもよい。また、マイクセンサ21に対してビームフォーミングを利用して、音が鳴った方向に移動する行動計画を追加しておいてもよい。さらに、携帯端末装置のアプリによって、外出していない住人に帰宅する住人を、移動型ロボットと一緒に出迎えるように仕向けてもよい。
[変形例]
 次に、上述した実施例の変形例について説明する。図12は、本開示の変形例によるイベントDBの具体例を示す図である。図13Aと、図13Bおよび図13Cとはそれぞれ、本開示の変形例による情報処理方法、および情報処理装置の移動の具体例を示す図である。ここで、変形例による情報処理装置1Aは、例えば家庭用電器(以下、家電)を操作する移動型ロボットである。
 図12に示すように、変形例においては、記憶部4のイベントDB46にそれぞれの家電の物体特徴データおよび音声特徴データのイベント特徴データが、それらの家電が配置された位置情報を含むイベントメタ情報と関連付けられて格納されている。図12に示す例では、例えば湯沸かし器、食器洗浄機、および電子レンジに対応してそれぞれ、イベントID「010」,「011」,「012」が設定されて、イベントDB46に格納されている。具体的に、例えば電子レンジは、イベントID「010」、イベント特徴ID「E012」、物体特徴データ「EB012」、音声特徴データ「EA0050」、イベントメタ情報「EM012」が互いに関連付けられて、イベントDB46に格納されている。
 以上のように情報処理装置1Aの記憶部4にイベント情報が格納された状態で、図13Aに示すように、例えば家電が発した情報処理装置1Aが取得する。情報処理装置1Aは、取得した音声データから音声特徴データを抽出して、抽出した音声特徴データとの類似度が高い音声特徴データを索出し、当該音声特徴データに関連付けられたイベントメタ情報を索出する。図13Aに示す例では、取得し抽出した音声特徴データとの類似度が高い音声特徴データ「EA0050」を索出して、関連付けられたイベントメタ情報「EM012」を索出する。これにより、情報処理装置1Aは家電である電子レンジの位置を認識できる。情報処理装置1Aは、索出したイベントメタ情報「EM012」に含まれる位置情報に基づいて、図13Bに示す位置から図13Cに示す位置まで移動して、家電の操作を行う。
[変形例の概要]
 ところで、上述した実施形態では、情報処理装置1,1Aは、所定エリア(住宅H)に配置される場合について説明したが、これに限定されるものではない。例えば、情報処理装置1をサーバ装置として構成することも可能である。
 図14は、変形例に係る情報処理装置300の模式図である。なお、図14では、情報処理装置300を簡略化して示す。図14に示すように、変形例による情報処理装置300は、サーバ装置であって、イベントメタ情報DB144、イベント特徴DB145、およびイベントDB146を備える。
 情報処理装置300は、例えば、ペット型ロボット400から送信される環境情報のセンシング結果として、音声データおよび映像データを受信する。ペット型ロボット400は、センサ部2と、入力された位置情報で指定された位置まで移動可能な駆動部6と、駆動部6を駆動させる駆動制御部とを備える。情報処理装置300は、イベントメタ情報DBに格納されたイベントメタ情報と、イベント特徴DB145に格納されたイベント特徴データとに基づいて、ペット型ロボット400の行動を制御する。情報処理装置300は、受信した音声データまたは映像データに基づいて、ペット型ロボット400が移動すべき位置情報を送信する。位置情報を受信したペット型ロボット400は、受信した位置情報の含まれる位置まで移動する。なお、情報処理装置300が、ペット型ロボット400からセンシング結果を受信する場合について説明したが、必ずしもこれに限定されない。
 さらに、情報処理装置300とユーザが所持する携帯端末装置500とを通信可能にして、携帯端末装置500によって、ペット型ロボット400の移動を制御可能にしても良い。
[その他の変形例]
 ところで、上述した実施形態では、所定エリアを住宅Hとして説明したが、これに限定されるものではなく、任意のエリアを所定エリアとして設定することが可能である。
 上述した各実施形態に係る情報処理装置、HMD、コントローラ等の情報機器は、例えば図15に示すような構成のコンピュータ1000によって実現される。以下、実施形態に係る情報処理装置1を例に挙げて説明する。図15は、情報処理装置1の機能を実現するコンピュータ1000の一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM(Read Only Memory)1300、HDD(Hard Disk Drive)1400、通信インターフェイス1500、および入出力インターフェイス1600を有する。コンピュータ1000の各部は、バス1050によって接続される。
 CPU1100は、ROM1300またはHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、CPU1100は、ROM1300またはHDD1400に格納されたプログラムをRAM1200に展開し、各種プログラムに対応した処理を実行する。
 ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるBIOS(Basic Input Output System)等のブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
 HDD1400は、CPU1100によって実行されるプログラム、および、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、HDD1400は、プログラムデータ1450の一例である本開示に係るプログラムを記録する記録媒体である。
 通信インターフェイス1500は、コンピュータ1000が外部ネットワーク1550(例えばインターネット)と接続するためのインターフェイスである。例えば、CPU1100は、通信インターフェイス1500を介して、他の機器からデータを受信したり、CPU1100が生成したデータを他の機器へ送信したりする。
 入出力インターフェイス1600は、入出力デバイス1650とコンピュータ1000とを接続するためのインターフェイスである。例えば、CPU1100は、入出力インターフェイス1600を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、CPU1100は、入出力インターフェイス1600を介して、ディスプレイやスピーカやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェイス1600は、所定の記録媒体(メディア)に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
 例えば、コンピュータ1000が実施形態に係る情報処理装置1として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、空間位置情報取得部55等の機能を実現する。また、HDD1400には、本開示に係るプログラムや、記憶部4内のデータが格納される。なお、CPU1100は、プログラムデータ1450をHDD1400から読み取って実行するが、他の例として、外部ネットワーク1550を介して、他の装置からこれらのプログラムを取得してもよい。
 これまで、移動型ロボットなどの情報処理装置は、画像と音声の両方を空間情報と結び付けて想起できなかったり、入力される情報に制限があったりことによる、住宅H内などの環境での利用が困難であった。これに対し、以上説明した実施形態によれば、画像データと音声データとの両方を空間情報と結び付けて、それぞれ相互に想起可能な状態で記憶させることができる。これにより、音声データのみまたは映像データのみを取得することで、他の全ての情報、具体的には音声データ、画像データ、およびイベントメタ情報を索出し、移動型ロボットの行動制御に利用できる。また、移動型ロボットなどの情報処理装置1,1Aが、映像データを取得できない環境下であっても、音声データを取得可能な状況であれば、イベントが発生する場所に移動できる。同様に、移動型ロボットなどの情報処理装置1,1Aが、音声データを取得できない環境下であっても、映像データを取得可能な状況であれば、イベントの発生する場所に移動できる。さらに、音声データと映像データとを同時に取得できるタイミングで、イベント情報を登録したり持続的に更新したりしているので、情報処理装置1,1Aを環境の変化に対して頑健に動作させることができる。また、住宅H内の物体などの環境は時々刻々と変化することから、音声データと映像データとを同時に取得したタイミングで学習フェーズに移行することによって、次回以降も環境の変化に対応させて動作できる。
 なお、本技術は以下のような構成も取ることができる。
(1)
 所定エリアの環境情報をセンシングするセンサ部と、
 所定のイベントに関するイベント特徴データと、前記イベント特徴データに関連付けされた前記所定のイベントの空間情報を含むメタ情報とを含むイベント情報が記憶された記憶部と、
 前記センサ部によるセンシング結果に基づいて、前記記憶部から前記イベント情報を索出して、前記イベント情報に含まれる前記空間情報を取得する制御部と、
 を備える情報処理装置。
(2)
 前記制御部は、
 前記センサ部によってセンシングされたセンシング結果と、前記記憶部に記憶された前記イベント特徴データとの類似度を判定し、
 前記類似度が所定の想起閾値を超えた場合に、前記記憶部から前記想起閾値を超えたイベント特徴データを含むイベント情報を索出する
 前記(1)に記載の情報処理装置。
(3)
 前記イベント特徴データが、前記センサ部によってセンシング可能な物体から得られる物体特徴データと、前記センサ部によってセンシング可能な音声から得られる音声特徴データとを含む
 前記(1)または(2)に記載の情報処理装置。
(4)
 前記制御部は、
 前記センサ部によってセンシングされた音声から得られる音声特徴データに基づいて、前記音声特徴データとの類似度が所定の想起閾値を超えた音声特徴データを含むイベント情報を前記記憶部から索出する
 前記(3)に記載の情報処理装置。
(5)
 前記制御部は、
 前記センサ部によってセンシングされた物体から得られる物体特徴データに基づいて、前記物体特徴データとの類似度が所定の想起閾値を超えた物体特徴データを含むイベント情報を前記記憶部から索出する
 前記(3)に記載の情報処理装置。
(6)
 前記物体特徴データは、前記センサ部によってセンシングされた物体の特徴量であり、
 前記音声特徴データは、前記センサ部によってセンシングされた物体から発せられた音声の特徴量である
 前記(3)~(5)のいずれか1項に記載の情報処理装置。
(7)
 筐体を移動させる駆動部を備えた移動型ロボットを制御可能に構成され、
 前記制御部は、
 前記取得した空間情報に基づいて行動計画を行い、前記行動計画に従って前記移動型ロボットを行動させる制御を行う
 前記(1)~(6)のいずれか1項に記載の情報処理装置。
(8)
 移動型ロボットである
 前記(1)~(7)のいずれか1項に記載の情報処理装置。
(9)
 コンピュータが、
 所定エリアの環境情報をセンシングするセンサ部によるセンシング結果に基づいて、所定のイベントに関するイベント特徴データと、前記イベント特徴データに関連付けされた前記所定のイベントの空間情報を含むメタ情報とを含むイベント情報が記憶された記憶部から、前記イベント情報を索出して、前記イベント情報に含まれる前記空間情報を出力する
 情報処理方法。
(10)
 コンピュータを、
 所定エリアの環境情報をセンシングするセンサ部と、
 所定のイベントに関するイベント特徴データと、前記イベント特徴データに関連付けされた前記所定のイベントの空間情報を含むメタ情報とを含むイベント情報が記憶された記憶部と、
 前記センサ部によるセンシング結果に基づいて、前記記憶部から前記イベント情報を索出して、前記イベント情報に含まれる前記空間情報を出力する制御部と、
 として機能させる、プログラム。
(11)
 所定エリアの環境情報をセンシングするセンサ部と、
 前記センサ部によるセンシング結果に基づいて得られた所定のイベントに関するイベント特徴データと、前記センシング結果に基づいて得られた前記所定のイベントの空間情報を含むメタ情報とを、互いに関連付けてイベント情報を生成する生成部と、
 を備える情報処理装置。
(12)
 前記イベント特徴データは、前記センサ部によってセンシング可能な物体から得られる物体特徴データと、前記センサ部によってセンシング可能な音声から得られる音声特徴データとを含み、
 前記制御部は、
 前記センシング結果に基づいて得られた前記物体特徴データと前記音声特徴データとの一致度を判定し、
 前記一致度が所定の一致閾値を超えた場合に、前記生成部が前記イベント情報を生成する
 前記(10)に記載の情報処理装置。
(13)
 コンピュータが、
 所定エリアの環境情報をセンシングするセンサ部によるセンシング結果に基づいて得られた、所定のイベントに関するイベント特徴データと、前記センシング結果に基づいて得られた、前記所定のイベントの空間情報を含むメタ情報とを互いに関連付けてイベント情報を生成する
 情報処理方法。
(14)
 コンピュータを、
 所定エリアの環境情報をセンシングするセンサ部と、
 前記センサ部によるセンシング結果に基づいて得られた所定のイベントに関するイベント特徴データと、前記センシング結果に基づいて得られた前記所定のイベントの空間情報を含むメタ情報とを、互いに関連付けてイベント情報を生成する生成部と、
 として機能させる、プログラム。
  1,1A,300 情報処理装置
  2 センサ部
  3 通信部
  4 記憶部
  5 制御部
  6 駆動部
 21 マイクセンサ
 22 カメラセンサ
 23 デプスセンサ
 41 音声特徴DB
 42 物体マスクDB
 43 物体特徴DB
 44,144 イベントメタ情報DB
 45,145 イベント特徴DB
 46,146 イベントDB
 47 閾値DB
 48 想起イベントメタ情報
 51 音声特徴抽出部
 52 物体領域推定部
 53 物体特徴抽出部
 54 音源物体推定部
 55 空間位置情報取得部
 56 時刻情報取得部
 57 学習想起部
 58 行動計画制御部
 70 特徴抽出部
 80 イベントメタ情報取得部
 90 イベントメモリ部

Claims (13)

  1.  所定エリアの環境情報をセンシングするセンサ部と、
     所定のイベントに関するイベント特徴データと、前記イベント特徴データに関連付けされた前記所定のイベントの空間情報を含むメタ情報とを含むイベント情報が記憶された記憶部と、
     前記センサ部によるセンシング結果に基づいて、前記記憶部から前記イベント情報を索出して、前記イベント情報に含まれる前記空間情報を取得する制御部と、
     を備える情報処理装置。
  2.  前記制御部は、
     前記センサ部によってセンシングされたセンシング結果と、前記記憶部に記憶された前記イベント特徴データとの類似度を判定し、
     前記類似度が所定の想起閾値を超えた場合に、前記記憶部から前記想起閾値を超えたイベント特徴データを含むイベント情報を索出する
     請求項1に記載の情報処理装置。
  3.  前記イベント特徴データが、前記センサ部によってセンシング可能な物体から得られる物体特徴データと、前記センサ部によってセンシング可能な音声から得られる音声特徴データとを含む
     請求項1に記載の情報処理装置。
  4.  前記制御部は、
     前記センサ部によってセンシングされた音声から得られる音声特徴データに基づいて、前記音声特徴データとの類似度が所定の想起閾値を超えた音声特徴データを含むイベント情報を前記記憶部から索出する
     請求項3に記載の情報処理装置。
  5.  前記制御部は、
     前記センサ部によってセンシングされた物体から得られる物体特徴データに基づいて、前記物体特徴データとの類似度が所定の想起閾値を超えた物体特徴データを含むイベント情報を前記記憶部から索出する
     請求項3に記載の情報処理装置。
  6.  前記物体特徴データは、前記センサ部によってセンシングされた物体の特徴量であり、
     前記音声特徴データは、前記センサ部によってセンシングされた物体から発せられた音声の特徴量である
     請求項3に記載の情報処理装置。
  7.  筐体を移動させる駆動部を備えた移動型ロボットを制御可能に構成され、
     前記制御部は、
     前記取得した空間情報に基づいて行動計画を行い、前記行動計画に従って前記移動型ロボットを行動させる制御を行う
     請求項1に記載の情報処理装置。
  8.  移動型ロボットである
     請求項1に記載の情報処理装置。
  9.  コンピュータが、
     所定エリアの環境情報をセンシングするセンサ部によるセンシング結果に基づいて、所定のイベントに関するイベント特徴データと、前記イベント特徴データに関連付けされた前記所定のイベントの空間情報を含むメタ情報とを含むイベント情報が記憶された記憶部から、前記イベント情報を索出して、前記イベント情報に含まれる前記空間情報を出力する
     情報処理方法。
  10.  コンピュータを、
     所定エリアの環境情報をセンシングするセンサ部と、
     所定のイベントに関するイベント特徴データと、前記イベント特徴データに関連付けされた前記所定のイベントの空間情報を含むメタ情報とを含むイベント情報が記憶された記憶部と、
     前記センサ部によるセンシング結果に基づいて、前記記憶部から前記イベント情報を索出して、前記イベント情報に含まれる前記空間情報を出力する制御部と、
     として機能させる、プログラム。
  11.  所定エリアの環境情報をセンシングするセンサ部と、
     前記センサ部によるセンシング結果に基づいて得られた所定のイベントに関するイベント特徴データと、前記センシング結果に基づいて得られた前記所定のイベントの空間情報を含むメタ情報とを、互いに関連付けてイベント情報を生成する生成部と、
     を備える情報処理装置。
  12.  コンピュータが、
     所定エリアの環境情報をセンシングするセンサ部によるセンシング結果に基づいて得られた、所定のイベントに関するイベント特徴データと、前記センシング結果に基づいて得られた、前記所定のイベントの空間情報を含むメタ情報とを互いに関連付けてイベント情報を生成する
     情報処理方法。
  13.  コンピュータを、
     所定エリアの環境情報をセンシングするセンサ部と、
     前記センサ部によるセンシング結果に基づいて得られた所定のイベントに関するイベント特徴データと、前記センシング結果に基づいて得られた前記所定のイベントの空間情報を含むメタ情報とを、互いに関連付けてイベント情報を生成する生成部と、
     として機能させる、プログラム。
PCT/JP2020/027500 2019-09-17 2020-07-15 情報処理装置、情報処理方法、およびプログラム WO2021053949A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US17/641,784 US20240042619A1 (en) 2019-09-17 2020-07-15 Information processing apparatus, information processing method, and program
EP20864454.2A EP4032594A4 (en) 2019-09-17 2020-07-15 INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD AND PROGRAM
JP2021546525A JPWO2021053949A1 (ja) 2019-09-17 2020-07-15

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-168590 2019-09-17
JP2019168590 2019-09-17

Publications (1)

Publication Number Publication Date
WO2021053949A1 true WO2021053949A1 (ja) 2021-03-25

Family

ID=74884166

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/027500 WO2021053949A1 (ja) 2019-09-17 2020-07-15 情報処理装置、情報処理方法、およびプログラム

Country Status (4)

Country Link
US (1) US20240042619A1 (ja)
EP (1) EP4032594A4 (ja)
JP (1) JPWO2021053949A1 (ja)
WO (1) WO2021053949A1 (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09218955A (ja) 1996-02-14 1997-08-19 Hitachi Ltd 位置認識方法及び装置
WO2014167700A1 (ja) 2013-04-12 2014-10-16 株式会社日立製作所 移動ロボット、及び、音源位置推定システム
JP2018163293A (ja) * 2017-03-27 2018-10-18 シャープ株式会社 情報端末、情報端末の制御方法、および制御プログラム
JP2019010728A (ja) * 2016-03-28 2019-01-24 Groove X株式会社 お出迎え行動する自律行動型ロボット
US20190164218A1 (en) * 2016-07-13 2019-05-30 Sony Corporation Agent robot control system, agent robot system, agent robot control method, and storage medium
JP2019113696A (ja) * 2017-12-22 2019-07-11 カシオ計算機株式会社 発話タイミング判定装置、ロボット、発話タイミング判定方法及びプログラム
WO2019151387A1 (ja) * 2018-01-31 2019-08-08 Groove X株式会社 経験に基づいて行動する自律行動型ロボット

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09218955A (ja) 1996-02-14 1997-08-19 Hitachi Ltd 位置認識方法及び装置
WO2014167700A1 (ja) 2013-04-12 2014-10-16 株式会社日立製作所 移動ロボット、及び、音源位置推定システム
JP2019010728A (ja) * 2016-03-28 2019-01-24 Groove X株式会社 お出迎え行動する自律行動型ロボット
US20190164218A1 (en) * 2016-07-13 2019-05-30 Sony Corporation Agent robot control system, agent robot system, agent robot control method, and storage medium
JP2018163293A (ja) * 2017-03-27 2018-10-18 シャープ株式会社 情報端末、情報端末の制御方法、および制御プログラム
JP2019113696A (ja) * 2017-12-22 2019-07-11 カシオ計算機株式会社 発話タイミング判定装置、ロボット、発話タイミング判定方法及びプログラム
WO2019151387A1 (ja) * 2018-01-31 2019-08-08 Groove X株式会社 経験に基づいて行動する自律行動型ロボット

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP4032594A4

Also Published As

Publication number Publication date
EP4032594A4 (en) 2022-11-16
US20240042619A1 (en) 2024-02-08
EP4032594A1 (en) 2022-07-27
JPWO2021053949A1 (ja) 2021-03-25

Similar Documents

Publication Publication Date Title
KR102243179B1 (ko) 이동 로봇 및 그 제어방법
US20190080245A1 (en) Methods and Systems for Generation of a Knowledge Graph of an Object
US10049267B2 (en) Autonomous human-centric place recognition
JP2017045447A (ja) 地図生成方法、自己位置推定方法、ロボットシステム、およびロボット
JP7375748B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN109551476A (zh) 结合云服务系统的机器人系统
US20180200884A1 (en) Robot apparatus, methods and computer products
KR102024094B1 (ko) 인공지능을 이용한 이동 로봇 및 그 제어방법
CN109389641A (zh) 室内地图综合数据生成方法及室内重定位方法
KR20210029586A (ko) 이미지 내의 특징적 객체에 기반하여 슬램을 수행하는 방법 및 이를 구현하는 로봇과 클라우드 서버
JP6583450B2 (ja) 移動ロボットによる外観モデル維持のための事前対応的データ取得
US11055341B2 (en) Controlling method for artificial intelligence moving robot
JP2021536075A (ja) 拡充識別器を訓練するための装置および方法
AU2017256477A1 (en) Mobile robot, system for multiple mobile robots, and map learning method of mobile robot
US10339381B2 (en) Control apparatus, control system, and control method
JP6991317B2 (ja) 画像及び電波単語に基づく移動機器の改良された位置認識
WO2021053949A1 (ja) 情報処理装置、情報処理方法、およびプログラム
US20230147768A1 (en) Adaptive learning system for localizing and mapping user and object using an artificially intelligent machine
WO2020017111A1 (ja) エージェント、存在確率マップ作成方法、エージェントの行動制御方法、及びプログラム
KR20210095284A (ko) 사용자의 위치를 결정하는 시스템 및 방법
JP4569663B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP2005074562A (ja) ロボット装置、ロボット装置の制御方法、及び記録媒体
JP2005271137A (ja) ロボット装置及びその制御方法
US20220262225A1 (en) Information processing device, method, and program
Choi et al. A practical solution to SLAM and navigation in home environment

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20864454

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2021546525

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 17641784

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2020864454

Country of ref document: EP

Effective date: 20220419