WO2024071006A1 - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
WO2024071006A1
WO2024071006A1 PCT/JP2023/034642 JP2023034642W WO2024071006A1 WO 2024071006 A1 WO2024071006 A1 WO 2024071006A1 JP 2023034642 W JP2023034642 W JP 2023034642W WO 2024071006 A1 WO2024071006 A1 WO 2024071006A1
Authority
WO
WIPO (PCT)
Prior art keywords
person
captured image
scene graph
input instruction
information processing
Prior art date
Application number
PCT/JP2023/034642
Other languages
English (en)
French (fr)
Inventor
アマン ジェイン
アニルドレッディ コンダパッレィ
健太郎 山田
Original Assignee
本田技研工業株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 本田技研工業株式会社 filed Critical 本田技研工業株式会社
Publication of WO2024071006A1 publication Critical patent/WO2024071006A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles

Definitions

  • the present invention relates to an information processing device, an information processing method, and a program.
  • Patent Document 1 describes a technique for detecting emergency vehicles contained in image data by inputting audio data and image data into an artificial neural network such as a deep neural network (DNN).
  • DNN deep neural network
  • Non-Patent Document 1 describes a neural state machine that converts multimodal raw information obtained by sensors into conceptual representations in a common abstract space and performs inference on a graph (scene graph) in which these conceptual representations are structured. Neural state machines are superior to the technology described in Patent Document 1 in that the processing content on the graph is made transparent and does not require large amounts of data for processing. However, the technology described in Non-Patent Document 1 does not utilize modalities such as a person's gaze or gestures, and does not provide a means to resolve ambiguity that occurs in inference.
  • the present invention has been made in consideration of these circumstances, and one of its objectives is to provide an information processing device, information processing method, and program that utilizes modalities such as a person's gaze and gestures, and can resolve ambiguity that arises during the inference process.
  • An information processing device includes an acquisition unit that acquires an captured image of the surroundings of a moving body by a camera mounted on the moving body, an input instruction sentence input by a person associated with the moving body, and gesture information related to a gesture made by the person, an extraction unit that extracts one or more instructions included in the input instruction sentence by applying a first predetermined processing to the input instruction sentence, a first generation unit that generates an estimated distribution related to a position pointed to by the person by applying a second predetermined processing to the gesture information, a second generation unit that generates a probabilistic scene graph from the captured image in which a probability is assigned to each object included in the captured image, and an identification unit that identifies the object pointed to by the person in the captured image based on the one or more instructions, the estimated distribution, and the probabilistic scene graph.
  • the first predetermined process is a process of performing at least a dependency parser and attribute classification on the input instruction sentence.
  • the second predetermined process is a process of generating the estimated distribution based on key points of the person included in the gesture information.
  • the identification unit identifies the object by sequentially updating the probability of each object included in the probabilistic scene graph using the one or more extracted instructions.
  • the second generation unit sets an initial value of the probability to be assigned to each object included in the probabilistic scene graph based on the estimated distribution.
  • the identification unit when multiple objects are identified by the update, the identification unit generates a question for identifying one of the multiple objects.
  • a computer acquires an image of the periphery of a moving object captured by a camera mounted on the moving object, an input instruction input by a person associated with the moving object, and gesture information related to a gesture made by the person, performs a first predetermined process on the input instruction to extract one or more instructions included in the input instruction, performs a second predetermined process on the gesture information to generate an estimated distribution related to the position pointed to by the person, generates from the captured image a probabilistic scene graph in which each object included in the captured image is assigned a probability, and identifies the object pointed to by the person in the captured image based on the one or more instructions, the estimated distribution, and the probabilistic scene graph.
  • a program causes a computer to acquire an image of the surroundings of a moving object captured by a camera mounted on the moving object, an input instruction input by a person associated with the moving object, and gesture information related to a gesture made by the person, extract one or more instructions included in the input instruction by performing a first predetermined process on the input instruction, generate an estimated distribution related to the position indicated by the person by performing a second predetermined process on the gesture information, generate a probabilistic scene graph from the captured image in which each object included in the captured image is assigned a probability, and identify the object indicated by the person in the captured image based on the one or more instructions, the estimated distribution, and the probabilistic scene graph.
  • aspects (1) to (8) make it possible to utilize modalities such as a person's gaze and gestures, and to resolve ambiguities that arise during the inference process.
  • FIG. 1 is a diagram illustrating an example of the configuration of a moving object 1 and a control device 100 according to an embodiment.
  • FIG. 2 is a perspective view of the moving body 1 seen from above.
  • 1 is a diagram showing an example of a captured image IM captured by an external camera.
  • 10 is a diagram for explaining an overview of a first predetermined process executed by an extraction unit 120.
  • FIG. 11 is a diagram for explaining an overview of a second predetermined process executed by a generating unit 130.
  • FIG. 11 is a diagram for explaining a probabilistic scene graph update process executed by the identification unit 140.
  • FIG. 11 is a diagram for explaining a question generation process executed by the identification unit 140.
  • FIG. 4 is a flowchart showing an example of a flow of processing executed by the control device 100.
  • the information processing device is mounted on a moving object.
  • the moving object moves on both roadways and a predetermined area different from the roadway.
  • the moving object may be called micromobility.
  • An electric kick scooter is a type of micromobility.
  • the predetermined area is, for example, a sidewalk.
  • the predetermined area may be a part or all of a sidewalk, a bicycle lane, a public open space, etc., or may include all of a sidewalk, a sidewalk, a bicycle lane, a public open space, etc.
  • the information processing device identifies an object indicated by a person based on an image captured of the periphery of the moving object, an input instruction input by a person related to the moving object, and a gesture made by the person.
  • the person related to the moving object is described as a passenger on the moving object, but the present invention is not limited to such a configuration, and may be a person who inputs an instruction outside the moving object (for example, to indicate a waiting location for the moving object after getting off).
  • FIG. 1 is a diagram showing an example of the configuration of a moving body 1 and a control device 100 according to an embodiment.
  • the moving body 1 is equipped with, for example, an external environment detection device 10, a moving body sensor 12, an operator 14, an internal camera 16, a positioning device 18, an HMI 20, a mode switch 22, a moving mechanism 30, a driving device 40, an external notification device 50, a storage device 70, and a control device 100.
  • an external environment detection device 10 for example, an external environment detection device 10, a moving body sensor 12, an operator 14, an internal camera 16, a positioning device 18, an HMI 20, a mode switch 22, a moving mechanism 30, a driving device 40, an external notification device 50, a storage device 70, and a control device 100.
  • the moving body is not limited to a vehicle, and may include a small mobility that runs alongside a walking user to carry luggage or lead a person, and may also include other moving bodies capable of autonomous movement (e.g., a walking robot, etc.).
  • the external world detection device 10 is a device of various types whose detection range is the traveling direction of the moving body 1.
  • the external world detection device 10 includes an external camera, a radar device, a LIDAR (Light Detection and Ranging), a sensor fusion device, etc.
  • the external world detection device 10 outputs information indicating the detection result (images, object positions, etc.) to the control device 100.
  • the external world detection device 10 outputs captured images of the surroundings of the moving body 1 captured by an external camera to the control device 100.
  • the mobile body sensor 12 includes, for example, a speed sensor, an acceleration sensor, a yaw rate (angular velocity) sensor, a direction sensor, and an operation amount detection sensor attached to the operator 14.
  • the operator 14 includes, for example, an operator for instructing acceleration/deceleration (for example, an accelerator pedal or a brake pedal) and an operator for instructing steering (for example, a steering wheel).
  • the mobile body sensor 12 may include an accelerator opening sensor, a brake depression amount sensor, a steering torque sensor, etc.
  • the mobile body 1 may also be provided with an operator 14 of a type other than those described above (for example, a non-annular rotary operator, a joystick, a button, etc.).
  • the internal camera 16 captures an image of at least the head of an occupant of the vehicle 1 from the front.
  • the internal camera 16 is a digital camera that uses an imaging element such as a CCD (Charge Coupled Device) or a CMOS (Complementary Metal Oxide Semiconductor).
  • the internal camera 16 outputs the captured image to the control device 100.
  • the positioning device 18 is a device that measures the position of the mobile body 1.
  • the positioning device 18 is, for example, a GNSS (Global Navigation Satellite System) receiver, and identifies the position of the mobile body 1 based on signals received from GNSS satellites and outputs it as position information.
  • the position information of the mobile body 1 may be estimated from the position of a Wi-Fi base station to which a communication device (described later) is connected.
  • the HMI 20 includes a display device, a speaker, a touch panel, keys, etc.
  • the occupant of the moving body 1 sets the destination of the moving body 1, for example, via the HMI 20, and the control unit 150 described later drives the moving body 1 to the set destination.
  • the HMI 20 includes a voice input device such as a microphone, and the occupant of the moving body 1 inputs instructions to the voice input device by speaking instructions indicating the stopping position of the moving body 1.
  • the HMI 20 analyzes the voice of the input instructions, converts them to text, and outputs them to the control device 100.
  • the HMI 20 may accept instructions input as text by the occupant, for example, via a touch panel, and output the accepted instructions to the control device 100.
  • the mode changeover switch 22 is a switch operated by the occupant.
  • the mode changeover switch 22 may be a mechanical switch or a GUI (Graphical User Interface) switch set on the touch panel of the HMI 20.
  • the mode changeover switch 22 accepts an operation to switch the driving mode to one of the following modes, for example: Mode A: an assist mode in which one of the steering operation and acceleration/deceleration control is performed by the occupant and the other is performed automatically (there may be Mode A-1 in which the steering operation is performed by the occupant and acceleration/deceleration control is performed automatically, and Mode A-2 in which the acceleration/deceleration operation is performed by the occupant and steering control is performed automatically); Mode B: a manual driving mode in which the steering operation and acceleration/deceleration operation are performed by the occupant; or Mode C: an automatic driving mode in which the operation control and acceleration/deceleration control are performed automatically.
  • Mode A an assist mode in which one of the steering operation and acceleration/deceleration control is performed by the occupant and the other is
  • the moving mechanism 30 is a mechanism for moving the mobile body 1 on a road.
  • the moving mechanism 30 is, for example, a group of wheels including steering wheels and drive wheels.
  • the moving mechanism 30 may also be legs for multi-legged walking.
  • the driving device 40 outputs a force to the moving mechanism 30 to move the moving body 1.
  • the driving device 40 includes a motor that drives the driving wheels, a battery that stores the power to be supplied to the motor, and a steering device that adjusts the steering angle of the steering wheels.
  • the driving device 40 may also include an internal combustion engine or a fuel cell as a driving force output means or a power generation means.
  • the driving device 40 may also further include a brake device that utilizes frictional force or air resistance.
  • the external notification device 50 is, for example, a lamp, a display device, a speaker, etc., provided on the outer panel of the mobile unit 1, for notifying the outside of the mobile unit 1 of information.
  • the external notification device 50 operates differently depending on whether the mobile unit 1 is moving on a sidewalk or on a roadway.
  • the external notification device 50 is controlled to emit a lamp when the mobile unit 1 is moving on a sidewalk and not emit a lamp when the mobile unit 1 is moving on a roadway. It is preferable that the light color of this lamp is a color specified by law.
  • the external notification device 50 may be controlled so that the lamp emits green light when the mobile unit 1 is moving on a sidewalk and emits blue light when the mobile unit 1 is moving on a roadway. If the external notification device 50 is a display device, the external notification device 50 displays the message "traveling on the sidewalk" in text or graphics when the mobile unit 1 is traveling on the sidewalk.
  • FW is the steering wheel
  • RW is the driving wheel
  • SD is the steering device
  • MT is the motor
  • BT is the battery.
  • the steering device SD, the motor MT, and the battery BT are included in the drive device 40.
  • AP is the accelerator pedal
  • BP is the brake pedal
  • WH is the steering wheel
  • SP is the speaker
  • MC is the microphone.
  • the moving body 1 shown in the figure is a one-seater moving body, and an occupant P is seated in the driver's seat DS and fastened with a seat belt SB.
  • Arrow D1 is the traveling direction (velocity vector) of the moving body 1.
  • the external environment detection device 10 is provided near the front end of the moving body 1, the internal camera 16 is provided in a position where it can capture an image of the head of the occupant P from in front of the occupant P, and the mode changeover switch 22 is provided in the boss part of the steering wheel WH.
  • An external notification device 50 as a display device is provided near the front end of the moving body 1.
  • the storage device 70 is a non-transitory storage device such as a hard disk drive (HDD), flash memory, or random access memory (RAM). Navigation map information 72 and the like are stored in the storage device 70. Although the storage device 70 is shown outside the frame of the control device 100 in the figure, the storage device 70 may be included in the control device 100. The storage device 70 may also be provided on a server (not shown).
  • HDD hard disk drive
  • RAM random access memory
  • Navigation map information 72 is stored in advance in storage device 70, and is map information that includes, for example, information on the center of roads, including roadways and sidewalks, or information on road boundaries. Navigation map information 72 further includes information (such as names, addresses, and areas) on facilities and buildings adjacent to road boundaries.
  • the control device 100 includes, for example, an acquisition unit 110, an extraction unit 120, a generation unit 130, an identification unit 140, and a control unit 150.
  • the acquisition unit 110, the extraction unit 120, the generation unit 130, the identification unit 140, and the control unit 150 are realized by, for example, a hardware processor such as a CPU (Central Processing Unit) executing a program (software) 74.
  • a hardware processor such as a CPU (Central Processing Unit) executing a program (software) 74.
  • Some or all of these components may be realized by hardware (including circuitry) such as an LSI (Large Scale Integration), an ASIC (Application Specific Integrated Circuit), an FPGA (Field-Programmable Gate Array), or a GPU (Graphics Processing Unit), or may be realized by cooperation between software and hardware.
  • LSI Large Scale Integration
  • ASIC Application Specific Integrated Circuit
  • FPGA Field-Programmable Gate Array
  • GPU Graphics Processing Unit
  • the program may be stored in the storage device 70 in advance, or may be stored in a removable storage medium (non-transient storage medium) such as a DVD or CD-ROM, and may be installed in the storage device 70 by mounting the storage medium in a drive device.
  • a removable storage medium non-transient storage medium
  • the combination of the acquisition unit 110, the extraction unit 120, the generation unit 130, and the identification unit 140 is an example of an "information processing device.”
  • the acquisition unit 110 acquires an image IM obtained by an external camera, which is an external environment detection device 10, capturing an image of the surroundings of the mobile body 1.
  • FIG. 3 is a diagram showing an example of an image IM captured by an external camera. As an example, FIG. 3 shows a situation in which the image IM captured by the external camera includes vehicles M1 and M2, vending machines V1, V2, and V3, and a postbox P.
  • vending machine V1 is a red vending machine
  • vending machines V2 and V3 are blue vending machines.
  • the acquisition unit 110 acquires an instruction statement input by the occupant of the moving body 1 via the voice input device, which is the HMI 20, indicating the target position to be reached by the moving body 1.
  • the voice input device which is the HMI 20, indicating the target position to be reached by the moving body 1.
  • the occupant inputs an instruction statement such as "stop at the red vending machine behind that truck" to indicate that the moving body 1 should reach the target position TP in front of the vending machine V1.
  • the acquisition unit 110 acquires an image representing a gesture made by the occupant captured by the internal camera 16 as gesture information.
  • the acquired gesture information is used for processing by the generation unit 130, which will be described later.
  • the extraction unit 120 performs a first predetermined process on the input instruction sentence to extract one or more instructions (reasoning instructions) included in the input instruction sentence.
  • FIG. 4 is a diagram for explaining an outline of the first predetermined process executed by the extraction unit 120. More specifically, as the first predetermined process, the extraction unit 120 performs dependency parser and entity classifier on the input instruction sentence. For example, as shown in the left part of FIG.
  • the extraction unit 120 analyzes, as dependency analysis, the instruction sentence "Stop at the red vending machine behind that truck” to determine that "that” is a determiner (det) that modifies “truck", "of” is a case marker (case) of "truck", "behind” is a noun modifier (nmod) that modifies "truck”, and "red” is a clause modifier (acl) that modifies "vending machine”.
  • This dependency analysis may be performed using a known method.
  • the extraction unit 120 classifies the attributes of each morpheme in the instruction sentence as an entity classification. For example, as shown in the right part of FIG. 4, the extraction unit 120 classifies "that" in the instruction sentence "stop at the red vending machine behind that truck” as a demonstrative, "truck” as an object, “behind” as a relation, "red” as a color, and "vending machine” as an object.
  • the extraction unit 120 links and stores the dependency relationships between morphemes as a result of the dependency analysis and the attributes of each morpheme as a result of the entity classification.
  • each morpheme (truck, that, behind, vending machine, red) is stored as one or more instructions (reasoning instructions) by linking its dependency relationship and attribute.
  • these one or more instructions may be derived and stored using the method described in Non-Patent Document 1.
  • the generating unit 130 generates an estimated distribution of the position indicated by the gesture of the occupant by performing a second predetermined process on the gesture information acquired by the acquiring unit 110.
  • FIG. 5 is a diagram for explaining an outline of the second predetermined process executed by the generating unit 130.
  • the generating unit 130 sets key points on two parts of the body of the occupant P.
  • FIG. 5 shows, as an example, a situation in which the eyes and wrist of the occupant P are set as key points KP1 and KP2, respectively.
  • the generating unit 130 estimates the intersection IS where the indication line L, which connects the eye KP1 and the wrist KP2 and is extended toward the wrist, intersects with the ground surface as the position indicated by the gesture of the occupant P, and generates an estimated distribution of the gesture position as a probability distribution with the intersection IS as the maximum value.
  • the probability distribution to be generated any type of distribution, such as a normal distribution, may be assumed.
  • the generation unit 130 may select any key point, but it is desirable to select one of the points as the eye, since the occupant P can specify the position accurately through the line of sight. It is also desirable for the other point to be a part that is easy to identify from the image, and it may be, for example, the wrist, fingertips, the tip or center of a fist, etc. Furthermore, when the operator is indicating a destination, it is possible that the face is facing in the direction of the destination and therefore the eyes cannot be photographed by the internal camera 16. In such cases, the position of the eyes may be estimated and identified. If the direction of the face can be identified, the position of the eyes can be estimated. Note that this estimation of the eye position may also be performed using a machine learning model.
  • the generation unit 130 semantically extracts objects contained in the captured image IM captured by the external camera from the captured image IM, and generates a probabilistic scene graph in which each extracted object is assigned a probability that the occupant P pointed to the object.
  • the generation unit 130 extracts vehicles M1 and M2, vending machines V1, V2, and V3, and postbox P. This extraction process can reduce the load associated with subsequent processing compared to methods that process raw data, such as deep neural networks (DNNs). More specifically, the generation of the probabilistic scene graph may be performed using the method described in Non-Patent Document 1.
  • the initial probability value assigned to each object included in the generated probabilistic scene graph may be uniform (i.e., 1/(the number of objects included in the probabilistic scene graph)), or the generation unit 130 may set a different initial value for each object.
  • the generation unit 130 may use an estimated distribution regarding the gesture position to set a different initial value according to the position of each object. More specifically, the generation unit 130 may set a higher initial value the closer the object is to the detected intersection point IS, and set a lower initial value the farther the object is from the intersection point IS. For example, in the case of FIG.
  • the generation unit 130 is an example of a "first generation unit” and a "second generation unit”.
  • the identification unit 140 identifies the object indicated by the occupant by sequentially updating the probability of each object included in the probabilistic scene graph using one or more instructions extracted by the extraction unit 120.
  • FIG. 6 is a diagram for explaining the update process of the probabilistic scene graph executed by the identification unit 140.
  • the identification unit 140 sequentially extracts one or more instructions extracted by the extraction unit 120, and updates the probabilistic scene graph so that the probability of the object corresponding to the extracted instruction becomes higher. For example, in the case of FIG. 6, the identification unit 140 extracts "truck” and "its” and updates the probabilistic scene graph so that the probability values of the vehicles M1 and M2 become higher.
  • the identification unit 140 extracts "behind” and transitions from the vehicle M1 to the vending machine V1 and from the vehicle M2 to the vending machine V2 in the probabilistic scene graph.
  • the identification unit 140 extracts "vending machine” and “red” to identify the vending machine V1 as a vending machine having the attribute "red”, and updates the probabilistic scene graph so that the probability value of the vending machine V1 becomes higher.
  • the probabilities assigned to the objects in the probabilistic scene graph are successively updated, and the object with the highest probability value is ultimately identified as the object indicated by the occupant P.
  • the identification unit 140 can identify the vending machine V1 with the highest probability value ultimately as the object indicated by the occupant P. More specifically, these updates to the probabilistic scene graph may be performed using the method described in Non-Patent Document 1.
  • the identification unit 140 uses the probabilistic scene graph to identify the object with the maximum probability value as the object indicated by the occupant P.
  • the identification unit 140 calculates the entropy of the probability distribution calculated for each object in the probabilistic scene graph, and if the calculated entropy is large (above a threshold), it can determine that the object indicated by the occupant P cannot be identified as a single object. In such a case, the conventional technology was unable to ultimately identify the object indicated by the occupant P.
  • a question for identifying one object from the multiple candidates is generated, the question is asked of the occupant, and a response is received from the occupant, thereby ultimately identifying the object indicated by the occupant P.
  • FIG. 7 is a diagram for explaining the process of generating a question executed by the identification unit 140.
  • FIG. 7 shows a case where the occupant inputs the instruction "Stop at the vending machine behind the truck" and the identification unit 140 performs the process of updating the probabilistic scene graph, resulting in vending machine V1 behind vehicle M1 and vending machine V2 behind vehicle M2 being identified as objects with the same probability value (or objects whose difference in probability value is within a threshold value).
  • the identification unit 140 generates a question to identify one of the identified objects. For example, a question sentence may be generated to directly identify the multiple objects, such as "Which vending machine?", or a question sentence may be generated to indirectly identify the multiple objects, such as "Which truck?” (i.e., if one truck has been identified, the vending machine can be identified by combining it with the noun modifier "behind").
  • the identification unit 140 may compare attributes (e.g., color) of multiple candidate objects and generate a question related to the attribute having different values.
  • attributes e.g., color
  • vending machine V1 has a color attribute of "red”
  • vending machine V2 does not have a specific color attribute
  • the identification unit 140 may generate a question such as "Is the color of this vending machine red?” based on the difference in the color attribute.
  • the identification unit 140 transmits the generated question to the HMI 20, receives an answer entered by the occupant on the HMI 20, and ultimately identifies the object pointed to by the occupant P based on the received answer. For example, the identification unit 140 may also accept a gesture by the occupant P again, and ultimately identify the object closest to the direction of the accepted gesture as the object pointed to by the occupant P. In this way, even if there are multiple candidates for the pointed to object due to the update process of the probabilistic scene graph, the pointed to object can be uniquely identified by generating a question for the occupant P.
  • the control unit 150 drives the drive device 40 of the moving body 1 to travel to the target position, which is the object identified by the identification unit 140.
  • FIG. 8 is a flowchart showing an example of the flow of processing executed by the control device 100.
  • the processing according to this flowchart is executed in response to input of commands and gestures by the occupant while the vehicle 1 is traveling.
  • the acquisition unit 110 acquires the captured image IM, the input instruction sentence, and the gesture information (step S100).
  • the generation unit 130 extracts one or more instructions from the input instruction sentence acquired by the acquisition unit 110, and generates an estimated distribution of the position indicated by the occupant P from the gesture information (step S102).
  • the generation unit 130 generates a probabilistic scene graph from the captured image IM and sets the initial probability of the probabilistic scene graph based on the estimated distribution (step S104).
  • the identification unit 140 updates the probability of the probabilistic scene graph based on one or more instructions (step S106).
  • the identification unit 140 determines whether or not a single object has been identified as a result of updating the probabilistic scene graph (step S108). If it is determined that a single object has been identified, the control unit 150 causes the mobile unit 1 to travel with the identified object as the target position (step S110). On the other hand, if it is determined that a single object has not been identified, the identification unit 140 generates a question sentence for identifying the single object, makes an inquiry, and identifies the single object (step S112). Thereafter, the identification unit 140 transitions the process to step S110. This ends the process related to this flowchart.
  • the information processing device may at least identify a pointed object based on a captured image, an input instruction sentence, and gesture information, and if there are multiple candidates for the pointed object, may generate an additional question sentence and make an inquiry, ultimately identifying a single object.
  • the information processing device according to the present invention may also be used to identify an object pointed to by a user in a VR (virtual reality) space.
  • a captured image, an input instruction text, and gesture information are acquired, and the object indicated by the occupant is identified based on a probabilistic scene graph generated from the captured image, instructions extracted from the input instruction text, and an estimated distribution generated from the gesture information. If there are multiple candidates for the object indicated by the occupant, a question text is generated to identify a single object and is queried from the occupant. This makes it possible to utilize modalities such as a person's gaze and gestures, and to resolve ambiguity that arises during the inference process.
  • a storage medium for storing computer-readable instructions
  • a processor coupled to the storage medium
  • the processor executes the computer-readable instructions to: Acquiring a captured image of the periphery of the moving body by a camera mounted on the moving body, an input instruction input by an occupant of the moving body, and gesture information regarding a gesture performed by the occupant; extracting one or more instructions included in the input instruction sentence by performing a first predetermined process on the input instruction sentence; generating an estimated distribution regarding a position indicated by the occupant by performing a second predetermined process on the gesture information; generating a probabilistic scene graph from the captured image in which a probability is assigned to each object included in the captured image; identifying an object indicated by the occupant in the captured image based on the one or more indications, the estimated distribution, and the probabilistic scene graph;
  • the information processing device is configured as follows.
  • External environment detection device 12 External environment detection device 12: Mobile sensor 14: Operator 16: Internal camera 18: Positioning device 20: HMI 22 Mode changeover switch 30 Moving mechanism 40 Driving device 50 External notification device 70 Storage device 72 Navigation map information 100 Control device 110 Acquisition unit 120 Extraction unit 130 Generation unit 140 Identification unit 150 Control unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • General Engineering & Computer Science (AREA)
  • Remote Sensing (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Automation & Control Theory (AREA)
  • Image Analysis (AREA)

Abstract

移動体に搭載されたカメラによって前記移動体の周辺を撮像した撮像画像と、前記移動体に関わる人によって入力された入力指示文と、前記人によって行われたジェスチャに関するジェスチャ情報を取得する取得部と、前記入力指示文に第1所定処理を施すことによって、前記入力指示文に含まれる一以上の指示を抽出する抽出部と、前記ジェスチャ情報に第2所定処理を施すことによって、前記人が指示した位置に関する推定分布を生成する第1生成部と、前記撮像画像から、前記撮像画像に含まれる各物体に確率が付された確率的シーングラフを生成する第2生成部と、前記一以上の指示と、前記推定分布と、前記確率的シーングラフとに基づいて、前記撮像画像における前記人が指示した物体を特定する特定部と、を備える、情報処理装置。

Description

情報処理装置、情報処理方法、およびプログラム
 本発明は、情報処理装置、情報処理方法、およびプログラムに関する。
 従来、画像を含むマルチモーダルな入力に応じて、当該画像中の物体を特定する技術が知られている。例えば、特許文献1には、オーディオデータと画像データとをディープニューラルネットワーク(DNN)などの人工ニューラルネットワークに入力することにより、当該画像データに含まれる緊急車両を検出する技術が記載されている。
特開2022-96601号公報
Drew A. Hudson, Christopher D. Manning, "Learning by Abstraction: The Neural State Machine", NeurIPS , page 5901-5914. (2019)
 しかしながら、特許文献1に記載の技術のように、例えば、DNNなどの手法を用いて、マルチモーダルな入力を処理する場合、モデルの内部でどのような処理が行われているかはブラックボックスであり、その実態を把握することが困難である。すなわち、これらの手法では、異なる種類の情報(映像、音、テキストなど)の間の関係性が適切に学習されているか否かが明らかではない。さらに、DNNなどの手法は、学習に大量のデータを必要とすることが多く、機能の実現に多大なコストがかかる場合がある。
 さらに、非特許文献1には、センサによって得られたマルチモーダルな生情報を、共通の抽象空間における概念表現に変換し、これらの概念表現が構造化されたグラフ(シーングラフ)上で推論を行うニューラルステートマシンが記載されている。ニューラルステートマシンは、グラフ上の処理内容が透明化されているとともに、その処理に大量のデータを必要としないという点で、特許文献1に記載の技術に対して優位である。しかしながら、非特許文献1に記載の技術は、人物の視線やジェスチャなどのモダリティを活用せず、また、推論上で発生した曖昧さを解決する手段を提供するものではない。
 本発明は、このような事情を考慮してなされたものであり、人物の視線やジェスチャなどのモダリティを活用するとともに、推論の過程で派生した曖昧さを解決することができる、情報処理装置、情報処理方法、およびプログラムを提供することを目的の一つとする。
 この発明に係る情報処理装置、情報処理方法、およびプログラムは、以下の構成を採用した。
 (1):この発明の一態様に係る情報処理装置は、移動体に搭載されたカメラによって前記移動体の周辺を撮像した撮像画像と、前記移動体に関わる人によって入力された入力指示文と、前記人によって行われたジェスチャに関するジェスチャ情報を取得する取得部と、前記入力指示文に第1所定処理を施すことによって、前記入力指示文に含まれる一以上の指示を抽出する抽出部と、前記ジェスチャ情報に第2所定処理を施すことによって、前記人が指示した位置に関する推定分布を生成する第1生成部と、前記撮像画像から、前記撮像画像に含まれる各物体に確率が付された確率的シーングラフを生成する第2生成部と、前記一以上の指示と、前記推定分布と、前記確率的シーングラフとに基づいて、前記撮像画像における前記人が指示した物体を特定する特定部と、を備えるものである。
 (2):上記(1)の態様において、前記第1所定処理は、前記入力指示文に、少なくとも係り受け解析(dependency parser)と属性分類を施す処理であるものである。
 (3):上記(1)の態様において、前記第2所定処理は、前記ジェスチャ情報に含まれる前記人のキーポイントに基づいて、前記推定分布を生成する処理であるものである。
 (4):上記(1)から(3)のいずれかの態様において、前記特定部は、抽出された前記一以上の指示を用いて、逐次的に前記確率的シーングラフに含まれる各物体の前記確率を更新することによって、前記物体を特定するものである。
 (5):上記(4)の態様において、前記第2生成部は、前記推定分布に基づいて、前記確率的シーングラフに含まれる各物体に付される前記確率の初期値を設定するものである。
 (6):上記(4)の態様において、前記特定部は、前記更新によって複数の前記物体を特定した場合、複数の前記物体のうちの1つの物体を特定するための質問を生成するものである。
 (7):この発明の別の態様に係る情報処理方法は、コンピュータが、移動体に搭載されたカメラによって前記移動体の周辺を撮像した撮像画像と、前記移動体に関わる人によって入力された入力指示文と、前記人によって行われたジェスチャに関するジェスチャ情報を取得し、前記入力指示文に第1所定処理を施すことによって、前記入力指示文に含まれる一以上の指示を抽出し、前記ジェスチャ情報に第2所定処理を施すことによって、前記人が指示した位置に関する推定分布を生成し、前記撮像画像から、前記撮像画像に含まれる各物体に確率が付された確率的シーングラフを生成し、前記一以上の指示と、前記推定分布と、前記確率的シーングラフとに基づいて、前記撮像画像における前記人が指示した物体を特定するものである。
 (8):この発明の別の態様に係るプログラムは、コンピュータに、移動体に搭載されたカメラによって前記移動体の周辺を撮像した撮像画像と、前記移動体に関わる人によって入力された入力指示文と、前記人によって行われたジェスチャに関するジェスチャ情報を取得させ、前記入力指示文に第1所定処理を施すことによって、前記入力指示文に含まれる一以上の指示を抽出させ、前記ジェスチャ情報に第2所定処理を施すことによって、前記人が指示した位置に関する推定分布を生成させ、前記撮像画像から、前記撮像画像に含まれる各物体に確率が付された確率的シーングラフを生成させ、前記一以上の指示と、前記推定分布と、前記確率的シーングラフとに基づいて、前記撮像画像における前記人が指示した物体を特定させるものである。
 (1)~(8)の態様によれば、人物の視線やジェスチャなどのモダリティを活用するとともに、推論の過程で派生した曖昧さを解決することができる。
実施形態に係る移動体1および制御装置100の構成の一例を示す図である。 移動体1を上方から見た透視図である。 外部カメラによって撮像された撮像画像IMの一例を示す図である。 抽出部120によって実行される第1所定処理の概要を説明するための図である。 生成部130によって実行される第2所定処理の概要を説明するための図である。 特定部140によって実行される確率的シーングラフの更新処理を説明するための図である。 特定部140によって実行される質問文の生成処理を説明するための図である。 制御装置100によって実行される処理の流れの一例を示すフローチャートである。
 以下、図面を参照し、本発明の情報処理装置、情報処理方法、およびプログラムの実施形態について説明する。情報処理装置は、移動体に搭載される。移動体は、車道と、車道と異なる所定領域との双方を移動するものである。移動体は、マイクロモビリティと称される場合がある。電動キックボードはマイクロモビリティの一種である。所定領域とは、例えば歩道である。また、所定領域とは、路側帯や自転車レーン、公開空地などのうち一部または全部であってもよいし、歩道、路側帯、自転車レーン、公開空地などを全て含んでもよい。以下で説明する通り、本実施形態に係る情報処理装置は、移動体の周辺を撮像した撮像画像と、移動体に関わる人によって入力された入力指示文と、当該人によって行われたジェスチャとに基づいて、人が指示した物体を特定するものである。以下の説明において、移動体に関わる人は、当該移動体に搭乗している乗員であるものとして説明するが、本発明は、そのような構成に限定されず、移動体の外部において(例えば、降車後に移動体の待機場所を指示するために)指示文を入力する人であってもよい。
 [全体構成]
 図1は、実施形態に係る移動体1および制御装置100の構成の一例を示す図である。移動体1には、例えば、外界検知デバイス10と、移動体センサ12と、操作子14と、内部カメラ16と、測位装置18と、HMI20と、モード切替スイッチ22と、移動機構30と、駆動装置40と、外部報知装置50と、記憶装置70と、制御装置100とが搭載される。なお、これらの構成のうち本発明の機能を実現するのに必須でない一部の構成が省略されてもよい。移動体は、乗物に限らず、歩くユーザと並走して荷物を運んだり、人を先導したりするような小型モビリティを含んでよく、また、その他の自律移動が可能な移動体(例えば歩行型ロボットなど)を含んでもよい。
 外界検知デバイス10は、移動体1の進行方向を検知範囲とする各種デバイスである。外界検知デバイス10は、外部カメラ、レーダー装置、LIDAR(Light Detection and Ranging)、センサフュージョン装置などを含む。外界検知デバイス10は、検知結果を示す情報(画像、物体の位置等)を制御装置100に出力する。特に、本実施形態において、外界検知デバイス10は、外部カメラによって移動体1の周辺を撮像した撮像画像を制御装置100に出力するものとする。
 移動体センサ12は、例えば、速度センサ、加速度センサ、ヨーレート(角速度)センサ、方位センサ、並びに操作子14に取り付けられた操作量検出センサなどを含む。操作子14は、例えば、加減速を指示するための操作子(例えばアクセルペダルやブレーキペダル)と、操舵を指示するための操作子(例えばステアリングホイール)とを含む。この場合、移動体センサ12は、アクセル開度センサやブレーキ踏量センサ、ステアリングトルクセンサ等を含んでよい。移動体1は、操作子14として、上記以外の態様の操作子(例えば、円環状でない回転操作子、ジョイスティック、ボタン等)を備えてもよい。
 内部カメラ16は、移動体1の乗員の少なくとも頭部を正面から撮像する。内部カメラ16は、CCD(Charge Coupled Device)やCMOS(Complementary Metal Oxide Semiconductor)などの撮像素子を利用したデジタルカメラである。内部カメラ16は、撮像した画像を制御装置100に出力する。
 測位装置18は、移動体1の位置を測位する装置である。測位装置18は、例えば、GNSS(Global Navigation Satellite System)受信機であり、GNSS衛星から受信した信号に基づいて、移動体1の位置を特定し、位置情報として出力する。なお、移動体1の位置情報は、後述する通信装置が接続しているWi-Fi基地局の位置から推定されてもよい。
 HMI20は、表示装置、スピーカ、タッチパネル、キーなどを含む。移動体1の乗員は、例えば、HMI20を介して、移動体1の目的地を設定し、後述する制御部150は、設定された目的地まで移動体1を走行させる。特に、本実施形態において、HMI20は、マイクロフォンなどの音声入力機器を含み、移動体1の乗員は、移動体1の停車位置を指示する指示文を発声することにより音声入力機器に入力するものとする。HMI20は、入力された指示文の音声を解析してテキスト化し、制御装置100に出力する。代替的に、HMI20は、例えば、タッチパネルを介して、乗員がテキストとして入力した指示文を受け付け、受け付けた指示文を制御装置100に出力してもよい。
 モード切替スイッチ22は、乗員により操作されるスイッチである。モード切替スイッチ22は、機械式スイッチであってもよいし、HMI20のタッチパネル上に設定されるGUI(Graphical User Interface)スイッチであってもよい。モード切替スイッチ22は、例えば、モードA:乗員により操舵操作と加減速制御との一方が行われ、他方は自動的に行われるアシストモード(乗員により操舵操作が行われ加減速制御が自動的に行われるモードA-1と、乗員により加減速操作が行われ操舵制御が自動的に行われるモードA-2とがあってよい)、モードB:乗員により操舵操作および加減速操作がなされる手動運転モード、モードC:操作制御および加減速制御が自動的に行われる自動運転モードのいずれかに運転モードを切り替える操作を受け付ける。
 移動機構30は、道路において移動体1を移動させるための機構である。移動機構30は、例えば、操舵輪と駆動輪とを含む車輪群である。また、移動機構30は、多足歩行するための脚部であってもよい。
 駆動装置40は、移動機構30に力を出力して移動体1を移動させる。例えば、駆動装置40は、駆動輪を駆動するモータ、モータに供給する電力を蓄えるバッテリ、操舵輪の操舵角を調整する操舵装置などを含む。駆動装置40は、駆動力出力手段、或いは発電手段として、内燃機関や燃料電池などを備えてもよい。また、駆動装置40は、摩擦力や空気抵抗によるブレーキ装置を更に備えてもよい。
 外部報知装置50は、例えば移動体1の外板部に設けられ、移動体1の外部に向けて情報を報知するためのランプ、ディスプレイ装置、スピーカなどである。外部報知装置50は、移動体1が歩道を移動している状態と、車道を移動している状態とで異なる動作を行う。例えば、外部報知装置50は、移動体1が歩道を移動している場合にランプを発光させ、移動体1が車道を移動している場合にランプを発光させないように制御される。このランプの発光色は、法規で定められた色であると好適である。外部報知装置50は、移動体1が歩道を移動している場合にランプを緑色で発光させ、移動体1が車道を移動している場合にランプを青色で発光させるというように制御されてもよい。外部報知装置50がディスプレイ装置である場合、外部報知装置50は、移動体1が歩道を走行している場合に「歩道走行中である」旨をテキストやグラフィックで表示する。
 図2は、移動体1を上方から見た透視図である。図中、FWは操舵輪、RWは駆動輪、SDは操舵装置、MTはモータ、BTはバッテリである。操舵装置SD、モータMT、バッテリBTは駆動装置40に含まれる。また、APはアクセルペダル、BPはブレーキペダル、WHはステアリングホイール、SPはスピーカ、MCはマイクである。図示する移動体1は一人乗りの移動体であり、乗員Pは運転席DSに着座してシートベルトSBを装着している。矢印D1は移動体1の進行方向(速度ベクトル)である。外界検知デバイス10は移動体1の前端部付近に、内部カメラ16は乗員Pの前方から乗員Pの頭部を撮像可能な位置に、モード切替スイッチ22はステアリングホイールWHのボス部にそれぞれ設けられている。また、移動体1の前端部付近に、ディスプレイ装置としての外部報知装置50が設けられている。
 図1に戻り、記憶装置70は、例えば、HDD(Hard Disk Drive)やフラッシュメモリ、RAM(Random Access Memory)などの非一過性の記憶装置である。記憶装置70には、ナビゲーション地図情報72などが格納される。図では記憶装置70を制御装置100の枠外に記載しているが、記憶装置70は制御装置100に含まれるものであってよい。また、記憶装置70は不図示のサーバ上に設けられてもよい。
 ナビゲーション地図情報72は、事前に記憶装置70に記憶され、例えば、車道および歩道を含む道路の中央の情報あるいは道路の境界の情報等を含む地図情報である。ナビゲーション地図情報72は、さらに、道路の境界に接する施設や建物に関する情報(名称、住所、面積など)を含む。
 [制御装置]
 制御装置100は、例えば、取得部110と、抽出部120と、生成部130と、特定部140と、制御部150とを備える。取得部110と、抽出部120と、生成部130と、特定部140と、制御部150は、例えば、CPU(Central Processing Unit)などのハードウェアプロセッサがプログラム(ソフトウェア)74を実行することにより実現される。これらの構成要素のうち一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)などのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予め記憶装置70に格納されていてもよいし、DVDやCD-ROMなどの着脱可能な記憶媒体(非一過性の記憶媒体)に格納されており、記憶媒体がドライブ装置に装着されることで記憶装置70にインストールされてもよい。取得部110と、抽出部120と、生成部130と、特定部140とを組み合わせたものは、「情報処理装置」の一例である。
 取得部110は、外界検知デバイス10である外部カメラが移動体1の周辺を撮像して得られた撮像画像IMを取得する。図3は、外部カメラによって撮像された撮像画像IMの一例を示す図である。図3は、一例として、外部カメラが撮像した撮像画像IMが、車両M1、M2と、自販機V1、V2、V3と、ポストPを含んでいる状況を表している。説明の便宜上、撮像画像IMにおいて、自販機V1は赤色の自販機であり、自販機V2、V3は青色の自販機であるものとする。
 さらに、取得部110は、移動体1の乗員がHMI20である音声入力機器を介して入力した、移動体1が到達する目標位置を指示する指示文を取得する。例えば、図3の撮像画像IMに示される状況の場合、乗員は、「そのトラックの後ろにある赤い自販機に止めて」などと指示文を入力することによって、自販機V1前の目標位置TPに到達することを指示する。
 さらに、取得部110は、内部カメラ16によって撮像された乗員によって行われたジェスチャを表す画像をジェスチャ情報として取得する。取得されたジェスチャ情報は、後述する生成部130による処理に用いられる。
 抽出部120は、入力指示文に第1所定処理を施すことによって、当該入力指示文に含まれる一以上の指示(reasoning instructions)を抽出する。図4は、抽出部120によって実行される第1所定処理の概要を説明するための図である。より具体的には、抽出部120は、第1所定処理として、入力指示文に対して、係り受け解析(dependency parser)およびエンティティ分類(entity classifier)を施す。例えば、図4の左部に示す通り、抽出部120は、係り受け解析として、指示文「そのトラックの後ろにある赤い自販機に止めて」のうち、「その」は「トラック」を修飾する限定詞(det)であり、「の」は「トラック」の格標識(case)であり、「後ろ」は「トラック」を修飾する名詞修飾子(nmod)であり、「赤い」は「自販機」を修飾する節修飾子(acl)であることなどを解析する。この係り受け解析は、既知の方法が用いられて実行されてもよい。
 同時に、抽出部120は、エンティティ分類として、指示文のうちの各形態素の属性を分類する。例えば、図4の右部に示す通り、抽出部120は、指示文「そのトラックの後ろにある赤い自販機に止めて」のうちの「その」を指示詞(Demonstrative)に分類し、「トラック」を物体(Object)に分類し、「後ろ」を関係(Relation)に分類し、「赤い」を色(Color)に分類し、「自販機」を物体(Object)に分類する。抽出部120は、係り受け解析の結果としての形態素間の係り受け関係と、エンティティ分類の結果としての各形態素の属性を紐づけて記憶しておく。図4の左上部は、各形態素(トラック、その、後ろ、自販機、赤い)が、その係り受け関係と属性とを紐づけて一以上の指示(reasoning instructions)として記憶されていることを表している。より詳細には、これら一以上の指示は、非特許文献1に記載された方法を用いて導出され、記憶されてもよい。
 生成部130は、取得部110によって取得されたジェスチャ情報に第2所定処理を施すことによって、乗員がジェスチャによって指示した位置に関する推定分布を生成する。図5は、生成部130によって実行される第2所定処理の概要を説明するための図である。まず、生成部130は、乗員Pの体の部位のうち、2つの部位にキーポイントを設定する。図5は、一例として、乗員Pの目と手首とがそれぞれキーポイントKP1、KP2として設定されている状況を表している。生成部130は、目KP1と手首KP2とを結んで手首方向へと延長した指示線Lと地表面とが交差する交点ISを、乗員Pがジェスチャによって指示した位置として推定し、交点ISを最大値とする確率分布として、ジェスチャ位置の推定分布を生成する。生成する確率分布としては、例えば、正規分布など任意の種類の分布を仮定しても良い。
 なお、生成部130は、キーポイントはどのように選んでもよいが、乗員Pが見通し線を通して正確に位置を指定できることから、一方の点は目とすることが望ましい。また他方の点は、画像から特定しやすい部位であることが望ましく、例えば手首のほか、指先や握りこぶしの先端や中心部などであってもよい。さらに、操作者が目的地を指示しているとき、顔が目的地の方向を向いていることで、内部カメラ16からは目を撮影できないこともあり得る。このような場合、目の位置を推定して特定してもよい。顔の方向が特定できれば目の位置は推定することができる。なおこの目の位置の推定も機械学習モデルを用いて行ってよい。
 さらに、生成部130は、外部カメラによって撮像された撮像画像IMから、当該撮像画像IMに含まれる物体を意味的に(セマンティックに)抽出し、抽出された各物体に乗員Pが当該物体を指示した確率が付された確率的シーングラフを生成する。例えば、図3の場合、生成部130は、車両M1、M2と、自販機V1、V2、V3と、ポストPとを抽出する。この抽出処理により、ディープニューラルネットワーク(DNN)などの生データを処理する手法に比して、後続する処理に係る負荷を軽減することができる。より詳細には、確率的シーングラフの生成は、非特許文献1に記載された方法を用いて実行されてもよい。
 生成された確率的シーングラフに含まれる各物体に付される確率の初期値は、一様(すなわち、1/(確率的シーングラフに含まれる物体の個数))であってもよいし、生成部130は、物体ごとに異なる初期値を設定してもよい。例えば、生成部130は、ジェスチャ位置に関する推定分布を用いて、各物体の位置に応じて、異なる初期値を設定してもよい。より具体的には、生成部130は、検知された交点ISに近ければ近いほどより高い初期値を設定する一方、交点ISから遠ければ遠いほどより低い初期値を設定してもよい。例えば、図3の場合、乗員Pが自販機V1に向けてジェスチャを行った場合、自販機V1に最も高い初期値が付される一方、自販機V1から最も遠い位置にある自販機V3には最も低い初期値が付されてもよい。生成部130は、「第1生成部」および「第2生成部」の一例である。
 特定部140は、抽出部120によって抽出された一以上の指示を用いて、逐次的に確率的シーングラフに含まれる各物体の確率を更新することによって、乗員が指示した物体を特定する。図6は、特定部140によって実行される確率的シーングラフの更新処理を説明するための図である。特定部140は、抽出部120によって抽出された一以上の指示を順番に取り出し、取り出した指示に対応する確率的シーングラフの物体の確率がより高くなるように更新を行う。例えば、図6の場合、特定部140は、「トラック」および「その」を抽出して、車両M1および車両M2の確率値がより高くなるように更新を行う。次に、特定部140は、「後ろ」を抽出して、確率的シーングラフにおいて車両M1から自販機V1に遷移するとともに、車両M2から自販機V2に遷移する。次に、特定部140は、「自販機」および「赤い」を抽出して、属性「赤い」を有する自販機として自販機V1を特定し、自販機V1の確率値がより高くなるように更新を行う。このように、確率的シーングラフの物体に付された確率を逐次的に更新して、最終的に確率値が最大となる物体を、乗員Pによって指示された物体として特定する。図6の場合、特定部140は、最終的に確率値が最大となる自販機V1を乗員Pによって指示された物体として特定することができる。より詳細には、これら確率的シーングラフの更新は、非特許文献1に記載された方法を用いて実行されてもよい。
 このように、特定部140は、確率的シーングラフを用いて、最終的に確率値が最大となる物体を、乗員Pによって指示された物体として特定するものであるが、場合によっては、確率値が最大となる物体が複数存在したり、確率値が最大となる物体と、確率値が二番目に大きい物体との確率値の差分が小さく、単一の物体の特定には至らないことがある。より一般的に、特定部140は、確率的シーングラフの各物体について算出された確率分布のエントロピーを算出し、算出されたエントロピーが大きい(閾値以上である)場合、乗員Pによって指示された物体を単一の物体として特定できないと判定することができる。そのような場合、従来技術では、最終的に、乗員Pによって指示された物体を特定することができなかった。一方、本発明は、確率的シーングラフの更新処理の結果、乗員Pによって指示された物体の候補が複数存在する場合、複数の候補から一つの物体を特定するための質問文を生成して、乗員に問い合わせ、乗員からの回答を受信することによって、最終的に、乗員Pによって指示された物体を特定する。
 図7は、特定部140によって実行される質問文の生成処理を説明するための図である。図7は、一例として、乗員が、指示文として、「トラックの後ろにある自販機に止めて」と入力し、特定部140が確率的シーングラフの更新処理を行った結果、車両M1の後ろにある自販機V1と、車両M2の後ろにある自販機V2とが同一の確率値を有する物体(又は確率値の差分が閾値以内である物体)として特定された場合を表している。
 このような場合、特定部140は、特定された複数の物体のうちの1つの物体を特定するための質問を生成する。例えば、「どの自販機ですか?」のように、複数の物体を直接的に特定するための質問文を生成しても良いし、「どのトラックですか?」のように、複数の物体を間接的に特定する(すなわち、トラックが一つに特定された場合、名詞修飾子「後ろ」と合わせて、自販機を特定することができる)質問文を生成しても良い。
 また、例えば、特定部140は、候補となる複数の物体の属性(例えば、色)を照合し、異なる値を有する属性に関する質問文を生成しても良い。図7の場合、自販機V1は「赤」の色属性を有する一方、自販機V2は特定の色属性を有しないため、特定部140は、当該色属性の相違に基づいて、「自販機の色は赤ですか?」などの質問を生成しても良い。
 特定部140は、生成した質問文をHMI20に送信し、HMI20上に乗員が入力した回答を受信して、受信した回答に基づいて、最終的に、乗員Pによって指示された物体を特定する。また、例えば、特定部140は、乗員Pによるジェスチャを再度受け付け、受け付けたジェスチャの方向に最も近接する物体を、最終的に、乗員Pによって指示された物体として特定してもよい。これにより、確率的シーングラフの更新処理によって指示物体の候補が複数存在する場合であっても、乗員Pに対して質問文を生成することにより、指示物体を一意に特定することができる。
 制御部150は、特定部140によって特定された物体を目標位置として、移動体1の駆動装置40を駆動することによって、移動体1を当該目標位置まで走行させる。
 次に、図8を参照して、本実施形態に係る制御装置100によって実行される処理の流れについて説明する。図8は、制御装置100によって実行される処理の流れの一例を示すフローチャートである。本フローチャートに係る処理は、移動体1が走行中、乗員による指示文とジェスチャの入力に応じて、実行されるものである。
 まず、取得部110は、撮像画像IMと、入力指示文と、ジェスチャ情報とを取得する(ステップS100)。次に、生成部130は、取得部110によって取得された入力指示文から一以上の指示を抽出するとともに、ジェスチャ情報から、乗員Pが指示した位置に関する推定分布を生成する(ステップS102)。
 次に、生成部130は、撮像画像IMから確率的シーングラフを生成するとともに、推定分布に基づいて、確率的シーングラフの初期確率を設定する(ステップS104)。次に、特定部140は、一以上の指示に基づいて、確率的シーングラフの確率を更新する(ステップS106)。
 次に、特定部140は、確率的シーングラフの更新の結果、単一の物体が特定されたか否かを判定する(ステップS108)。単一の物体が特定されたと判定された場合、制御部150は、特定された物体を目標位置として移動体1を走行させる(ステップS110)。一方、単一の物体が特定されていないと判定された場合、特定部140は、単一の物体を特定するための質問文を生成して問い合わせを行い、単一の物体を特定する(ステップS112)。その後、特定部140は、処理をステップS110に移行させる。これにより、本フローチャートに係る処理が終了する。
 なお、上記の実施形態では、一例として、情報処理装置が移動体1に搭載され、その走行に活用される例について説明した。しかし、本発明は、そのような構成に限定されず、より一般的に、情報処理装置は、少なくとも、撮像画像と、入力指示文と、ジェスチャ情報とに基づいて、指示された物体を特定し、指示された物体の候補が複数存在する場合には、追加的に質問文を生成して問い合わせを行うことによって、最終的に、単一の物体を特定するものであれば良い。例えば、本発明に係る情報処理装置は、VR(virtual reality)空間においてユーザが指示した物体の特定にも活用することができる。
 以上の通り説明した本実施形態によれば、撮像画像と、入力指示文と、ジェスチャ情報を取得し、撮像画像から生成された確率的シーングラフと、入力指示文から抽出された指示と、ジェスチャ情報から生成された推定分布とに基づいて、乗員が指示した物体を特定し、乗員が指示した物体の候補が複数存在する場合には、単一の物体を特定するための質問文を生成して、乗員に問い合わせる。これにより、人物の視線やジェスチャなどのモダリティを活用するとともに、推論の過程で派生した曖昧さを解決することができる。
 上記説明した実施形態は、以下のように表現することができる。
 コンピュータによって読み込み可能な命令(computer-readable instructions)を格納する記憶媒体(storage medium)と、
 前記記憶媒体に接続されたプロセッサと、を備え、
 前記プロセッサは、前記コンピュータによって読み込み可能な命令を実行することにより(the processor executing the computer-readable instructions to:)
 移動体に搭載されたカメラによって前記移動体の周辺を撮像した撮像画像と、前記移動体の乗員によって入力された入力指示文と、前記乗員によって行われたジェスチャに関するジェスチャ情報を取得し、
 前記入力指示文に第1所定処理を施すことによって、前記入力指示文に含まれる一以上の指示を抽出し、
 前記ジェスチャ情報に第2所定処理を施すことによって、前記乗員が指示した位置に関する推定分布を生成し、
 前記撮像画像から、前記撮像画像に含まれる各物体に確率が付された確率的シーングラフを生成し、
 前記一以上の指示と、前記推定分布と、前記確率的シーングラフとに基づいて、前記撮像画像における前記乗員が指示した物体を特定する、
 ように構成されている、情報処理装置。
 以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
10 外界検知デバイス
12 移動体センサ
14 操作子
16 内部カメラ
18 測位装置
20 HMI
22 モード切替スイッチ
30 移動機構
40 駆動装置
50 外部報知装置
70 記憶装置
72 ナビゲーション地図情報
100 制御装置
110 取得部
120 抽出部
130 生成部
140 特定部
150 制御部

Claims (8)

  1.  移動体に搭載されたカメラによって前記移動体の周辺を撮像した撮像画像と、前記移動体に関わる人によって入力された入力指示文と、前記人によって行われたジェスチャに関するジェスチャ情報を取得する取得部と、
     前記入力指示文に第1所定処理を施すことによって、前記入力指示文に含まれる一以上の指示を抽出する抽出部と、
     前記ジェスチャ情報に第2所定処理を施すことによって、前記人が指示した位置に関する推定分布を生成する第1生成部と、
     前記撮像画像から、前記撮像画像に含まれる各物体に確率が付された確率的シーングラフを生成する第2生成部と、
     前記一以上の指示と、前記推定分布と、前記確率的シーングラフとに基づいて、前記撮像画像における前記人が指示した物体を特定する特定部と、を備える、
     情報処理装置。
  2.  前記第1所定処理は、前記入力指示文に、少なくとも係り受け解析(dependency parser)と属性分類を施す処理である、
     請求項1に記載の情報処理装置。
  3.  前記第2所定処理は、前記ジェスチャ情報に含まれる前記人のキーポイントに基づいて、前記推定分布を生成する処理である、
     請求項1に記載の情報処理装置。
  4.  前記特定部は、抽出された前記一以上の指示を用いて、逐次的に前記確率的シーングラフに含まれる各物体の前記確率を更新することによって、前記物体を特定する、
     請求項1から3のいずれか1項に記載の情報処理装置。
  5.  前記第2生成部は、前記推定分布に基づいて、前記確率的シーングラフに含まれる各物体に付される前記確率の初期値を設定する、
     請求項4に記載の情報処理装置。
  6.  前記特定部は、前記更新によって複数の前記物体を特定した場合、複数の前記物体のうちの1つの物体を特定するための質問を生成する、
     請求項4に記載の情報処理装置。
  7.  コンピュータが、
     移動体に搭載されたカメラによって前記移動体の周辺を撮像した撮像画像と、前記移動体に関わる人によって入力された入力指示文と、前記人によって行われたジェスチャに関するジェスチャ情報を取得し、
     前記入力指示文に第1所定処理を施すことによって、前記入力指示文に含まれる一以上の指示を抽出し、
     前記ジェスチャ情報に第2所定処理を施すことによって、前記人が指示した位置に関する推定分布を生成し、
     前記撮像画像から、前記撮像画像に含まれる各物体に確率が付された確率的シーングラフを生成し、
     前記一以上の指示と、前記推定分布と、前記確率的シーングラフとに基づいて、前記撮像画像における前記人が指示した物体を特定する、
     情報処理方法。
  8.  コンピュータに、
     移動体に搭載されたカメラによって前記移動体の周辺を撮像した撮像画像と、前記移動体に関わる人によって入力された入力指示文と、前記人によって行われたジェスチャに関するジェスチャ情報を取得させ、
     前記入力指示文に第1所定処理を施すことによって、前記入力指示文に含まれる一以上の指示を抽出させ、
     前記ジェスチャ情報に第2所定処理を施すことによって、前記人が指示した位置に関する推定分布を生成させ、
     前記撮像画像から、前記撮像画像に含まれる各物体に確率が付された確率的シーングラフを生成させ、
     前記一以上の指示と、前記推定分布と、前記確率的シーングラフとに基づいて、前記撮像画像における前記人が指示した物体を特定させる、
     プログラム。
PCT/JP2023/034642 2022-09-27 2023-09-25 情報処理装置、情報処理方法、およびプログラム WO2024071006A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022153456 2022-09-27
JP2022-153456 2022-09-27

Publications (1)

Publication Number Publication Date
WO2024071006A1 true WO2024071006A1 (ja) 2024-04-04

Family

ID=90477805

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/034642 WO2024071006A1 (ja) 2022-09-27 2023-09-25 情報処理装置、情報処理方法、およびプログラム

Country Status (1)

Country Link
WO (1) WO2024071006A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013250747A (ja) * 2012-05-31 2013-12-12 Sharp Corp 自走式電子機器
JP2017228080A (ja) * 2016-06-22 2017-12-28 ソニー株式会社 情報処理装置、情報処理方法、及び、プログラム
JP2021522564A (ja) * 2018-04-17 2021-08-30 トヨタ リサーチ インスティテュート,インコーポレイティド 非制約環境において人間の視線及びジェスチャを検出するシステムと方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013250747A (ja) * 2012-05-31 2013-12-12 Sharp Corp 自走式電子機器
JP2017228080A (ja) * 2016-06-22 2017-12-28 ソニー株式会社 情報処理装置、情報処理方法、及び、プログラム
JP2021522564A (ja) * 2018-04-17 2021-08-30 トヨタ リサーチ インスティテュート,インコーポレイティド 非制約環境において人間の視線及びジェスチャを検出するシステムと方法

Similar Documents

Publication Publication Date Title
US11774963B2 (en) Remote operation of a vehicle using virtual representations of a vehicle state
US10489686B2 (en) Object detection for an autonomous vehicle
US20230267701A1 (en) Real-time detection of lanes and boundaries by autonomous vehicles
US11915492B2 (en) Traffic light recognition method and apparatus
US11061406B2 (en) Object action classification for autonomous vehicles
CN107924632B (zh) 信息处理设备、信息处理方法和程序
JP2018190217A (ja) 運転者監視装置、及び運転者監視方法
CN113261009A (zh) 分层机器学习网络架构
CN108345838A (zh) 利用模拟图像训练自动交通灯检测模型
KR102458664B1 (ko) 차량의 주행을 보조하는 전자 장치 및 방법
WO2020031812A1 (ja) 情報処理装置、情報処理方法、情報処理プログラム、及び移動体
JP7462837B2 (ja) 低信頼度の物体検出条件における車両動作のための注釈及びマッピング
WO2024071006A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP7363118B2 (ja) 外部環境認識装置
WO2023230740A1 (zh) 一种异常驾驶行为识别的方法、装置和交通工具
CN113677580A (zh) 用于辅助车辆驾驶的电子设备和方法
JP2021107801A (ja) 自動運転車両、画像表示方法およびプログラム
WO2021193103A1 (ja) 情報処理装置、情報処理方法、及びプログラム
US20240071090A1 (en) Mobile object control device, mobile object control method, training device, training method, generation device, and storage medium
CN116710971A (zh) 物体识别方法和飞行时间物体识别电路
JP2022154108A (ja) 移動体の制御装置、移動体の制御方法、およびプログラム
WO2023188251A1 (ja) 移動体の制御装置、移動体の制御方法、および記憶媒体
US20240071103A1 (en) Image recognition device, image recognition method, and program
WO2024071179A1 (ja) 情報処理装置、情報処理方法、およびプログラム
EP4361961A1 (en) Method of determining information related to road user

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23872231

Country of ref document: EP

Kind code of ref document: A1