WO2024071179A1 - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
WO2024071179A1
WO2024071179A1 PCT/JP2023/035103 JP2023035103W WO2024071179A1 WO 2024071179 A1 WO2024071179 A1 WO 2024071179A1 JP 2023035103 W JP2023035103 W JP 2023035103W WO 2024071179 A1 WO2024071179 A1 WO 2024071179A1
Authority
WO
WIPO (PCT)
Prior art keywords
general knowledge
targets
information
moving
information processing
Prior art date
Application number
PCT/JP2023/035103
Other languages
English (en)
French (fr)
Inventor
アニルドレッディ コンダパッレィ
健太郎 山田
Original Assignee
本田技研工業株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 本田技研工業株式会社 filed Critical 本田技研工業株式会社
Publication of WO2024071179A1 publication Critical patent/WO2024071179A1/ja

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • B60W30/14Adaptive cruise control
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/09Arrangements for giving variable traffic instructions

Definitions

  • the present invention relates to an information processing device, an information processing method, and a program.
  • Patent Document 1 discloses an autonomous driving system that controls an autonomous vehicle that provides a driverless transportation service to users.
  • the technology described in Patent Document 1 controls the vehicle to stop at a target stopping space within a specified boarding and disembarking area.
  • Patent Document 1 stops a vehicle in a predefined target stopping space, and is not capable of more generally determining the vehicle's stopping position from among the countless possible stopping positions on a road.
  • a technology has been known in recent years that uses a trained model obtained by reinforcement learning to identify the movement position from an image captured by a camera mounted on the vehicle.
  • a method using a trained model is a black box, with unintuitive processing details.
  • traffic rules related to vehicle movement are updated, the entire trained model needs to be updated based on a new data set, which can result in low scalability.
  • the present invention has been made in consideration of these circumstances, and one of its objectives is to provide an information processing device, information processing method, and program that can determine the movement position of a moving object using an intuitive and highly scalable method.
  • An information processing device includes an acquisition unit that acquires an image captured by a camera around a position where a moving body is moving, a detection unit that detects one or more targets included in the image and a spatial relationship between the one or more targets, an addition unit that adds general knowledge information to at least one of the detected one or more targets or the spatial relationship, and a determination unit that determines the position where the moving body is moving based on the result of adding the general knowledge information.
  • the general knowledge information is information that predefines rules regarding the travel of the moving object.
  • the detection unit detects the one or more targets from the captured image as objects in a scene graph, and detects the spatial relationship as a spatial relationship between the objects.
  • the adding unit adds the general knowledge information to at least one of the one or more objects or spatial relationships in the scene graph.
  • the determination unit determines the movement position by referring to the result to which the general knowledge information is added and identifying a position among the one or more targets to which the moving body can move.
  • the determination unit determines the movement position by referring to the result to which the general knowledge information is added and identifying the priority order of positions to which the moving body can move among the one or more targets.
  • the information processing device further includes a control unit that causes the moving body to travel to the determined moving position.
  • a computer acquires an image captured by a camera of the surroundings of a moving position of a moving object, detects one or more targets included in the captured image and a spatial relationship between the one or more targets, adds general knowledge information to at least one of the detected one or more targets or the spatial relationship, and determines the moving position of the moving object based on the result of adding the general knowledge information.
  • a program causes a computer to obtain an image of the area around the moving position of a moving object using a camera, detect one or more targets included in the image and the spatial relationship between the one or more targets, add general knowledge information to at least one of the detected one or more targets or the spatial relationship, and determine the moving position of the moving object based on the result of adding the general knowledge information.
  • the movement position of a moving object can be determined using an intuitive and highly scalable method.
  • FIG. 1 is a diagram illustrating an example of the configuration of a moving object 1 and a control device 100 according to an embodiment.
  • FIG. 2 is a perspective view of the moving body 1 seen from above.
  • 1 is a diagram showing an example of a captured image IM captured by an external camera.
  • 1 is a diagram showing an example of one or more targets and spatial relationships detected by a detection unit 120.
  • FIG. FIG. 13 is a diagram showing an example of the configuration of general knowledge information 74.
  • FIG. 11 is a diagram showing an example of general knowledge added by an adding unit 130.
  • 1 is a diagram showing an example of a moving position of a moving object 1 determined by a determination unit 140.
  • FIG. 4 is a flowchart showing an example of a flow of processing executed by the control device 100.
  • the information processing device is mounted on a moving object.
  • the moving object moves on both roadways and a predetermined area different from the roadway.
  • the moving object may be called micromobility.
  • An electric kick scooter is a type of micromobility.
  • the predetermined area is, for example, a sidewalk.
  • the predetermined area may be a part or all of a sidewalk, a bicycle lane, a public open space, etc., or may include all of the sidewalk, sidewalk, bicycle lane, public open space, etc.
  • the information processing device according to this embodiment determines the movement position of the moving object based on an image captured of the surroundings of the moving object. In the following description, as an example, a case will be described in which the information processing device according to this embodiment determines a stopping position as the movement position of the moving object.
  • FIG. 1 is a diagram showing an example of the configuration of a moving body 1 and a control device 100 according to an embodiment.
  • the moving body 1 is equipped with, for example, an external environment detection device 10, a moving body sensor 12, an operator 14, an internal camera 16, a positioning device 18, an HMI 20, a mode switch 22, a moving mechanism 30, a driving device 40, an external notification device 50, a storage device 70, and a control device 100.
  • an external environment detection device 10 for example, an external environment detection device 10, a moving body sensor 12, an operator 14, an internal camera 16, a positioning device 18, an HMI 20, a mode switch 22, a moving mechanism 30, a driving device 40, an external notification device 50, a storage device 70, and a control device 100.
  • the moving body is not limited to a vehicle, and may include a small mobility that runs alongside a walking user to carry luggage or lead a person, and may also include other moving bodies capable of autonomous movement (e.g., a walking robot, etc.).
  • the external world detection device 10 is a device of various types whose detection range is the traveling direction of the moving body 1.
  • the external world detection device 10 includes an external camera, a radar device, a LIDAR (Light Detection and Ranging), a sensor fusion device, etc.
  • the external world detection device 10 outputs information indicating the detection result (images, object positions, etc.) to the control device 100.
  • the external world detection device 10 outputs captured images of the surroundings of the moving body 1 captured by an external camera to the control device 100.
  • the mobile body sensor 12 includes, for example, a speed sensor, an acceleration sensor, a yaw rate (angular velocity) sensor, a direction sensor, and an operation amount detection sensor attached to the operator 14.
  • the operator 14 includes, for example, an operator for instructing acceleration/deceleration (for example, an accelerator pedal or a brake pedal) and an operator for instructing steering (for example, a steering wheel).
  • the mobile body sensor 12 may include an accelerator opening sensor, a brake depression amount sensor, a steering torque sensor, etc.
  • the mobile body 1 may also be provided with an operator 14 of a type other than those described above (for example, a non-annular rotary operator, a joystick, a button, etc.).
  • the internal camera 16 captures an image of at least the head of an occupant of the vehicle 1 from the front.
  • the internal camera 16 is a digital camera that uses an imaging element such as a CCD (Charge Coupled Device) or a CMOS (Complementary Metal Oxide Semiconductor).
  • the internal camera 16 outputs the captured image to the control device 100.
  • the positioning device 18 is a device that measures the position of the mobile body 1.
  • the positioning device 18 is, for example, a GNSS (Global Navigation Satellite System) receiver, and identifies the position of the mobile body 1 based on signals received from GNSS satellites and outputs it as position information.
  • the position information of the mobile body 1 may be estimated from the position of a Wi-Fi base station to which a communication device (described later) is connected.
  • the HMI 20 includes a display device, a speaker, a touch panel, keys, etc.
  • the occupant of the moving body 1 sets the destination of the moving body 1, for example, via the HMI 20, and the control unit 150 described later drives the moving body 1 to the set destination.
  • the HMI 20 includes a voice input device such as a microphone, and the occupant of the moving body 1 inputs instructions to the voice input device by speaking instructions indicating the stopping position of the moving body 1.
  • the HMI 20 analyzes the voice of the input instructions, converts them to text, and outputs them to the control device 100.
  • the HMI 20 may accept instructions input as text by the occupant, for example, via a touch panel, and output the accepted instructions to the control device 100.
  • the mode changeover switch 22 is a switch operated by the occupant.
  • the mode changeover switch 22 may be a mechanical switch or a GUI (Graphical User Interface) switch set on the touch panel of the HMI 20.
  • the mode changeover switch 22 accepts an operation to switch the driving mode to one of the following modes, for example: Mode A: an assist mode in which one of the steering operation and acceleration/deceleration control is performed by the occupant and the other is performed automatically (there may be Mode A-1 in which the steering operation is performed by the occupant and acceleration/deceleration control is performed automatically, and Mode A-2 in which the acceleration/deceleration operation is performed by the occupant and steering control is performed automatically); Mode B: a manual driving mode in which the steering operation and acceleration/deceleration operation are performed by the occupant; or Mode C: an automatic driving mode in which the operation control and acceleration/deceleration control are performed automatically.
  • Mode A an assist mode in which one of the steering operation and acceleration/deceleration control is performed by the occupant and the other is
  • the moving mechanism 30 is a mechanism for moving the mobile body 1 on a road.
  • the moving mechanism 30 is, for example, a group of wheels including steering wheels and drive wheels.
  • the moving mechanism 30 may also be legs for multi-legged walking.
  • the driving device 40 outputs a force to the moving mechanism 30 to move the moving body 1.
  • the driving device 40 includes a motor that drives the driving wheels, a battery that stores the power to be supplied to the motor, and a steering device that adjusts the steering angle of the steering wheels.
  • the driving device 40 may also include an internal combustion engine or a fuel cell as a driving force output means or a power generation means.
  • the driving device 40 may also further include a brake device that utilizes frictional force or air resistance.
  • the external notification device 50 is, for example, a lamp, a display device, a speaker, etc., provided on the outer panel of the mobile unit 1, for notifying the outside of the mobile unit 1 of information.
  • the external notification device 50 operates differently depending on whether the mobile unit 1 is moving on a sidewalk or on a roadway.
  • the external notification device 50 is controlled to emit a lamp when the mobile unit 1 is moving on a sidewalk and not emit a lamp when the mobile unit 1 is moving on a roadway. It is preferable that the light color of this lamp is a color specified by law.
  • the external notification device 50 may be controlled so that the lamp emits green light when the mobile unit 1 is moving on a sidewalk and emits blue light when the mobile unit 1 is moving on a roadway. If the external notification device 50 is a display device, the external notification device 50 displays the message "traveling on the sidewalk" in text or graphics when the mobile unit 1 is traveling on the sidewalk.
  • FW is the steering wheel
  • RW is the driving wheel
  • SD is the steering device
  • MT is the motor
  • BT is the battery.
  • the steering device SD, the motor MT, and the battery BT are included in the drive device 40.
  • AP is the accelerator pedal
  • BP is the brake pedal
  • WH is the steering wheel
  • SP is the speaker
  • MC is the microphone.
  • the moving body 1 shown in the figure is a one-seater moving body, and an occupant P is seated in the driver's seat DS and fastened with a seat belt SB.
  • Arrow D1 is the traveling direction (velocity vector) of the moving body 1.
  • the external environment detection device 10 is provided near the front end of the moving body 1, the internal camera 16 is provided in a position where it can capture an image of the head of the occupant P from in front of the occupant P, and the mode changeover switch 22 is provided in the boss part of the steering wheel WH.
  • An external notification device 50 as a display device is provided near the front end of the moving body 1.
  • the storage device 70 is a non-transitory storage device such as a hard disk drive (HDD), flash memory, or random access memory (RAM). Navigation map information 72, general knowledge information 74, and the like are stored in the storage device 70. In the figure, the storage device 70 is shown outside the frame of the control device 100, but the storage device 70 may be included in the control device 100. The storage device 70 may also be provided on a server (not shown).
  • HDD hard disk drive
  • RAM random access memory
  • the navigation map information 72 is stored in advance in the storage device 70, and is map information including, for example, information on the center of the road, including the roadway and sidewalk, or information on the road boundary.
  • the navigation map information 72 further includes information (such as name, address, area, etc.) on facilities and buildings adjacent to the road boundary. Details of the general knowledge information 74 will be described later.
  • the control device 100 includes, for example, an acquisition unit 110, a detection unit 120, an addition unit 130, a determination unit 140, and a control unit 150.
  • the acquisition unit 110, the detection unit 120, the addition unit 130, the determination unit 140, and the control unit 150 are realized by, for example, a hardware processor such as a CPU (Central Processing Unit) executing a program (software).
  • a hardware processor such as a CPU (Central Processing Unit) executing a program (software).
  • Some or all of these components may be realized by hardware (including circuitry) such as an LSI (Large Scale Integration), an ASIC (Application Specific Integrated Circuit), an FPGA (Field-Programmable Gate Array), or a GPU (Graphics Processing Unit), or may be realized by cooperation between software and hardware.
  • LSI Large Scale Integration
  • ASIC Application Specific Integrated Circuit
  • FPGA Field-Programmable Gate Array
  • GPU Graphics Processing Unit
  • the program may be stored in the storage device 70 in advance, or may be stored in a removable storage medium (non-transient storage medium) such as a DVD or CD-ROM, and may be installed in the storage device 70 by mounting the storage medium in a drive device.
  • a removable storage medium non-transient storage medium
  • the combination of the acquisition unit 110, the detection unit 120, the addition unit 130, and the determination unit 140 is an example of an "information processing device.”
  • the acquisition unit 110 acquires an image IM obtained by an external camera, which is an external environment detection device 10, capturing an image of the surroundings of the moving position of the mobile object 1.
  • FIG. 3 is a diagram showing an example of an image IM captured by the external camera. As an example, FIG. 3 shows a situation in which the image IM captured by the external camera includes a road R and a store S and an aisle P adjacent to the road R.
  • the acquisition unit 110 acquires an instruction to stop the moving body 1 input by an occupant of the moving body 1 via the voice input device, which is the HMI 20.
  • the processes executed by the detection unit 120, the addition unit 130, and the decision unit 140 described below are executed when the acquisition unit 110 acquires an instruction to stop the moving body 1.
  • the detection unit 120 detects one or more targets included in the captured image acquired by the acquisition unit 110 and the spatial relationship between the one or more targets. More specifically, the detection unit 120 detects one or more targets from the captured image as objects belonging to a certain class by performing a known scene graph generation process on the captured image, and detects the spatial relationship between the detected one or more targets as the spatial relationship between the detected objects.
  • a class represents a type of target defined in advance (e.g., road or shop, which will be described later)
  • a spatial relationship between objects represents a type of spatial relationship defined in advance (e.g., adaptive or connect, which will be described later).
  • FIG. 4 is a diagram showing an example of one or more landmarks and spatial relationships detected by the detection unit 120.
  • FIG. 4 shows an example of one or more landmarks and their spatial relationships detected as objects by the detection unit 120 by performing a scene graph generation process on the image shown in FIG. 3.
  • the object shop corresponds to the store S in FIG. 3 and represents a store
  • the object path corresponds to the passage P in FIG. 3 and represents a pedestrian passage
  • the object road (road1, road2, road3) corresponds to the road R in FIG. 3 and represents a roadway.
  • "adjustent” and “connect” represent the spatial relationship between two objects. More specifically, “adjustent” represents that objects of different classes are adjacent to each other, and “connect” represents that objects of the same class are adjacent (i.e., connected). Note that these classes and spatial relationships are merely examples, and different classes and spatial relationships may be obtained depending on the settings in the scene graph generation process. For example, in FIG. 3, a "path” which is a pedestrian walkway and a "road” which is a roadway may both be given the same class (e.g., "path”) as a common concept. Also, for example, instead of “adjustent,” spatial relationships such as “front,” “behind,” “left,” and “right” may be given based on the viewpoint of the camera that captured the image.
  • the adding unit 130 adds general knowledge information 74 regarding the travel of the mobile body 1 to at least one of the targets or spatial relationships detected by the detecting unit 120.
  • FIG. 5 is a diagram showing an example of the configuration of the general knowledge information 74.
  • the general knowledge information 74 is, for example, information such as attributes, relationships, and general knowledge associated with classes.
  • An attribute is a value that defines a property associated with an object represented by a class.
  • the road class has width as an attribute. In this case, for example, when a target belonging to the road class is detected from the captured image, the detecting unit 120 estimates the width of the target by image processing and sets the value of the estimated target width as the width.
  • a relationship is a value that defines a possible relationship with another object. For example, if a road class is adjacent to another object classified as the road class, it has a connect relationship with that other object, whereas if it is adjacent to an object classified as a class different from the road class, it has an adjacent relationship with that object.
  • General knowledge is information that predetermines rules regarding the travel of the mobile body 1, and is information that defines common knowledge regarding objects represented by a certain class. For example, it is generally common knowledge that if there is an object (e.g., a store) adjacent to a road, the vehicle should not stop in front of the object. That is, this common knowledge is defined as "stopping on a road that has an adjacent relationship with another object is not allowed" for the road class of the scene graph. Also, for example, it is generally common knowledge that the vehicle should not stop on roads that are expected to have high traffic volume (e.g., intersections and forks).
  • object e.g., a store
  • this common knowledge is defined as "stopping on a road that has an adjacent relationship with another object is not allowed" for the road class of the scene graph.
  • high traffic volume e.g., intersections and forks
  • this common knowledge can be defined as "stopping on a road where the number of roads with a connect relationship is equal to or greater than a threshold (e.g., 3) is not allowed” for the road class of the scene graph, or "stopping on a road where the number of roads with a connect relationship is equal to or greater than a threshold is allowed only if the vehicle cannot stop on a road where the number of roads with a connect relationship is less than a threshold (e.g., 3)" (conditional permission). Also, for example, it is common knowledge that a vehicle should not stop on a narrow road.
  • a threshold e.g., 3
  • this common knowledge can be defined for the road class of the scene graph as "vehicles cannot stop on roads where the attribute width is less than a threshold value," or, based on pre-stored vehicle width information, as “vehicles cannot stop on roads where the vehicle width divided by the attribute width is equal to or greater than a threshold value.”
  • general knowledge can be defined not only in combination with objects of the scene graph, but also in combination with information about the moving body 1 (e.g., vehicle width, vehicle type, etc.).
  • the general knowledge information 74 is defined in a table format, but the general knowledge information 74 may be defined in any format (e.g., XML, JSON, etc.).
  • the general knowledge does not necessarily have to be limited to content such as common sense.
  • the general knowledge may include knowledge for improving user convenience and knowledge for bringing about business benefits when the mobile body 1 is provided as a service. For example, in bad weather, it is generally more convenient for the user to park on a road facing a place with a roof.
  • this knowledge can be defined by adding an attribute roof (e.g., roof: 1 (roofed)/0 (no roof)) indicating the presence or absence of a roof to the attribute of the road class of the scene graph, and then defining it as "in bad weather, park on a road where roof is 1.”
  • roof e.g., roof: 1 (roofed)/0 (no roof)
  • a communication device not shown mounted on the mobile body 1.
  • this knowledge can be defined by adding an attribute slope indicating the slope of the road (which may be defined as a continuous angle value or a discrete value indicating the degree of slope, for example) to the attributes of the road class in the scene graph, and then defining it as "if it is possible to stop on multiple roads, stop on the road with the smallest slope.”
  • the slope of the road can be estimated, for example, by image processing of the captured image, or the slope information stored in the navigation map information 72 can be obtained.
  • one of the purposes of providing the mobile body 1 as a service may be to increase the income of a store in the service area.
  • this knowledge may be defined as general knowledge of the road class of the scene graph, for example, as "a road in a connect relationship stops at a road in an adjacent relationship with a shop.”
  • an attribute affiliate for example, affiliate: 1 (affiliate)/0 (non-affiliate)
  • affiliate that identifies affiliated stores in the service area
  • the adding unit 130 adds general knowledge to at least one of the landmarks or spatial relationships defined in the scene graph by comparing the scene graph detected by the detection unit 120 with the general knowledge information 74.
  • Figure 6 is a diagram showing an example of adding general knowledge by the adding unit 130. Figure 6 shows a situation in which the adding unit 130 compares the scene graph shown in Figure 4 with the general knowledge information 74 shown in Figure 5 and adds general knowledge to the objects defined in the scene graph.
  • the addition unit 130 adds flag information indicating that stopping is not allowed on road1 and road2 to these objects. Furthermore, based on the general knowledge information 74, the addition unit 130 recognizes that stopping is not allowed in principle on the two objects classified into the shop class and path class, and adds flag information indicating that stopping is not allowed to these objects. As a result, of the five objects defined in the scene graph, only road3 is recognized as an object on which stopping is allowed. In FIG. 6, for ease of explanation, flag information "stop is not allowed” is added to road1 and road2, but any information indicating that stopping is not permitted may be added to these objects.
  • the determination unit 140 refers to the result to which the general knowledge is added, identifies a position where the moving body 1 can stop among one or more targets, and determines the stopping position of the moving body 1 from the identified stopping position.
  • FIG. 7 is a diagram showing an example of a stopping position of the moving body 1 determined by the determination unit 140.
  • the determination unit 140 refers to the scene graph shown in FIG. 6 to which the general knowledge is added by the addition unit 130, and recognizes only road 3 as an object where the moving body 1 can stop. Therefore, as shown in FIG. 7, the determination unit 140 determines the position of the captured image corresponding to road 3 as the stopping position SP. Thereafter, the control unit 150 drives the drive device 40 to drive the moving body 1 to the stopping position SP determined by the determination unit 140. Note that if multiple objects where the moving body 1 can stop are recognized from the scene graph, the determination unit 140 may determine the object that is closest to the moving body 1 among the multiple recognized objects as the stopping position SP.
  • general knowledge may be added to spatial relationships.
  • general knowledge may be added to spatial relationships. For example, based on the general knowledge "stopping is not permitted on roads that have an adjacent relationship with an object of the shop class" stored in the general knowledge information 74, a flag indicating no-stopping information can be added to the adjacent that represents the relationship between an object of the shop class and another object, and the stopping position SP can be determined so that the vehicle will not stop on roads that have an adjacent relationship with another object to which the aforementioned flag has been added. This makes it possible to set in detail whether or not stopping on adjacent roads is permitted for each class of object.
  • flag information indicating that stopping is not possible is added to the object, but the present invention is not limited to this and can also be applied to the case of determining the priority of stopping positions. That is, in addition to flag information indicating that stopping is not possible, score information indicating whether or not it is suitable for stopping may be added. Whether or not it is suitable for stopping can be recognized similarly based on general knowledge information 74. For example, it is better not to stop in front of a store, but it is even worse to stop in the middle of a curve or very close to a narrow side road.
  • the score of a road that is in an adjacent relationship with an object of the shop class may be set so that it is more suitable for stopping than the score of a road that has an attribute curve (for example, curve: 1 (the curvature of the road is equal to or greater than a threshold)/0 (the curvature of the road is less than a threshold)) that is in the middle of a curve.
  • an attribute curve for example, curve: 1 (the curvature of the road is equal to or greater than a threshold)/0 (the curvature of the road is less than a threshold)
  • a score value corresponding to the satisfaction of the condition may be given, and the mobile body 1 may be stopped on the possible road with the highest total score value.
  • the total score value may be calculated only for roads that satisfy a predetermined essential condition (e.g., a condition related to the safety of the passengers), and the mobile body 1 may be stopped on the road that satisfies the predetermined essential condition and has the highest total score value.
  • a predetermined essential condition e.g., a condition related to the safety of the passengers
  • the method of the present invention determines the stopping position SP after adding rules that represent human common sense to a scene graph, making it intuitive and transparent in its processing details. Furthermore, with the method of the present invention, when traffic rules are updated or common sense changes occur, it is sufficient to update the records in the general knowledge information 74, and unlike methods such as reinforcement learning, which impose a heavy load on relearning, it has the advantage of being highly scalable.
  • FIG. 8 is a flowchart showing an example of the flow of processing executed by the control device 100.
  • the processing of the flowchart shown in FIG. 8 is executed, for example, when an occupant of the mobile body 1 inputs an instruction to stop the mobile body 1 via the HMI 20.
  • the acquisition unit 110 acquires an image obtained by an external camera, which is the external environment sensing device 10, capturing an image of the periphery of the moving body 1 (step S100).
  • the detection unit 120 detects one or more targets included in the captured image acquired by the acquisition unit 110 and the spatial relationship between the one or more targets as a scene graph (step S102).
  • the adding unit 130 adds general knowledge to at least one of the detected targets or spatial relationships (step S104).
  • the determining unit 140 determines the stopping position of the moving body 1 based on the result of adding the general knowledge (step S106).
  • the control unit 150 drives the moving body 1 to the determined stopping position (step S108). This ends the processing related to this flowchart.
  • the stopping position of a mobile object is determined based on a scene graph to which general knowledge information has been added.
  • the present invention is not limited to such applications.
  • common knowledge about meetings e.g., "meet at a famous place (in this case, a "famous place” can be extracted from, for example, the search volume of a search engine)" and "don't meet on the road
  • the meeting place can be determined by adding common knowledge about meetings to a scene graph representing a certain area.
  • the present invention is applicable not only to determining a destination such as a stopping position or a meeting point for a mobile body, but also to determining a route to a destination.
  • a route to a stopping position common sense regarding areas where it is better not to drive (for example, "if there is a puddle on the road surface, do not drive over the puddle") can be defined as general information, and by adding common sense regarding areas where it is better not to drive to the scene graph generated from the captured image, it is possible to drive through areas where it is better to avoid driving even if it is physically possible.
  • an external camera which is the external environment detection device 10
  • the present invention is not limited to such a configuration, and it is sufficient if at least the moving body 1 (more specifically, the information processing device included in the moving body 1) can obtain captured images of the area around the moving position.
  • the moving body 1 may obtain captured images showing the area around the moving position of the moving body 1 via a network.
  • a captured image of the area around the moving position of a moving object is obtained by a camera, one or more targets included in the captured image are detected and the spatial relationship between the one or more targets is detected, general knowledge information is added to at least one of the detected one or more targets or the spatial relationship, and the moving position of the moving object is determined based on the result with the general knowledge information added.
  • a storage medium for storing computer-readable instructions
  • a processor coupled to the storage medium;
  • the processor executes the computer-readable instructions to: A captured image of the area around the moving position of the moving object is obtained by a camera; Detecting one or more targets included in the captured image and a spatial relationship between the one or more targets; adding general knowledge information to at least one of the detected one or more targets or spatial relationships; determining a moving position of the moving object based on the result to which the general knowledge information is added;
  • the information processing device is configured as follows.
  • External environment detection device 12 External environment detection device 12: Mobile sensor 14: Operator 16: Internal camera 18: Positioning device 20: HMI 22 Mode changeover switch 30 Movement mechanism 40 Drive device 50 External notification device 70 Storage device 72 Navigation map information 100 Control device 110 Acquisition unit 120 Detection unit 130 Addition unit 140 Decision unit 150 Control unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Traffic Control Systems (AREA)

Abstract

カメラによって移動体の移動位置周辺を撮像した撮像画像を取得する取得部と、前記撮像画像に含まれる一以上の物標と、前記一以上の物標の間の空間関係を検出する検出部と、検出された前記一以上の物標または空間関係の少なくともいずれかに、一般知識情報を付加する付加部と、前記一般知識情報が付加された結果に基づいて、前記移動体の移動位置を決定する決定部と、を備える、情報処理装置。

Description

情報処理装置、情報処理方法、およびプログラム
 本発明は、情報処理装置、情報処理方法、およびプログラムに関する。
 従来、車両の移動位置を自動的に決定する技術が知られている。例えば、特許文献1には、利用者にドライバレス輸送サービスを提供する自動運転車両を制御する自動運転システムが開示されている。特許文献1に記載の技術は、所定の乗降エリア内の目標停車スペースに車両を停車するように制御を行うものである。
特開2021-162886号公報
 しかしながら、特許文献1に記載の技術は、事前に規定された目標停車スペースに車両を停車させるものであり、より一般的に、道路上に存在する無数の停車位置の候補の中から、車両の停車位置を決定することができるものではない。この点について、近年、例えば、強化学習(reinforcement learning)によって得られた学習済みモデルを用いて、車両に搭載されたカメラによって撮像された画像から、移動位置を特定する技術が知られている。しかしながら、このような学習済みモデルを用いた手法は、処理の詳細が非直感的でブラックボックスである。さらに、車両の移動に係る交通ルールが更新された際には、新たなデータセットに基づいて、学習済みモデル全体を更新する必要があり、拡張性が低い場合があった。
 本発明は、このような事情を考慮してなされたものであり、直感的かつ拡張性が高い手法を用いて移動体の移動位置を決定することができる、情報処理装置、情報処理方法、およびプログラムを提供することを目的の一つとする。
 この発明に係る情報処理装置、情報処理方法、およびプログラムは、以下の構成を採用した。
 (1):この発明の一態様に係る情報処理装置は、カメラによって移動体の移動位置周辺を撮像した撮像画像を取得する取得部と、前記撮像画像に含まれる一以上の物標と、前記一以上の物標の間の空間関係を検出する検出部と、検出された前記一以上の物標または空間関係の少なくともいずれかに、一般知識情報を付加する付加部と、前記一般知識情報が付加された結果に基づいて、前記移動体の移動位置を決定する決定部と、を備えるものである。
 (2):上記(1)の態様において、前記一般知識情報は、前記移動体の走行に関するルールを事前に規定した情報であるものである。
 (3):上記(1)の態様において、前記検出部は、前記撮像画像から、前記一以上の物標を、シーングラフにおけるオブジェクトとして検出し、前記空間関係を、前記オブジェクト間の空間関係として検出するものである。
 (4):上記(3)の態様において、前記付加部は、前記シーングラフにおける前記一以上のオブジェクトまたは空間関係の少なくともいずれかに、前記一般知識情報を付加するものである。
 (5):上記(1)の態様において、前記決定部は、前記一般知識情報が付加された結果を参照して、前記一以上の物標のうち、前記移動体が移動可能な位置を特定することによって、前記移動位置を決定するものである。
 (6):上記(1)の態様において、前記決定部は、前記一般知識情報が付加された結果を参照して、前記一以上の物標のうち、前記移動体が移動可能な位置の優先順位を特定することによって、前記移動位置を決定するものである。
 (7):上記(1)から(6)のいずれかの態様において、前記情報処理装置は、前記決定された前記移動位置まで前記移動体を走行させる制御部をさらに備えるものである。
 (8):この発明の別の態様に係る情報処理方法は、コンピュータが、カメラによって移動体の移動位置周辺を撮像した撮像画像を取得し、前記撮像画像に含まれる一以上の物標と、前記一以上の物標の間の空間関係を検出し、検出された前記一以上の物標または空間関係の少なくともいずれかに、一般知識情報を付加し、前記一般知識情報が付加された結果に基づいて、前記移動体の移動位置を決定するものである。
 (9):この発明の別の態様に係るプログラムは、コンピュータに、カメラによって移動体の移動位置周辺を撮像した撮像画像を取得させ、前記撮像画像に含まれる一以上の物標と、前記一以上の物標の間の空間関係を検出させ、検出された前記一以上の物標または空間関係の少なくともいずれかに、一般知識情報を付加させ、前記一般知識情報が付加された結果に基づいて、前記移動体の移動位置を決定させるものである。
 (1)~(9)の態様によれば、直感的かつ拡張性が高い手法を用いて移動体の移動位置を決定することができる。
実施形態に係る移動体1および制御装置100の構成の一例を示す図である。 移動体1を上方から見た透視図である。 外部カメラによって撮像された撮像画像IMの一例を示す図である。 検出部120によって検出される一以上の物標および空間関係の一例を示す図である。 一般知識情報74の構成の一例を示す図である。 付加部130によって付加された一般知識の一例を示す図である。 決定部140によって決定された移動体1の移動位置の一例を示す図である。 制御装置100によって実行される処理の流れの一例を示すフローチャートである。
 以下、図面を参照し、本発明の情報処理装置、情報処理方法、およびプログラムの実施形態について説明する。情報処理装置は、移動体に搭載される。移動体は、車道と、車道と異なる所定領域との双方を移動するものである。移動体は、マイクロモビリティと称される場合がある。電動キックボードはマイクロモビリティの一種である。所定領域とは、例えば歩道である。また、所定領域とは、路側帯や自転車レーン、公開空地などのうち一部または全部であってもよいし、歩道、路側帯、自転車レーン、公開空地などを全て含んでもよい。以下で説明する通り、本実施形態に係る情報処理装置は、移動体の周辺を撮像した撮像画像に基づいて、移動体の移動位置を決定するものである。以下の説明では、一例として、本実施形態に係る情報処理装置が、移動体の移動位置として、停車位置を決定する場合について説明する。
 [全体構成]
 図1は、実施形態に係る移動体1および制御装置100の構成の一例を示す図である。移動体1には、例えば、外界検知デバイス10と、移動体センサ12と、操作子14と、内部カメラ16と、測位装置18と、HMI20と、モード切替スイッチ22と、移動機構30と、駆動装置40と、外部報知装置50と、記憶装置70と、制御装置100とが搭載される。なお、これらの構成のうち本発明の機能を実現するのに必須でない一部の構成が省略されてもよい。移動体は、乗物に限らず、歩くユーザと並走して荷物を運んだり、人を先導したりするような小型モビリティを含んでよく、また、その他の自律移動が可能な移動体(例えば歩行型ロボットなど)を含んでもよい。
 外界検知デバイス10は、移動体1の進行方向を検知範囲とする各種デバイスである。外界検知デバイス10は、外部カメラ、レーダー装置、LIDAR(Light Detection and Ranging)、センサフュージョン装置などを含む。外界検知デバイス10は、検知結果を示す情報(画像、物体の位置等)を制御装置100に出力する。特に、本実施形態において、外界検知デバイス10は、外部カメラによって移動体1の周辺を撮像した撮像画像を制御装置100に出力するものとする。
 移動体センサ12は、例えば、速度センサ、加速度センサ、ヨーレート(角速度)センサ、方位センサ、並びに操作子14に取り付けられた操作量検出センサなどを含む。操作子14は、例えば、加減速を指示するための操作子(例えばアクセルペダルやブレーキペダル)と、操舵を指示するための操作子(例えばステアリングホイール)とを含む。この場合、移動体センサ12は、アクセル開度センサやブレーキ踏量センサ、ステアリングトルクセンサ等を含んでよい。移動体1は、操作子14として、上記以外の態様の操作子(例えば、円環状でない回転操作子、ジョイスティック、ボタン等)を備えてもよい。
 内部カメラ16は、移動体1の乗員の少なくとも頭部を正面から撮像する。内部カメラ16は、CCD(Charge Coupled Device)やCMOS(Complementary Metal Oxide Semiconductor)などの撮像素子を利用したデジタルカメラである。内部カメラ16は、撮像した画像を制御装置100に出力する。
 測位装置18は、移動体1の位置を測位する装置である。測位装置18は、例えば、GNSS(Global Navigation Satellite System)受信機であり、GNSS衛星から受信した信号に基づいて、移動体1の位置を特定し、位置情報として出力する。なお、移動体1の位置情報は、後述する通信装置が接続しているWi-Fi基地局の位置から推定されてもよい。
 HMI20は、表示装置、スピーカ、タッチパネル、キーなどを含む。移動体1の乗員は、例えば、HMI20を介して、移動体1の目的地を設定し、後述する制御部150は、設定された目的地まで移動体1を走行させる。特に、本実施形態において、HMI20は、マイクロフォンなどの音声入力機器を含み、移動体1の乗員は、移動体1の停車位置を指示する指示文を発声することにより音声入力機器に入力するものとする。HMI20は、入力された指示文の音声を解析してテキスト化し、制御装置100に出力する。代替的に、HMI20は、例えば、タッチパネルを介して、乗員がテキストとして入力した指示文を受け付け、受け付けた指示文を制御装置100に出力してもよい。
 モード切替スイッチ22は、乗員により操作されるスイッチである。モード切替スイッチ22は、機械式スイッチであってもよいし、HMI20のタッチパネル上に設定されるGUI(Graphical User Interface)スイッチであってもよい。モード切替スイッチ22は、例えば、モードA:乗員により操舵操作と加減速制御との一方が行われ、他方は自動的に行われるアシストモード(乗員により操舵操作が行われ加減速制御が自動的に行われるモードA-1と、乗員により加減速操作が行われ操舵制御が自動的に行われるモードA-2とがあってよい)、モードB:乗員により操舵操作および加減速操作がなされる手動運転モード、モードC:操作制御および加減速制御が自動的に行われる自動運転モードのいずれかに運転モードを切り替える操作を受け付ける。
 移動機構30は、道路において移動体1を移動させるための機構である。移動機構30は、例えば、操舵輪と駆動輪とを含む車輪群である。また、移動機構30は、多足歩行するための脚部であってもよい。
 駆動装置40は、移動機構30に力を出力して移動体1を移動させる。例えば、駆動装置40は、駆動輪を駆動するモータ、モータに供給する電力を蓄えるバッテリ、操舵輪の操舵角を調整する操舵装置などを含む。駆動装置40は、駆動力出力手段、或いは発電手段として、内燃機関や燃料電池などを備えてもよい。また、駆動装置40は、摩擦力や空気抵抗によるブレーキ装置を更に備えてもよい。
 外部報知装置50は、例えば移動体1の外板部に設けられ、移動体1の外部に向けて情報を報知するためのランプ、ディスプレイ装置、スピーカなどである。外部報知装置50は、移動体1が歩道を移動している状態と、車道を移動している状態とで異なる動作を行う。例えば、外部報知装置50は、移動体1が歩道を移動している場合にランプを発光させ、移動体1が車道を移動している場合にランプを発光させないように制御される。このランプの発光色は、法規で定められた色であると好適である。外部報知装置50は、移動体1が歩道を移動している場合にランプを緑色で発光させ、移動体1が車道を移動している場合にランプを青色で発光させるというように制御されてもよい。外部報知装置50がディスプレイ装置である場合、外部報知装置50は、移動体1が歩道を走行している場合に「歩道走行中である」旨をテキストやグラフィックで表示する。
 図2は、移動体1を上方から見た透視図である。図中、FWは操舵輪、RWは駆動輪、SDは操舵装置、MTはモータ、BTはバッテリである。操舵装置SD、モータMT、バッテリBTは駆動装置40に含まれる。また、APはアクセルペダル、BPはブレーキペダル、WHはステアリングホイール、SPはスピーカ、MCはマイクである。図示する移動体1は一人乗りの移動体であり、乗員Pは運転席DSに着座してシートベルトSBを装着している。矢印D1は移動体1の進行方向(速度ベクトル)である。外界検知デバイス10は移動体1の前端部付近に、内部カメラ16は乗員Pの前方から乗員Pの頭部を撮像可能な位置に、モード切替スイッチ22はステアリングホイールWHのボス部にそれぞれ設けられている。また、移動体1の前端部付近に、ディスプレイ装置としての外部報知装置50が設けられている。
 図1に戻り、記憶装置70は、例えば、HDD(Hard Disk Drive)やフラッシュメモリ、RAM(Random Access Memory)などの非一過性の記憶装置である。記憶装置70には、ナビゲーション地図情報72や一般知識情報74などが格納される。図では記憶装置70を制御装置100の枠外に記載しているが、記憶装置70は制御装置100に含まれるものであってよい。また、記憶装置70は不図示のサーバ上に設けられてもよい。
 ナビゲーション地図情報72は、事前に記憶装置70に記憶され、例えば、車道および歩道を含む道路の中央の情報あるいは道路の境界の情報等を含む地図情報である。ナビゲーション地図情報72は、さらに、道路の境界に接する施設や建物に関する情報(名称、住所、面積など)を含む。一般知識情報74の詳細については後述する。
 [制御装置]
 制御装置100は、例えば、取得部110と、検出部120と、付加部130と、決定部140と、制御部150とを備える。取得部110と、検出部120と、付加部130と、決定部140と、制御部150は、例えば、CPU(Central Processing Unit)などのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。これらの構成要素のうち一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)などのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予め記憶装置70に格納されていてもよいし、DVDやCD-ROMなどの着脱可能な記憶媒体(非一過性の記憶媒体)に格納されており、記憶媒体がドライブ装置に装着されることで記憶装置70にインストールされてもよい。取得部110と、検出部120と、付加部130と、決定部140とを組み合わせたものは、「情報処理装置」の一例である。
 取得部110は、外界検知デバイス10である外部カメラが移動体1の移動位置周辺を撮像して得られた撮像画像IMを取得する。図3は、外部カメラによって撮像された撮像画像IMの一例を示す図である。図3は、一例として、外部カメラが撮像した撮像画像IMが、道路Rと、道路Rに隣接する店舗Sおよび通路Pを含んでいる状況を表している。
 さらに、取得部110は、移動体1の乗員がHMI20である音声入力機器を介して入力した、移動体1の停止指示を取得する。以下で説明する検出部120と、付加部130と、決定部140とによって実行される処理は、取得部110が移動体1の停止指示を取得した際に実行されるものとする。
 検出部120は、取得部110によって取得された撮像画像に含まれる一以上の物標と、一以上の物標の間の空間関係を検出する。より具体的には、検出部120は、撮像画像に対して、既知のシーングラフ(scene graph)生成処理を施すことによって、当該撮像画像から、あるクラスに属するオブジェクトとして一以上の物標を検出し、検出された一以上の物標の間の空間関係を、検出したオブジェクト間の空間関係として検出する。ここで、クラスとは、事前に定義された物標の種別(例えば、後述するroadやshopなど)を表し、オブジェクト間の空間関係とは、事前に定義された空間関係(例えば、後述するadajcentやconnectなど)の種別を表す。これらクラスおよび空間関係は、撮像画像に対して、既知のシーングラフ生成処理を施すことによって特定されるものとする。
 図4は、検出部120によって検出される一以上の物標および空間関係の一例を示す図である。図4は、検出部120が、図3に示す画像に対してシーングラフ生成処理を施すことによってオブジェクトとして検出した一以上の物標、およびその空間関係の一例を表している。図4において、オブジェクトshopは図3の店舗Sに対応して店舗であることを表し、オブジェクトpathは図3の通路Pに対応して歩行者用通路であることを表し、オブジェクトroad(road1、road2、road3)は、図3の道路Rに対応して車道であることを表している。
 さらに、図4のシーングラフにおいて、adajcentとconnectは、2つのオブジェクト間の空間関係を表す。より具体的には、adajcentは、異なる複数のクラスのオブジェクトが隣接していることを表し、connectは、同一クラスのオブジェクトが隣接(すなわち、接続)していることを表す。なお、これらクラスおよび空間関係はあくまでも一例であり、シーングラフ生成処理における設定に応じて、異なるクラスおよび空間関係が得られても良い。例えば、図3において、歩行者用通路であるpathと、車道であるroadとが、いずれも共通の概念として同一のクラス(例えば、path)が与えられても良い。また、例えば、adajcentの代わりに、画像を撮像したカメラの視点を基準として、front(前方)、behind(後ろ)、left(左方)、right(右方)などの空間関係が与えられても良い。
 付加部130は、検出部120によって検出された一以上の物標または空間関係の少なくともいずれかに、移動体1の走行に関する一般知識情報74を付加する。図5は、一般知識情報74の構成の一例を示す図である。一般知識情報74は、例えば、クラスに対して、属性、関係、一般知識などの情報が対応付けられたものである。属性は、クラスによって示されるオブジェクトに付随する性質を定義する値である。例えば、roadクラスは、属性として幅(width)を有する。この場合、例えば、検出部120は、撮像画像からroadクラスに属する物標が検出された場合、画像処理によって当該物標の幅を推定し、推定された物標の幅の値をwidthとして設定する。
 関係は、他のオブジェクトとの取り得る関係を定義する値である。例えば、roadクラスは、同じくroadクラスとして分類された他のオブジェクトと隣接する場合、当該他のオブジェクトとconnectの関係を有する一方、roadクラスとは異なるクラスとして分類された他のオブジェクトと隣接する場合には、当該オブジェクトとadajcentの関係を有する。
 一般知識は、移動体1の走行に関するルールを事前に規定した情報であって、あるクラスによって示されるオブジェクトに関する常識(common knowledge)を定義する情報である。例えば、一般的に、道路に隣接する物体(例えば、店舗)が存在する場合、当該物体の正面には停車しないという常識がある。すなわち、この常識は、シーングラフのroadクラスについて、「他のオブジェクトとadajcentな関係にあるroadには停車不可」と定義される。また、例えば、一般的に、交通量が多いことが想定される道路(例えば、交差点や分岐路)にはなるべく停車しないという常識がある。すなわち、この常識は、シーングラフのroadクラスについて、「connectな関係にあるroadの数が閾値(例えば、3)以上であるroadへの停車は不可」(一切不可)と定義することもできるし、「connectな関係にあるroadの数が閾値(例えば、3)未満であるroadに停車できない場合にのみ、閾値以上であるroadへの停車を許可」(条件付き許可)と定義することもできる。また、例えば、一般的に、幅が狭い道路には停車しないという常識がある。すなわち、この常識は、シーングラフのroadクラスについて、「属性widthが閾値未満のroadには停車不可」と定義することもできるし、事前に記憶された車幅情報に基づいて、「車幅÷属性widthが閾値以上のroadには停車不可」と定義することもできる。このように、一般知識は、シーングラフのオブジェクトのみならず、移動体1に関する情報(例えば、車幅や車種など)と組み合わせて定義することもできる。なお、図5では、説明の便宜上、一般知識情報74がテーブル形式として定義されているが、一般知識情報74は、任意のフォーマット(例えば、XMLやJSONなど)で定義されて良い。
 また、一般知識は必ずしも一般常識のような内容に限らなくてもよい。例えば、一般知識は、ユーザの利便性を向上させるための知識や、移動体1をサービスとして提供する場合のビジネス上の利益をもたらすための知識などを含んでよい。例えば、一般的に、悪天候の場合は屋根がある場所に面した道路に停車した方がユーザの利便性が高い。すなわち、この知識は、シーングラフのroadクラスの属性に、屋根の有無を示す属性roof(例えば、roof:1(屋根あり)/0(屋根なし))を加えるように定義した上で、「悪天候の場合は、roofが1であるroadに停車する」と定義すればよい。この場合、天候が「悪天候」があるか否かは、例えば、撮像画像に写される雨滴を画像処理によって検出することによって判定することもできるし、移動体1が搭載する不図示の通信装置によって天候情報を取得することによって判定することができる。
 また、例えば、一般的に、傾斜が急な道路に停車するよりも、平坦な道路に停車した方がユーザの利便性が高い。すなわち、この知識は、シーングラフのroadクラスの属性に、道路の傾斜を示す属性slope(例えば、角度の連続値として定義されてもよいし、傾斜の度合いを表す離散値として定義されてもよい)を加えるように定義した上で、「複数のroadに停車可能である場合、slopeが最も小さいroadに停車する」と定義すればよい。この場合、道路の傾斜は、例えば、撮像画像への画像処理によって推定することもできるし、ナビゲーション地図情報72に記憶された傾斜情報を取得することもできる。
 同様に、例えば、移動体1をサービスとして提供する目的の一つに、サービス提供地域内の店舗の収入増加が含まれる場合がある。サービス提供地域内の店舗の収入を増加させるためには、例えば、当該店舗の近隣の道路に移動体1を停車し、乗員を店舗へ誘導することが考えられる。すなわち、この知識は、シーングラフのroadクラスの一般知識として、例えば、「connectの関係にあるroadがshopとadajcentな関係にあるroadに停車する」と定義すればよい。また、例えば、シーングラフのshopクラスの属性に、サービス提供地域内の提携店舗を識別する属性affiliate(例えば、affiliate:1(提携)/0(非提携))を定義した上で、「複数のroadに停車可能である場合、connectの関係にあるroadがaffiliateが1であるshopとadajcentな関係にあるroadに停車する」と定義すればよい。この場合、あるshopクラスのオブジェクトのaffiliateが1であるか否かは、撮像画像に写される当該オブジェクトの外観情報やロゴ情報によって判定することができる。
 また、これらのような知識を一般知識情報74に組み込む場合に、交通ルール上の常識のような内容と、ユーザの利便性やビジネス上の利益などの内容とを別のデータとして定義して良い。これにより、交通ルール上の常識のような簡単には変わることがない情報と、ユーザの利便性やビジネス上の利益などの比較的変わりやすい情報を分けて管理することができ、拡張性が高いという利点がある。
 付加部130は、検出部120によって検出されたシーングラフと一般知識情報74とを照合することによって、シーングラフにおいて定義された一以上の物標または空間関係の少なくともいずれかに一般知識を付加する。図6は、付加部130による一般知識の付加の一例を示す図である。図6は、付加部130が、図4に示すシーングラフと図5に示す一般知識情報74とを照合して、当該シーングラフにおいて定義されたオブジェクトに一般知識を付加した状況を表している。
 より具体的には、roadクラスに分類された3つのオブジェクト(road1、road2、road3)のうち、road1がshopとadajcentな関係にあり、road2がpathとadajcentな関係にある。そのため、付加部130は、一般知識情報74に格納された一般知識「他のオブジェクトとadajcentな関係にあるroadには停車不可」に基づいて、road1とroad2には停車不可であることを示すフラグ情報をこれらのオブジェクトに付加する。さらに、付加部130は、一般知識情報74に基づいて、shopクラスおよびpathクラスに分類された2つのオブジェクトには原則的に停車不可であることを認識し、これらのオブジェクトには停車不可であることを示すフラグ情報を付加する。この結果、シーングラフにおいて定義された5つのオブジェクトのうち、road3のみが停車可能なオブジェクトとして認識される。なお、図6では、説明の便宜上、フラグ情報として「stop is not allowed」がroad1とroad2に付加されているが、これらのオブジェクトに停車不可であることを示す任意の情報が付加されて良い。
 決定部140は、一般知識が付加された結果を参照して、一以上の物標のうち、移動体1が停車可能な位置を特定して、特定された停車可能な位置から、移動体1の停車位置を決定する。図7は、決定部140によって決定された移動体1の停車位置の一例を示す図である。例えば、決定部140は、付加部130によって一般知識が付加された図6に示すシーングラフを参照して、road3のみを停車可能なオブジェクトとして認識する。そのため、決定部140は、図7に示す通り、road3に対応する撮像画像の位置を停車位置SPとして決定する。その後、制御部150は、駆動装置40を駆動して、決定部140によって決定された停車位置SPまで移動体1を走行させる。なお、シーングラフから停車可能なオブジェクトが複数認識された場合、決定部140は、認識された複数のオブジェクトのうち、移動体1からの距離が最も近いオブジェクトを停車位置SPとして決定しても良い。
 また、ここでは物標に一般知識を付加する場合について説明したが、一般知識を付加する対象はこれに限定されない。すなわち、一般知識は空間関係に付加されてもよく、例えば、一般知識情報74に格納された一般知識「shopクラスのオブジェクトとadjcentな関係にあるroadには停車不可」に基づいて、shopクラスのオブジェクトと他のオブジェクトの関係を表わすadjcentに停車不可情報を示すフラグを付与し、他のオブジェクトと前述のフラグが付与されたadjcentの関係を持つroadには停車しないように停車位置SPを決定すればよい。これにより、オブジェクトのクラスごとに隣接したroadへの停車の可否を細かく設定することができる。
 なお上記の説明では、移動体の停車位置を決定するため、オブジェクトに停車不可であることを示すフラグ情報を付与したが、本発明はこれに限定されず、停車位置の優先順位を決定する場合にも適用可能である。すなわち、停車不可であることを示すフラグ情報の他に、停車に適している、または適していないことを示すスコア情報を付加してもよい。停車に適している、または適していないことは、同様に一般知識情報74に基づいて認識すればよい。例えば、店舗の前には停車しない方がよいが、カーブの途中や道幅が細い脇道のすぐ近くなどは、より停車すべきでない。これらの優先順位に関する知識は一般知識情報74に含まれてよく、shopクラスのオブジェクトとadjcentな関係にあるroadのスコアの方が、カーブの途中であるという属性curve(例えば、curve:1(道路の曲率が閾値以上である)/0(道路の曲率が閾値未満である))を持つroadのスコアよりも、停車に適したスコアが高くなるように設定すればよい。より一般的に、上記で説明したroof、slope、curveなどの各属性に関する条件を満たす場合に、当該条件を満たしたことに対応するスコア値を与え、合計のスコア値が最も高い停車可能なroadに移動体1を停車させてもよい。その場合、所定の必須条件(例えば、乗員の安全性に関わる条件)を満たすroadについてのみ、合計のスコア値を算出し、所定の必須条件を満たし、かつ最も合計のスコア値が高いroadに移動体1を停車させてもよい。これにより、移動体1がユーザが所望するエリアに停車することができなくなる事態を防ぎつつ、より適切な位置に停車することができる。
 このように、非直感的で処理の詳細がブラックボックスである強化学習などの手法とは異なり、本発明手法は、人間の常識を表現したルールをシーングラフに付加した上で停車位置SPを決定するため、直感的かつ処理の詳細が透明である。さらに、本発明手法では、交通ルールの更新や常識の変化が発生した際には、一般知識情報74のレコードを更新すればよく、再学習に多大な負荷がかかる強化学習などの手法とは異なり、拡張性が高いという利点がある。
 次に、図8を参照して、制御装置100によって実行される処理の流れについて説明する。図8は、制御装置100によって実行される処理の流れの一例を示すフローチャートである。図8に示すフローチャートの処理は、例えば、移動体1の乗員が、HMI20を介して移動体1の停車指示を入力した際に実行されるものである。
 まず、取得部110は、外界検知デバイス10である外部カメラが移動体1の周辺を撮像して得られた撮像画像を取得する(ステップS100)。次に、検出部120は、取得部110によって取得された撮像画像に含まれる一以上の物標と、一以上の物標の間の空間関係をシーングラフとして検出する(ステップS102)。
 次に、付加部130は、検出された物標または空間関係の少なくともいずれかに一般知識を付加する(ステップS104)。次に、決定部140は、一般知識が付加された結果に基づいて、移動体1の停車位置を決定する(ステップS106)。次に、制御部150は、決定された停車位置まで移動体1を走行させる(ステップS108)。これにより、本フローチャートに係る処理が終了する。
 なお、上記の実施形態では、一般知識情報が付加されたシーングラフに基づいて、移動体の停車位置を決定する例について説明した。しかし、本発明は、そのような用途に限定されない。例えば、待ち合わせ場所を決定する際に、一般知識情報として、待ち合わせに関する常識(例えば、「有名な場所で待ち合わせをする(この場合の「有名な場所」とは、例えば検索エンジンの検索ボリュームなどから抽出することができる)」、「道路上では待ち合わせをしない」など)を規定し、ある地域を表現したシーングラフに対して、待ち合わせに関する常識を付加することによって、待ち合わせ場所を決定することができる。
 また、本発明は移動体の停車位置や待ち合わせなどの目的地を決定する場合だけでなく、目的地までの経路を決定する際にも適用可能である。例えば、停車位置までの経路を決定する際に、一般情報として、走行しない方がよい領域に関する常識(例えば、「路面に水溜まりができている場合、水溜まりの上は通過しない」など)を規定し、撮像画像から生成したシーングラフに対して、走行しない方がよい領域に関する常識を付加することによって、物理的には走行可能であっても避けて走行した方がよい領域を回避して走行することができる。
 また、上記の実施形態では、外界検知デバイス10である外部カメラが移動体1に搭載され、移動体1の移動位置周辺を撮像する例について説明した。しかし、本発明はそのような構成に限定されず、少なくとも、移動体1(より詳細には、移動体1に含まれる情報処理装置)が移動位置周辺の撮像画像を取得できればよい。例えば、移動体1は、移動体1の移動位置周辺を表す撮像画像を、ネットワークを介して取得してもよい。
 以上の通り説明した本実施形態によれば、カメラによって移動体の移動位置周辺を撮像した撮像画像を取得し、撮像画像に含まれる一以上の物標と、当該一以上の物標の間の空間関係を検出し、検出された一以上の物標または空間関係の少なくともいずれかに、一般知識情報を付加し、一般知識情報が付加された結果に基づいて、移動体の移動位置を決定する。これにより、これにより、直感的かつ拡張性が高い手法を用いて移動体の移動位置を決定することができる。
 上記説明した実施形態は、以下のように表現することができる。
 コンピュータによって読み込み可能な命令(computer-readable instructions)を格納する記憶媒体(storage medium)と、
 前記記憶媒体に接続されたプロセッサと、を備え、
 前記プロセッサは、前記コンピュータによって読み込み可能な命令を実行することにより(the processor executing the computer-readable instructions to:)
 カメラによって移動体の移動位置周辺を撮像した撮像画像を取得し、
 前記撮像画像に含まれる一以上の物標と、前記一以上の物標の間の空間関係を検出し、
 検出された前記一以上の物標または空間関係の少なくともいずれかに、一般知識情報を付加し、
 前記一般知識情報が付加された結果に基づいて、前記移動体の移動位置を決定する、
 ように構成されている、情報処理装置。
 以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
10 外界検知デバイス
12 移動体センサ
14 操作子
16 内部カメラ
18 測位装置
20 HMI
22 モード切替スイッチ
30 移動機構
40 駆動装置
50 外部報知装置
70 記憶装置
72 ナビゲーション地図情報
100 制御装置
110 取得部
120 検出部
130 付加部
140 決定部
150 制御部

Claims (9)

  1.  カメラによって移動体の移動位置周辺を撮像した撮像画像を取得する取得部と、
     前記撮像画像に含まれる一以上の物標と、前記一以上の物標の間の空間関係を検出する検出部と、
     検出された前記一以上の物標または空間関係の少なくともいずれかに、一般知識情報を付加する付加部と、
     前記一般知識情報が付加された結果に基づいて、前記移動体の移動位置を決定する決定部と、を備える、
     情報処理装置。
  2.  前記一般知識情報は、前記移動体の走行に関するルールを事前に規定した情報である、
     請求項1に記載の情報処理装置。
  3.  前記検出部は、前記撮像画像から、前記一以上の物標を、シーングラフにおけるオブジェクトとして検出し、前記空間関係を、前記オブジェクト間の空間関係として検出する、
     請求項1に記載の情報処理装置。
  4.  前記付加部は、前記シーングラフにおける前記一以上のオブジェクトまたは空間関係の少なくともいずれかに、前記一般知識情報を付加する、
     請求項3に記載の情報処理装置。
  5.  前記決定部は、前記一般知識情報が付加された結果を参照して、前記一以上の物標のうち、前記移動体が移動可能な位置を特定することによって、前記移動位置を決定する、
     請求項1に記載の情報処理装置。
  6.  前記決定部は、前記一般知識情報が付加された結果を参照して、前記一以上の物標のうち、前記移動体が移動可能な位置の優先順位を特定することによって、前記移動位置を決定する、
     請求項1に記載の情報処理装置。
  7.  前記決定された前記移動位置まで前記移動体を走行させる制御部をさらに備える、
     請求項1から6のいずれか1項に記載の情報処理装置。
  8.  コンピュータが、
     カメラによって移動体の移動位置周辺を撮像した撮像画像を取得し、
     前記撮像画像に含まれる一以上の物標と、前記一以上の物標の間の空間関係を検出し、
     検出された前記一以上の物標または空間関係の少なくともいずれかに、一般知識情報を付加し、
     前記一般知識情報が付加された結果に基づいて、前記移動体の移動位置を決定する、
     情報処理方法。
  9.  コンピュータに、
     カメラによって移動体の移動位置周辺を撮像した撮像画像を取得させ、
     前記撮像画像に含まれる一以上の物標と、前記一以上の物標の間の空間関係を検出させ、
     検出された前記一以上の物標または空間関係の少なくともいずれかに、一般知識情報を付加させ、
     前記一般知識情報が付加された結果に基づいて、前記移動体の移動位置を決定させる、
     プログラム。
PCT/JP2023/035103 2022-09-29 2023-09-27 情報処理装置、情報処理方法、およびプログラム WO2024071179A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022156063 2022-09-29
JP2022-156063 2022-09-29

Publications (1)

Publication Number Publication Date
WO2024071179A1 true WO2024071179A1 (ja) 2024-04-04

Family

ID=90477858

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/035103 WO2024071179A1 (ja) 2022-09-29 2023-09-27 情報処理装置、情報処理方法、およびプログラム

Country Status (1)

Country Link
WO (1) WO2024071179A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017030481A (ja) * 2015-07-31 2017-02-09 アイシン精機株式会社 駐車支援装置
JP2019132683A (ja) * 2018-01-31 2019-08-08 パイオニア株式会社 駐車位置抽出装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017030481A (ja) * 2015-07-31 2017-02-09 アイシン精機株式会社 駐車支援装置
JP2019132683A (ja) * 2018-01-31 2019-08-08 パイオニア株式会社 駐車位置抽出装置

Similar Documents

Publication Publication Date Title
US10867510B2 (en) Real-time traffic monitoring with connected cars
US20230176593A1 (en) Autonomous and user controlled vehicle summon to a target
US11709490B1 (en) Behavior and intent estimations of road users for autonomous vehicles
CN110709304B (zh) 车辆控制系统、车辆控制方法及存储介质
US20190144004A1 (en) Display system, display method, and storage medium
GB2609767A (en) Methods for passenger authentication and door operation for autonomous vehicles
CN108973988B (zh) 车辆控制系统、车辆控制方法及存储介质
CN112823372A (zh) 排队进入上车和下车位置
JP6827378B2 (ja) 車両制御システム、車両制御方法、およびプログラム
CN109952491B (zh) 生成由车辆的感知系统检测的对象的表示的方法和系统
JP2021536404A (ja) 停止した自律型車両によって引き起こされる周辺道路利用者への迷惑の低減
WO2020031812A1 (ja) 情報処理装置、情報処理方法、情報処理プログラム、及び移動体
KR20220081380A (ko) 자율주행 차량을 위한 신호등 검출 및 분류
WO2024071179A1 (ja) 情報処理装置、情報処理方法、およびプログラム
US20220314987A1 (en) Mobile object control device and mobile object control method
US20220315026A1 (en) Mobile object control device and mobile object control method
CN115140084A (zh) 移动体的控制装置、移动体的控制方法及存储介质
WO2022210135A1 (ja) 移動体の制御装置、移動体の制御方法、および記憶媒体
JP2022129013A (ja) 移動体制御システム、移動体、制御方法、およびプログラム
WO2024128225A1 (ja) 移動体制御装置、移動体制御方法、および記憶媒体
US20240071103A1 (en) Image recognition device, image recognition method, and program
WO2023187893A1 (ja) 移動体の制御装置、移動体の制御方法、および記憶媒体
WO2023188251A1 (ja) 移動体の制御装置、移動体の制御方法、および記憶媒体
WO2023188090A1 (ja) 移動体の制御装置、移動体の制御方法、および記憶媒体
WO2024071006A1 (ja) 情報処理装置、情報処理方法、およびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23872401

Country of ref document: EP

Kind code of ref document: A1