WO2024057505A1 - 移動体支援装置および移動体システム - Google Patents

移動体支援装置および移動体システム Download PDF

Info

Publication number
WO2024057505A1
WO2024057505A1 PCT/JP2022/034631 JP2022034631W WO2024057505A1 WO 2024057505 A1 WO2024057505 A1 WO 2024057505A1 JP 2022034631 W JP2022034631 W JP 2022034631W WO 2024057505 A1 WO2024057505 A1 WO 2024057505A1
Authority
WO
WIPO (PCT)
Prior art keywords
mobile
support device
scene graph
state
scene
Prior art date
Application number
PCT/JP2022/034631
Other languages
English (en)
French (fr)
Inventor
直希 細見
真規 義平
アニルド レッディ コンダパッレィ
Original Assignee
本田技研工業株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 本田技研工業株式会社 filed Critical 本田技研工業株式会社
Priority to PCT/JP2022/034631 priority Critical patent/WO2024057505A1/ja
Publication of WO2024057505A1 publication Critical patent/WO2024057505A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/14Traffic control systems for road vehicles indicating individual free spaces in parking areas

Definitions

  • the present invention relates to a mobile support device, and a mobile system configured by the mobile support device and a mobile body having a movement function.
  • a method of generating a scene graph from an image has been proposed (for example, see Non-Patent Documents 1 and 2).
  • the steps include inputting an image, detecting an object from the image using a deep learning-based object detection method, detecting a context situation in the image using PLSI, and Using a learning-based relationship detection and ontology method, detecting relationships between objects and generating a scene graph for an input image are performed.
  • the "right" space includes a space in which a moving object can stop and a space in which it cannot. For example, if ⁇ to the right of ⁇ '' is a vacant lot, you will be stopped, and if it is a crosswalk, you will not be able to stop.
  • the present invention takes into consideration the intention of the person who specified the space in an ambiguous instruction based on the destination location, and aims at an appropriate area for the mobile object to achieve the designated state according to the instruction.
  • the purpose is to provide a mobile system that can explore the surroundings of a location.
  • the mobile support device of the present invention includes: instructions to a mobile object regarding realization of a designated state in a designated space around a designated location; Position information of the mobile object; By inputting a plurality of scene graphs created based on images around the specified place acquired based on the positional relationship between the moving object and the specified place to a trained model, the specified place is used as a reference. Outputs one area candidate among the plurality of area candidates existing in the plurality of surrounding spaces.
  • FIG. 2 is an explanatory diagram regarding the configuration of a learning device and a mobility support device.
  • An explanatory diagram of the trained model generation function An explanatory diagram regarding an image including multiple objects.
  • FIG. 3 is an explanatory diagram illustrating a layout scene graph.
  • FIG. 3 is an exemplary explanatory diagram of an instruction scene graph. A conceptual illustration of sequential convolution and pooling of scene graphs.
  • An explanatory diagram regarding a graph neural network A conceptual illustration of sequential convolution and pooling of scene graphs input to a graph neural network.
  • FIG. 4 is an explanatory diagram regarding correct answer data in driving scenes in which obstacles exist in different ways.
  • FIG. 2 is an explanatory diagram regarding an area candidate output function of the mobile support system.
  • the mobile body 20 and the mobile support device 200 constitute a "mobile system”.
  • the database 102 stores and stores environmental images representing the surroundings of the moving body 20 (corresponding to "images" in the present invention), three-dimensional high-definition maps (map information), graph neural network graphs, trained models, etc. do.
  • the database 102 is configured by a device or database server separate from the learning device 100 and the mobile support device 200, but it is a component of the learning device 100 and/or the mobile support device 200. Good too.
  • the learning device 100 includes a first scene graph creation element 110 and a trained model generation element 120.
  • Each of the first scene graph generation element 110 and the trained model generation element 120 is configured of an arithmetic processing element such as a CPU and/or a processor core, a storage element such as a ROM and/or RAM, an input/output interface circuit, etc. has been done.
  • Each of the first scene graph generation element 110 and the learned model generation element 120 is configured to perform a specified task such as scene graph generation and learned model generation, respectively, which will be described later.
  • a functional element is configured to perform a specified task, which means that the hardware comprising the functional element reads software and, if necessary, data from the storage element and stores that data or other data in accordance with the software. It means executing the specified task by performing arithmetic processing on data.
  • the mobile support device 200 includes a second scene graph creation element 210 and an area candidate output element 220.
  • Each of the second scene graph creation element 210 and the area candidate output element 220 includes an arithmetic processing element such as a CPU and/or a processor core, a storage element such as a ROM and/or RAM, an input/output interface circuit, etc. ing.
  • Each of the second scene graph creation element 210 and the area candidate output element 220 is configured to perform specified tasks such as scene graph creation and trained model generation, respectively, which will be described later.
  • the learning device 100 and the mobile support device 200 may be configured by the same device.
  • the first scene graph creation element 110 and the second scene graph creation element 210 may be configured by a single scene graph creation element.
  • the mobile object 20 is constituted by a vehicle or robot having an autonomous movement function, a positioning function, and a wireless communication function.
  • the moving body 20 includes a moving body control device 21 and an imaging device 22.
  • the mobile object 20 may be constituted by an information processing terminal (for example, a smart phone) that is carried by a user and passively moves as the user moves.
  • the mobile support device 200 may be configured by a device (for example, the mobile control device 21) mounted on the mobile body 20.
  • the mobile object control device 21 is composed of arithmetic processing elements such as a CPU and/or processor core, storage elements such as ROM and/or RAM, input/output interface circuits, and the like.
  • the mobile object control device 21 is configured to control the autonomous movement function, positioning function, and wireless communication function of the mobile object 20.
  • the imaging device 22 is mounted on the moving body 20 so as to image the moving direction of the moving body 20 or the state in front of the moving body 20.
  • the moving body 20 may have a function of adjusting the imaging direction (optical axis direction) of the imaging device 22 and/or a function of measuring the imaging direction.
  • the learned model generation function provides instructions regarding the specified state of the moving object 20 in the specified space around the specified place, and the state of the specified place and its surroundings obtained according to the position of the moving object 20 and the direction facing the specified place.
  • a trained model is generated based on the environmental image in which the .
  • an instruction by the user to the mobile object 20 through the input interface of a device owned by the user is transmitted from the device to the learning device 100, and is recognized by the first scene graph creation element 110 (see FIG. 2/STEP100).
  • the environmental image may be stored and held in the database 102, or may be directly transmitted from the device to the learning device 100.
  • the "instruction” is an instruction regarding the designated state of the mobile object 20 in the designated space around the designated location.
  • an instruction such as "Please stop on the right side of It is recognized as an instruction regarding the realization of
  • the instruction "Please decelerate before Y” is related to the realization of a state in which the moving body 20 starts decelerating as a designated state in a space in front of the designated space around the designated place represented by the word Y. Recognized as an instruction.
  • the instruction "please pass to the left of Z” is related to the realization of a passing state as a designated state of the moving body 20 in the left space as a designated space around the designated place represented by the word Z. Recognized as an instruction.
  • the user who issues the instruction may be a user who is on board the moving body 20 or a user who is in a different location from the moving body 20.
  • the user's instructions may be voice instructions or gesture instructions.
  • the imaging device 22 mounted on the moving object 20 displays the designated place and the surrounding state acquired according to the position of the moving object 20 and the direction in which the designated place is viewed (imaging direction of the imaging device 22).
  • An environmental image is acquired (FIG. 2/STEP 102).
  • the environmental image may be stored and held in the database 102, or may be directly transmitted from the moving body 20 to the learning device 100.
  • the building X 0 (building), the sidewalk grids X 11 , It includes the road grids X 21 to X 26 extending outside the sidewalk grids X 11 and X 12 when viewed from 0 , and the trees X 41 and X 42 standing on the boundaries of the sidewalk grid
  • An image of the environment is acquired.
  • the environmental image illustrated in FIG. 3 further includes a vehicle X 5 and pedestrians X 61 to X 64 as traffic participants.
  • a state scene graph SG1 is created by the first scene graph creation element 110 based on the position of the moving object 20 (at the time the environmental image is acquired), the environmental image, and the map information (FIG. 2/STEP 111).
  • the map information is, for example, a three-dimensional high-definition map, including static information such as three-dimensional structures, road surface information, and lane information, where the types and/or attributes of objects or things are defined to be distinguished by labels. has been done. For example, objects that are higher than a certain height from the ground and objects that are spread out along the terrain are distinguished by labels.
  • a label is defined by a label area (the area occupied by the labeled object in the environmental image) and a label ID.
  • the first-ranked object "an object that is higher than a certain height from the ground,” is classified as a second-ranked object, such as a building, a columnar structure, and a tree.
  • the second-ranked object, "building,” is classified as a third-ranked object, such as a side wall, a store sign, a window, and an entrance/exit for people or vehicles.
  • the "column structure”, which is the second-ranked object, is classified as a third-ranked object, such as a traffic light pole, a traffic sign pole, and a communication equipment pole, for example. After the third-ranked object, the objects may be further classified.
  • the first-ranked object is classified as the second-ranked object, such as roadways and sidewalks, for example.
  • “Roadway”, which is the second-ranked object is divided into a plurality of roadway grids, which are the third-ranked objects, and each roadway grid is defined as an individual object.
  • the third-ranked object, "roadway grid,” is classified into fourth-ranked objects, such as road markings such as crosswalks, center lines, lane boundaries, and zebra zones.
  • the second-ranked object, "sidewalk” is divided into a plurality of sidewalk grids, and each sidewalk grid is defined as an individual object.
  • the third-ranked object, "sidewalk grid” is classified as the fourth-ranked object, such as road markings such as Braille blocks. After the fourth-ranked object, the objects may be further classified.
  • a label defined in the three-dimensional high-definition map is assigned to each object reflected in the environmental image. Labels are also assigned to objects that correspond to dynamic information, such as vehicles on a roadway and pedestrians on a sidewalk or roadway (crosswalk). In the state scene graph SG1, each object (or its label) to which a label is assigned is defined as a primary node.
  • FIG. 4 shows the result of static objects (buildings, sidewalk grids, and roadway grids) of a three-dimensional high-definition map being projected as a two-dimensional map.
  • the two-dimensional map illustrated in FIG. 4 includes two static objects, a building X 0 (building) and a building X0, among the objects included in the environmental image illustrated in FIG. 3. It includes sidewalk grids X 11 , X 12 and roadway grids X 21 to X 26 extending along the lower edge of the side surface.
  • the adjacency relationship of each object is defined as an edge.
  • the adjacency relationship between objects indicates in which direction (for example, front, rear, left, and right directions) other objects adjacent to one object exist.
  • the feature amount of the primary node is defined according to the relative arrangement relationship between the object and the moving body 20 and the space occupation mode of the object.
  • the relative positional relationship between the object and the moving body 20 depends on the center or center of gravity of the object (or label), the relative distance between the moving body 20 (or the imaging device 22) and the object, and the moving direction or posture of the moving body 20. It is defined by the azimuth angle of the direction in which the object exists based on the corresponding azimuth.
  • the space occupation mode of an object is determined, for example, as to whether a static object (a building, a columnar structure, a tree, etc.) occupies an area in a form that does not allow passage of the moving body 20 (a certain distance from the ground). It is defined by an occupancy flag (0: not occupied, 1: occupied) indicating whether the height corresponds to an object with a certain height or not. Furthermore, the space occupancy mode of the object is determined by an interference flag (0...absent , 1...existence).
  • the mobile object 20 can pass through the area corresponding to the object; Since there is a possibility of interference with the other vehicle, etc., the occupancy flag is "0" but the interference flag is defined as "1". However, for roadway grids where stopping is not permitted in view of road markings (e.g., crosswalks, parking prohibited), "1" is defined as the occupancy flag when the specified state of the moving object 20 corresponds to the stopped state. or granted.
  • the feature amount of the primary node may be further defined by "label area” and "label ID.”
  • the scene graph SG1 illustrated in FIG. 5 includes objects o 01 , o 02 , and o 03 representing the state of a designated location (e.g., a designated store or the building in which it is located), and a first surrounding area based on the designated location.
  • Objects o 11 , o 12 and o 13 representing the state of the space (e.g. the space on the south side of the building), and object o 21 representing the state of the first surrounding space (e.g.
  • objects o a1 , o a2 and o a3 representing the state of the area candidate (e.g. road grid)
  • object o b1 representing the state of the specified object (e.g. traffic participant)
  • o b2 , o b3 and o b4 are included.
  • the state scene graph SG1 is convoluted and pooled by the first scene graph creation element 110, and a layout scene graph SG2 is created (FIG. 2/STEP 112).
  • a layout scene graph SG2 is created.
  • the granularity of the layout scene graph SG2 is lower than the granularity of the state scene graph SG1 before convolution.
  • Each of the primary node clusters corresponding to each of the "designated location”, “first surrounding space”, “second surrounding space”, “area candidates in multiple surrounding spaces", and "designated object” are represented.
  • the primary node cluster corresponding to the specified location is the primary node n 1 ( o01) , n 1 (o02) and n 1 (o03) .
  • the adjacency relationships of object clusters corresponding to the primary node clusters represented by each are represented.
  • the edge between the secondary node n 2 (o0) corresponding to the "designated place” and n 2 (o2) corresponding to the "second surrounding space” indicates that the second surrounding space is on the east side of the designated place. It represents.
  • Each of the secondary nodes n 2 (o0) , n 2 (o1) , n 2 (o2) , n 2 (oa), and n 2 (ob) is It has a feature amount (as a result of aggregating the feature amounts of the primary node cluster) determined by the following.
  • the layout scene graph SG2 is convoluted and pooled by the first scene graph creation element 110, thereby creating an instruction scene graph SG3 (FIG. 2/STEP 113).
  • an instruction scene graph SG3 schematically shown in FIG. 7 is created.
  • the granularity of the instruction scene graph SG3 is lower than the granularity of the layout scene graph SG2 before convolution.
  • the "specified location" included in the user's instruction is determined by each of the tertiary nodes n 3 (w0) , n 3 (w1) , and n 3 (w2) that define the instruction scene graph SG3 shown in FIG. , "designated space” and "designated state", respectively.
  • the secondary node cluster corresponding to the specified space is the secondary nodes n 2 (o1) and n 2 ( o2) and secondary nodes associated with these by edges.
  • the edges defining the instruction scene graph SG3 shown in FIG. 7 represent adjacency relationships between words.
  • Each of the tertiary nodes n 3 (w0) , n 3 (w1) , and n 3 (w2) has a feature amount that is determined according to the feature amount of the secondary node cluster that is the convolution target.
  • a state scene graph SG1 (primary scene graph) is generated by convolving and pooling the initial scene graph SG0, and a layout scene graph SG1 is generated by convolving and pooling the state scene graph SG1.
  • a procedure is conceptually shown in which SG2 (secondary scene graph) is generated, and layout scene graph SG2 is convolved and pooled to generate instruction scene graph SG3 (cubic scene graph).
  • the general-purpose "Aggregate”, “Update”, or “Readout” is used as the convolution method, and "average pooling" is used as the pooling method.
  • Each of the scene graphs SG0, SG1, SG2, and SG2 shown in FIG. 8 includes a building X0 as a destination or designated place facing a three-way intersection (or T-junction), and a building Parking spaces X 21 , X 22 and X 24 (as a road grid) are included.
  • the parking space X 22 exists in front of the building X 0 (downward in the figure), and the parking space X 24 exists on the side of the building X 0 (in FIG. 8 Parking space X21 is located on the road that does not face building X0 .
  • an obstacle exists in parking space X21 .
  • the initial scene graph SG0 shown in FIG. 8 includes a plurality of initial nodes n 0(k) arranged along the lane in which a vehicle approaching the three-way intersection from the left can travel. There is.
  • the goal building X 0 is regarded as a node.
  • Location information obtained by discretizing route information written on a three-dimensional map (high-resolution map) at irregular intervals is used as a node.
  • a grid of a predetermined size defined around a node has attributes of occupied, unoccupied, and prohibited parking. Regarding the grid attributes, parking is prohibited in locations such as crosswalks, intersections, and/or areas where street parking is prohibited.
  • multiple initial nodes n 0 (k) corresponding to the road grid are convolved and pooled. includes a plurality of primary nodes n k ( 1) that are more sparsely arranged than the plurality of initial nodes n 0 (k) as a result of the initial node n 0 (k).
  • the plurality of primary nodes n 1(k) include primary nodes n 1(1) , n 1(2) , and n 1 corresponding to parking spaces X 21 , X 22 , and X 24 at the three-way intersection, respectively. (4) is included.
  • a plurality of primary nodes n 1(k) corresponding to the road grid are convolved and Secondary nodes n 2 (1) , n 2 (2) and n 2 (4) corresponding to the parking spaces X 21 , X 22 and X 24 at the three-way intersection as a result of pooling are included.
  • Secondary nodes n 2 (1) , n 2 (2) and n 2 (4) each have parking spaces X 21 , X 22 and X 24 on each of the three roads that make up the three-way intersection. This is the result of convolution and pooling of each of the primary nodes n 1(k) existing in the vicinity thereof.
  • the learned model generation element 120 inputs the state scene graph SG1, layout scene graph SG2, and instruction scene graph SG3 to the graph neural network GNN as input data along with the area where the specified state of the moving body 20 is realized.
  • a trained model is thereby generated or constructed (FIG. 2/STEP 120).
  • the graph neural network GNN includes an input layer NL0, a middle layer NL1, and an output layer NL2.
  • the values of parameters such as weighting coefficients of each node making up the graph neural network GNN are adjusted so that the first area candidate output from the graph neural network GNN matches the correct area pointed to by the input data (input data).
  • the model is constructed by
  • a state scene graph SG1 (primary scene graph) is generated by convolving and pooling the initial scene graph SG0, and a layout scene graph SG1 is generated by convolving and pooling the state scene graph SG1.
  • a procedure is conceptually shown in which SG2 (secondary scene graph) is generated, and layout scene graph SG2 is convolved and pooled to generate instruction scene graph SG3 (cubic scene graph).
  • GCN represents convolution processing by a graph convolution neural network
  • “Pool” represents pooling processing.
  • FIG. 11 illustrates correct data for each of different driving scenes of the vehicle.
  • a driving scene in which a vehicle approaches a building X 0 facing the road from the left side of the figure along a road extending left and right will be described.
  • the correct answer is to park the vehicle in any of the parking spaces X 2i-1 , X 2i , and X 2i+1 in front of the building X 0 (downward in the diagram). .
  • FIG. 11(2) a driving scene in which a vehicle approaches a building X 0 facing the road from the right side of the figure along a road extending left and right will be described.
  • this driving scene in response to a similar instruction, parking spaces X 2j-1 , X 2j in front of building X 0 in the driveable lane of the road (the lane on the opposite side from FIG. 11 (1)) are shown.
  • the correct answer is defined as parking the vehicle at either of the locations and X2j+1 .
  • FIG. 11(3) a driving scene in which a vehicle approaches a building X 0 facing a three-way intersection from the left side of the figure will be described.
  • this driving scene for example, in response to the instructions “park in front of building X 0 ", “park next to building X 0 " , and "park beside building In the drivable lane of the road, parking space X 2i+1 in front of building X 0 (toward the bottom of the figure), parking space X 2i next to building X 0 (towards the left in the figure), and building X
  • the correct answer is to park the vehicle in each of the parking spaces X 2i-1 that are slightly away from 0 .
  • FIG. 11(4) a driving scene in which a vehicle approaches a building X 0 facing a three-way intersection from the top of the figure will be described.
  • this driving scene for example, in response to the instructions “park in front of building X 0 ", "park next to building X 0 " , and "park beside building In the drivable lane of the road, parking space X 2j next to building X 0 (towards the left in the figure), parking space X 2j+1 in front of building X 0 (towards the bottom in the figure), and building X
  • the correct answer is to park the vehicle in each of the parking spaces X 2j-1 that are slightly away from 0 .
  • FIG. 11(5) a driving scene in which a vehicle approaches a building X 0 facing a crossroads from the left side of the figure will be described.
  • this driving scene for example, in response to the instructions “park in front of building X 0 ", “park next to building X 0 ", and “park next to building X 0 ", In the driving lane, parking space X 2i+1 in front of building X 0 (towards the bottom of the figure), parking space X 2i next to building X 0 (towards the left in the figure), and from building X 0
  • the correct answer is to park the vehicle in a slightly distant parking space X 2i-1 or X 2i+2 .
  • FIG. 11(6) a driving scene in which a vehicle approaches a building X 0 facing a crossroads from the top of the figure will be described.
  • this driving scene for example, in response to the instructions “park in front of building X 0 ", “park next to building X 0 ", and “park next to building X 0 ", In the driving lane, parking space X 2j next to building X 0 (towards the left in the figure), parking space X 2j+1 in front of building X 0 (towards the bottom in the figure), and from building X 0
  • the correct answer is to park the vehicle in a slightly distant parking space X 2j-1 or X 2j+2 , respectively.
  • FIG. 12 shows an example of correct data for a driving scene in which a vehicle approaches a building X 0 facing a three-way intersection from the left side of the diagram. has been done.
  • the two parking spaces where the obstacle X 50 does not exist are The correct answer is to park the vehicle at one of them.
  • FIGS. 12(4) to (6) among the parking spaces X 2i-1 , X 2i , and X 2i+1 , there is one in which the obstacles X 51 and X 52 are not present. The correct answer is to park the vehicle in one parking space.
  • the correct answer is defined as parking the vehicle in any of the parking spaces X 2i-1 , X 2i , and X 2i+1 where there are no obstacles. .
  • the correct answer is not to park the vehicle.
  • the respective feature amounts of the primary, secondary, and tertiary nodes that make up each of the three scene graphs SG1 to SG3 are vectorized.
  • weighting coefficients are propagated between nodes from bottom to top (node N110 ⁇ N210 ⁇ N310, node N112 ⁇ N212 ⁇ N312, node N114 ⁇ N214 ⁇ N314), and subsequently, weighting coefficients are propagated between nodes from top to bottom.
  • the weighting coefficient is propagated downward (node N310 ⁇ N211 ⁇ N112, node N312 ⁇ N213 ⁇ N114).
  • the weighting coefficients are propagated in the order of nodes N210, N212, and N214, skipping intermediate nodes N211 and N213.
  • the output layer NL2 includes three nodes N32, N22, and N12 that output primary judgment results corresponding to each of the three scene graphs SG1 to SG3, and outputs a secondary judgment result by integrating the primary results. and a node N40 that outputs area candidates.
  • a graph attention network may be employed as the graph neural network GNN. In this case, for example, by introducing attention, an importance score (weighting coefficient) is assigned to the relationship between the three nodes N32, N22, and N12, and the output result can be changed flexibly.
  • the learned model is generated or constructed as described above, one area candidate is output in response to a user's instruction.
  • the mobile object 20 (which may be a different mobile object than the mobile object 20 used in generating the trained model, or the same mobile object 20 used in generating the trained model) through the input interface of the device owned by the user. ) is transmitted from the device to the learning device 100, and is recognized by the first scene graph creation element 110 ((FIG. 13/STEP 200).
  • the environment image is The information may be stored and held in the database 102, or may be transmitted directly from the device to the mobile support device 200.
  • the imaging device 22 mounted on the moving object 20 displays the designated place and the surrounding state acquired according to the position of the moving object 20 and the direction in which the designated place is viewed (imaging direction of the imaging device 22).
  • An environmental image (see FIG. 3) is acquired (FIG. 13/STEP 202).
  • the environmental image may be stored and held in the database 102, or may be directly transmitted from the mobile object 20 to the mobile object support device 200.
  • a state scene graph SG1 (see FIG. 5) is created by the second scene graph creation element 210 based on the position of the moving object 20 (at the time the environmental image is acquired), the environmental image, and the three-dimensional high-definition map (see FIG. 13/STEP211). Subsequently, the state scene graph SG1 is convoluted by the second scene graph creation element 210 to create a layout scene graph SG2 (see FIG. 6) (FIG. 13/STEP 212). Further, the second scene graph creation element 210 convolves the layout scene graph SG2 to create an instruction scene graph SG3 (see FIG. 7) (FIG. 13/STEP 213).
  • the area candidate output element 220 inputs the state scene graph SG1, layout scene graph SG2, and instruction scene graph SG3 to the trained model generated based on the graph neural network GNN (see FIG. 8). 13/STEP220). Then, one area candidate is output as the output of the learned model (FIG. 13/STEP 230). Based on the output result of the learned model, the operation of the mobile body 20 is controlled by the mobile body control device 21 so that the designated state of the mobile body 20 in one area candidate as the output result is realized. .
  • the output result of the learned model may be output to an output interface that configures the device.
  • scene graphs SG1 to SG3 created based on a user's instruction and an environmental image according to the position of the moving object 20 and the direction from which the designated place is viewed are used as input data.
  • a trained model is constructed based on the following information (see Figure 2).
  • the feature amounts of the primary nodes constituting the state scene graph SG1 are defined according to the relative arrangement relationship (distance and angle) with each object based on the position of the moving body 20. Therefore, the relative placement relationship with each object based on the position of the moving body 20 is also reflected in the feature values of the secondary nodes that constitute the layout scene graph SG2 as a result of convolving the state scene graph SG1. There is. Furthermore, the feature values of the tertiary nodes representing the words included in the instructions, which constitute the instruction scene graph SG3 as a result of convolving the layout scene graph SG2, are also included in each object with respect to the position of the moving body 20. This reflects the relative placement relationship with
  • the area e.g., roadway grid
  • the probability of being output as an area candidate is improved (see FIG. 13).
  • the feature quantities of the primary nodes constituting the state scene graph SG1 are the space occupancy mode of each object, specifically, the occupancy flag that mainly represents the space occupancy state of static objects, and the space occupancy flag that mainly represents the space occupancy state of dynamic objects. It is defined according to the interference flag indicating the occupancy state. This also applies to the feature amounts of the secondary nodes that make up the layout scene graph SG2 and the feature amounts of the tertiary nodes that make up the instruction scene graph SG3.
  • the moving object support device 200 outputs an appropriate area candidate from the learned model for the moving object 20 to realize the specified state while avoiding interference with static objects and dynamic objects. sell.
  • the road grid X 22 that corresponds to the crosswalk among the road grids X 21 to X 26 shown in FIG. 4 is selected. Any one of the roadway grids X 21 or X 24 excluding the following may be output from the trained model as one area candidate for realizing the stopped state (designated state) of the moving body 20.
  • the user's instruction "Please decelerate before X 0 ", one of the roadway grids X 21 or X 23 among the roadway grids X 21 to X 26 shown in FIG.
  • the area can be output from the learned model as one area candidate for realizing the deceleration start state (designated state) of the body 20. Furthermore, in response to the user's instruction " Please pass to the left of X 0 ,” any one of the roadway grids X 22 to X 26 shown in FIG. It can be output from the learned model as one area candidate for realizing the traffic state (designated state).
  • an environmental image is acquired through the imaging device 22 mounted on the moving object 20.
  • a dimensional high-definition map or a two-dimensional map (map information) may be used, and a virtual image obtained through a virtual imaging device mounted on the mobile object 20 may be obtained as the environment image.

Landscapes

  • Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Traffic Control Systems (AREA)

Abstract

目的場所を基準とした空間指定が曖昧な指示に潜在している指示者の意図に鑑みて、当該指示にしたがって移動体が指定状態を実現するために適当なエリアを目的場所の周辺で探索しうる移動体を提供する。ユーザの指示、ならびに、移動体20の位置および指定場所を臨む方向に応じた環境画像に基づいて作成されたシーングラフSG1~SG3が入力データとして用いられてモデルが構築される。状態シーングラフSG1を構成する1次ノードの特徴量が、移動体20の位置を基準とした各オブジェクトとの相対配置関係(距離および角度)に応じて定義されている。状態シーングラフSG1を構成する1次ノードの特徴量が、各オブジェクトの空間占有態様に応じて定義されている。

Description

移動体支援装置および移動体システム
 本発明は、移動体支援装置と、当該移動体支援装置および移動機能を有する移動体により構成されている移動体システムに関する。
 画像からシーングラフを生成する手法が提案されている(例えば、非特許文献1および2参照)。当該手法によれば、画像を入力するステップと、ディープラーニングに基づくオブジェクト検出方法を用いて画像からオブジェクトを検出するステップと、PLSIを利用して、画像内のコンテキスト状況を検出するステップと、ディープラーニングに基づく関係検出およびオントロジ方法を用いて、オブジェクト同士の関係を検出するステップと、入力画像に対するシーングラフを生成するステップと、が実行される。
Learning 3D Semantic Scene Graphs from 3D Indoor Reconstructions, CVPR2020(https://arxiv.org/pdf/2004.03967v1.pdf) Multi-Layer Semantic and Geometric Modeling with Neural Message Passing in 3D Scene Graphs for Hierarchical Mechanical Search, ICRA2020(https://arxiv.org/pdf/2012.04060.pdf)
 しかし、従来技術によれば、ユーザがロボットなどの移動体に対して「〇〇(例えば、店舗または施設などの名称)の右に停めて」と指示しても、ユーザが意図する「〇〇の右」に該当するエリアに当該移動体を停止させることが困難であった。これは、移動体を停止させるためには一点の座標が必要であるものの、ユーザの指示に含まれる「右」という表現によって点が一義的に表現されていないためである。そもそも、ユーザは「右」という表現を一義的に定まる点の座標として意識しておらず、右という「空間」を指している場合が多い。このため、ユーザの指示に含まれている単語と空間とを紐づける必要ある。また、「右」という空間には、移動体が停止可能な空間およびそうではない空間がある。例えば、「〇〇の右」が空地だったら停まれるし、横断歩道であれば停止できない。
 そこで、本発明は、目的場所を基準とした空間指定が曖昧な指示に潜在している指示者の意図に鑑みて、当該指示にしたがって移動体が指定状態を実現するために適当なエリアを目的場所の周辺で探索しうる移動体システムを提供することを目的とする。
 本発明の移動体支援装置は、
 指定場所の周辺の指定空間における指定状態の実現に関する移動体への指示と、
 前記移動体の位置情報と、
 前記移動体と前記指定場所との位置関係に基づき取得された前記指定場所の周辺の画像に基づき作成された複数のシーングラフと、を学習済みモデルに入力することにより、前記指定場所を基準とした複数の周辺空間に存在する複数のエリア候補のうち一つのエリア候補を出力する。
学習装置および移動体支援装置の構成に関する説明図。 学習済みモデルの生成機能に関する説明図。 複数のオブジェクトが含まれている画像に関する説明図。 3次元高精細マップが2次元マップに投影された結果に関する説明図。 状態シーングラフの例示説明図。 レイアウトシーングラフの例示説明図。 指示シーングラフの例示説明図。 シーングラフの逐次的な畳み込みおよびプーリングの概念的な説明図。 グラフニューラルネットワークに関する説明図。 グラフニューラルネットワークに入力されるシーングラフの逐次的な畳み込みおよびプーリングの概念的な説明図。 異なる走行シーンにおける正解データに関する説明図。 障害物の存在態様が異なる走行シーンにおける正解データに関する説明図。 移動体支援システムのエリア候補出力機能に関する説明図。
 (構成)
 図1に示されている本発明の一実施形態としての学習装置100および移動体支援装置200のそれぞれは、移動体20の指定状態の実現を支援するためにデータベース102にネットワークを介してアクセス可能なデバイスに構成されている。移動体20および移動体支援装置200が「移動体システム」を構成する。
 データベース102は、移動体20の周辺の様子を表わす環境画像(本発明の「画像」に相当する。)、3次元高精細地図(地図情報)、グラフニューラルネットグラフおよび学習済みモデルなどを記憶保持する。本実施形態では、データベース102が、学習装置100および移動体支援装置200とは別個のデバイスまたはデータベースサーバにより構成されているが、学習装置100および/または移動体支援装置200の構成要素であってもよい。
 学習装置100は、第1シーングラフ作成要素110および学習済みモデル生成要素120を備えている。第1シーングラフ作成要素110および学習済みモデル生成要素120のそれぞれは、CPUおよび/またはプロセッサコアなどの演算処理要素、ROMおよび/またはRAMなどの記憶要素、ならびに、入力・出力インターフェース回路等により構成されている。第1シーングラフ作成要素110および学習済みモデル生成要素120のそれぞれは、後述するシーングラフ作成および学習済みモデル生成のそれぞれなどの指定タスクを実行するように構成されている。機能要素が指定タスクを実行するように構成されている、とは、当該機能要素を構成するハードウェアが、ソフトウェアおよび必要に応じてデータを記憶要素から読み取り、当該ソフトウェアにしたがって当該データまたはその他のデータを対象として演算処理を実行することにより当該指定タスクを実行することを意味する。
 移動体支援装置200は、第2シーングラフ作成要素210およびエリア候補出力要素220を備えている。第2シーングラフ作成要素210およびエリア候補出力要素220のそれぞれは、CPUおよび/またはプロセッサコアなどの演算処理要素、ROMおよび/またはRAMなどの記憶要素、ならびに、入力・出力インターフェース回路等により構成されている。第2シーングラフ作成要素210およびエリア候補出力要素220のそれぞれは、後述するシーングラフ作成および学習済みモデル生成のそれぞれなどの指定タスクを実行するように構成されている。
 学習装置100および移動体支援装置200が同一のデバイスにより構成されていてもよい。この場合、第1シーングラフ作成要素110および第2シーングラフ作成要素210が単一のシーングラフ作成要素により構成されていてもよい。
 移動体20は、自律移動機能、測位機能および無線通信機能を有する車両またはロボットにより構成されている。移動体20は、移動体制御装置21および撮像装置22を備えている。移動体20が、ユーザにより携帯されることで、当該ユーザの移動に伴って受動的に移動する情報処理端末(例えば、スマートホン)により構成されていてもよい。移動体支援装置200は、移動体20に搭載されているデバイス(例えば、移動体制御装置21)により構成されていてもよい。
 移動体制御装置21は、CPUおよび/またはプロセッサコアなどの演算処理要素、ROMおよび/またはRAMなどの記憶要素、ならびに、入力・出力インターフェース回路等により構成されている。移動体制御装置21は、移動体20の自律移動機能、測位機能および無線通信機能を制御するように構成されている。撮像装置22は、移動体20の進行方向または前方の様子を撮像するように移動体20に搭載されている。移動体20は、撮像装置22の撮像方向(光軸方向)を調節する機能および/または撮像方向を測定する機能を有していてもよい。
 (学習済みモデル生成機能)
 学習済みモデル生成機能により、指定場所の周辺の指定空間における移動体20の指定状態に関する指示と、移動体20の位置および指定場所を臨む方向に応じて取得された当該指定場所およびその周囲の状態が表わされている環境画像と、に基づいて学習済みモデルが生成される。
 具体的には、ユーザが所有するデバイスの入力インターフェースを通じた移動体20に対する当該ユーザによる指示が、当該デバイスから学習装置100に対して送信され、第1シーングラフ作成要素110により認識される(図2/STEP100)。当該環境画像はデータベース102に記憶保持されてもよく、当該デバイスから学習装置100に対して直接的に送信されてもよい。
 「指示」は、指定場所の周辺の指定空間における移動体20の指定状態に関する指示である。これにより、例えば「Xの右に停まってください」という指示が、単語Xにより表わされる指定場所の周辺における指定空間としての右側の空間において、移動体20の指定状態としての停止している状態の実現に関する指示として認識される。また「Yの手前で減速してください」という指示が、単語Yにより表わされる指定場所の周辺における指定空間としての前側の空間において、移動体20の指定状態としての減速を開始する状態の実現に関する指示として認識される。さらに「Zの左を通過してください」という指示が、単語Zにより表わされる指定場所の周辺における指定空間としての左側の空間において、移動体20の指定状態としての通過している状態の実現に関する指示として認識される。
 指示を発するユーザは、移動体20に搭乗しているユーザのほか、移動体20とは異なる場所にいるユーザであってもよい。ユーザの指示は、音声による指示であってもよく、ジェスチャーによる指示であってもよい。
 移動体20に搭載されている撮像装置22により、当該移動体20の位置および指定場所を臨む方向(撮像装置22の撮像方向)に応じて取得された指定場所およびその周囲の状態が表わされている環境画像が取得される(図2/STEP102)。当該環境画像はデータベース102に記憶保持されてもよく、移動体20から学習装置100に対して直接的に送信されてもよい。
 これにより、例えば、図3に示されているように、建造物X0(ビル)、建造物X0の2つの側面下端縁に沿って延在する歩道グリッドX11、X12、建造物X0からみて歩道グリッドX11、X12の外側に広がっている車道グリッドX21~X26、ならびに、歩道グリッドX12および車道グリッドX24の境界に立っている樹木X41、X42が含まれている環境画像が取得される。建造物X0の一の側面には店舗の看板X01および窓X02があり、他の側面には窓X03がある。図3に例示されている環境画像には、交通参加者としての車両X5および歩行者X61~X64がさらに含まれている。
 移動体20の(環境画像が取得された時点における)位置、環境画像および地図情報に基づき、第1シーングラフ作成要素110により状態シーングラフSG1が作成される(図2/STEP111)。
 地図情報は例えば3次元高精細マップであり、3次元構造物、路面情報および車線情報などの静的情報を含み、そこではオブジェクトまたは事物の種類および/または属性がラベルにより区別されるように定義されている。例えば、地面から一定以上の高さがあるオブジェクトおよび地形に沿って広がっているオブジェクトのそれぞれがラベルによって区別されている。ラベルは、ラベル面積(ラベルが付されたオブジェクトの環境画像における占有面積)およびラベルIDにより定義されている。
 第1位オブジェクトである「地面から一定以上の高さがあるオブジェクト」は、例えば、建造物、柱状構造物および樹木などの第2位オブジェクトに分類されている。第2位オブジェクトである「建造物」は、例えば、側壁、店舗看板、窓および人または車両の出入口など第3位オブジェクトに分類されている。第2位オブジェクトである「柱状構造物」は、例えば、交通信号機柱、交通標識柱および通信機柱など第3位オブジェクトに分類されている。第3位オブジェクト以降、オブジェクトがさらに細かく分類されていてもよい。
 第1位オブジェクトである「地形に沿って広がっているオブジェクト」は、例えば、車道および歩道などの第2位オブジェクトに分類されている。第2位オブジェクトである「車道」は、第3位オブジェクトとしての複数の車道グリッドに分割され、各車道グリッドが個別のオブジェクトとして定義されている。第3位オブジェクトである「車道グリッド」は、横断歩道、中央線、車線境界線およびゼブラゾーン等の道路標示などの第4位オブジェクトに分類されている。第2位オブジェクトである「歩道」は、例えば、複数の歩道グリッドに分割され、各歩道グリッドが個別のオブジェクトとして定義されている。第3位オブジェクトである「歩道グリッド」は、点字ブロックなどの道路標示等の第4位オブジェクトに分類されている。第4位オブジェクト以降、オブジェクトがさらに細かく分類されていてもよい。
 環境画像に映り込んでいるオブジェクトのそれぞれに対して、3次元高精細マップにおいて定義されているラベルが割り当てられる。車道に存在する車両、歩道または車道(横断歩道)に存在する歩行者など、動的情報に該当するオブジェクトに対してもラベルが割り当てられる。状態シーングラフSG1において、ラベルが割り当てられた各オブジェクト(またはそのラベル)が1次ノードとして定義されている。
 図4には、3次元高精細地図の静的オブジェクト(建造物、歩道グリッドおよび車道グリッド)が2次元マップとして投影された結果が示されている。図4に例示されている2次元マップには、図3に示されている環境画像に含まれているオブジェクトのうち、静的オブジェクトとしての建造物X0(ビル)、建造物X0の2つの側面下端縁に沿って延在する歩道グリッドX11、X12、ならびに、車道グリッドX21~X26が含まれている。2次元マップの利用により、各オブジェクトの隣接関係、ならびに、移動体20を基準とした各オブジェクトとの相対配置関係の認識精度の向上が図られる。
 状態シーングラフSG1において、各オブジェクトの隣接関係がエッジとして定義されている。オブジェクトの隣接関係は、一のオブジェクトを基準として、これに隣接する他のオブジェクトがいずれの方向(例えば、前後左右方向)に存在しているかを表わしている。
 1次ノードの特徴量がオブジェクトと移動体20との相対配置関係およびオブジェクトの空間占有態様に応じて定義されている。オブジェクトと移動体20との相対配置関係は、オブジェクト(またはラベル)の中心または重心と、移動体20(または撮像装置22)とオブジェクトとの相対距離、および、移動体20の進行方向または姿勢に応じた方位を基準としたオブジェクトが存在する方向の方位角により定義されている。
 1次ノードおよびその特徴量を特定可能な情報が含まれている環境画像(例えば、撮像装置22からの距離を画素値として有する測距画像)が得られた場合、3次元高精細マップは使用されなくてもよい。
 オブジェクトの空間占有態様は、例えば、静的オブジェクト(建造物、柱状構造物、樹木など)が移動体20の通行を許容しえない形態でエリアを占有しているか否か(地面から一定以上の高さがあるオブジェクトに該当するか否か)を表わす占有フラグ(0‥非占有、1‥占有)により定義されている。さらに、オブジェクトの空間占有態様は、指定オブジェクトとしての動的オブジェクト(車両、歩行者など)が移動体20と干渉しうる形態でエリアに存在しているか否かを表わす干渉フラグ(0‥不存在、1‥存在)により定義されている。
 例えば、1次ノードに相当するオブジェクトが「道路グリッド」であって、当該道路グリッドに他の車両等が存在している場合、当該オブジェクトに相当するエリアを移動体20は通行可能であるものの、当該他の車両等に干渉する可能性があるので、占有フラグは「0」であるものの、干渉フラグは「1」であると定義される。ただし、道路標示(例:横断歩道、駐停車禁止)に鑑みて停止が許容されていない車道グリッドに関しては、移動体20の指定状態が停止状態に該当する場合に占有フラグとして「1」が定義または付与されている。1次ノードの特徴量は、さらに「ラベル面積」および「ラベルID」により定義されていてもよい。
 図5に模式的に示されているように、状態シーングラフSG1において、特徴量c1(x)を有している複数の1次ノードn1(x)(xは各オブジェクトまたはそのラベルを表わしている。)がエッジにより関係付けられている。図5に例示されているシーングラフSG1には、指定場所(例:指定店舗またはこれが入っているビル)の状態を表わすオブジェクトo01、o02およびo03、指定場所を基準とした第1周辺空間(例:ビルの南側の空間)の状態を表わすオブジェクトo11、o12およびo13、指定場所を基準とした第1周辺空間(例:ビルの東側の空間)の状態を表わすオブジェクトo21、o22、o23およびo24、エリア候補(例:道路グリッド)の状態を表わすオブジェクトoa1、oa2およびoa3、ならびに、指定オブジェクト(例:交通参加者)の状態を表わすオブジェクトob1、ob2、ob3およびob4が含まれている。
 続いて、第1シーングラフ作成要素110により状態シーングラフSG1が畳み込まれ、かつ、プーリングされることによってレイアウトシーングラフSG2が作成される(図2/STEP112)。これにより、例えば、図5に模式的に示されている状態シーングラフSG1が畳み込まれた結果として、図6に模式的に示されているレイアウトシーングラフSG2が作成される。レイアウトシーングラフSG2の粒度は、畳み込み前の状態シーングラフSG1の粒度よりも低い。
 図6に示されているレイアウトシーングラフSG2を定義する2次ノードn2(o0)、n2(o1)、n2(o2)、n2(oa)およびn2(ob)のそれぞれにより、「指定場所」、「第1周辺空間」および「第2周辺空間」、「複数の周辺空間におけるエリア候補」ならびに「指定オブジェクト」のそれぞれに対応する1次ノードクラスタのそれぞれが表わされている。例えば、指定場所に対応する1次ノードクラスタは、図5に示されている状態シーングラフSG1における当該指定場所(例:指定店舗またはこれが入っているビル)の状態を表わす1次ノードn1(o01)、n1(o02)およびn1(o03)により構成されている。図6に示されているレイアウトシーングラフSG2を定義するエッジにより、2次ノードn2(o0)、n2(o1)、n2(o2)、n2(oa)およびn2(ob)のそれぞれにより表わされている1次ノードクラスタに相当するオブジェクトクラスタの隣接関係が表わされている。例えば、「指定場所」に相当する2次ノードn2(o0)および「第2周辺空間」に相当するn2(o2)の間のエッジは、第2周辺空間が指定場所の東側にあることを表わしている。2次ノードn2(o0)、n2(o1)、n2(o2)、n2(oa)およびn2(ob)のそれぞれは、畳み込み対象になった1次ノードクラスタの特徴量に応じて定まる(1次ノードクラスタの特徴量が集約された結果としての)特徴量を有している。
 さらに、第1シーングラフ作成要素110によりレイアウトシーングラフSG2が畳み込まれ、かつ、プーリングされることによって指示シーングラフSG3が作成される(図2/STEP113)。これにより、例えば、図6に模式的に示されているレイアウトシーングラフSG2が畳み込まれた結果として、図7に模式的に示されている指示シーングラフSG3が作成される。指示シーングラフSG3の粒度は、畳み込み前のレイアウトシーングラフSG2の粒度よりも低い。
 図7に示されている指示シーングラフSG3を定義する3次ノードn3(w0)、n3(w1)およびn3(w2)のそれぞれにより、ユーザの指示に含まれている「指定場所」、「指定空間」および「指定状態」のそれぞれに関する単語に対応する2次ノードクラスタが表わされている。例えば、指定空間に対応する2次ノードクラスタは、図6に示されているレイアウトシーングラフSG2における第1周辺空間および第2周辺空間の状態を表わす2次ノードn2(o1)およびn2(o2)ならびにこれらにエッジで関連付けられている2次ノードにより構成されている。図7に示されている指示シーングラフSG3を定義するエッジにより、単語の隣接関係が表わされている。3次ノードn3(w0)、n3(w1)およびn3(w2)のそれぞれは、畳み込み対象になった2次ノードクラスタの特徴量に応じて定まる特徴量を有している。
 図8には、初期シーングラフSG0が畳み込まれかつプーリングされることにより状態シーングラフSG1(1次シーングラフ)が生成され、状態シーングラフSG1が畳み込まれかつプーリングされることによりレイアウトシーングラフSG2(2次シーングラフ)が生成され、かつ、レイアウトシーングラフSG2が畳み込まれかつプーリングされることにより指示シーングラフSG3(3次シーングラフ)が生成される手順が概念的に示されている。例えば、畳み込み手法としては汎用的な「Aggregate」、「Update」または「Readout」が採用され、プーリング手法としては「average pooling」が採用される。
 図8に示されているシーングラフSG0、SG1、SG2およびSG2のそれぞれには、三差路(またはT字路)に面した目的地または指定場所としての建造物X0と、当該三差路における(道路グリッドとしての)駐停車スペースX21、X22およびX24と、が含まれている。図8に示されているように、駐停車スペースX22は、建造物X0の前(図+の下方向)に存在し、駐停車スペースX24は、建造物X0の横(図8の左方向)に存在し、駐停車スペースX21は建造物X0に面していない道路に存在している。このシーンでは、駐停車スペースX21に障害物が存在している。
 図8に示されている初期シーングラフSG0には、左側から三差路に接近している車両が走行可能なレーンに沿って配置されている複数の初期ノードn0(k)が含まれている。ゴールとする建造物X0がノードとみなされている。3次元地図(高解像度地図)に記述された経路情報が不等間隔で離散化された位置情報がノードとされている。ノードを中心に定義された所定サイズのグリッドは占有・非占有・駐車禁止のアトリビュートを有している。グリッドのアトリビュートについて、横断歩道や交差点内および/または路駐禁止のような場所では駐車禁止として扱う。
 図8に示されている状態シーングラフSG1には、建造物X0に相当する1次ノードn0(1)のほか、道路グリッドに相当する複数の初期ノードn0(k)が畳み込みかつプーリングされた結果としての、当該複数の初期ノードn0(k)よりも疎に配置された複数の1次ノードnk(1)が含まれている。複数の1次ノードn1(k)には、三差路において駐停車スペースX21、X22およびX24のそれぞれに対応する1次ノードn1(1)、n1(2)およびn1(4)が含まれている。
 図8に示されているレイアウトシーングラフSG2には、建造物X0に相当する2次ノードn0(2)のほか、道路グリッドに相当する複数の1次ノードn1(k)が畳み込みかつプーリングされた結果としての、三差路における駐停車スペースX21、X22およびX24のそれぞれに対応する2次ノードn2(1)、n2(2)およびn2(4)が含まれている。すなわち、2次ノードn2(1)、n2(2)およびn2(4)のそれぞれは、三差路を構成する3本の道路のそれぞれにおける駐停車スペースX21、X22およびX24のそれぞれおよびその近傍に存在する複数の1次ノードn1(k)が畳み込みかつプーリングされた結果である。
 図8に示されている指示シーングラフSG3には、建造物X0に相当する3次ノードn3(0)のほか、駐停車スペースX21、X22およびX24のうち、障害物が存在する駐停車スペースX21に相当する2次ノードn2(1)と同一の3次ノードn3(1)、ならびに、障害物が存在しない駐停車スペースX22およびX24のそれぞれに相当する2次ノードn2(2)およびn2(4)が畳み込みかつプーリングされた結果としての3次ノードn3(2)が含まれている。
 次に、学習済みモデル生成要素120により、状態シーングラフSG1、レイアウトシーングラフSG2および指示シーングラフSG3が、移動体20の指定状態が実現されたエリアとともに入力データとしてグラフニューラルネットワークGNNに入力されることによって学習済みモデルが生成または構築される(図2/STEP120)。例えば、図9に示されているように、グラフニューラルネットワークGNNは、入力層NL0、中間層NL1および出力層NL2により構成されている。グラフニューラルネットワークGNNから出力される一のエリア候補と、入力データ(入力データ)が指す正解エリアとが一致するように、グラフニューラルネットワークGNNを構成する各ノードの重み係数などのパラメータの値が調整されることによりモデルが構築される。
 図10には、初期シーングラフSG0が畳み込まれかつプーリングされることにより状態シーングラフSG1(1次シーングラフ)が生成され、状態シーングラフSG1が畳み込まれかつプーリングされることによりレイアウトシーングラフSG2(2次シーングラフ)が生成され、かつ、レイアウトシーングラフSG2が畳み込まれかつプーリングされることにより指示シーングラフSG3(3次シーングラフ)が生成される手順が概念的に示されている。図10において、「GCN」はグラフ畳み込みニューラルネットワークによる畳み込み処理を表わし、「Pool」はプーリング処理を表わしている。
 図11には、車両の異なる走行シーンのそれぞれにおける正解データが例示されている。図11(1)に示されているように、左右に延びる道路に沿って図の左側から車両が当該道路に面している建造物X0に対して接近している走行シーンについて説明する。この走行シーンでは、例えば「建造物X0の前に停めて」、「建造物X0の横に停めて」および「建造物X0のそばに停めて」という指示に対して、当該道路の走行可能レーンにおいて、建造物X0の前(図の下方向)の駐停車スペースX2i-1、X2iおよびX2i+1のいずれかに車両を駐停車させることが正解として定義されている。
 図11(2)に示されているように、左右に延びる道路に沿って図の右側から車両が当該道路に面している建造物X0に対して接近している走行シーンについて説明する。この走行シーンでは、同様の指示に対して、当該道路の走行可能レーン(図11(1)とは反対側のレーン)において、建造物X0の前の駐停車スペースX2j-1、X2jおよびX2j+1のいずれかに車両を駐停車させることが正解として定義されている。
 図11(3)に示されているように、車両が図の左側から三差路に面している建造物X0に対して接近している走行シーンについて説明する。この走行シーンでは、例えば「建造物X0の前に停めて」、「建造物X0の横に停めて」および「建造物X0のそばに停めて」という指示に対して、当該三差路の走行可能レーンにおいて、建造物X0の前(図の下方向)の駐停車スペースX2i+1、建造物X0の横(図の左方向)の駐停車スペースX2iおよび建造物X0から少し離れた駐停車スペースX2i-1のそれぞれに車両を駐停車させることが正解として定義されている。
 図11(4)に示されているように、車両が図の上側から三差路に面している建造物X0に対して接近している走行シーンについて説明する。この走行シーンでは、例えば「建造物X0の前に停めて」、「建造物X0の横に停めて」および「建造物X0のそばに停めて」という指示に対して、当該三差路の走行可能レーンにおいて、建造物X0の横(図の左方向)の駐停車スペースX2j、建造物X0の前(図の下方向)の駐停車スペースX2j+1および建造物X0から少し離れた駐停車スペースX2j-1のそれぞれに車両を駐停車させることが正解として定義されている。
 図11(5)に示されているように、車両が図の左側から十字路に面している建造物X0に対して接近している走行シーンについて説明する。この走行シーンでは、例えば「建造物X0の前に停めて」、「建造物X0の横に停めて」および「建造物X0のそばに停めて」という指示に対して、当該十字路の走行可能レーンにおいて、建造物X0の前(図の下方向)の駐停車スペースX2i+1、建造物X0の横(図の左方向)の駐停車スペースX2iおよび建造物X0から少し離れた駐停車スペースX2i-1またはX2i+2のそれぞれに車両を駐停車させることが正解として定義されている。
 図11(6)に示されているように、車両が図の上側から十字路に面している建造物X0に対して接近している走行シーンについて説明する。この走行シーンでは、例えば「建造物X0の前に停めて」、「建造物X0の横に停めて」および「建造物X0のそばに停めて」という指示に対して、当該十字路の走行可能レーンにおいて、建造物X0の横(図の左方向)の駐停車スペースX2j、建造物X0の前(図の下方向)の駐停車スペースX2j+1および建造物X0から少し離れた駐停車スペースX2j-1またはX2j+2のそれぞれに車両を駐停車させることが正解として定義されている。
 図12には、図11(3)に示されているように、車両が図の左側から三差路に面している建造物X0に対して接近している走行シーンにおける正解データが例示されている。図12(1)~(3)のそれぞれに示されているように、駐停車スペースX2i-1、X2iおよびX2i+1のうち、障害物X50が存在しない2つの駐停車スペースのうちいずれかに車両を駐停車させることが正解として定義されている。図12(4)~(6)のそれぞれに示されているように、駐停車スペースX2i-1、X2iおよびX2i+1のうち、障害物X51およびX52のそれぞれが存在しない1つの駐停車スペースに車両を駐停車させることが正解として定義されている。図12(7)に示されているように、障害物が存在しない駐停車スペースX2i-1、X2iおよびX2i+1のいずれかに車両を駐停車させることが正解として定義されている。図12(8)のそれぞれに示されているように、障害物X50、X51およびX52のそれぞれが存在する駐停車スペースX2i-1、X2iおよびX2i+1のいずれにも車両を駐停車させないことが正解として定義されている。
 入力層NL0を構成するノードN30、N20およびN10のそれぞれにおいて、3つのシーングラフSG1~SG3のそれぞれを構成する1次、2次および3次ノードのそれぞれの特徴量がベクトル化される。
 中間層NL1において、ノード間で下から上に重み係数が伝搬され(ノードN110→N210→N310、ノードN112→N212→N312、ノードN114→N214→N314)、これに連続してノード間で上から下に重み係数が伝搬される(ノードN310→N211→N112、ノードN312→N213→N114)。中間層NL1において、ノードN210、N212およびN214の順で、中間のノードN211およびN213を飛ばして重み係数が伝搬される。
 出力層NL2には、3つのシーングラフSG1~SG3のそれぞれに対応する1次判定結果を出力する3つのノードN32、N22およびN12と、当該1次結果を統合することにより2次判定結果として一のエリア候補を出力するノードN40と、が含まれている。グラフアテンションネットワーク(GAN)が、グラフニューラルネットワークGNNとして採用されてもよい。この場合、例えば、アテンションが導入されることにより、当該3つのノードN32、N22およびN12の関係に重要度のスコア(重み係数)が付され、出力結果の柔軟な変更が図られる。
 (エリア候補出力機能)
 前記のように学習済みモデルが生成または構築されたうえで、ユーザによる指示に応じて一のエリア候補が出力される。具体的には、ユーザが所有するデバイスの入力インターフェースを通じた移動体20(学習済みモデル生成の際に用いられた移動体20と異なる移動体であってもよく、当該移動体20と同一の移動体であってもよい。)に対する当該ユーザによる指示が、当該デバイスから学習装置100に対して送信され、第1シーングラフ作成要素110により認識される((図13/STEP200)。当該環境画像はデータベース102に記憶保持されてもよく、当該デバイスから移動体支援装置200に対して直接的に送信されてもよい。
 移動体20に搭載されている撮像装置22により、当該移動体20の位置および指定場所を臨む方向(撮像装置22の撮像方向)に応じて取得された指定場所およびその周囲の状態が表わされている環境画像(図3参照)が取得される(図13/STEP202)。当該環境画像はデータベース102に記憶保持されてもよく、移動体20から移動体支援装置200に対して直接的に送信されてもよい。
 移動体20の(環境画像が取得された時点における)位置、環境画像および3次元高精細マップに基づき、第2シーングラフ作成要素210により状態シーングラフSG1(図5参照)が作成される(図13/STEP211)。続いて、第2シーングラフ作成要素210により状態シーングラフSG1が畳み込まれることによってレイアウトシーングラフSG2(図6参照)が作成される(図13/STEP212)。さらに、第2シーングラフ作成要素210によりレイアウトシーングラフSG2が畳み込まれることによって指示シーングラフSG3(図7参照)が作成される(図13/STEP213)。
 次に、エリア候補出力要素220により、状態シーングラフSG1、レイアウトシーングラフSG2および指示シーングラフSG3が、グラフニューラルネットワークGNN(図8参照)に基づいて生成された学習済みモデルに入力される(図13/STEP220)。そして、当該学習済みモデルの出力として一のエリア候補が出力される(図13/STEP230)。学習済みモデルの当該出力結果に基づき、移動体制御装置21により、当該出力結果としての一のエリア候補における移動体20の指定状態が実現されるように、当該移動体20の動作が制御される。学習済みモデルの出力結果がデバイスを構成する出力インターフェースに出力されてもよい。
 (効果)
 前記機能を発揮する学習装置100によれば、ユーザの指示、ならびに、移動体20の位置および指定場所を臨む方向に応じた環境画像に基づいて作成されたシーングラフSG1~SG3が入力データとして用いられて学習済みモデルが構築される(図2参照)。
 状態シーングラフSG1を構成する1次ノードの特徴量が、移動体20の位置を基準とした各オブジェクトとの相対配置関係(距離および角度)に応じて定義されている。このため、状態シーングラフSG1が畳み込まれた結果としてのレイアウトシーングラフSG2を構成する2次ノードの特徴量にも移動体20の位置を基準とした各オブジェクトとの相対配置関係が反映されている。さらに、レイアウトシーングラフSG2が畳み込まれた結果としての指示シーングラフSG3を構成する、指示に含まれている単語を表わす3次ノードの特徴量にも移動体20の位置を基準とした各オブジェクトとの相対配置関係が反映されている。
 これらの結果、ユーザの任意の指示が「右」「手前」または「左」などのあいまいな空間指定であっても、当該ユーザが意図する空間に存在するエリア(例:車道グリッド)が一のエリア候補として出力される確率の向上が図られる(図13参照)。
 また、状態シーングラフSG1を構成する1次ノードの特徴量が、各オブジェクトの空間占有態様、具体的には、主に静的オブジェクトの空間占有状態を表わす占有フラグおよび主に動的オブジェクトの空間占有状態を表わす干渉フラグに応じて定義されている。これは、レイアウトシーングラフSG2を構成する2次ノードの特徴量、および、指示シーングラフSG3を構成する3次ノードの特徴量についても同様である。
 これにより、移動体20が、静的オブジェクトおよび動的オブジェクトとの干渉を回避しながら、指定状態を実現するために適当な一のエリア候補が、移動体支援装置200によって学習済みモデルから出力されうる。
 例えば、「X0(指定場所)の右に停まってください」というユーザの指示に応じて、図4に示されている車道グリッドX21~X26のうち横断歩道に該当する車道グリッドX22を除くいずれか1つ車道グリッドX21またはX24が、移動体20の停止状態(指定状態)を実現するための一のエリア候補として、学習済みモデルから出力されうる。また「X0の手前で減速してください」というユーザの指示に応じて、図4に示されている車道グリッドX21~X26のうちいずれか1つの車道グリッドX21またはX23が、移動体20の減速開始状態(指定状態)を実現するための一のエリア候補として、学習済みモデルから出力されうる。さらに「X0の左を通過してください」というユーザの指示に応じて、図4に示されている車道グリッドX21~X26のうちいずれか1つの車道グリッドX22が、移動体20の通行状態(指定状態)を実現するための一のエリア候補として、学習済みモデルから出力されうる。
 (本発明の他の実施形態)
 前記実施形態によれば、移動体20に搭載されている撮像装置22を通じて環境画像が取得されたが、グローバル座標系またはマップ座標系における移動体20の位置および進行方向の測定結果に基づき、3次元高精細マップまたは2次元マップ(地図情報)が用いられて、当該移動体20に搭載されている仮想的な撮像装置を通じて取得された仮想的な画像が環境画像として取得されてもよい。
 20‥移動体
 22‥撮像装置
100‥学習装置
102‥データベース
110‥第1シーングラフ作成要素
120‥学習済みモデル生成要素
200‥移動体支援装置
210‥第2シーングラフ作成要素
220‥エリア候補出力要素。

Claims (8)

  1.  指定場所の周辺の指定空間における指定状態の実現に関する移動体への指示と、
     前記移動体の位置情報と、
     前記移動体と前記指定場所との位置関係に基づき取得された前記指定場所の周辺の画像に基づき作成された複数のシーングラフと、を学習済みモデルに入力することにより、前記指定場所を基準とした複数の周辺空間に存在する複数のエリア候補のうち一つのエリア候補を出力する
    移動体支援装置。
  2.  請求項1に記載の移動体支援装置において、
     前記移動体の位置、前記画像および地図情報に基づき作成された、前記画像に含まれている複数のオブジェクトのそれぞれを表わす1次ノード、前記複数のオブジェクトの隣接関係を表わすエッジ、ならびに、前記移動体を基準とした前記オブジェクトとの相対配置関係および前記オブジェクトの空間占有状態に応じた前記1次ノードの特徴量によって定義されている状態シーングラフと、
     前記状態シーングラフを畳み込むことにより作成された、一または複数の前記1次ノードにより構成され、前記指定場所、前記指定場所を基準とした複数の周辺空間、前記複数の周辺空間におけるエリア候補、および、指定オブジェクトのそれぞれに対応する1次ノードクラスタのそれぞれを表わす2次ノード、前記1次ノードクラスタに相当する一または複数の前記オブジェクトにより構成されているオブジェクトクラスタの隣接関係を表わすエッジ、ならびに、前記1次ノードクラスタの特徴量に応じて定まる前記2次ノードの特徴量によって定義されているレイアウトシーングラフと、が前記複数のシーングラフに含まれている
    移動体支援装置。
  3.  請求項2に記載の移動体支援装置において、
     前記レイアウトシーングラフを畳み込むことにより作成された、一または複数の前記2次ノードにより構成され、前記指示に含まれている前記指定場所、前記指定空間および前記指定状態に関する単語のそれぞれに対応する2次ノードクラスタを表わす3次ノードとし、前記単語の隣接関係を表わすエッジ、および、前記2次ノードクラスタの特徴量に応じて定まる前記3次ノードの特徴量によって定義されている指示シーングラフが前記複数のシーングラフに含まれている
    移動体支援装置。
  4.  請求項1に記載の移動体支援装置において、
     中間層を構成するノード間で上から下に重みが伝搬し、かつ、下から上に重みが伝搬するように定義されているグラフニューラルネットワークが用いられて生成された前記学習済みモデルに対して前記複数のシーングラフを入力することにより、前記指定場所を基準とした複数の周辺空間に存在する複数のエリア候補のうち一のエリア候補を出力する
    移動体支援装置。
  5.  請求項4に記載の移動体支援装置において、
     一の中間層を構成するノードから、当該一の中間層との間に一または複数の中間層を挟んで存在する他の中間層を構成するノードに重みが伝搬するように定義されている前記グラフニューラルネットワークが用いられて生成された前記学習済みモデルに対して前記複数のシーングラフを入力することにより、前記指定場所を基準とした複数の周辺空間に存在する複数のエリア候補のうち一のエリア候補を出力する
    移動体支援装置。
  6.  請求項1に記載の移動体支援装置において、
     前記画像が前記移動体に搭載されている撮像装置により撮像された画像である
    移動体支援装置。
  7.  請求項1に記載の移動体支援装置において、
     前記移動体の前記指定状態が、前記移動体の停止状態を含んでいる
    移動体支援装置。
  8.  移動体を支援するための請求項1~7のうちいずれか1項に記載の移動体支援装置と、当該移動体と、により構成されている移動体システム。
PCT/JP2022/034631 2022-09-15 2022-09-15 移動体支援装置および移動体システム WO2024057505A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/034631 WO2024057505A1 (ja) 2022-09-15 2022-09-15 移動体支援装置および移動体システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/034631 WO2024057505A1 (ja) 2022-09-15 2022-09-15 移動体支援装置および移動体システム

Publications (1)

Publication Number Publication Date
WO2024057505A1 true WO2024057505A1 (ja) 2024-03-21

Family

ID=90274661

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/034631 WO2024057505A1 (ja) 2022-09-15 2022-09-15 移動体支援装置および移動体システム

Country Status (1)

Country Link
WO (1) WO2024057505A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04270500A (ja) * 1991-02-26 1992-09-25 Hitachi Ltd 駐車場管理方法
JP2016001170A (ja) * 2014-05-19 2016-01-07 株式会社リコー 処理装置、処理プログラム、及び、処理方法
JP2020154881A (ja) * 2019-03-20 2020-09-24 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04270500A (ja) * 1991-02-26 1992-09-25 Hitachi Ltd 駐車場管理方法
JP2016001170A (ja) * 2014-05-19 2016-01-07 株式会社リコー 処理装置、処理プログラム、及び、処理方法
JP2020154881A (ja) * 2019-03-20 2020-09-24 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム

Similar Documents

Publication Publication Date Title
Poggenhans et al. Lanelet2: A high-definition map framework for the future of automated driving
US11738770B2 (en) Determination of lane connectivity at traffic intersections for high definition maps
US10331957B2 (en) Method, apparatus, and system for vanishing point/horizon estimation using lane models
US11989847B2 (en) Photorealistic image simulation with geometry-aware composition
US11435193B2 (en) Dynamic map rendering
US11143516B2 (en) Task management system for high-definition maps
CN111542860A (zh) 用于自主车辆的高清地图的标志和车道创建
US11232582B2 (en) Visual localization using a three-dimensional model and image segmentation
CN102402797A (zh) 生成多层地理图像以及多层地理图像的使用
US11731663B2 (en) Systems and methods for actor motion forecasting within a surrounding environment of an autonomous vehicle
US11421993B2 (en) Human vision-empowered 3D scene analysis tools
CN109491378A (zh) 自动驾驶车辆的基于道路分段的路线引导系统
KR20220083975A (ko) 궤적 계획 방법, 장치, 기기, 저장 매체 및 프로그램 제품
US11914642B2 (en) Difference merging for map portions
US11465620B1 (en) Lane generation
WO2024057505A1 (ja) 移動体支援装置および移動体システム
WO2024057502A1 (ja) 学習装置
EP4213107A1 (en) Continuous learning machine using closed course scenarios for autonomous vehicles
US20230206584A1 (en) Method, apparatus, and system for pole extraction from a single image
US20230206625A1 (en) Method, apparatus, and system for pole extraction from optical imagery
KR20230053896A (ko) 도심형 자율주행 이동체를 위한 보행로 중심의 이동경로 데이터 구축 방법 및 시스템
CN112543949A (zh) 使用图像内容分析来发现和评估会面位置
CN115507873B (zh) 基于公交车尾红绿灯的路径规划方法、装置、设备和介质
CN117453220B (zh) 基于Unity3D的机场旅客自助服务系统及构建方法
US20230196130A1 (en) System and method of evaluating and assigning a quantitative number for assets in connection with an autonomous vehicle

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22958825

Country of ref document: EP

Kind code of ref document: A1