WO2022176795A1 - 画像認識システム、処理装置、サーバ、画像認識方法、及びコンピュータプログラム - Google Patents

画像認識システム、処理装置、サーバ、画像認識方法、及びコンピュータプログラム Download PDF

Info

Publication number
WO2022176795A1
WO2022176795A1 PCT/JP2022/005592 JP2022005592W WO2022176795A1 WO 2022176795 A1 WO2022176795 A1 WO 2022176795A1 JP 2022005592 W JP2022005592 W JP 2022005592W WO 2022176795 A1 WO2022176795 A1 WO 2022176795A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
unit
recognition
attention area
input image
Prior art date
Application number
PCT/JP2022/005592
Other languages
English (en)
French (fr)
Inventor
麗 岳
Original Assignee
住友電気工業株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 住友電気工業株式会社 filed Critical 住友電気工業株式会社
Priority to JP2023500817A priority Critical patent/JPWO2022176795A1/ja
Publication of WO2022176795A1 publication Critical patent/WO2022176795A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/09Arrangements for giving variable traffic instructions

Definitions

  • the present disclosure relates to an image recognition system, processing device, server, image recognition method, and computer program.
  • This application claims priority based on Japanese Application No. 2021-026154 filed on February 22, 2021, and incorporates all the content described in the Japanese Application.
  • ADAS Advanced Driver Assistance Systems
  • AD Automatic Driving
  • An image recognition system includes an extraction unit that extracts a region of interest from an input image, a first recognition unit that recognizes the input image, a second recognition unit that recognizes an image of the region of interest, An integration unit that integrates recognition results from the first recognition unit and the second recognition unit.
  • a processing device includes an extraction unit that extracts a region of interest from an input image, a first recognition unit that recognizes the input image, and an image of the region of interest connected via a network.
  • a region-of-interest image providing unit that provides a server with a region-of-interest image, a recognition result acquisition unit that acquires a recognition result of the image of the region of interest in the server from the server, and a recognition result obtained by the first recognition unit and the recognition result acquisition unit.
  • an integration unit that integrates the recognition results.
  • a server includes a region-of-interest image obtaining unit that obtains an image of the region of interest via a network from a processing device that extracts the region of interest from an input image, and a recognition unit that recognizes the region of interest. and a recognition result providing unit that provides the processing device with a recognition result obtained by the recognition unit.
  • An image recognition method includes extracting a region of interest from an input image, recognizing the input image, and providing an image of the region of interest to a server connected via a network. acquiring from the server a recognition result of the image of the attention area in the server; and integrating the recognition result in the recognizing step and the recognition result acquired from the server.
  • An image recognition method includes steps of obtaining an image of the attention area from a processing device that has extracted the attention area from an input image via a network, and recognizing the image of the attention area. and providing a recognition result of the image of the region of interest to the processing device.
  • a computer program provides a computer with an extraction unit that extracts a region of interest from an input image, a first recognition unit that recognizes the input image, and an image of the region of interest through a network.
  • a region-of-interest image providing unit that provides a connected server with a region-of-interest image, a recognition result acquisition unit that acquires a recognition result of the image of the region of interest in the server from the server, and a recognition result and the recognition result acquisition by the first recognition unit It functions as an integration unit that integrates the recognition results acquired by the unit.
  • a computer program comprises a computer, a region-of-interest image obtaining unit that obtains an image of the region of interest via a network from a processing device that extracts the region of interest from an input image; It functions as a recognition unit that recognizes an image and a recognition result providing unit that provides the recognition result of the recognition unit to the processing device.
  • the computer program can be distributed via a computer-readable non-temporary recording medium such as a CD-ROM (Compact Disc-Read Only Memory) or a communication network such as the Internet.
  • a computer-readable non-temporary recording medium such as a CD-ROM (Compact Disc-Read Only Memory) or a communication network such as the Internet.
  • the present disclosure can also be implemented as a semiconductor integrated circuit that implements part or all of the processing device or server.
  • FIG. 1 is a diagram showing the overall configuration of a driving assistance system according to Embodiment 1 of the present disclosure.
  • FIG. 2 is a block diagram showing an example configuration of an in-vehicle system according to Embodiment 1 of the present disclosure.
  • 3 is a block diagram illustrating a functional configuration of a processor according to Embodiment 1 of the present disclosure;
  • FIG. 4 is a diagram illustrating an example of an image acquired by an image acquiring unit from a camera;
  • FIG. 5 is a diagram for explaining a method of extracting a region of interest by an extraction unit.
  • FIG. 6 is a diagram for explaining a method of extracting a region of interest by an extraction unit.
  • FIG. 7 is a diagram for explaining object type detection processing by the first detection unit.
  • FIG. 1 is a diagram showing the overall configuration of a driving assistance system according to Embodiment 1 of the present disclosure.
  • FIG. 2 is a block diagram showing an example configuration of an in-vehicle system according to Em
  • FIG. 8 is a diagram for explaining an example of integration processing of detection results by the integration unit.
  • FIG. 9 is a flowchart illustrating an example of a processing procedure of the in-vehicle system according to Embodiment 1 of the present disclosure.
  • 10 is a block diagram illustrating a functional configuration of a processor according to Embodiment 2 of the present disclosure;
  • FIG. 11 is a block diagram illustrating an example of a configuration of a server according to Embodiment 2 of the present disclosure;
  • 12 is a block diagram illustrating a functional configuration of a processor according to Embodiment 2 of the present disclosure;
  • FIG. 13 is a sequence diagram illustrating an example of a processing procedure of the driving assistance system according to the second embodiment of the present disclosure;
  • FIG. 14 is a sequence diagram showing an example of the procedure for creating the first learning model and the second learning model.
  • 15 is a block diagram illustrating a functional configuration of a processor according to Embodiment 3 of the present disclosure
  • FIG. 16 is a block diagram illustrating a functional configuration of a processor according to Embodiment 3 of the present disclosure
  • FIG. 17 is a sequence diagram illustrating an example of a processing procedure of the driving assistance system according to Embodiment 3 of the present disclosure.
  • a distant object takes time to detect because of its small size in the image. For example, it takes a long time to detect a Bounding Box of small size because it has to be scanned in the image. For this reason, in order to perform image recognition processing such as object detection and scene recognition regardless of the size of the object in the image, it is necessary to use a processing device with high processing power, which results in high cost. There is a problem that
  • the present disclosure has been made in view of such circumstances, and provides an image recognition system, processing device, server, and image recognition method capable of recognizing an image at low cost regardless of the size of an object in the image. , and to provide a computer program.
  • An image recognition system includes an extraction unit that extracts a region of interest from an input image, a first recognition unit that recognizes the input image, and a second recognition unit that recognizes the image of the region of interest.
  • a recognition unit and an integration unit that integrates recognition results from the first recognition unit and the second recognition unit.
  • the extraction unit extracts the attention area
  • the second recognition unit recognizes the image of the attention area.
  • the recognition processing is assumed to be object detection processing.
  • the region of interest is a region including an object of small size in the image
  • the object detection processing by the second recognition unit is performed by limiting the object of small size in the image to the region of interest.
  • an object with a large size in the image is subjected to object detection processing by the first recognition unit.
  • the detection target area for small-sized objects can be limited to the attention area. Therefore, the image can be recognized at low cost regardless of the size of the object in the image.
  • the image recognition system includes a first processing device and a second processing device connected to the first processing device via a network, wherein the first processing device includes the extraction unit and , the first recognition unit, and the integration unit, and the second processing device includes the second recognition unit.
  • the recognition processing of the image of the attention area and the recognition processing of the other area can be shared by the two processing devices. Therefore, even if the processing capability of the first processing device is low, the image can be recognized at high speed.
  • the first processing device is installed on a moving body, and the input image includes an image of the surroundings of the moving body.
  • the first processing device executes detection processing of an object having a large size in an image existing in the vicinity of the moving body, and an image existing far away from the moving body is detected.
  • a second processing device can perform a detection process for an object having a small size within. Therefore, an object existing in the vicinity can be detected with a shorter delay time than an object existing in the distance.
  • the region of interest is detected by the first recognition unit from an image obtained by compressing and expanding the input image at a predetermined compression rate or from an image obtained by reducing and enlarging the input image at a predetermined reduction rate. It may be a region containing objects that cannot be moved.
  • the second recognition unit can recognize an image including an object with a small size in the image, such as an object that cannot be recognized.
  • the attention area cannot be detected from an image obtained by compressing and decompressing the input image at a first compression rate
  • the attention area cannot be detected from an image obtained by compressing and decompressing the input image at a first compression rate.
  • the second recognition unit detects an object that can be detected from images obtained by compressing and decompressing the input image, and the first recognition unit compresses and expands the input image from the input image at the first compression rate. Objects that cannot be detected from the decompressed image may be detected.
  • the recognition unit that recognizes the image can be changed according to the relationship between the object that can be detected from the compressed and decompressed image and the compression rate.
  • the attention area cannot be detected from an image obtained by reducing and enlarging the input image at a first reduction ratio by the first recognition unit, and the region of interest cannot be detected from an image obtained by reducing and enlarging the input image at a first reduction ratio.
  • the first recognition unit detects, from the input image, the first recognition unit at the first reduction ratio; detecting an object that can be detected from images obtained by reducing and enlarging the input image; Objects that cannot be detected from the enlarged image may be detected.
  • the first recognition unit recognizes the input image based on a first learning model
  • the second recognition unit recognizes the image of the attention area based on a second learning model
  • the The second processing device may include a generating unit that generates the first learning model and the second learning model, and a providing unit that provides the generated first learning model to the first processing device.
  • the second processing device can collectively generate the first learning model and the second learning model. Therefore, by using the collectively generated first learning model and second learning model, images can be recognized based on the same criteria.
  • the generating unit generates the first learning model using a first image set, and uses the image of the attention area included in the images forming the first image set to perform the second learning model. model may be generated.
  • the same image set can be used to generate the first learning model and the second learning model. Therefore, by using the first learning model and the second learning model, images can be recognized based on the same criteria.
  • a processing device includes an extraction unit that extracts a region of interest from an input image, a first recognition unit that recognizes the input image, and an image of the region of interest via a network.
  • a region-of-interest image providing unit that provides a server connected to the server, a recognition result acquisition unit that acquires a recognition result of the image of the region of interest in the server from the server, a recognition result by the first recognition unit, and the recognition result and an integration unit that integrates the recognition results acquired by the acquisition unit.
  • the recognition and detection of the image of the attention area can be centrally processed by the server.
  • the server is in charge of detecting an object that cannot be detected from an image obtained by compressing and decompressing the input image at a predetermined compression rate, and detecting the object from the image obtained by compressing and decompressing the input image at a predetermined compression rate.
  • the first recognition unit can be in charge of detection processing of an object that can be detected.
  • the server can be in charge of detection processing for small-sized objects in the input image, and the first recognition unit can be in charge of detection processing for large-sized objects.
  • a server includes a region-of-interest image acquisition unit that acquires an image of the region of interest via a network from a processing device that extracts the region of interest from an input image, and A recognition unit for recognition, and a recognition result providing unit for providing the recognition result of the recognition unit to the processing device.
  • the recognition processing of the image of the attention area can be centrally processed by the server.
  • the server is in charge of detecting an object that cannot be detected from an image obtained by compressing and decompressing the input image at a predetermined compression rate, and detecting the object from the image obtained by compressing and decompressing the input image at a predetermined compression rate.
  • a processing device can be assigned to detect an object that can be detected.
  • the server can be in charge of detection processing for small-sized objects in the input image, and the processing device can be in charge of detection processing for large-sized objects.
  • An image recognition method includes steps of extracting a region of interest from an input image, recognizing the input image, and connecting the image of the region of interest via a network. obtaining from the server a recognition result of the image of the attention area in the server; and integrating the recognition result in the recognizing step and the recognition result obtained from the server. .
  • This configuration includes, as steps, the characteristic processing in the processing device described above. Therefore, according to this configuration, it is possible to obtain the same actions and effects as those of the processing apparatus described above.
  • An image recognition method includes a step of acquiring an image of the attention area via a network from a processing device that has extracted the attention area from an input image; and providing a recognition result of the image of the region of interest to the processing device.
  • This configuration includes the characteristic processing in the server described above as steps. Therefore, according to this configuration, the same actions and effects as those of the server described above can be achieved.
  • a computer program provides a computer with an extraction unit that extracts an attention area from an input image, a first recognition unit that recognizes the input image, an image of the attention area, a region-of-interest image providing unit for providing a server connected via a network, a recognition result acquisition unit for acquiring a recognition result of the image of the region of interest in the server from the server, a recognition result by the first recognition unit, and It functions as an integration unit that integrates the recognition results acquired by the recognition result acquisition unit.
  • the computer can function as the processing device described above. Therefore, it is possible to obtain the same functions and effects as those of the processing apparatus described above.
  • a computer program provides a computer with a region-of-interest image obtaining unit that obtains an image of the region of interest via a network from a processing device that has extracted the region of interest from an input image; It functions as a recognition unit that recognizes the image of the attention area and a recognition result providing unit that provides the recognition result of the recognition unit to the processing device.
  • the computer can function as the server described above. Therefore, it is possible to obtain the same actions and effects as those of the server described above.
  • FIG. 1 is a diagram showing the overall configuration of a driving assistance system according to Embodiment 1 of the present disclosure.
  • a driving support system 1 includes a plurality of vehicles 2 traveling on a road capable of wireless communication, one or a plurality of base stations 6 wirelessly communicating with the vehicles 2, the base stations 6 and the Internet, etc. and a server 7 that communicates by wire or wirelessly via a network 5 of
  • the base station 6 consists of a macrocell base station, a microcell base station, a picocell base station, and the like.
  • Vehicles 2 include not only ordinary passenger cars (automobiles), but also public vehicles such as fixed-route buses and emergency vehicles. Also, the vehicle 2 may be a two-wheeled vehicle (bike, motorcycle) as well as a four-wheeled vehicle.
  • Each vehicle 2 is equipped with an in-vehicle system 3 including a camera, as will be described later.
  • Image data obtained by photographing the surroundings of the vehicle 2 with the camera (hereinafter simply referred to as "image") is given a predetermined Apply image processing.
  • the in-vehicle system 3 performs image recognition processing.
  • the in-vehicle system 3 executes recognition processing for recognizing the vehicle 2, people, traffic lights, and road signs from the image, and performs driving support processing and the like for the vehicle 2 based on the recognition results.
  • the recognition processing may include tracking processing of the recognized object.
  • the in-vehicle system 3 may execute a process of recognizing the scene of the image.
  • the image scene may be, for example, a driving scene of the vehicle 2, such as a highway scene or a general road scene.
  • the server 7 transmits and receives data necessary for driving support processing of the vehicle 2 to and from the in-vehicle system 3 .
  • FIG. 2 is a block diagram showing an example of the configuration of the in-vehicle system 3 according to Embodiment 1 of the present disclosure.
  • the in-vehicle system 3 of the vehicle 2 includes a camera 31 , a communication section 32 and a control section (ECU: Electronic Control Unit) 33 .
  • ECU Electronic Control Unit
  • the camera 31 is mounted on the vehicle 2 and consists of an image sensor that captures images around the vehicle 2 (especially in front of the vehicle 2).
  • the camera 31 is monocular. However, the camera 31 may have a compound eye.
  • a video consists of a plurality of time-series images.
  • the communication unit 32 consists of a wireless communication device capable of communication processing compatible with, for example, 5G (fifth generation mobile communication system).
  • the communication unit 32 may be a wireless communication device already installed in the vehicle 2 or may be a portable terminal brought into the vehicle 2 by the passenger.
  • the communication unit 32 is a device for connecting the control unit 33 to the network 5 via the base station 6 .
  • the passenger's mobile terminal temporarily becomes an in-vehicle wireless communication device by being connected to the in-vehicle LAN (Local Area Network) of the vehicle 2 .
  • LAN Local Area Network
  • the control unit 33 consists of a computer device that controls in-vehicle devices mounted on the vehicle 2 including the camera 31 and the communication unit 32 of the vehicle 2 .
  • the in-vehicle device includes, for example, a GPS receiver, a gyro sensor, and the like.
  • the control unit 33 obtains the vehicle position of the own vehicle from the GPS signal received by the GPS receiver. Also, the control unit 33 grasps the direction of the vehicle 2 based on the detection result of the gyro sensor.
  • the control unit 33 has a processor 34 and a memory 35 .
  • the processor 34 is an arithmetic processing device such as a microcomputer that executes computer programs stored in the memory 35 .
  • the memory 35 is a volatile memory element such as SRAM (Static RAM) or DRAM (Dynamic RAM), a non-volatile memory element such as flash memory or EEPROM (Electrically Erasable Programmable Read Only Memory), or a magnetic storage such as a hard disk. It is composed of devices and the like.
  • the memory 35 stores a computer program executed by the control unit 33, data generated when the computer program is executed by the control unit 33, and the like.
  • FIG. 3 is a block diagram showing a functional configuration of the processor 34 according to Embodiment 1 of the present disclosure.
  • processor 34 includes an image acquisition unit 36, an extraction unit 37, a first detection unit 38 as functional processing units realized by executing a computer program stored in memory 35. , a second detection unit 39 , an integration unit 40 , and a driving support processing unit 41 .
  • the image acquisition unit 36 sequentially acquires the images in front of the vehicle 2 captured by the camera 31 in chronological order.
  • the image acquisition section 36 sequentially outputs the acquired images to the extraction section 37 , the first detection section 38 and the second detection section 39 .
  • FIG. 4 is a diagram showing an example of an image (hereinafter referred to as "input image") acquired from the camera 31 by the image acquisition unit 36. As shown in FIG.
  • the input image 50 includes a car 52 and a motorcycle 53 traveling on the road 51 and a human 55 walking on a crosswalk 54 installed on the road 51 .
  • the input image 50 also includes a road sign 56 indicating a pedestrian crossing.
  • the extraction unit 37 acquires the input image 50 from the image acquisition unit 36 and extracts from the input image 50 a region of interest, which is a region containing a predetermined object.
  • the region of interest is, for example, a region including an object that cannot be detected from an image restored by compressing the input image 50 at a predetermined compression rate and decompressing the compressed image by the first detection unit 38, which will be described later.
  • the first detection unit 38 compresses the input image 50 at a first compression ratio (for example, 1/1000), decompresses the compressed image, and detects the region of interest from the restored image.
  • the input image 50 is compressed with a second compression rate (for example, 1/20) lower than the first compression rate, and an object that can be detected from the restored image by decompressing the compressed image ( hereinafter referred to as a "small-sized object").
  • a small-sized object is typically an object with a small size in the input image 50, such as a motorcycle 53 and a human being 55 appearing in the distance.
  • detection of an object means detection of the type of the object. In other words, detecting not only the fact that an object appears in the distance but also the type of the object (for example, the motorcycle 53 or the person 55) is called object detection.
  • the image compression rate is obtained by dividing the data amount of the compressed image by the data amount of the image before compression. Therefore, the smaller the compression ratio value, the higher the compression ratio, and the larger the compression ratio value, the lower the compression ratio.
  • a small-sized object may be defined by a reduction ratio. That is, a small-sized object cannot be detected from an image restored by enlarging and restoring the input image 50 by the first detection unit 38 at a first reduction ratio (for example, 1/8).
  • the input image 50 may be reduced at a second reduction ratio (for example, 1/2) lower than the first reduction ratio, and an object that can be detected from an image restored by enlarging the reduced image.
  • the image reduction ratio is obtained by dividing the size (area) of the reduced image by the size of the image before reduction. Therefore, the smaller the value of the reduction ratio, the higher the reduction ratio, and the larger the value of the reduction ratio, the lower the reduction ratio.
  • FIG. 5 and 6 are diagrams for explaining a method of extracting a region of interest by the extraction unit 37.
  • extraction unit 37 divides input image 50 into a plurality of blocks 60 .
  • the size of the blocks 60 is predetermined, and all of them may be of the same size, or some or all of them may be of different sizes. Also, the number of blocks 60 is not limited to 64.
  • the extraction unit 37 determines whether or not a small-sized object is included in the block image by inputting the image of each block (hereinafter referred to as "block image") into the learning model for determination.
  • the extraction unit 37 may reduce each block image based on a predetermined reduction ratio and input the reduced block image to the determination learning model. As a result, it is possible to remove noise contained in the block image and perform the small-sized object determination process at high speed.
  • the learning model for judgment is, for example, CNN (Convolution Neural Network), RNN (Recurrent Neural Network), AutoEncoder, or the like. It is assumed that each parameter of the learning model for determination is determined by a machine learning technique such as deep learning using a block image including a small-sized object as teacher data.
  • the extraction unit 37 calculates the degree of certainty that a small-sized object is included by inputting an unknown block image into the determination learning model.
  • the extraction unit 37 extracts a block whose certainty is equal to or greater than a predetermined threshold as a region of interest.
  • the extraction unit 37 outputs information on the extracted attention area to the second detection unit 39 .
  • the attention area information includes, for example, the upper left corner coordinates and the lower right corner coordinates of the attention area.
  • the method of expressing the attention area is not limited to this.
  • the attention area information may include the coordinates of the upper left corner of the attention area, the number of pixels in the horizontal direction and the number of pixels in the vertical direction of the attention area, or may include an identifier indicating the attention area.
  • the extracting unit 37 extracts an attention area 61, an attention area 62, and an attention area 63 as attention areas.
  • the extraction unit 37 does not extract the automobile 52 as the attention area.
  • the extraction unit 37 outputs the extraction result of the attention area to the second detection unit 39.
  • the second detection unit 39 functions as a second recognition unit that recognizes the image of the attention area.
  • the second detection unit 39 receives the extraction result of the attention area from the extraction unit 37, and acquires the image of the attention area from the input image 50 acquired by the image acquisition unit 36 based on the extraction result.
  • the second detection unit 39 acquires images of an attention area 61, an attention area 62, and an attention area 63, respectively.
  • the second detection unit 39 detects the type of the small-sized object included in the attention area image by inputting the acquired image of each attention area (hereinafter referred to as "attention area image") into the second learning model. For example, the second detection unit 39 detects that the object type included in the image of the attention area 61 is the road sign 56 indicating a pedestrian crossing. Also, the second detection unit 39 detects that the object type included in the image of the attention area 62 is the human 55 . Furthermore, the second detection unit 39 detects that the object type included in the image of the attention area 63 is the motorcycle 53 .
  • the second learning model is, for example, CNN, RNN, AutoEncoder, or the like. It is assumed that each parameter of the second learning model is determined by a machine learning method such as deep learning using a block image including a small-sized object as teacher data.
  • the second detection unit 39 calculates the certainty factor for each object type by inputting an unknown attention area image into the second learning model.
  • the second detection unit 39 detects the object type corresponding to the highest degree of certainty among the calculated degrees of certainty as the type of the small-sized object included in the attention area image. For example, regarding the image of the attention area 61, the confidence that the type of the small-sized object is a motorcycle 53 is 0.1, the confidence that it is a human 55 is 0.2, and the confidence that it is a car 52 is 0.3, and the confidence factor of the road sign 56 indicating a pedestrian crossing is 0.7. In this case, the second detection unit 39 detects the road sign 56 indicating a pedestrian crossing as the type of small-sized object included in the image of the attention area 61 .
  • the second detection unit 39 outputs, as detection results, the identification information of the attention area, the type of the small-sized object included in the attention area, and the degree of certainty for the type to the integration unit 40 .
  • the first detection section 38 functions as a first recognition section that recognizes the input image 50 .
  • the first detection unit 38 receives the input image 50 from the image acquisition unit 36, and inputs the block images of each block 60 obtained by dividing the input image 50 into the first learning model, thereby determining the types of objects included in the block images.
  • the object to be detected by the first detection unit 38 is obtained from an image restored by compressing the input image 50 at the first compression ratio (for example, 1/1000) and decompressing the compressed image.
  • the first detection unit 38 are objects that can be detected by the first detection unit 38 (hereinafter referred to as “large-sized objects”).
  • a large-sized object is typically an object having a large size in the input image 50, and corresponds to, for example, a car 52 appearing nearby. Therefore, a small-sized object that is the target of detection by the second detection unit 39 is not included.
  • the first detection section 38 may detect a small-sized object
  • the second detection section 39 may detect a large-sized object.
  • the first detection unit 38 may reduce each block image based on a predetermined reduction ratio and input the reduced block image to the first learning model. As a result, it is possible to remove the noise contained in the block image and perform the detection processing of the type of the large-sized object at high speed.
  • FIG. 7 is a diagram for explaining object type detection processing by the first detection unit 38 .
  • the first detection unit 38 sequentially extracts images of blocks 60 from the input image 50, reduces the image of each block 60, and inputs the images to the first learning model. Based on the confidence of the first learning model for the image of block 64, the first detection unit 38 detects that block 64 includes a large-sized object, and that the type is road sign 56 indicating a crosswalk. Further, the first detection unit 38 determines that each of the blocks 65A to 65F includes a large-sized object and that the type of the large-sized object is an automobile, based on the certainty of the first learning model for each image of the blocks 65A to 65F. 52 is detected.
  • the first learning model is, for example, CNN, RNN, AutoEncoder, or the like. It is assumed that each parameter of the first learning model is determined by a machine learning technique such as deep learning using a block image including a large-sized object as teacher data.
  • the first detection unit 38 calculates the certainty factor for each object type by inputting an unknown block image into the first learning model.
  • the first detection unit 38 detects the object type corresponding to the highest degree of certainty among the calculated degrees of certainty as the type of the large-sized object included in the block image.
  • the type of the large-sized object is a motorcycle 53 with a certainty of 0.2, a human being 55 with a certainty of 0.3, and an automobile 52 with a certainty of 0. .1.
  • the confidence factor of the road sign 56 indicating a pedestrian crossing is 0.8.
  • the first detection unit 38 detects the road sign 56 indicating a pedestrian crossing as the type of large-sized object included in the image of the block 64 .
  • the first detection unit 38 outputs the identification information of the block 60, the type of the large-sized object included in the block 60, and the degree of certainty for the type to the integration unit 40 as detection results.
  • the integration unit 40 receives the object detection result as the input image recognition result from the first detection unit 38 and the object detection result as the attention area image recognition result from the second detection unit 39 . and the detection results of the second detection unit 39 are integrated. That is, the integration unit 40 creates a detection result by merging the detection result of the first detection unit 38 and the detection result of the second detection unit 39 .
  • FIG. 8 is a diagram for explaining an example of detection result integration processing by the integration unit 40 .
  • the input image 50 shown in FIG. 8 shows merged detection results.
  • the types of small-sized objects included in the attention areas 61 to 63 detected by the second detection unit 39 shown in FIG. 65F is merged with the types of large-sized objects.
  • the attention area 61 and the block 64 are the same area.
  • the confidence factor of the road sign 56 detected from the attention area 61 is 0.7
  • the confidence factor of the road sign 56 detected from the block 64 is 0.8. Therefore, the detection result of the block 64 with a high degree of certainty is used as the detection result after merging.
  • the integration unit 40 outputs the integrated detection result to the driving support processing unit 41 .
  • the driving assistance processing unit 41 receives the detection result from the integration unit 40 and executes driving assistance processing for the vehicle 2 based on the detection result. For example, the driving support processing unit 41 temporarily stops the vehicle 2 immediately before a road sign 56 indicating a pedestrian crossing, or steers and brakes the vehicle 2 so as to avoid collisions with a car 52, a motorcycle 53, and a human 55. may be transmitted to each control unit of the vehicle 2.
  • FIG. 9 is a flowchart showing an example of a processing procedure of the in-vehicle system 3 according to Embodiment 1 of the present disclosure.
  • the extraction unit 37 sequentially acquires the input image 50 from the image acquisition unit 36, and inputs block images obtained by dividing the input image 50 into the learning model for determination, thereby extracting a region of interest including a small-sized object (step S1 ).
  • the second detection unit 39 receives the extraction result of the attention area from the extraction unit 37, and acquires the attention area image from the input image 50 acquired by the image acquisition unit 36 based on the extraction result.
  • the second detection unit 39 detects the type of the small-sized object and its certainty by inputting the attention area image to the second learning model (step S2).
  • the first detection unit 38 receives the input image 50 from the image acquisition unit 36, and reduces the block image of each block 60 obtained by dividing the input image 50 (step S3). Note that the first detection unit 38 may divide the reduced input image 50 into block images after reducing the input image 50 .
  • the first detection unit 38 inputs each block image after reduction to the first learning model, and detects the type of large-sized object included in the block image and its certainty (step S4).
  • the integration unit 40 integrates the detection result of the small-sized object in step S2 and the detection result of the large-sized object in step S4 (step S5).
  • the driving support processing unit 41 executes driving support processing for the vehicle 2 based on the detection results integrated in step S5 (step S6).
  • the extraction unit 37 extracts the attention area
  • the second detection unit 39 detects the object from the image of the attention area.
  • the attention area For example, by setting the attention area to be an area including an object having a small size in the image, the object detection processing by the second detection unit 39 is performed for an object having a small size in the image.
  • an object detection process by the first detection unit 38 is performed for an object having a large size. In other words, it is possible to separate the detection units according to the size of the object in the image.
  • the detection target area for small-sized objects can be limited to the attention area. Therefore, the object can be detected at low cost regardless of the size of the object in the image.
  • the region of interest refers to an object that cannot be detected from an image obtained by compressing and expanding the input image at a predetermined compression rate, or an object that cannot be detected from an image obtained by reducing and enlarging the input image at a predetermined reduction rate. is the containing region. For this reason, there are objects that cannot be detected from an image that has been compressed and expanded at a compression rate higher than a predetermined compression rate, or objects that cannot be detected from an image that has been reduced and expanded at a reduction rate higher than a predetermined reduction rate.
  • the second detection unit 39 can detect an object having a small size in an image such as this.
  • the attention area cannot be detected from the image obtained by compressing and decompressing the input image at the first compression rate by the first detection unit 38, and the region of interest cannot be detected from the image obtained by compressing and decompressing the input image at the second compression rate, which is lower than the first compression rate.
  • the first detection unit 38 detects, from the input image, an object that can be detected from the image obtained by compressing and decompressing the input image at the first compression ratio.
  • the second detection unit 39 detects from the input image an object that cannot be detected from the image obtained by compressing and decompressing the input image with the first compression ratio by the first detection unit 38 . Therefore, it is possible to change the detection unit that detects the object according to the relationship between the object that can be detected from the compressed and decompressed image and the compression rate.
  • the attention area cannot be detected from the image obtained by reducing and enlarging the input image at the first reduction ratio by the first detection unit 38, and the region of interest cannot be detected from the input image at the second reduction ratio lower than the first reduction ratio.
  • the first detection unit 38 can detect from the input image an object that can be detected from an image obtained by reducing and enlarging the input image at the first reduction ratio by the first detection unit 38 .
  • the second detection unit 39 can detect from the input image an object that cannot be detected from images obtained by reducing and enlarging the input image with the first reduction ratio by the first detection unit 38 . Therefore, it is possible to change the detection unit that detects the object according to the relationship between the object that can be detected from the reduced and enlarged images and the reduction ratio.
  • the in-vehicle system 3 executes detection processing for the types of small-sized objects and large-sized objects.
  • the in-vehicle system 3 and the server 7 cooperate to execute detection processing for the types of small-sized objects and large-sized objects.
  • the configuration of the driving support system 1 is the same as that of the first embodiment.
  • FIG. 10 is a block diagram showing a functional configuration of the processor 34 according to Embodiment 2 of the present disclosure.
  • processor 34 includes an image acquiring unit 36, an extracting unit 37, a first detecting unit 38 as functional processing units realized by executing a computer program stored in memory 35. , an integration unit 40 , a driving support processing unit 41 , an attention area providing unit 42 , and a detection result acquisition unit 43 .
  • the attention area providing unit 42 receives the extraction result of the attention area from the extraction unit 37, and acquires the attention area image from the input image 50 acquired by the image acquisition unit 36 based on the extraction result. Referring to FIG. 6, attention area providing unit 42 acquires images of attention area 61, attention area 62, and attention area 63, for example.
  • the attention area providing unit 42 compresses the acquired attention area image at a predetermined compression rate, and transmits the compressed attention area image to the server 7 via the communication unit 32 together with the identification information of the attention area.
  • the detection result acquisition unit 43 acquires from the server 7 via the communication unit 32 detection result information on the type of the small-sized object included in the attention area image transmitted to the server 7 by the attention area providing unit 42 .
  • the detection result information includes the identification information of the attention area, the type of the small-sized object detected from the attention area image, and the certainty of the type.
  • the detection result information indicates that the object type included in the image of the attention area 61 is the road sign 56 indicating a pedestrian crossing, and the confidence factor of the road sign 56 is 0.7.
  • the detection result information indicates that the object type included in the image of the attention area 62 is the human 55, and the certainty factor of the human 55 is 0.8.
  • the detection result information indicates that the object type included in the image of the attention area 63 is the motorcycle 53, and the certainty factor of the motorcycle 53 is 0.85.
  • the detection result acquisition unit 43 outputs the detection result acquired from the server 7 to the integration unit 40 .
  • the integration unit 40 receives detection results from each of the first detection unit 38 and the detection result acquisition unit 43 and integrates the detection results.
  • the method of integrating detection results is the same as in the first embodiment.
  • FIG. 11 is a block diagram showing an example of the configuration of the server 7 according to Embodiment 2 of the present disclosure.
  • the server 7 includes a communication section 71 , a processor 72 and a memory 73 .
  • the communication unit 71 is, for example, a communication module for connecting the server 7 to the network 5 by wire or wirelessly.
  • the processor 72 is an arithmetic processing device such as a microcomputer that executes computer programs stored in the memory 73 .
  • the memory 73 is composed of a volatile memory element such as SRAM or DRAM, a non-volatile memory element such as flash memory or EEPROM, or a magnetic storage device such as a hard disk.
  • the memory 73 stores a computer program executed by the processor 72, data generated when the computer program is executed by the processor 72, and the like.
  • FIG. 12 is a block diagram showing a functional configuration of the processor 72 according to Embodiment 2 of the present disclosure.
  • processor 72 includes, as functional processing units realized by executing a computer program stored in memory 73, attention area acquisition unit 74, second detection unit 75, detection result and a providing unit 76 .
  • the attention area acquisition unit 74 receives the attention area image compressed in the in-vehicle system 3 from the in-vehicle system 3 via the communication unit 71 together with the identification information of the attention area image.
  • the attention area acquisition unit 74 restores the attention area image by decompressing the acquired compressed attention area image.
  • the attention area acquisition section 74 outputs the restored attention area image to the second detection section 75 together with the identification information.
  • the second detection unit 75 receives the attention area image from the attention area acquisition unit 74 and inputs the attention area image to the second learning model, thereby detecting the type of the small-sized object included in the attention area image.
  • the detection method is the same as that of the second detection section 39 shown in the first embodiment.
  • the second detection unit 75 outputs, as detection results, the identification information of the attention area, the type of the small-sized object included in the attention area, and the degree of certainty for the type to the detection result providing unit 76 .
  • the detection result providing unit 76 provides the detection result to the in-vehicle system 3 by receiving the detection result from the second detection unit 75 and transmitting the detection result to the in-vehicle system 3 via the communication unit 71 .
  • FIG. 13 is a sequence diagram showing an example of a processing procedure of the driving assistance system 1 according to Embodiment 2 of the present disclosure. The same step numbers are given to the same processes as those shown in FIG.
  • the extraction unit 37 of the in-vehicle system 3 sequentially acquires the input image 50 from the image acquisition unit 36, and inputs the block images obtained by dividing the input image 50 into the determination learning model, thereby extracting a region of interest including a small-sized object. (step S1).
  • the attention area providing unit 42 of the in-vehicle system 3 receives the extraction result of the attention area from the extraction unit 37, and acquires the attention area image from the input image 50 acquired by the image acquisition unit 36 based on the extraction result.
  • the attention area providing unit 42 compresses the obtained attention area image at a predetermined compression rate (step S11).
  • the attention area providing unit 42 transmits the compressed attention area image together with the identification information of the attention area to the server 7 via the communication unit 32, and the attention area acquisition unit 74 of the server 7 receives it (step S12). .
  • the attention area acquisition unit 74 of the server 7 restores the attention area image by decompressing the acquired compressed attention area image (step S13).
  • the second detection unit 75 of the server 7 receives the attention area image from the attention area acquisition unit 74 and inputs the attention area image to the second learning model to determine the type of small-sized object included in the attention area image and its confidence. degree is detected (step S2).
  • the detection result providing unit 76 of the server 7 transmits the detection result of the small-sized object in step S2 to the in-vehicle system 3 via the communication unit 71, and the detection result acquisition unit 43 receives it (step S14).
  • the first detection unit 38 of the in-vehicle system 3 receives the input image 50 from the image acquisition unit 36, and reduces the block image of each block 60 obtained by dividing the input image 50 (step S3). Note that the first detection unit 38 may divide the reduced input image 50 into block images after reducing the input image 50 .
  • the first detection unit 38 of the in-vehicle system 3 inputs each block image after reduction into the first learning model, and detects the type of large-sized object included in the block image and its certainty (step S4).
  • the integrating unit 40 of the in-vehicle system 3 integrates the small-sized object detection result received in step S14 and the large-sized object detection result in step S4 (step S5).
  • the driving support processing unit 41 executes driving support processing for the vehicle 2 based on the detection results integrated in step S5 (step S6).
  • FIG. 14 is a sequence diagram showing an example of the procedure for creating the first learning model and the second learning model.
  • the number of in-vehicle systems 3 is assumed to be two here, the number of in-vehicle systems 3 may be three or more.
  • images of the surroundings of the vehicle 2 are captured (steps S101 and S102).
  • the in-vehicle systems 3A and 3B respectively transmit the images obtained in steps S101 and S102 to the server 7 (steps S103 and S104).
  • the server 7 generates images that serve as training data from the images received from the in-vehicle systems 3A and 3B, and generates a first learning model and a second learning model using the generated training data (step S105).
  • the image set from which the teacher data for the first learning model is generated is the same as the image set from which the teacher data for the second learning model is generated.
  • the image sets may be collected independently by the server 7 without being collected from the in-vehicle systems 3A and 3B.
  • the server 7 transmits the generated first learning model to the in-vehicle systems 3A and 3B, respectively (steps S106 and S107).
  • the first learning model may be transmitted when the in-vehicle systems 3 and 3B are activated, or may be transmitted periodically at predetermined time intervals.
  • the second learning model is used for object detection in the server 7 .
  • the server 7 and the in-vehicle system 3 can share detection of objects included in the attention area and detection of objects included in other areas. can. Therefore, object detection can be performed at high speed even when the processing capability of the in-vehicle system 3 is low.
  • the in-vehicle system 3 executes detection processing of a large-sized object in the image existing near the moving object
  • the server 7 executes detection processing of a small-sized object in the image existing far from the moving object. can be executed. Therefore, an object existing in the vicinity can be detected with a shorter delay time than an object existing in the distance.
  • the server 7 can collectively generate the first learning model and the second learning model. Therefore, by using the collectively generated first learning model and second learning model, an object can be detected based on the same criteria.
  • the same image set can be used to generate the first learning model and the second learning model. Therefore, by using the first learning model and the second learning model, it is possible to detect an object based on the same criteria.
  • the in-vehicle system 3 executes detection processing for the types of small-sized objects and large-sized objects.
  • the in-vehicle system 3 and the server 7 cooperate to detect the types of small-sized objects and large-sized objects. processed.
  • the server 7 executes processing for detecting types of small-sized objects and large-sized objects.
  • the configuration of the driving support system 1 is the same as that of the first embodiment.
  • FIG. 15 is a block diagram showing a functional configuration of the processor 34 according to Embodiment 3 of the present disclosure.
  • processor 34 includes an image acquiring unit 36, an extracting unit 37, and a driving support processing unit 41 as functional processing units realized by executing a computer program stored in memory 35. , an attention area providing unit 42 , and a detection result acquiring unit 43 .
  • the attention area providing unit 42 receives the attention area extraction result from the extraction unit 37, and compresses the image acquired by the image acquisition unit 36 based on the attention area extraction result. Here, the attention area providing unit 42 compresses the attention area at a compression rate lower than that of other areas other than the attention area. The attention area providing unit 42 transmits the compressed image together with the identification information of the attention area to the server 7 via the communication unit 32 .
  • the detection result acquisition unit 43 receives from the server 7 via the communication unit 32 detection result information on the type of object included in the compressed image that the attention area providing unit 42 has transmitted to the server 7 .
  • the detection result information includes the identification information of the block in which the object was detected or the position information of the object, and the type information of the object.
  • the detection result acquisition unit 43 outputs detection result information acquired from the server 7 to the driving support processing unit 41 .
  • the driving support processing unit 41 executes driving support processing for the vehicle 2 based on the detection result information acquired from the detection result acquisition unit 43 .
  • FIG. 16 is a block diagram showing a functional configuration of the processor 72 according to Embodiment 3 of the present disclosure.
  • processor 72 includes a region-of-interest acquisition unit 74, a second detection unit 75, and a detection result as functional processing units realized by executing a computer program stored in memory 73.
  • a providing unit 76 , a first detection unit 77 and an integration unit 78 are provided.
  • the attention area acquisition unit 74 receives the compressed image together with the identification information of the attention area from the in-vehicle system 3 via the communication unit 71 .
  • the attention area acquiring unit 74 restores the input image 50 by decompressing the compressed image based on the acquired identification information of the attention area. That is, the region of interest is compressed at a lower compression ratio than other regions. Therefore, the region of interest is expanded by a decompression method corresponding to the compression method of the region of interest, and the other regions are expanded by a decompression method corresponding to the compression method of the region.
  • the second detection unit 75 receives the restored attention area image from the attention area acquisition unit 74 and inputs the attention area image into the second learning model, thereby detecting the type of the small-sized object included in the attention area image. .
  • the detection method is the same as that of the second detection section 39 shown in the first embodiment.
  • the second detection unit 75 outputs the identification information of the attention area, the type of the small-sized object included in the attention area, and the degree of certainty for the type to the integration unit 78 as the detection result.
  • the first detection unit 77 receives the restored input image 50 from the attention area acquisition unit 74, and inputs the block image of each block 60 included in the input image to the first learning model so that Detect the type of small-sized object.
  • the detection method is the same as that of the first detection section 38 shown in the first embodiment.
  • the first detection unit 77 may reduce each block image based on a predetermined reduction ratio and input the reduced block image to the first learning model.
  • the first detection unit 77 outputs the identification information of the block 60, the type of the large-sized object included in the block 60, and the degree of certainty for the type to the integration unit 78 as detection results.
  • the integration unit 40 receives the detection results from each of the first detection unit 77 and the second detection unit 75 and integrates the detection results of the first detection unit 77 and the second detection unit 75 .
  • a method of integrating detection results is the same as that of the integration unit 40 described in the first embodiment.
  • the detection result providing unit 76 transmits detection result information on the types of objects included in the integrated compressed image to the in-vehicle system 3 via the communication unit 71 .
  • FIG. 17 is a sequence diagram showing an example of a processing procedure of the driving assistance system 1 according to Embodiment 3 of the present disclosure. The same step numbers are given to the same processes as those shown in FIG.
  • the extraction unit 37 of the in-vehicle system 3 sequentially acquires the input image 50 from the image acquisition unit 36, and inputs the block images obtained by dividing the input image 50 into the determination learning model, thereby extracting a region of interest including a small-sized object. (step S1).
  • the attention area providing unit 42 of the in-vehicle system 3 compresses the input image 50 based on the extraction result of the attention area extracted in step S1 (step S21).
  • the attention area providing unit 42 compresses the attention area at a compression rate lower than that of other areas other than the attention area.
  • the attention area providing unit 42 transmits the compressed image together with identification information of the attention area to the server 7 via the communication unit 32, and the attention area acquisition unit 74 of the server 7 receives it (step S22).
  • the attention area acquisition unit 74 of the server 7 restores the input image 50 by decompressing the compressed image based on the acquired identification information of the attention area (step S23).
  • the second detection unit 75 of the server 7 receives the restored attention area image from the attention area acquisition unit 74, inputs the attention area image into the second learning model, and determines the type of small-sized object included in the attention area image. and its reliability are detected (step S2).
  • the first detection unit 77 of the server 7 reduces each block image based on a predetermined reduction ratio (step S3). Note that the first detection unit 77 may divide the reduced input image 50 into block images after reducing the restored input image 50 in step S23.
  • the first detection unit 77 inputs each block image after reduction to the first learning model, and detects the type of large-sized object included in the block image and its certainty (step S4).
  • the integration unit 78 of the server 7 integrates the detection result of the small-sized object in step S2 and the detection result of the large-sized object in step S4 (step S5).
  • the detection result providing unit 76 of the server 7 transmits the detection result information of the object type included in the integrated compressed image to the in-vehicle system 3 via the communication unit 71, and the detection result acquisition unit 43 of the in-vehicle system 3 Receive (step S24).
  • the driving support processing unit 41 executes driving support processing for the vehicle 2 based on the object detection result information received in step S24 (step S6).
  • the server 7 is provided with the first detection unit and the second detection unit, and the in-vehicle system 3 is not provided with the first detection unit and the second detection unit. Therefore, even if the processing capability of the in-vehicle system 3 is low, the object detection result can be provided to the in-vehicle system 3 , and the in-vehicle system 3 can execute the driving support processing of the vehicle 2 .
  • the first detection unit 38 detects the type of an object included in the input image 50 as recognition processing for the input image 50.
  • the recognition processing for the input image 50 is , or other processing.
  • the first detection unit 38 may perform processing for recognizing the scene of the input image 50 (for example, the driving scene of the vehicle 2) as the recognition processing for the input image 50.
  • the second detection unit 39 detects the type of an object included in the attention area image as the attention area image recognition process, but the attention area image recognition process is other processing.
  • the second detection unit 39 may perform a process of recognizing a scene of the attention area image (for example, a driving scene of the vehicle 2) as the attention area image recognition process.
  • the integration unit 40 integrates the recognition result of the first detection unit 38 and the recognition result of the second detection unit 39 .
  • the scene recognized by the first detection unit 38 and the scene recognized by the second detection unit 39 may be merged.
  • the merging of scene recognition results may be performed based on the degree of certainty, similar to the merging of object detection results in the first embodiment.
  • a part or all of the constituent elements constituting each of the devices described above may be composed of one or more semiconductor devices such as system LSIs.
  • the computer program described above may be recorded on a non-temporary computer-readable recording medium such as an HDD, a CD-ROM, a semiconductor memory, etc., and distributed. Also, the computer program may be transmitted and distributed via an electric communication line, a wireless or wired communication line, a network represented by the Internet, data broadcasting, or the like. Moreover, each of the above devices may be realized by a plurality of computers or a plurality of processors. Furthermore, at least part of the above embodiments may be combined arbitrarily.
  • Driving support system image recognition system
  • Vehicle moving body
  • In-vehicle system first processing device
  • Network 6.
  • Base station 7.
  • Server second processing device
  • 31. Camera 32, 71 communication unit, 33 control unit, 34, 72 processor, 35, 73 memory, 36 image acquisition unit, 37 extraction unit, 38, 77 first detection unit (first recognition unit), 39, 75 second detection unit (Second recognition unit), 40, 78 integration unit, 41 driving support processing unit, 42 attention area providing unit, 43 detection result acquisition unit, 50 input image, 51 road, 52 car, 53 motorcycle, 54 pedestrian crossing, 55 human , 56 road signs, 60, 64, 65A to 65F blocks, 61 to 63 attention area, 74 attention area obtaining unit, 76 detection result providing unit

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

画像認識システムは、入力画像から注目領域を抽出する抽出部と、前記入力画像を認識する第1認識部と、前記注目領域の像を認識する第2認識部と、前記第1認識部及び前記第2認識部による認識結果を統合する統合部とを備える。

Description

画像認識システム、処理装置、サーバ、画像認識方法、及びコンピュータプログラム
 本開示は、画像認識システム、処理装置、サーバ、画像認識方法、及びコンピュータプログラムに関する。 本出願は、2021年2月22日出願の日本出願第2021-026154号に基づく優先権を主張し、前記日本出願に記載された全ての記載内容を援用するものである。
 ADAS(先進運転支援システム)やAD(自動運転)などを用いて、自動車の安全運転支援を行う際には、カメラで自動車の周囲を撮像し、得られた画像から対象物を認識する必要がある(例えば、特許文献1参照)。
 より安全な自動運転を実現するためには、周囲の環境が将来的にどのように変化するかを先読みする技術が必要となる。変化を先読みするためには、自車両から遠くに存在する物体をいち早く検出する必要がある。
特開2020-173584号公報
 本開示の一態様に係る画像認識システムは、入力画像から注目領域を抽出する抽出部と、前記入力画像を認識する第1認識部と、前記注目領域の像を認識する第2認識部と、前記第1認識部及び前記第2認識部による認識結果を統合する統合部とを備える。
 本開示の他の態様に係る処理装置は、入力画像から注目領域を抽出する抽出部と、前記入力画像を認識する第1認識部と、前記注目領域の像を、ネットワークを介して接続されるサーバに提供する注目領域像提供部と、前記サーバにおける前記注目領域の像の認識結果を前記サーバから取得する認識結果取得部と、前記第1認識部による認識結果及び前記認識結果取得部が取得した認識結果を統合する統合部とを備える。
 本開示の他の態様に係るサーバは、入力画像から注目領域を抽出した処理装置から、ネットワークを介して前記注目領域の像を取得する注目領域像取得部と、前記注目領域を認識する認識部と、前記認識部による認識結果を前記処理装置に提供する認識結果提供部とを備える。
 本開示の他の態様に係る画像認識方法は、入力画像から注目領域を抽出するステップと、前記入力画像を認識するステップと、前記注目領域の像を、ネットワークを介して接続されるサーバに提供するステップと、前記サーバにおける前記注目領域の像の認識結果を前記サーバから取得するステップと、前記認識するステップにおける認識結果及び前記サーバから取得した認識結果を統合するステップとを含む。
 本開示の他の態様に係る画像認識方法は、入力画像から注目領域を抽出した処理装置から、ネットワークを介して前記注目領域の像を取得するステップと、前記注目領域の像を認識するステップと、前記注目領域の像の認識結果を前記処理装置に提供するステップとを含む。
 本開示の他の態様に係るコンピュータプログラムは、コンピュータを、入力画像から注目領域を抽出する抽出部と、前記入力画像を認識する第1認識部と、前記注目領域の像を、ネットワークを介して接続されるサーバに提供する注目領域像提供部と、前記サーバにおける前記注目領域の像の認識結果を前記サーバから取得する認識結果取得部と、前記第1認識部による認識結果及び前記認識結果取得部が取得した認識結果を統合する統合部として機能させる。
 本開示の他の態様に係るコンピュータプログラムは、コンピュータを、入力画像から注目領域を抽出した処理装置から、ネットワークを介して前記注目領域の像を取得する注目領域像取得部と、前記注目領域の像を認識する認識部と、前記認識部による認識結果を前記処理装置に提供する認識結果提供部として機能させる。
 なお、コンピュータプログラムを、CD-ROM(Compact Disc-Read Only Memory)等のコンピュータ読取可能な非一時的な記録媒体やインターネット等の通信ネットワークを介して流通させることができるのは、言うまでもない。また、本開示は、処理装置又はサーバの一部又は全部を実現する半導体集積回路として実現することもできる。
図1は、本開示の実施形態1に係る運転支援システムの全体構成を示す図である。 図2は、本開示の実施形態1に係る車載システムの構成の一例を示すブロック図である。 図3は、本開示の実施形態1に係るプロセッサの機能的な構成を示すブロック図である。 図4は、画像取得部がカメラから取得した画像の一例を示す図である。 図5は、抽出部による注目領域の抽出方法を説明するための図である。 図6は、抽出部による注目領域の抽出方法を説明するための図である。 図7は、第1検出部による物体種別の検出処理を説明するための図である。 図8は、統合部による検出結果の統合処理の一例を説明するための図である。 図9は、本開示の実施形態1に係る車載システムの処理手順の一例を示すフローチャートである。 図10は、本開示の実施形態2に係るプロセッサの機能的な構成を示すブロック図である。 図11は、本開示の実施形態2に係るサーバの構成の一例を示すブロック図である。 図12は、本開示の実施形態2に係るプロセッサの機能的な構成を示すブロック図である。 図13は、本開示の実施形態2に係る運転支援システムの処理手順の一例を示すシーケンス図である。 図14は、第1学習モデル及び第2学習モデルの作成手順の一例を示すシーケンス図である。 図15は、本開示の実施形態3に係るプロセッサの機能的な構成を示すブロック図である。 図16は、本開示の実施形態3に係るプロセッサの機能的な構成を示すブロック図である。 図17は、本開示の実施形態3に係る運転支援システムの処理手順の一例を示すシーケンス図である。
 [本開示が解決しようとする課題]
 遠くに存在する物体は、画像内でのサイズが小さいため、検出に時間を要する。例えば、小さいサイズのBounding Boxを画像内で走査しなければならないため、検出に時間を要する。このため、画像内での物体のサイズの大小によらずに物体の検出やシーンの認識などの画像認識処理を実行するためには、処理能力の高い処理装置を用いなければならず、高コストであるという課題がある。
 本開示は、このような事情に鑑みてなされたものであり、画像内での物体のサイズによらず、低コストで画像を認識することのできる画像認識システム、処理装置、サーバ、画像認識方法、及びコンピュータプログラムを提供することを目的とする。 
 [本開示の効果]
 本開示によると、画像内での物体のサイズによらず、低コストで画像を認識することができる。
 [本開示の実施形態の説明]
 最初に本開示の実施形態の概要を列記して説明する。
 (1)本開示の一実施形態に係る画像認識システムは、入力画像から注目領域を抽出する抽出部と、前記入力画像を認識する第1認識部と、前記注目領域の像を認識する第2認識部と、前記第1認識部及び前記第2認識部による認識結果を統合する統合部とを備える。
 この構成によると、抽出部により注目領域が抽出され、第2認識部により注目領域の像が認識される。例えば、認識処理を物体検出処理とする。この場合、注目領域を画像内でのサイズが小さい物体を含む領域とすることにより、画像内でのサイズが小さい物体については、注目領域に限定して第2認識部による物体検出処理が行われる。その一方、画像内でのサイズが大きい物体については、第1認識部による物体検出処理が行われる。つまり、画像内での物体のサイズに応じて認識部を切り分けることが可能である。これにより、1つの認識部でサイズの小さな物体からサイズの大きい物体までを検出する場合に比べ、低い処理能力で物体検出が可能である。また、小さいサイズの物体の検出対象領域を注目領域に限定することもできる。よって、画像内での物体のサイズによらず、低コストで画像を認識することができる。
 (2)好ましくは、前記画像認識システムは、第1処理装置と、前記第1処理装置とネットワークを介して接続される第2処理装置とを備え、前記第1処理装置は、前記抽出部と、前記第1認識部と、前記統合部とを含み、前記第2処理装置は、前記第2認識部を含む。
 この構成によると、2つの処理装置により、注目領域の像の認識処理と、それ以外の領域の認識処理とを分担して行うことができる。このため、第1処理装置の処理能力が低い場合であっても、画像を高速で認識することができる。
 (3)さらに好ましくは、前記第1処理装置は、移動体に設置され、前記入力画像は、前記移動体の周囲の像を含む。
 第1処理装置を移動体に設置することにより、例えば、移動体の近傍に存在する画像内でのサイズが大きい物体の検出処理を第1処理装置で実行し、移動体から遠方に存在する画像内でのサイズが小さい物体の検出処理を第2処理装置で実行することができる。このため、近傍に存在する物体を、遠方に存在する物体に比べて低遅延時間で検出することができる。
 (4)また、前記注目領域は、前記第1認識部が、所定の圧縮率で前記入力画像を圧縮及び伸張した画像又は所定の縮小率で前記入力画像を縮小及び拡大した画像からは検出することのできない物体を含む領域であってもよい。
 この構成によると、所定の圧縮率よりも高圧縮率で圧縮及び伸張した画像からは検出することのできない物体や所定の縮小率よりも高縮小率で縮小及び拡大した画像からは検出することのできない物体のような、画像内でのサイズが小さい物体を含む像を第2認識部で認識することができる。
 (5)また、前記注目領域は、前記第1認識部が、第1圧縮率で前記入力画像を圧縮及び伸張した画像からは検出することができず、かつ前記第1圧縮率よりも低い第2圧縮率で前記入力画像を圧縮及び伸張した画像から検出することのできる物体を含む領域を含み、前記第1認識部は、前記入力画像から、前記第1認識部が前記第1圧縮率で前記入力画像を圧縮及び伸張した画像から検出することのできる物体を検出し、前記第2認識部は、前記入力画像から、前記第1認識部が前記第1圧縮率で前記入力画像を圧縮及び伸張した画像から検出することのできない物体を検出してもよい。
 この構成によると、圧縮及び伸張した画像から検出可能な物体と圧縮率との関係に応じて、画像を認識する認識部を変えることができる。
 (6)また、前記注目領域は、前記第1認識部が、第1縮小率で前記入力画像を縮小及び拡大した画像からは検出することができず、かつ前記第1縮小率よりも低い第2縮小率で前記入力画像を縮小及び拡大した画像から検出することのできる物体を含む領域を含み、前記第1認識部は、前記入力画像から、前記第1認識部が前記第1縮小率で前記入力画像を縮小及び拡大した画像から検出することのできる物体を検出し、前記第2認識部は、前記入力画像から、前記第1認識部が前記第1縮小率で前記入力画像を縮小及び拡大した画像から検出することのできない物体を検出してもよい。
 この構成によると、縮小及び拡大した画像から検出可能な物体と圧縮率との関係に応じて、画像を認識する認識部を変えることができる。
 (7)また、前記第1認識部は、第1学習モデルに基づいて前記入力画像を認識し、前記第2認識部は、第2学習モデルに基づいて前記注目領域の像を認識し、前記第2処理装置は、前記第1学習モデル及び前記第2学習モデルを生成する生成部と、生成された前記第1学習モデルを前記第1処理装置に提供する提供部とを含んでいてもよい。
 この構成によると、第2処理装置で、一括して第1学習モデル及び第2学習モデルを生成することができる。このため、一括生成された第1学習モデル及び第2学習モデルを用いることにより、同様の基準で画像を認識することができる。
 (8)また、前記生成部は、第1画像セットを用いて前記第1学習モデルを生成し、前記第1画像セットを構成する画像に含まれる前記注目領域の像を用いて前記第2学習モデルを生成してもよい。
 この構成によると、同一の画像セットを用いて第1学習モデル及び第2学習モデルを生成することができる。このため、第1学習モデル及び第2学習モデルを用いることにより、同様の基準で画像を認識することができる。
 (9)本開示の他の実施形態に係る処理装置は、入力画像から注目領域を抽出する抽出部と、前記入力画像を認識する第1認識部と、前記注目領域の像を、ネットワークを介して接続されるサーバに提供する注目領域像提供部と、前記サーバにおける前記注目領域の像の認識結果を前記サーバから取得する認識結果取得部と、前記第1認識部による認識結果及び前記認識結果取得部が取得した認識結果を統合する統合部とを備える。
 この構成によると、注目領域の像の認識検出についてはサーバで集中的に処理させることができる。これにより、例えば、所定の圧縮率で入力画像を圧縮及び伸張した画像からは検出することのできない物体の検出処理をサーバに担当させ、所定の圧縮率で入力画像を圧縮及び伸張した画像から検出することのできる物体の検出処理を第1認識部に担当させることができる。また、入力画像内でのサイズが小さい物体の検出処理をサーバに担当させ、サイズが大きい物体の検出処理を第1認識部に担当させることができる。つまり、入力画像内での物体のサイズや、圧縮率に応じて認識部を切り分けることが可能である。これにより、1つの認識部でサイズの小さな物体からサイズの大きい物体までを検出する場合に比べ、低い処理能力で物体検出が可能である。よって、画像内での物体のサイズによらず、低コストで画像を認識することができる。
 (10)本開示の他の実施形態に係るサーバは、入力画像から注目領域を抽出した処理装置から、ネットワークを介して前記注目領域の像を取得する注目領域像取得部と、前記注目領域を認識する認識部と、前記認識部による認識結果を前記処理装置に提供する認識結果提供部とを備える。
 この構成によると、注目領域の像の認識処理についてはサーバで集中的に処理させることができる。これにより、例えば、所定の圧縮率で入力画像を圧縮及び伸張した画像からは検出することのできない物体の検出処理をサーバに担当させ、所定の圧縮率で入力画像を圧縮及び伸張した画像から検出することのできる物体の検出処理を処理装置に担当させることができる。また、入力画像内でのサイズが小さい物体の検出処理をサーバに担当させ、サイズが大きい物体の検出処理を処理装置に担当させることができる。つまり、入力画像内での物体のサイズや、圧縮率に応じて認識部を切り分けることが可能である。これにより、1つの認識部でサイズの小さな物体からサイズの大きい物体までを検出する場合に比べ、低い処理能力で物体検出が可能である。よって、画像内での物体のサイズによらず、低コストで画像を認識することができる。
 (11)本開示の他の実施形態に係る画像認識方法は、入力画像から注目領域を抽出するステップと、前記入力画像を認識するステップと、前記注目領域の像を、ネットワークを介して接続されるサーバに提供するステップと、前記サーバにおける前記注目領域の像の認識結果を前記サーバから取得するステップと、前記認識するステップにおける認識結果及び前記サーバから取得した認識結果を統合するステップとを含む。
 この構成は、上述の処理装置における特徴的な処理をステップとして含む。このため、この構成によると、上述の処理装置と同様の作用及び効果を奏することができる。
 (12)本開示の他の実施形態に係る画像認識方法は、入力画像から注目領域を抽出した処理装置から、ネットワークを介して前記注目領域の像を取得するステップと、前記注目領域の像を認識するステップと、前記注目領域の像の認識結果を前記処理装置に提供するステップとを含む。
 この構成は、上述のサーバにおける特徴的な処理をステップとして含む。このため、この構成によると、上述のサーバと同様の作用及び効果を奏することができる。
 (13)本開示の他の実施形態に係るコンピュータプログラムは、コンピュータを、入力画像から注目領域を抽出する抽出部と、前記入力画像を認識する第1認識部と、前記注目領域の像を、ネットワークを介して接続されるサーバに提供する注目領域像提供部と、前記サーバにおける前記注目領域の像の認識結果を前記サーバから取得する認識結果取得部と、前記第1認識部による認識結果及び前記認識結果取得部が取得した認識結果を統合する統合部として機能させる。
 この構成によると、コンピュータを、上述の処理装置として機能させることができる。このため、上述の処理装置と同様の作用及び効果を奏することができる。
 (14)本開示の他の実施形態に係るコンピュータプログラムは、コンピュータを、入力画像から注目領域を抽出した処理装置から、ネットワークを介して前記注目領域の像を取得する注目領域像取得部と、前記注目領域の像を認識する認識部と、前記認識部による認識結果を前記処理装置に提供する認識結果提供部として機能させる。
 この構成によると、コンピュータを、上述のサーバとして機能させることができる。このため、上述のサーバと同様の作用及び効果を奏することができる。
 [本開示の実施形態の詳細]
 以下、本開示の実施形態について、図面を参照しながら説明する。なお、以下で説明する実施形態は、いずれも本開示の一具体例を示すものである。以下の実施形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本開示を限定するものではない。また、以下の実施形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意に付加可能な構成要素である。また、各図は、模式図であり、必ずしも厳密に図示されたものではない。
 また、同一の構成要素には同一の符号を付す。それらの機能及び名称も同様であるため、それらの説明は適宜省略する。
 <実施形態1>
 〔運転支援システムの全体構成〕
 図1は、本開示の実施形態1に係る運転支援システムの全体構成を示す図である。
 図1を参照して、運転支援システム1は、無線通信が可能な道路上を走行する複数の車両2と、車両2と無線通信する1または複数の基地局6と、基地局6とインターネット等のネットワーク5を介して有線または無線で通信するサーバ7とを備える。
 基地局6は、マクロセル基地局、マイクロセル基地局、及びピコセル基地局などからなる。
 車両2には、通常の乗用車(自動車)だけでなく、路線バスや緊急車両などの公共車両も含まれる。また、車両2は、四輪車だけでなく、二輪車(バイク、オートバイ)であってもよい。
 各車両2は、後述するようにカメラを含む車載システム3を備えており、カメラで車両2の周囲を撮影することにより得られる画像データ(以下では、単に「画像」という)に対して所定の画像処理を施す。例えば、車載システム3は、画像を認識する処理を行う。一例として、車載システム3は、画像から、車両2、人間、交通信号機、道路標識を認識する認識処理を実行し、認識結果に基づいて、車両2の運転支援処理等を行う。なお、認識処理には、認識した物体の追跡処理が含まれていてもよい。また、車載システム3は、画像のシーンを認識する処理を実行してもよい。画像のシーンは、一例として、高速道路のシーン、一般道路のシーンなどの車両2の走行シーンを示すものであってもよい。
 サーバ7は、車載システム3との間で車両2の運転支援処理に必要なデータの送受信を行う。
 〔車載システム3の構成〕
 図2は、本開示の実施形態1に係る車載システム3の構成の一例を示すブロック図である。
 図2に示すように、車両2の車載システム3は、カメラ31と、通信部32と、制御部(ECU:Electronic Control Unit)33とを備える。
 カメラ31は、車両2に搭載され、車両2の周囲(特に、車両2の前方)の映像を取り込む画像センサよりなる。カメラ31は、単眼である。ただし、カメラ31は、複眼であってもよい。映像は、時系列の複数の画像より構成される。
 通信部32は、例えば5G(第5世代移動通信システム)対応の通信処理が可能な無線通信機よりなる。なお、通信部32は、車両2に既設の無線通信機であってもよいし、搭乗者が車両2に持ち込んだ携帯端末であってもよい。通信部32は、制御部33を基地局6を介してネットワーク5に接続するための装置である。
 搭乗者の携帯端末は、車両2の車内LAN(Local Area Network)に接続されることにより、一時的に車載の無線通信機となる。
 制御部33は、車両2のカメラ31及び通信部32を含む車両2に搭載される車載装置を制御するコンピュータ装置よりなる。車載装置には、例えば、GPS受信機、ジャイロセンサなどが含まれる。制御部33は、GPS受信機が受信したGPS信号により自車両の車両位置を求める。また、制御部33は、ジャイロセンサの検出結果に基づいて、車両2の方向を把握する。
 制御部33は、プロセッサ34と、メモリ35とを備える。
 プロセッサ34は、メモリ35に格納されたコンピュータプログラムを実行するマイクロコンピュータなどの演算処理装置である。
 メモリ35は、SRAM(Static RAM)またはDRAM(Dynamic RAM)などの揮発性のメモリ素子、フラッシュメモリ若しくはEEPROM(Electrically Erasable Programmable Read Only Memory)などの不揮発性のメモリ素子、または、ハードディスクなどの磁気記憶装置などにより構成されている。メモリ35は、制御部33で実行されるコンピュータプログラムや、制御部33におけるコンピュータプログラム実行時に生成されるデータ等を記憶する。
 〔プロセッサ34の機能構成〕
 図3は、本開示の実施形態1に係るプロセッサ34の機能的な構成を示すブロック図である。
 図3を参照して、プロセッサ34は、メモリ35に記憶されたコンピュータプログラムを実行することにより実現される機能的な処理部として、画像取得部36と、抽出部37と、第1検出部38と、第2検出部39と、統合部40と、運転支援処理部41とを備える。
 画像取得部36は、カメラ31が撮影した車両2の前方の画像を時系列で順次取得する。画像取得部36は、取得した画像を抽出部37、第1検出部38及び第2検出部39に順次出力する。
 図4は、画像取得部36がカメラ31から取得した画像(以下、「入力画像」という)の一例を示す図である。
 例えば、入力画像50には、道路51上を走行する自動車52及びオートバイ53と、道路51上に設置された横断歩道54を歩行中の人間55とが含まれる。また、入力画像50には、横断歩道を示す道路標識56が含まれる。
 再び図3を参照して、抽出部37は、画像取得部36から入力画像50を取得し、入力画像50から所定の物体を含む領域である注目領域を抽出する。
 注目領域とは、例えば、後述する第1検出部38が、所定の圧縮率で入力画像50を圧縮し、圧縮済み画像を伸張することにより復元した画像からは検出することのできない物体を含む領域である。より詳細には、注目領域は、第1検出部38が、第1圧縮率(例えば、1/1000)で入力画像50を圧縮し、圧縮済み画像を伸張して復元した画像からは検出することができず、かつ第1圧縮率よりも低い第2圧縮率(例えば、1/20)で入力画像50を圧縮し、圧縮済み画像を伸張して復元した画像からは検出することのできる物体(以下、「小サイズ物体」という。)を含む領域である。小サイズ物体は、典型的には、入力画像50中でのサイズが小さい物体であり、例えば、遠方に映っているオートバイ53、人間55などが該当する。ここで、物体の検出とは、物体の種別の検出を意味するものとする。つまり、遠方に物体が映っていることのみならず、その物体の種別(例えば、オートバイ53又は人間55)などを判別することを、物体の検出と呼ぶ。
 なお、画像の圧縮率は、圧縮済み画像のデータ量を圧縮前の画像のデータ量で除したものである。このため、圧縮率の値が小さいほど圧縮率が高く、圧縮率の値が大きいほど圧縮率が低い。
 また、小サイズ物体は、縮小率により定義してもよい。つまり、小サイズ物体は、第1検出部38が第1縮小率(例えば、1/8)で入力画像50を縮小し、縮小済み画像を拡大して復元した画像からは検出することができず、かつ第1縮小率よりも低い第2縮小率(例えば、1/2)で入力画像50を縮小し、縮小済み画像を拡大して復元した画像からは検出することのできる物体としてもよい。なお、画像の縮小率は、縮小済み画像のサイズ(面積)を縮小前の画像のサイズで除したものである。このため、縮小率の値が小さいほど縮小率が高く、縮小率の値が大きいほど縮小率が低い。
 図5及び図6は、抽出部37による注目領域の抽出方法を説明するための図である。
 図5を参照して、抽出部37は、入力画像50を複数のブロック60に分割する。図5では、一例として、入力画像50を64(=8×8)個のブロック60に分割した例を示している。ブロック60のサイズはあらかじめ定められており、全部が同じサイズであってもよいし、一部又は全部が異なるサイズであってもよい。また、ブロック60の個数は64個に限定されるものではない。
 抽出部37は、各ブロックの像(以下、「ブロック画像」という)を、判定用学習モデルに入力することにより、ブロック画像中に小サイズ物体が含まれるか否かを判定する。なお、抽出部37は、各ブロック画像を所定の縮小比率に基づいて縮小し、縮小したブロック画像を判定用学習モデルに入力してもよい。これにより、ブロック画像に含まれるノイズを除去した上で、小サイズ物体の判定処理を高速に行うことができる。
 なお、判定用学習モデルは、例えば、CNN(Convolution Neural Network)、RNN(Recurrent Neural Network)、AutoEncoderなどである。小サイズ物体を含むブロック画像を教師データとして、ディープラーニングなどの機械学習手法により、判定用学習モデルの各パラメータが決定されているものとする。
 つまり、抽出部37は、判定用学習モデルに未知のブロック画像を入力することにより、小サイズ物体が含まれることの確信度を算出する。抽出部37は、確信度が所定の閾値以上のブロックを注目領域として抽出する。抽出部37は、抽出した注目領域の情報を第2検出部39に出力する。なお、注目領域情報は、例えば、注目領域の左上隅座標及び右下隅座標を含む。ただし、注目領域の表現方法はこれに限定されるものではない。例えば、注目領域情報は、注目領域の左上隅座標と注目領域の横方向の画素数及び縦方向の画素数とを含んでいてもよいし、注目領域を示す識別子を含んでいてもよい。
 ここで、道路標識56、人間55及びオートバイ53は、小サイズ物体に該当するものとする。このため、図6を参照して、抽出部37は、注目領域として、注目領域61、注目領域62及び注目領域63を抽出する。
 なお、自動車52は、小サイズ物体に該当しないものとする。このため、抽出部37は、自動車52を注目領域として抽出しない。
 再び図3を参照して、抽出部37は、注目領域の抽出結果を第2検出部39に出力する。第2検出部39は、注目領域の像を認識する第2認識部として機能する。第2検出部39は、抽出部37から注目領域の抽出結果を受け、抽出結果に基づいて、画像取得部36が取得した入力画像50から注目領域の像を取得する。図6を参照して、例えば、第2検出部39は、注目領域61、注目領域62及び注目領域63の像をそれぞれ取得する。
 第2検出部39は、取得した各注目領域の像(以下、「注目領域像」という)を第2学習モデルに入力することにより、注目領域像に含まれる小サイズ物体の種別を検出する。例えば、第2検出部39は、注目領域61の像に含まれる物体種別は横断歩道を示す道路標識56であることを検出する。また、第2検出部39は、注目領域62の像に含まれる物体種別は人間55であることを検出する。さらに、第2検出部39は、注目領域63の像に含まれる物体種別はオートバイ53であることを検出する。
 なお、第2学習モデルは、例えば、CNN、RNN、AutoEncoderなどである。小サイズ物体を含むブロック画像を教師データとして、ディープラーニングなどの機械学習手法により、第2学習モデルの各パラメータが決定されているものとする。
 つまり、第2検出部39は、第2学習モデルに未知の注目領域像を入力することにより、物体種別ごとの確信度を算出する。第2検出部39は、算出した確信度のうち最大の確信度に対応する物体種別を、注目領域像に含まれる小サイズ物体の種別として検出する。例えば、注目領域61の像について、小サイズ物体の種別がオートバイ53であることの確信度が0.1、人間55であることの確信度が0.2、自動車52であることの確信度が0.3、横断歩道を示す道路標識56であることの確信度が0.7であったとする。この場合、第2検出部39は、注目領域61の像に含まれる小サイズ物体の種別として横断歩道を示す道路標識56を検出する。
 第2検出部39は、検出結果として、注目領域の識別情報と、注目領域に含まれる小サイズ物体の種別と、当該種別に対する確信度とを、統合部40に出力する。
 第1検出部38は、入力画像50を認識する第1認識部として機能する。第1検出部38は、画像取得部36から入力画像50を受け、入力画像50を分割した各ブロック60のブロック画像を第1学習モデルに入力することにより、ブロック画像に含まれる物体の種別を検出する。ここで、第1検出部38が検出の対象とする物体は、上記した第1圧縮率(例えば、1/1000)で入力画像50を圧縮し、圧縮済み画像を伸張することにより復元した画像から、第1検出部38が検出することのできる物体(以下、「大サイズ物体」という。)である。大サイズ物体は、典型的には、入力画像50中でのサイズが大きい物体であり、例えば、近傍に映っている自動車52などが該当する。このため、第2検出部39が検出の対象とする小サイズ物体は含まれない。ただし、第1検出部38が小サイズ物体を検出することもあり得るし、第2検出部39が大サイズ物体を検出することもあり得る。
 なお、第1検出部38は、各ブロック画像を所定の縮小比率に基づいて縮小し、縮小したブロック画像を第1学習モデルに入力してもよい。これにより、ブロック画像に含まれるノイズを除去した上で、大サイズ物体の種別の検出処理を高速に行うことができる。
 図7は、第1検出部38による物体種別の検出処理を説明するための図である。第1検出部38は、入力画像50からブロック60の像を順次抽出し、各ブロック60の像を縮小した上で、第1学習モデルに入力する。第1検出部38は、ブロック64の像に対する第1学習モデルの確信度に基づいて、ブロック64に大サイズ物体が含まれ、その種別が横断歩道を示す道路標識56であることを検出する。また、第1検出部38は、ブロック65A~65Fのそれぞれの像に対する第1学習モデルの確信度に基づいて、ブロック65A~65Fのそれぞれに大サイズ物体が含まれ、大サイズ物体の種別が自動車52であることを検出する。
 なお、第1学習モデルは、例えば、CNN、RNN、AutoEncoderなどである。大サイズ物体を含むブロック画像を教師データとして、ディープラーニングなどの機械学習手法により、第1学習モデルの各パラメータが決定されているものとする。
 つまり、第1検出部38は、第1学習モデルに未知のブロック画像を入力することにより、物体種別ごとの確信度を算出する。第1検出部38は、算出した確信度のうち最大の確信度に対応する物体種別を、ブロック画像に含まれる大サイズ物体の種別として検出する。例えば、ブロック64の像について、大サイズ物体の種別がオートバイ53であることの確信度が0.2、人間55であることの確信度が0.3、自動車52であることの確信度が0.1、横断歩道を示す道路標識56であることの確信度が0.8であったとする。この場合、第1検出部38は、ブロック64の像に含まれる大サイズ物体の種別として横断歩道を示す道路標識56を検出する。
 第1検出部38は、検出結果として、ブロック60の識別情報と、ブロック60に含まれる大サイズ物体の種別と、当該種別に対する確信度とを、統合部40に出力する。
 統合部40は、第1検出部38から入力画像の認識結果としての物体の検出結果と、第2検出部39から注目領域像の認識結果としての物体の検出結果を受け、第1検出部38及び第2検出部39の検出結果を統合する。つまり、統合部40は、第1検出部38の検出結果と第2検出部39の検出結果とをマージした検出結果を作成する。
 図8は、統合部40による検出結果の統合処理の一例を説明するための図である。図8に示す入力画像50には、マージされた検出結果が示されている。つまり、図6に示した第2検出部39により検出された注目領域61~63に含まれる小サイズ物体の種別と、図7に示した第1検出部38により検出されたブロック64及び65A~65Fに含まれる大サイズ物体の種別とがマージされる。なお、注目領域61及びブロック64は同一の領域である。この場合、注目領域61から検出された道路標識56の確信度は0.7であり、ブロック64から検出された道路標識56の確信度は0.8である。このため、確信度の高いブロック64の検出結果がマージ後の検出結果とされる。ここでは、注目領域61及びブロック64の検出結果が同一のものとしているが、検出結果が異なる場合には確信度が高い方の検出結果が採用されることになる。
 統合部40は、統合後の検出結果を運転支援処理部41に出力する。運転支援処理部41は、統合部40から検出結果を受け、検出結果に基づいて車両2の運転支援処理を実行する。例えば、運転支援処理部41は、横断歩道を示す道路標識56の直前において車両2を一時停止させたり、自動車52、オートバイ53及び人間55との衝突を回避するように車両2の操舵やブレーキ等を制御したりするための指令を車両2の各制御部に送信してもよい。
 〔車載システム3の処理の流れ〕
 図9は、本開示の実施形態1に係る車載システム3の処理手順の一例を示すフローチャートである。
 抽出部37は、画像取得部36から入力画像50を順次取得し、入力画像50を分割したブロック画像を判定用学習モデルに入力することにより、小サイズ物体を含む注目領域を抽出する(ステップS1)。
 第2検出部39は、抽出部37から注目領域の抽出結果を受け、抽出結果に基づいて、画像取得部36が取得した入力画像50から注目領域像を取得する。第2検出部39は、注目領域像を第2学習モデルに入力することにより、小サイズ物体の種別とその確信度を検出する(ステップS2)。
 第1検出部38は、画像取得部36から入力画像50を受け、入力画像50を分割した各ブロック60のブロック画像を縮小する(ステップS3)。なお、第1検出部38は、入力画像50を縮小した後に、縮小後の入力画像50をブロック画像に分割してもよい。
 第1検出部38は、縮小後の各ブロック画像を第1学習モデルに入力し、ブロック画像に含まれる大サイズ物体の種別とその確信度を検出する(ステップS4)。
 統合部40は、ステップS2における小サイズ物体の検出結果と、ステップS4における大サイズ物体の検出結果とを統合する(ステップS5)。
 運転支援処理部41は、ステップS5において統合された検出結果に基づいて、車両2の運転支援処理を実行する(ステップS6)。
 〔実施形態1の効果〕
 以上説明したように、本開示の実施形態1によると、抽出部37により注目領域が抽出され、第2検出部39により注目領域の像から物体が検出される。例えば、注目領域を画像内でのサイズが小さい物体を含む領域とすることにより、画像内でのサイズが小さい物体については、第2検出部39による物体検出処理が行われる。その一方、サイズが大きい物体については、第1検出部38による物体検出処理が行われる。つまり、画像内での物体のサイズに応じて検出部を切り分けることが可能である。これにより、1つの検出部でサイズの小さな物体からサイズの大きい物体までを検出する場合に比べ、低い処理能力で物体検出が可能である。また、小さいサイズの物体の検出対象領域を注目領域に限定することもできる。よって、画像内での物体のサイズによらず、物体を低コストで検出することができる。
 なお、注目領域は、所定の圧縮率で入力画像を圧縮及び伸張した画像からは検出することのできない物体又は所定の縮小率で入力画像を縮小及び拡大した画像からは検出することのできない物体を含む領域である。このため、所定の圧縮率よりも高圧縮率で圧縮伸張した画像からは検出することのできない物体や所定の縮小率よりも高縮小率で縮小及び拡大した画像からは検出することのできない物体のような、画像内でのサイズが小さい物体を第2検出部39で検出することができる。
 また、注目領域は、第1検出部38が、第1圧縮率で入力画像を圧縮及び伸張した画像からは検出することができず、かつ第1圧縮率よりも低い第2圧縮率で入力画像を圧縮及び伸張した画像から検出することのできる物体を含む領域を含む。第1検出部38は、入力画像から、第1検出部38が第1圧縮率で入力画像を圧縮及び伸張した画像から検出することのできる物体を検出する。第2検出部39は、入力画像から、第1検出部38が第1圧縮率で入力画像を圧縮及び伸張した画像から検出することのできない物体を検出する。このため、圧縮及び伸張した画像から検出可能な物体と圧縮率との関係に応じて、物体検出を行う検出部を変えることができる。
 また、注目領域は、第1検出部38が、第1縮小率で入力画像を縮小及び拡大した画像からは検出することができず、かつ第1縮小率よりも低い第2縮小率で入力画像を縮小及び拡大した画像から検出することのできる物体を含む領域を含むものとしてもよい。第1検出部38は、入力画像から、第1検出部38が第1縮小率で入力画像を縮小及び拡大した画像から検出することのできる物体を検出することができる。第2検出部39は、入力画像から、第1検出部38が第1縮小率で入力画像を縮小及び拡大した画像から検出することのできない物体を検出することができる。このため、縮小及び拡大した画像から検出可能な物体と縮小率との関係に応じて、物体検出を行う検出部を変えることができる。
 <実施形態2>
 実施形態1では車載システム3が小サイズ物体及び大サイズ物体の種別の検出処理を実行した。実施形態2では、車載システム3及びサーバ7が協同して小サイズ物体及び大サイズ物体の種別の検出処理を実行する。
 運転支援システム1の構成は、実施形態1と同様である。
 〔プロセッサ34の機能構成〕
 図10は、本開示の実施形態2に係るプロセッサ34の機能的な構成を示すブロック図である。
 図10を参照して、プロセッサ34は、メモリ35に記憶されたコンピュータプログラムを実行することにより実現される機能的な処理部として、画像取得部36と、抽出部37と、第1検出部38と、統合部40と、運転支援処理部41と、注目領域提供部42と、検出結果取得部43とを備える。
 注目領域提供部42は、抽出部37から注目領域の抽出結果を受け、抽出結果に基づいて、画像取得部36が取得した入力画像50から注目領域像を取得する。図6を参照して、注目領域提供部42は、例えば、注目領域61、注目領域62及び注目領域63の像をそれぞれ取得する。
 注目領域提供部42は、取得した注目領域像を所定の圧縮率で圧縮し、圧縮済みの注目領域像を、注目領域の識別情報とともに通信部32を介してサーバ7に送信する。
 検出結果取得部43は、注目領域提供部42がサーバ7に送信した注目領域像に含まれる小サイズ物体の種別の検出結果情報を、通信部32を介してサーバ7から取得する。検出結果情報には、注目領域の識別情報と、注目領域像から検出された小サイズ物体の種別及び当該種別の確信度とが含まれる。例えば、検出結果情報は、注目領域61の像に含まれる物体種別が横断歩道を示す道路標識56であり、道路標識56であることの確信度が0.7であること示す。また、検出結果情報は、注目領域62の像に含まれる物体種別は人間55であり、人間55であることの確信度が0.8であることを示す。さらに、検出結果情報は、注目領域63の像に含まれる物体種別がオートバイ53であり、オートバイ53であることの確信度が0.85であることを示す。
 検出結果取得部43は、サーバ7から取得した検出結果を統合部40に出力する。
 統合部40は、第1検出部38及び検出結果取得部43の各々から検出結果を受け、検出結果を統合する。検出結果の統合の方法は実施形態1と同様である。
 〔サーバ7の構成〕
 図11は、本開示の実施形態2に係るサーバ7の構成の一例を示すブロック図である。
 図11に示すように、サーバ7は、通信部71と、プロセッサ72と、メモリ73とを備える。
 通信部71は、例えば、有線又は無線によりサーバ7をネットワーク5に接続するための通信モジュールである。
 プロセッサ72は、メモリ73に格納されたコンピュータプログラムを実行するマイクロコンピュータなどの演算処理装置である。
 メモリ73は、SRAMまたはDRAMなどの揮発性のメモリ素子、フラッシュメモリ若しくはEEPROMなどの不揮発性のメモリ素子、または、ハードディスクなどの磁気記憶装置などにより構成されている。メモリ73は、プロセッサ72で実行されるコンピュータプログラムや、プロセッサ72におけるコンピュータプログラム実行時に生成されるデータ等を記憶する。
 〔プロセッサ72の機能構成〕
 図12は、本開示の実施形態2に係るプロセッサ72の機能的な構成を示すブロック図である。
 図12を参照して、プロセッサ72は、メモリ73に記憶されたコンピュータプログラムを実行することにより実現される機能的な処理部として、注目領域取得部74と、第2検出部75と、検出結果提供部76とを備える。
 注目領域取得部74は、車載システム3において圧縮済みの注目領域像を、注目領域像の識別情報とともに、通信部71を介して車載システム3から受信する。
 注目領域取得部74は、取得した圧縮済みの注目領域像を伸張することにより注目領域像を復元する。注目領域取得部74は、復元した注目領域像を識別情報とともに第2検出部75に出力する。
 第2検出部75は、注目領域取得部74から注目領域像を受け、注目領域像を第2学習モデルに入力することにより、注目領域像に含まれる小サイズ物体の種別を検出する。検出方法は、実施形態1に示した第2検出部39と同様である。
 第2検出部75は、検出結果として、注目領域の識別情報と、注目領域に含まれる小サイズ物体の種別と、当該種別に対する確信度とを、検出結果提供部76に出力する。
 検出結果提供部76は、第2検出部75から検出結果を受け、当該検出結果を通信部71を介して車載システム3に送信することにより、検出結果を車載システム3に提供する。
 〔運転支援システム1の処理の流れ〕
 図13は、本開示の実施形態2に係る運転支援システム1の処理手順の一例を示すシーケンス図である。なお、図9に示した処理と同様の処理については、同一のステップ番号を付す。
 車載システム3の抽出部37は、画像取得部36から入力画像50を順次取得し、入力画像50を分割したブロック画像を判定用学習モデルに入力することにより、小サイズ物体を含む注目領域を抽出する(ステップS1)。
 車載システム3の注目領域提供部42は、抽出部37から注目領域の抽出結果を受け、抽出結果に基づいて、画像取得部36が取得した入力画像50から注目領域像を取得する。注目領域提供部42は、取得した注目領域像を所定の圧縮率で圧縮する(ステップS11)。
 また、注目領域提供部42は、圧縮済みの注目領域像を、注目領域の識別情報とともに通信部32を介してサーバ7に送信し、サーバ7の注目領域取得部74が受信する(ステップS12)。
 サーバ7の注目領域取得部74は、取得した圧縮済みの注目領域像を伸張することにより注目領域像を復元する(ステップS13)。
 サーバ7の第2検出部75は、注目領域取得部74から注目領域像を受け、注目領域像を第2学習モデルに入力することにより、注目領域像に含まれる小サイズ物体の種別とその確信度を検出する(ステップS2)。
 サーバ7の検出結果提供部76は、ステップS2における小サイズ物体の検出結果を通信部71を介して車載システム3に送信し、検出結果取得部43が受信する(ステップS14)。
 車載システム3の第1検出部38は、画像取得部36から入力画像50を受け、入力画像50を分割した各ブロック60のブロック画像を縮小する(ステップS3)。なお、第1検出部38は、入力画像50を縮小した後に、縮小後の入力画像50をブロック画像に分割してもよい。
 車載システム3の第1検出部38は、縮小後の各ブロック画像を第1学習モデルに入力し、ブロック画像に含まれる大サイズ物体の種別とその確信度を検出する(ステップS4)。
 車載システム3の統合部40は、ステップS14において受信した小サイズ物体の検出結果と、ステップS4における大サイズ物体の検出結果とを統合する(ステップS5)。
 運転支援処理部41は、ステップS5において統合された検出結果に基づいて、車両2の運転支援処理を実行する(ステップS6)。
 〔第1学習モデル及び第2学習モデルの作成方法について〕
 次に、第1学習モデル及び第2学習モデルの作成方法の一例について説明する。図14は、第1学習モデル及び第2学習モデルの作成手順の一例を示すシーケンス図である。
 ここでは、車載システム3を2台とするが、車載システム3は3台以上あってもよい。
 車載システム3A、3Bの各々において、車両2の周囲の撮像が行われる(ステップS101、S102)。
 車載システム3A、3Bは、ステップS101、S102で得られた画像をそれぞれサーバ7に送信する(ステップS103、S104)。
 サーバ7は、車載システム3A、3Bから受信した画像から教師データとなる画像を生成し、生成した教師データを用いて第1学習モデル及び第2学習モデルを生成する(ステップS105)。つまり、第1学習モデルの教師データの生成のもととなった画像セットと、第2学習モデルの教師データの生成のもととなった画像セットとは同じものとする。ただし、画像セットは車載システム3A、3Bから収集せずに、サーバ7が独自に収集してもよい。
 サーバ7は、生成した第1学習モデルを車載システム3A、3Bにそれぞれ送信する(ステップS106、S107)。第1学習モデルは、車載システム3、3Bの起動時に送信されてもよいし、所定の時間周期で定期的に送信されてもよい。なお、第2学習モデルはサーバ7での物体検出に用いられる。
 〔実施形態2の効果〕
 以上説明したように、本開示の実施形態2によると、サーバ7と車載システム3とで、注目領域に含まれる物体検出と、それ以外の領域に含まれる物体検出とを分担して行うことができる。このため、車載システム3の処理能力が低い場合であっても、物体検出を高速で行うことができる。
 また、移動体の近傍に存在する画像内でのサイズが大きい物体の検出処理を車載システム3で実行し、移動体から遠方に存在する画像内でのサイズが小さい物体の検出処理をサーバ7で実行することができる。このため、近傍に存在する物体を、遠方に存在する物体に比べて低遅延時間で検出することができる。
 また、サーバ7で、一括して第1学習モデル及び第2学習モデルを生成することができる。このため、一括生成された第1学習モデル及び第2学習モデルを用いることにより、同様の基準で物体を検出することができる。
 また、同一の画像セットを用いて第1学習モデル及び第2学習モデルを生成することができる。このため、第1学習モデル及び第2学習モデルを用いることにより、同様の基準で物体を検出することができる。
 <実施形態3>
 実施形態1では車載システム3が小サイズ物体及び大サイズ物体の種別の検出処理を実行し、実施形態2では、車載システム3及びサーバ7が協同して小サイズ物体及び大サイズ物体の種別の検出処理を実行した。実施形態3では、サーバ7が小サイズ物体及び大サイズ物体の種別の検出処理を実行する。
 運転支援システム1の構成は、実施形態1と同様である。
 〔プロセッサ34の機能構成〕
 図15は、本開示の実施形態3に係るプロセッサ34の機能的な構成を示すブロック図である。
 図15を参照して、プロセッサ34は、メモリ35に記憶されたコンピュータプログラムを実行することにより実現される機能的な処理部として、画像取得部36と、抽出部37と、運転支援処理部41と、注目領域提供部42と、検出結果取得部43とを備える。
 注目領域提供部42は、抽出部37から注目領域の抽出結果を受け、注目領域の抽出結果に基づいて、画像取得部36が取得した画像を圧縮する。ここで、注目領域提供部42は、注目領域を注目領域以外の他の領域よりも低い圧縮率で圧縮する。注目領域提供部42は、圧縮済み画像を注目領域の識別情報とともに通信部32を介してサーバ7に送信する。
 検出結果取得部43は、注目領域提供部42がサーバ7に送信した圧縮済み画像に含まれる物体の種別の検出結果情報を、通信部32を介してサーバ7から受信する。検出結果情報には、物体が検出されたブロックの識別情報又は物体の位置情報と、物体の種別情報とが含まれる。検出結果取得部43は、サーバ7から取得した検出結果情報を運転支援処理部41に出力する。
 運転支援処理部41は、検出結果取得部43から取得した検出結果情報に基づいて、車両2の運転支援処理を実行する。
 〔プロセッサ72の機能構成〕
 図16は、本開示の実施形態3に係るプロセッサ72の機能的な構成を示すブロック図である。
 図16を参照して、プロセッサ72は、メモリ73に記憶されたコンピュータプログラムを実行することにより実現される機能的な処理部として、注目領域取得部74と、第2検出部75と、検出結果提供部76と、第1検出部77と、統合部78とを備える。
 注目領域取得部74は、通信部71を介して車載システム3から、圧縮済み画像を注目領域の識別情報とともに受信する。注目領域取得部74は、取得した注目領域の識別情報に基づいて、圧縮済み画像を伸張することにより、入力画像50を復元する。つまり、注目領域が他の領域に比べて低圧縮率で圧縮されている。このため、注目領域については、当該注目領域の圧縮方法に対応した伸張方法で伸張を行い、それ以外の領域については、当該領域の圧縮方法に対応した伸張方法で伸張を行う。
 第2検出部75は、注目領域取得部74から復元された注目領域像を受け、注目領域像を第2学習モデルに入力することにより、注目領域像に含まれる小サイズ物体の種別を検出する。検出方法は、実施形態1に示した第2検出部39と同様である。
 第2検出部75は、検出結果として、注目領域の識別情報と、注目領域に含まれる小サイズ物体の種別と、当該種別に対する確信度とを、統合部78に出力する。
 第1検出部77は、注目領域取得部74から、復元された入力画像50を受け、入力画像に含まれる各ブロック60のブロック画像を第1学習モデルに入力することにより、ブロック画像に含まれる小サイズ物体の種別を検出する。検出方法は、実施形態1に示した第1検出部38と同様である。なお、第1検出部77は、各ブロック画像を所定の縮小比率に基づいて縮小し、縮小したブロック画像を第1学習モデルに入力してもよい。
 第1検出部77は、検出結果として、ブロック60の識別情報と、ブロック60に含まれる大サイズ物体の種別と、当該種別に対する確信度とを、統合部78に出力する。
 統合部40は、第1検出部77及び第2検出部75の各々から検出結果を受け、第1検出部77及び第2検出部75の検出結果を統合する。検出結果の統合方法は、実施形態1に示した統合部40と同様である。
 検出結果提供部76は、統合された圧縮済み画像に含まれる物体の種別の検出結果情報を通信部71を介して車載システム3に送信する。
 〔運転支援システム1の処理の流れ〕
 図17は、本開示の実施形態3に係る運転支援システム1の処理手順の一例を示すシーケンス図である。なお、図9に示した処理と同様の処理については、同一のステップ番号を付す。
 車載システム3の抽出部37は、画像取得部36から入力画像50を順次取得し、入力画像50を分割したブロック画像を判定用学習モデルに入力することにより、小サイズ物体を含む注目領域を抽出する(ステップS1)。
 車載システム3の注目領域提供部42は、ステップS1で抽出された注目領域の抽出結果に基づいて、入力画像50を圧縮する(ステップS21)。ここで、注目領域提供部42は、注目領域を注目領域以外の他の領域よりも低い圧縮率で圧縮する。
 注目領域提供部42は、圧縮済み画像を注目領域の識別情報とともに通信部32を介してサーバ7に送信し、サーバ7の注目領域取得部74が受信する(ステップS22)。
 サーバ7の注目領域取得部74は、取得した注目領域の識別情報に基づいて、圧縮済み画像を伸張することにより、入力画像50を復元する(ステップS23)。
 サーバ7の第2検出部75は、注目領域取得部74から復元された注目領域像を受け、注目領域像を第2学習モデルに入力することにより、注目領域像に含まれる小サイズ物体の種別とその確信度を検出する(ステップS2)。
 サーバ7の第1検出部77は、各ブロック画像を所定の縮小比率に基づいて縮小する(ステップS3)。なお、第1検出部77は、ステップS23において復元された入力画像50を縮小した後に、縮小後の入力画像50をブロック画像に分割してもよい。
 第1検出部77は、縮小後の各ブロック画像を第1学習モデルに入力し、ブロック画像に含まれる大サイズ物体の種別とその確信度を検出する(ステップS4)。
 サーバ7の統合部78は、ステップS2における小サイズ物体の検出結果と、ステップS4における大サイズ物体の検出結果とを統合する(ステップS5)。
 サーバ7の検出結果提供部76は、統合された圧縮済み画像に含まれる物体の種別の検出結果情報を通信部71を介して車載システム3に送信し、車載システム3の検出結果取得部43が受信する(ステップS24)。
 運転支援処理部41は、ステップS24において受信された物体の検出結果情報に基づいて、車両2の運転支援処理を実行する(ステップS6)。
 〔実施形態3の効果〕
 以上説明したように、本開示の実施形態3によると、第1検出部及び第2検出部がサーバ7に備えられており、車載システム3に備えられていない。このため、車載システム3の処理能力が低い場合であっても、車載システム3に物体の検出結果を提供することができ、車載システム3が車両2の運転支援処理を実行することができる。
 <変形例>
 上述の実施形態1~3では、第1検出部38は、入力画像50の認識処理として、入力画像50に含まれる物体の種別の検出処理を行うこととしたが、入力画像50の認識処理は、それ以外の処理であってもよい。例えば、第1検出部38は、入力画像50の認識処理として、入力画像50のシーン(例えば、車両2の走行シーン)を認識する処理を実行してもよい。
 また、第2検出部39は、注目領域像の認識処理として、注目領域像に含まれる物体の種別の検出処理を行うこととしたが、注目領域像の認識処理は、それ以外の処理であってもよい。例えば、第2検出部39は、注目領域像の認識処理として、注目領域像のシーン(例えば、車両2の走行シーン)を認識する処理を実行してもよい。
 統合部40は、第1検出部38の認識結果と第2検出部39の認識結果とを統合する。例えば、第1検出部38により認識されたシーンと、第2検出部39により認識されたシーンとをマージしてもよい。シーンの認識結果のマージは、実施形態1における物体の検出結果のマージと同様に確信度に基づいて行われてもよい。
 [付記]
 上記の各装置を構成する構成要素の一部または全部は、1または複数のシステムLSIなどの半導体装置から構成されていてもよい。
 また、上記したコンピュータプログラムを、コンピュータ読取可能な非一時的な記録媒体、例えば、HDD、CD-ROM、半導体メモリなどに記録して流通させてもよい。また、コンピュータプログラムを、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送して流通させてもよい。
 また、上記各装置は、複数のコンピュータ又は複数のプロセッサにより実現されてもよい。
 さらに、上記実施形態の少なくとも一部を任意に組み合わせてもよい。
 今回開示された実施形態はすべての点で例示であって制限的なものではないと考えられるべきである。本開示の範囲は、上記した意味ではなく、請求の範囲によって示され、請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。
1 運転支援システム(画像認識システム)、2 車両(移動体)、3,3A,3B 車載システム(第1処理装置)、5 ネットワーク、6 基地局、7 サーバ(第2処理装置)、31 カメラ、32,71 通信部、33 制御部、34,72 プロセッサ、35,73 メモリ、36 画像取得部、37 抽出部、38,77 第1検出部(第1認識部)、39,75 第2検出部(第2認識部)、40,78 統合部、41 運転支援処理部、42 注目領域提供部、43 検出結果取得部、50 入力画像、51 道路、52 自動車、53 オートバイ、54 横断歩道、55 人間、56 道路標識、60,64,65A~65F ブロック、61~63 注目領域、74 注目領域取得部、76 検出結果提供部

Claims (14)

  1.  入力画像から注目領域を抽出する抽出部と、
     前記入力画像を認識する第1認識部と、
     前記注目領域の像を認識する第2認識部と、
     前記第1認識部及び前記第2認識部による認識結果を統合する統合部とを備える、画像認識システム。
  2.  前記画像認識システムは、第1処理装置と、前記第1処理装置とネットワークを介して接続される第2処理装置とを備え、
     前記第1処理装置は、前記抽出部と、前記第1認識部と、前記統合部とを含み、
     前記第2処理装置は、前記第2認識部を含む、請求項1に記載の画像認識システム。
  3.  前記第1処理装置は、移動体に設置され、
     前記入力画像は、前記移動体の周囲の像を含む、請求項2に記載の画像認識システム。
  4.  前記注目領域は、前記第1認識部が、所定の圧縮率で前記入力画像を圧縮及び伸張した画像又は所定の縮小率で前記入力画像を縮小及び拡大した画像からは検出することのできない物体を含む領域である、請求項1から請求項3のいずれか1項に記載の画像認識システム。
  5.  前記注目領域は、前記第1認識部が、第1圧縮率で前記入力画像を圧縮及び伸張した画像からは検出することができず、かつ前記第1圧縮率よりも低い第2圧縮率で前記入力画像を圧縮及び伸張した画像から検出することのできる物体を含む領域を含み、
     前記第1認識部は、前記入力画像から、前記第1認識部が前記第1圧縮率で前記入力画像を圧縮及び伸張した画像から検出することのできる物体を検出し、
     前記第2認識部は、前記入力画像から、前記第1認識部が前記第1圧縮率で前記入力画像を圧縮及び伸張した画像から検出することのできない物体を検出する、請求項1から請求項4のいずれか1項に記載の画像認識システム。
  6.  前記注目領域は、前記第1認識部が、第1縮小率で前記入力画像を縮小及び拡大した画像からは検出することができず、かつ前記第1縮小率よりも低い第2縮小率で前記入力画像を縮小及び拡大した画像から検出することのできる物体を含む領域を含み、
     前記第1認識部は、前記入力画像から、前記第1認識部が前記第1縮小率で前記入力画像を縮小及び拡大した画像から検出することのできる物体を検出し、
     前記第2認識部は、前記入力画像から、前記第1認識部が前記第1縮小率で前記入力画像を縮小及び拡大した画像から検出することのできない物体を検出する、請求項1から請求項4のいずれか1項に記載の画像認識システム。
  7.  前記第1認識部は、第1学習モデルに基づいて前記入力画像を認識し、
     前記第2認識部は、第2学習モデルに基づいて前記注目領域の像を認識し、
     前記第2処理装置は、
     前記第1学習モデル及び前記第2学習モデルを生成する生成部と、
     生成された前記第1学習モデルを前記第1処理装置に提供する提供部とを含む、請求項2に記載の画像認識システム。
  8.  前記生成部は、第1画像セットを用いて前記第1学習モデルを生成し、前記第1画像セットを構成する画像に含まれる前記注目領域の像を用いて前記第2学習モデルを生成する、請求項7に記載の画像認識システム。
  9.  入力画像から注目領域を抽出する抽出部と、
     前記入力画像を認識する第1認識部と、
     前記注目領域の像を、ネットワークを介して接続されるサーバに提供する注目領域像提供部と、
     前記サーバにおける前記注目領域の像の認識結果を前記サーバから取得する認識結果取得部と、
     前記第1認識部による認識結果及び前記認識結果取得部が取得した認識結果を統合する統合部とを備える、処理装置。
  10.  入力画像から注目領域を抽出した処理装置から、ネットワークを介して前記注目領域の像を取得する注目領域像取得部と、
     前記注目領域を認識する認識部と、
     前記認識部による認識結果を前記処理装置に提供する認識結果提供部とを備える、サーバ。
  11.  入力画像から注目領域を抽出するステップと、
     前記入力画像を認識するステップと、
     前記注目領域の像を、ネットワークを介して接続されるサーバに提供するステップと、
     前記サーバにおける前記注目領域の像の認識結果を前記サーバから取得するステップと、
     前記認識するステップにおける認識結果及び前記サーバから取得した認識結果を統合するステップとを含む、画像認識方法。
  12.  入力画像から注目領域を抽出した処理装置から、ネットワークを介して前記注目領域の像を取得するステップと、
     前記注目領域の像を認識するステップと、
     前記注目領域の像の認識結果を前記処理装置に提供するステップとを含む、画像認識方法。
  13.  コンピュータを、
     入力画像から注目領域を抽出する抽出部と、
     前記入力画像を認識する第1認識部と、
     前記注目領域の像を、ネットワークを介して接続されるサーバに提供する注目領域像提供部と、
     前記サーバにおける前記注目領域の像の認識結果を前記サーバから取得する認識結果取得部と、
     前記第1認識部による認識結果及び前記認識結果取得部が取得した認識結果を統合する統合部として機能させるための、コンピュータプログラム。
  14.  コンピュータを、
     入力画像から注目領域を抽出した処理装置から、ネットワークを介して前記注目領域の像を取得する注目領域像取得部と、
     前記注目領域の像を認識する認識部と、
     前記認識部による認識結果を前記処理装置に提供する認識結果提供部として機能させるための、コンピュータプログラム。
PCT/JP2022/005592 2021-02-22 2022-02-14 画像認識システム、処理装置、サーバ、画像認識方法、及びコンピュータプログラム WO2022176795A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023500817A JPWO2022176795A1 (ja) 2021-02-22 2022-02-14

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021026154 2021-02-22
JP2021-026154 2021-02-22

Publications (1)

Publication Number Publication Date
WO2022176795A1 true WO2022176795A1 (ja) 2022-08-25

Family

ID=82930575

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/005592 WO2022176795A1 (ja) 2021-02-22 2022-02-14 画像認識システム、処理装置、サーバ、画像認識方法、及びコンピュータプログラム

Country Status (2)

Country Link
JP (1) JPWO2022176795A1 (ja)
WO (1) WO2022176795A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05108149A (ja) * 1991-10-14 1993-04-30 Mazda Motor Corp 移動車の環境認識装置
JP2009169776A (ja) * 2008-01-18 2009-07-30 Hitachi Ltd 検出装置
JP2016218760A (ja) * 2015-05-20 2016-12-22 株式会社日立製作所 物体検出システム、物体検出方法、poi情報作成システム、警告システム、及び誘導システム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05108149A (ja) * 1991-10-14 1993-04-30 Mazda Motor Corp 移動車の環境認識装置
JP2009169776A (ja) * 2008-01-18 2009-07-30 Hitachi Ltd 検出装置
JP2016218760A (ja) * 2015-05-20 2016-12-22 株式会社日立製作所 物体検出システム、物体検出方法、poi情報作成システム、警告システム、及び誘導システム

Also Published As

Publication number Publication date
JPWO2022176795A1 (ja) 2022-08-25

Similar Documents

Publication Publication Date Title
JP7085525B2 (ja) 車両データで使用する動的データ圧縮システムおよび方法
EP3700198B1 (en) Imaging device, image processing apparatus, and image processing method
JP2019022205A (ja) センシングデータ処理システムとそのエッジサーバ、伝送トラフィック削減方法およびプログラム
JP2009510827A (ja) 動き検出装置
JP6601506B2 (ja) 画像処理装置、物体認識装置、機器制御システム、画像処理方法、画像処理プログラム及び車両
JP7024737B2 (ja) 情報処理装置と情報処理方法とプログラムおよび撮像装置
CN112446283A (zh) 驾驶辅助系统、电子设备及其操作方法
CN115578709B (zh) 一种车路协同的特征级协同感知融合方法和系统
US11586843B1 (en) Generating training data for speed bump detection
US11308324B2 (en) Object detecting system for detecting object by using hierarchical pyramid and object detecting method thereof
US11039087B2 (en) Image processing apparatus and computer-readable storage medium
CN108881846B (zh) 信息融合方法、装置及计算机可读存储介质
WO2020194584A1 (ja) 物体追跡装置、制御方法、及びプログラム
CN115918101A (zh) 摄像装置、信息处理装置、摄像系统和摄像方法
WO2022176795A1 (ja) 画像認識システム、処理装置、サーバ、画像認識方法、及びコンピュータプログラム
WO2019049548A1 (ja) 画像処理装置
WO2024024148A1 (ja) 車載監視装置、情報処理装置および車載監視システム
CN112241963A (zh) 基于车载视频的车道线识别方法、系统和电子设备
WO2020036043A1 (ja) 情報処理装置と情報処理方法とプログラム
JP5145138B2 (ja) 運転支援装置、運転支援制御方法および運転支援制御処理プログラム
JP2022168362A (ja) 映像圧縮装置、映像圧縮方法、映像認識システム、及びコンピュータプログラム
KR101687656B1 (ko) 단말을 이용한 차량용 블랙 박스 시스템 및 그 운영 방법
CN111311919B (zh) 服务器、车载装置、非易失性存储介质、信息提供系统、提供信息的方法,以及车辆
CN113965726A (zh) 处理交通视频的方法、装置以及系统
JP2022175571A (ja) 注目領域検出装置、映像認識システム、注目領域検出方法、コンピュータプログラム、及びデータ構造

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22754769

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2023500817

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 22754769

Country of ref document: EP

Kind code of ref document: A1