WO2020080045A1 - 物体認識方法、車両制御方法、情報表示方法、および物体認識装置 - Google Patents

物体認識方法、車両制御方法、情報表示方法、および物体認識装置 Download PDF

Info

Publication number
WO2020080045A1
WO2020080045A1 PCT/JP2019/037200 JP2019037200W WO2020080045A1 WO 2020080045 A1 WO2020080045 A1 WO 2020080045A1 JP 2019037200 W JP2019037200 W JP 2019037200W WO 2020080045 A1 WO2020080045 A1 WO 2020080045A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
image data
object recognition
filters
learning
Prior art date
Application number
PCT/JP2019/037200
Other languages
English (en)
French (fr)
Inventor
貴真 安藤
Original Assignee
パナソニックIpマネジメント株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニックIpマネジメント株式会社 filed Critical パナソニックIpマネジメント株式会社
Priority to EP19873555.7A priority Critical patent/EP3869452A4/en
Priority to JP2020552992A priority patent/JPWO2020080045A1/ja
Priority to CN201980031643.3A priority patent/CN112106064A/zh
Publication of WO2020080045A1 publication Critical patent/WO2020080045A1/ja
Priority to US17/169,350 priority patent/US20210158108A1/en
Priority to JP2023147062A priority patent/JP2023158210A/ja
Priority to JP2023147063A priority patent/JP2023158211A/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/97Determining parameters from multiple pictures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof
    • G06V10/14Optical characteristics of the device performing the acquisition or on the illumination arrangements
    • G06V10/147Details of sensors, e.g. sensor lenses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/17Image acquisition using hand-held instruments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7753Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01JMEASUREMENT OF INTENSITY, VELOCITY, SPECTRAL CONTENT, POLARISATION, PHASE OR PULSE CHARACTERISTICS OF INFRARED, VISIBLE OR ULTRAVIOLET LIGHT; COLORIMETRY; RADIATION PYROMETRY
    • G01J3/00Spectrometry; Spectrophotometry; Monochromators; Measuring colours
    • G01J3/28Investigating the spectrum
    • G01J3/2823Imaging spectrometer
    • G01J2003/2826Multispectral imaging, e.g. filter imaging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10032Satellite or aerial image; Remote sensing
    • G06T2207/10036Multispectral image; Hyperspectral image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/68Food, e.g. fruit or vegetables

Definitions

  • the present disclosure relates to an object recognition method, a vehicle control method, an information display method, and an object recognition device.
  • a monochrome image or RGB image is generally used as learning data.
  • an attempt to perform object recognition using a multi-spectral image including information of a larger number of wavelengths than an RGB image is also under study.
  • Patent Document 1 discloses, as a sensor for acquiring a multi-spectral image, a spectrum camera in which a plurality of filters that pass lights of different wavelength regions are spatially arranged in a mosaic pattern.
  • Patent Document 2 discloses a method of learning images of immune cells by a convolutional neural network for a plurality of image channels in order to improve the recognition accuracy of immune cells in the image.
  • Patent Literature 3 discloses a machine learning method in which a multispectral image or a hyperspectral image is used as training data.
  • the present disclosure provides a novel object recognition method that enables highly accurate object recognition from encoded image data.
  • An object recognition method acquires image data of an image including feature information indicating a feature of an object, and recognizes the object included in the image based on the feature information, including.
  • the image data includes an image sensor and a plurality of translucent filters that are two-dimensionally arranged along a surface intersecting the optical path, the filter array being arranged in an optical path of light incident on the image sensor.
  • a plurality of filters wherein the plurality of filters include two or more filters having different wavelength dependences of light transmittance, and the light transmittance of each of the two or more filters has a maximum value in a plurality of wavelength regions.
  • a filter array which is included, and is acquired by capturing the image with the first imaging device.
  • FIG. 1 is a diagram schematically illustrating an example of an object recognition device according to an exemplary embodiment of the present disclosure.
  • FIG. 2A is a diagram schematically showing an example of a filter array.
  • FIG. 2B is a diagram showing an example of a spatial distribution of transmittances of light in a plurality of wavelength bands included in the target wavelength band.
  • FIG. 2C is a diagram showing an example of the spectral transmittance of the region A1 in the filter array shown in FIG. 2A.
  • FIG. 2D is a diagram showing an example of the spectral transmittance of the region A2 in the filter array shown in FIG. 2A.
  • FIG. 3A is a diagram schematically showing an example of a two-dimensional distribution of a filter array.
  • FIG. 3B is a diagram schematically showing another example of the two-dimensional distribution of the filter array.
  • FIG. 4A is a flowchart showing an example of an object recognition method using the object recognition device in the exemplary embodiment.
  • FIG. 4B is a flowchart showing an example of the classification model generation processing.
  • FIG. 4C is a diagram that schematically illustrates an example of multiple training data sets in an exemplary embodiment.
  • FIG. 4D is a diagram schematically showing an example of feeding back the recognition result of the object to the classification model.
  • FIG. 4E is a flowchart showing another example of the object recognition method using the object recognition device in the exemplary embodiment.
  • FIG. 5A is a diagram schematically showing a function of displaying a recommended area for object recognition and assisting imaging.
  • FIG. 5B is a diagram schematically showing enlargement of an object by an optical system having a zoom function.
  • FIG. 5C is a diagram schematically showing a modified example of the filter array.
  • FIG. 6A is a diagram schematically illustrating an application example of the object recognition device in the exemplary embodiment.
  • FIG. 6B is a diagram schematically showing another application example of the object recognition device in the exemplary embodiment.
  • FIG. 6C is a diagram schematically showing another application example of the object recognition device in the exemplary embodiment.
  • FIG. 7 is a diagram schematically showing an example of vehicle control using the object recognition device in the exemplary embodiment.
  • FIG. 8 is a diagram schematically showing an example of the object recognition device in the exemplary embodiment.
  • a plurality of wavelength filters having different transmission wavelength bands are arranged two-dimensionally.
  • an image of one frame is acquired by a single shot such as moving image shooting, there is a trade-off relationship between the number of wavelength bands and spatial resolution. That is, when many filters having different transmission wavelength bands are spatially dispersed and arranged in order to acquire a multi-wavelength image, the spatial resolution of the image acquired for each wavelength band becomes low. Therefore, even if the hyperspectral image is used for object recognition in the expectation that the object recognition accuracy will be improved, the recognition accuracy may actually decrease due to the low spatial resolution.
  • the object recognition method includes acquiring image data of an image including feature information indicating a feature of the object, and recognizing the object included in the image based on the feature information.
  • the image data includes an image sensor and a plurality of translucent filters arrayed two-dimensionally along a surface intersecting the optical path, the filter array being arranged in an optical path of light incident on the image sensor.
  • a filter array which is included, and is acquired by capturing the image with the first imaging device.
  • recognizing the object is performed by applying a classification model learned by a machine learning algorithm to the image data, and each of the classification models is for learning. It may be learned in advance by a plurality of first training data sets including image data and label data for identifying the object included in the learning image indicated by the learning image data.
  • a plurality of learning image data included in the plurality of first training data sets are generated by a second imaging device different from the first imaging device.
  • the image data may be included.
  • the second image pickup device may include a filter array having the same characteristics as the filter array in the first image pickup device.
  • the object recognition method is based on a second training data set including the image data and second label data for identifying the object after the object is recognized. It may further include that the classification model is further learned.
  • the position of the object in the learning image in the plurality of learning image data included in the plurality of first training data sets is The learning image data may be different from each other.
  • the learning image data is acquired by imaging the object in a state in which the object occupies a predetermined range or more in the learning image. May be.
  • acquiring the image data is performed using an imaging device including a display, and in the object recognition method, the image data is acquired.
  • the method may further include causing the display to display an auxiliary display for informing a user of an area where the object should be located or a range where the object should occupy in the image.
  • the plurality of filters differ from each other in wavelength dependence of light transmittance, and the light transmittance of each of the plurality of filters is different in a plurality of wavelength ranges. May have a maximum value.
  • a vehicle control method according to a tenth item is a vehicle control method using the object recognition method according to any one of the first to ninth items, wherein the first imaging device is attached to a vehicle, Controlling operation of the vehicle based on the result of recognizing the object.
  • An information display method is an information display method using the object recognition method according to any one of the first to ninth items, wherein the object is detected based on a result of recognizing the object. Acquiring from the database data indicating at least one selected from the group consisting of the name of the object and the description of the object, and displaying the at least one selected from the group consisting of the name of the object and the description of the object. And displaying.
  • the object recognition method includes acquiring image data of an image including feature information indicating a feature of the object, and recognizing the object included in the image based on the feature information. Including.
  • the image data is obtained by the first imaging device including an image sensor and a light source array including a plurality of light sources that emit light in different wavelength ranges from each other, with the part of the plurality of light sources being made to emit light. It is acquired by repeating the operation of capturing the image for a plurality of times while changing the combination of the light sources included in the part of the plurality of light sources.
  • recognizing the object is performed by applying a classification model learned by a machine learning algorithm to the image data, and each of the classification models is for learning. It may be learned in advance by a plurality of first training data sets including image data and label data for identifying the object included in the learning image indicated by the learning image data.
  • the plurality of pieces of learning image data included in the plurality of first training data sets are learned by a second imaging device different from the first imaging device.
  • the image data may be included.
  • the second image pickup device may include a light source array having the same characteristics as the light source array in the first image pickup device.
  • the object recognition method according to any one of the thirteenth to fifteenth items is performed by a second training data set including the image data and second label data for identifying the object after the object is recognized. It may further include that the classification model is further learned.
  • the position of the object in the learning image in the plurality of learning image data included in the plurality of first training data sets is The learning image data may be different from each other.
  • the learning image data is acquired by imaging the object in a state in which the object occupies a predetermined range or more in the learning image. Good.
  • the image data is acquired using an imaging device including a display, and the object recognition method acquires the image data.
  • the method may further include causing the display to display an auxiliary display for informing a user of an area where the object should be located or a range where the object should occupy in the image.
  • a vehicle control method is a vehicle control method using the object recognition method according to any of the twelfth to nineteenth items, wherein the first imaging device is attached to a vehicle, Controlling operation of the vehicle based on the result of recognizing the object.
  • the information display method according to the twenty-first item is an information display method using the object recognition method according to any of the twelfth to nineteenth items, wherein the object is detected based on a result of recognizing the object. Acquiring from the database data indicating at least one selected from the group consisting of the name of the object and the description of the object, and displaying the at least one selected from the group consisting of the name of the object and the description of the object. And displaying.
  • An object recognition apparatus is an image sensor that generates image data of an image including characteristic information indicating characteristics of an object, and a filter array arranged in an optical path of light incident on the image sensor.
  • a plurality of translucent filters arranged two-dimensionally along a surface intersecting the optical path is included, and the plurality of filters include two or more filters having mutually different wavelength dependence of light transmittance,
  • the light transmittance of each of the two or more filters includes a filter array having a maximum value in a plurality of wavelength ranges, and a signal processing circuit that recognizes the object included in the image based on the characteristic information.
  • An object recognition apparatus is an image sensor that generates an image signal of an image including an object, a light source array that includes a plurality of light sources that emit light in different wavelength ranges, the image sensor and the plurality of light sources.
  • a plurality of light sources that change a combination of light sources included in the part of the plurality of light sources, the control circuit controlling Based on the characteristic information indicating the characteristic of the object, which is included in the image data composed of the control circuit that repeats over a number of times and the image signal generated by the image sensor for each of the plurality of times of imaging, A signal processing circuit for recognizing the contained object.
  • the object recognition device includes a memory and a signal processing circuit.
  • the signal processing circuit is two-dimensional image data of an image including a plurality of pixels, information of a plurality of wavelength bands is multiplexed with each data of the plurality of pixels, and the brightness of each of the plurality of pixels is Two-dimensional image data, which is multi / hyperspectral image data whose distribution is encoded, is accepted, and an object included in the scene indicated by the two-dimensional image data is recognized based on the characteristic information included in the two-dimensional image data.
  • the feature information may be extracted from the two-dimensional image data without reconstructing an image of each of the plurality of wavelength bands based on the two-dimensional image data. Good.
  • the object recognizing device may further include an imaging device that acquires the two-dimensional image data.
  • the two-dimensional image data may be acquired by imaging the object in a state in which the object occupies a predetermined range or more in the imaging region of the imaging device.
  • the object recognizing device is, before the two-dimensional image data is acquired by the imaging device, an area where the object should be located or the object occupies in the image captured by the imaging device.
  • a display may be further provided for displaying an auxiliary display for notifying the user of the power range.
  • the imaging device is an image sensor and a filter array arranged in an optical path of light incident on the image sensor, and the image capturing device is two-dimensional along a plane intersecting the optical path.
  • the index may include a filter array having a maximum value in a plurality of wavelength bands.
  • the plurality of filters may include a plurality of periodically arranged subsets.
  • all or part of a circuit, unit, device, member, or part, or all or part of a functional block in a block diagram is a semiconductor device, a semiconductor integrated circuit (IC), or an LSI (large scale integration). May be performed by one or more electronic circuits that include.
  • the LSI or IC may be integrated on one chip, or may be configured by combining a plurality of chips.
  • the functional blocks other than the memory element may be integrated in one chip.
  • an LSI or an IC it may be called a system LSI, a VLSI (very large scale integration), or a ULSI (ultra large scale integration) depending on the degree of integration.
  • a Field Programmable Gate Array (FPGA) that is programmed after the LSI is manufactured, or a reconfigurable logic device that can reconfigure the bonding relationship inside the LSI or set up circuit sections inside the LSI can also be used for the same purpose.
  • FPGA Field Programmable Gate Array
  • circuits, units, devices, members or parts can be executed by software processing.
  • the software is recorded on a non-transitory recording medium such as one or more ROMs, optical disks, hard disk drives, etc., and is specified by the software when the software is executed by a processor. These functions are performed by the processor and peripherals.
  • the system or apparatus may include one or more non-transitory recording media on which the software is recorded, a processor, and required hardware devices, such as interfaces.
  • FIG. 1 is a diagram schematically illustrating an example of an object recognition device 300 according to an exemplary embodiment 1 of the present disclosure.
  • FIG. 1 shows, as an example, a situation in which a mushroom is photographed.
  • the object 70 to be photographed may be any object.
  • the object recognition device 300 according to the first embodiment includes an imaging device 150, a signal processing circuit 200, a display 400, and a memory 500.
  • the imaging device 150 includes an optical system 40, a filter array 100C, and an image sensor 60.
  • the object recognition device 300 may be a computer such as a smartphone or a tablet computer. A camera mounted on these computers may function as the imaging device 150.
  • the filter array 100C is arranged in the optical path of light incident on the image sensor 60.
  • the filter array 100C is arranged at a position facing the image sensor 60.
  • the filter array 100C may be arranged at another position.
  • the image of the light from the object 70 is encoded by the filter array 100C.
  • "encoding” means modulating the image by attenuating the light incident on the filter array 100C at an attenuation rate that depends on the wavelength and position of the light.
  • the image data generated based on the image thus modulated is referred to as "encoded image data". Details of the configuration and encoding of the filter array 100C will be described later.
  • the image sensor 60 may be a monochrome type image pickup device having a plurality of photodetection cells which are a plurality of pixels arranged two-dimensionally on the image pickup surface.
  • the image sensor 60 can be, for example, a CCD (Charge-Coupled Device) sensor, a CMOS (Complementary Metal Oxide Semiconductor) sensor, an infrared array sensor, a terahertz array sensor, or a millimeter wave array sensor.
  • the light detection cell includes, for example, a photodiode.
  • the image sensor 60 does not necessarily have to be a monochrome type image sensor.
  • a color type image sensor having an R / G / B, R / G / B / IR, or R / G / B / W filter may be used.
  • the image sensor 60 may have detection sensitivity not only in the visible wavelength range but also in the X-ray, ultraviolet, near infrared, mid infrared, far infrared, and microwave / radio wave wavelength ranges.
  • the image sensor 60 is arranged in the optical path of light that has passed through the filter array 100C.
  • the image sensor 60 receives the light passing through the filter array 100C and generates an image signal.
  • Each photodetection cell in the image sensor 60 outputs a photoelectric conversion signal according to the amount of received light.
  • An image signal is generated by the plurality of photoelectric conversion signals output from the plurality of photodetection cells.
  • FIG. 1 schematically shows an example of a captured image 120 composed of the image signal, that is, encoded image data.
  • the optical system 40 includes at least one lens.
  • the optical system 40 is depicted as one lens, but it may be configured by a combination of a plurality of lenses.
  • the optical system 40 may have a zoom function as described later.
  • the optical system 40 forms an image of light from the object 70 on the filter array 100C.
  • the signal processing circuit 200 is a circuit that processes an image signal output from the image sensor 60.
  • the signal processing circuit 200 can be realized by, for example, a combination of a central processing unit (CPU), an image processing arithmetic processor (GPU), and a computer program.
  • a computer program is stored in, for example, a recording medium such as a memory, and a processor such as a CPU or a GPU executes the program to perform a recognition process described later.
  • the signal processing circuit 200 may be a digital signal processor (DSP) or a programmable logic device (PLD) such as a field programmable gate array (FPGA).
  • DSP digital signal processor
  • PLD programmable logic device
  • FPGA field programmable gate array
  • the signal processing circuit 200 may be included in a server computer connected to a device such as the imaging device 150 or a smartphone via a network such as the Internet.
  • the signal processing circuit 200 recognizes the object 70 from the encoded image data.
  • a model learned by a known machine learning algorithm can be used. Details of the object recognition method will be described later.
  • the display 400 displays information associated with the recognized object 70.
  • the display 400 can be, for example, the display of a smartphone or tablet computer.
  • the display 400 may be a display connected to a personal computer or the like, or a display built in a laptop computer.
  • FIG. 2A is a diagram schematically showing an example of the filter array 100C.
  • the filter array 100C has a plurality of regions arranged two-dimensionally. In this specification, the area may be referred to as a “cell”.
  • a filter having a separately set spectral transmittance is arranged in each region.
  • the “spectral transmittance” means a light transmittance having wavelength dependency.
  • the spectral transmittance is represented by a function T ( ⁇ ), where ⁇ is the wavelength of incident light.
  • the spectral transmittance T ( ⁇ ) can take a value of 0 or more and 1 or less.
  • the filter array 100C includes a plurality of filters that are two-dimensionally arranged along the plane intersecting the optical path.
  • the filter array 100C has 48 rectangular areas arranged in 6 rows and 8 columns. In practical applications, more areas may be provided. The number thereof may be similar to the number of pixels of a general image sensor such as an image sensor. The number of pixels is, for example, hundreds of thousands to tens of millions.
  • the filter array 100C may be arranged directly above the image pickup device, and each region may be arranged so as to correspond to one pixel of the image pickup device. Each region faces, for example, one or more pixels of the image sensor.
  • FIG. 2B is a diagram showing an example of the spatial distribution of the light transmittance of each of the plurality of wavelength ranges W1, W2, ..., Wi included in the target wavelength range.
  • the difference in shading of each region represents the difference in transmittance. The lighter the area, the higher the transmittance, and the darker the area, the lower the transmittance.
  • the spatial distribution of light transmittance differs depending on the wavelength range.
  • 2C and 2D are diagrams showing examples of the spectral transmittances of the regions A1 and A2 included in the plurality of regions of the filter array 100C shown in FIG. 2A, respectively.
  • the spectral transmittance of the area A1 and the spectral transmittance of the area A2 are different from each other. In this way, the spectral transmittance of the filter array 100C differs depending on the region. However, the spectral transmittances of all the areas do not necessarily need to be different.
  • the spectral transmittances of at least two regions of the plurality of regions in the filter array 100C are different from each other. That is, the filter array 100C includes two or more filters having different spectral transmittances.
  • the spectral transmittance of each of the two or more filters has a maximum value in a plurality of wavelength bands and a minimum value in a plurality of other wavelength bands.
  • the spectral transmittance of each filter may have a maximum value in a plurality of wavelength bands and a minimum value in a plurality of other wavelength bands.
  • the number of spectral transmittance patterns of the plurality of filters included in the filter array 100C may be equal to or more than the number i of wavelength bands included in the target wavelength band.
  • the filter array 100C can be designed such that more than half of the filters have different spectral transmittances.
  • the filter array 100C modulates incident light into light having a plurality of discrete intensity peaks with respect to wavelength for each region, and superimposes these multi-wavelength lights for output. As a result, the image of the light that has passed through the filter array 100C is encoded.
  • the resolution in the wavelength direction of the spectral transmittance of each region can be set to about the bandwidth of the desired wavelength region.
  • the width of the range that takes a value equal to or greater than the average value of the local minimum value that is closest to the local maximum value and the local maximum value is the desired wavelength. It can be set to the bandwidth of the range.
  • the spectral transmittance is decomposed into frequency components by, for example, Fourier transform, the value of the frequency components corresponding to that wavelength range becomes relatively large.
  • the filter array 100C is typically divided into a plurality of cells corresponding to a plurality of regions divided into a grid, as shown in FIG. 2A. These cells have different spectral transmittances.
  • the wavelength distribution and the spatial distribution of the light transmittance of each region of the filter array 100C may be, for example, a random distribution or a quasi-random distribution.
  • each region in the filter array 100C can be considered as a vector element having a value of, for example, 0 to 1, depending on the light transmittance.
  • the value of the vector element is 0, and when the transmittance is 1, the value of the vector element is 1.
  • a set of regions arranged in a row or a column can be considered as a multidimensional vector having a value of 0 to 1. Therefore, it can be said that the filter array 100C includes a plurality of multidimensional vectors in the column direction or the row direction.
  • the random distribution means that any two multidimensional vectors are independent, that is, not parallel.
  • the quasi-random distribution means that some multidimensional vectors include a structure that is not independent. Therefore, in the random distribution and the quasi-random distribution, the value of the light transmittance of the first wavelength region in each region belonging to the set of regions arranged in one row or column included in the plurality of regions is used as an element.
  • the vector and the vector having, as an element, the value of the transmittance of the light in the first wavelength band in each region belonging to the set of regions arranged in other rows or columns are independent from each other.
  • the transmittance of light in the second wavelength band in each region belonging to a set of regions arranged in one row or column included in a plurality of regions are mutually independent.
  • the cell pitch which is the interval between the plurality of regions in the filter array 100C, may be substantially equal to the pixel pitch of the image sensor 60. By doing so, the resolution of the image of the encoded light emitted from the filter array 100C substantially matches the resolution of the pixel.
  • the cell pitch may be made fine according to the distance.
  • a grayscale transmittance distribution in which the transmittance of each region can take any value of 0 or more and 1 or less is assumed.
  • a binary-scale transmittance distribution in which the transmittance of each region can take a value of substantially 0 or 1 may be adopted.
  • each region transmits most of the light of at least two wavelength bands of the plurality of wavelength bands included in the target wavelength band and transmits most of the light of the remaining wavelength bands. Do not penetrate.
  • “most part” refers to approximately 80% or more.
  • the plurality of transparent areas may be arranged in a checkered pattern, for example. That is, in the two array directions of the plurality of areas in the filter array 100C, the areas in which the light transmittance differs depending on the wavelength and the transparent areas may be arrayed alternately. In the example shown in FIG. 2A, the two arrangement directions are the horizontal direction and the vertical direction.
  • the filter array 100C may be composed of at least one selected from the group consisting of a multilayer film, an organic material, a diffraction grating structure, and a fine structure containing metal.
  • a multilayer film for example, a dielectric multilayer film or a multilayer film including a metal film is used.
  • the multilayer film can realize spectral characteristics having a sharp rise or fall.
  • an organic material is used, different spectral characteristics can be realized in each cell by using different pigments or dyes or by stacking different materials.
  • different spectral characteristics can be realized by providing a diffraction structure having a different diffraction pitch or depth in each cell.
  • different spectral characteristics can be realized by the plasmon effect spectroscopy.
  • the filter array 100C is arranged near or directly above the image sensor 60.
  • “near” means that the image of the light from the optical system 40 is close enough to be formed on the surface of the filter array 100C in a clear state.
  • “Directly above” means that they are so close to each other that there is almost no gap.
  • the filter array 100C and the image sensor 60 may be integrated.
  • the filter array 100C is a mask having a spatial distribution of light transmittance. The filter array 100C modulates the intensity of incident light and passes it.
  • 3A and 3B are diagrams schematically showing an example of a two-dimensional distribution of the filter array 100C.
  • the filter array 100C may be configured by a binary mask.
  • the black part represents light shielding and the white part represents transmission. 100% of the light passing through the white part is transmitted, and 100% of the light passing through the black part is blocked.
  • the two-dimensional distribution of transmittance of the mask can be a random distribution or a quasi-random distribution.
  • the two-dimensional distribution of mask transmittance does not necessarily have to be completely random. This is because the encoding by the filter array 100C is performed in order to distinguish each image of each wavelength.
  • the ratio of the black part to the white part does not have to be 1: 1.
  • it may be white part: black part 1: 9.
  • the filter array 100C may be a mask having a grayscale transmittance distribution.
  • the filter array 100C has different spatial distributions of transmittances for the respective wavelength ranges W1, W2, ..., Wi.
  • the spatial distributions of the transmittances in the respective wavelength regions do not match even if they are moved in parallel.
  • the image sensor 60 may be a monochrome type image sensor having two-dimensional pixels. However, the image sensor 60 does not necessarily have to be configured by a monochrome type image sensor.
  • a color type image sensor having R / G / B, R / G / B / IR, and R / G / B / W filters may be used.
  • the color-type image sensor can increase the amount of information regarding wavelength. This makes it possible to complement the characteristics of the filter array 100C and facilitates filter design.
  • An image of the light from the object 70 is formed by the optical system 40 and encoded by the filter array 100C installed immediately before the image sensor 60.
  • images having different encoded information for each wavelength range are overlapped with each other and are formed on the image sensor 60 as a multiple image.
  • the captured image 120 is obtained.
  • a spectral element such as a prism
  • spatial shift of the image does not occur. This makes it possible to maintain high spatial resolution even with multiple images. As a result, it is possible to improve the accuracy of object recognition.
  • the wavelength range may be limited by installing a bandpass filter in a part of the object recognition device 300.
  • the identification range can be limited by limiting the wavelength range. As a result, high recognition accuracy of the object can be realized.
  • FIG. 4A is a flowchart showing an example of an object recognition method using the object recognition device 300 according to this embodiment. This object recognition method is executed by the signal processing circuit 200.
  • the signal processing circuit 200 executes the computer program stored in the memory 500 to execute the processes of steps S101 to S104 shown in FIG. 4A.
  • the user images the object 70 with the imaging device 150 included in the object recognition device 300.
  • the coded captured image 120 is obtained.
  • step S101 the signal processing circuit 200 acquires the image data generated by the imaging device 150.
  • the image data indicates the encoded captured image 120.
  • step S102 the signal processing circuit 200 performs preprocessing of the acquired image data.
  • the pre-processing is performed to improve the recognition accuracy.
  • the pre-processing may include processing such as area extraction, smoothing processing for noise removal, and feature extraction.
  • the pre-processing may be omitted if unnecessary.
  • step S103 the signal processing circuit 200 applies the learned classification model to the image data to identify the object 70 included in the scene indicated by the preprocessed image data.
  • the classification model is learned in advance by a known machine learning algorithm, for example. Details of the classification model will be described later.
  • step S104 the signal processing circuit 200 outputs information associated with the object 70.
  • the signal processing circuit 200 outputs information such as the name and / or detailed information of the object 70 to the display 400, for example.
  • the display 400 displays an image showing the information.
  • the information is not limited to an image, and may be presented by a sound, for example.
  • FIG. 4B is a flowchart showing an example of classification model generation processing.
  • step S201 the signal processing circuit 200 collects a plurality of training data sets.
  • Each of the plurality of training data sets includes learning image data and label data.
  • the label data is information for identifying the object 70 included in the scene indicated by the learning image data.
  • the learning image data is image data encoded by the same method as the above-mentioned image data.
  • the plurality of learning image data included in the plurality of training data sets may include the learning image data generated by the imaging device 150 according to the present embodiment or another imaging device. Details of the plurality of training data sets will be described later.
  • step S202 the signal processing circuit 200 performs preprocessing on the learning image data included in each training data.
  • the pretreatment is as described above.
  • step S203 the signal processing circuit 200 generates a classification model from a plurality of training data sets by machine learning.
  • Algorithms such as deep learning, support vector machines, decision trees, genetic programming, or Bayesian networks can be used for machine learning. If deep learning is used, algorithms such as convolutional neural networks (CNN) or recurrent neural networks (RNN) may be used.
  • CNN convolutional neural networks
  • RNN recurrent neural networks
  • FIG. 4C is a diagram schematically showing an example of a plurality of training data sets in this embodiment.
  • each training data set includes coded image data indicating one or more mushrooms and label data indicating whether the mushrooms are edible or poisonous mushrooms.
  • the coded image data and the label data indicating the correct answer label correspond to each other in a 1: 1 relationship.
  • the correct answer label can be, for example, information indicating the name, characteristic, sensory evaluation such as “delicious” or “bad”, or determination such as “good” or “bad” of the object 70.
  • the more training data sets the more accurate the learning.
  • the position in the image of the object 70 in the plurality of learning image data included in the plurality of training data sets may be different depending on the learning image data.
  • the coding information differs for each pixel. Therefore, the more learning image data in which the position of the object 70 in the image is different, the higher the accuracy of object recognition by the classification model can be.
  • the classification model is incorporated in the signal processing circuit 200 before being used by the user.
  • the coded image data indicating the captured image 120 may be transmitted to a separately prepared classification system via a network or a cloud.
  • the classification system allows high-speed processing by, for example, a super computer. As a result, even if the processing speed of the terminal on the user side is weak, the recognition result of the object 70 can be provided to the user at high speed as long as it can be connected to the network.
  • the image data acquired in step S101 in FIG. 4A and the learning image data acquired in step S201 in FIG. 4B can be encoded by, for example, a filter array having equivalent characteristics.
  • filter arrays having equivalent characteristics do not have to have exactly the same characteristics, and some filters may have different spectral transmission characteristics.
  • the characteristics of the filter may differ from several percent to several tens of percent of the whole.
  • the other image capturing device may include a filter array having the same characteristics as the filter array 100C included in the image capturing device 150.
  • the recognition result of the object 70 may be fed back to the classification model. Thereby, the classification model can be further trained.
  • 4D is a diagram schematically showing an example of feeding back the recognition result of the object 70 to the classification model.
  • the learned classification model is applied to the encoded image data that has been subjected to the preprocessing, and the classification result is output. Then, the result is added to the data set, and further machine learning is performed using the data set. This allows the model to be further trained to improve prediction accuracy.
  • FIG. 4E is a flowchart showing the operation in the case of feeding back the recognition result to the classification model in more detail.
  • Steps S301 to S304 shown in FIG. 4E are the same as steps S101 to S104 shown in FIG. 4A, respectively. Then, steps S305 to S307 are executed.
  • step S305 the signal processing circuit 200 generates a new training data set including the image data acquired in step S301 and the label data indicating the object 70 recognized in step S303.
  • step S306 the signal processing circuit 200 further trains the classification model with the new plurality of training data sets. This learning process is similar to the learning process shown in steps S202 and S203 shown in FIG. 4B.
  • step S307 the signal processing circuit 200 determines whether to continue to recognize the object 70. If the determination is Yes, the signal processing circuit 200 executes the process of step S301 again. When the determination is No, the signal processing circuit 200 ends the recognition of the object 70.
  • the recognition accuracy of the classification model can be improved. Further, it becomes possible to create a classification model suitable for the user.
  • the user may send the dataset including the recognition result of the object 70 to the classification system via the network for feedback.
  • the data set may include data indicating the captured image 120 generated by imaging, or data obtained by preprocessing the captured image 120, and label data indicating a correct answer label based on the recognition result by the classification model or the user's knowledge.
  • the user who submitted the dataset for feedback may be given incentives, such as rewards or points, from the provider of the classification system.
  • the access permission of the captured image 120 captured by the user or the authentication of whether or not the automatic transmission is possible may be displayed on the display 400 before transmission by, for example, a screen pop-up.
  • the filter array 100C can multiplex a plurality of wavelength information on one pixel instead of one wavelength information on one pixel.
  • the captured image 120 includes multiplexed two-dimensional information.
  • the two-dimensional information is, for example, randomly encoded spectral information about space and wavelength.
  • the coding pattern is learned by machine learning. Thereby, although it is two-dimensional input data, substantially three-dimensional information (that is, two-dimensional position and one-dimensional wavelength) is utilized for object recognition.
  • the image data in this embodiment is data in which wavelength information is multiplexed, it is possible to increase the spatial resolution per wavelength as compared with the conventional hyperspectral image that sacrifices the spatial resolution. Further, the object recognition device 300 according to the present embodiment can acquire image data of one frame with a single shot. As a result, it is possible to recognize a moving object or an object that is more resistant to camera shake than the conventional hyperspectral imaging method using a high resolution scanning method.
  • FIG. 5A is a diagram schematically showing a function of displaying a recommended area for object recognition and assisting image pickup by a camera.
  • the filter array 100C has different wavelength information included in each pixel, for example. Therefore, if the object 70 is detected only in a part of the imaging area of the image sensor 60, the wavelength information is biased. In order to prevent the deviation of the wavelength information, the object 70 can be photographed as wide as possible in the image pickup area of the image sensor 60.
  • the recommended area for object recognition is slightly inside the imaging area of the image sensor 60.
  • the auxiliary display 400 a indicating the recommended area for object recognition is displayed on the display 400.
  • the entire area of the display 400 corresponds to the imaging area of the image sensor 60.
  • an area of 60% to 98% of the width or height of the imaging area may be displayed on the display 400 as a recommended area for object recognition.
  • the recommended area for object recognition may be 70% to 95% of the width or height of the shooting area, or 80% to 90% of the width.
  • the auxiliary display 400a may be displayed on the display 400 before the image data is acquired by the imaging device 150.
  • the auxiliary display 400a informs the user of the area in which the object 70 should be located or the range in which the object 70 should occupy in the imaged scene.
  • each of the plurality of pieces of training image data included in the plurality of training data sets can be acquired by imaging the object 70 with the object 70 occupying a predetermined range or more in the image.
  • FIG. 5B is a diagram schematically showing how the object 70 is magnified by the optical system having the zoom function.
  • the object 70 before enlargement is displayed on the display 400
  • the object 70 after enlargement is displayed on the display 400.
  • the optical system 40 having the zoom function can form a wide image of the object 70 on the image sensor 60.
  • FIG. 5C is a diagram schematically showing a modified example of the filter array 100C.
  • the area group AA configured by a collection of a plurality of areas (A1, A2, ...) Is periodically arranged.
  • the plurality of regions have different spectral characteristics.
  • Periodically means that the area group AA is repeated twice or more in the vertical direction and / or the horizontal direction while maintaining the spectral characteristics.
  • the filter array 100C shown in FIG. 5C can prevent spatial deviation of the wavelength information.
  • learning may be performed only by the area group AA which is a subset of the periodic structure, instead of the entire filter array 100C shown in FIG. As a result, the learning time can be shortened.
  • the image encoded by the filter array 100C may include wavelength information that is randomly multiplexed, for example. Therefore, the image is difficult for the user to see. Therefore, the object recognition device 300 may separately include a normal camera for display to the user. That is, the object recognition device 300 may include a binocular configuration of the image pickup device 150 and a normal camera. This allows the user to display a non-encoded visible monochrome image on the display 400. As a result, the user can easily understand the positional relationship between the object 70 and the imaging region of the image sensor 60.
  • the object recognition device 300 may have a function of extracting the contour of the object 70 in the image. Unnecessary background around the object 70 can be removed by extracting the contour. The image data from which the unnecessary background is removed may be used as the learning image data. In that case, the recognition accuracy can be further improved.
  • the object recognition device 300 may have a function of displaying the recognition result of the contour on the display 400 and allowing the user to finely adjust the contour.
  • 6A to 6C are diagrams schematically showing an application example of the object recognition device 300 in the present embodiment.
  • the part (a) of FIG. 6A shows an application example for determining the type of plant.
  • Part (b) of FIG. 6A shows an example of application to display of food names.
  • Part (c) of FIG. 6A shows an application example to the analysis of mineral resources.
  • Part (d) of FIG. 6A shows an example of application to identification of insect types.
  • the object recognition device 300 is effective for applications such as security authentication / unlocking such as face authentication or person detection.
  • security authentication / unlocking such as face authentication or person detection.
  • the object may be erroneously recognized by the human eye at first glance.
  • multi-wavelength information it becomes possible to improve the recognition accuracy of the object.
  • FIG. 6B shows an example in which detailed information of the object 70 is displayed on the smartphone in which the object recognition method according to this embodiment is implemented.
  • the object recognition device 300 is mounted on a smartphone. By simply holding the smartphone over the object 70, it is possible to identify what the object 70 is, collect the name of the object 70 and its descriptive information from the database via the network based on the result, and display the collected information. In this way, a mobile information device such as a smartphone can be used as an “image search encyclopedia”. If complete identification is difficult, a plurality of candidates may be presented in the “image search encyclopedia” in descending order of possibility. As described above, based on the recognition result of the object 70, data indicating the name and the description information of the object 70 may be acquired from the database and the name and / or description information may be displayed on the display 400.
  • FIG. 6C shows an example in which a plurality of objects existing in the city are recognized by a smartphone.
  • the object recognition device 300 is mounted on the smartphone.
  • the inspection apparatus acquires only the information of the specific wavelength corresponding to the object 70.
  • the target of the object 70 is not specified, such as in the case of use in the city, it is effective to acquire multi-wavelength information as in the object recognition device 300 in this embodiment.
  • the object recognition device 300 may be arranged on the display 400 side of the smartphone, or may be arranged on the opposite surface of the display 400 depending on the usage example.
  • the object recognition method according to the present embodiment can be applied to a wide range of fields in which recognition by artificial intelligence (AI) can be performed, such as a map application, autonomous driving, or car navigation.
  • AI artificial intelligence
  • the object recognition device can also be mounted on a portable device such as a smartphone, a tablet, or a head mounted display device.
  • a living body such as a person, a face, or an animal can be the object 70 as long as it can be captured by a camera.
  • the captured image 120 indicated by the image data input to the signal processing circuit 200 is a multiple encoded image. Therefore, it is difficult to determine what is in the captured image 120 at first glance.
  • the captured image 120 includes characteristic information that is information indicating the characteristic of the object 70. Therefore, the AI can directly recognize the object 70 from the captured image 120. This eliminates the need for arithmetic processing for image reconstruction, which consumes a relatively large amount of time.
  • FIG. 7 is a diagram schematically showing an example of vehicle control using the object recognition device 300 in the present embodiment.
  • the object recognition device 300 mounted on the vehicle can sense the environment outside the vehicle and recognize one or more objects 70 around the vehicle that are within the field of view of the object recognition device 300.
  • the object 70 around the vehicle is, for example, an oncoming vehicle, a parallel vehicle, a parked vehicle, a pedestrian, a bicycle, a road, a lane, a white line, a sidewalk, a curb, a groove, a sign, a signal, a telephone pole, a store, a plant, an obstacle, or Falling objects may be included.
  • the object recognition device 300 includes an imaging device similar to that in the first embodiment.
  • the imaging device generates image data of a moving image at a predetermined frame rate.
  • the image data represents the captured image 120 in which the light from the object 70 around the vehicle passes through the filter array 100C and is multi-coded.
  • the signal processing circuit 200 acquires the image data, extracts one or more objects 70 in the visual field from the image data, estimates what each of the extracted objects 70 is, and labels each object 70. To do. Based on the recognition result of the object 70, the signal processing circuit 200 can understand the surrounding environment, judge the danger, or display the trajectory 420 of the target travel, for example.
  • the data such as the surrounding environment, the danger information, and the trajectory 420 of the target travel can be used to control an on-vehicle device such as a steering of a vehicle body or a transmission. This may allow automatic driving.
  • the recognition result such as the object recognition label or the traveling route may be displayed on the display 400 installed in the vehicle, as shown in FIG. 7, so that the driver can grasp the recognition result.
  • the vehicle control method according to the present embodiment includes controlling the operation of the vehicle to which the imaging device 150 is attached based on the recognition result of the object 70.
  • the object recognition device 300 With conventional object recognition using RGB or monochrome images, it is difficult to distinguish between photographs and real objects. Therefore, for example, a photograph of a signboard or a poster may be erroneously recognized as a real thing.
  • the difference in the spectral distribution between the paint on the signboard and the real car can be considered by using the multi-wavelength information. Thereby, the recognition accuracy can be improved.
  • the object recognition device 300 acquires two-dimensional data on which multi-wavelength information is superimposed. As a result, the amount of data is smaller than that of conventional three-dimensional hyperspectral data. As a result, it is possible to shorten the time required for reading and transferring data and the processing time for machine learning.
  • the street tree looks like a person depending on the growth degree or the viewing angle. Therefore, in the conventional object recognition based on the shape, the street tree shown in FIG. 7 may be erroneously recognized as a person.
  • deceleration of the vehicle body or sudden braking may be instructed by erroneously recognizing that a person has jumped out.
  • an accident may be triggered. For example, on a highway, the vehicle body should not suddenly stop due to a false recognition.
  • the object recognition device 300 can improve the recognition accuracy as compared with the conventional object recognition by utilizing the multi-wavelength information.
  • the object recognition device 300 can be used in combination with various sensors such as a millimeter wave radar, a laser range finder (Lidar), and GPS. Thereby, the recognition accuracy can be further improved. For example, it is possible to improve the generation accuracy of the trajectory of the target travel by linking with the information of the road map recorded in advance.
  • sensors such as a millimeter wave radar, a laser range finder (Lidar), and GPS.
  • the third embodiment uses a plurality of light sources having different emission wavelength bands instead of the filter array 100C to acquire encoded image data.
  • the same contents as in the first embodiment will be omitted, and the description will focus on the points different from the first embodiment.
  • FIG. 8 is a diagram schematically showing an example of the object recognition device 300 in this embodiment.
  • the object recognition device 300 includes an imaging device 150, a signal processing circuit 200, a display 400, and a memory 500.
  • the imaging device 150 includes an optical system 40, an image sensor 60, a light source array 100L, and a control circuit 250.
  • the light source array 100L includes a plurality of light sources, each of which emits light in a different wavelength range.
  • the control circuit 250 controls the image sensor 60 and a plurality of light sources included in the light source array 100L.
  • the control circuit 250 repeats the operation of causing the image sensor 60 to capture an image in a state where some or all of the plurality of light sources emit light while changing the combination of the light sources to emit light.
  • light having different spectral characteristics is emitted from the light source array 100L for each image pickup.
  • the combination of light sources that emit light does not include the exact same combination. However, some of the light sources may overlap in two or more of the plurality of combinations.
  • the picked-up images 120G1, 120G2, 120G3, ..., 120Gm obtained in each of the shooting times T1, T2, T3, ..., Tm have different intensity distributions.
  • the image data input to the signal processing circuit 200 is a set of image signals generated by the image sensor 60 in the image pickup apparatus 150 for each of a plurality of image pickups.
  • the control circuit 250 may not only change each light source into a binary value of turning on or off, but may also adjust the light amount of each light source. Even when such adjustment is performed, a plurality of image signals having different wavelength information can be obtained.
  • Each light source can be, for example, but not limited to, an LED, LD, laser, fluorescent lamp, mercury lamp, halogen lamp, metal halide lamp, or xenon lamp.
  • an ultrafast fiber laser such as a femtosecond laser can be used as the light source.
  • the signal processing circuit 200 performs learning and classification of the object 70 using all or any of the captured images 120G1, 120G2, 120G3, ..., 120Gm included in the image data.
  • the control circuit 250 is not limited to light having a spatially uniform illuminance distribution, and may emit light having a spatially random intensity distribution to the light source array 100L.
  • the light emitted from the plurality of light sources may have a two-dimensional illuminance distribution that differs for each wavelength.
  • an image of light emitted from the light source array 100L toward the object 70 and passing through the optical system 40 is formed on the image sensor 60.
  • the light incident on each pixel of the image sensor 60 or on each of the plurality of pixels has a spectral characteristic including a plurality of different spectral peaks, as in the example shown in FIG.
  • the plurality of learning image data included in the plurality of training data sets includes the learning image data generated by the imaging device 150 or another imaging device.
  • the other image capturing device may include a light source array having the same characteristics as the light source array 100L included in the image capturing device 150.
  • the image data to be recognized and each learning image data are encoded by the light source array having the same characteristic, high recognition accuracy of the object 70 can be obtained.
  • the object recognition method includes acquiring image data in which a plurality of wavelength information is multiplexed in each pixel, and a classification model learned by a machine learning algorithm to obtain image data in which a plurality of wavelength information are multiplexed. To recognize an object included in the scene indicated by the image data.
  • the object recognition method according to the present disclosure includes strengthening the classification model learning by using image data in which a plurality of pieces of wavelength information are multiplexed.
  • the means for obtaining image data in which a plurality of pieces of wavelength information are multiplexed in each pixel is not limited to the image pickup apparatus described in the above embodiments.
  • the present disclosure also includes programs and methods that define the operations performed by the signal processing circuit 200.
  • the object recognition device can be used as a measuring device that identifies an object with high accuracy during measurement.
  • Object recognition devices include, for example, plant / food / biological type identification, route guidance / navigation, mineral exploration, biological / medical / cosmetic sensing, food foreign matter / residual pesticide inspection systems, remote sensing systems, and automated driving. It can also be applied to in-vehicle sensing systems.
  • optical system 60 image sensor 70 object 100C filter array 100L light source array 120 captured image 200 signal processing circuit 250 control circuit 300 object recognition device 400 display 400a auxiliary display 420 target trajectory 500 memory

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Vascular Medicine (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Image Analysis (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

本開示の一態様に係る物体認識方法は、物体の特徴を示す特徴情報を含む画像の画像データを取得することと、前記特徴情報に基づき、前記画像に含まれる前記物体を認識することと、を含む。前記画像データは、イメージセンサと、前記イメージセンサに入射する光の光路に配置されたフィルタアレイであって、前記光路に交差する面に沿って2次元的に配列された透光性の複数のフィルタを含み、前記複数のフィルタは、光透過率の波長依存性が互いに異なる2つ以上のフィルタを含み、前記2つ以上のフィルタの各々の光透過率は、複数の波長域において極大値を有する、フィルタアレイと、を備える第1の撮像装置によって前記画像を撮像することにより取得される。

Description

物体認識方法、車両制御方法、情報表示方法、および物体認識装置
 本開示は、物体認識方法、車両制御方法、情報表示方法、および物体認識装置に関する。
 機械学習を用いた物体認識では、一般に、学習データとして、モノクロ画像またはRGB画像が活用される。一方、RGB画像よりも多くの波長の情報を含むマルチスペクトル画像を利用して物体認識を行う試みも検討されている。
 特許文献1は、マルチスペクトル画像を取得するセンサとして、異なる波長域の光を通過させる複数のフィルタが空間的にモザイク状に配置されたスペクトルカメラを開示している。特許文献2は、画像内の免疫細胞の認識精度を高めるために、複数の画像チャネルについて免疫細胞の画像を畳み込みニューラルネットワークによって学習する方法を開示している。特許文献3は、マルチスペクトル画像またはハイパー分光画像を訓練データとする機械学習の方法を開示している。
特表2015-501432号公報 国際公開第2015/177268号 米国特許出願公開第2017/0076438号明細書
 本開示は、符号化された画像データから、高精度の物体認識を可能にする新規な物体認識方法を提供する。
 本開示の一態様に係る物体認識方法は、物体の特徴を示す特徴情報を含む画像の画像データを取得することと、前記特徴情報に基づき、前記画像に含まれる前記物体を認識することと、を含む。前記画像データは、イメージセンサと、前記イメージセンサに入射する光の光路に配置されたフィルタアレイであって、前記光路に交差する面に沿って2次元的に配列された透光性の複数のフィルタを含み、前記複数のフィルタは、光透過率の波長依存性が互いに異なる2つ以上のフィルタを含み、前記2つ以上のフィルタの各々の光透過率は、複数の波長域において極大値を有する、フィルタアレイと、を備える第1の撮像装置によって前記画像を撮像することにより取得される。
 本開示によれば、高精度の物体認識が可能になる。
図1は、本開示の例示的な実施形態における物体認識装置の例を模式的に示す図である。 図2Aは、フィルタアレイの例を模式的に示す図である。 図2Bは、対象波長域に含まれる複数の波長域のそれぞれの光の透過率の空間分布の一例を示す図である。 図2Cは、図2Aに示すフィルタアレイにおける領域A1の分光透過率の例を示す図である。 図2Dは、図2Aに示すフィルタアレイにおける領域A2の分光透過率の例を示す図である。 図3Aは、フィルタアレイの2次元分布の例を模式的に示す図である。 図3Bは、フィルタアレイの2次元分布の他の例を模式的に示す図である。 図4Aは、例示的な実施形態における物体認識装置を用いた物体認識方法の例を示すフローチャートである。 図4Bは、分類モデルの生成処理の例を示すフローチャートである。 図4Cは、例示的な実施形態における複数の訓練データセットの例を模式的に示す図である。 図4Dは、物体の認識結果を分類モデルにフィードバックする例を模式的に示す図である。 図4Eは、例示的な実施形態における物体認識装置を用いた物体認識方法の他の例を示すフローチャートである。 図5Aは、物体認識の推奨領域を表示して、撮像を補助する機能を模式的に示す図である。 図5Bは、ズーム機能を有する光学系による物体の拡大を模式的に示す図である。 図5Cは、フィルタアレイの変形例を模式的に示す図である。 図6Aは、例示的な実施形態における物体認識装置の適用例を模式的に示す図である。 図6Bは、例示的な実施形態における物体認識装置の他の適用例を模式的に示す図である。 図6Cは、例示的な実施形態における物体認識装置の他の適用例を模式的に示す図である。 図7は、例示的な実施形態における物体認識装置を用いた車両制御の例を模式的に示す図である。 図8は、例示的な実施形態における物体認識装置の例を模式的に示す図である。
 本開示の実施形態を説明する前に、本開示の基礎となった知見を説明する。
 従来のRGB画像を用いた物体認識では、その認識能力に限界があった。例えば、実物と、その看板またはポスターとを区別することができない場合がある。これは、一般に、実物から反射される光のR、G、Bの各成分の量と、その看板またはポスターから反射される光のR、G、Bの各成分の量との差が小さいことに起因する。実物と、その看板またはポスターとを区別するために、例えば、多波長のスペクトルデータを利用することが考えられる。これにより、物体の素材の違いに起因するスペクトルデータの微細な差違を検出することが可能になり得る。
 従来のハイパースペクトルカメラでは、例えば特許文献1に開示されているように、透過波長域の異なる複数の波長フィルタが2次元的に配置される。動画撮影のようにシングルショットで1フレームの画像が取得される場合、波長域の数と空間解像度とがトレードオフの関係になる。すなわち、多波長画像を取得するために、透過波長域の異なる多くのフィルタを空間的に分散させて配置すると、波長域ごとに取得される画像の空間解像度は低くなる。したがって、物体の認識精度が向上することを期待してハイパースペクトル画像を物体認識に利用したとしても、実際には、低い空間解像度のため、認識精度が低下する可能性がある。
 イメージセンサの画素数を増やすことによって波長分解能および解像度の両方を向上させることも考えられる。この場合、空間の2次元データに多波長のデータを加えた大容量の3次元データが扱われる。このような大きいサイズのデータに機械学習を適用する場合、前処理、学習、通信、およびデータの保管に多くの時間またはリソースが費やされる。
 本発明者は、以上の検討に基づき、以下の項目に記載の物体認識方法に想到した。
 [項目1]
 第1の項目に係る物体認識方法は、物体の特徴を示す特徴情報を含む画像の画像データを取得することと、前記特徴情報に基づき、前記画像に含まれる前記物体を認識することと、を含む。前記画像データは、イメージセンサと、前記イメージセンサに入射する光の光路に配置されたフィルタアレイであって、前記光路に交差する面に沿って2次元的に配列された透光性の複数のフィルタを含み、前記複数のフィルタは、光透過率の波長依存性が互いに異なる2つ以上のフィルタを含み、前記2つ以上のフィルタの各々の光透過率は、複数の波長域において極大値を有する、フィルタアレイと、を備える第1の撮像装置によって前記画像を撮像することにより取得される。
 [項目2]
 第1の項目に係る物体認識方法において、前記物体を認識することは、機械学習アルゴリズムによって学習された分類モデルを前記画像データに適用することにより行われ、前記分類モデルは、各々が、学習用画像データと、前記学習用画像データが示す学習用画像に含まれる前記物体を識別するラベルデータとを含む複数の第1の訓練データセットによって予め学習されていてもよい。
 [項目3]
 第2の項目に係る物体認識方法において、前記複数の第1の訓練データセットに含まれる複数の学習用画像データは、前記第1の撮像装置とは異なる第2の撮像装置によって生成された学習用画像データを含んでいてもよい。
 [項目4]
 第3の項目に係る物体認識方法において、前記第2の撮像装置は、前記第1の撮像装置における前記フィルタアレイと同等の特性を有するフィルタアレイを備えていてもよい。
 [項目5]
 第2から第4の項目のいずれかに係る物体認識方法は、前記物体が認識された後、前記画像データと、前記物体を識別する第2のラベルデータとを含む第2の訓練データセットによって、前記分類モデルがさらに学習されることをさらに含んでいてもよい。
 [項目6]
 第2から第5の項目のいずれかに係る物体認識方法において、前記複数の第1の訓練データセットに含まれる複数の学習用画像データにおける前記物体の前記学習用画像内での位置は、前記複数の学習用画像データにおいて互いに異なっていてもよい。
 [項目7]
 第2から第6の項目のいずれかに係る物体認識方法において、前記学習用画像データは、前記物体が前記学習用画像内で所定の範囲以上を占めた状態で撮像されることによって取得されていてもよい。
 [項目8]
 第1から第7の項目のいずれかに係る物体認識方法において、前記画像データを取得することは、ディスプレイを含む撮像装置を用いて行われ、前記物体認識方法は、前記画像データが取得される前に、前記画像の中で前記物体が位置すべきエリアまたは前記物体が占めるべき範囲をユーザに知らせるための補助表示を前記ディスプレイに表示させることをさらに含んでいてもよい。
 [項目9]
 第1から第8の項目のいずれかに係る物体認識方法において、前記複数のフィルタは、光透過率の波長依存性が互いに異なり、前記複数のフィルタの各々の光透過率は、複数の波長域において極大値を有していてもよい。
 [項目10]
 第10の項目に係る車両制御方法は、第1から第9の項目のいずれかに係る物体認識方法を用いた車両制御方法であって、前記第1の撮像装置は、車両に取り付けられ、前記物体を認識することの結果に基づいて、前記車両の動作を制御することを含む。
 [項目11]
 第11の項目に係る情報表示方法は、第1から第9の項目のいずれかに係る物体認識方法を用いた情報表示方法であって、前記物体を認識することの結果に基づいて、前記物体の名称および前記物体の説明からなる群から選択される少なくとも1つを示すデータをデータベースから取得することと、前記物体の名称および前記物体の説明からなる群から選択される前記少なくとも1つをディスプレイに表示することと、を含む。
 [項目12]
 第12の項目に係る物体認識方法は、物体の特徴を示す特徴情報を含む画像の画像データを取得することと、前記特徴情報に基づき、前記画像に含まれる前記物体を認識することと、を含む。前記画像データは、イメージセンサと、互いに異なる波長域の光を発する複数の光源を含む光源アレイと、を備える第1の撮像装置によって、前記複数の光源の一部を発光させた状態で前記画像を撮像する動作を、前記複数の光源の前記一部に含まれる光源の組み合わせを変えながら、複数回に亘って繰り返すことにより取得される。
 [項目13]
 第12の項目に係る物体認識方法において、前記物体を認識することは、機械学習アルゴリズムによって学習された分類モデルを前記画像データに適用することにより行われ、前記分類モデルは、各々が、学習用画像データと、前記学習用画像データが示す学習用画像に含まれる前記物体を識別するラベルデータとを含む複数の第1の訓練データセットによって予め学習されていてもよい。
 [項目14]
 第13の項目に係る物体認識方法において、前記複数の第1の訓練データセットに含まれる複数の学習用画像データは、前記第1の撮像装置とは異なる第2の撮像装置によって生成された学習用画像データを含んでいてもよい。
 [項目15]
 第14の項目に係る物体認識方法において、前記第2の撮像装置は、前記第1の撮像装置における前記光源アレイと同等の特性を有する光源アレイを備えていてもよい。
 [項目16]
 第13から第15の項目のいずれかに係る物体認識方法は、前記物体が認識された後、前記画像データと、前記物体を識別する第2のラベルデータとを含む第2の訓練データセットによって、前記分類モデルがさらに学習されることをさらに含んでいてもよい。
 [項目17]
 第13から第16の項目のいずれかに係る物体認識方法において、前記複数の第1の訓練データセットに含まれる複数の学習用画像データにおける前記物体の前記学習用画像内での位置は、前記複数の学習用画像データにおいて互いに異なっていてもよい。
 [項目18]
 第13から第17の項目のいずれかに係る物体認識方法において、前記学習用画像データは、前記物体が前記学習用画像内で所定の範囲以上を占めた状態で撮像されることによって取得されてもよい。
 [項目19]
 第12から第18の項目のいずれかに係る物体認識方法において、前記画像データを取得することは、ディスプレイを含む撮像装置を用いて行われ、前記物体認識方法は、前記画像データが取得される前に、前記画像の中で前記物体が位置すべきエリアまたは前記物体が占めるべき範囲をユーザに知らせるための補助表示を前記ディスプレイに表示させることをさらに含んでいてもよい。
 [項目20]
 第20の項目に係る車両制御方法は、第12から第19の項目のいずれかに係る物体認識方法を用いた車両制御方法であって、前記第1の撮像装置は、車両に取り付けられ、前記物体を認識することの結果に基づいて、前記車両の動作を制御することを含む。
 [項目21]
 第21の項目に係る情報表示方法は、第12から第19の項目のいずれかに係る物体認識方法を用いた情報表示方法であって、前記物体を認識することの結果に基づいて、前記物体の名称および前記物体の説明からなる群から選択される少なくとも1つを示すデータをデータベースから取得することと、前記物体の名称および前記物体の説明からなる群から選択される前記少なくとも1つをディスプレイに表示することと、を含む。
 [項目22]
 第22の項目に係る物体認識装置は、物体の特徴を示す特徴情報を含む画像の画像データを生成するイメージセンサと、前記イメージセンサに入射する光の光路に配置されたフィルタアレイであって、前記光路に交差する面に沿って2次元的に配列された透光性の複数のフィルタを含み、前記複数のフィルタは、光透過率の波長依存性が互いに異なる2つ以上のフィルタを含み、前記2つ以上のフィルタの各々の光透過率は、複数の波長域において極大値を有する、フィルタアレイと、前記特徴情報に基づき、前記画像に含まれる前記物体を認識する信号処理回路と、を備える。
 [項目23]
 第23の項目に係る物体認識装置は、物体を含む画像の画像信号を生成するイメージセンサと、互いに異なる波長域の光を発する複数の光源を含む光源アレイと、前記イメージセンサおよび前記複数の光源を制御する制御回路であって、前記複数の光源の一部を発光させた状態で前記イメージセンサに撮像させる動作を、前記複数の光源の前記一部に含まれる光源の組み合わせを変えながら、複数回に亘って繰り返す制御回路と、前記イメージセンサによって前記複数回の撮像ごとに生成された前記画像信号から構成される画像データに含まれる、前記物体の特徴を示す特徴情報に基づき、前記画像に含まれる前記物体を認識する信号処理回路と、を備える。
 [項目24]
 第24の項目に係る物体認識装置は、メモリと、信号処理回路と、を備える。前記信号処理回路は、複数の画素を含む画像の2次元画像データであって、前記複数の画素の各々のデータに複数の波長域の情報が多重化され、且つ前記複数の画素の各々の輝度分布が符号化されたマルチ/ハイパースペクトル画像データである2次元画像データを受け付け、前記2次元画像データに含まれる特徴情報に基づき、前記2次元画像データが示すシーンに含まれる物体を認識する。
 [項目25]
 第24の項目に係る物体認識装置において、前記特徴情報は、前記2次元画像データを基に前記複数の波長域の各々の画像を再構成することなく、前記2次元画像データから抽出されてもよい。
 [項目26]
 第24の項目に係る物体認識装置は、前記2次元画像データを取得する撮像装置をさらに備えていてもよい。
 [項目27]
 第26の項目に係る物体認識装置において、前記2次元画像データは、前記物体が前記撮像装置の撮像領域における所定の範囲以上を占めた状態で撮像されることによって取得されてもよい。
 [項目28]
 第27の項目に係る物体認識装置は、前記撮像装置によって前記2次元画像データが取得される前に、前記撮像装置によって撮像される画像の中で前記物体が位置すべきエリアまたは前記物体が占めるべき範囲をユーザに知らせるための補助表示を表示するディスプレイをさらに備えていてもよい。
 [項目29]
 第26の項目に係る物体認識装置において、前記撮像装置は、イメージセンサと、前記イメージセンサに入射する光の光路に配置されたフィルタアレイであって、前記光路に交差する面に沿って2次元的に配列された透光性の複数のフィルタを含み、前記複数のフィルタは、光透過率の波長依存性が互いに異なる2つ以上のフィルタを含み、前記2つ以上のフィルタの各々の光透過率は、複数の波長域において極大値を有する、フィルタアレイと、を含んでいてもよい。
 [項目30]
 第29の項目に係る物体認識装置において、前記複数のフィルタは、周期的に配置される複数の部分集合を含んでいてもよい。
 以下で説明する実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
 本開示において、回路、ユニット、装置、部材又は部の全部又は一部、又はブロック図の機能ブロックの全部又は一部は、半導体装置、半導体集積回路(IC)、又はLSI(large scale integration)を含む一つ又は複数の電子回路によって実行されてもよい。LSI又はICは、一つのチップに集積されてもよいし、複数のチップを組み合わせて構成されてもよい。例えば、記憶素子以外の機能ブロックは、一つのチップに集積されてもよい。ここでは、LSIまたはICと呼んでいるが、集積の度合いによって呼び方が変わり、システムLSI、VLSI(very large scale integration)、若しくはULSI(ultra large scale integration)と呼ばれるものであってもよい。LSIの製造後にプログラムされる、Field Programmable Gate Array(FPGA)、又はLSI内部の接合関係の再構成又はLSI内部の回路区画のセットアップができるreconfigurable logic deviceも同じ目的で使うことができる。
 さらに、回路、ユニット、装置、部材又は部の全部又は一部の機能又は操作は、ソフトウエア処理によって実行することが可能である。この場合、ソフトウエアは一つ又は複数のROM、光学ディスク、ハードディスクドライブなどの非一時的記録媒体に記録され、ソフトウエアが処理装置(processor)によって実行されたときに、そのソフトウエアで特定された機能が処理装置(processor)および周辺装置によって実行される。システム又は装置は、ソフトウエアが記録されている一つ又は複数の非一時的記録媒体、処理装置(processor)、及び必要とされるハードウエアデバイス、例えばインターフェース、を備えていても良い。
 以下、本開示の実施形態を、図面を参照しながら説明する。
 (実施形態1)
 図1は、本開示の例示的な実施形態1における物体認識装置300の例を模式的に示す図である。図1は、一例として、キノコが撮影される状況を示している。撮影される物体70は、どのような物でもよい。実施形態1における物体認識装置300は、撮像装置150と、信号処理回路200と、ディスプレイ400と、メモリ500とを備える。撮像装置150は、光学系40と、フィルタアレイ100Cと、イメージセンサ60とを備える。物体認識装置300は、例えばスマートフォンまたはタブレットコンピュータなどのコンピュータであり得る。これらのコンピュータに搭載されたカメラが撮像装置150として機能してもよい。
 フィルタアレイ100Cは、イメージセンサ60に入射する光の光路に配置されている。本実施形態では、フィルタアレイ100Cは、イメージセンサ60に対向する位置に配置されている。フィルタアレイ100Cは、他の位置に配置されていてもよい。物体70からの光の像は、フィルタアレイ100Cによって符号化される。ここで「符号化」とは、フィルタアレイ100Cに入射する光を、その光の波長および位置に依存する減衰率で減衰させることにより、像を変調させることを意味する。このようにして変調された像に基づいて生成された画像データを、「符号化された画像データ」と称する。フィルタアレイ100Cの構成および符号化の詳細については、後述する。
 イメージセンサ60は、撮像面に2次元に配列された複数の画素である複数の光検出セルを有するモノクロタイプの撮像素子であり得る。イメージセンサ60は、例えばCCD(Charge-Coupled Device)センサ、CMOS(Complementary Metal Oxide Semiconductor)センサ、赤外線アレイセンサ、テラヘルツアレイセンサ、またはミリ波アレイセンサであり得る。光検出セルは、例えばフォトダイオードを含む。イメージセンサ60は、必ずしもモノクロタイプの撮像素子である必要はない。例えば、R/G/B、R/G/B/IR、またはR/G/B/Wのフィルタを有するカラータイプの撮像素子を用いてもよい。イメージセンサ60は、可視の波長範囲に限らず、X線、紫外、近赤外、中赤外、遠赤外、マイクロ波・電波の波長範囲に検出感度を有していてもよい。
 イメージセンサ60は、フィルタアレイ100Cを通過した光の光路に配置されている。イメージセンサ60は、フィルタアレイ100Cを通過した光を受けて画像信号を生成する。イメージセンサ60における各光検出セルは、受けた光の量に応じた光電変換信号を出力する。複数の光検出セルから出力された複数の光電変換信号により、画像信号が生成される。図1は、当該画像信号、すなわち符号化された画像データによって構成される撮像画像120の例を模式的に示している。
 光学系40は、少なくとも1つのレンズを含む。図1に示す例では、光学系40は1つのレンズとして描かれているが、複数のレンズの組み合わせによって構成されていてもよい。光学系40は、後述するようにズーム機能を有していてもよい。光学系40は、物体70からの光の像を、フィルタアレイ100C上に結像させる。
 信号処理回路200は、イメージセンサ60から出力された画像信号を処理する回路である。信号処理回路200は、例えば中央演算処理装置(CPU)および画像処理用演算プロセッサ(GPU)とコンピュータプログラムとの組み合わせによって実現され得る。そのようなコンピュータプログラムは、例えばメモリなどの記録媒体に格納され、CPUまたはGPUなどのプロセッサがそのプログラムを実行することにより、後述する認識処理を実行できる。信号処理回路200は、デジタルシグナルプロセッサ(DSP)、またはフィールドプログラマブルゲートアレイ(FPGA)等のプログラマブルロジックデバイス(PLD)であってもよい。信号処理回路200は、インターネットなどのネットワークを介して撮像装置150またはスマートフォン等の機器に接続されたサーバコンピュータが有していてもよい。
 信号処理回路200は、符号化された画像データから、物体70を認識する。物体70の認識には、例えば公知の機械学習アルゴリズムによって学習されたモデルが用いられ得る。物体認識方法の詳細については、後述する。
 ディスプレイ400は、認識した物体70に関連付けられた情報を表示する。ディスプレイ400は、例えば、スマートフォンまたはタブレットコンピュータのディスプレイであり得る。ディスプレイ400は、パーソナルコンピュータなどに接続されたディスプレイ、またはラップトップコンピュータに内蔵されたディスプレイであってもよい。
 次に、フィルタアレイ100Cの構成および符号化の詳細を説明する。
 図2Aは、フィルタアレイ100Cの例を模式的に示す図である。フィルタアレイ100Cは、2次元に配列された複数の領域を有する。本明細書では、当該領域を、「セル」と称することがある。各領域には、個別に設定された分光透過率を有するフィルタが配置されている。ここで、「分光透過率」とは、波長依存性を有する光透過率を意味する。分光透過率は、入射光の波長をλとして、関数T(λ)で表される。分光透過率T(λ)は、0以上1以下の値を取り得る。このように、フィルタアレイ100Cは、光路に交差する面に沿って2次元に配列された複数のフィルタを含む。
 図2Aに示す例では、フィルタアレイ100Cは、6行8列に配列された48個の矩形領域を有している。実際の用途では、これよりも多くの領域が設けられ得る。その数は、例えばイメージセンサなどの一般的な撮像素子の画素数と同程度であり得る。当該画素数は、例えば数十万から数千万である。ある例では、フィルタアレイ100Cは、撮像素子の直上に配置され、各領域が撮像素子の1つの画素に対応するように配置され得る。各領域は、例えば、撮像素子の1つまたは複数の画素に対向する。
 図2Bは、対象波長域に含まれる複数の波長域W1、W2、・・・、Wiのそれぞれの光の透過率の空間分布の一例を示す図である。図2Bに示す例では、各領域の濃淡の違いは、透過率の違いを表している。淡い領域ほど透過率が高く、濃い領域ほど透過率が低い。図2Bに示すように、波長域によって光透過率の空間分布が異なっている。
 図2Cおよび図2Dは、それぞれ、図2Aに示すフィルタアレイ100Cの複数の領域に含まれる領域A1および領域A2の分光透過率の例を示す図である。領域A1の分光透過率と領域A2の分光透過率とは、互いに異なっている。このように、フィルタアレイ100Cの分光透過率は、領域によって異なる。ただし、必ずしもすべての領域の分光透過率が異なっている必要はない。フィルタアレイ100Cにおける複数の領域の少なくとも2つの領域の分光透過率は、互いに異なる。すなわち、フィルタアレイ100Cは、分光透過率が互いに異なる2つ以上のフィルタを含む。当該2つ以上のフィルタの各々の分光透過率は、複数の波長域において極大値を有し、他の複数の波長域において極小値を有する。
 ここで本開示における「極大値」および「極小値」の意義を説明する。着目するフィルタの分光透過率の最大値が1、最小値が0になるように正規化されたとき、0.5を超え、且つ隣接する極小値との差が0.2以上であるものを、本開示における「極大値」であると定義する。同様に、上記の正規化を行ったとき、0.5未満、且つ隣接する極大値との差が0.2以上であるものを、本開示における「極小値」であると定義する。フィルタアレイ100Cにおける複数のフィルタのすべての分光透過率が互いに異なっていてもよい。この場合、各フィルタの分光透過率は、複数の波長域において極大値を有し、他の複数の波長域において極小値を有し得る。ある例では、フィルタアレイ100Cに含まれる複数のフィルタの分光透過率のパターンの数は、対象波長域に含まれる波長域の数iと同じか、それ以上であり得る。典型的には、フィルタアレイ100Cは、半数以上のフィルタの分光透過率が異なるように設計され得る。
 フィルタアレイ100Cは、入射光を領域ごとに、波長に関して離散的な複数の強度のピークを有する光に変調し、これらの多波長の光を重畳して出力する。これにより、フィルタアレイ100Cを通過した光の像は、符号化される。
 各領域の分光透過率の波長方向の分解能は、所望の波長域の帯域幅程度に設定され得る。言い換えれば、分光透過率の曲線において1つの極大値を含む波長範囲のうち、当該極大値に最も近接する極小値と当該極大値との平均値以上の値をとる範囲の幅は、所望の波長域の帯域幅程度に設定され得る。この場合、分光透過率を、例えばフーリエ変換によって周波数成分に分解すれば、その波長域に相当する周波数成分の値が相対的に大きくなる。
 フィルタアレイ100Cは、典型的には、図2Aに示すように、格子状に区分けされた複数の領域に相当する複数のセルに分割される。これらのセルが、互いに異なる分光透過率を有する。フィルタアレイ100Cの各領域の光透過率の波長分布および空間分布は、例えばランダム分布または準ランダム分布であり得る。
 ランダム分布および準ランダム分布の考え方は次の通りである。まず、フィルタアレイ100Cにおける各領域は、光透過率に応じて、例えば0から1の値を有するベクトル要素と考えることができる。ここで、透過率が0の場合、ベクトル要素の値は0であり、透過率が1の場合、ベクトル要素の値は1である。言い換えると、行方向または列方向に一列に並んだ領域の集合を0から1の値を有する多次元のベクトルと考えることができる。したがって、フィルタアレイ100Cは、多次元ベクトルを列方向または行方向に複数備えていると言える。このとき、ランダム分布とは、任意の2つの多次元ベクトルが独立である、すなわち平行でないことを意味する。また、準ランダム分布とは、一部の多次元ベクトル間で独立でない構成が含まれることを意味する。したがって、ランダム分布および準ランダム分布においては、複数の領域に含まれる1つの行または列に並んだ領域の集合に属する各領域での第1の波長域の光の透過率の値を要素とするベクトルと、他の行または列に並んだ領域の集合に属する各領域における第1の波長域の光の透過率の値を要素とするベクトルとは、互いに独立である。第1の波長域とは異なる第2の波長域についても同様に、複数の領域に含まれる1つの行または列に並んだ領域の集合に属する各領域における第2の波長域の光の透過率の値を要素とするベクトルと、他の行または列に並んだ領域の集合に属する各領域における第2の波長域の光の透過率の値を要素とするベクトルとは、互いに独立である。
 フィルタアレイ100Cをイメージセンサ60の近傍あるいは直上に配置する場合、フィルタアレイ100Cにおける複数の領域の相互の間隔であるセルピッチは、イメージセンサ60の画素ピッチと略一致させてもよい。このようにすれば、フィルタアレイ100Cから出射した符号化された光の像の解像度が、画素の解像度と略一致する。フィルタアレイ100Cをイメージセンサ60から離して配置する場合には、その距離に応じてセルピッチを細かくしてもよい。
 図2Aから図2Dに示す例では、各領域の透過率が0以上1以下の任意の値をとり得るグレースケールの透過率分布を想定した。しかし、必ずしもグレースケールの透過率分布にする必要はない。例えば、各領域の透過率が略0または略1のいずれかの値を取り得るバイナリ-スケールの透過率分布を採用してもよい。バイナリ-スケールの透過率分布では、各領域は、対象波長域に含まれる複数の波長域のうちの少なくとも2つの波長域の光の大部分を透過させ、残りの波長域の光の大部分を透過させない。ここで「大部分」とは、概ね80%以上を指す。
 全セルのうちの一部、例えば半分のセルを、透明領域に置き換えてもよい。そのような透明領域は、対象波長域に含まれるすべての波長域W1から波長域Wiの光を同程度の高い透過率で透過させる。当該高い透過率は、例えば0.8以上である。そのような構成では、複数の透明領域は、例えば市松状に配置され得る。すなわち、フィルタアレイ100Cにおける複数の領域の2つの配列方向において、光透過率が波長によって異なる領域と、透明領域とが交互に配列され得る。図2Aに示す例では、2つの配列方向は、横方向および縦方向である。市松状に配置された透明領域を透過する成分を抽出することにより、1つのカメラでモノクロ画像を同時に取得することができる。
 フィルタアレイ100Cは、多層膜、有機材料、回折格子構造、金属を含む微細構造からなる群から選択される少なくとも1つから構成され得る。多層膜の場合は、例えば、誘電多層膜または金属膜を含む多層膜が用いられる。このとき、各セルにおいて、多層膜の厚さ、材料、および積層順序の少なくとも1つは、異なるように設計され得る。これにより、各セルにおいて、異なる分光特性を実現することができる。また、多層膜により、シャープな立ち上がりまたは立ち下がりを有する分光特性を実現することができる。有機材料を用いる場合は、各セルにおいて、異なる顔料または染料により、または異種材料の積層により、異なる分光特性を実現することができる。回折格子構造の場合は、各セルにおいて、異なる回折ピッチまたは深さの回折構造を設けることにより、異なる分光特性を実現することができる。金属を含む微細構造の場合は、プラズモン効果による分光により、異なる分光特性を実現することができる。
 フィルタアレイ100Cは、イメージセンサ60の近傍または直上に配置されている。ここで「近傍」とは、光学系40からの光の像がある程度鮮明な状態でフィルタアレイ100Cの面上に形成される程度に近接していることを意味する。「直上」とは、ほとんど隙間が生じない程両者が近接していることを意味する。フィルタアレイ100Cおよびイメージセンサ60は一体化されていてもよい。フィルタアレイ100Cは、光透過率の空間分布を有するマスクである。フィルタアレイ100Cは、入射した光の強度を変調させて通過させる。
 図3Aおよび図3Bは、フィルタアレイ100Cの2次元分布の例を模式的に示す図である。
 図3Aに示すように、フィルタアレイ100Cは、2値マスクによって構成されてもよい。黒部は遮光を表し、白部は透過を表す。白部を通過する光は100%透過し、黒部を通過する光は100%遮光される。マスクの透過率の2次元分布は、ランダム分布または準ランダム分布であり得る。マスクの透過率の2次元分布は、必ずしも完全なランダムである必要はない。フィルタアレイ100Cによる符号化は、各波長の画像それぞれを区別するために行われるからである。また、黒部と白部との比率は1:1である必要はない。例えば、白部:黒部=1:9であってもよい。図3Bに示すように、フィルタアレイ100Cは、グレースケールの透過率分布を有するマスクであってもよい。
 図3Aおよび図3Bに示すように、フィルタアレイ100Cは、波長域W1、W2、・・・、Wiごとに異なる透過率の空間分布を有する。波長域それぞれの透過率の空間分布は、平行移動させたとしても一致しない。
 イメージセンサ60は、2次元の画素を有するモノクロタイプの撮像素子であり得る。しかし、イメージセンサ60は、必ずしもモノクロタイプの撮像素子によって構成される必要はない。イメージセンサ60には、例えば、R/G/B、R/G/B/IR、R/G/B/Wのフィルタを有するカラータイプの撮像素子を用いてもよい。カラータイプの撮像素子により、波長に関する情報量を増やすことができる。これにより、フィルタアレイ100Cの特性を補完することが可能であり、フィルタ設計が容易になる。
 次に、本実施形態の物体認識装置300によって撮像画像120を示す画像データを取得する過程を説明する。物体70からの光の像は、光学系40によって結像され、イメージセンサ60の直前に設置されたフィルタアレイ100Cによって符号化される。その結果、波長域ごとに異なる符号化情報を有する像が、互いに重なり合って、多重像としてイメージセンサ60上に結像される。これにより、撮像画像120が得られる。このとき、プリズムなどの分光素子を使用しないため、像の空間的なシフトは発生しない。これにより、多重像であっても高い空間解像度を維持することができる。その結果、物体認識の精度を高めることが可能になる。
 物体認識装置300の一部に帯域通過フィルタを設置することにより、波長域を限定してもよい。物体70の波長範囲がある程度既知の場合、波長域を限定することにより、識別範囲も限定することができる。その結果、物体の高い認識精度を実現することができる。
 次に、本実施形態における物体認識装置300を用いた物体認識方法を説明する。
 図4Aは、本実施形態における物体認識装置300を用いた物体認識方法の例を示すフローチャートである。この物体認識方法は、信号処理回路200によって実行される。信号処理回路200は、メモリ500に格納されたコンピュータプログラムを実行することにより、図4Aに示すステップS101からS104の処理を実行する。
 まず、ユーザは、物体70を、物体認識装置300が備える撮像装置150によって撮像する。これにより、符号化された撮像画像120が得られる。
 ステップS101において、信号処理回路200は、撮像装置150によって生成された画像データを取得する。当該画像データは、符号化された撮像画像120を示す。
 ステップS102において、信号処理回路200は、取得した画像データの前処理を行う。前処理は、認識精度を高めるために行われる。前処理は、例えば、領域抽出、ノイズ除去のための平滑化処理、および特徴抽出などの処理を含み得る。前処理は、不要であれば省略されてもよい。
 ステップS103において、信号処理回路200は、学習済みの分類モデルを画像データに適用して、前処理された画像データが示すシーンに含まれる物体70を特定する。分類モデルは、例えば公知の機械学習アルゴリズムによって予め学習されている。分類モデルの詳細については、後述する。
 ステップS104において、信号処理回路200は、物体70に関連付けられた情報を出力する。信号処理回路200は、例えば、物体70の名称および/または詳細情報などの情報を、ディスプレイ400に出力する。ディスプレイ400は、当該情報を示す画像を表示する。当該情報は、画像に限らず、例えば音声によって提示されてもよい。
 次に、物体認識方法に用いられる分類モデルを説明する。
 図4Bは、分類モデルの生成処理の例を示すフローチャートである。
 ステップS201において、信号処理回路200は、複数の訓練データセットを収集する。複数の訓練データセットの各々は、学習用画像データと、ラベルデータとを含む。ラベルデータは、学習用画像データが示すシーンに含まれる物体70を識別する情報である。学習用画像データは、前述の画像データと同様の方法で符号化された画像データである。複数の訓練データセットに含まれる複数の学習用画像データは、本実施形態における撮像装置150、または他の撮像装置によって生成された学習用画像データを含み得る。複数の訓練データセットの詳細については後述する。
 ステップS202において、信号処理回路200は、各訓練データに含まれる学習用画像データについて、前処理を行う。前処理については、前述した通りである。
 ステップS203において、信号処理回路200は、複数の訓練データセットから、機械学習によって分類モデルを生成する。機械学習には、例えば、ディープラーニング、サポートベクターマシン、決定木、遺伝的プログラミング、またはベイジアンネットワークなどのアルゴリズムが用いられ得る。ディープラーニングが利用される場合、例えば畳み込みニューラルネットワーク(CNN)またはリカレントニューラルネットワーク(RNN)などのアルゴリズムが用いられ得る。
 本実施形態では、機械学習によって訓練されたモデルを利用することにより、符号化画像データから、直接的にシーン内の物体に関する情報を得ることができる。同様のことを従来技術で行うためには、多くの演算が必要であった。例えば、符号化画像データから、圧縮センシングなどの方法で各波長域の画像データを再構築し、それらの画像データから、物体を特定する必要があった。これに対し、本実施形態では、符号化画像データから各波長域の画像データを再構築する必要がない。したがって、当該再構成の処理に費やされる時間または計算リソースを節約することができる。
 図4Cは、本実施形態における複数の訓練データセットの例を模式的に示す図である。図4Cに示す例では、各訓練データセットは、1つ以上のキノコを示す符号化画像データと、そのキノコが食用キノコか毒キノコかを示すラベルデータとを含む。このように、各訓練データセットについて、符号化画像データと、正解ラベルを示すラベルデータとが、1:1で対応している。正解ラベルは、例えば、物体70の名称、特性、「おいしい」もしくは「まずい」などの官能評価、または「良い」もしくは「悪い」などの判定を示す情報であり得る。一般に、複数の訓練データセットは多いほど、学習の精度を高めることができる。ここで、複数の訓練データセットに含まれる複数の学習用画像データにおける物体70の画像内での位置は、学習用画像データによって異なっていてもよい。符号化情報は、画素ごとに異なる。したがって、画像内での物体70の位置が異なる学習用画像データが多いほど、分類モデルによる物体認識の精度を高めることができる。
 本実施形態における物体認識装置300では、分類モデルは、ユーザが利用する前に、信号処理回路200に組み込まれている。他の方法としては、撮像画像120を示す符号化画像データを、ネットワークまたはクラウド経由で、別途外部に準備された分類システムに送信してもよい。当該分類システムでは、例えばスーパーコンピュータによる高速処理が可能である。これにより、ユーザ側の端末の処理速度が脆弱であっても、ネットワークにさえ接続可能であれば、物体70の認識結果を、高速にユーザに提供することができる。
 図4AにおけるステップS101で取得される画像データと、図4BにおけるステップS201で取得される学習用画像データは、例えば同等の特性を有するフィルタアレイによって符号化され得る。その場合、物体70の認識精度を高くすることができる。ここで、同等の特性を有するフィルタアレイは、厳密に同じ特性を有している必要はなく、一部のフィルタにおいて分光透過特性が異なっていてもよい。例えば、全体の数%から数十%程度のフィルタの特性が異なっていてもよい。学習用画像データを他の撮像装置によって生成する場合、当該他の撮像装置は、撮像装置150に含まれるフィルタアレイ100Cと同等の特性を有するフィルタアレイを備え得る。
 物体70の認識結果を、分類モデルにフィードバックしてもよい。それにより、分類モデルをさらに訓練することができる。
 図4Dは、物体70の認識結果を分類モデルにフィードバックする例を模式的に示す図である。図4Dに示す例では、前処理が行われた符号化画像データに、学習された分類モデルを適用して、分類結果が出力される。すると、その結果がデータセットに追加され、そのデータセットを用いてさらに機械学習が行われる。これにより、モデルがさらに訓練され、予測精度を向上させることができる。
 図4Eは、認識結果を分類モデルにフィードバックする場合の動作をより詳細に示すフローチャートである。
 図4Eに示すステップS301からステップS304は、それぞれ図4Aに示すステップS101からステップS104と同じである。その後、ステップS305からS307が実行される。
 ステップS305では、信号処理回路200は、ステップS301において取得した画像データと、ステップS303において認識した物体70を示すラベルデータとを含む新たな訓練データセットを生成する。
 ステップS306では、信号処理回路200は、新たな複数の訓練データセットによって、分類モデルをさらに学習させる。この学習処理は、図4Bに示すステップS202およびステップS203に示される学習処理と同様である。
 ステップS307では、信号処理回路200は、物体70の認識を続けるかどうかを判定する。判定がYesの場合、信号処理回路200は、再びステップS301の処理を実行する。判定がNoの場合、信号処理回路200は、物体70の認識を終了する。
 このように、物体70の認識結果を分類モデルにフィードバックすることにより、分類モデルの認識精度を向上させることができる。さらに、ユーザに適した分類モデルの作成も可能になる。
 分類システムが別途提供されている場合、ユーザは、物体70の認識結果を含むデータセットを、フィードバックのために、ネットワーク経由で分類システムに送信してもよい。当該データセットは、撮像によって生成された撮像画像120を示すデータ、またはそれを前処理したデータと、分類モデルによる認識結果またはユーザの知見に基づく正解ラベルを示すラベルデータとを含み得る。フィードバックのために当該データセットを送信したユーザには、分類システムの提供者から、報酬またはポイントなどのインセンティブが与えられてもよい。ユーザが撮影した撮像画像120のアクセス許可、または自動送信の可否の認証が、送信前に、例えば画面ポップアップによってディスプレイ400に表示されてもよい。
 フィルタアレイ100Cは、1つの画素に1つの波長情報ではなく、1つの画素に複数の波長情報を多重化させることが可能である。撮像画像120は、多重化された2次元情報を含む。当該2次元情報は、空間および波長について、例えばランダムに符号化されたスペクトル情報である。フィルタアレイ100Cとして固定のパターンを使用した場合、機械学習によって符号化のパターンが学習される。これにより、2次元の入力データではあるものの、実質的に3次元(すなわち、位置2次元および波長1次元)の情報が物体認識に活用される。
 本実施形態における画像データは、波長情報が多重化されたデータであることから、従来の空間解像度を犠牲にするハイパースペクトル画像に比べて、1波長あたりの空間解像度を高めることが可能である。さらに、本実施形態における物体認識装置300は、シングルショットで1フレームの画像データを取得することが可能である。これにより、従来の解像度が高いスキャン方式のハイパースペクトル撮像方式に比べて、動いている物体、または手振れに強い物体認識が可能である。
 従来のハイパースペクトル画像の撮像では、1波長当たりの検出感度が低いという課題があった。例えば、40波長に分解する場合、分解しない場合と比較して、光量が1画素あたり40分の1に減少してしまう。これに対し、本実施形態における方法では、図3Aおよび図3Bに例示するように、入射光量のうちの例えば50%程度の光量が、イメージセンサ60によって検出される。これにより、従来のハイパースペクトル画像に比べて1画素当たりの検出光量が高くなる。その結果、画像のSN比が増加する。
 次に、本実施形態における物体認識方法を実装した撮像装置による他の機能の例を説明する。
 図5Aは、物体認識の推奨領域を表示してカメラによる撮像を補助する機能を模式的に示す図である。物体70がイメージセンサ60上に極端に小さく、または極端に大きく結像されると、結像された物体70の画像と、学習時に認識した訓練データセットの画像との間に差異が生じ、認識精度が低下する。フィルタアレイ100Cは、例えば画素ごとに含まれる波長情報が異なる。このため、物体70がイメージセンサ60の撮像領域の一部のみでしか検出されないと、波長情報に偏りが生じる。波長情報の偏りを防ぐために、物体70は、イメージセンサ60の撮像領域において、なるべく広く撮影され得る。また、物体70の像がイメージセンサ60の撮像領域からはみ出した状態で撮影されると、物体70の空間解像度の情報に欠落が生じる。したがって、物体認識の推奨領域は、イメージセンサ60の撮像領域よりもやや内側である。図5Aに示す例では、物体認識の推奨領域を示す補助表示400aが、ディスプレイ400に表示される。図5Aにおいて、ディスプレイ400の全領域が、イメージセンサ60の撮像領域に対応している。例えば、撮像領域の横幅または縦幅の60%から98%の領域が、物体認識の推奨領域としてディスプレイ400上に表示され得る。物体認識の推奨領域は、撮影領域の横幅または縦幅の70%から95%の領域、または80%から90%の領域であってもよい。このように、撮像装置150によって画像データが取得される前に、補助表示400aがディスプレイ400に表示されてもよい。補助表示400aは、撮像されるシーンの中で物体70が位置すべきエリアまたは物体70が占めるべき範囲をユーザに知らせる。同様に、複数の訓練データセットに含まれる複数の学習用画像データの各々は、物体70が画像内で所定の範囲以上を占めた状態で撮像されることによって取得され得る。
 図5Bは、ズーム機能を有する光学系によって物体70が拡大される様子を模式的に示す図である。図5Bの左部分に示す例では、拡大前の物体70がディスプレイ400に表示され、図5Bの右部分に示す例では、拡大後の物体70がディスプレイ400に表示されている。このように、ズーム機能を有する光学系40により、イメージセンサ60上に広く物体70を結像させることができる。
 図5Cは、フィルタアレイ100Cの変形例を模式的に示す図である。図5Cに示す例では、複数の領域(A1、A2、・・・)の集まりによって構成された領域群AAが、周期的に配置されている。当該複数の領域は、互いに異なる分光特性を有する。周期的とは、領域群AAが、分光特性を維持したまま、縦方向および/または横方向に2回以上繰り返されることを意味する。図5Cに示すフィルタアレイ100Cにより、波長情報の空間的な偏りを防ぐことができる。さらに、物体認識の学習において、図5Cに示すフィルタアレイ100Cの全体ではなく、周期構造の部分集合である領域群AAのみによって学習してもよい。これにより、学習時間の短縮を図ることができる。空間において同一の分光特性のフィルタを周期的に配置することにより、撮像領域の全体ではなく一部分に物体が撮像される場合であっても、物体認識が可能になる。
 フィルタアレイ100Cによって符号化された画像は、例えばランダムに多重化された波長情報を含み得る。このため、当該画像は、ユーザにとっては見づらい。そこで、物体認識装置300は、ユーザへの表示用に通常のカメラを別途備えてもよい。すなわち、物体認識装置300は、撮像装置150と、通常のカメラとの双眼構成を備えていてもよい。これにより、ユーザには、符号化されていない可視のモノクロ画像をディスプレイ400上に表示することができる。その結果、ユーザは、物体70とイメージセンサ60の撮像領域との位置関係を把握しやすくなる。
 物体認識装置300は、画像内の物体70の輪郭を抽出する機能を有していてもよい。輪郭を抽出することにより、物体70の周りの不要な背景を除去することができる。不要な背景が除去された画像データを、学習用画像データとして使用してもよい。その場合、認識精度をさらに高めることが可能になる。物体認識装置300は、輪郭の認識結果をディスプレイ400に表示し、ユーザが輪郭を微調整できる機能を有していてもよい。
 図6Aから図6Cは、本実施形態における物体認識装置300の適用例を模式的に示す図である。
 図6Aの部分(a)は、植物の種別の判別への適用例を示す。図6Aの部分(b)は、食品の名称の表示への適用例を示す。図6Aの部分(c)は、鉱物資源の分析への適用例を示す。図6Aの部分(d)は、昆虫の種類の特定への適用例を示す。その他にも、本実施形態における物体認識装置300は、例えば、顔認証などのセキュリティー認証・ロック解除、または人物検出などの用途に有効である。通常のモノクロ画像またはRGB画像の場合、人の目では一見すると物体を誤認識する可能性がある。これに対し、本実施形態のように多波長情報が加わることにより、物体の認識精度を高めることが可能になる。
 図6Bは、本実施形態における物体認識方法を実装したスマートフォンに、物体70の詳細な情報が表示される例を示している。この例では、物体認識装置300は、スマートフォンに搭載されている。スマートフォンを物体70にかざすだけで、物体70が何であるかを特定し、その結果に基づいてネットワーク経由で、データベースから物体70の名称およびその説明情報を収集して表示することができる。このように、スマートフォンなどの携帯情報機器を「画像検索百科事典」として活用することが可能である。「画像検索百科事典」には、完全な識別が難しい場合、複数の候補を、可能性が高い順に提示してもよい。このように、物体70の認識結果に基づいて、物体70の名称および説明情報を示すデータをデータベースから取得し、その名称および/または説明情報をディスプレイ400に表示してもよい。
 図6Cは、街中に存在する複数の物体が、スマートフォンによって認識される例を示している。当該スマートフォンには、物体認識装置300が搭載されている。物体70が製造ラインの検査物のように特定されている場合、検査装置は、物体70に応じた特定波長の情報のみを取得する。一方、街中での利用のように物体70のターゲットが特定されない状況下では、本実施形態における物体認識装置300のように多波長情報を取得することが有効である。物体認識装置300は、使用例に応じてスマートフォンのディスプレイ400側に配置してもよいし、ディスプレイ400の反対側の面に配置してもよい。
 その他にも、本実施形態における物体認識方法は、地図アプリ、自動運転、またはカーナビゲーションなどの、人工知能(AI)による認識が行われ得る幅広い分野に応用することが可能である。前述のように、物体認識装置は、例えばスマートフォン、タブレット、またはヘッドマウントディスプレイ装置などのポータブル機器にも搭載され得る。カメラによって撮影可能であれば、人、顔、または動物などの生体も物体70になり得る。
 信号処理回路200に入力される画像データが示す撮像画像120は、多重符号化画像である。このため、撮像画像120は、一見何が写っているか判別が困難である。しかし、撮像画像120には、物体70の特徴を示す情報である特徴情報が含まれている。したがって、AIは、撮像画像120から直接物体70を認識することができる。これにより、比較的多くの時間を費やす画像の再構成の演算処理も不要である。
 (実施形態2)
 実施形態2による物体認識装置300は、自動運転のためのセンシングデバイスに適用される。以下、実施形態1と同様の内容についての詳細な説明は省略し、実施形態1と異なる点を中心に説明する。
 図7は、本実施形態における物体認識装置300を用いた車両制御の例を模式的に示す図である。車両に搭載された物体認識装置300により、車両外の環境をセンシングして、物体認識装置300の視野内に入る車両周辺の1つ以上の物体70を認識することができる。車両周辺の物体70には、例えば、対向車、並行車、駐車車両、歩行者、自転車、道、車線、白線、歩道、縁石、溝、標識、信号、電柱、店舗、植木、障害物、または落下物が含まれ得る。
 物体認識装置300は、実施形態1におけるものと同様の撮像装置を備える。撮像装置は、所定のフレームレートで、動画像の画像データを生成する。当該画像データは、車両周辺の物体70からの光がフィルタアレイ100Cを通過して多重符号化された撮像画像120を示す。信号処理回路200は、当該画像データを取得し、当該画像データから視野内の1つ以上の物体70を抽出し、抽出した物体70の各々が何であるかを推定し、各物体70をラベル化する。物体70の認識結果に基づいて、信号処理回路200は、例えば、周囲環境を理解し、危険を判断し、または目標走行の軌跡420を表示することができる。周囲環境、危険情報、および目標走行の軌跡420などのデータは、車体のステアリングまたはトランスミッションなどの車載機器の制御に用いられ得る。これにより、自動走行が可能になり得る。物体認識ラベル、または進行経路などの認識結果は、運転手が把握できるように、図7に示すように、車両内に設置されたディスプレイ400に表示されてもよい。このように、本実施形態における車両制御方法は、撮像装置150が取り付けられた車両の動作を、物体70の認識結果に基づいて制御することを含む。
 従来のRGBまたはモノクロ画像を用いた物体認識では、写真と実物との区別が難しい。このため、例えば看板またはポスターの写真と、実物とを誤認識する場合があった。しかし、物体認識装置300では、多波長情報を利用することにより、看板の塗料と、実物の車とのスペクトル分布の差異を考慮することができる。これにより、認識精度を向上させることが可能である。さらに、物体認識装置300では、多波長情報が重畳された2次元データが取得される。これにより、従来の3次元のハイパースペクトルデータに比べ、データ量が小さい。その結果、データの読み込みおよび転送に要する時間、および機械学習の処理時間を短縮することができる。
 また、写真と実物との誤認識以外にも、カメラ画像では物体が偶発的に別のものに見えてしまう場合がある。図7に示す例では、街路樹が、その成長度合い、または見る角度によっては人の形状に見えてしまう。このため、形状に基づく従来の物体認識では、図7に示す街路樹が、人として誤認識されてしまうことがあった。この場合、自動運転の環境下では、人が飛び出したと誤認識することにより、車体の減速、または急ブレーキが指示され得る。その結果、事故が誘発されかねない。例えば高速道路では、誤認識によって車体が突然停止することは、あってはならない。このような環境下においても、物体認識装置300は、多波長情報を活用することにより、従来の物体認識に比べて認識精度を高めることが可能である。
 物体認識装置300は、ミリ波レーダー、レーザーレンジファインダー(Lidar)、またはGPSなどの各種センサと組み合わせて使用され得る。これにより、認識精度をさらに向上させることができる。例えば、予め記録された道路地図の情報に連動させることにより、目標走行の軌跡の生成精度を向上させることができる。
 (実施形態3)
 実施形態3では、本実施形態1とは異なり、フィルタアレイ100Cの代わりに、発光波長域の異なる複数の光源を用いることにより、符号化された画像データが取得される。以下、実施形態1と同様の内容についての詳細な説明を省略し、実施形態1とは異なる点を中心に説明する。
 図8は、本実施形態における物体認識装置300の例を模式的に示す図である。本実施形態における物体認識装置300は、撮像装置150と、信号処理回路200と、ディスプレイ400と、メモリ500とを備える。撮像装置150は、光学系40と、イメージセンサ60と、光源アレイ100Lと、制御回路250とを備える。
 光源アレイ100Lは、各々が異なる波長域の光を発する複数の光源を含む。制御回路250は、イメージセンサ60、および光源アレイ100Lに含まれる複数の光源を制御する。制御回路250は、複数の光源の一部または全部を発光させた状態でイメージセンサ60に撮像させる動作を、発光させる光源の組み合わせを変えながら、複数回に亘って繰り返す。これにより、光源アレイ100Lから、撮像ごとに、互いに異なる分光特性の光が出射される。発光させる光源の組み合わせには、まったく同じ組み合せは含まれない。ただし、複数の組み合わせのうち、2つ以上の組み合わせにおいて、一部の光源が重複していてもよい。したがって、撮影時間T1、T2、T3、・・・、Tmの各撮影においてそれぞれ得られる撮像画像120G1、120G2、120G3、・・・、120Gmは、異なる強度分布を有する。本実施形態では、信号処理回路200に入力される画像データは、撮像装置150におけるイメージセンサ60によって複数回の撮像ごとに生成された画像信号の集合である。
 制御回路250は、各光源を点灯または消灯の2値に変化させるだけでなく、各光源の光量を調整してもよい。そのような調整を行った場合も、異なる波長情報を有する複数の画像信号を得ることができる。各光源は、例えば、LED、LD、レーザ、蛍光灯、水銀灯、ハロゲンランプ、メタルハライドランプ、またはキセノンランプであり得るが、それらに限定されない。また、テラヘルツオーダーの波長域の光を出射させる場合、光源は、フェムト秒レーザなどの超高速ファイバレーザが使用され得る。
 信号処理回路200は、画像データに含まれる撮像画像120G1、120G2、120G3、・・・、120Gmのすべて、またはそれらのうちのいずれかを用いて物体70の学習および分類を行う。
 制御回路250は、空間的に一様な照度分布の光に限らず、例えば空間的にランダムな強度分布の光を光源アレイ100Lに出射させてもよい。複数の光源から出射される光は、波長ごとに異なる2次元の照度分布を有していてもよい。図8に示すように、光源アレイ100Lから物体70に向けて出射され、光学系40を通過した光の像は、イメージセンサ60上に結像される。この場合、イメージセンサ60の画素ごとに、または複数画素ごとに入射する光は、図2に示す例と同様に、異なる複数の分光ピークを含むスペクトル特性を有する。これにより、本実施形態1と同様に、シングルショットでの物体認識が可能になる。
 実施形態1と同様に、複数の訓練データセットに含まれる複数の学習用画像データは、撮像装置150、または他の撮像装置によって生成された学習用画像データを含む。学習用画像データを他の撮像装置によって生成するときは、当該他の撮像装置は、撮像装置150に含まれる光源アレイ100Lと同等の特性を有する光源アレイを備え得る。認識対象の画像データと、各学習用画像データとが、同等の特性を有する光源アレイによって符号化されている場合、高い物体70の認識精度が得られる。
 本開示における物体認識方法は、各画素に複数の波長情報が多重化された画像データを取得することと、機械学習アルゴリズムによって学習された分類モデルを、複数の波長情報が多重化された画像データに適用することにより、画像データが示すシーンに含まれる物体を認識することと、を含む。また、本開示における物体認識方法は、複数の波長情報が多重化された画像データを用いて分類モデル学習強化することを含む。各画素に複数の波長情報が多重化された画像データを得る手段は、前述の実施形態に記載された撮像装置に限定されない。
 本開示は、信号処理回路200が実行する動作を規定するプログラムおよび方法も含む。
 本開示における物体認識装置は、測定の際に対象物を高精度に識別する測定機器に利用され得る。物体認識装置は、例えば、植物・食品・生物の種別識別、道案内・ナビゲーション、鉱物探査、生体・医療・美容向けセンシング、食品の異物・残留農薬検査システム、リモートセンシングシステム、および自動運転などの車載センシングシステムにも応用できる。
  40    光学系
  60    イメージセンサ
  70    物体
  100C  フィルタアレイ
  100L  光源アレイ
  120   撮像画像
  200   信号処理回路
  250   制御回路
  300   物体認識装置
  400   ディスプレイ
  400a  補助表示
  420   目標走行の軌跡
  500   メモリ

Claims (30)

  1.  物体の特徴を示す特徴情報を含む画像の画像データを取得することと、
     前記特徴情報に基づき、前記画像に含まれる前記物体を認識することと、
    を含み、
     前記画像データは、
      イメージセンサと、
      前記イメージセンサに入射する光の光路に配置されたフィルタアレイであって、前記光路に交差する面に沿って2次元的に配列された透光性の複数のフィルタを含み、前記複数のフィルタは、光透過率の波長依存性が互いに異なる2つ以上のフィルタを含み、前記2つ以上のフィルタの各々の光透過率は、複数の波長域において極大値を有する、フィルタアレイと、
     を備える第1の撮像装置によって前記画像を撮像することにより取得される、
    物体認識方法。
  2.  前記物体を認識することは、機械学習アルゴリズムによって学習された分類モデルを前記画像データに適用することにより行われ、
     前記分類モデルは、各々が、学習用画像データと、前記学習用画像データが示す学習用画像に含まれる前記物体を識別するラベルデータとを含む複数の第1の訓練データセットによって予め学習されている、
    請求項1に記載の物体認識方法。
  3.  前記複数の第1の訓練データセットに含まれる複数の学習用画像データは、前記第1の撮像装置とは異なる第2の撮像装置によって生成された学習用画像データを含む、
    請求項2に記載の物体認識方法。
  4.  前記第2の撮像装置は、前記第1の撮像装置における前記フィルタアレイと同等の特性を有するフィルタアレイを備える、
    請求項3に記載の物体認識方法。
  5.  前記物体が認識された後、前記画像データと、前記物体を識別する第2のラベルデータとを含む第2の訓練データセットによって、前記分類モデルがさらに学習されることをさらに含む、
    請求項2から4のいずれかに記載の物体認識方法。
  6.  前記複数の第1の訓練データセットに含まれる複数の学習用画像データにおける前記物体の前記学習用画像内での位置は、前記複数の学習用画像データにおいて互いに異なる、
    請求項2から5のいずれかに記載の物体認識方法。
  7.  前記学習用画像データは、前記物体が前記学習用画像内で所定の範囲以上を占めた状態で撮像されることによって取得される、
    請求項2から6のいずれかに記載の物体認識方法。
  8.  前記画像データを取得することは、ディスプレイを含む撮像装置を用いて行われ、
     前記画像データが取得される前に、前記画像の中で前記物体が位置すべきエリアまたは前記物体が占めるべき範囲をユーザに知らせるための補助表示を前記ディスプレイに表示させることをさらに含む、
    請求項1から7のいずれかに記載の物体認識方法。
  9.  前記複数のフィルタは、光透過率の波長依存性が互いに異なり、
     前記複数のフィルタの各々の光透過率は、複数の波長域において極大値を有する、
    請求項1から8のいずれかに記載の物体認識方法。
  10.  請求項1から9のいずれかに記載の物体認識方法を用いた車両制御方法であって、
     前記第1の撮像装置は、車両に取り付けられ、
     前記物体を認識することの結果に基づいて、前記車両の動作を制御することを含む、
    車両制御方法。
  11.  請求項1から9のいずれかに記載の物体認識方法を用いた情報表示方法であって、
     前記物体を認識することの結果に基づいて、前記物体の名称および前記物体の説明からなる群から選択される少なくとも1つを示すデータをデータベースから取得することと、
     前記物体の名称および前記物体の説明からなる群から選択される前記少なくとも1つをディスプレイに表示することと、
    を含む、
    情報表示方法。
  12.  物体の特徴を示す特徴情報を含む画像の画像データを取得することと、
     前記特徴情報に基づき、前記画像に含まれる前記物体を認識することと、
    を含み、
     前記画像データは、
      イメージセンサと、
      互いに異なる波長域の光を発する複数の光源を含む光源アレイと、
     を備える第1の撮像装置によって、前記複数の光源の一部を発光させた状態で前記画像を撮像する動作を、前記複数の光源の前記一部に含まれる光源の組み合わせを変えながら、複数回に亘って繰り返すことにより取得される、
    物体認識方法。
  13.  前記物体を認識することは、機械学習アルゴリズムによって学習された分類モデルを前記画像データに適用することにより行われ、
     前記分類モデルは、各々が、学習用画像データと、前記学習用画像データが示す学習用画像に含まれる前記物体を識別するラベルデータとを含む複数の第1の訓練データセットによって予め学習されている、
    請求項12に記載の物体認識方法。
  14.  前記複数の第1の訓練データセットに含まれる複数の学習用画像データは、前記第1の撮像装置とは異なる第2の撮像装置によって生成された学習用画像データを含む、
    請求項13に記載の物体認識方法。
  15.  前記第2の撮像装置は、前記第1の撮像装置における前記光源アレイと同等の特性を有する光源アレイを備える、
    請求項14に記載の物体認識方法。
  16.  前記物体が認識された後、前記画像データと、前記物体を識別する第2のラベルデータとを含む第2の訓練データセットによって、前記分類モデルがさらに学習されることをさらに含む、
    請求項13から15のいずれかに記載の物体認識方法。
  17.  前記複数の第1の訓練データセットに含まれる複数の学習用画像データにおける前記物体の前記学習用画像内での位置は、前記複数の学習用画像データにおいて互いに異なる、
    請求項13から16のいずれかに記載の物体認識方法。
  18.  前記学習用画像データは、前記物体が前記学習用画像内で所定の範囲以上を占めた状態で撮像されることによって取得される、
    請求項13から17のいずれかに記載の物体認識方法。
  19.  前記画像データを取得することは、ディスプレイを含む撮像装置を用いて行われ、
     前記画像データが取得される前に、前記画像の中で前記物体が位置すべきエリアまたは前記物体が占めるべき範囲をユーザに知らせるための補助表示を前記ディスプレイに表示させることをさらに含む、
    請求項12から18のいずれかに記載の物体認識方法。
  20.  請求項12から19のいずれかに記載の物体認識方法を用いた車両制御方法であって、
     前記第1の撮像装置は、車両に取り付けられ、
     前記物体を認識することの結果に基づいて、前記車両の動作を制御することを含む、
    車両制御方法。
  21.  請求項12から19のいずれかに記載の物体認識方法を用いた情報表示方法であって、
     前記物体を認識することの結果に基づいて、前記物体の名称および前記物体の説明からなる群から選択される少なくとも1つを示すデータをデータベースから取得することと、
     前記物体の名称および前記物体の説明からなる群から選択される前記少なくとも1つをディスプレイに表示することと、
    を含む、
    情報表示方法。
  22.  物体の特徴を示す特徴情報を含む画像の画像データを生成するイメージセンサと、
     前記イメージセンサに入射する光の光路に配置されたフィルタアレイであって、前記光路に交差する面に沿って2次元的に配列された透光性の複数のフィルタを含み、前記複数のフィルタは、光透過率の波長依存性が互いに異なる2つ以上のフィルタを含み、前記2つ以上のフィルタの各々の光透過率は、複数の波長域において極大値を有する、フィルタアレイと、
     前記特徴情報に基づき、前記画像に含まれる前記物体を認識する信号処理回路と、
    を備える、
    物体認識装置。
  23.  物体を含む画像の画像信号を生成するイメージセンサと、
     互いに異なる波長域の光を発する複数の光源を含む光源アレイと、
     前記イメージセンサおよび前記複数の光源を制御する制御回路であって、前記複数の光源の一部を発光させた状態で前記イメージセンサに撮像させる動作を、前記複数の光源の前記一部に含まれる光源の組み合わせを変えながら、複数回に亘って繰り返す制御回路と、
     前記イメージセンサによって前記複数回の撮像ごとに生成された前記画像信号から構成される画像データに含まれる、前記物体の特徴を示す特徴情報に基づき、前記画像に含まれる前記物体を認識する信号処理回路と、
    を備える、
    物体認識装置。
  24.  メモリと、
     信号処理回路と、
    を備え、
     前記信号処理回路は、
     複数の画素を含む画像の2次元画像データであって、前記複数の画素の各々のデータに複数の波長域の情報が多重化され、且つ前記複数の画素の各々の輝度分布が符号化されたマルチ/ハイパースペクトル画像データである2次元画像データを受け付け、
     前記2次元画像データに含まれる特徴情報に基づき、前記2次元画像データが示すシーンに含まれる物体を認識する、
    物体認識装置。
  25.  前記特徴情報は、前記2次元画像データを基に前記複数の波長域の各々の画像を再構成することなく、前記2次元画像データから抽出される、
    請求項24に記載の物体認識装置。
  26.  前記2次元画像データを取得する撮像装置をさらに備える、
    請求項24に記載の物体認識装置。
  27.  前記2次元画像データは、前記物体が前記撮像装置の撮像領域における所定の範囲以上を占めた状態で撮像されることによって取得される、
    請求項26に記載の物体認識装置。
  28.  前記撮像装置によって前記2次元画像データが取得される前に、前記撮像装置によって撮像される画像の中で前記物体が位置すべきエリアまたは前記物体が占めるべき範囲をユーザに知らせるための補助表示を表示するディスプレイをさらに備える、
     請求項27に記載の物体認識装置。
  29.  前記撮像装置は、
      イメージセンサと、
      前記イメージセンサに入射する光の光路に配置されたフィルタアレイであって、前記光路に交差する面に沿って2次元的に配列された透光性の複数のフィルタを含み、前記複数のフィルタは、光透過率の波長依存性が互いに異なる2つ以上のフィルタを含み、前記2つ以上のフィルタの各々の光透過率は、複数の波長域において極大値を有する、フィルタアレイと、
     を含む、
    請求項26に記載の物体認識装置。
  30.  前記複数のフィルタは、周期的に配置される複数の部分集合を含む、
    請求項29に記載の物体認識装置。
PCT/JP2019/037200 2018-10-15 2019-09-24 物体認識方法、車両制御方法、情報表示方法、および物体認識装置 WO2020080045A1 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
EP19873555.7A EP3869452A4 (en) 2018-10-15 2019-09-24 OBJECT DETECTION METHOD, VEHICLE CONTROL METHOD, INFORMATION DISPLAY METHOD, AND OBJECT DETECTION DEVICE
JP2020552992A JPWO2020080045A1 (ja) 2018-10-15 2019-09-24 物体認識方法、車両制御方法、情報表示方法、および物体認識装置
CN201980031643.3A CN112106064A (zh) 2018-10-15 2019-09-24 物体识别方法、车辆控制方法、信息显示方法以及物体识别装置
US17/169,350 US20210158108A1 (en) 2018-10-15 2021-02-05 Object classification method, vehicle control method, information display method, and object classification device
JP2023147062A JP2023158210A (ja) 2018-10-15 2023-09-11 物体分類装置および物体分類方法
JP2023147063A JP2023158211A (ja) 2018-10-15 2023-09-11 物体分類方法、車両制御方法、情報表示方法、および物体分類装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018194149 2018-10-15
JP2018-194149 2018-10-15

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/169,350 Continuation US20210158108A1 (en) 2018-10-15 2021-02-05 Object classification method, vehicle control method, information display method, and object classification device

Publications (1)

Publication Number Publication Date
WO2020080045A1 true WO2020080045A1 (ja) 2020-04-23

Family

ID=70283406

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/037200 WO2020080045A1 (ja) 2018-10-15 2019-09-24 物体認識方法、車両制御方法、情報表示方法、および物体認識装置

Country Status (5)

Country Link
US (1) US20210158108A1 (ja)
EP (1) EP3869452A4 (ja)
JP (3) JPWO2020080045A1 (ja)
CN (1) CN112106064A (ja)
WO (1) WO2020080045A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021246192A1 (ja) * 2020-06-05 2021-12-09 パナソニックIpマネジメント株式会社 信号処理方法、信号処理装置、および撮像システム

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6705533B2 (ja) * 2018-10-19 2020-06-03 ソニー株式会社 センサ装置、パラメータ設定方法
TWI830907B (zh) * 2019-06-05 2024-02-01 日商索尼半導體解決方案公司 圖像辨識裝置及圖像辨識方法
CN111787323B (zh) * 2020-05-23 2021-09-03 清华大学 一种基于对抗学习的可变比特率生成式压缩方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011150688A (ja) * 2009-12-25 2011-08-04 Ricoh Co Ltd 立体物識別装置、並びに、これを備えた移動体制御装置及び情報提供装置
JP2012128744A (ja) * 2010-12-16 2012-07-05 Canon Inc 物体認識装置、物体認識方法、学習装置、学習方法、プログラム、および情報処理システム
JP2012203422A (ja) * 2011-03-23 2012-10-22 Toshiba Corp 学習装置、方法及びプログラム
JP2013210908A (ja) * 2012-03-30 2013-10-10 Suzuki Motor Corp 対象物識別装置
WO2015177268A1 (en) 2014-05-23 2015-11-26 Ventana Medical Systems, Inc. Systems and methods for detection of biological structures and/or patterns in images
US20170076438A1 (en) 2015-08-31 2017-03-16 Cape Analytics, Inc. Systems and methods for analyzing remote sensing imagery

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7023475B2 (en) * 2002-04-08 2006-04-04 Hewlett-Packard Development Company, L.P. System and method for identifying an object with captured images
US9880053B2 (en) * 2014-10-29 2018-01-30 Panasonic Intellectual Property Management Co., Ltd. Image pickup apparatus, spectroscopic system, and spectroscopic method
CN105611117B (zh) * 2014-11-19 2018-12-07 松下知识产权经营株式会社 摄像装置以及分光系统
CN106331442B (zh) * 2015-07-02 2021-01-15 松下知识产权经营株式会社 摄像装置
TWI579540B (zh) * 2015-12-02 2017-04-21 財團法人工業技術研究院 多點光譜系統
JP6910792B2 (ja) * 2016-12-13 2021-07-28 ソニーセミコンダクタソリューションズ株式会社 データ処理装置、データ処理方法、プログラム、および電子機器
WO2018162297A1 (en) * 2017-03-07 2018-09-13 Sony Corporation System, method and computer program
JP2019195304A (ja) * 2018-05-10 2019-11-14 学校法人順天堂 画像解析方法、装置、コンピュータプログラム、及び深層学習アルゴリズムの生成方法
US10733473B2 (en) * 2018-09-20 2020-08-04 Uber Technologies Inc. Object verification for a network-based service

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011150688A (ja) * 2009-12-25 2011-08-04 Ricoh Co Ltd 立体物識別装置、並びに、これを備えた移動体制御装置及び情報提供装置
JP2012128744A (ja) * 2010-12-16 2012-07-05 Canon Inc 物体認識装置、物体認識方法、学習装置、学習方法、プログラム、および情報処理システム
JP2012203422A (ja) * 2011-03-23 2012-10-22 Toshiba Corp 学習装置、方法及びプログラム
JP2013210908A (ja) * 2012-03-30 2013-10-10 Suzuki Motor Corp 対象物識別装置
WO2015177268A1 (en) 2014-05-23 2015-11-26 Ventana Medical Systems, Inc. Systems and methods for detection of biological structures and/or patterns in images
US20170076438A1 (en) 2015-08-31 2017-03-16 Cape Analytics, Inc. Systems and methods for analyzing remote sensing imagery

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021246192A1 (ja) * 2020-06-05 2021-12-09 パナソニックIpマネジメント株式会社 信号処理方法、信号処理装置、および撮像システム

Also Published As

Publication number Publication date
US20210158108A1 (en) 2021-05-27
JP2023158210A (ja) 2023-10-26
EP3869452A4 (en) 2021-12-08
EP3869452A1 (en) 2021-08-25
JPWO2020080045A1 (ja) 2021-09-09
CN112106064A (zh) 2020-12-18
JP2023158211A (ja) 2023-10-26

Similar Documents

Publication Publication Date Title
WO2020080045A1 (ja) 物体認識方法、車両制御方法、情報表示方法、および物体認識装置
CN109271921B (zh) 一种多光谱成像的智能识别方法及系统
CN108027239B (zh) 用于光学检测至少一个对象的检测器
US8149400B2 (en) Coded aperture snapshot spectral imager and method therefor
JP2021506168A (ja) 奥行取得のためのライトフィールド画像処理方法
Neal et al. Measuring shape
CN101288013B (zh) 基于任务的成像系统
KR20220103962A (ko) 디스플레이를 통한 깊이 측정
CN102592335A (zh) 确定由红外成像系统获得的红外图像中的总人数
La Rosa et al. Multi-task fully convolutional network for tree species mapping in dense forests using small training hyperspectral data
CN112236776A (zh) 使用深度和多光谱相机的对象识别
Moazzam et al. A patch-image based classification approach for detection of weeds in sugar beet crop
US11416707B2 (en) Information processing method, information processing system, and information processing apparatus
JPWO2020080045A5 (ja)
Munian et al. Intelligent System Utilizing HOG and CNN for Thermal Image-Based Detection of Wild Animals in Nocturnal Periods for Vehicle Safety
US20220103797A1 (en) Integrated Spatial Phase Imaging
Winkens et al. Hyperspectral terrain classification for ground vehicles
WO2022018527A1 (en) Multi-spectral device
WO2020043841A1 (en) Apparatus and method for identifying organisms
Sheinin et al. Diffraction line imaging
US20220207884A1 (en) Object recognition apparatus and object recognition program product
CN113408545B (zh) 一种基于微光学器件的端到端光电检测系统及方法
CN114942072A (zh) 多光谱成像芯片及对象识别系统
CN114651272A (zh) 成像传感器、图像处理装置和图像处理方法
WO2021252209A1 (en) Systems and methods for diffraction line imaging

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19873555

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020552992

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2019873555

Country of ref document: EP

Effective date: 20210517