WO2022107636A1 - 画像認識装置、学習システム、画像蓄積装置、画像認識方法、画像蓄積方法、および記録媒体 - Google Patents

画像認識装置、学習システム、画像蓄積装置、画像認識方法、画像蓄積方法、および記録媒体 Download PDF

Info

Publication number
WO2022107636A1
WO2022107636A1 PCT/JP2021/041081 JP2021041081W WO2022107636A1 WO 2022107636 A1 WO2022107636 A1 WO 2022107636A1 JP 2021041081 W JP2021041081 W JP 2021041081W WO 2022107636 A1 WO2022107636 A1 WO 2022107636A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
unit
images
recognition
learning
Prior art date
Application number
PCT/JP2021/041081
Other languages
English (en)
French (fr)
Inventor
隆義 長谷川
由紀貞 深谷
Original Assignee
株式会社タナカ技研
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社タナカ技研 filed Critical 株式会社タナカ技研
Publication of WO2022107636A1 publication Critical patent/WO2022107636A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Definitions

  • the present invention relates to an image recognition device or the like that performs recognition processing on a captured image.
  • Patent Document 1 Conventionally, there has been a technique for identifying an object to be detected by performing image recognition by machine learning on a captured image (see, for example, Patent Document 1).
  • the captured image is appropriately referred to as a captured image.
  • the image recognition device of the first invention has an optical signal acquisition unit that shoots and acquires an optical signal, an original image acquisition unit that acquires two or more different original images using the optical signal, and two or more elements. It is an image recognition device including a recognition unit that performs recognition processing related to an optical signal using an image and acquires a recognition result, and an output unit that outputs the recognition result.
  • the captured image can be recognized with high accuracy.
  • the image recognition device of the second invention further includes a composite image acquisition unit for synthesizing two or more original images and acquiring a composite image with respect to the first invention, and the recognition unit is at least synthesized. It is an image recognition device that performs image recognition processing using images and acquires recognition results.
  • the image recognition device of the third invention has one or more candidate images used for recognition processing from candidate images including two or more original images acquired by the original image acquisition unit for the first or second invention.
  • a selection unit for selecting a target image is further provided, and the recognition unit is an image recognition device that performs image recognition processing using one or more target images and acquires a recognition result.
  • the captured image can be recognized with high accuracy.
  • the selection unit selects one or more target images satisfying a predetermined condition from the two or more candidate images. It is a recognition device.
  • the captured image can be recognized with high accuracy.
  • the selection unit has at least two original images and two or more teacher data having image identification information for identifying the selected image.
  • This is an image recognition device that performs machine learning prediction processing using a selective learning device acquired by performing learning processing and two or more candidate images, and identifies one or more target images.
  • the captured image can be recognized with high accuracy.
  • the recognition unit performs learning processing using a set including two or more original images and a recognition result. It is an image recognition device that performs prediction processing of machine learning and acquires a recognition result by using the recognition learner obtained by performing and the two or more original images.
  • the captured image can be recognized with higher accuracy.
  • the learning system of the seventh invention is a learning system including an image storage device and a learning device, and the image storage device has an optical signal acquisition unit for photographing and acquiring an optical signal, and an optical signal.
  • An original image acquisition unit that acquires two or more different original images, a recognition result reception unit that accepts recognition results for optical signals, and one or more of two or more candidate images including two or more different original images.
  • It is equipped with a teacher data storage unit that stores teacher data having candidate images and recognition results, and the learning device performs learning processing using two or more teacher data stored by the image storage device, and uses the recognition learner.
  • It is a learning system including a cognitive learning unit for acquisition and a learning device storage unit for accumulating cognitive learning devices.
  • the image storage device further includes a composite image acquisition unit for synthesizing two or more original images and acquiring the composite image, and the teacher data.
  • the storage unit is a learning system that stores teacher data having one or more candidate images and recognition results among three or more candidate images including two or more different original images and composite images.
  • the image storage device outputs a set including two or more candidate images including two or more different original images. And, among the two or more candidate images included in the set, a selection reception unit that accepts the selection of one candidate image is further provided, and one candidate image corresponding to the selection accepted by the selection reception unit is used as a positive example for selection.
  • the learning device further includes a distinguishing unit that performs a process of distinguishing one or more candidate images that have not been performed as a negative example, and the learning device includes one candidate image of a positive example and one or more candidate images of a negative example.
  • a selective learning unit that performs learning processing and acquires a selective learning device is further provided, and the learning device storage unit is a learning system that stores selective learning devices.
  • the target image used for image recognition can be selected with high accuracy.
  • images can be recognized with high accuracy.
  • Block diagram of the image recognition device A according to the first embodiment A flowchart illustrating a first operation example of the image recognition device A. A flowchart illustrating an example of the same original image acquisition process. A flowchart illustrating an example of the composite image acquisition process. A flowchart illustrating the first example of the selection process. A flowchart illustrating a second example of the selection process. A flowchart illustrating a second operation example of the image recognition device A. The figure which shows the example of the candidate image Conceptual diagram of the learning system B in the second embodiment Block diagram of the learning system B A flowchart illustrating an operation example of the image storage device 5. A flowchart for explaining an example of the selective learning process. Diagram showing the teacher data management table Block diagram of the computer system in the above embodiment
  • Embodiment 1 an image that acquires an optical signal by photographing, acquires two or more original images using the optical signal, performs recognition processing using two or more original images, and outputs a recognition result.
  • the recognition device will be described.
  • an image recognition device that synthesizes two or more original images, acquires a composite image, performs recognition processing using the composite image, and outputs a recognition result will be described.
  • a target image to be image recognition processing is automatically selected from a set of candidate images including two or more original images, recognition processing is performed on the target image, and a recognition result is output.
  • the image recognition device to be used will be described.
  • an image recognition device that selects a target image by a machine learning algorithm will be described.
  • FIG. 1 is a block diagram of the image recognition device A according to the present embodiment.
  • the image recognition device A includes a storage unit 1, a reception unit 2, a processing unit 3, and an output unit 4.
  • the processing unit 3 includes an optical signal acquisition unit 31, an original image acquisition unit 32, a composite image acquisition unit 33, a selection unit 34, and a recognition unit 35.
  • Various information is stored in the storage unit 1.
  • the various types of information are, for example, a selection learner described later, a recognition learner described later, two or more original image identification information, one or more composite image identification information, and a composite image flag.
  • the original image identification information is information that identifies the type of the original image to be acquired.
  • the original image identification information is, for example, "RGB image", "IR image”, and "NIR image”.
  • the original image identification information is, for example, an identifier of a program for acquiring the original image (for example, an execution module name, a function name, a method name).
  • the original image identification information is, for example, an image processing identifier performed to acquire the original image.
  • the image processing identifier is information that identifies image processing, and is, for example, an ID, an identifier of a program that performs image processing of one or more (for example, an execution module name, a function name, and a method name).
  • the original image is an image acquired by using an optical signal.
  • the original image is an uncombined image.
  • the original image is, for example, a spectroscopic image obtained by dispersing an optical signal.
  • the original image is, for example, an image obtained by subjecting one spectroscopic image to a predetermined one or more image processing.
  • the original image is an image that can be a candidate image.
  • the composite image identification information is information that identifies the type of composite image to be acquired.
  • the composite image identification information is, for example, an identifier of a program for acquiring a composite image (for example, an execution module name, a function name, or a method name).
  • the composite image identification information includes, for example, the original image identification information of the original image used when acquiring the composite image.
  • the original image identification information in such a case is, for example, "RGB image”, "IR image”, and "NIR image”.
  • a composite image is an image in which two or more images are composited.
  • the synthesis method does not matter.
  • a composite image is an image acquired from two or more images.
  • the composite image flag is information indicating whether or not to acquire a composite image.
  • the Reception department 2 receives various instructions and information.
  • the various instructions, information, and the like are, for example, setting information.
  • the setting information is information for specifying one image acquired by the selection unit 34.
  • acceptance is usually acceptance of information input from an input device such as a touch panel, keyboard, or mouse.
  • acceptance may be a concept including reception of information transmitted via a wired or wireless communication line, acceptance of information read from a recording medium such as an optical disk, a magnetic disk, or a semiconductor memory.
  • the input means of the user's instruction may be anything such as a touch panel, a keyboard, a mouse, or a menu screen.
  • the processing unit 3 performs various processes. Various processes are performed by the optical signal acquisition unit 31, the original image acquisition unit 32, the composite image acquisition unit 33, the selection unit 34, and the recognition unit 35.
  • the optical signal acquisition unit 31 takes a picture and acquires an optical signal. Since the optical signal acquisition unit 31 is a known technique, detailed description thereof will be omitted.
  • the original image acquisition unit 32 acquires two or more different original images by using the optical signal acquired by the optical signal acquisition unit 31.
  • the optical signals that are the basis of each of the two or more different original images are the same optical signal.
  • the objects included in two or more different original images are usually the same, but may be different. That is, for example, one original image may be an image in the same region as the optical signal, and the other original image may be an image in a partial region of the image (so-called zoomed image).
  • the original image acquisition unit 32 may disperse the optical signal acquired by the optical signal acquisition unit 31 and acquire a short-distance “RGB image” and a long-distance “IR image”. In such a case, the region of the long-distance "IR image” is narrower than the region of the short-distance "RGB image”.
  • the original image acquisition unit 32 is provided with a beam splitter, and the beam splitter divides the light from the single lens into two, and the light having the same spectral characteristics divided into the two is split into sensors having different focal lengths. Input to get two images with different focal lengths (eg, "near RGB image” and "far RGB image”).
  • the original image acquisition unit 32 acquires, for example, two or more spectroscopic images obtained by extracting a part of the wavelength from the optical signal acquired by the optical signal acquisition unit 31.
  • the original image is a spectroscopic image.
  • the two or more spectroscopic images are, for example, two or more images of an RGB image (color image), an IR image (infrared image), and an NIR image (near infrared).
  • the original image acquisition unit 32 refers to a sensor capable of simultaneously photographing RGB and NIR (for example, "http://www.optronics-media.com/news/20170606/42937/" (November 1, 2nd year of Reiwa). It can be realized by using search).
  • the original image acquisition unit 32 acquires, for example, an RGB image from the optical signal acquired by the optical signal acquisition unit 31, and acquires an image obtained by performing predetermined image processing on the RGB image.
  • the original image is, for example, an RGB image and an image subjected to predetermined image processing.
  • the predetermined image processing is, for example, sharpness processing, noise reduction processing, brightness improvement processing, and the like, and various known image processings may be applicable.
  • the original image acquisition unit 32 acquires an IR image from the optical signal acquired by the optical signal acquisition unit 31, for example, and acquires an image obtained by performing predetermined image processing on the IR image.
  • the original image is, for example, an IR image and an image subjected to predetermined image processing.
  • the predetermined image processing is, for example, sharpness processing, noise reduction processing, brightness improvement processing, and the like, and various known image processings may be applicable.
  • the original image acquisition unit 32 for example, disperses the optical signal acquired by the optical signal acquisition unit 31 and acquires an RGB image and an IR image. Then, the original image acquisition unit 32 acquires, for example, an image in which the RGB image has been subjected to predetermined image processing and an image in which the IR image has been subjected to predetermined image processing.
  • the original image is, for example, an RGB image, an IR image, an image obtained by performing predetermined image processing on the RGB image, and an image obtained by performing predetermined image processing on the IR image.
  • the shooting targets of two or more different original images acquired by the original image acquisition unit 32 are the same.
  • the composite image acquisition unit 33 synthesizes two or more original images and acquires the composite image.
  • the composite image acquisition unit 33 may synthesize the original image and the composite image and acquire a new composite image.
  • the method of synthesizing the original image does not matter.
  • the composite image acquisition unit 33 acquires, for example, a composite image in which a partial original image of a part of one or more of the two or more original images is adopted as a region corresponding to a part of the original image. do.
  • the composite image acquisition unit 33 is, for example, a composite image in which the first partial original image of the first region of the first original image among two or more original images is adopted as the region corresponding to the first region. Yes, a composite image in which the second partial original image of the second region of the second original image of the two or more original images is adopted in the region corresponding to the second region is acquired.
  • the composite image acquisition unit 33 selects, for example, a pixel having a strong signal strength from two or more original images, and acquires one composite image.
  • the composite image acquisition unit 33 synthesizes two or more different original images (for example, an RGB image and an IR image) by a NAM circuit. That is, the composite image acquisition unit 33 preferentially outputs a high-level pixel value among the pixels at the same position of the two original images by using, for example, a NAM circuit, and acquires the composite image.
  • the composite image acquisition unit 33 divides each of two or more original images into predetermined regions, determines a region having a stronger signal strength for each region at the same position, and determines a pixel set of the determined region. Combine to get a composite image.
  • the area has two or more pixels.
  • the composite image acquisition unit 33 may, for example, give two or more original images and a learning device to a module of machine learning prediction processing, and acquire a composite image in which two or more original images are combined.
  • the learning device in such a case is a learning device in which two or more teacher data composed of two or more original images and a composite image are given to a module of learning processing of machine learning, and the module is executed and acquired.
  • the machine learning algorithm does not matter. Further, such a learner is used in a prediction process in which two or more original images are input and a composite image is output.
  • composite image and the objects in the two or more original images are usually the same object, but may be different.
  • the selection unit 34 selects one or more target images to be used for the recognition process from the candidate images including the two or more original images acquired by the original image acquisition unit 32.
  • the selection unit 34 acquires one target image from three or more candidate images including two or more original images and a composite image.
  • the selection unit 34 automatically selects one or more target images that satisfy predetermined conditions from the two or more candidate images.
  • the predetermined condition is, for example, selected by the prediction processing of machine learning described later.
  • the predetermined condition is, for example, that the score obtained by the prediction process of machine learning described later is the maximum.
  • the predetermined condition is, for example, that the representative value (for example, the average value and the median value) of each pixel of the candidate image is the maximum.
  • the predetermined condition is that, for example, the representative value (for example, the average value, the median value) of the attribute values (for example, luminance, brightness) of each pixel of the candidate image is the maximum.
  • the selection unit 34 performs machine learning prediction processing using the selection learning device and two or more candidate images, and identifies one or more target images.
  • the selective learner is information acquired by performing a learning process using at least two original images and two or more teacher data having image identification information for identifying the selected image. It is preferable that the selective learning device is a learning device acquired by the learning device 6 described later.
  • the selection unit 34 performs machine learning prediction processing using, for example, a selection learner and two or more candidate images, acquires image identification information that identifies one target image, and is specified by the image identification information. Get one target image.
  • the machine learning algorithm is, for example, random forest, decision tree, deep learning, SVM, or the like, and the machine learning algorithm does not matter. Further, for the prediction processing of machine learning, various machine learning functions such as TensorFlow library, tinySVM, R language random forest module, and various existing libraries can be used.
  • the selective learning device is, for example, a learning device acquired by the learning device 6 in the second embodiment described later. The learning device may be called a classifier or a model.
  • the selection learner here is information for inputting two or more candidate images and outputting one candidate image or an identifier of one candidate image.
  • the selection learner inputs, for example, one of two or more candidate images, and outputs a flag (true or false) indicating whether or not the candidate image is selected as the target image.
  • the selection learner inputs, for example, one of two or more candidate images, and outputs a flag (true or false) and a score indicating whether or not the candidate image is selected as the target image.
  • the target image is an image that is the target of image recognition.
  • the selection unit 34 acquires the selection learning device from the storage unit 1, gives the selection learning device and two or more candidate images to the module of the prediction processing of machine learning, executes the module, and performs one.
  • Candidate image of is determined as a target image.
  • the selection unit 34 acquires, for example, the selection learning device from the storage unit 1. Then, the selection unit 34, for example, gives a pair of a candidate image of one of two or more candidate images and a selection learner to a module of prediction processing of machine learning in order, and a flag indicating whether or not to select the candidate image. And get the score. Then, the selection unit 34 determines, for example, a candidate image from which a flag indicating that the image is selected is obtained, and the candidate image having the maximum score is determined as the target image.
  • the selection unit 34 acquires the selection learning device from the storage unit 1, gives the selection learning device and two or more candidate images to the module of the prediction processing of machine learning, executes the module, and 2 The above candidate images are determined as target images.
  • the selection unit 34 acquires, for example, the selection learning device from the storage unit 1. Then, the selection unit 34, for example, gives a pair of a candidate image of one of two or more candidate images and a selection learner to a module of prediction processing of machine learning in order, and a flag indicating whether or not to select the candidate image. And get the score. Then, the selection unit 34 determines, for example, a candidate image having a flag indicating that it is selected, and having a score of 1 or 2 or more as a target image having a score equal to or higher than the threshold value or larger than the threshold value.
  • the selection unit 34 selects, for example, one candidate image according to the user's instruction from two or more candidate images as the target image. For example, when the user's instruction is the setting information, the selection unit 34 selects the candidate image corresponding to the setting information of the storage unit 1 as the target image from the two or more candidate images.
  • the setting information is, for example, a type identifier indicating one type of candidate image among two or more types of candidate images.
  • the type identifier is, for example, "RGB image", "IR image”, and "composite image”.
  • the recognition unit 35 performs recognition processing related to an optical signal using two or more original images, and acquires a recognition result.
  • the recognition process related to an optical signal is usually an image recognition process for a target image.
  • the recognition unit 35 performs image recognition processing using at least a composite image, and acquires a recognition result.
  • the recognition unit 35 performs image recognition processing using, for example, two or more original images and a composite image, and acquires a recognition result.
  • the recognition unit 35 usually performs image recognition processing using one or two or more target images, and acquires a recognition result.
  • the target image of 1 or more is an image selected by the selection unit 34 from the candidate images of 2 or more.
  • the recognition unit 35 uses, for example, a recognition learner acquired by performing a learning process using a set including two or more original images and a recognition result, and a prediction process of machine learning using two or more original images. And get the recognition result.
  • a recognition learner acquired by performing a learning process using a set including two or more original images and a recognition result
  • a prediction process of machine learning using two or more original images And get the recognition result.
  • Using two or more original images may also use target images acquired from two or more original images.
  • the recognition unit 35 may perform recognition processing on the target image and acquire the recognition result by using a technique other than the machine learning algorithm.
  • the techniques other than the machine learning algorithm are, for example, known object recognition techniques and character recognition techniques. That is, the recognition unit 35 may recognize an object in the target image by image recognition processing and acquire an object identifier that identifies the object. Further, the recognition unit 35 may acquire the color and shape of the object in the target image by image recognition processing.
  • the recognition result is, for example, the object name of the object included in the photographed optical signal, the character string (may be a numerical string) included in the photographed optical signal, and the attribute value (color, shape, of the object) of the object. Size etc.).
  • the information in the optical signal is the information in the target image.
  • the recognition unit 35 performs recognition processing on each of two or more target images, acquires different types of recognition results from each of the two or more target images, and outputs the recognition results using the two or more types of recognition results. You may get the result.
  • the recognition unit 35 may acquire a recognition result having a vehicle model name and a color of a vehicle from one target image, and may acquire license plate information from another target image. Further, when the recognition unit 35 performs recognition processing on each of two or more target images and obtains different recognition results from two or more target images, two or more different target images are obtained.
  • the recognition process may be performed using an algorithm.
  • the recognition unit 35 performs machine learning prediction processing on one target image to acquire a vehicle model name, performs image recognition on the one target image, extracts the outline of the vehicle, and obtains the vehicle type name. Acquires color information (for example, "white") of an automobile area, extracts the outline of the license plate area from other target images, performs character recognition processing on the area, and acquires the license plate number. May be.
  • the recognition unit 35 may acquire two or more recognition results for one target image by two or more different algorithms.
  • the recognition unit 35 detects, for example, the fingerprint area in the target image, performs fingerprint authentication processing, and acquires the identification information of the person corresponding to the fingerprint from a storage unit (not shown).
  • the storage unit stores information for associating the fingerprint information with the person identification information.
  • the recognition unit 35 detects the face area of the person in the target image, performs face recognition processing using the image of the face area, and illustrates the identification information of the person corresponding to the face image. Do not get from the storage. In such a case, information for associating a face image with a person's identification information is stored in the storage unit.
  • the recognition unit 35 recognizes a pattern from, for example, an image signal obtained from two images (the image on the near focus side is W and the image on the far focus side is T) acquired by the original image acquisition unit 32 having different focal distances.
  • the object in the image for example, the vehicle in front
  • the recognition unit 35 compares the signal amounts of W and T with reference to X, and calculates the distance to the object. If the focal length that is the maximum signal of W is set to 1.0 meter and the focal length that is the maximum signal of T is set to 3.0 meters in advance, the relationship with X can be obtained.
  • the recognition unit 35 can acquire the distance. That is, the recognition unit 35 can acquire the distance from the optical signal acquisition unit 31 to the object in the image as information constituting the recognition result.
  • the output unit 4 outputs the recognition result acquired by the recognition unit 35.
  • the output means display on a display, projection using a projector, printing by a printer, sound output, transmission to an external device, storage in a recording medium, storage in another processing device, another program, or the like. It is a concept that includes delivery of processing results.
  • a non-volatile recording medium is suitable for the storage unit 1, but a volatile recording medium can also be used.
  • the process of storing information in the storage unit 1 does not matter.
  • the information may be stored in the storage unit 1 via the recording medium, the information transmitted via the communication line or the like may be stored in the storage unit 1, or The information input via the input device may be stored in the storage unit 1.
  • the reception unit 2 can be realized by a device driver of an input means such as a touch panel or a keyboard, a menu screen control software, or the like.
  • the processing unit 3, the original image acquisition unit 32, the composite image acquisition unit 33, the selection unit 34, and the recognition unit 35 can usually be realized from a processor, a memory, or the like.
  • the processing procedure of the processing unit 3 and the like is usually realized by software, and the software is recorded in a recording medium such as ROM. However, it may be realized by hardware (dedicated circuit).
  • the processor is, for example, a CPU, an MPU, a GPU, or the like, and the type thereof does not matter.
  • the optical signal acquisition unit 31 is realized by, for example, a so-called camera optical component and an image pickup device.
  • the output unit 4 may or may not include an output device such as a display or a speaker.
  • the output unit 4 may be realized by the driver software of the output device, the driver software of the output device, the output device, or the like.
  • Step S201 The optical signal acquisition unit 31 acquires an optical signal.
  • Step S202 The original image acquisition unit 32 acquires two or more different original images using the optical signal acquired by the optical signal acquisition unit 31. An example of such an original image acquisition process will be described with reference to the flowchart of FIG.
  • Step S203 The composite image acquisition unit 33 determines whether or not to acquire the composite image. If the composite image is acquired, the process goes to step S205, and if the composite image is not acquired, the process goes to step S206.
  • the composite image acquisition unit 33 may always acquire the composite image. Further, the composite image acquisition unit 33 may determine that the composite image is acquired, for example, when the composite image flag of the storage unit 1 is information indicating that the composite image is acquired. However, the conditions for determining that a composite image is to be acquired are not limited.
  • Step S204 The composite image acquisition unit 33 acquires the composite image.
  • An example of such a composite image acquisition process will be described with reference to the flowchart of FIG.
  • Step S205 The selection unit 34 acquires one target image from the candidate images including the two or more original images acquired by the original image acquisition unit 32. It is preferable that the selection unit 34 acquires one target image from three or more candidate images including two or more original images and a composite image. An example of such a selection process will be described with reference to the flowcharts of FIGS. 5 and 6.
  • Step S206 The recognition unit 35 performs image recognition processing on one target image acquired in step S205, and acquires a recognition result.
  • Step S207 The output unit 4 outputs the recognition result acquired in step S206.
  • Step S208 The processing unit 3 determines whether or not to end the processing. If it is determined that the process is terminated, the process is terminated, and if it is determined that the process is not terminated, the process returns to step S201.
  • the conditions for ending the process do not matter.
  • the condition for ending the process is, for example, that the engine of a moving body such as an automobile is turned off.
  • Step S301 The original image acquisition unit 32 substitutes 1 for the counter i.
  • Step S302 The original image acquisition unit 32 determines whether or not the i-th original image identification information for acquiring the original image exists in the storage unit 1.
  • Step S303 The original image acquisition unit 32 acquires the i-th original image corresponding to the i-th original image identification information and temporarily stores it in a buffer (not shown).
  • Step S304 The original image acquisition unit 32 increments the counter i by 1. Return to step S302.
  • Step S401 The composite image acquisition unit 33 substitutes 1 for the counter i.
  • Step S402 The composite image acquisition unit 33 determines whether or not to acquire the i-th composite image. If the i-th composite image is acquired, the process proceeds to step S403, and if the i-th composite image is not acquired, the process returns to higher processing. For example, the composite image acquisition unit 33 determines whether or not to acquire the i-th composite image depending on whether or not the i-th composite image identification information exists in the storage unit 1.
  • Step S403 The composite image acquisition unit 33 acquires two or more original images used for acquiring the i-th composite image from a buffer (not shown).
  • Step S404 The composite image acquisition unit 33 acquires the i-th composite image using the two or more original images acquired in step S403, and temporarily stores the composite image in a buffer (not shown).
  • Step S405 The composite image acquisition unit 33 increments the counter i by 1. Return to step S402.
  • Step S501 The selection unit 34 acquires the selection learning device from the storage unit 1.
  • Step S502 The selection unit 34 substitutes 1 for the counter i.
  • Step S503 The selection unit 34 determines whether or not the i-th candidate image exists in a buffer (not shown). If the i-th candidate image exists, the process goes to step S504, and if the i-th candidate image does not exist, the process goes to step S508.
  • Step S504 The selection unit 34 acquires the i-th candidate image from a buffer (not shown).
  • the selection unit 34 gives the selection learning device and the i-th candidate image to the prediction module of machine learning, executes the prediction module, and acquires the prediction result.
  • the prediction result is a flag (prediction value) and a score indicating whether or not the selection is made. The higher the score, the higher the likelihood of being selected.
  • Step S506 The selection unit 34 temporarily stores the predicted value and the score in a buffer (not shown) in association with the i-th candidate image.
  • Step S507 The selection unit 34 increments the counter i by 1. Return to step S503.
  • Step S508 The selection unit 34 is a predicted value indicating that the image is selected, and a candidate image paired with the maximum score is determined as the target image. Return to higher-level processing.
  • step S205 a second example of the selection process in step S205 will be described with reference to the flowchart of FIG.
  • the same steps as the flowchart of FIG. 5 will be omitted.
  • Step S601 The selection unit 34 acquires two or more candidate images from a buffer (not shown).
  • the selection unit 34 gives the selection learning device and two or more candidate images to the prediction module of machine learning, executes the prediction module, and acquires the prediction result.
  • the prediction result is information for specifying the target image here.
  • the information that identifies the target image may be the target image, an identifier of the target image (for example, a file name), or the like.
  • Step S603 The selection unit 34 determines a candidate image corresponding to the prediction result as the target image.
  • Step S701 The recognition unit 35 substitutes 1 for the counter i.
  • Step S702 The recognition unit 35 determines whether or not the i-th target image, which is the target of the image recognition process, exists. If the i-th target image exists, the process goes to step S703, and if the i-th target image does not exist, the process goes to step S705.
  • Step S703 The recognition unit 35 performs image recognition processing on the i-th target image, acquires the i-th recognition result, and temporarily stores it in a buffer (not shown).
  • Step S704 The recognition unit 35 increments the counter i by 1. Return to step S702.
  • Step S705 The recognition unit 35 acquires the recognition result to be output by using one or more recognition results in a buffer (not shown). Go to step S207.
  • the recognition unit 35 acquires, for example, the recognition result corresponding to the maximum score acquired as a result of the image recognition process.
  • the recognition unit 35 acquires, for example, the most recognition result among two or more recognition results as the recognition result to be output.
  • image recognition processing was performed on all candidate images. However, one or two or more target images may be selected from the candidate images, and image recognition processing may be performed on the one or more target images.
  • the appearance of the photographing apparatus A is, for example, a camera.
  • the storage unit 1 now stores two original image identification information of "RGB image” and "IR image”. Further, it is assumed that the storage unit 1 stores the composite image identification information which is the module name of one program for acquiring the composite image.
  • the one program adopts the original image of "RGB image” and "IR image” with the higher average brightness as the base, detects the license plate area, and has the larger sharpness of the license plate area. It is assumed that the program adopts the license plate area of the original image of.
  • the storage unit 1 stores a selection learning device that selects one candidate image from three candidate images.
  • the storage unit 1 stores a recognition learning device that acquires vehicle type information that identifies the vehicle type of the vehicle shown in the target image when the target image is given.
  • the recognition learner is information acquired by performing machine learning learning processing on two or more teacher data having an image of a vehicle and vehicle type information.
  • the original image acquisition unit 32 acquires two original images, an "RGB image” and an “IR image”, using the optical signal acquired by the optical signal acquisition unit 31.
  • the “RGB image” is 81 in FIG.
  • the “IR image” is 82 in FIG.
  • the composite image acquisition unit 33 executes the module identified by the module name indicated by the composite image identification information, and acquires the composite image.
  • Such a composite image is 83 in FIG.
  • the selection unit 34 acquires the selection learning device of the storage unit 1.
  • the selection unit 34 gives three candidate images (“RGB image 81”, “IR image 82”, and “composite image 83”) and a selection learner to the prediction module of machine learning, and one image (here, a composite image). It is assumed that 83) has been acquired.
  • the recognition unit 35 performs image recognition processing on the composite image 83 and acquires the license plate number "20-20". Further, the recognition unit 35 acquires the color "white” of the automobile.
  • the recognition unit 35 acquires the recognition learning device of the storage unit 1. Then, the recognition unit 35 gives the composite image 83 and the recognition learning device to the prediction module of machine learning, executes the prediction module, and acquires the vehicle model "XXX" of the automobile shown in the composite image 83. do.
  • the output unit 4 outputs the recognition result " ⁇ vehicle type> XXX ⁇ color> white ⁇ license plate> 20-20".
  • the image can be recognized with high accuracy. That is, according to the present embodiment, by selecting a target image to be image-recognized from two or more candidate images and performing image recognition processing on the target image, image recognition can be performed with high accuracy.
  • the image recognition device A can be used as, for example, a surveillance camera.
  • the surveillance camera is, for example, a surveillance camera for automatic driving of a car or a drive recorder. Further, the surveillance camera is, for example, a camera for monitoring the inside of a drive recorder, a camera for monitoring the rear seats, and a camera for monitoring the driver's movement and falling asleep.
  • the image recognition device A is, for example, a camera for automatic driving of a car and a camera for monitoring the outside of a drive recorder.
  • the processing in the present embodiment may be realized by software. Then, this software may be distributed by software download or the like. Further, this software may be recorded on a recording medium such as a CD-ROM and disseminated. It should be noted that this also applies to other embodiments herein.
  • the software that realizes the image recognition device A in this embodiment is the following program. That is, this program includes an optical signal acquisition unit that photographs a computer and acquires an optical signal, an original image acquisition unit that acquires two or more different original images using the optical signal, and the two or more elements. This is a program for functioning as a recognition unit that performs recognition processing related to the optical signal using an image and acquires the recognition result, and an output unit that outputs the recognition result.
  • FIG. 9 is a conceptual diagram of the learning system B in the present embodiment.
  • the learning system B includes one or more image storage devices 5 and a learning device 6.
  • the learning system B may be realized by one device or may be realized by three or more devices.
  • the image storage device 5 takes an image, acquires a set of two or more candidate images using the image, and accepts one selection from the set. Then, the image storage device 5 stores the set in a state in which the selected candidate image and the non-selected candidate image can be distinguished from each other in the set. Further, the image storage device 5 receives object information regarding an object in the image.
  • the object information is information corresponding to the above-mentioned recognition result.
  • the image storage device 5 is, for example, a camera or a computer with a camera. The camera may be one that can shoot a still image or a camera that can shoot a moving image.
  • the learning device 6 is a device that constitutes a selective learning device for performing learning processing using two or more sets and selecting one image from two or more candidate images. Further, the learning device 6 is a device that learns two or more teacher data having an image and object information to form a recognition learner.
  • FIG. 10 is a block diagram of the learning system B in the present embodiment.
  • the image storage device 5 constituting the learning system B includes a storage unit 51, a reception unit 52, a processing unit 53, and an output unit 54.
  • the reception unit 52 includes a selection reception unit 521 and a recognition result reception unit 522.
  • the processing unit 53 includes an optical signal acquisition unit 31, an original image acquisition unit 32, a composite image acquisition unit 33, a teacher data storage unit 531 and a discrimination unit 532.
  • the output unit 54 includes a set output unit 541.
  • the learning device 6 includes a learning storage unit 61, a selective learning unit 62, a recognition learning unit 63, and a learning device storage unit 64.
  • the various types of information are stored in the storage unit 51 that constitutes the image storage device 5.
  • the various information is, for example, a set of two or more candidate images.
  • the reception unit 52 receives various instructions and information.
  • the various instructions and information are, for example, a shooting instruction, a selection instruction, and a recognition result described later.
  • the selection instruction is an instruction for selecting an image.
  • the selection instruction may be simply called selection.
  • the means for inputting various instructions and information may be anything, such as a touch panel, keyboard, mouse, or menu screen.
  • the selection reception unit 521 accepts the selection of one candidate image from the two or more candidate images included in the set.
  • the recognition result reception unit 522 receives the recognition result for the optical signal.
  • the recognition result for an optical signal has the same meaning as the recognition result for an image.
  • the recognition result is object information about the object in the image for the optical signal.
  • the processing unit 53 performs various processes.
  • the various processes are performed by, for example, the optical signal acquisition unit 31, the original image acquisition unit 32, the composite image acquisition unit 33, the set storage unit 531 and the discrimination unit 532.
  • the teacher data storage unit 531 stores two or more teacher data.
  • the teacher data includes one or more candidate images out of two or more candidate images including two or more different original images acquired by the original image acquisition unit 32.
  • the teacher data includes, for example, a set of candidate images that can distinguish between the candidate images corresponding to the selection accepted by the selection reception unit 521 and one or more candidate images that do not correspond to the selection.
  • the teacher data has, for example, the recognition result received by the recognition result reception unit 522.
  • the one or more candidate images possessed by the teacher data may be one candidate image corresponding to the selection accepted by the selection reception unit 521, or may be a set of two or more candidate images.
  • the two or more candidate images are, for example, two or more original images acquired by the original image acquisition unit 32.
  • the two or more candidate images are, for example, two or more original images acquired by the original image acquisition unit 32 and one or more composite images acquired by the composite image acquisition unit 33.
  • the two or more candidate images are, for example, two or more candidate images corresponding to the selection received by the selection reception unit 521.
  • the teacher data storage unit 531 for example, among two or more candidate images including two or more different original images acquired by the original image acquisition unit 32, the candidate image accepted by the selection reception unit 521 and the recognition result reception unit 522 Accumulate teacher data with the received recognition results.
  • the teacher data storage unit 531 stores teacher data having one or more candidate images and a recognition result among three or more candidate images including two or more different original images and composite images.
  • the discrimination unit 532 performs a process of distinguishing one candidate image corresponding to the selection accepted by the selection reception unit 521 as a positive example and one or more candidate images not selected as a negative example.
  • the process of distinguishing is, for example, a process of associating a positive example flag with one selected candidate image.
  • the process of distinguishing is, for example, a process of associating a negative example flag with each of one or more candidate images that have not been selected.
  • the process of distinguishing is, for example, a process of associating a positive example flag with one selected candidate image and associating a negative example flag with each of one or more unselected candidate images.
  • the process of distinguishing is, for example, a process of accumulating one selected candidate image and one or more unselected candidate images in different folders. It suffices as long as it is possible to distinguish one selected candidate image from one or more non-selected candidate images, and the process and method for distinguishing them are not limited.
  • the output unit 54 outputs various information.
  • Various information is a set of two or more candidate images.
  • the output means display on a display, projection using a projector, printing by a printer, transmission to an external device, storage on a recording medium, processing to another processing device or another program, and the like. It is a concept that includes delivery of results.
  • the set output unit 541 outputs a set including two or more candidate images including two or more different original images.
  • Various information is stored in the learning storage unit 61 that constitutes the learning device 6.
  • Various information is two or more teacher data.
  • the two or more teacher data are the data accumulated by the image accumulator 5.
  • the teacher data includes, for example, a positive example image and one or more negative example images.
  • the regular image is a regular candidate image.
  • the negative example image is a candidate image of the negative example.
  • the teacher data is data for acquiring a selective learner.
  • the teacher data includes, for example, an image and a recognition result.
  • Such teacher data is data for acquiring a recognition learner.
  • the selective learning unit 62 performs learning processing using two or more sets including one positive example image and one or more negative example images, and acquires a selective learning device.
  • the selective learning device is a learning device for determining one or more target images from two or more candidate images.
  • the learning process is a learning process using a machine learning algorithm.
  • the machine learning algorithm is, for example, random forest, decision tree, deep learning, SVM, or the like, and the machine learning algorithm does not matter. Further, for the machine learning learning process, various machine learning functions such as a TensorFlow library, a tinySVM, and a R language random forest module, and various existing libraries can be used.
  • the selective learning unit 62 gives two or more sets including one positive example image and one or more negative example images to a learning module of machine learning, executes the learning module, and acquires a selective learning device. ..
  • the selection learning unit 62 comprises, for example, a set of one positive example image and one negative example image of the same shooting target as the one positive example image from two or more sets.
  • the selective learning unit 62 gives a set of two or more configured images to a learning module for machine learning, executes the learning module, and acquires a selective learning device.
  • the recognition learning unit 63 performs learning processing using two or more teacher data accumulated by the image storage device 5, and acquires a recognition learning device.
  • the teacher data here is one target image and a recognition result.
  • the teacher data may be two or more target images and a recognition result.
  • the cognitive learning unit 63 gives two or more teacher data to the learning module of machine learning, executes the learning module, and acquires the cognitive learning device.
  • the learning process is also a learning process using a machine learning algorithm, and the algorithm does not matter.
  • the learning device storage unit 64 stores the selective learning device acquired by the selective learning unit 62.
  • the learning device storage unit 64 stores the recognition learning device acquired by the recognition learning unit 63.
  • the storage destination of the learning device does not matter.
  • the storage unit 51 and the learning storage unit 61 are preferably non-volatile recording media, but can also be realized by volatile recording media.
  • the process of storing information in the storage unit 51 or the like does not matter.
  • the information may be stored in the storage unit 51 or the like via the recording medium, or the information transmitted via the communication line or the like may be stored in the storage unit 51 or the like.
  • the information input via the input device may be stored in the storage unit 51 or the like.
  • the reception unit 52, the selection reception unit 521, and the recognition result reception unit 522 can be realized by a device driver of an input means such as a touch panel or a keyboard, a menu screen control software, or the like.
  • the processing unit 53, the teacher data storage unit 531, the discrimination unit 532, the selective learning unit 62, the recognition learning unit 63, and the learner storage unit 64 can usually be realized from a processor, a memory, or the like.
  • the processing procedure of the processing unit 53 or the like is usually realized by software, and the software is recorded in a recording medium such as ROM. However, it may be realized by hardware (dedicated circuit).
  • the processor is, for example, a CPU, an MPU, a GPU, or the like, and the type thereof does not matter.
  • Step S1101 The processing unit 53 determines whether or not to perform shooting. If shooting is performed, the process proceeds to step S202, and if shooting is not performed, the process returns to step S201. In addition, the processing unit 53 determines that shooting is performed, for example, when the reception unit 52 receives a shooting instruction. Further, the processing unit 53 determines that, for example, after the reception unit 52 receives the shooting instruction, the shooting is performed until the instruction to end the shooting is received.
  • the conditions under which the processing unit 53 determines to perform shooting are not limited.
  • the output unit 54 outputs two or more acquired candidate images.
  • the two or more candidate images are, for example, two or more original images.
  • the two or more candidate images are, for example, two or more original images and one or more composite images. It should be noted that such an output is usually an output to a display.
  • Step S1103 The selection reception unit 521 determines whether or not the selection from the user has been accepted. If the selection is accepted, the process goes to step S1104, and if the selection is not accepted, the process returns to step S1103.
  • Step S1104 The distinguishing unit 532 associates a regular example flag with the candidate image selected in step S1103.
  • Step S1105 The recognition result reception unit 522 determines whether or not the recognition result has been received. If the recognition result is accepted, the process proceeds to step S1106, and if the recognition result is not accepted, the process returns to step S1105.
  • the recognition result is usually information input by the user.
  • the teacher data storage unit 531 constitutes teacher data.
  • the teacher data storage unit 531 constitutes, for example, teacher data having one positive example image, one or more negative example images, and a recognition result.
  • the teacher data storage unit 531 constitutes, for example, teacher data having two or more positive example images, one or more negative example images, and a recognition result.
  • Step S1107 The teacher data storage unit 531 stores the teacher data configured in step S1106 in a buffer (not shown). Return to step S1101.
  • the set is, for example, a set of one selected candidate image of a positive example and one or more candidate images of a negative example. That is, the set has two or more candidate images in which the positive example image and the negative example image are distinguished.
  • Step S1201 The learning device 6 determines whether or not to start learning. If learning is to be started, the process goes to step S1202, and if learning is not started, the process returns to step S1201.
  • the conditions for starting learning are not limited. For example, according to the instruction of the user, the learning device 6 determines to start learning.
  • Step S1202 The selection learning unit 62 substitutes 1 for the counter i.
  • Step S1203 The selective learning unit 62 determines whether or not the i-th set exists in the learning storage unit 61.
  • Step S1204 The selection learning unit 62 acquires one positive example image possessed by the i-th set.
  • the regular image is a candidate image corresponding to the regular flag.
  • Step S1205 The selection learning unit 62 substitutes 1 for the counter j.
  • Step S1206 The selection learning unit 62 acquires the j-th negative example image of the i-th set.
  • Step S1207 The selection learning unit 62 acquires a set of the positive example image acquired in step S1204 and the j-th negative example image acquired in step S1206, and temporarily stores the pair in a buffer (not shown).
  • Step S1208 The selection learning unit 62 increments the counter j by 1. Return to step S1206.
  • Step S1209 The selection learning unit 62 increments the counter i by 1. Return to step S1203.
  • Step S1210 The selective learning unit 62 gives a pair of two or more positive example images and negative example images temporarily stored in a buffer (not shown) to the learning module, executes the module, and acquires the selective learning device.
  • Step S1211 The learner storage unit 64 stores the selective learner acquired in step S1210. Return to step S1201.
  • the selective learning unit 62 may give two or more sets to the learning module of machine learning, execute the learning module, and acquire the selective learning device.
  • the processing is terminated by the power off or the interrupt of the processing termination.
  • the recognition learning unit 63 acquires two or more teacher data from the learning storage unit 61.
  • the cognitive learning unit 63 gives the two or more teacher data to the learning module of machine learning, executes the learning module, and acquires the cognitive learning device.
  • the teacher data here has, for example, one target image and a recognition result.
  • the output unit 54 of the image storage device 5 outputs four candidate images of each set in the storage unit 51 by the above-mentioned processing. It is assumed that the four candidate images are two original images and two composite images. Further, it is assumed that the two original images are an "RGB image” and an "IR image”.
  • the user selects one candidate image for each set. Then, the selection reception unit 521 accepts such a selection. Next, the discrimination unit 532 accumulates the correct example flag in association with the selected candidate image.
  • the user inputs the name of the object shown in the selected candidate image. Then, the recognition result reception unit 522 of the image storage device 5 receives the object name. Then, the processing unit 53 stores the object name in association with the selected candidate image.
  • the teacher data management table shown in FIG. 13 is accumulated in the storage unit 51 by the above processing.
  • the teacher data management table has two or more teacher data having "ID”, "original image 1", “original image 2", “composite image 1", “composite image 2", and "recognition result”.
  • the "ID” is information that identifies the set.
  • the "original image 1” is an RGB image
  • the "original image 2” is an IR image.
  • the "composite image 1" and the “composite image 2” are images synthesized by different algorithms, and are images synthesized by using the original image 1 and the original image 2.
  • the "recognition result” is the name of the object shown in the selected candidate image.
  • a “ ⁇ ” indicating that the candidate image is a positive example is given to the candidate image selected by the user, and a “ ⁇ ” indicating that the candidate image is not selected by the user is a negative example. "Is given.
  • the teacher data management table is also stored in the learning storage unit 61 of the learning device 6.
  • the selective learning unit 62 of the learning device 6 performs the selective learning process according to, for example, the flowchart of FIG. That is, the selective learning unit 62 acquires a set having one positive example image and three negative example images from each teacher data in the teacher data management table. Then, the selective learning unit 62 gives two or more sets to the learning module of machine learning, executes the learning module, acquires the selective learning device, and stores the selective learning device in the learning storage unit 61. It is preferable that the selective learning device is used by the above-mentioned photographing apparatus A for the selective processing.
  • the recognition learning unit 63 acquires, for example, one regular example image (candidate image corresponding to ⁇ ) and the recognition result from each teacher data in the teacher data management table. Then, the recognition learning unit 63 gives a set of one positive example image and the recognition result to the learning module of machine learning, executes the learning module, acquires the recognition learning device, and performs the recognition learning.
  • the vessel is stored in the learning storage unit 61. It is preferable that the recognition learning device is used by the above-mentioned photographing apparatus A for image recognition processing.
  • a selection learning device for selecting an image necessary for image recognition can be obtained.
  • a recognition learning device necessary for image recognition can be obtained.
  • the software that realizes the image storage device 5 in this embodiment is the following program. That is, this program includes an optical signal acquisition unit that photographs a computer and acquires an optical signal, an original image acquisition unit that acquires two or more different original images using the optical signal, and the original image acquisition unit. An output unit that outputs two or more candidate images including two or more original images acquired by the user, a selection reception unit that accepts the selection of one candidate image from the user, and one corresponding to the selection accepted by the selection reception unit.
  • one or more candidate images that were not selected as a negative example a distinguishing unit that performs discrimination processing, a recognition result receiving unit that accepts recognition results for optical signals, and a regular image and one or more.
  • the software that realizes the learning device 6 is the following program. That is, this program is a set of two or more computers that can access the learning storage unit in which two or more teacher data including a positive example image, one or more negative example images, and a recognition result are stored.
  • a selective learning unit that performs learning processing and acquires a selective learning device a cognitive learning unit that performs learning processing using two or more teacher data and acquires a cognitive learning device, and a selective learning device and cognitive learning. It is a program to function as a learning device storage unit that stores devices.
  • the software that realizes the learning device 6 may acquire and store only one of the learning device, the selective learning device and the recognition learning device.
  • the recognition result may be used in any way. That is, for example, the image recognition device A may be used for automatic operation. For example, if it is determined that the distance is within the threshold value by using the distance of the recognition result output by the output unit 4 of the image recognition device A, the control to apply the brake of the automobile may be performed.
  • FIG. 14 is a block diagram of a computer system 300 that can realize the photographing device A, the image storage device 5, and the learning device 6.
  • the computer system 300 includes a computer 301 including a CD-ROM drive, a keyboard 302, a mouse 303, and a monitor 304.
  • the computer 301 in addition to the CD-ROM drive 3012, the computer 301 includes an MPU 3013, a bus 3014 connected to the CD-ROM drive 3012, the ROM 3015 for storing a program such as a boot-up program, and the MPU 3013. It includes a RAM 3016 that is connected and for temporarily storing instructions of an application program and providing a temporary storage space, and a hard disk 3017 for storing an application program, a system program, and data. Although not shown here, the computer 301 may further include a network card that provides a connection to the LAN.
  • the program for causing the computer system 300 to execute the functions of the photographing apparatus A and the like according to the above-described embodiment may be stored in the CD-ROM 3101, inserted into the CD-ROM drive 3012, and further transferred to the hard disk 3017.
  • the program may be transmitted to the computer 301 via a network (not shown) and stored in the hard disk 3017.
  • the program is loaded into RAM 3016 at run time.
  • the program may be loaded directly from the CD-ROM3101 or the network.
  • the program does not necessarily have to include an operating system (OS) that causes the computer 301 to execute the function of the photographing apparatus A according to the above-described embodiment, a third-party program, or the like.
  • the program need only include a part of the instruction that calls the appropriate function (module) in a controlled manner and obtains the desired result. It is well known how the computer system 300 works, and detailed description thereof will be omitted.
  • the number of computers that execute the above program may be singular or plural. That is, centralized processing may be performed, or distributed processing may be performed. That is, the image storage device 5 and the like may be a stand-alone device or may be composed of two or more devices.
  • each process may be realized by centralized processing by a single device, or may be realized by distributed processing by a plurality of devices.
  • the image recognition device has the effect of being able to recognize images with high accuracy, and is useful as an image recognition device or the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

【課題】従来技術においては、撮影した画像の認識の精度が高くなかった。 【解決手段】撮影し、光信号を取得する光信号取得部31と、光信号を用いて、2以上の異なる元画像を取得する元画像取得部32と、2以上の元画像を用いて、光信号に関する認識処理を行い、認識結果を取得する認識部35と、認識結果を出力する出力部4とを具備する画像認識装置Aにより、高い精度で画像の認識ができる。

Description

画像認識装置、学習システム、画像蓄積装置、画像認識方法、画像蓄積方法、および記録媒体
 本発明は、撮影した画像に対して認識処理を行う画像認識装置等に関するものである。
 従来、撮影された画像に対して、機械学習により画像認識を行い、検出対象物を特定する技術が存在した(例えば、特許文献1参照)。
特開2016-218760号公報
 しかしながら、従来技術においては、高い精度で撮影した画像の認識を行うことは困難であった。なお、撮影した画像を、適宜、撮影画像と言う。
 本第一の発明の画像認識装置は、撮影し、光信号を取得する光信号取得部と、光信号を用いて、2以上の異なる元画像を取得する元画像取得部と、2以上の元画像を用いて、光信号に関する認識処理を行い、認識結果を取得する認識部と、認識結果を出力する出力部とを具備する画像認識装置である。
 かかる構成により、高い精度で撮影画像の認識ができる。
 また、本第二の発明の画像認識装置は、第一の発明に対して、2以上の元画像を合成し、合成画像を取得する合成画像取得部をさらに具備し、認識部は、少なくとも合成画像を用いて、画像の認識処理を行い、認識結果を取得する、画像認識装置である。
 かかる構成により、さらに高い精度で撮影画像の認識ができる。
 また、本第三の発明の画像認識装置は、第一または第二の発明に対して、元画像取得部が取得した2以上の元画像を含む候補画像から、認識処理に使用する1以上の対象画像を選択する選択部をさらに具備し、認識部は、1以上の対象画像を用いて、画像の認識処理を行い、認識結果を取得する、画像認識装置である。
 かかる構成により、高い精度で撮影画像の認識ができる。
 また、本第四の発明の画像認識装置は、第三の発明に対して、選択部は、2以上の候補画像のうち、予め決められた条件を満たす1以上の対象画像を選択する、画像認識装置である。
 かかる構成により、高い精度で撮影画像の認識ができる。
 また、本第五の発明の画像認識装置は、第四の発明に対して、選択部は、少なくとも2以上の元画像、および選択された画像を特定する画像識別情報を有する2以上の教師データを用いて、学習処理を行い取得された選択学習器と2以上の候補画像とを用いて、機械学習の予測処理を行い、1以上の対象画像を特定する、画像認識装置である。
 かかる構成により、高い精度で撮影画像の認識ができる。
 また、本第六の発明の画像認識装置は、第一から第五いずれか1つの発明に対して、認識部は、2以上の元画像を含むセットと認識結果とを用いて、学習処理を行い取得された認識学習器と、2以上の元画像とを用いて、機械学習の予測処理を行い、認識結果を取得する、画像認識装置である。
 かかる構成により、より高い精度で撮影画像の認識ができる。
 また、本第七の発明の学習システムは、画像蓄積装置と学習装置とを具備する学習システムであって、画像蓄積装置は、撮影し、光信号を取得する光信号取得部と、光信号を用いて、2以上の異なる元画像を取得する元画像取得部と、光信号に対する認識結果を受け付ける認識結果受付部と、2以上の異なる元画像を含む2以上の候補画像のうちの1以上の候補画像と認識結果とを有する教師データを蓄積する教師データ蓄積部とを具備し、学習装置は、画像蓄積装置が蓄積した2以上の教師データを用いて、学習処理を行い、認識学習器を取得する認識学習部と、認識学習器を蓄積する学習器蓄積部とを具備する、学習システムである。
 かかる構成により、精度の高い撮影画像の認識を可能にする認識学習器を取得できる。
 また、本第八の発明の学習システムは、第七の発明に対して、画像蓄積装置は、2以上の元画像を合成し、合成画像を取得する合成画像取得部をさらに具備し、教師データ蓄積部は、2以上の異なる元画像と合成画像とを含む3以上の候補画像のうちの1以上の候補画像と認識結果とを有する教師データを蓄積する、学習システムである。
 かかる構成により、合成画像をも用いて、より精度の高い撮影画像の認識を可能にする認識学習器を取得できる。
 また、本第九の発明の学習システムは、第七または第八の発明に対して、画像蓄積装置は、2以上の異なる元画像を含む2以上の候補画像を含むセットを出力するセット出力部と、セットに含まれる2以上候補画像のうち、一の候補画像の選択を受け付ける選択受付部とをさらに具備し、選択受付部が受け付けた選択に対応する一の候補画像を正例とし、選択されなかった1以上の候補画像を負例として、区別する処理を行う区別部とをさらに具備し、学習装置は、正例の一の候補画像と負例の1以上の候補画像とを含む2以上のセットを用いて、学習処理を行い、選択学習器を取得する選択学習部をさらに具備し、学習器蓄積部は、選択学習器を蓄積する、学習システムである。
 かかる構成により、画像の認識に用いる対象画像を精度高く選択できる。
 本発明による画像認識装置によれば、高い精度で画像の認識ができる。
実施の形態1における画像認識装置Aのブロック図 同画像認識装置Aの第一の動作例について説明するフローチャート 同元画像取得処理の例について説明するフローチャート 同合成画像取得処理の例について説明するフローチャート 同選択処理の第一の例について説明するフローチャート 同選択処理の第二の例について説明するフローチャート 同画像認識装置Aの第二の動作例について説明するフローチャート 同候補画像の例を示す図 実施の形態2における学習システムBの概念図 同学習システムBのブロック図 同画像蓄積装置5の動作例について説明するフローチャート 同選択学習処理の例について、説明するフローチャート 同教師データ管理表を示す図 上記実施の形態におけるコンピュータシステムのブロック図
 以下、画像認識装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
 (実施の形態1)
 本実施の形態において、撮影により、光信号を取得し、当該光信号を用いて2以上の元画像を取得し、2以上の元画像を用いて、認識処理を行い、認識結果を出力する画像認識装置について説明する。
 また、本実施の形態において、2以上の元画像を合成し、合成画像を取得し、当該合成画像を用いて、認識処理を行い、認識結果を出力する画像認識装置について説明する。
 また、本実施の形態において、2以上の元画像を含む候補画像のセットから、画像認識処理の対象となる対象画像を自動選択し、当該対象画像に対して認識処理を行い、認識結果を出力する画像認識装置について説明する。
 また、本実施の形態において、機械学習のアルゴリズムにより、対象画像を選択する画像認識装置について説明する。
 さらに、本実施の形態において、機械学習のアルゴリズムにより、認識処理を行う画像認識装置について説明する。
 図1は、本実施の形態における画像認識装置Aのブロック図である。画像認識装置Aは、格納部1、受付部2、処理部3、および出力部4を備える。処理部3は、光信号取得部31、元画像取得部32、合成画像取得部33、選択部34、および認識部35を備える。
 格納部1には、各種の情報が格納される。各種の情報は、例えば、後述する選択学習器、後述する認識学習器、2以上の元画像識別情報、1以上の合成画像識別情報、合成画像フラグである。
 元画像識別情報とは、取得する元画像の種類を識別する情報である。元画像識別情報は、例えば、「RGB画像」「IR画像」「NIR画像」である。元画像識別情報は、例えば、元画像を取得するためのプログラムの識別子(例えば、実行モジュール名、関数名、メソッド名)である。元画像識別情報は、例えば、元画像を取得するために行う画像処理識別子である。画像処理識別子は、画像処理を識別する情報であり、例えば、ID、1以上の画像処理を行うプログラムの識別子(例えば、実行モジュール名、関数名、メソッド名)である。
 元画像とは、光信号を用いて取得される画像である。元画像は、合成されていない画像である。元画像は、例えば、光信号を分光して得られる分光画像である。元画像は、例えば、一の分光画像に対して、所定の1以上の画像処理を施した画像である。元画像は、候補画像になり得る画像である。
 合成画像識別情報とは、取得する合成画像の種類を識別する情報である。合成画像識別情報は、例えば、合成画像を取得するためのプログラムの識別子(例えば、実行モジュール名、関数名、メソッド名)である。合成画像識別情報は、例えば、合成画像を取得する場合に使用する元画像の元画像識別情報を含む。かかる場合の元画像識別情報は、例えば、「RGB画像」「IR画像」「NIR画像」である。
 合成画像とは、2以上の画像を合成した画像である。なお、合成方法は問わない。合成画像とは、2以上の画像から取得される画像である。
 合成画像フラグとは、合成画像を取得するか否かを示す情報である。
 受付部2は、各種の指示や情報等を受け付ける。各種の指示や情報等とは、例えば、設定情報である。設定情報は、選択部34が取得する一の画像を特定するための情報である。
 ここで、受け付けとは、通常、タッチパネルやキーボードやマウスなどの入力デバイスから入力された情報の受け付けである。ただし、受け付けは、有線もしくは無線の通信回線を介して送信された情報の受信、光ディスクや磁気ディスク、半導体メモリなどの記録媒体から読み出された情報の受け付けなどを含む概念であっても良い。
 ユーザの指示の入力手段は、タッチパネルやキーボードやマウスやメニュー画面によるもの等、何でも良い。
 処理部3は、各種の処理を行う。各種の処理は、光信号取得部31、元画像取得部32、合成画像取得部33、選択部34、認識部35が行う処理である。
 光信号取得部31は、撮影し、光信号を取得する。光信号取得部31は、公知技術であるので詳細な説明を省略する。
 元画像取得部32は、光信号取得部31が取得した光信号を用いて、2以上の異なる元画像を取得する。2以上の異なる各元画像の元になる光信号は同じ光信号である。
 また、2以上の異なる元画像の中に含まれる対象は、通常、同じであるが、異なっていても良い。つまり、例えば、一の元画像が光信号と同じ領域の画像であり、他の元画像が当該画像の一部の領域の画像(いわゆるズームした画像)でも良い。例えば、元画像取得部32は、光信号取得部31が取得した光信号を分光し、近距離の「RGB画像」と遠距離の「IR画像」とを取得しても良い。かかる場合、遠距離の「IR画像」の領域は、近距離の「RGB画像」の領域より狭い。また、例えば、元画像取得部32はビームスプリッターを具備し、当該ビームスプリッターにより、単レンズからの光を2分割し、当該2分割した同じ分光特性を持つ光を、それぞれ焦点距離の違うセンサーに入力し、焦点距離が違う2つの画像(例えば、「近RGB画像」と「遠RGB画像」)を取得する。
 元画像取得部32は、例えば、光信号取得部31が取得した光信号をから一部の波長を抽出した2以上の分光画像を取得する。かかる場合、元画像は、分光画像である。2以上の分光画像は、例えば、RGB画像(カラー画像)とIR画像(赤外線画像)とNIR画像(近赤外線)のうちの2以上の画像である。
 元画像取得部32は、例えば、RGBとNIRを同時撮影できるセンサー(例えば、「http://www.optronics-media.com/news/20160606/42937/」参照(令和2年11月1日検索)を用いて実現できる。
 元画像取得部32は、例えば、光信号取得部31が取得した光信号からRGB画像を取得し、当該RGB画像に対して所定の画像処理が施された画像を取得する。かかる場合、元画像は、例えば、RGB画像と所定の画像処理が施された画像である。所定の画像処理は、例えば、シャープネス処理、ノイズ低減処理、明度向上の処理等であり、種々の公知の画像処理が該当し得る。
 元画像取得部32は、例えば、光信号取得部31が取得した光信号からIR画像を取得し、当該IR画像に対して所定の画像処理が施された画像を取得する。かかる場合、元画像は、例えば、IR画像と所定の画像処理が施された画像である。所定の画像処理は、例えば、シャープネス処理、ノイズ低減処理、明度向上の処理等であり、種々の公知の画像処理が該当し得る。
 元画像取得部32は、例えば、光信号取得部31が取得した光信号を分光し、RGB画像とIR画像とを取得する。そして、元画像取得部32は、例えば、当該RGB画像に対して所定の画像処理が施された画像と、当該IR画像に対して所定の画像処理が施された画像を取得する。かかる場合、元画像は、例えば、RGB画像とIR画像とRGB画像に対して所定の画像処理が施された画像とIR画像に対して所定の画像処理が施された画像である。
 なお、元画像取得部32が取得する2以上の異なる元画像の撮影対象は同一である。
 合成画像取得部33は、2以上の元画像を合成し、合成画像を取得する。合成画像取得部33は、元画像と合成画像とを合成し、新たな合成画像を取得しても良い。元画像の合成方法は問わない。
 合成画像取得部33は、例えば、2以上の元画像のうちのいずれか1以上の元画像の一部の領域の部分元画像を、一部の領域に対応する領域に採用した合成画像を取得する。
 合成画像取得部33は、例えば、2以上の元画像のうちの第一の元画像の第一の領域の第一の部分元画像を、第一の領域に対応する領域に採用した合成画像であり、2以上の元画像のうちの第二の元画像の第二の領域の第二の部分元画像を、第二の領域に対応する領域に採用した合成画像を取得する。
 合成画像取得部33は、例えば、2以上の各元画像から信号強度の強い画素を選択し、一の合成画像を取得する。例えば、合成画像取得部33は、2以上の異なる元画像(例えば、RGB画像とIR画像)をNAM回路で合成する。つまり、合成画像取得部33は、例えば、NAM回路を用いて、二つの元画像の同じ位置の各画素のうち、レベルの高い画素値を優先して出力し、合成画像を取得する。
 合成画像取得部33は、例えば、2以上の各元画像を予め決められた領域に区切り、同じ位置の領域ごとに、信号強度の強い方の領域を決定し、当該決定した領域の画素集合を組み合わせて、合成画像を取得する。なお、領域は、2以上の画素を有する。
 合成画像取得部33は、例えば、2以上の元画像と学習器とを、機械学習の予測処理のモジュールに与え、2以上の元画像が合成された合成画像を取得しても良い。かかる場合の学習器は、2以上の元画像と合成画像とからなる2以上の教師データを、機械学習の学習処理のモジュールに与え、当該モジュールが実行され、取得された学習器である。なお、機械学習のアルゴリズムは問わないことは、上述した通りである。また、かかる学習器は、2以上の元画像を入力し、合成画像を出力する予測処理で使用される。
 なお、合成画像と2以上の元画像の中のオブジェクトは、通常、同じオブジェクトであるが異なっていても良い。
 選択部34は、元画像取得部32が取得した2以上の元画像を含む候補画像から、認識処理に使用する1以上の対象画像を選択する。
 選択部34は、2以上の元画像と合成画像を含む3以上の候補画像のうち、一の対象画像を取得することは好適である。
 選択部34は、2以上の候補画像のうち、予め決められた条件を満たす1以上の対象画像を自動的に選択する。
 なお、予め決められた条件は、例えば、後述する機械学習の予測処理により選択されることである。予め決められた条件は、例えば、後述する機械学習の予測処理により取得されたスコアが最大であることである。予め決められた条件は、例えば、候補画像が有する各画素の代表値(例えば、平均値、中央値)が最大であることである。予め決められた条件は、例えば、候補画像が有する各画素の属性値(例えば、輝度,明度)の代表値(例えば、平均値、中央値)が最大であることである。
 選択部34は、選択学習器と2以上の候補画像とを用いて、機械学習の予測処理を行い、1以上の対象画像を特定する。なお、選択学習器は、少なくとも2以上の元画像、および選択された画像を特定する画像識別情報を有する2以上の教師データを用いて、学習処理を行い取得された情報である。選択学習器は、後述する学習装置6が取得した学習器であることは好適である。
 選択部34は、例えば、選択学習器と2以上の候補画像とを用いて、機械学習の予測処理を行い、一の対象画像を特定する画像識別情報を取得し、画像識別情報により特定される一の対象画像を取得する。なお、機械学習のアルゴリズムは、例えば、ランダムフォレスト、決定木、深層学習、SVM等であり、機械学習のアルゴリズムは問わない。また、機械学習の予測処理には、例えば、TensorFlowのライブラリ、tinySVM、R言語のrandom forestのモジュール等の各種の機械学習の関数や、種々の既存のライブラリを用いることができる。また、選択学習器は、例えば、後述する実施の形態2における学習装置6が取得した学習器である。なお、学習器は、分類器、モデルと言っても良い。
 また、ここでの選択学習器は、例えば、2以上の候補画像を入力し、一の候補画像または一の候補画像の識別子を出力するための情報である。選択学習器は、例えば、2以上の候補画像のうちのいずれかの候補画像を入力し、当該候補画像を対象画像として選択されるか否かを示すフラグ(真または偽)を出力するめの情報である。選択学習器は、例えば、2以上の候補画像のうちのいずれかの候補画像を入力し、当該候補画像を対象画像として選択されるか否かを示すフラグ(真または偽)およびスコアを出力するめの情報である。なお、対象画像は、画像認識の対象となる画像である。
 つまり、選択部34は、例えば、選択学習器を格納部1から取得し、当該選択学習器と2以上の候補画像とを、機械学習の予測処理のモジュールに与え、当該モジュールを実行し、一の候補画像を、対象画像として決定する。
 また、選択部34は、例えば、選択学習器を格納部1から取得する。そして選択部34は、例えば、2以上の候補画像のうちの一の候補画像と選択学習器との組を、順に、機械学習の予測処理のモジュールに与え、選択されるか否かを示すフラグと、スコアとを取得する。そして、選択部34は、例えば、選択されることを示すフラグが得られた候補画像であり、スコアが最大の候補画像を、対象画像として決定する。
 また、選択部34は、例えば、選択学習器を格納部1から取得し、当該選択学習器と2以上の候補画像とを、機械学習の予測処理のモジュールに与え、当該モジュールを実行し、2以上の候補画像を、対象画像として決定する。
 また、選択部34は、例えば、選択学習器を格納部1から取得する。そして選択部34は、例えば、2以上の候補画像のうちの一の候補画像と選択学習器との組を、順に、機械学習の予測処理のモジュールに与え、選択されるか否かを示すフラグと、スコアとを取得する。そして、選択部34は、例えば、選択されることを示すフラグが得られた候補画像であり、スコアが閾値以上または閾値より大きい1または2以上の候補画像を、対象画像として決定する。
 選択部34は、例えば、2以上の候補画像から、ユーザの指示に応じた一の候補画像を、対象画像として選択する。例えば、ユーザの指示が設定情報である場合、選択部34は、2以上の候補画像から、格納部1の設定情報に対応する候補画像を対象画像として選択する。設定情報は、例えば、2以上の候補画像の種類のうち、一の候補画像の種類を示す種類識別子である。種類識別子は、例えば、「RGB画像」「IR画像」「合成画像」である。
 認識部35は、2以上の元画像を用いて、光信号に関する認識処理を行い、認識結果を取得する。光信号に関する認識処理とは、通常、対象画像に対する画像認識処理である。
 認識部35は、例えば、少なくとも合成画像を用いて、画像認識処理を行い、認識結果を取得する。認識部35は、例えば、2以上の元画像と合成画像とを用いて、画像の認識処理を行い、認識結果を取得する。
 認識部35は、通常、1または2以上の対象画像を用いて、画像認識処理を行い、認識結果を取得する。1以上の対象画像は、2以上の候補画像から選択部34が選択した画像である。
 認識部35は、例えば、2以上の元画像を含むセットと認識結果とを用いて、学習処理を行い取得された認識学習器と、2以上の元画像とを用いて、機械学習の予測処理を行い、認識結果を取得する。2以上の元画像とを用いることは、2以上の元画像から取得された対象画像を用いることでも良い。
 認識部35は、機械学習のアルゴリズム以外の技術を用いて、対象画像に対して認識処理を行い、認識結果を取得しても良い。なお、機械学習のアルゴリズム以外の技術は、例えば、公知のオブジェクト認識技術、文字認識技術である。つまり、認識部35は、画像認識処理により、対象画像の中のオブジェクトを認識し、当該オブジェクトを識別するオブジェクト識別子を取得しても良い。また、認識部35は、対象画像の中のオブジェクトの色や形状を、画像認識処理により取得しても良い。
 認識結果は、例えば、撮影された光信号の中に含まれるオブジェクトのオブジェクト名、撮影された光信号の中に含まれる文字列(数字列でも良い)、当該オブジェクトの属性値(色、形状、サイズなど)である。また、光信号の中の情報とは、対象画像の中の情報である。
 認識部35は、2以上の各対象画像に対して認識処理を行い、2以上の各対象画像から異なる種類の認識結果を取得し、当該2以上の種類の認識結果を用いて、出力する認識結果を取得しても良い。認識部35は、例えば、一の対象画像から自動車の車種名と色とを有する認識結果を取得し、他の対象画像からナンバープレートの情報を取得しても良い。また、認識部35は、2以上の各対象画像に対して認識処理を行い、2以上の各対象画像から異なる認識結果を取得する場合に、2以上の各対象画像に対して異なる2以上のアルゴリズムを用いて、認識処理を行っても良い。例えば、認識部35は、一の対象画像に対して、機械学習の予測処理を行い車種名を取得し、当該一の対象画像に対して、画像認識を行い、自動車の輪郭を抽出し、当該自動車の領域の色情報(例えば、「白」)を取得し、他の対象画像からナンバープレートの領域の輪郭を抽出し、当該領域に対して文字認識処理を行い、ナンバープレートの番号を取得しても良い。なお、上記した通り、認識部35は、一つの対象画像に対して、2以上の異なるアルゴリズムにより、2以上の認識結果を取得しても良い。
 認識部35は、例えば、対象画像に写っている指紋の領域を検知し、指紋認証処理を行い、当該指紋に対応する人物の識別情報を図示しない格納部から取得する。かかる場合、格納部には、指紋の情報と人物の識別情報とを対応付ける情報が格納されている。
 認識部35は、例えば、対象画像に写っている人物の顔の領域を検出し、当該顔の領域の画像を用いて顔認証処理を行い、当該顔の画像に対応する人物の識別情報を図示しない格納部から取得する。かかる場合、格納部には、顔の画像と人物の識別情報とを対応付ける情報が格納されている。
 認識部35は、例えば、元画像取得部32が取得した焦点距離が違う2つの画像(近焦点側の画像をW、遠焦点側の画像をTとする)で得られた画像信号からパターン認識または機械学習等により、画像内のオブジェクト(例えば、前方の車)を認識する。そして、WとTとの画像の差をXとすると、認識部35は、Xを基準としてWとTの信号量を比較し、オブジェクトとの距離を算出する。なお、予めWの最大信号となる焦点距離を、例えば、1.0メーターとし、Tの信号が最大となる焦点距離を3.0メーターと設定しておけば、Xとの関連を取る事により、認識部35は、距離は取得できる。つまり、認識部35は、光信号取得部31から画像内のオブジェクトへの距離を、認識結果を構成する情報として取得できる。
 出力部4は、認識部35が取得した認識結果を出力する。ここで、出力とは、ディスプレイへの表示、プロジェクターを用いた投影、プリンタでの印字、音出力、外部の装置への送信、記録媒体への蓄積、他の処理装置や他のプログラムなどへの処理結果の引渡しなどを含む概念である。
 格納部1は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
 格納部1に情報が記憶される過程は問わない。例えば、記録媒体を介して情報が格納部1で記憶されるようになってもよく、通信回線等を介して送信された情報が格納部1で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された情報が格納部1で記憶されるようになってもよい。
 受付部2は、タッチパネルやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。
 処理部3、元画像取得部32、合成画像取得部33、選択部34、および認識部35は、通常、プロセッサやメモリ等から実現され得る。処理部3等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。なお、プロセッサは、例えば、CPU、MPU、GPU等であり、その種類は問わない。
 光信号取得部31は、例えば、いわゆるカメラの光学部品と撮像素子とにより実現される。
 出力部4は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。出力部4は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
 次に、画像認識装置Aの第一の動作例について、図2のフローチャートを用いて説明する。
 (ステップS201)光信号取得部31は、光信号を取得する。
 (ステップS202)元画像取得部32は、光信号取得部31が取得した光信号を用いて、2以上の異なる元画像を取得する。かかる元画像取得処理の例について、図3のフローチャートを用いて説明する。
 (ステップS203)合成画像取得部33は、合成画像を取得するか否かを判断する。合成画像を取得する場合はステップS205に行き、合成画像を取得しない場合はステップS206に行く。なお、合成画像取得部33は、常に、合成画像を取得しても良い。また、合成画像取得部33は、例えば、格納部1の合成画像フラグが合成画像を取得する旨を示す情報である場合に、合成画像を取得すると判断しても良い。ただし、合成画像を取得すると判断するための条件は問わない。
 (ステップS204)合成画像取得部33は、合成画像を取得する。かかる合成画像取得処理の例について、図4のフローチャートを用いて説明する。
 (ステップS205)選択部34は、元画像取得部32が取得した2以上の元画像を含む候補画像のうち、一の対象画像を取得する。なお、選択部34は、2以上の元画像と合成画像を含む3以上の候補画像のうち、一の対象画像を取得することは好適である。かかる選択処理の例について、図5、図6のフローチャートを用いて説明する。
 (ステップS206)認識部35は、ステップS205で取得された一の対象画像に対して、画像認識処理を行い、認識結果を取得する。
 (ステップS207)出力部4は、ステップS206で取得された認識結果を出力する。
 (ステップS208)処理部3は、処理を終了するか否かを判断する。処理を終了すると判断した場合は処理を終了し、処理を終了しないと判断した場合はステップS201に戻る。ここで、処理を終了するための条件は問わない。画像認識装置Aが、例えば、自動車等に搭載される車載装置である場合、処理を終了するための条件は、例えば、自動車等の移動体のエンジンがOFFになったことである。
 次に、ステップS202の元画像取得処理の例について、図3のフローチャートを用いて説明する。
 (ステップS301)元画像取得部32は、カウンタiに1を代入する。
 (ステップS302)元画像取得部32は、元画像を取得するためのi番目の元画像識別情報が格納部1に存在するか否かを判断する。
 (ステップS303)元画像取得部32は、i番目の元画像識別情報に対応するi番目の元画像を取得し、図示しないバッファに一時蓄積する。
 (ステップS304)元画像取得部32は、カウンタiを1、インクリメントする。ステップS302に戻る。
 次に、ステップS204の合成画像取得処理の例について、図4のフローチャートを用いて説明する。
 (ステップS401)合成画像取得部33は、カウンタiに1を代入する。
 (ステップS402)合成画像取得部33は、i番目の合成画像を取得するか否かを判断する。i番目の合成画像を取得する場合はステップS403に行き、i番目の合成画像を取得しない場合は上位処理にリターンする。なお、例えば、合成画像取得部33は、格納部1にi番目の合成画像識別情報が存在するか否かにより、i番目の合成画像を取得するか否かを判断する。
 (ステップS403)合成画像取得部33は、i番目の合成画像を取得するために使用する2以上の元画像を図示しないバッファから取得する。
 (ステップS404)合成画像取得部33は、ステップS403で取得した2以上の元画像を用いて、i番目の合成画像を取得し、当該合成画像を図示しないバッファに一時蓄積する。
 (ステップS405)合成画像取得部33は、カウンタiを1、インクリメントする。ステップS402に戻る。
 次に、ステップS205の選択処理の第一の例について、図5のフローチャートを用いて説明する。
 (ステップS501)選択部34は、格納部1から選択学習器を取得する。
 (ステップS502)選択部34は、カウンタiに1を代入する。
 (ステップS503)選択部34は、図示しないバッファにi番目の候補画像が存在するか否かを判断する。i番目の候補画像が存在する場合はステップS504に行き、i番目の候補画像が存在しない場合はステップS508に行く。
 (ステップS504)選択部34は、図示しないバッファからi番目の候補画像を取得する。
 (ステップS505)選択部34は、選択学習器とi番目の候補画像とを機械学習の予測モジュールに与え、当該予測モジュールを実行し、予測結果を取得する。なお、予測結果は、ここでは、選択されるか否かを示すフラグ(予測値)とスコアである。スコアは高いほど、選択される尤度が大きい、とする。
 (ステップS506)選択部34は、i番目の候補画像に対応付けて、予測値とスコアとを図示しないバッファに一時蓄積する。
 (ステップS507)選択部34は、カウンタiを1、インクリメントする。ステップS503に戻る。
 (ステップS508)選択部34は、選択されることを示す予測値であり、最大のスコアと対になる候補画像を、対象画像に決定する。上位処理にリターンする。
 次に、ステップS205の選択処理の第二の例について、図6のフローチャートを用いて説明する。図6のフローチャートにおいて、図5のフローチャートと同一のステップについて説明を省略する。
 (ステップS601)選択部34は、2以上の候補画像を図示しないバッファから取得する。
 (ステップS602)選択部34は、選択学習器と2以上の候補画像とを機械学習の予測モジュールに与え、当該予測モジュールを実行し、予測結果を取得する。なお、予測結果は、ここでは、対象画像を特定する情報である。対象画像を特定する情報は、対象画像でも良いし、対象画像の識別子(例えば、ファイル名)等でも良い。
 (ステップS603)選択部34は、予測結果に対応する候補画像を対象画像に決定する。
 次に、画像認識装置Aの第二の動作例について、図7のフローチャートを用いて説明する。図7のフローチャートにおいて、図2のフローチャートと同一のステップについて説明を省略する。
 (ステップS701)認識部35は、カウンタiに1を代入する。
 (ステップS702)認識部35は、画像認識処理の対象であるi番目の対象画像が存在するか否かを判断する。i番目の対象画像が存在する場合はステップS703に行き、i番目の対象画像が存在しない場合はステップS705に行く。
 (ステップS703)認識部35は、i番目の対象画像に対して画像認識処理を行い、i番目の認識結果を取得し、図示しないバッファに一時蓄積する。
 (ステップS704)認識部35は、カウンタiを1、インクリメントする。ステップS702に戻る。
 (ステップS705)認識部35は、図示しないバッファ内の1以上の認識結果を用いて、出力する認識結果を取得する。ステップS207に行く。
 なお、認識部35は、例えば、画像認識処理の結果、取得された最大のスコアに対応する認識結果を取得する。認識部35は、例えば、2以上の認識結果のうち、最も多い認識結果を、出力する認識結果として取得する。
 なお、図7のフローチャートにおいて、すべての候補画像に対して、画像認識処理を行った。しかし、候補画像から1または2以上の対象画像を選択し、当該1以上の対象画像に対して、画像認識処理を行っても良い。
 以下、本実施の形態における撮影装置Aの具体的な動作について説明する。撮影装置Aの外観は、例えば、カメラである。
 今、格納部1には、「RGB画像」「IR画像」の2つの元画像識別情報が格納されている、とする。また、格納部1には、合成画像を取得する一のプログラムのモジュール名である合成画像識別情報が格納されている、とする。当該一のプログラムは、「RGB画像」「IR画像」のうちの輝度の平均値が高い方の元画像をベースとして採用し、ナンバープレートの領域を検知し、ナンバープレートの領域のシャープネスが大きい方の元画像のナンバープレートの領域を採用するプログラムである、とする。
 また、格納部1には、3つの候補画像から一の候補画像を選択する選択学習器が格納されている。
 さらに、格納部1には、対象画像を与えると、当該対象画像に写っている自動車の車種を識別する車種情報を取得する認識学習器が格納されている、とする。なお、かかる認識学習器は、自動車を撮影した画像と車種情報とを有する2以上の教師データに対して、機械学習の学習処理を行い取得された情報である。
 以上の状況において、撮影装置Aの光信号取得部31は、撮影し、光信号を取得した、とする。
 次に、元画像取得部32は、光信号取得部31が取得した光信号を用いて、「RGB画像」「IR画像」の2つの元画像を取得する。「RGB画像」は、図8の81である。「IR画像」は、図8の82である。
 また、合成画像取得部33は、合成画像識別情報が示すモジュール名で識別されるモジュールを実行し、合成画像を取得する。かかる合成画像は、図8の83である。
 次に、選択部34は、格納部1の選択学習器を取得する。選択部34は、3つの候補画像(「RGB画像81」「IR画像82」「合成画像83」)と選択学習器とを、機械学習の予測モジュールに与え、一の画像(ここでは、合成画像83)を取得した、とする。
 次に、認識部35は、合成画像83に対して、画像認識処理を行い、ナンバープレートの番号「20-20」を取得する。また、認識部35は、自動車の色「白」を取得する。
 また、認識部35は、格納部1の認識学習器を取得する。そして、認識部35は、合成画像83と認識学習器とを、機械学習の予測モジュールに与え、当該予測モジュールを実行し、合成画像83に写っている自動車の車種「XXX」を取得した、とする。
 次に、出力部4は、認識結果「<車種>XXX <色>白 <ナンバープレート>20-20」を出力する。
 以上、本実施の形態によれば、高い精度で画像の認識ができる。つまり、本実施の形態によれば、2以上の候補画像から画像認識対象の対象画像を選択し、当該対象画像に対して画像認識処理を行うことにより、高い精度で画像の認識ができる。
 なお、本実施の形態における画像認識装置Aの用途は問わないことは言うまでもない。画像認識装置Aは、例えば、監視カメラとして利用可能である。監視カメラは、例えば、車の自動運転やドライブレコーダ用の監視カメラである。また、監視カメラは、例えば、ドライブレコーダの車内監視のためのカメラ、後部座席の監視のためのカメラ、運転者の動向や居眠り監視のためのカメラである。画像認識装置Aは、例えば、車の自動運転のためのカメラ、ドライブレコーダの車外監視のためのカメラである。
 また、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布されても良い。また、このソフトウェアをCD-ROMなどの記録媒体に記録して流布されても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における画像認識装置Aを実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、撮影し、光信号を取得する光信号取得部と、前記光信号を用いて、2以上の異なる元画像を取得する元画像取得部と、前記2以上の元画像を用いて、前記光信号に関する認識処理を行い、認識結果を取得する認識部と、前記認識結果を出力する出力部として機能させるためのプログラムである。
 (実施の形態2)
 本実施の形態において、画像認識装置Aが使用し得る選択学習器、認識学習器を取得する学習システムについて説明する。
 図9は、本実施の形態における学習システムBの概念図である。学習システムBは、1または2以上の画像蓄積装置5、および学習装置6を備える。なお、学習システムBは、一の装置で実現されても良いし、3以上の装置で実現されても良い。
 画像蓄積装置5は、画像を撮影し、当該画像を用いて、2以上の候補画像のセットを取得し、当該セットから一の選択を受け付ける。そして、画像蓄積装置5は、セットの中で、選択された候補画像と選択されなかった候補画像とを区別可能な状態で、セットを蓄積する。また、画像蓄積装置5は、画像の中のオブジェクトに関するオブジェクト情報を受け付ける。オブジェクト情報は、上述した認識結果に相当する情報である。画像蓄積装置5は、例えば、カメラ、またはカメラ付きのコンピュータである。カメラは、静止画を撮影できるものでも、動画を撮影できるものでも良い。
 学習装置6は、2以上のセットを用いて学習処理を行い、2以上の候補画像から一の画像を選択するための選択学習器を構成する装置である。また、学習装置6は、画像とオブジェクト情報とを有する2以上の教師データを学習し、認識学習器を構成する装置である。
 図10は、本実施の形態における学習システムBのブロック図である。学習システムBを構成する画像蓄積装置5は、格納部51、受付部52、処理部53、および出力部54を備える。受付部52は、選択受付部521、および認識結果受付部522を備える。処理部53は、光信号取得部31、元画像取得部32、合成画像取得部33、教師データ蓄積部531、および区別部532を備える。出力部54は、セット出力部541を備える。
 学習装置6は、学習格納部61、選択学習部62、認識学習部63、および学習器蓄積部64を備える。
 画像蓄積装置5を構成する格納部51には、各種の情報が格納される。各種の情報は、例えば、2以上の候補画像のセットである。
 受付部52は、各種の指示や情報を受け付ける。各種の指示や情報は、例えば、撮影指示、選択指示、後述する認識結果である。選択指示は、画像の選択の指示である。選択指示は、単に、選択と言っても良い。
 各種の指示や情報の入力手段は、タッチパネルやキーボードやマウスやメニュー画面によるもの等、何でも良い。
 選択受付部521は、セットに含まれる2以上候補画像のうち、一の候補画像の選択を受け付ける。
 認識結果受付部522は、光信号に対する認識結果を受け付ける。光信号に対する認識結果は、画像に対する認識結果と同じ意味である。認識結果は、光信号に対する画像の中のオブジェクトに関するオブジェクト情報である。
 処理部53は、各種の処理を行う。各種の処理は、例えば、光信号取得部31、元画像取得部32、合成画像取得部33、セット蓄積部531、区別部532が行う処理である。
 教師データ蓄積部531は、2以上の教師データを蓄積する。教師データは、元画像取得部32が取得した2以上の異なる元画像を含む2以上の候補画像のうちの1以上の候補画像を含む。教師データは、例えば、選択受付部521が受け付けた選択に対応する候補画像と、選択に対応しない1以上の候補画像とを区別可能な候補画像のセットを含む。教師データは、例えば、認識結果受付部522が受け付けた認識結果を有する。
 なお、教師データが有する1以上の候補画像は、選択受付部521が受け付けられた選択に対応する一つの候補画像でも良いし、2以上の候補画像のセットでも良い。2以上の候補画像は、例えば、元画像取得部32が取得した2以上の元画像である。2以上の候補画像は、例えば、元画像取得部32が取得した2以上の元画像と合成画像取得部33が取得した1以上の合成画像である。2以上の候補画像は、例えば、選択受付部521が受け付けた選択に対応する2以上の候補画像である。
 教師データ蓄積部531は、例えば、元画像取得部32が取得した2以上の異なる元画像を含む2以上の候補画像のうち、選択受付部521が受け付けた候補画像と、認識結果受付部522が受け付けた認識結果とを有する教師データを蓄積する。
 教師データ蓄積部531は、2以上の異なる元画像と合成画像とを含む3以上の候補画像のうちの1以上の候補画像と認識結果とを有する教師データを蓄積する。
 区別部532は、選択受付部521が受け付けた選択に対応する一の候補画像を正例とし、選択されなかった1以上の候補画像を負例として、区別する処理を行う。区別する処理とは、例えば、選択された一の候補画像に、正例フラグを対応付ける処理である。区別する処理とは、例えば、選択されなかった1以上の各候補画像に、負例フラグを対応付ける処理である。区別する処理とは、例えば、選択された一の候補画像に、正例フラグを対応付け、選択されなかった1以上の各候補画像に、負例フラグを対応付ける処理である。区別する処理とは、例えば、選択された一の候補画像と、選択されなかった1以上の候補画像とを、異なるフォルダに蓄積する処理である。選択された一の候補画像と、選択されなかった1以上の候補画像とを区別できれば良く、区別する処理、方法は問わない。
 出力部54は、各種の情報を出力する。各種の情報は、2以上の候補画像のセットである。また、ここで、出力とは、ディスプレイへの表示、プロジェクターを用いた投影、プリンタでの印字、外部の装置への送信、記録媒体への蓄積、他の処理装置や他のプログラムなどへの処理結果の引渡しなどを含む概念である。
 セット出力部541は、2以上の異なる元画像を含む2以上の候補画像を含むセットを出力する。
 学習装置6を構成する学習格納部61には、各種の情報が格納される。各種の情報は、2以上の教師データである。2以上の教師データは、画像蓄積装置5が蓄積したデータである。
 教師データは、例えば、正例画像と1以上の負例画像とを含む。なお、正例画像は、正例の候補画像である。負例画像は、負例の候補画像である。また、かかる教師データは、選択学習器を取得するためのデータである。
 教師データは、例えば、画像と認識結果とを含む。かかる教師データは、認識学習器を取得するためのデータである。
 選択学習部62は、一の正例画像と1以上の負例画像とを含む2以上のセットを用いて、学習処理を行い、選択学習器を取得する。選択学習器は、2以上の候補画像から、1以上の対象画像を決定するための学習器である。
 かかる学習処理は、機械学習のアルゴリズムを用いた学習処理である。なお、機械学習のアルゴリズムは、例えば、ランダムフォレスト、決定木、深層学習、SVM等であり、機械学習のアルゴリズムは問わない。また、機械学習の学習処理には、例えば、TensorFlowのライブラリ、tinySVM、R言語のrandom forestのモジュール等の各種の機械学習の関数や、種々の既存のライブラリを用いることができる。
 選択学習部62は、例えば、一の正例画像と1以上の負例画像とを含む2以上のセットを、機械学習の学習モジュールに与え、当該学習モジュールを実行し、選択学習器を取得する。
 選択学習部62は、例えば、一の正例画像と、当該一の正例画像と同じ撮影対象の一の負例画像の組を、2以上のセットから構成する。選択学習部62は、構成した2以上の画像の組を、機械学習の学習モジュールに与え、当該学習モジュールを実行し、選択学習器を取得する。
 認識学習部63は、画像蓄積装置5が蓄積した2以上の教師データを用いて、学習処理を行い、認識学習器を取得する。ここでの教師データは、一の対象画像と認識結果である。なお、教師データは、2以上の対象画像と認識結果でも良い。
 認識学習部63は、2以上の教師データを、機械学習の学習モジュールに与え、当該学習モジュールを実行し、認識学習器を取得する。
 なお、かかる学習処理も、機械学習のアルゴリズムを用いた学習処理であり、そのアルゴリズムは問わない。
 学習器蓄積部64は、選択学習部62が取得した選択学習器を蓄積する。学習器蓄積部64は、認識学習部63が取得した認識学習器を蓄積する。なお、学習器の蓄積先は問わない。
 格納部51、および学習格納部61は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
 格納部51等に情報が記憶される過程は問わない。例えば、記録媒体を介して情報が格納部51等で記憶されるようになってもよく、通信回線等を介して送信された情報が格納部51等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された情報が格納部51等で記憶されるようになってもよい。
 受付部52、選択受付部521、および認識結果受付部522は、タッチパネルやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。
 処理部53、教師データ蓄積部531、区別部532、選択学習部62、認識学習部63、および学習器蓄積部64は、通常、プロセッサやメモリ等から実現され得る。処理部53等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。なお、プロセッサは、例えば、CPU、MPU、GPU等であり、その種類は問わない。
 次に、学習システムBの動作例について説明する。まず、画像蓄積装置5の動作例について、図11のフローチャートを用いて説明する。図11のフローチャートにおいて、図2のフローチャートと同一のステップについて、説明を省略する。
 (ステップS1101)処理部53は、撮影を行うか否かを判断する。撮影を行う場合はステップS202に行き、撮影を行わない場合はステップS201に戻る。なお、処理部53は、例えば、受付部52が撮影指示を受け付けた場合に、撮影を行うと判断する。また、処理部53は、例えば、受付部52が撮影指示を受け付けた後、撮影終了の指示を受け付けるまで、撮影を行うと判断する。処理部53が撮影を行うと判断する条件は問わない。
 (ステップS1102)出力部54は、取得された2以上の候補画像を出力する。なお、2以上の候補画像は、例えば、2以上の元画像である。2以上の候補画像は、例えば、2以上の元画像と1以上の合成画像である。なお、かかる出力は、通常、ディスプレイへの出力である。
 (ステップS1103)選択受付部521は、ユーザからの選択を受け付けたか否かを判断する。選択を受け付けた場合はステップS1104に行き、選択を受け付けなかった場合はステップS1103に戻る。
 (ステップS1104)区別部532は、ステップS1103で選択された候補画像に、正例フラグを対応付ける。
 (ステップS1105)認識結果受付部522は、認識結果を受け付けたか否かを判断する。認識結果を受け付けた場合はステップS1106に行き、認識結果を受け付けなかった場合はステップS1105に戻る。なお、かかる認識結果は、通常、ユーザが入力した情報である。
 (ステップS1106)教師データ蓄積部531は、教師データを構成する。教師データ蓄積部531は、例えば、一の正例画像と1以上の負例画像と認識結果とを有する教師データを構成する。教師データ蓄積部531は、例えば、2以上の正例画像と1以上の負例画像と認識結果とを有する教師データを構成する。
 (ステップS1107)教師データ蓄積部531は、ステップS1106で構成した教師データを図示しないバッファに蓄積する。ステップS1101に戻る。
 なお、図11のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
 次に、学習装置6が選択学習器を取得する選択学習処理の例について、図12のフローチャートを用いて説明する。なお、学習格納部61には、2以上のセットが格納されている、とする。なお、セットは、例えば、選択された一の正例の候補画像と1以上の負例の候補画像のセットである。つまり、セットとは、正例画像と負例画像が区別された2以上の候補画像を有する。
 (ステップS1201)学習装置6は、学習を開始するか否かを判断する。学習を開始する場合はステップS1202に行き、学習を開始しない場合はステップS1201に戻る。なお、学習を開始する条件は問わない。例えば、ユーザの指示により、学習装置6は、学習を開始すると判断する。
 (ステップS1202)選択学習部62は、カウンタiに1を代入する。
 (ステップS1203)選択学習部62は、学習格納部61に、i番目のセットが存在するか否かを判断する。
 (ステップS1204)選択学習部62は、i番目のセットが有する一の正例画像を取得する。なお、正例画像とは、正例フラグに対応付く候補画像である。
 (ステップS1205)選択学習部62は、カウンタjに1を代入する。
 (ステップS1206)選択学習部62は、i番目のセットが有するj番目の負例画像を取得する。
 (ステップS1207)選択学習部62は、ステップS1204で取得した正例画像とステップS1206で取得したj番目の負例画像との組を取得し、図示しないバッファに一時蓄積する。
 (ステップS1208)選択学習部62は、カウンタjを1、インクリメントする。ステップS1206に戻る。
 (ステップS1209)選択学習部62は、カウンタiを1、インクリメントする。ステップS1203に戻る。
 (ステップS1210)選択学習部62は、図示しないバッファに一時蓄積した2以上の正例画像と負例画像との組を学習モジュールに与え、当該モジュールを実行し、選択学習器を取得する。
 (ステップS1211)学習器蓄積部64は、ステップS1210で取得された選択学習器を蓄積する。ステップS1201に戻る。
 なお、図11のフローチャートにおいて、選択学習部62は、2以上のセットを、機械学習の学習モジュールに与え、当該学習モジュールを実行し、選択学習器を取得しても良い。
 また、図11のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
 次に、学習装置6が認識学習器を取得する認識学習処理の例について説明する。認識学習部63は、2以上の教師データを学習格納部61から取得する。次に、認識学習部63は、当該2以上の教師データを、機械学習の学習モジュールに与え、当該学習モジュールを実行し、認識学習器を取得する。なお、ここでの教師データは、例えば、一の対象画像と認識結果とを有する。
 以下、本実施の形態における学習システムBの具体的な動作について説明する。
 画像蓄積装置5の出力部54は、上述した処理により、格納部51の中の各セットの4つ候補画像を出力する。なお、4つ候補画像は、2つの元画像と2つの合成画像である、とする。また、2つの元画像は、「RGB画像」と「IR画像」である、とする。
 そして、ユーザは、セットごとに、一の候補画像を選択する。すると、選択受付部521は、かかる選択を受け付ける。次に、区別部532は、選択された候補画像に対応付けて、正例フラグを蓄積する。
 また、ユーザは、選択された候補画像に写っているオブジェクトの名称を入力する。すると、画像蓄積装置5の認識結果受付部522は、オブジェクト名を受け付ける。そして、処理部53は、当該オブジェクト名を選択された候補画像に対応付けて蓄積する。
 以上の処理により、格納部51に、図13に示す教師データ管理表が蓄積された、とする。教師データ管理表は「ID」「元画像1」「元画像2」「合成画像1」「合成画像2」「認識結果」を有する2以上の教師データを有する。「ID」は、セットを識別する情報である。「元画像1」はRGB画像、「元画像2」はIR画像である。「合成画像1」「合成画像2」は、各々、異なるアルゴリズムにより合成された画像であり、元画像1と元画像2とを用いて合成された画像である、とする。「認識結果」は、選択された候補画像に写っているオブジェクトの名称である。
 また、図13において、ユーザにより選択された候補画像には、正例であることを示す「○」が付与され、ユーザにより選択されなかった候補画像には、負例であることを示す「×」が付与されている。
 そして、かかる教師データ管理表は、学習装置6の学習格納部61にも蓄積された、する。
 次に、学習装置6は、学習を開始する、と判断した、とする。
 次に、学習装置6の選択学習部62は、例えば、図12のフローチャートに従って、選択学習処理を行う。つまり、選択学習部62は、教師データ管理表の各教師データから、一の正例画像と3つの負例画像とを有するセットを取得する。そして、選択学習部62は、2以上のセットを、機械学習の学習モジュールに与え、当該学習モジュールを実行し、選択学習器を取得し、当該選択学習器を学習格納部61に蓄積する。なお、かかる選択学習器は、上述した撮影装置Aが選択処理のために利用することは好適である。
 また、認識学習部63は、例えば、教師データ管理表の各教師データから、一の正例画像(○に対応する候補画像)と認識結果とを取得する。そして、認識学習部63は、一の正例画像と認識結果との組、2組以上を、機械学習の学習モジュールに与え、当該学習モジュールを実行し、認識学習器を取得し、当該認識学習器を学習格納部61に蓄積する。なお、かかる認識学習器は、上述した撮影装置Aが画像認識処理のために利用することは好適である。
 以上、本実施の形態によれば、画像認識に必要な画像を選択するための選択学習器が得られる。
 また、本実施の形態によれば、画像認識に必要な認識学習器が得られる。
 なお、本実施の形態における画像蓄積装置5を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、撮影し、光信号を取得する光信号取得部と、前記光信号を用いて、2以上の異なる元画像を取得する元画像取得部と、前記元画像取得部が取得した2以上の元画像を含む2以上の候補画像を出力する出力部と、ユーザからの一の候補画像の選択を受け付ける選択受付部と、前記選択受付部が受け付けた選択に対応する一の候補画像を正例とし、選択されなかった1以上の候補画像を負例として、区別する処理を行う区別部と、光信号に対する認識結果を受け付ける認識結果受付部と、正例画像と1以上の負例画像と認識結果とを含む教師データを蓄積する教師データ蓄積部として機能させるためのプログラムである。
 また、学習装置6を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、このプログラムは、正例画像と1以上の負例画像と認識結果とを含む2以上の教師データが格納される学習格納部にアクセス可能なコンピュータを、前記2以上のセットを用いて、学習処理を行い、選択学習器を取得する選択学習部と2以上の教師データを用いて、学習処理を行い、認識学習器を取得する認識学習部と、選択学習器と認識学習器とを蓄積する学習器蓄積部として機能させるためのプログラムである。なお、学習装置6を実現するソフトウェアは、選択学習器と認識学習器のうちの一方の学習器のみを取得し、蓄積するものでも良い。
 また、上述の実施の形態において、認識結果をどのように用いても良い。つまり、例えば、画像認識装置Aを自動運転に用いても良い。例えば、画像認識装置Aの出力部4が出力した認識結果が有する距離を用いて、当該距離が閾値以内であると判断した場合には、自動車のブレーキをかける制御を行っても良い。
 また、上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図14は、撮影装置A、画像蓄積装置5、学習装置6を実現し得るコンピュータシステム300のブロック図である。
 図14において、コンピュータシステム300は、CD-ROMドライブを含むコンピュータ301と、キーボード302と、マウス303と、モニタ304とを含む。
 図14において、コンピュータ301は、CD-ROMドライブ3012に加えて、MPU3013と、CD-ROMドライブ3012等に接続されたバス3014と、ブートアッププログラム等のプログラムを記憶するためのROM3015と、MPU3013に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのRAM3016と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク3017とを含む。ここでは、図示しないが、コンピュータ301は、さらに、LANへの接続を提供するネットワークカードを含んでも良い。
 コンピュータシステム300に、上述した実施の形態の撮影装置A等の機能を実行させるプログラムは、CD-ROM3101に記憶されて、CD-ROMドライブ3012に挿入され、さらにハードディスク3017に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ301に送信され、ハードディスク3017に記憶されても良い。プログラムは実行の際にRAM3016にロードされる。プログラムは、CD-ROM3101またはネットワークから直接、ロードされても良い。
 プログラムは、コンピュータ301に、上述した実施の形態の撮影装置Aの機能を実行させるオペレーティングシステム(OS)、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム300がどのように動作するかは周知であり、詳細な説明は省略する。
 また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。つまり、画像蓄積装置5等は、スタンドアロンの装置であっても良く、2以上の装置から構成されても良い。
 また、上記各実施の形態において、各処理は、単一の装置によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
 本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
 以上のように、本発明にかかる画像認識装置は、高い精度で画像の認識ができる、という効果を有し、画像認識装置等として有用である。

Claims (11)

  1. 撮影し、光信号を取得する光信号取得部と、
    前記光信号から一部の波長を抽出した2以上の分光画像である2以上の異なる元画像を取得する元画像取得部と、
    少なくとも2以上の元画像、および選択された画像を特定する画像識別情報を有する2以上の教師データを用いて、学習処理を行い取得された選択学習器と、前記元画像取得部が取得した2以上の元画像を含む2以上の候補画像とを用いて、機械学習の予測処理を行い、認識処理に使用する1以上の対象画像を特定する選択部と、
    前記1以上の対象画像を用いて、前記光信号に関する認識処理を行い、認識結果を取得する認識部と、
    前記認識結果を出力する出力部とを具備する画像認識装置。
  2. 前記2以上の元画像を合成し、合成画像を取得する合成画像取得部をさらに具備し、
    前記選択部は、
    前記選択学習器と、少なくとも前記合成画像を含む2以上の候補画像とを用いて、機械学習の予測処理を行い、前記1以上の対象画像を特定する、請求項1記載の画像認識装置。
  3. 前記認識部は、
    2以上の元画像を含むセットと認識結果とを用いて、学習処理を行い取得された認識学習器と、前記2以上の元画像とを用いて、機械学習の予測処理を行い、認識結果を取得する、請求項1記載の画像認識装置。
  4. 前記認識部は、
    前記1以上の対象画像を用いて、前記光信号に関する認識処理を行い、オブジェクトを認識し、当該オブジェクトを識別するオブジェクト識別子である認識結果を取得する、請求項1記載の画像認識装置。
  5. 画像蓄積装置と学習装置とを具備する学習システムであって、
    前記画像蓄積装置は、
    撮影し、光信号を取得する光信号取得部と、
    前記光信号を用いて、2以上の異なる元画像を取得する元画像取得部と、
    前記光信号に対する認識結果を受け付ける認識結果受付部と、
    前記2以上の異なる元画像を含む2以上の候補画像のうちの1以上の候補画像と前記認識結果とを有する教師データを蓄積する教師データ蓄積部とを具備し、
    前記学習装置は、
    前記画像蓄積装置が蓄積した2以上の教師データを用いて、学習処理を行い、認識学習器を取得する認識学習部と、
    前記認識学習器を蓄積する学習器蓄積部とを具備し、
    前記画像蓄積装置は、
    前記2以上の異なる元画像を含む2以上の候補画像を含むセットを出力するセット出力部と、
    前記セットに含まれる2以上候補画像のうち、一の候補画像の選択を受け付ける選択受付部とをさらに具備し、
    前記選択受付部が受け付けた選択に対応する一の候補画像を正例とし、当該選択されなかった1以上の候補画像を負例として、区別する処理を行う区別部とをさらに具備し、
    前記学習装置は、
    正例の一の候補画像と負例の1以上の候補画像とを含む2以上のセットを用いて、学習処理を行い、選択学習器を取得する選択学習部をさらに具備し、
    前記学習器蓄積部は、
    前記選択学習器を蓄積する、学習システム。
  6. 前記画像蓄積装置は、
    前記2以上の元画像を合成し、合成画像を取得する合成画像取得部をさらに具備し、
    前記教師データ蓄積部は、
    前記2以上の異なる元画像と前記合成画像とを含む3以上の候補画像のうちの1以上の候補画像と前記認識結果とを有する教師データを蓄積する、請求項5記載の学習システム。
  7. 撮影し、光信号を取得する光信号取得部と、
    前記光信号を用いて、2以上の異なる元画像を取得する元画像取得部と、
    前記光信号に対する認識結果を受け付ける認識結果受付部と、
    前記2以上の異なる元画像を含む2以上の候補画像のうちの1以上の候補画像と前記認識結果とを有する教師データを蓄積する教師データ蓄積部と、
    前記2以上の異なる元画像を含む2以上の候補画像を含むセットを出力するセット出力部と、
    前記セットに含まれる2以上候補画像のうち、一の候補画像の選択を受け付ける選択受付部とをさらに具備し、
    前記選択受付部が受け付けた選択に対応する一の候補画像を正例とし、当該選択されなかった1以上の候補画像を負例として、区別する処理を行う区別部とを具備し、
    前記2以上の教師データを用いて、学習処理が行われ、認識学習器が取得され、蓄積され、
    前記正例の一の候補画像と負例の1以上の候補画像とを含む2以上のセットが用いられて、学習処理が行われ、選択学習器が取得され、蓄積される、画像蓄積装置。
  8. 光信号取得部と、元画像取得部と、選択部と、認識部と、出力部とにより実現される画像認識方法であって、
    前記光信号取得部が、撮影し、光信号を取得する光信号取得ステップと、
    前記元画像取得部が、前記光信号から一部の波長を抽出した2以上の分光画像である2以上の異なる元画像を取得する元画像取得ステップと、
    前記選択部が、少なくとも2以上の元画像、および選択された画像を特定する画像識別情報を有する2以上の教師データを用いて、学習処理を行い取得された選択学習器と、前記元画像取得部が取得した2以上の元画像を含む2以上の候補画像とを用いて、機械学習の予測処理を行い、認識処理に使用する1以上の対象画像を特定する選択ステップと、
    前記認識部が、前記1以上の対象画像を用いて、前記光信号に関する認識処理を行い、認識結果を取得する認識ステップと、
    前記出力部が、前記認識結果を出力する出力ステップとを具備する画像認識方法。
  9. 光信号取得部と、元画像取得部と、認識結果受付部と、教師データ蓄積部と、セット出力部と、選択受付部と、区別部とにより実現される画像蓄積方法であって、
    前記光信号取得部が、撮影し、光信号を取得する光信号取得ステップと、
    前記元画像取得部が、前記光信号を用いて、2以上の異なる元画像を取得する元画像取得ステップと、
    前記セット出力部が、前記2以上の異なる元画像を含む2以上の候補画像を含むセットを出力するセット出力ステップと、
    前記選択受付部が、前記セットに含まれる2以上候補画像のうち、一の候補画像の選択を受け付ける選択受付ステップと、
    前記区別部が、前記選択受付ステップで受け付けられた選択に対応する一の候補画像を正例とし、当該選択されなかった1以上の候補画像を負例として、区別する処理を行う区別ステップとを具備し、
    前記2以上の教師データを用いて、学習処理が行われ、認識学習器が取得され、蓄積され、
    前記正例の一の候補画像と負例の1以上の候補画像とを含む2以上のセットが用いられて、学習処理が行われ、選択学習器が取得され、蓄積される、画像蓄積方法。
  10. コンピュータを、
    撮影し、光信号を取得する光信号取得部と、
    前記光信号から一部の波長を抽出した2以上の分光画像である2以上の異なる元画像を取得する元画像取得部と、
    少なくとも2以上の元画像、および選択された画像を特定する画像識別情報を有する2以上の教師データを用いて、学習処理を行い取得された選択学習器と、前記元画像取得部が取得した2以上の元画像を含む2以上の候補画像とを用いて、機械学習の予測処理を行い、認識処理に使用する1以上の対象画像を特定する選択部と、
    前記1以上の対象画像を用いて、前記光信号に関する認識処理を行い、認識結果を取得する認識部と、
    前記認識結果を出力する出力部として機能させるためのプログラムを記録した記録媒体。
  11. コンピュータを、
    撮影し、光信号を取得する光信号取得部と、
    前記光信号を用いて、2以上の異なる元画像を取得する元画像取得部と、
    前記光信号に対する認識結果を受け付ける認識結果受付部と、
    前記2以上の異なる元画像を含む2以上の候補画像のうちの1以上の候補画像と前記認識結果とを有する教師データを蓄積する教師データ蓄積部と、
    前記2以上の異なる元画像を含む2以上の候補画像を含むセットを出力するセット出力部と、
    前記セットに含まれる2以上候補画像のうち、一の候補画像の選択を受け付ける選択受付部として機能させるためのプログラムであって、
    前記選択受付部が受け付けた選択に対応する一の候補画像を正例とし、当該選択されなかった1以上の候補画像を負例として、区別する処理を行う区別部とを具備し、
    前記2以上の教師データを用いて、学習処理が行われ、認識学習器が取得され、蓄積され、
    前記正例の一の候補画像と負例の1以上の候補画像とを含む2以上のセットが用いられて、学習処理が行われ、選択学習器が取得され、蓄積される、プログラムを記録した記録媒体。
PCT/JP2021/041081 2020-11-17 2021-11-09 画像認識装置、学習システム、画像蓄積装置、画像認識方法、画像蓄積方法、および記録媒体 WO2022107636A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020190765A JP6902150B1 (ja) 2020-11-17 2020-11-17 画像認識装置、学習システム、画像蓄積装置、画像認識方法、画像蓄積方法、およびプログラム
JP2020-190765 2020-11-17

Publications (1)

Publication Number Publication Date
WO2022107636A1 true WO2022107636A1 (ja) 2022-05-27

Family

ID=76753118

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/041081 WO2022107636A1 (ja) 2020-11-17 2021-11-09 画像認識装置、学習システム、画像蓄積装置、画像認識方法、画像蓄積方法、および記録媒体

Country Status (2)

Country Link
JP (2) JP6902150B1 (ja)
WO (1) WO2022107636A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020154854A (ja) * 2019-03-20 2020-09-24 株式会社ニコン 検査装置、評価装置およびプログラム
WO2020194378A1 (ja) * 2019-03-22 2020-10-01 日本電気株式会社 画像処理システム、画像処理装置、画像処理方法、及びコンピュータ可読媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020154854A (ja) * 2019-03-20 2020-09-24 株式会社ニコン 検査装置、評価装置およびプログラム
WO2020194378A1 (ja) * 2019-03-22 2020-10-01 日本電気株式会社 画像処理システム、画像処理装置、画像処理方法、及びコンピュータ可読媒体

Also Published As

Publication number Publication date
JP6902150B1 (ja) 2021-07-14
JP2022079899A (ja) 2022-05-27
JP2022080248A (ja) 2022-05-27

Similar Documents

Publication Publication Date Title
KR102338576B1 (ko) 이미지를 이용하여 획득된 깊이 정보의 속성에 따라 이미지와 연관하여 깊이 정보를 저장하는 전자 장치 및 전자 장치 제어 방법
US8224069B2 (en) Image processing apparatus, image matching method, and computer-readable recording medium
US8055016B2 (en) Apparatus and method for normalizing face image used for detecting drowsy driving
KR20100124738A (ko) 입력 화상을 처리하는 기계 구현 방법, 입력 화상을 처리하는 장치 및 컴퓨터 판독가능 매체
KR102598104B1 (ko) 외부 전자 장치로부터 텍스트 정보를 수신하는 시간 동안에 발생된 움직임을 보상하여 이미지에 포함된 객체 위에 텍스트 정보를 표시하는 방법 및 그 전자 장치
KR102383134B1 (ko) 우선 순위에 기반하여 이미지를 처리하는 전자 장치 및 그 동작 방법
KR102423295B1 (ko) 심도 맵을 이용하여 객체를 합성하기 위한 장치 및 그에 관한 방법
CN111598065A (zh) 深度图像获取方法及活体识别方法、设备、电路和介质
JP2006318060A (ja) 画像処理装置、画像処理方法、および画像処理用プログラム
JP6374849B2 (ja) ユーザ端末、色彩補正システム及び色彩補正方法
US11170520B2 (en) Image processing apparatus for analyzing an image to detect an object within the image
WO2022107636A1 (ja) 画像認識装置、学習システム、画像蓄積装置、画像認識方法、画像蓄積方法、および記録媒体
JP2006318061A (ja) 画像処理装置、画像処理方法、および画像処理用プログラム
JP2017174380A (ja) 認識装置、物体の認識方法、プログラム、及び、記憶媒体
JP2018029270A (ja) 画像処理装置およびその制御方法、撮像装置、プログラム
JP2008158776A (ja) 特徴検出方法及び装置、プログラム、記憶媒体
JP6874315B2 (ja) 情報処理装置、情報処理方法およびプログラム
WO2022107635A1 (ja) 撮影装置、画像の生産方法、および記録媒体
JP7321772B2 (ja) 画像処理装置、画像処理方法、およびプログラム
JP2008217220A (ja) 画像検索方法及び画像検索システム
JP2002216131A (ja) 画像照合装置及び画像照合方法、並びに記憶媒体
JP7040627B2 (ja) 算出装置、情報処理方法およびプログラム
JP6460510B2 (ja) 画像処理装置、画像処理方法及びプログラム
WO2020079807A1 (ja) 物体追跡装置、物体追跡方法、およびプログラム
JP4814616B2 (ja) パターン認識装置及びパターン認識プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21894510

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21894510

Country of ref document: EP

Kind code of ref document: A1