WO2022239216A1 - 学習装置、学習方法、画像処理装置、及び画像処理方法 - Google Patents

学習装置、学習方法、画像処理装置、及び画像処理方法 Download PDF

Info

Publication number
WO2022239216A1
WO2022239216A1 PCT/JP2021/018320 JP2021018320W WO2022239216A1 WO 2022239216 A1 WO2022239216 A1 WO 2022239216A1 JP 2021018320 W JP2021018320 W JP 2021018320W WO 2022239216 A1 WO2022239216 A1 WO 2022239216A1
Authority
WO
WIPO (PCT)
Prior art keywords
inference
image
dimensional
learning
unit
Prior art date
Application number
PCT/JP2021/018320
Other languages
English (en)
French (fr)
Inventor
彰 峯澤
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to PCT/JP2021/018320 priority Critical patent/WO2022239216A1/ja
Priority to EP21941948.8A priority patent/EP4328812A1/en
Priority to CN202180098003.1A priority patent/CN117280356A/zh
Priority to KR1020237037980A priority patent/KR20230162115A/ko
Priority to JP2023520707A priority patent/JP7337303B2/ja
Priority to TW110127678A priority patent/TWI823123B/zh
Publication of WO2022239216A1 publication Critical patent/WO2022239216A1/ja
Priority to US18/385,625 priority patent/US20240062527A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/84Systems specially adapted for particular applications
    • G01N21/88Investigating the presence of flaws or contamination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/87Arrangements for image or video recognition or understanding using pattern recognition or machine learning using selection of the recognition techniques, e.g. of a classifier in a multiple classifier system

Definitions

  • the present disclosure relates to a learning device, a learning method, an image processing device, and an image processing method.
  • Non-Patent Document 1 discloses a technique for generating a trained model by efficiently deep learning a learning model configured by a neural network by optimizing using stochastic gradient variation Bayes. It is
  • Non-Patent Document 1 When the technology disclosed in Non-Patent Document 1 (hereinafter referred to as “conventional technology”) is applied to the field of image processing, an image used for learning (hereinafter referred to as “learning image”) is obtained as a learning result of deep learning. It is possible to obtain a trained model that outputs a generated image decoded from the feature vector, which is a latent variable, and this vector. Compression, decompression, anomaly detection, classification, etc. may be performed. However, in order to obtain highly accurate feature vectors and generated images in the training images in the conventional technology, it is necessary to build a deep neural network with multiple intermediate layers in the neural network, and use a large number of training images to generate a huge number of images.
  • the conventional technology requires a huge amount of calculation, so the conventional technology has the problem that it is necessary to train the learning model over a long period of time in order to generate a trained model that enables highly accurate inference.
  • An object of the present disclosure is to solve the above-described problems, and to provide a learning device capable of generating a trained model capable of making highly accurate inferences in a short time compared to conventional methods.
  • a learning device includes a learning image acquisition unit that acquires learning image information indicating a learning image, and a learning image that is obtained by each of the plurality of learning image information acquired by the learning image acquisition unit.
  • a one-dimensional learning image generation unit that dimensionizes and generates a plurality of one-dimensional learning image signals corresponding to a plurality of learning image information;
  • a matrix generation unit that generates a matrix arranged in a matrix, a singular value decomposition unit that calculates a right singular vector and a singular value by performing singular value decomposition on the matrix generated by the matrix generation unit, and a singular value decomposition unit
  • a one-dimensional inference target image signal representing a one-dimensional image of the inference target image, which is a trained model based on the right singular vector and the singular value and is an image obtained by photographing the inference target object, as an explanatory variable
  • a learned model generation unit that generates a learned model that outputs an inference result, and a learned model output unit that outputs the learned model generated
  • FIG. 1 is a block diagram showing an example configuration of a main part of a learning system to which a learning device according to Embodiment 1 is applied.
  • FIG. 2 is a block diagram showing an example of a configuration of a main part of the learning device according to Embodiment 1.
  • FIG. 3A is an explanatory diagram schematically showing a learning image according to Embodiment 1.
  • FIG. 3B is an explanatory diagram schematically showing a modification of the learning image according to Embodiment 1.
  • FIG. 3C is an explanatory diagram schematically showing a one-dimensional learning image signal according to Embodiment 1.
  • FIG. 3D is an explanatory diagram schematically showing a matrix according to Embodiment 1.
  • FIG. 1 is a block diagram showing an example configuration of a main part of a learning system to which a learning device according to Embodiment 1 is applied.
  • FIG. 2 is a block diagram showing an example of a configuration of a main part of the learning device according to Embodiment 1.
  • FIG. 4A and 4B are diagrams showing an example of the hardware configuration of the main part of the learning device according to Embodiment 1.
  • FIG. 5 is a flowchart illustrating an example of processing of the learning device according to Embodiment 1.
  • FIG. 6 is a block diagram showing an example of a configuration of a main part of an image processing system to which the image processing device according to Embodiment 1 is applied.
  • FIG. 7 is a block diagram showing an example of the configuration of the main part of the image processing apparatus according to Embodiment 1.
  • FIG. 8A and 8B are diagrams illustrating an example of a hardware configuration of main parts of the image processing apparatus according to Embodiment 1.
  • FIG. 9 is a flowchart illustrating an example of processing of the image processing apparatus according to Embodiment 1.
  • FIG. 9 is a flowchart illustrating an example of processing of the image processing apparatus according to Embodiment 1.
  • FIG. 10 is a block diagram showing an example of a configuration of main parts of an image processing system to which the image processing apparatus according to Embodiment 2 is applied.
  • FIG. 11 is a block diagram showing an example of the configuration of the main part of the image processing apparatus according to Embodiment 2.
  • FIG. 12A and 12B are explanatory diagrams illustrating an example of an inspection target block in an inference target image and a restored inspection block in a restored image that are compared by an abnormality determination unit included in the image processing apparatus according to the second embodiment.
  • 13 is a flowchart illustrating an example of processing of the image processing apparatus according to Embodiment 2.
  • FIG. 14 is a block diagram showing an example of a configuration of main parts of an image processing system to which the image processing device according to Embodiment 3 is applied.
  • FIG. 15 is a block diagram showing an example of a configuration of main parts of an image processing apparatus according to Embodiment 3.
  • FIG. 16 is a flowchart illustrating an example of processing of the image processing apparatus according to Embodiment 3.
  • FIG. 1 is a block diagram showing an example configuration of a main part of a learning system 10 to which a learning device 100 according to Embodiment 1 is applied.
  • the learning system 10 includes a storage device 11 , a display output device 12 , an operation input device 13 and a learning device 100 .
  • the storage device 11 is a device that stores information necessary for the learning device 100 to execute predetermined processing.
  • the learning device 100 can acquire the information by reading the information stored in the storage device 11 . It also receives information output by the learning device 100 and stores the information.
  • the display output device 12 is a device such as a display that acquires a display image signal and displays a display image indicated by the display image signal.
  • the display output device 12 receives the display image signal output by the learning device 100 and displays the display image indicated by the display image signal.
  • the operation input device 13 is a device such as a keyboard or pointing device that receives a user's operation (hereinafter referred to as "user operation") and outputs an operation signal based on the user's operation.
  • the operation input device 13 is not limited to a keyboard or pointing device, and may be a touch panel, a touch sensor, or the like as long as it can receive a user operation and output an operation signal based on the user operation.
  • the operation input device 13 outputs operation signals to the learning device 100 .
  • the learning device 100 is a device that acquires learning image information indicating a learning image and generates a trained model based on the learning image.
  • An interactive user interface is provided to the user who operates the learning device 100 by the display output device 12 and the operation input device 13 . That is, the user can cause the learning device 100 to perform the control desired by the user by performing a user operation using the operation input device 13 while checking the display image displayed on the display output device 12 .
  • FIG. 2 is a block diagram showing an example of a configuration of a main part of learning device 100 according to Embodiment 1.
  • the learning device 100 includes a learning image acquisition unit 110 , a one-dimensional learning image generation unit 120 , a matrix generation unit 130 , a singular value decomposition unit 140 , a trained model generation unit 150 , and a trained model output unit 160 .
  • the learning device 100 may include a captured image acquisition unit 111 or a captured image acquisition unit 111 and a clustering unit 112 in addition to the above configuration.
  • the learning device 100 includes a learning image acquisition unit 110, a captured image acquisition unit 111, a clustering unit 112, a one-dimensional learning image generation unit 120, a matrix generation unit 130, a singular value decomposition unit 140, A trained model generation unit 150 and a trained model output unit 160 are provided.
  • the learning device 100 includes, as a configuration not shown in FIG. 2, an operation acquisition unit that acquires an operation signal output by the operation input device 13, and generates a display image based on the operation signal acquired by the operation acquisition unit, A display image output unit for outputting a display image signal representing the display image to the display output device 12 is provided.
  • the learning image acquisition unit 110 acquires learning image information indicating a learning image. Specifically, the learning image acquisition unit 110 acquires a plurality of different learning image information. More specifically, for example, the learning image acquisition unit 110 reads the learning image information from the storage device 11 in which the learning image information indicating each of the plurality of learning images is stored in advance, so that the learning image information is different from each other. Acquire multiple pieces of training image information. The learning image information acquired by the learning image acquiring unit 110 reading from the storage device 11 is selected and acquired by the user operating the operation input device 13, for example. In the following description, the learning image acquiring unit 110 acquires m (m is a predetermined integer of 2 or more) pieces of different learning image information. Also, a learning image representing each of the m pieces of learning image information acquired by the learning image acquiring unit 110 will be described as a learning image w i (i is an arbitrary integer equal to or greater than 1 and equal to or less than m).
  • the one-dimensional learning image generation unit 120 converts the learning images indicated by the plurality of pieces of learning image information acquired by the learning image acquisition unit 110 into one-dimensional images, and generates a plurality of one-dimensional images corresponding to the plurality of pieces of learning image information.
  • a signal (hereinafter referred to as "one-dimensional learning image signal") is generated.
  • the one-dimensional learning image generation unit 120 generates a one-dimensional learning image signal by rasterizing the learning image indicated by the learning image information acquired by the learning image acquisition unit 110 . More specifically, for example, the one-dimensional learning image generating unit 120 rasterizes the learning image indicated by each of the plurality of pieces of learning image information acquired by the learning image acquisition unit 110 .
  • a one-dimensional learning image signal corresponding to each piece of learning image information is generated.
  • the one-dimensional learning image signal corresponding to the learning image w i will be described as a one-dimensional learning image signal w i ′.
  • the matrix generation unit 130 generates a matrix in which a plurality of one-dimensional learning image signals generated by the one-dimensional learning image generation unit 120 are arranged in parallel.
  • a matrix in which m one-dimensional learning image signals from one-dimensional learning image signal w 1 ′ to one-dimensional learning image signal w m ′ are arranged in parallel will be described as matrix W m .
  • each learning image signal w 1 ' acquired by the learning image acquisition unit 110 to the one-dimensional learning image signal w m ' is obtained. It is necessary that the image information have the same number of pixels.
  • FIG. 3A is an explanatory diagram schematically showing a learning image wi according to Embodiment 1.
  • the learning image wi has p (p is a predetermined integer of 1 or more) pixels in the horizontal direction and q (q is a predetermined integer of 1 or more) pixels in the vertical direction. It is a rectangular image with (integer) number of pixels. Assuming that the product of p and q is n , the learning image wi is a rectangular image having n pixels.
  • the learning image wi is not limited to the captured image itself, but is a set of two-dimensionally arranged pixels, such as an image that has undergone image processing such as cutting out a captured image into a rectangle (block) or enlarging or reducing it.
  • 3B is an explanatory diagram schematically showing a modification of the learning image according to Embodiment 1.
  • FIG. 3B each block obtained by dividing a captured image may be used as a learning image.
  • Bx and By indicate the number of pixels in the horizontal and vertical directions of the divided block, respectively, and Sx and Sy indicate the number of moving pixels (step size) at each division position in the horizontal and vertical directions.
  • the position index (i,j) of each divided block D i,j is information for identifying the positional relationship of each block.
  • S x ⁇ B x or S y ⁇ B y the adjacent blocks are divided so that they overlap.
  • S x >B x or S y >B y gaps are generated between the divided blocks, and pixels that are not included in the learning image are generated in the captured image.
  • the larger the area where adjacent blocks overlap the more the pattern of divided blocks increases, and the learning accuracy improves.
  • the number of learning images increases, the learning speed decreases.
  • B x , B y , S x , and S y are tuning factors by the user or the like.
  • the user operates the operation input device 13 to tune (set values of) B x , B y , S x , and Sy .
  • the learning image wi may be a monochrome image in which each pixel is represented by 1 bit, a grayscale image in which each pixel is represented by a bit string such as 8 bits, or a color image represented by a bit string such as 24 bits. There may be.
  • the learning image wi may be a bitmap image in RGB format or a bitmap image in YUV format.
  • FIG. 3C is an explanatory diagram schematically showing the one-dimensional learning image signal w i ′ according to Embodiment 1.
  • the one-dimensional learning image signal w i ′ is an image having n pixels in the horizontal direction and one pixel in the vertical direction in FIG. 3C.
  • each pixel in the one-dimensional learning image signal w i ′ is composed of the same number of bits or bit strings as each pixel in the learning image w i .
  • FIG. 3D is an explanatory diagram schematically showing matrix W m according to Embodiment 1.
  • the matrix W m is obtained by arranging the one-dimensional learning image signals w i ′ in the column direction, and pixel signals having n pixels in the horizontal direction and m pixels in the vertical direction. becomes a matrix of The matrix Wm is configured such that each component in the matrix Wm is composed of the same number of bits or bit strings as each pixel in the learning image wi .
  • the singular value decomposition unit 140 calculates a right singular vector and singular values by performing singular value decomposition (SVD) on the matrix W m generated by the matrix generation unit 130 .
  • SVD singular value decomposition
  • a m ⁇ n U m ⁇ m ⁇ m ⁇ n VT n ⁇ n
  • V T n ⁇ n a transposed matrix of V n ⁇ n , which is a unitary matrix with n rows and n columns.
  • the matrix ⁇ m ⁇ n is a matrix of m rows and n columns, and the elements other than the diagonal elements are always 0.
  • the matrix ⁇ m ⁇ n is a matrix whose nonzero components are composed only of sets of singular values of the matrix A m ⁇ n .
  • each column vector in the matrix U m ⁇ m represents a left singular vector of the matrix A m ⁇ n . That is, the matrix U m ⁇ m represents the set of left singular vectors of the matrix A m ⁇ n .
  • each column vector in the matrix V n ⁇ n represents the right singular vector of the matrix A m ⁇ n . That is, the matrix V n ⁇ n represents the set of right singular vectors of the matrix A m ⁇ n .
  • a matrix (hereinafter referred to as an "approximate matrix”) A ⁇ m ⁇ n obtained by approximating the matrix A m ⁇ n can be expressed using the following formula (3).
  • a m ⁇ n ⁇ A ⁇ m ⁇ n U m ⁇ r ⁇ r ⁇ r VT r ⁇ n
  • the matrix ⁇ r ⁇ r is an r-by-r-column diagonal matrix having r (r is an integer equal to or greater than 1 and equal to or less than I) diagonal elements.
  • U m ⁇ r is a matrix of m rows and r columns composed of elements from the left to r columns of the matrix U m ⁇ m
  • the matrix V T r ⁇ n is a matrix V T r ⁇ n from the left of V n ⁇ n . It is a transposed matrix of n rows and r columns, V n ⁇ r , consisting of up to r columns of elements.
  • this approximation represents the singular value decomposition of a matrix having r singular values. shows a low-rank approximation of .
  • the singular value decomposition unit 140 performs singular value decomposition on the matrix W m generated by the matrix generation unit 130 to calculate the right singular vector and the singular value that satisfy the following equation (4) corresponding to the equation (1).
  • W m U m ⁇ m ⁇ m ⁇ n VT n ⁇ n Expression (4)
  • the trained model generation unit 150 generates a trained model based on the right singular vector and singular values calculated by the singular value decomposition unit 140 .
  • the learned model generated by the trained model generation unit 150 is a signal ( hereinafter referred to as "one-dimensional inference target image signal") is used as an explanatory variable, and an inference result is output.
  • an inference target image is an image obtained by photographing an inference target object (hereinafter referred to as an "inference target object”) (hereinafter referred to as an "inference captured image”), or an image for an inference captured image. It is an image obtained by applying processing.
  • the trained model generation unit 150 combines r singular values predetermined in descending order of singular values among the singular values calculated by the singular value decomposition unit 140 and r singular values. Generate a trained model based on the combination with the matrix having the set of right singular vectors corresponding to the diagonal matrix where . More specifically, for example, the trained model generation unit 150 generates matrices ⁇ r ⁇ r and V T n ⁇ r that satisfy the following equation (5) as parameters of the trained model. W m ⁇ U m ⁇ r ⁇ r ⁇ r VT n ⁇ r Equation (5)
  • the matrix ⁇ r ⁇ r is a diagonal matrix with r rows and r columns in which r singular values are diagonally arranged.
  • the matrix V T n ⁇ r is the transposed matrix of the matrix V n ⁇ r representing the set of right singular vectors of W m corresponding to the matrix ⁇ r ⁇ r in Equation (5).
  • the right singular vector is a column vector of V n ⁇ r (in the case of V T n ⁇ r , it becomes a row vector because it is transposed).
  • the number of singular values (the rank of the approximate matrix of Wm) r that the trained model generation unit 150 adopts in order from the largest singular value among the singular values calculated by the singular value decomposition unit 140 is
  • the learned model generation unit 150 may hold the information shown, or the learned model generation unit 150 may acquire the information based on a user operation.
  • the singular value decomposition unit 140 speeds up or saves singular value decomposition using, for example, a technique related to a fast solution method in singular value decomposition described in Document 1 shown below. It is good to try to make it into a memory.
  • Document 1 “Matthew Brand”, “Fast Low-Rank Modifications of the Thin Singular Value Decomposition”, “MITSUBISHI ELECTRIC RESEARCH LABORATORIES”, [Searched on December 4, 2020], Internet (URL: https://www. .merl.com/publications/docs/TR2006-059.pdf)
  • the singular value decomposition described in Reference 1 enables additional learning. That is, as a trained model of Wm, not only the matrices ⁇ r ⁇ r and V T n ⁇ r but also the matrix U m ⁇ r are held. As a result, the already existing singular value decomposition matrices U m ⁇ r , ⁇ r ⁇ r , and V T n ⁇ r are obtained by using the matrix W l in which l one-dimensional learning image signals to be additionally learned are arranged in parallel with each other.
  • the same learning model (matrix U( m + l ) ⁇ r '', ⁇ r ⁇ r ′′, V T n ⁇ r ′′) are obtained. If the update operation is not used, it is impossible to perform additional learning, and it is necessary to perform normal singular value decomposition on the matrix W m+1 as re-learning. Additional learning processing can be realized. Note that the update calculation may be used for both the initial learning and the additional learning, or may be used only for the additional learning.
  • the trained model (matrix U (m ⁇ 1) ⁇ r '', ⁇ r ⁇ r ′′′, V T n ⁇ r ′′′) can be obtained by high-speed and memory-saving calculations. At this time, if there are a plurality of learning images to be removed, the above processing may be performed in order.
  • the learned model (matrix U m ⁇ r ′′′′, ⁇ r ⁇ r ′′′′, V T n ⁇ r ′′′′) can be obtained by high-speed and memory-saving calculations. At this time, if there are a plurality of learning images to be replaced, the above processing may be performed in order.
  • the trained model generation unit 150 when the one-dimensional inference target image signal is input as an explanatory variable, the trained model generation unit 150 generates the one-dimensional inference target image signal based on the right singular vector and the singular value calculated by the singular value decomposition unit 140.
  • a trained model is generated that outputs an approximation signal (hereinafter referred to as a "one-dimensional approximation signal") as an inference result.
  • the one-dimensional approximation signal will be described as w t .
  • w t can be expressed by the following equation (6) using the matrix ⁇ m ⁇ n and matrix V T n ⁇ n in equation (4).
  • w t u t ⁇ m ⁇ n VT n ⁇ n Expression (6)
  • u t is a one-dimensional vector and is the feature vector of w t composed of coefficients for reconstructing w t using matrix ⁇ m ⁇ n and matrix V T n ⁇ n . Since the matrix ⁇ m ⁇ n and the matrix V T n ⁇ n are known from Equation (4), u t is uniquely determined once w t is determined.
  • Equation (7) w t can be approximated by Equation (7) using the matrix ⁇ r ⁇ r and the matrix V T n ⁇ r in Equation (5).
  • w t ⁇ w t ⁇ u t ⁇ ⁇ r ⁇ r VT n ⁇ r Expression (7)
  • w t ⁇ is a one-dimensional approximation signal that approximates w t .
  • u t ⁇ is a feature vector obtained by reducing the number of dimensions of u t , which is the feature vector of w t , to r dimensions (hereinafter referred to as "approximate feature vector"), and the following equation (8) can be obtained. .
  • u t ⁇ w t ⁇ V n ⁇ r ⁇ r ⁇ r ⁇ 1 ⁇ w t V n ⁇ r ⁇ r ⁇ r ⁇ 1 Equation (8)
  • ⁇ r ⁇ r ⁇ 1 is the inverse matrix of ⁇ r ⁇ r .
  • the trained model generation unit 150 converts the one-dimensional inference target image signal into A trained model that outputs the feature vector of the corresponding inference target image as an inference result may be generated.
  • the trained model generation unit 150 when the one-dimensional inference target image signal is input as an explanatory variable, the trained model generation unit 150 generates a feature vector of the inference target image corresponding to the one-dimensional inference target image signal, which is the feature vector A trained model is generated that outputs a feature vector u t ⁇ obtained by reducing the number of dimensions of u t to r dimensions as an inference result.
  • the learned model generation unit 150 when the trained model generation unit 150 receives the one-dimensional inference target image signal w t as an explanatory variable, the learned model generation unit 150 corresponds to the one-dimensional inference target image signal based on, for example, Equation (8). It is also possible to generate a trained model that outputs u t ⁇ which is an approximate feature vector of the inference target image.
  • the learned model output unit 160 outputs the learned model generated by the learned model generation unit 150 as learned model information. Specifically, for example, the learned model output unit 160 outputs the learned model information to the storage device 11 to store it in the storage device 11 .
  • the learning device 100 can generate a trained model that is not configured by a deep neural network with multiple intermediate layers. As a result, the learning device 100 can generate a trained model that enables highly accurate inference by a single singular value decomposition without requiring iterative parameter optimization processing. A trained model capable of highly accurate inference can be generated.
  • the learning image acquisition unit 110 acquires a plurality of mutually different learning image information generated in advance by reading the learning image information from the storage device 11 .
  • the method by which the image acquisition unit 110 acquires the learning image information is not limited to this.
  • the learning image acquisition unit 110 acquires information indicating an image different from the learning image information and indicating an image obtained by photographing the target object (hereinafter referred to as a “captured image”). captured image information”. ”, the learning image information may be generated and acquired.
  • the learning device 100 includes the captured image acquisition unit 111 as shown in FIG.
  • the photographed image acquisition unit 111 acquires photographed image information indicating a photographed image obtained by photographing a target object. Specifically, the captured image acquisition unit 111 acquires captured image information corresponding to each of a plurality of different target objects. For example, the captured image acquisition unit 111 reads captured image information from the storage device 11 in which a plurality of captured image information corresponding to a plurality of different target objects are stored in advance. Captured image information corresponding to each of a plurality of target objects different from each other is acquired.
  • the learning image acquisition unit 110 divides the captured image indicated by each of the plurality of pieces of captured image information acquired by the captured image acquisition unit 111 into a plurality of image regions, and divides the captured image into a plurality of image regions. Get a partial image to The learning image acquisition unit 110 acquires partial image information indicating each of a plurality of partial images based on the captured image for each of the captured image information, thereby obtaining a partial image information for each of the plurality of captured image information acquired by the captured image acquisition unit 111. A plurality of corresponding partial image information are acquired as learning image information.
  • a specific example of the divided image is the divided block shown in FIG. 3B described above.
  • the matrix generation unit 130 generates a plurality of pieces of partial image information acquired by the learning image acquisition unit 110, which correspond to the plurality of pieces of captured image information acquired by the captured image acquisition unit 111.
  • a matrix is generated by arranging in parallel a plurality of one-dimensional learning image signals corresponding to a plurality of pieces of partial image information among image information that meet a predetermined condition.
  • the plurality of pieces of partial image information that meet a predetermined condition are, for example, pieces of partial image information corresponding to the same image area in the photographed image indicated by each of the pieces of photographed image information.
  • the same image region is a block where the position index (i, j) of the divided block D i, j matches in FIG. 3B. That is, for example, the matrix generation unit 130 generates the one-dimensional learning image generation unit 120 based on the partial image information corresponding to the same image region in the captured image indicated by each of the plurality of pieces of captured image information acquired by the captured image acquisition unit 111.
  • a matrix is generated by arranging in parallel the plurality of one-dimensional learning image signals generated by .
  • the singular value decomposition unit 140 arranges in parallel the one-dimensional learning image signals generated by the one-dimensional learning image generation unit 120 based on the partial image information, thereby determining the right singular vector and the singular value in the matrix generated by the matrix generation unit 130. Calculate the value. Also, the trained model generation unit 150 generates a trained model that outputs the right singular vector and the singular value corresponding to the matrix based on the partial image information generated by the matrix generation unit 130 .
  • the learning device 100 uses an image (partial image) in a predetermined image region in an image (captured image) obtained by photographing an inference target object as an inference target image, Trained to output a one-dimensional approximation signal corresponding to the inference target image or a feature vector of the inference target image as an inference result when a one-dimensional inference target image signal corresponding to the inference target image is input as an explanatory variable.
  • a model can be generated.
  • the learning device 100 compares a trained model capable of highly accurate inference specialized for a partial image in a predetermined image region in a photographed image obtained by photographing an inference target object with a conventional one. can be generated in a short time.
  • Matrix generation section 130 may generate a matrix corresponding to each condition based on predetermined conditions. Specifically, for example, the matrix generator 130 generates matrices corresponding to each of the plurality of image regions in the captured image.
  • the plurality of image regions are regions in which a plurality of divided blocks D i,j are put together in FIG. 3B. For example, there are four regions in the horizontal direction and two regions in the vertical direction. Hereinafter, this area will be referred to as a "segment".
  • an example of the largest segment is when the entire image is one segment. In this case, only one trained model is generated, and the memory capacity required to store the trained model can be reduced. . Also, the size of each segment may be different.
  • the conditions are the same as those described in paragraph 0046.
  • the singular value decomposition unit 140 calculates right singular vectors and singular values for the matrix for each condition generated by the matrix generation unit 130 .
  • the singular value decomposition unit 140 calculates the right singular vector and the singular value Calculate
  • the trained model generation unit 150 generates the matrix Generate a trained model corresponding to Specifically, for example, the trained model generation unit 150 performs singular value decomposition on each of the matrices corresponding to the plurality of image regions in the captured image generated by the matrix generation unit 130.
  • a trained model corresponding to each of the plurality of matrices is generated based on the right singular vectors and singular values calculated by the unit 140 .
  • the learning device 100 can infer images (partial images) in each of a plurality of predetermined image regions in an image (captured image) obtained by photographing an inference target object.
  • the one-dimensional inference target image signal corresponding to each of the plurality of inference target images is input as an explanatory variable to a trained model generated using partial images of the same image region, a plurality of A trained model that outputs, as an inference result, a one-dimensional approximation signal corresponding to each of the inference target images or a feature vector corresponding to each of the plurality of inference target images can be generated for each image region.
  • the learning device 100 is a trained model capable of highly accurate inference specialized for partial images in each of a plurality of predetermined image regions of the captured image obtained by capturing the inference target object. can be generated for each image area in a short time compared to the conventional art.
  • the learning device 100 may include a captured image acquisition unit 111 and a clustering unit 112, as shown in FIG.
  • the clustering unit 112 is a plurality of pieces of partial image information acquired by the learning image acquisition unit 110, and each of a plurality of partial image information corresponding to each of a plurality of pieces of photographed image information acquired by the photographed image acquisition unit 111 indicates Cluster the partial images.
  • the matrix generation unit 130 adds 1 A matrix is generated by arranging in parallel a plurality of one-dimensional learning image signals generated by the dimensional learning image generation unit 120 .
  • each partial image itself, an image obtained by feature-transforming the partial image (for example, an edge image or an orthogonally-transformed image) itself, or an image obtained by performing filter processing such as smoothing processing or pooling processing on these images.
  • filter processing such as smoothing processing or pooling processing
  • clustering methods such as k-means method, hierarchical clustering, DBSCAN (Density-based spatial clustering of applications with noise), GMM (Gaussian Mixture Model), etc.
  • the plurality of partial image information is partial image information indicating each of the plurality of partial images belonging to each class classified based on the clustering result of the clustering unit 112 .
  • the learning device 100 provides an image in each of a plurality of predetermined image regions of an image (captured image) obtained by capturing an inference target object for each class.
  • a trained model in which a partial image belonging to the class in (partial image) is set as an inference target image, and a one-dimensional inference target image signal corresponding to the inference target image is generated using a plurality of partial images belonging to the class.
  • a trained model can be generated that outputs a one-dimensional approximation signal corresponding to the inference target image or a feature vector corresponding to the inference target image as an inference result.
  • learning device 100 compares a trained model capable of highly accurate inference specialized to a partial image belonging to a predetermined class among images obtained by photographing an inference target object to a conventional one. can be generated in a short time.
  • the matrix generator 130 may generate a matrix corresponding to each class.
  • the singular value decomposition unit 140 calculates a right singular vector and a singular value for each matrix generated by the matrix generation unit 130 and corresponding to each class.
  • trained model generation section 150 generates a trained model corresponding to each class based on the right singular vector and singular value corresponding to each class generated by matrix generation section 130 .
  • the learning device 100 specializes in a partial image in each of a plurality of image regions in an image (captured image) obtained by photographing an inference target object, particularly for each class.
  • a trained model capable of highly accurate inference specialized for each image can be generated for each class in a shorter time than before.
  • FIGS. 4A and 4B are diagrams showing an example of a hardware configuration of main parts of learning device 100 according to Embodiment 1.
  • FIG. 4A and 4B are diagrams showing an example of a hardware configuration of main parts of learning device 100 according to Embodiment 1.
  • the learning device 100 is composed of a computer, and the computer has a processor 401 and a memory 402.
  • the computer includes a learning image acquisition unit 110, a captured image acquisition unit 111, a clustering unit 112, a one-dimensional learning image generation unit 120, a matrix generation unit 130, a singular value decomposition unit 140, and a trained model generation unit 150.
  • a program for functioning as the trained model output unit 160 is stored.
  • the program stored in the memory 402 is read out and executed by the processor 401 to obtain the learning image acquisition unit 110, the captured image acquisition unit 111, the clustering unit 112, the one-dimensional learning image generation unit 120, the matrix generation unit 130, the singular A value decomposition unit 140, a trained model generation unit 150, and a trained model output unit 160 are realized.
  • the learning device 100 may be configured with a processing circuit 403.
  • FIG. 4B the learning image acquisition unit 110, the captured image acquisition unit 111, the clustering unit 112, the one-dimensional learning image generation unit 120, the matrix generation unit 130, the singular value decomposition unit 140, the trained model generation unit 150, and the trained model
  • the function of the output unit 160 may be implemented by the processing circuitry 403 .
  • the learning device 100 may be configured by a processor 401, a memory 402, and a processing circuit 403 (not shown).
  • the learning image acquisition unit 110, the captured image acquisition unit 111, the clustering unit 112, the one-dimensional learning image generation unit 120, the matrix generation unit 130, the singular value decomposition unit 140, the trained model generation unit 150, and the trained model A part of the functions of the output unit 160 may be realized by the processor 401 and the memory 402 and the remaining functions may be realized by the processing circuit 403 .
  • the processor 401 uses, for example, a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), a microprocessor, a microcontroller, or a DSP (Digital Signal Processor).
  • a CPU Central Processing Unit
  • GPU Graphics Processing Unit
  • microprocessor a microcontroller
  • DSP Digital Signal Processor
  • the memory 402 uses, for example, a semiconductor memory or a magnetic disk. More specifically, the memory 402 includes RAM (Random Access Memory), ROM (Read Only Memory), flash memory, EPROM (Erasable Programmable Read Only Memory), EEPROM (Electrically Erasable Programmable Solid-Memory SD). State Drive) or HDD (Hard Disk Drive).
  • RAM Random Access Memory
  • ROM Read Only Memory
  • flash memory EPROM (Erasable Programmable Read Only Memory)
  • EEPROM Electrical Erasable Programmable Solid-Memory SD. State Drive
  • HDD Hard Disk Drive
  • the processing circuit 403 is, for example, ASIC (Application Specific Integrated Circuit), PLD (Programmable Logic Device), FPGA (Field-Programmable Gate Array), SoC (System-on-a-Chip), or system LSI (Large Integrated) is used.
  • ASIC Application Specific Integrated Circuit
  • PLD Programmable Logic Device
  • FPGA Field-Programmable Gate Array
  • SoC System-on-a-Chip
  • system LSI Large Integrated
  • FIG. 5 is a flowchart for explaining an example of processing of the learning device 100 according to the first embodiment.
  • the learning device 100 includes a learning image acquisition unit 110, a one-dimensional learning image generation unit 120, a matrix generation unit 130, a singular value decomposition unit 140, a trained model generation unit 150, and a trained model output unit 160.
  • 10 is a flowchart in a case where a photographed image acquisition unit 111 and a clustering unit 112 are provided in addition to the above. If the learning device 100 does not include the clustering unit 112 or the captured image acquisition unit 111 and the clustering unit 112, the processing performed by the captured image acquisition unit 111 or the clustering unit 112 in FIG. 5 can be omitted as appropriate.
  • step ST501 the captured image acquisition section 111 acquires captured image information.
  • step ST502 learning image acquisition section 110 acquires a plurality of partial image information corresponding to each of the plurality of pieces of captured image information as learning image information.
  • step ST503 clustering section 112 clusters the partial images indicated by each of the plurality of pieces of partial image information.
  • step ST504 one-dimensional learning image generation section 120 generates one-dimensional learning image signals for a plurality of pieces of learning image information.
  • step ST505 matrix generation section 130 generates a matrix in which a plurality of one-dimensional learning image signals are arranged in parallel.
  • step ST506 singular value decomposition section 140 calculates a right singular vector and singular values by performing singular value decomposition on the matrix. However, when performing additional learning processing, removing or replacing specific learning data, and other learning model update processing using the update operation according to Document 1 (paragraphs 0031 to 0033), the left singular vector is also obtained. .
  • trained model generation section 150 generates a trained model based on the right singular vector and the singular value. However, when performing additional learning processing, removing specific learning data, or updating the learning model using the update operation according to Document 1 such as replacing (paragraphs 0031 to 0033), learning including the left singular vector Generate a finished model.
  • learned model output section 160 outputs the learned model as learned model information. After step ST508, learning device 100 ends the processing of the flowchart.
  • FIG. 6 is a block diagram showing an example of the configuration of the main part of the image processing system 20 to which the image processing apparatus 200 according to Embodiment 1 is applied.
  • the image processing system 20 includes a storage device 21 , a display output device 22 , an operation input device 23 , an imaging device 24 and an image processing device 200 .
  • the storage device 21 is a device that stores information necessary for the image processing device 200 to execute predetermined processing. Specifically, for example, the storage device 21 stores the learned model information output by the learning device 100 . The image processing device 200 acquires learned model information by reading the learned model information stored in the storage device 21 .
  • the display output device 22 is a device such as a display that acquires a display image signal and displays a display image indicated by the display image signal.
  • the display output device 22 receives the display image signal output by the image processing device 200 and displays the display image indicated by the display image signal.
  • the operation input device 23 is a device such as a keyboard or pointing device that receives a user operation and outputs an operation signal based on the user operation.
  • the operation input device 23 is not limited to a keyboard or pointing device, and may be a touch panel, a touch sensor, or the like as long as it can receive a user operation and output an operation signal based on the user operation.
  • the operation input device 23 outputs operation signals to the image processing device 200 .
  • the imaging device 24 is a device such as a digital still camera that outputs an image obtained by photographing an inference target object (hereinafter referred to as a "capturing inference image") as imaging inference image information. Specifically, the imaging device 24 outputs the imaging inference image information to the image processing device 200 .
  • the image processing apparatus 200 generates a signal based on the inference target image based on the image based on the inference image indicated by the inference image information for shooting (hereinafter referred to as the "image for inference") and the learned model indicated by the learned model information. is input to the learned model as an explanatory variable, and acquires the inference result information based on the acquired inference result.
  • An interactive user interface is provided to the user who operates the image processing device 200 by the display output device 22 and the operation input device 23 . That is, the user can cause the image processing device 200 to perform the control desired by the user by performing a user operation using the operation input device 23 while checking the display image displayed on the display output device 22 . .
  • FIG. 7 is a block diagram showing an example of the configuration of the main part of the image processing apparatus 200 according to Embodiment 1.
  • the image processing apparatus 200 includes an inference target image acquisition unit 210 , a one-dimensional inference target image generation unit 220 , and an inference unit 240 .
  • the image processing apparatus 200 may include the photographing inference image acquisition unit 211 or the learned model acquisition unit 230 in addition to the above configuration. 7, the image processing apparatus 200 includes an inference target image acquisition unit 210, a shooting inference image acquisition unit 211, a one-dimensional inference target image generation unit 220, a trained model acquisition unit 230, and an inference unit 240. It will be described as provided.
  • the image processing device 200 includes an operation acquisition unit that acquires an operation signal output by the operation input device 23 and a display image signal that generates a display image and displays a display image signal representing the display image, as a configuration not shown in FIG.
  • a display image output unit for outputting to the output device 22 is provided.
  • the photography inference image acquisition unit 211 acquires photography inference image information indicating a photography inference image obtained by photographing an inference target object. Specifically, for example, the imaging inference image acquisition unit 211 acquires imaging inference image information output by the imaging device 24 .
  • the method by which the imaging inference image acquisition unit 211 acquires the imaging inference image information is not limited to the method of acquiring the imaging inference image information output by the imaging device 24 .
  • the imaging inference image acquisition unit 211 may acquire the imaging inference image information by reading out the imaging inference image information from the storage device 21 in which the imaging inference image information is stored in advance.
  • the inference target image acquisition unit 210 acquires inference target image information indicating an image (inference target image) based on an image (captured inference image) obtained by photographing an inference target object. Specifically, for example, the inference target image acquisition unit 210 acquires the inference target image information by reading the inference target image information from the storage device 21 that stores the inference target image information in advance.
  • the method by which the inference target image acquisition unit 210 acquires the inference target image information is not limited to the method of reading from the storage device 21 .
  • the inference target image acquiring unit 210 may acquire the shooting inference image information acquired by the shooting inference image acquiring unit 211 as the inference target image information.
  • the inference target image acquisition unit 210 may acquire the inference target image information by generating the inference target image information based on the captured inference image information acquired by the captured inference image acquisition unit 211 .
  • the method by which the inference-target image acquiring unit 210 generates the inference-target image information based on the captured inference image information will be described later.
  • the one-dimensional inference target image generation unit 220 converts the inference target image indicated by the inference target image information acquired by the inference target image acquisition unit 210 into one dimension, and generates a one-dimensional signal corresponding to the inference target image information (hereinafter referred to as “one-dimensional inference (referred to as "target image signal"). Specifically, for example, the one-dimensional inference target image generation unit 220 generates a one-dimensional inference target image signal by rasterizing the inference target image indicated by the inference target image information acquired by the inference target image acquisition unit 210. .
  • the inference target image indicated by the inference target image information acquired by the inference target image acquisition unit 210 is referred to as an inference target image wt
  • the one-dimensional inference target image signal corresponding to the inference target image wt is a one-dimensional
  • the one-dimensional inference target image signal generated by the inference target image generation unit 220 will be described as a one - dimensional inference target image signal w t .
  • the learned model acquisition unit 230 acquires the learned model information output by the learning device 100 . Specifically, for example, the learned model acquisition unit 230 acquires the learned model information by reading out the learned model information from the storage device 21 in which the learned model information is stored in advance.
  • the trained model acquisition unit 230 may acquire trained model information from the learning device 100 (not shown in FIG. 6) via an information network such as a LAN (Local Area Network). Note that if the inference unit 240 holds the learned model information in advance, the learned model acquisition unit 230 is not an essential component in the image processing apparatus 200 .
  • the inference unit 240 acquires inference result information corresponding to the one-dimensional inference target image signal based on the one-dimensional inference target image signal generated by the one-dimensional inference target image generation unit 220 . Specifically, the inference unit 240 inputs the one-dimensional inference target image signal to the learned model indicated by the learned model information as an explanatory variable, acquires the inference result output by the learned model, and obtains the inference result Get inference result information based on
  • the inference unit 240 When the trained model generated by the learning device 100 outputs a one-dimensional approximation signal corresponding to the one-dimensional inference target image signal as an inference result, the inference unit 240, for example, pre-learns the one-dimensional inference target image signal. A one-dimensional approximation signal that is input to the model as an explanatory variable and output by the trained model as an inference result is acquired. Furthermore, the inference unit 240 acquires, as inference result information, restored image information indicating a restored image generated from the one-dimensional approximation signal output by the trained model as an inference result.
  • the inference unit 240 obtains a one-dimensional approximation signal output by the trained model as an inference result with the same size as the inference object image indicated by the inference object image information acquired by the inference object image acquisition unit 210.
  • a restored image is generated by mapping to the two-dimensional image of .
  • the inference unit 240 acquires restored image information indicating the restored image as inference result information by generating the restored image.
  • the inference unit 240 when the trained model generated by the learning device 100 outputs the feature vector of the inference target image corresponding to the one-dimensional inference target image signal as the inference result, for example, the inference unit 240 outputs the one-dimensional inference target image A signal is input to the trained model as an explanatory variable, and the feature vector of the inference target image corresponding to the one-dimensional inference target image signal, which is the feature vector output by the trained model as the inference result, is acquired. Furthermore, the inference unit 240 acquires, as inference result information, feature vector information indicating a feature vector output by the trained model as an inference result.
  • the image processing apparatus 200 can perform highly accurate inference using a trained model generated in a shorter period of time than in the past.
  • the inference target image acquisition unit 210 divides the shooting inference image indicated by the shooting inference image information acquired by the shooting inference image acquiring unit 211 into a plurality of image regions.
  • the inference target image acquisition unit 210 generates and acquires partial inference image information indicating each of a plurality of images (hereinafter referred to as “partial inference images”) obtained by dividing the photographed inference image into a plurality of image regions. .
  • the inference target image acquiring unit 210 acquires each of predetermined one or more partial inference image information among a plurality of pieces of partial inference image information corresponding to the shooting inference image information acquired by the shooting inference image acquiring unit 211 as an inference target image. Get it as information.
  • the one-dimensional inference target image generation unit 220 acquires each of the one or more inference target image information acquired by the inference target image acquisition unit 210. generates a one-dimensional inference object image signal corresponding to .
  • the inference unit 240 is a one-dimensional inference target image signal generated by the one-dimensional inference target image generation unit 220, and inference result information corresponding to one-dimensional inference target image signals respectively corresponding to one or more pieces of inference target image information.
  • the trained model is a trained model generated by the learning device 100 using partial images as learning images. is a trained model generated based on a matrix generated by arranging in parallel one-dimensional learning image signals based on partial images corresponding to the same image regions in . Therefore, one trained model exists for each defined image region.
  • the image processing apparatus 200 can perform highly accurate inference specialized for partial images in each of one or more predetermined image areas of the photographed inference image.
  • FIGS. 8A and 8B are diagrams showing an example of a hardware configuration of main parts of the image processing apparatus 200 according to Embodiment 1.
  • FIG. 8A and 8B are diagrams showing an example of a hardware configuration of main parts of the image processing apparatus 200 according to Embodiment 1.
  • FIG. 8A and 8B are diagrams showing an example of a hardware configuration of main parts of the image processing apparatus 200 according to Embodiment 1.
  • the image processing apparatus 200 is configured by a computer, and the computer has a processor 801 and a memory 802.
  • the memory 802 stores programs for causing the computer to function as the inference target image acquisition unit 210, the photographed inference image acquisition unit 211, the one-dimensional inference target image generation unit 220, the trained model acquisition unit 230, and the inference unit 240.
  • the processor 801 reads out and executes the programs stored in the memory 802 to obtain an inference target image acquisition unit 210, a shooting inference image acquisition unit 211, a one-dimensional inference target image generation unit 220, a trained model acquisition unit 230, and A reasoning unit 240 is implemented.
  • the image processing apparatus 200 may be configured by a processing circuit 803.
  • the processing circuit 803 may implement the functions of the inference target image acquisition unit 210 , the photographed inference image acquisition unit 211 , the one-dimensional inference target image generation unit 220 , the trained model acquisition unit 230 , and the inference unit 240 .
  • the image processing apparatus 200 may be configured by a processor 801, a memory 802, and a processing circuit 803 (not shown).
  • a processor 801, a memory 802, and a processing circuit 803 (not shown).
  • some of the functions of the inference target image acquisition unit 210, the captured inference image acquisition unit 211, the one-dimensional inference target image generation unit 220, the trained model acquisition unit 230, and the inference unit 240 It may be implemented by memory 802 and the rest of the functionality by processing circuitry 803 .
  • the processor 801 and the memory 802 are the same as the processor 401 and the memory 402 shown in FIG. 4A, so their description is omitted. Also, since the processing circuit 803 is similar to the processing circuit 403 shown in FIG. 4B, the description thereof is omitted.
  • FIG. 9 is a flowchart for explaining an example of processing of the image processing device 200 according to the first embodiment.
  • the image processing apparatus 200 includes an inference target image acquisition unit 210, a one-dimensional inference target image generation unit 220, and an inference unit 240, as well as a photographed inference image acquisition unit 211 and a learned model acquisition unit 230. It is a flow chart in the case. If the image processing apparatus 200 does not include the imaging inference image acquisition unit 211 or the learned model acquisition unit 230, the processing performed by the imaging inference image acquisition unit 211 and the learned model acquisition unit 230 in FIG. 9 can be omitted as appropriate. is.
  • step ST901 the imaging inference image acquisition unit 211 acquires imaging inference image information.
  • step ST902 the inference target image acquisition section 210 acquires inference target image information.
  • step ST903 the one-dimensional inference target image generating section 220 generates a one-dimensional inference target image signal.
  • learned model acquisition section 230 acquires learned model information.
  • step ST905 the inference section 240 acquires the inference result output by the trained model and acquires inference result information based on the inference result.
  • the image processing apparatus 200 terminates the processing of the flowchart, returns to step ST901 after termination, and repeats the processing of the flowchart.
  • the learning device 100 includes the learning image acquisition unit 110 that acquires learning image information indicating a learning image, and a plurality of learning images acquired by the learning image acquisition unit 110.
  • a one-dimensional learning image generation unit 120 that converts learning images indicated by each piece of information into one dimension to generate a plurality of one-dimensional learning image signals corresponding to a plurality of pieces of learning image information, and a one-dimensional learning image generation unit 120
  • a matrix generation unit 130 that generates a matrix in which a plurality of generated one-dimensional learning image signals are arranged in parallel, and a singular value decomposition is performed on the matrix generated by the matrix generation unit 130 to calculate a right singular vector and a singular value.
  • a trained model generation unit 150 that generates a trained model that outputs an inference result using a one-dimensional inference target image signal that indicates a transformed image as an explanatory variable, and a trained model that is generated by the trained model generation unit 150 is trained. and a learned model output unit 160 that outputs as model information.
  • the trained model generation unit 150 generates the singular value decomposition unit Based on the right singular vector and singular value calculated by 140, it is configured to generate a trained model that outputs a one-dimensional approximation signal, which is an approximation signal of the one-dimensional inference target image signal, as an inference result.
  • the learning device 100 is a trained model capable of making highly accurate inferences in a short period of time compared to conventional models, and is based on an inference target image input to the trained model as an explanatory variable.
  • a trained model can be generated that outputs a dimensional approximation signal as an inference result.
  • the trained model generation unit 150 generates the singular value decomposition unit Based on the right singular vector and singular value calculated by 140, a trained model is generated that outputs the feature vector of the inference target image corresponding to the one-dimensional inference target image signal as the inference result.
  • the learning device 100 is a trained model capable of making highly accurate inferences in a short period of time compared to the conventional one, and the one-dimensional inference target image signal input to the trained model as an explanatory variable. It is possible to generate a trained model that outputs a feature vector of an inference target image corresponding to as an inference result.
  • the one-dimensional learning image generation unit 120 generates a learning image indicated by the learning image information acquired by the learning image acquisition unit 110. was constructed to generate a one-dimensional training image signal by raster scanning the . With this configuration, the learning device 100 can easily convert the learning image into a one-dimensional learning image signal.
  • the learning image acquisition unit 110 acquires learning image information indicating each of a plurality of learning images having the same number of pixels. configured to obtain With this configuration, the learning device 100 can easily generate a matrix without performing complicated image processing on a plurality of learning images when generating a trained model.
  • the learning device 100 has captured image information indicating a captured image acquired by capturing a target object, and a plurality of targets different from each other.
  • a photographed image acquisition unit 111 is provided for acquiring photographed image information corresponding to each object.
  • a plurality of photographed image information acquired by the photographed image acquisition unit 111 by dividing an image into a plurality of image regions and acquiring partial image information indicating each of a plurality of partial images based on the photographed image for each piece of photographed image information. is acquired as learning image information.
  • the learning device 100 can perform highly accurate inference specialized for a partial image in a predetermined image region of the captured image obtained by capturing the inference target object.
  • a model can be generated in a shorter time than before.
  • the matrix generation unit 130 is a plurality of pieces of partial image information acquired by the learning image acquisition unit 110, and the photographed image acquisition A plurality of one-dimensional learning image signals corresponding to a plurality of partial image information matching a predetermined condition out of the plurality of partial image information corresponding to each of the plurality of photographed image information acquired by the unit 111 are arranged in parallel. Arranged to generate a matrix.
  • the learning device 100 can perform highly accurate inference specialized for a partial image in a predetermined image region of the captured image obtained by capturing the inference target object.
  • a model can be generated in a shorter time than before.
  • the matrix generating unit 130 is configured to A matrix is generated by arranging in parallel the one-dimensional learning image signals generated by the one-dimensional learning image generation unit 120 based on the partial image information corresponding to the same image region.
  • the learning device 100 can perform highly accurate inference specialized for a partial image in a predetermined image region of the captured image obtained by capturing the inference target object.
  • a model can be generated in a shorter time than before.
  • the learning device 100 has a plurality of pieces of partial image information acquired by the learning image acquisition unit 110, which are acquired by the captured image acquisition unit 111.
  • the clustering unit 112 clusters the partial images indicated by each of the plurality of partial image information corresponding to each of the plurality of pieces of captured image information, and the matrix generation unit 130 classifies based on the clustering result of the clustering unit 112.
  • a matrix is generated by arranging in parallel the one-dimensional learning image signals generated by the one-dimensional learning image generation unit 120 for each of the plurality of partial images belonging to each class.
  • matrix generation section 130 generates a matrix corresponding to each condition based on a predetermined condition
  • the singular value decomposition unit 140 calculates the right singular vector and the singular value for the matrix for each condition generated by the matrix generation unit 130
  • the trained model generation unit 150 calculates the matrix for each condition generated by the matrix generation unit 130. It was configured to generate a trained model corresponding to the matrix for each condition based on the corresponding right singular vectors and singular values.
  • the learning device 100 can generate a partial image in a predetermined image region in the captured image obtained by capturing the inference target object, or based on the clustering result of the clustering unit 112.
  • a pre-trained model capable of high-precision inference specialized for partial images belonging to each class classified according to each class, and generates multiple pre-trained models corresponding to the matrix for each condition in a shorter time than before. can do.
  • the image processing apparatus 200 obtains inference-target image information indicating an inference-target image that is an image based on a captured inference image that is an image obtained by photographing an inference-target object.
  • the inference target image acquisition unit 210 to be acquired and the inference target image indicated by the inference target image information acquired by the inference target image acquisition unit 210 are made one-dimensional to generate a one-dimensional inference target image signal corresponding to the inference target image information.
  • the inference unit 240 Based on the one-dimensional inference target image generation unit 220 and the one-dimensional inference target image signal generated by the one-dimensional inference target image generation unit 220, acquires inference result information corresponding to the one-dimensional inference target image signal.
  • an inference unit 240 that acquires inference result information based on the inference result by inputting the one-dimensional inference target image signal to the trained model as an explanatory variable and acquiring the inference result output by the trained model; provided.
  • the image processing apparatus 200 can perform highly accurate inference using a trained model generated in a short period of time compared to the conventional art.
  • the inference unit 240 inputs the one-dimensional inference target image signal to the trained model as an explanatory variable, and the trained model is A one-dimensional approximation signal output as an inference result, which is an approximation signal of the one-dimensional inference target image signal, is obtained, and a restoration generated from the one-dimensional approximation signal output by the trained model as an inference result. It is configured to acquire restored image information indicating an image as inference result information.
  • the image processing apparatus 200 uses a trained model that is generated in a shorter time than in the past, and uses a one-dimensional inference target image based on an inference target image that is input to the trained model as an explanatory variable.
  • a one-dimensional approximation signal that approximates a one-dimensional inference target image signal can be acquired from an image signal, and an inference target image can be inferred with high accuracy using the acquired one-dimensional approximation signal.
  • the inference unit 240 receives the one-dimensional approximation signal output by the trained model as an inference result from the inference target image acquisition unit 210.
  • a restored image is generated by mapping onto a two-dimensional image of the same size as the inference object image indicated by the inference object image information acquired by the , and the restored image information indicating the restored image is acquired.
  • the image processing apparatus 200 uses a trained model that is generated in a shorter time than in the past, and uses a one-dimensional inference target image based on an inference target image that is input to the trained model as an explanatory variable.
  • a one-dimensional approximation signal that approximates a one-dimensional inference target image signal can be acquired from an image signal, and an inference target image can be inferred with high accuracy using the acquired one-dimensional approximation signal.
  • the inference unit 240 inputs the one-dimensional inference target image signal to the trained model as an explanatory variable, and the trained model is A feature vector output as an inference result, which is a feature vector of an inference target image corresponding to a one-dimensional inference target image signal, is acquired, and feature vector information indicating the feature vector output by the trained model as an inference result is provided as inference result information.
  • the image processing apparatus 200 uses a trained model generated in a short time compared to the conventional art, and corresponds to the one-dimensional inference target image signal input to the trained model as an explanatory variable.
  • the feature vector of the inference target image can be inferred with high accuracy.
  • the one-dimensional inference target image generation unit 220 performs the inference indicated by the inference target image information acquired by the inference target image acquisition unit 210. It is configured to generate a one-dimensional inference object image signal by raster scanning the object image. With this configuration, the image processing apparatus 200 can easily convert an inference target image into a one-dimensional inference target image signal.
  • the image processing apparatus 200 in addition to the configuration described above, has a photographing inference image that acquires photographing inference image information indicating a photographing inference image obtained by photographing an inference target object.
  • the inference target image acquisition unit 210 is provided with an image acquisition unit 211.
  • the inference target image acquisition unit 210 divides the imaging inference image indicated by the imaging inference image information acquired by the imaging inference image acquisition unit 211 into a plurality of image areas, and divides the imaging inference image into a plurality of image regions.
  • predetermined partial inference image information out of the plurality of partial inference image information corresponding to the shooting inference image information acquired by the shooting inference image acquisition unit 211 is acquired.
  • Each of the one or more partial inference image information is acquired as inference target image information, and the one-dimensional inference target image generation unit 220 corresponds to each of the one or more inference target image information acquired by the inference target image acquisition unit 210.
  • a one-dimensional inference target image signal is generated, and the inference unit 240 generates a one-dimensional inference target image signal generated by the one-dimensional inference target image generation unit 220, which is a one-dimensional inference target image signal corresponding to each of the one or more inference target image information. It is configured to acquire the inference result information corresponding to the inference target image signal.
  • the image processing apparatus 200 can perform highly accurate inference specialized for a partial image in a predetermined image area of the photographed inference image obtained by photographing the inference target object. can be done.
  • FIG. 10 is a block diagram showing an example of the configuration of the main part of an image processing system 20a to which the image processing apparatus 200a according to the second embodiment is applied.
  • the image processing system 20a includes a storage device 21, a display output device 22, an operation input device 23, an imaging device 24, and an image processing device 200a. That is, the image processing system 20a is obtained by changing the image processing apparatus 200 according to the first embodiment to an image processing apparatus 200a.
  • the same reference numerals are assigned to the same configurations as those shown in FIG. 6, and detailed description thereof will be omitted. That is, detailed descriptions of the storage device 21, the display output device 22, the operation input device 23, and the imaging device 24 are omitted.
  • the image processing device 200a has the functions of the image processing device 200 according to the first embodiment, and additionally has a function of determining whether or not an inference target object appearing in an inference target image has an abnormality.
  • abnormality means a feature that is not present in a normal inference target object (non-defective product). Examples of abnormalities in product inspection include scratches, stains, discoloration, adherence of foreign matter, breakage, defects, component errors, printing errors, and the like.
  • FIG. 11 is a block diagram showing an example of the configuration of the main part of the image processing device 200a according to the second embodiment.
  • the image processing device 200a includes an inference target image acquisition unit 210, a captured inference image acquisition unit 211, a one-dimensional inference target image generation unit 220, a trained model acquisition unit 230, an inference unit 240, an abnormality determination unit 250, and a determination result output unit. 260. That is, the image processing apparatus 200a is obtained by adding an abnormality determination unit 250 and a determination result output unit 260 to the image processing apparatus 200 according to the first embodiment.
  • FIG. 11 the same components as those shown in FIG.
  • the trained model used by the inference unit 240 included in the image processing apparatus 200a according to Embodiment 2 is a trained model generated by the learning apparatus 100 according to Embodiment 1, and is the model input as the explanatory variable.
  • This is a trained model that outputs a one-dimensional approximation signal, which is an approximation signal of the dimensional inference target image signal, as an inference result.
  • the learned model is trained using a plurality of one-dimensional learning image signals respectively corresponding to a plurality of learning images representing photographed images (hereinafter referred to as "non-defective images") in which an object to be photographed has no abnormality. model.
  • the inference unit 240 included in the image processing apparatus 200a inputs the one-dimensional inference target image signal to the trained model as an explanatory variable, and uses the one-dimensional approximation signal output by the trained model as an inference result.
  • the abnormality determination unit 250 determines the inference object image indicated by the inference object image information and the restored image information. By comparing with the restored image, it is determined whether or not there is an abnormality in the inference target object appearing in the inference target image. Specifically, for example, the abnormality determination unit 250 divides each of the inference target image indicated by the inference target image information and the restored image indicated by the restored image information into a plurality of inspection blocks each having a predetermined image size.
  • an inspection block obtained by dividing an inference object image will be referred to as an inspection object block
  • an inspection block obtained by dividing a restored image will be referred to as a restored inspection block.
  • the inference target image and the restored image are images of the same image size and are divided in the same manner, the number of inspection target blocks and the number of restored inspection blocks are equal.
  • both the number of check target blocks and the number of reconstructed check blocks are j (j is a positive integer). Also, in FIG.
  • the inspection blocks and the restored inspection blocks are arranged such that S x ⁇ B x and Sy ⁇ B y , blocks are adjacent to each other, or blocks overlap each other. It can be generated by dividing. By doing so, it is possible to increase the probability that at least one inspection block in which an abnormal area (a flaw, a foreign matter, etc.) is contained in each abnormal area exists. That is, it is possible to reduce the probability that the abnormal region will be divided into a plurality of blocks due to the abnormal region straddling the boundaries of the blocks, the abnormal score of each block will be reduced, and detection omissions will occur.
  • an abnormal area a flaw, a foreign matter, etc.
  • FIG. 12 is an explanatory diagram showing an example of an inspection target block in an inference target image and a restored inspection block in a restored image that are compared by the abnormality determination unit 250 provided in the image processing apparatus 200a according to the second embodiment.
  • the image shown on the left side is the inference target image
  • the image of the image area enclosed by the solid-line rectangle in the inference target image is one of the inspection target blocks.
  • the image shown on the right side is the restored image
  • the image of the image area surrounded by the solid-line rectangle in the restored image is the restored inspection block corresponding to the block to be inspected.
  • the abnormality determination unit 250 compares the inspection target block with the restored inspection block corresponding to the same image region as the inspection target block in the inference target image in the restored image, thereby determining the inference target block. It is determined whether or not there is an abnormality in the inference target object appearing in the image.
  • the restored image is inferred using a trained model that has been learned only from a plurality of non-defective images, only the features of the non-defective image can be restored with high accuracy.
  • the restoration accuracy is low for an abnormal portion having characteristics that do not exist in a non-defective product. Therefore, it is possible to determine that an area having a large difference between the block to be inspected and the restored inspection block is abnormal.
  • the abnormality determination unit 250 uses the following equation (9) to determine the k-th (k is any positive integer equal to or less than j) target block and the k Calculate the difference evaluation value with the th restored check block.
  • ⁇ k is the difference evaluation value between the k-th block to be checked and the k-th restored check block corresponding to the block to be checked.
  • R k is a set of pixels in the k-th inspection block (hereinafter referred to as "pixel set")
  • G k is a set of pixels in the k-th restored inspection block
  • nk is R k and the number of pixels in Gk .
  • a difference evaluation value focusing only on the difference in texture rather than the difference in the signal value itself between the pixel sets R k and G k is shown.
  • the abnormality determination unit 250 calculates an inspection score I, which is the maximum value of the difference evaluation values corresponding to each of the j blocks to be inspected, using the following equation (10).
  • ⁇ _base k is a predetermined value
  • the non-defective product image and the restored image generated by the inference unit 240 based on the non-defective product image (hereinafter referred to as “non-defective product restored image”).
  • the maximum difference evaluation value for example, the difference evaluation value calculated by Equation (9) between the inspection target block in the good product image and the restored inspection block in the good product restored image.
  • ⁇ _base k is a value that covers all possible variations in non-defective product images based on non-defective product images prepared in advance
  • ⁇ _base k indicates the maximum degree of abnormality that occurs based on the non-defective product images. Therefore, for example, when the value of the inspection score I calculated by Equation (10) exceeds 0 (zero), the abnormality determination unit 250 determines whether or not there is an abnormality in the inference target object appearing in the inference target image. . It should be noted that the threshold for determining whether or not the inference target object appearing in the inference target image has an abnormality based on the inspection score I calculated by Equation (10) is limited to 0 (zero). is not.
  • the threshold may be a value greater than 0 (zero) or a value less than 0 (zero).
  • the larger the threshold value the more difficult it is to determine that an abnormality has occurred. Therefore, the probability of occurrence of overdetection (overdetection rate) is suppressed, while the probability of overlooking an abnormality (oversight rate) increases. Since the overdetection rate and the oversight rate are in a trade-off relationship, the threshold is a tuning parameter in this image processing apparatus.
  • the determination result output unit 260 outputs the result determined by the abnormality determination unit 250 as determination result information. Specifically, for example, the determination result output unit 260 may output the determination result information as a display image signal to the display output device 22 and cause the display output device 22 to display and output the determination result information. Further, for example, the determination result output unit 260 outputs determination result information to an output device not shown in FIG. You may let the said output device leave the fact that there is.
  • the inference target image acquisition unit 210, the captured inference image acquisition unit 211, the one-dimensional inference target image generation unit 220, the learned model acquisition unit 230, the inference unit 240, and the abnormality determination unit in the image processing apparatus 200a according to the second embodiment. 250 and the determination result output unit 260 may be realized by the processor 801 and the memory 802 in the hardware configuration shown in FIGS. 8A and 8B in Embodiment 1, or the processing It may be implemented by the circuit 803 .
  • FIG. 13 is a flowchart illustrating an example of processing of the image processing device 200a according to the second embodiment. 13, the processing from step ST901 to step ST905 is the same as the processing from step ST901 to step ST905 shown in FIG.
  • step ST901 the imaging inference image acquisition unit 211 acquires imaging inference image information.
  • step ST902 the inference target image acquisition section 210 acquires inference target image information.
  • step ST903 the one-dimensional inference target image generating section 220 generates a one-dimensional inference target image signal.
  • learned model acquisition section 230 acquires learned model information.
  • step ST905 the inference section 240 acquires the inference result output by the trained model and acquires inference result information based on the inference result.
  • step ST1301 abnormality determination section 250 determines whether or not there is an abnormality in the inference target object appearing in the inference target image.
  • step ST1302, determination result output section 260 outputs determination result information.
  • the image processing apparatus 200a terminates the processing of the flowchart, returns to step ST901 after termination, and repeats the processing of the flowchart.
  • the image processing apparatus 200a acquires inference target image information indicating an inference target image that is an image based on a captured inference image that is an image obtained by photographing an inference target object.
  • An inference target image acquiring unit 210 and a one-dimensional inference target image indicated by the inference target image information acquired by the inference target image acquiring unit 210 to generate a one-dimensional inference target image signal corresponding to the inference target image information.
  • an inference unit 240 included in the image processing device 200a inputs a one-dimensional inference target image signal to a trained model as an explanatory variable, and outputs a one-dimensional approximation signal output by the trained model as an inference result.
  • the image processing device 200a acquires the inference target image information based on the inference target image information acquired by the inference target image acquisition unit 210 and the restored image information generated by the inference unit 240.
  • the abnormality determination unit 250 determines whether or not there is an abnormality in the inference target object appearing in the inference target image by comparing the inference target image indicated with the restored image indicated by the restored image information, and the abnormality determination unit 250 determines and a determination result output unit 260 that outputs the result as determination result information.
  • the image processing apparatus 200a uses a trained model generated in a shorter time than in the past, and uses a one-dimensional inference target image based on an inference target image input to the trained model as an explanatory variable.
  • a one-dimensional approximation signal approximating a one-dimensional inference target image signal is obtained from an image signal, and a restored image obtained by restoring the inference target image can be inferred with high accuracy using the obtained one-dimensional approximation signal.
  • By comparing with the inference target image it is possible to determine whether or not there is an abnormality in the inference target object appearing in the inference target image.
  • FIG. 14 is a block diagram showing an example of the configuration of the main part of an image processing system 20b to which the image processing apparatus 200b according to Embodiment 3 is applied.
  • the image processing system 20b includes a storage device 21, a display output device 22, an operation input device 23, an imaging device 24, and an image processing device 200b. That is, the image processing system 20b is obtained by changing the image processing apparatus 200 according to the first embodiment to an image processing apparatus 200b.
  • the same reference numerals are assigned to the same configurations as those shown in FIG. 6, and detailed description thereof will be omitted. That is, detailed descriptions of the storage device 21, the display output device 22, the operation input device 23, and the imaging device 24 are omitted.
  • the image processing device 200b has the functions of the image processing device 200 according to the first embodiment, and additionally has a function of classifying the inference target image information into one of a plurality of predetermined groups. It was added.
  • FIG. 15 is a block diagram showing an example of the configuration of the main part of the image processing device 200b according to the third embodiment.
  • the image processing device 200 b includes an inference target image acquisition unit 210 , a captured inference image acquisition unit 211 , a one-dimensional inference target image generation unit 220 , a trained model acquisition unit 230 , an inference unit 240 , and a classification unit 270 .
  • the image processing apparatus 200b is obtained by adding the classification unit 270 to the image processing apparatus 200 according to the first embodiment.
  • the trained model used by the inference unit 240 included in the image processing device 200b according to Embodiment 3 is the trained model generated by the learning device 100 according to Embodiment 1, and is the model that is input as the explanatory variable. It is a trained model that outputs, as an inference result, a feature vector of an inference target image corresponding to a dimensional inference target image signal. That is, the inference unit 240 included in the image processing apparatus 200b according to Embodiment 3 inputs the one-dimensional inference target image signal to the trained model as an explanatory variable, and the learned model outputs a feature vector as an inference result. , the feature vector of the inference target image corresponding to the one-dimensional inference target image signal is obtained, and feature vector information indicating the feature vector output by the trained model as the inference result is obtained as the inference result information.
  • the classifying unit 270 classifies the inference target image information corresponding to the feature vector information into one of a plurality of predetermined groups. Output classification result information indicating the result. Specifically, for example, the classification unit 270 uses the feature vector information acquired by the inference unit 240 to perform classification based on supervised learning such as a Support Vector Machine (SVM), thereby obtaining an inference target. The image information is classified into one of a plurality of predetermined groups.
  • SVM Support Vector Machine
  • a classification method based on supervised learning such as a support vector machine is a well-known technique, and hence description thereof is omitted.
  • Each function of 270 may be realized by the processor 801 and memory 802 in the hardware configuration shown in FIGS. 8A and 8B in Embodiment 1, or may be realized by the processing circuit 803. It can be.
  • FIG. 16 is a flowchart illustrating an example of processing of the image processing device 200b according to the second embodiment. 16, the processing from step ST901 to step ST905 is the same as the processing from step ST901 to step ST905 shown in FIG.
  • step ST901 the imaging inference image acquisition unit 211 acquires imaging inference image information.
  • step ST902 the inference target image acquisition section 210 acquires inference target image information.
  • step ST903 the one-dimensional inference target image generating section 220 generates a one-dimensional inference target image signal.
  • learned model acquisition section 230 acquires learned model information.
  • step ST905 the inference section 240 acquires the inference result output by the trained model and acquires inference result information based on the inference result.
  • step ST1601 classification section 270 outputs classification result information.
  • the image processing apparatus 200b terminates the processing of the flowchart, returns to step ST901 after termination, and repeats the processing of the flowchart.
  • the image processing apparatus 200b acquires inference target image information indicating an inference target image that is an image based on a captured inference image that is an image obtained by photographing an inference target object.
  • An inference target image acquiring unit 210 and a one-dimensional inference target image indicated by the inference target image information acquired by the inference target image acquiring unit 210 to generate a one-dimensional inference target image signal corresponding to the inference target image information.
  • the inference unit 240 included in the image processing device 200b inputs the one-dimensional inference target image signal to the trained model as an explanatory variable, and outputs the learned model as an inference result.
  • the image processing device 200b classifies the inference target image information corresponding to the feature vector information into one of a plurality of predetermined groups. and outputting classification result information indicating the result of classification.
  • the image processing device 200b uses a trained model that is generated in a shorter time than in the past, and corresponds to the one-dimensional inference target image signal input to the trained model as an explanatory variable.
  • the inference target image information corresponding to the feature vector information can be classified into one of a plurality of predetermined groups.
  • any component of the embodiment can be modified, or any component of the embodiment can be omitted.
  • a learning device can be applied to a learning system or an image processing system.
  • 10 learning system 11 storage device, 12 display output device, 13 operation input device, 100 learning device, 110 learning image acquisition unit, 111 captured image acquisition unit, 112 clustering unit, 120 one-dimensional learning image generation unit, 130 matrix generation Unit 140 Singular value decomposition unit 150 Trained model generation unit 160 Trained model output unit 20, 20a, 20b Image processing system 21 Storage device 22 Display output device 23 Operation input device 24 Imaging device 200 , 200a, 200b image processing device, 210 inference target image acquisition unit, 211 captured inference image acquisition unit, 220 one-dimensional inference target image generation unit, 230 learned model acquisition unit, 240 inference unit, 250 abnormality determination unit, 260 determination result Output unit, 270 classification unit, 401, 801 processors, 402, 802 memories, 403, 803 processing circuits.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Image Analysis (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

学習装置(100)は、学習用画像を示す学習用画像情報を取得する学習用画像取得部(110)と、複数の学習用画像情報のそれぞれが示す学習用画像を1次元化して、複数の学習用画像情報に対応する複数の1次元学習画像信号を生成する1次元学習画像生成部(120)と、複数の1次元学習画像信号を互いに並列に配列した行列を生成する行列生成部(130)と、行列について特異値分解を行うことにより、右特異ベクトル及び特異値を算出する特異値分解部(140)と、右特異ベクトル及び特異値に基づく学習済モデルであって、推論対象物体を撮影して得られた画像である推論対象画像を1次元化した画像を示す1次元推論対象画像信号を説明変数として、推論結果を出力する学習済モデルを生成する学習済モデル生成部(150)と、学習済モデルを学習済モデル情報として出力する学習済モデル出力部(160)と、を備えた。

Description

学習装置、学習方法、画像処理装置、及び画像処理方法
 本開示は、学習装置、学習方法、画像処理装置、及び画像処理方法に関する。
 学習モデルに学習させて学習済モデルを生成する方法として、教師あり学習と教師なし学習とがある。
 例えば、非特許文献1には、確率的勾配変分ベイズを用いて最適化することにより、ニューラルネットワークにより構成された学習モデルに効率的に深層学習させて、学習済モデルを生成する技術が開示されている。
"Diederik P Kingma, Max Welling"、"Auto-Encoding Variational Bayes"、[online]、"arXiv:1312.6114v10"、[令和2年12月4日検索]、インターネット(URL:https://arxiv.org/abs/1312.6114v10)
 非特許文献1に開示された技術(以下「従来技術」という。)を画像処理の分野に応用した場合、深層学習の学習結果として、学習に用いた画像(以下「学習用画像」という。)における潜在変数である特徴ベクトルと本ベクトルから復号された生成画像を出力する学習済モデルを得ることができ、当該学習済モデルを用いて推論対象の画像(以下「推論対象画像」という。)の圧縮、復元、異常検知、又は分類等を行うことができる。
 しかしながら、従来技術において学習用画像における精度の高い特徴ベクトルと生成画像を得るためには、ニューラルネットワークにおける中間層を多層化したディープニューラルネットワークを構築し、大量の学習用画像を用いて膨大な数の重みの反復最適化処理を要する深層学習を行う必要がある。
 したがって、従来技術では計算量が膨大となるため、従来技術には、高精度な推論を可能にする学習済モデルを生成するために、学習モデルに長時間に亘って学習させる必要があるという問題点があった。
 本開示は、上述の問題点を解決するためのものであって、従来と比較して短時間で高精度な推論が可能な学習済モデルを生成することができる学習装置を提供することを目的としている。
 本開示に係る学習装置は、学習用画像を示す学習用画像情報を取得する学習用画像取得部と、学習用画像取得部が取得する複数の学習用画像情報のそれぞれが示す学習用画像を1次元化して、複数の学習用画像情報に対応する複数の1次元学習画像信号を生成する1次元学習画像生成部と、1次元学習画像生成部が生成する複数の1次元学習画像信号を互いに並列に配列した行列を生成する行列生成部と、行列生成部が生成する行列について特異値分解を行うことにより、右特異ベクトル及び特異値を算出する特異値分解部と、特異値分解部が算出する右特異ベクトル及び特異値に基づく学習済モデルであって、推論対象物体を撮影して得られた画像である推論対象画像を1次元化した画像を示す1次元推論対象画像信号を説明変数として、推論結果を出力する学習済モデルを生成する学習済モデル生成部と、学習済モデル生成部が生成する学習済モデルを学習済モデル情報として出力する学習済モデル出力部と、を備えたものである。
 本開示によれば、従来と比較して短時間で高精度な推論が可能な学習済モデルを生成することができる。
図1は、実施の形態1に係る学習装置が適用される学習システムの要部の構成の一例を示すブロック図である。 図2は、実施の形態1に係る学習装置の要部の構成の一例を示すブロック図である。 図3Aは、実施の形態1に係る学習用画像を模式的に示した説明図である。図3Bは、実施の形態1に係る学習用画像の変形例を模式的に示した説明図である。図3Cは、実施の形態1に係る1次元学習画像信号を模式的に示した説明図である。図3Dは、実施の形態1に係る行列を模式的に示した説明図である。 図4A及び図4Bは、実施の形態1に係る学習装置の要部のハードウェア構成の一例を示す図である。 図5は、実施の形態1に係る学習装置の処理の一例を説明するフローチャートである。 図6は、実施の形態1に係る画像処理装置が適用される画像処理システムの要部の構成の一例を示すブロック図である。 図7は、実施の形態1に係る画像処理装置の要部の構成の一例を示すブロック図である。 図8A及び図8Bは、実施の形態1に係る画像処理装置の要部のハードウェア構成の一例を示す図である。 図9は、実施の形態1に係る画像処理装置の処理の一例を説明するフローチャートである。 図10は、実施の形態2に係る画像処理装置が適用される画像処理システムの要部の構成の一例を示すブロック図である。 図11は、実施の形態2に係る画像処理装置の要部の構成の一例を示すブロック図である。 図12は、実施の形態2に係る画像処理装置が備える異常判定部が比較する推論対象画像における検査対象ブロックと、復元画像における復元検査ブロックと一例を示す説明図である。 図13は、実施の形態2に係る画像処理装置の処理の一例を説明するフローチャートである。 図14は、実施の形態3に係る画像処理装置が適用される画像処理システムの要部の構成の一例を示すブロック図である。 図15は、実施の形態3に係る画像処理装置の要部の構成の一例を示すブロック図である。 図16は、実施の形態3に係る画像処理装置の処理の一例を説明するフローチャートである。
 以下、本開示の実施の形態について、図面を参照しながら詳細に説明する。
実施の形態1.
 図1から図5までを参照して、実施の形態1に係る学習装置100について説明する。
 図1を参照して、実施の形態1に係る学習装置100が適用される学習システム10の要部の構成について説明する。
 図1は、実施の形態1に係る学習装置100が適用される学習システム10の要部の構成の一例を示すブロック図である。
 学習システム10は、記憶装置11、表示出力装置12、操作入力装置13、及び学習装置100を備える。
 記憶装置11は、学習装置100が予め定められた所定の処理を実行するために必要な情報を記憶する装置である。学習装置100は、記憶装置11に記憶された情報を読み出すことにより、当該情報を取得することができる。また、学習装置100が出力する情報を受けて、当該情報を記憶する。
 表示出力装置12は、表示画像信号を取得して、当該表示画像信号が示す表示画像を表示するディスプレイ等の装置である。表示出力装置12は、学習装置100が出力する表示画像信号を受けて、当該表示画像信号が示す表示画像を表示する。
 操作入力装置13は、ユーザの操作(以下「ユーザ操作」という。)を受けてユーザ操作に基づく操作信号を出力するキーボード又はポインティングディバイス等の装置である。操作入力装置13は、キーボード又はポインティングディバイスに限定されるものではなく、ユーザ操作を受けてユーザ操作に基づく操作信号を出力する可能なものであれば、タッチパネル又はタッチセンサ等であってもよい。
 操作入力装置13は、操作信号を学習装置100に出力する。
 学習装置100は、学習用画像を示す学習用画像情報を取得して、学習用画像に基づく学習済モデルを生成する装置である。
 表示出力装置12及び操作入力装置13により、学習装置100を操作するユーザに対してインタラクティブなユーザインタフェースが提供される。
 すなわち、ユーザは、表示出力装置12に表示される表示画像を確認しつつ、操作入力装置13を用いてユーザ操作を行うことにより、ユーザが所望する制御を学習装置100行わせることができる。
 図2を参照して、実施の形態1に係る学習装置100の要部の構成について説明する。
 図2は、実施の形態1に係る学習装置100の要部の構成の一例を示すブロック図である。
 学習装置100は、学習用画像取得部110、1次元学習画像生成部120、行列生成部130、特異値分解部140、学習済モデル生成部150、及び学習済モデル出力部160を備える。
 学習装置100は、上述の構成に加えて、撮影画像取得部111、又は、撮影画像取得部111及びクラスタリング部112を備えるものであってもよい。
 以下、学習装置100は、図2に示すように、学習用画像取得部110、撮影画像取得部111、クラスタリング部112、1次元学習画像生成部120、行列生成部130、特異値分解部140、学習済モデル生成部150、及び学習済モデル出力部160を備えるものとして説明する。
 なお、学習装置100は、図2には不図示の構成として、操作入力装置13が出力する操作信号を取得する操作取得部と、操作取得部が取得する操作信号に基づく表示画像を生成し、当該表示画像を示す表示画像信号を表示出力装置12に出力する表示画像出力部を備えるものとする。
 学習用画像取得部110は、学習用画像を示す学習用画像情報を取得する。
 具体的には、学習用画像取得部110は、互いに異なる複数の学習用画像情報を取得する。
 より具体的には、例えば、学習用画像取得部110は、複数の学習用画像のそれぞれを示す学習用画像情報が予め記憶された記憶装置11から、学習用画像情報を読み出すことにより、互いに異なる複数の学習用画像情報を取得する。
 学習用画像取得部110が記憶装置11から読み出すことにより取得する学習用画像情報は、例えば、ユーザが操作入力装置13を操作することにより選択されて取得される。
 以下、学習用画像取得部110は、m(mは予め定められた2以上の整数)個の互いに異なる学習用画像情報を取得するものとして説明する。また、学習用画像取得部110が取得するm個の学習用画像情報のそれぞれ示す学習用画像を学習用画像w(iは1以上且つm以下の任意の整数)と表記して説明する。
 1次元学習画像生成部120は、学習用画像取得部110が取得する複数の学習用画像情報のそれぞれが示す学習用画像を1次元化して、複数の学習用画像情報に対応する複数の1次元信号(以下「1次元学習画像信号」という。)を生成する。
 具体的には、例えば、1次元学習画像生成部120は、学習用画像取得部110が取得する学習用画像情報が示す学習用画像をラスタ捜査することにより1次元学習画像信号を生成する。
 より具体的には、例えば、1次元学習画像生成部120は、学習用画像取得部110が取得する複数の学習用画像情報について、複数の学習用画像情報のそれぞれが示す学習用画像をラスタ捜査することにより各学習用画像情報に対応する1次元学習画像信号を生成する。
 以下、学習用画像wに対応する1次元学習画像信号を1次元学習画像信号w´と表記して説明する。
 行列生成部130は、1次元学習画像生成部120が生成する複数の1次元学習画像信号を互いに並列に配列した行列を生成する。
 以下、1次元学習画像信号w´から1次元学習画像信号w´までのm個の1次元学習画像信号を互いに並列に配列した行列を行列Wと表記して説明する。
 なお、行列生成部130が行列Wを生成するために、学習用画像取得部110で取得する、1次元学習画像信号w´から1次元学習画像信号w´の元となる各学習用画像情報が互いに等しい画素数であることが必要である。
 図3を参照して、実施の形態1に係る学習用画像w、1次元学習画像信号w´、及び行列Wについて説明する。
 図3Aは、実施の形態1に係る学習用画像wを模式的に示した説明図である。
 図3Aに示すように、学習用画像wは、図3Aにおける横方向にp(pは1以上の予め定められた整数)個の画素を、縦方向にq(qは1以上の予め定められた整数)個の画素を有する矩形画像である。pとqとの積をnとすると、学習用画像wは、n個の画素を有する矩形画像である。したがって、学習用画像wは撮影画像そのものとは限らず、撮影画像を矩形(ブロック)で切り出す、拡大又は縮小を行う等の画像処理を施した画像等、2次元に配置された画素の集合であればよい。図3Bは、実施の形態1に係る学習用画像の変形例を模式的に示した説明図である。例えば、図3Bに示すように、撮影画像を分割した各ブロックを、学習用画像とする場合がある。Bx、Byは分割ブロックの水平方向、垂直方向の画素数をそれぞれ示し、Sx、Syは水平方向、垂直方向の各分割位置の移動画素数(ステップサイズ)を示す。さらに、各分割ブロックDi,jの位置インデックス(i,j)は、各ブロックの位置関係を識別するための情報である。このとき、S=BかつS=Bの場合、各ブロックは、互いに隣接することとなる。S<BまたはS<Bの場合、隣接ブロックに重なりがあるように分割することとなる。S>BまたはS>Bの場合、分割ブロック間に隙間が生じるため、学習用画像として含まない画素が撮影画像内に発生する。一般に隣接ブロックが重なる領域が大きい程分割ブロックのパターンが増え、学習の精度が向上する。一方で学習画像数が増加することとなるため、学習速度は低下する。よって、学習精度と学習速度はトレードオフの関係にあるため、B、B、S、Sはユーザ等によるチューニング要素となる。例えば、ユーザが操作入力装置13を操作することにより、B、B、S、Sのチューニング(値の設定)が行われる。
 学習用画像wは、各画素が、1ビットにより示されるモノクロ画像であっても、8ビット等のビット列により示されるグレースケール画像であっても、24ビット等のビット列により示されるカラー画像であってもよい。また、学習用画像wは、RGB形式によるビットマップ画像であっても、YUV形式によるビットマップ画像であってもよい。
 図3Cは、実施の形態1に係る1次元学習画像信号w´を模式的に示した説明図である。図3Cに示すように、1次元学習画像信号w´は、図3Cにおける横方向にn個の画素を、縦方向に1個の画素を有する画像である。1次元学習画像信号w´は、1次元学習画像信号w´における各画素が、学習用画像wにおける各画素と同じビット数のビット又はビット列により構成されたものとなる。
 図3Dは、実施の形態1に係る行列Wを模式的に示した説明図である。
 図3Dに示すように、行列Wは、1次元学習画像信号w´を列方向に並べたものであり、横方向にn個の画素を、縦方向にm個の画素を有する画素信号の行列となる。
 行列Wは、行列Wにおける各成分が、学習用画像wにおける各画素と同じビット数のビット又はビット列により構成されたものとなる。
 特異値分解部140は、行列生成部130が生成する行列Wについて特異値分解(SVD:Singular Value Decomposition)を行うことにより、右特異ベクトル及び特異値を算出する。
 ここで特異値分解は、周知の技術ではあるが、特異値分解について簡単に説明する。
 行列Am×nがm行n列の行列である場合、行列Am×nの特異値分解は、次式(1)により表すことができる。
 Am×n=Um×mΓm×n n×n ・・・ 式(1)
 ここで、Um×mはm行m列のユニタリ行列、V n×nはn行n列のユニタリ行列であるVn×nの転置行列である。また、行列Γm×nはm行n列の行列であり、対角成分以外は常に0となる。さらに、行列Γm×nにおけるi行i列の対角成分をσとし、IをAm×nの階数(ランク)とすると、Iは1以上M(M=min(m,n)、min(m,n)はmとnの内の小さい値を示す)以下の整数であり、σ,σ,・・・,σは、次式(2)を満たす行列Am×nのI個の特異値を表している。
 σ>σ>・・・>σ>0 ・・・ 式(2)
このとき、I<Mである場合、σI+1=・・・=σ=0である。すなわち、式(1)において、行列Γm×nは非零成分が行列Am×nの特異値の組のみで構成される行列である。また、式(1)において、行列Um×mにおける各列ベクトルは行列Am×nの左特異ベクトルを表している。すなわち、行列Um×mは行列Am×nの左特異ベクトルの組を表している。また、式(1)において、行列Vn×nにおける各列ベクトルは行列Am×nの右特異ベクトルを表している。すなわち、行列Vn×nは行列Am×nの右特異ベクトルの組を表している。
 式(1)を応用すると行列Am×nを近似した行列(以下「近似行列」)A m×nは次式(3)を用いて表すことができる。
 Am×n≒A m×n=Um×rΓr×r r×n ・・・ 式(3)
 ここで、行列Γr×rはr(rは、1以上且つI以下の整数)個の対角成分を有するr行r列の対角行列であり、行列Γr×rは対角成分に行列Γm×nにおける対角成分のうちのσ,σ,・・・,σを有する。また、Um×rは行列Um×mの左からr列までの成分で構成されているm行r列の行列であり、同様に行列V r×nはVn×nの左からr列までの成分で構成されているn行r列の行列Vn×rの転置行列である。式(3)から明らかなように、本近似は特異値をr個持つ行列の特異値分解を表していることから、行列A m×nはランクIの行列Am×nのランクrでの低ランク近似を示す。
 特異値分解部140は、行列生成部130が生成する行列Wについて特異値分解を行うことにより、式(1)に対応する次式(4)を満たす右特異ベクトル及び特異値を算出する。
 W=Um×mΓm×n n×n ・・・ 式(4)
 学習済モデル生成部150は、特異値分解部140が算出する右特異ベクトル及び特異値に基づいて学習済モデルを生成する。
 学習済モデル生成部150が生成する学習済モデルは、水平方向と垂直方向が共に学習用画像と同一画素数の画像(以下「推論対象画像」という。)を1次元化した画像を示す信号(以下「1次元推論対象画像信号」という。)を説明変数として、推論結果を出力するものである。ここで、推論対象画像は、推論対象の物体(以下、「推論対象物体」という。)を撮影して得られた画像(以下「推論撮影画像」という。)、または推論撮影画像に対して画像処理を施して得られた画像である。
 具体的には、学習済モデル生成部150は、特異値分解部140が算出する特異値のうちの値の大きいものから順に予め定められたr個の特異値と、r個の特異値の組み合わせである対角行列に対応する右特異ベクトルの組を有する行列との組み合わせに基づく学習済モデルを生成する。
 より具体的には、例えば、学習済モデル生成部150は、次式(5)を満たす行列Γr×rとV n×rとを学習済モデルのパラメータとして生成する。
 W≒Um×rΓr×r n×r ・・・ 式(5)
 ここで、行列Γr×rは、r個の特異値が対角に配置されたr行r列の対角行列である。また、行列V n×rは、式(5)における行列Γr×rに対応するWの右特異ベクトルの組を表す行列Vn×rの転置行列である。このとき、右特異ベクトルはVn×rの列ベクトルである(V n×rの場合、転置しているため行ベクトルとなる)。
 なお、学習済モデル生成部150が、特異値分解部140が算出する特異値のうちの値の大きいものから順に採用する特異値の個数(Wの近似行列のランク)rは、当該個数を示す情報を学習済モデル生成部150が保持していても、学習済モデル生成部150がユーザ操作に基づいて取得してもよい。
 なお、上記rが予め決定している場合、特異値分解部140は、例えば、以下に示す文献1に記載された特異値分解における高速解法に関する技術を用いて、特異値分解の高速化又は省メモリ化を図っても良い。
 文献1:"Matthew Brand"、"Fast Low-Rank Modifications of the Thin Singular Value Decomposition"、"MITSUBISHI ELECTRIC RESEARCH LABORATORIES"、[令和2年12月4日検索]、インターネット(URL:https://www.merl.com/publications/docs/TR2006-059.pdf)
 文献1は、特異値分解を行う際、特異値分解対象の行列Am×nに対して、まず行列Am×nのr行(行列Ar×n)に対して通常の特異値分解演算を行い、特異値分解行列Um×r´、Γr×r´、V n×r´を求める。そして、残りのm-r行に対して、特異値分解行列Um×r´、Γr×r´、V n×r´に対する逐次的な更新処理を行う。具体的には、任意のj行(jは1以上の整数)ずつ、直前の更新処理で得られた特異値分解行列から、行列A(r+J)×n(Jは当該更新処理までのjの総和)の特異値分解行列に更新する行列演算(以下「更新演算」という。)をr+J=mとなるまで繰返し行うことで、行列Am×nの特異値分解を実現している。本更新演算は、通常の特異値分解の演算処理と比べて少ない演算量となるため、一般に行列Am×nの特異値分解演算を一度に実施するよりも高速かつ省メモリとなる。このとき、処理対象行数jは更新演算毎に変化しても良い。例えば、m-r=20であった場合、この残りの20行に対してtを、順に3行、7行、1行、2行、2行、5行というように任意とすることが可能である。
 上記のように任意行数での更新演算が可能である特徴から、文献1に記載の特異値分解によって追加学習も可能となる。すなわち、Wの学習済モデルとして、行列Γr×r、V n×rだけでなく、行列Um×rも保持するように構成する。これにより、追加学習したいl個の1次元学習画像信号を互いに並列に配列した行列Wを用いて、既に存在する上記特異値分解行列Um×r、Γr×r、V n×rを更新する行列演算を行うことで、行列Wと行列Wを行方向に連結した行列Wm+1に対して特異値分解した場合と同じ学習モデル(行列U(m+l)×r´´、Γr×r´´、V n×r´´)が得られる。上記更新演算を用いない場合は、追加学習を行うことは不可能であり、再学習として行列Wm+1に対して通常の特異値分解を行う必要があるため、上記更新演算によって高速かつ省メモリな追加学習処理が実現できる。なお、始めの学習及び追加学習共に上記更新演算を用いるようにしてもよいし、追加学習のみ上記更新演算を用いるようにしてもよい。
 さらに、文献1には、行列Am×nの特異値分解後の行列Um×r、Γr×r、V n×rに対して、行列Am×nの中から選択した1つの行ベクトルaを除いた行列Am×n,aの特異値分解演算を、上記行ベクトルaを用いて、既に存在する行列Um×r、Γr×r、V n×rからの更新演算のみで実現する技術が記載されている。この技術を導入することで、学習済モデル(行列Um×r、Γr×r、V n×r)で用いた学習画像信号の中に人的ミス等によって学習に不適切な画像が混入した場合においても、不適切な1次元学習画像信号w´(前記行ベクトルaに対応する)を除いた場合の学習済モデル(行列U(m-1)×r´´´、Γr×r´´´、V n×r´´´)が高速かつ省メモリな演算で得られる。
 このとき、除きたい学習画像が複数ある場合は、上記処理を順に実施すればよい。
 さらに、文献1には、特異値分解後の行列Um×r、Γr×r、V n×rに対して、行列Am×nの中から選択した1つの行ベクトルaを除き、1つの新たな行ベクトルa´を追加した行列Am×n,a´―aの特異値分解演算を、上記行ベクトルa及び上記行ベクトルa´を用いて、既に存在する行列Um×r、Γr×r、V n×rからの更新演算のみで実現する技術が記載されている。この技術を導入することで、学習済モデル(行列Um×r、Γr×r、V n×r)で用いた学習画像信号の中に人的ミス等によって本来学習すべき画像とは別の画像が混入した場合においても、不適切な1次元学習画像信号w´(前記行ベクトルaに対応する)を正しい1次元学習画像信号w´(前記行ベクトルa´に対応する)に置き換えた場合の学習済モデル(行列Um×r´´´´、Γr×r´´´´、V n×r´´´´)が高速かつ省メモリな演算で得られる。
 このとき、置き換えを行いたい学習画像が複数ある場合は、上記処理を順に実施すればよい。
 例えば、学習済モデル生成部150は、1次元推論対象画像信号を説明変数として入力した際に、特異値分解部140が算出する右特異ベクトル及び特異値に基づいて、1次元推論対象画像信号の近似信号(以下「1次元近似信号」という。)を推論結果として出力する学習済モデルを生成する。
 以下、1次元近似信号をwと表記して説明する。
 wは、式(4)における行列Γm×nと行例V n×nとを用いて、次式(6)で表すことができる。
 w=uΓm×n n×n ・・・ 式(6)
 ここで、uは1次元ベクトルであり、行列Γm×nと行例V n×nとを用いてwを復元するための係数で構成されるwの特徴ベクトルである。行列Γm×nと行例V n×nとは、式(4)により既知であるため、wが定まればuは一意に決定される。
 式(6)を応用すると、wは、式(5)における行列Γr×rと行例V n×rとを用いて、次式(7)により近似することが可能である。
 w≒w =u Γr×r n×r ・・・ 式(7)
 ここで、w は、wを近似した1次元近似信号である。また、u は、wの特徴ベクトルであるuの次元数をr次元に削減した特徴ベクトル(以下「近似特徴ベクトル」という。)であり、次式(8)を得ることができる。
 u =w n×rΓr×r -1≒wn×rΓr×r -1 ・・・ 式(8)
 ここで、Γr×r -1は、Γr×rの逆行列である。
 以上のように、学習済モデル生成部150は、1次元推論対象画像信号であるwを説明変数として入力した際に、例えば、式(7)に基づいて、1次元近似信号であるw を出力する学習済モデルを生成する。
 また、学習済モデル生成部150は、1次元推論対象画像信号を説明変数として入力した際に、特異値分解部140が算出する右特異ベクトル及び特異値に基づいて、1次元推論対象画像信号に対応する推論対象画像の特徴ベクトルを推論結果として出力する学習済モデルを生成するものであってもよい。
 この場合、例えば、学習済モデル生成部150は、1次元推論対象画像信号を説明変数として入力した際に、1次元推論対象画像信号に対応する推論対象画像の特徴ベクトルであって、当該特徴ベクトルuの次元数をr次元に削減した特徴ベクトルu を推論結果として出力する学習済モデルを生成する。
 以上のように、学習済モデル生成部150は、1次元推論対象画像信号であるwを説明変数として入力した際に、例えば、式(8)に基づいて、1次元推論対象画像信号に対応する推論対象画像の近似特徴ベクトルであるu を出力する学習済モデルを生成するものであってもよい。
 学習済モデル出力部160は、学習済モデル生成部150が生成する学習済モデルを学習済モデル情報として出力する。
 具体的には、例えば、学習済モデル出力部160は、学習済モデル情報を記憶装置11に出力して、記憶装置11に記憶させる。
 以上のように構成することにより、学習装置100は、中間層を多層化したディープニューラルネットワークにより構成されていない学習済モデルを生成することができる。結果として、学習装置100は、パラメータの反復最適化処理を必要とせずに1回の特異値分解により高精度な推論を可能にする学習済モデルを生成できるため、従来と比較して短時間で高精度な推論が可能な学習済モデルを生成することができる。
 これまでの説明において、学習用画像取得部110は、記憶装置11から学習用画像情報を読み出すことにより、予め生成されていた互いに異なる複数の学習用画像情報を取得するものとしたが、学習用画像取得部110が学習用画像情報を取得する方法は、これに限定されるものではない。
 例えば、学習用画像取得部110は、学習用画像情報とは異なる画像を示す情報であって、対象物体を撮影することにより取得した画像(以下「撮影画像」という。)を示す情報「以下「撮影画像情報」という。」に基づいて、学習用画像情報を生成して取得するものであってもよい。
 学習用画像取得部110が撮影画像情報に基づいて学習用画像情報を生成して取得するために、例えば、学習装置100は、図2に示すように、撮影画像取得部111を備える。
 撮影画像取得部111は、対象物体を撮影することにより取得した撮影画像を示す撮影画像情報を取得する。
 具体的には、撮影画像取得部111は、互いに異なる複数の対象物体のそれぞれに対応する撮影画像情報を取得する。
 例えば、撮影画像取得部111は、互いに異なる複数の対象物体のそれぞれに対応する撮影画像情報であって、複数の撮影画像情報が予め記憶された記憶装置11から、撮影画像情報を読み出すことにより、互いに異なる複数の対象物体のそれぞれに対応する撮影画像情報を取得する。
 この場合、例えば、学習用画像取得部110は、撮影画像取得部111が取得する複数の撮影画像情報のそれぞれが示す撮影画像について、撮影画像を複数の画像領域に分割して各画像領域に対応する部分画像を取得する。学習用画像取得部110は、撮影画像に基づく複数の部分画像のそれぞれを示す部分画像情報を撮影画像情報毎に取得することにより、撮影画像取得部111が取得する複数の撮影画像情報のそれぞれに対応する複数の部分画像情報を学習用画像情報として取得する。具体的な分割画像の例は、先述した図3Bに記載した分割ブロックである。
 また、この場合、行列生成部130は、学習用画像取得部110が取得する複数の部分画像情報であって、撮影画像取得部111が取得する複数の撮影画像情報のそれぞれに対応する複数の部分画像情報のうちの予め定められた条件に適合する複数の部分画像情報に対応する複数の1次元学習画像信号を互いに並列に配列することにより行列を生成する。
 ここで、予め定められた条件に適合する複数の部分画像情報とは、例えば、複数の撮影画像情報のそれぞれが示す撮影画像における互いに同じ画像領域に対応する部分画像情報である。同じ画像領域とは図3Bにおいて、分割ブロックDi,jの位置インデックス(i,j)が一致するブロックである。
 すなわち、例えば、行列生成部130は、撮影画像取得部111が取得する複数の撮影画像情報のそれぞれが示す撮影画像における互いに同じ画像領域に対応する部分画像情報に基づいて1次元学習画像生成部120が生成した複数の1次元学習画像信号を互いに並列に配列することにより、行列を生成する。
 特異値分解部140は、部分画像情報に基づいて1次元学習画像生成部120が生成した1次元学習画像信号を互いに並列に配列することにより行列生成部130が生成した行列における右特異ベクトル及び特異値を算出する。
 また、学習済モデル生成部150は、行列生成部130が生成する部分画像情報に基づく行列に対応する右特異ベクトル及び特異値を出力する学習済モデルを生成する。
 以上のように構成することにより、学習装置100は、推論対象物体を撮影して得られた画像(撮影画像)のうちの予め定められた画像領域における画像(部分画像)を推論対象画像とし、当該推論対象画像に対応する1次元推論対象画像信号を説明変数として入力した際に、当該推論対象画像に対応する1次元近似信号、又は当該推論対象画像の特徴ベクトルを推論結果として出力する学習済モデルを生成することができる。
 結果として、学習装置100は、推論対象物体を撮影して得られた撮影画像のうちの予め定められた画像領域における部分画像に特化した高精度な推論が可能な学習済モデルを従来と比較して短時間で生成することができる。
 行列生成部130は、予め定められた条件に基づいて、条件毎に対応する行列を生成してもよい。
 具体的には、例えば、行列生成部130は、撮影画像における複数の画像領域のそれぞれに対応する行列を生成する。複数の画像領域は、図3Bにおいて、分割ブロックDi,jを複数まとめた領域である。例えば、水平方向に4、垂直方向に2まとめた領域である。以下、本領域を「セグメント」という。ここで、最も大きいセグメントの例は画像全体で1つのセグメントとする場合であり、この場合、生成する学習済モデルは1つとなり、学習済モデルの保存に必要なメモリ容量を小さくすることができる。また、各セグメントの大きさは異なっていても良い。これは撮影画像のどの位置に何が写っているのかが予め分かる場合、明示的なセグメント分割(例えば被写体と背景に分割)を行うことにより各セグメントで画像の特徴を分割することができ、学習すべき画像パターンを絞り込むことができるため、限定的な学習済モデル数(セグメント数)で高精度な推論(画像生成)が可能となる高効率な学習を実現することができる。
 一方、最も小さいセグメントの1つの部分画像の位置毎に1つのセグメントとする場合であり、この場合、セグメント数は部分画像分割数となる。このようにすることで、学習モデル数は増大するものの、各部分画像位置に特化した学習が可能となり、非常に高精度な推論(画像生成)が可能となる。なお、この場合は段落0046に記載した条件の場合と同じとなる。
 この場合、例えば、特異値分解部140は、行列生成部130が生成する条件毎の行列について、右特異ベクトル及び特異値を算出する。
 具体的には、例えば、特異値分解部140は、行列生成部130が生成する撮影画像における複数の画像領域のそれぞれに対応する行列について、複数の行列のそれぞれに対応する右特異ベクトル及び特異値を算出する。
 また、この場合、学習済モデル生成部150は、行列生成部130が生成する条件毎の行列に対応して特異値分解部140が算出する右特異ベクトル及び特異値に基づいて、条件毎の行列に対応する学習済モデルを生成する。
 具体的には、例えば、学習済モデル生成部150は、行列生成部130が生成する撮影画像における複数の画像領域のそれぞれに対応する行列について、複数の当該行列のそれぞれに対応して特異値分解部140が算出する右特異ベクトル及び特異値に基づいて、複数の行列のそれぞれに対応する学習済モデルを生成する。
 以上のように構成することにより、学習装置100は、推論対象物体を撮影して得られた画像(撮影画像)のうちの予め定められた複数の画像領域のそれぞれにおける画像(部分画像)を推論対象画像とし、複数の当該推論対象画像のそれぞれに対応する1次元推論対象画像信号を、同じ画像領域の部分画像を用いて生成した学習済モデルに対して説明変数として入力した際に、複数の当該推論対象画像のそれぞれに対応する1次元近似信号、又は複数の当該推論対象画像のそれぞれに対応する特徴ベクトルを推論結果として出力する学習済モデルを画像領域毎に生成することができる。
 結果として、学習装置100は、推論対象物体を撮影して得られた撮影画像のうちの予め定められた複数の画像領域のそれぞれにおける部分画像に特化した高精度な推論が可能な学習済モデルを画像領域毎に従来と比較して短時間で生成することができる。
 学習装置100は、図2に示すように、撮影画像取得部111及びクラスタリング部112を備えるものであってよい。
 クラスタリング部112は、学習用画像取得部110が取得する複数の部分画像情報であって、撮影画像取得部111が取得する複数の撮影画像情報のそれぞれに対応する複数の部分画像情報のそれぞれが示す部分画像をクラスタリングする。
 学習装置100が撮影画像取得部111及びクラスタリング部112を備える場合、例えば、行列生成部130は、クラスタリング部112がクラスタリングした結果に基づいて分類された各クラスに属する複数の部分画像のそれぞれについて1次元学習画像生成部120が生成した複数の1次元学習画像信号を互いに並列に配列することにより行列を生成する。
 クラスタリングには、例えば、各部分画像自身、部分画像を特徴変換した画像(例えば、エッジ画像、直行変換画像)自身、あるいはこれらに平滑化処理やプーリング処理等のフィルタ処理を行った画像のいずれか、またはそれら画像の組を1次元化した信号に対して、k-means法、階層型クラスタリング、DBSCAN(Density-based spatial clustering of applications with noise)、GMM(Gaussian Mixture Model)等のクラスタリング手法を用いる方法がある。
 複数の部分画像情報は、クラスタリング部112がクラスタリングした結果に基づいて分類された各クラスに属する複数の部分画像のそれぞれを示す部分画像情報である。
 以上のように構成することにより、学習装置100は、各クラスに対して、推論対象物体を撮影して得られた画像(撮影画像)のうちの予め定められた複数の画像領域のそれぞれにおける画像(部分画像)の中の当該クラスに属する部分画像を推論対象画像とし、当該推論対象画像に対応する1次元推論対象画像信号を、当該クラスに属する複数の部分画像を用いて生成した学習済モデルに対して説明変数として入力した際に、当該推論対象画像に対応する1次元近似信号、又は当該推論対象画像に対応する特徴ベクトルを推論結果として出力する学習済モデルを生成することができる。
 結果として、学習装置100は、推論対象物体を撮影して得られた画像のうちの予め定められたクラスに属する部分画像に特化した高精度な推論が可能な学習済モデルを、従来と比較して短時間で生成することができる。
 また、行列生成部130は、各クラスに対応する行列を生成してもよい。
 この場合、例えば、特異値分解部140は、行列生成部130が生成する各クラスに対応する行列について、行列毎に右特異ベクトル及び特異値を算出する。
 また、この場合、学習済モデル生成部150は、行列生成部130が生成する各クラスに対応する右特異ベクトル及び特異値に基づいて、各クラスに対応する学習済モデルを生成する。
 以上のように構成することにより、学習装置100は、推論対象物体を撮影して得られた画像(撮影画像)のうちの複数の画像領域のそれぞれにおける部分画像に特化した、特に各クラスのそれぞれに属する画像に特化した高精度な推論が可能な学習済モデルをクラス毎に従来と比較して短時間で生成することができる。
 図4A及び図4Bを参照して、実施の形態1に係る学習装置100の要部のハードウェア構成について説明する。
 図4A及び図4Bは、実施の形態1に係る学習装置100の要部のハードウェア構成の一例を示す図である。
 図4Aに示す如く、学習装置100はコンピュータにより構成されており、当該コンピュータはプロセッサ401及びメモリ402を有している。メモリ402には、当該コンピュータを学習用画像取得部110、撮影画像取得部111、クラスタリング部112、1次元学習画像生成部120、行列生成部130、特異値分解部140、学習済モデル生成部150、及び学習済モデル出力部160として機能させるためのプログラムが記憶されている。メモリ402に記憶されているプログラムをプロセッサ401が読み出して実行することにより、学習用画像取得部110、撮影画像取得部111、クラスタリング部112、1次元学習画像生成部120、行列生成部130、特異値分解部140、学習済モデル生成部150、及び学習済モデル出力部160が実現される。
 また、図4Bに示す如く、学習装置100は処理回路403により構成されても良い。この場合、学習用画像取得部110、撮影画像取得部111、クラスタリング部112、1次元学習画像生成部120、行列生成部130、特異値分解部140、学習済モデル生成部150、及び学習済モデル出力部160の機能が処理回路403により実現されても良い。
 また、学習装置100はプロセッサ401、メモリ402及び処理回路403により構成されても良い(不図示)。この場合、学習用画像取得部110、撮影画像取得部111、クラスタリング部112、1次元学習画像生成部120、行列生成部130、特異値分解部140、学習済モデル生成部150、及び学習済モデル出力部160の機能のうちの一部の機能がプロセッサ401及びメモリ402により実現されて、残余の機能が処理回路403により実現されるものであっても良い。
 プロセッサ401は、例えば、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、マイクロプロセッサ、マイクロコントローラ又はDSP(Digital Signal Processor)を用いたものである。
 メモリ402は、例えば、半導体メモリ又は磁気ディスクを用いたものである。より具体的には、メモリ402は、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read-Only Memory)、SSD(Solid State Drive)、又はHDD(Hard Disk Drive)などを用いたものである。
 処理回路403は、例えば、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field-Programmable Gate Array)、SoC(System-on-a-Chip)又はシステムLSI(Large-Scale Integration)を用いたものである。
 図5を参照して、実施の形態1に係る学習装置100の動作について説明する。
 図5は、実施の形態1に係る学習装置100の処理の一例を説明するフローチャートである。
 なお、図5は、学習装置100が学習用画像取得部110、1次元学習画像生成部120、行列生成部130、特異値分解部140、学習済モデル生成部150、及び学習済モデル出力部160に加えて、撮影画像取得部111及びクラスタリング部112を備える場合におけるフローチャートである。
 学習装置100がクラスタリング部112、又は、撮影画像取得部111及びクラスタリング部112を備えていない場合、図5において、撮影画像取得部111又はクラスタリング部112が行う処理については適宜省略が可能である。
 まず、ステップST501にて、撮影画像取得部111は、撮影画像情報を取得する。
 次に、ステップST502にて、学習用画像取得部110は、複数の撮影画像情報のそれぞれに対応する複数の部分画像情報を学習用画像情報として取得する。
 次に、ステップST503にて、クラスタリング部112は、複数の部分画像情報のそれぞれが示す部分画像をクラスタリングする。
 次に、ステップST504にて、1次元学習画像生成部120は、複数の学習用画像情報について1次元学習画像信号を生成する。
 次に、ステップST505にて、行列生成部130は、複数の1次元学習画像信号を互いに並列に配列した行列を生成する。
 次に、ステップST506にて、特異値分解部140は、行列について特異値分解を行うことにより、右特異ベクトル及び特異値を算出する。ただし、追加学習処理、特定の学習データを取り除く、あるいは置き換える等の文献1による更新演算を用いた学習モデルの更新処理を行う場合(段落0031~段落0033)は、左特異ベクトルも得るようにする。
 次に、ステップST507にて、学習済モデル生成部150は、右特異ベクトル及び特異値に基づいて学習済モデルを生成する。ただし、追加学習処理、特定の学習データを取り除く、あるいは、置き換える等の文献1による更新演算を用いた学習モデルの更新処理を行う場合(段落0031~段落0033)は、左特異ベクトルも含めて学習済モデルを生成する。
 次に、ステップST508にて、学習済モデル出力部160は、学習済モデルを学習済モデル情報として出力する。
 ステップST508の後、学習装置100は、当該フローチャートの処理を終了する。
 図6から図9までを参照して、実施の形態1に係る画像処理装置200について説明する。
 図6を参照して、実施の形態1に係る画像処理装置200が適用される画像処理システム20の要部の構成について説明する。
 図6は、実施の形態1に係る画像処理装置200が適用される画像処理システム20の要部の構成の一例を示すブロック図である。
 画像処理システム20は、記憶装置21、表示出力装置22、操作入力装置23、撮像装置24、及び画像処理装置200を備える。
 記憶装置21は、画像処理装置200が予め定められた所定の処理を実行するために必要な情報を記憶する装置である。具体的には、例えば、記憶装置21は、学習装置100が出力した学習済モデル情報を記憶する。画像処理装置200は、記憶装置21に記憶された学習済モデル情報を読み出すことにより、学習済モデル情報を取得する。
 表示出力装置22は、表示画像信号を取得して、当該表示画像信号が示す表示画像を表示するディスプレイ等の装置である。表示出力装置22は、画像処理装置200が出力する表示画像信号を受けて、当該表示画像信号が示す表示画像を表示する。
 操作入力装置23は、ユーザ操作を受けてユーザ操作に基づく操作信号を出力するキーボード又はポインティングディバイス等の装置である。操作入力装置23は、キーボード又はポインティングディバイスに限定されるものではなく、ユーザ操作を受けてユーザ操作に基づく操作信号を出力する可能なものであれば、タッチパネル又はタッチセンサ等であってもよい。
 操作入力装置23は、操作信号を画像処理装置200に出力する。
 撮像装置24は、推論対象物体を撮影することにより得た画像(以下「撮影推論画像」という。)を撮影推論画像情報として出力するデジタルスチルカメラ等の装置である。具体的には、撮像装置24は、撮影推論画像情報を画像処理装置200に出力する。
 画像処理装置200は、撮影推論画像情報が示す撮影推論画像に基づく画像(以下「推論対象画像」という。)と、学習済モデル情報が示す学習済モデルとに基づいて、推論対象画像に基づく信号を説明変数として学習済モデルに入力した際の学習済モデルが出力する推論結果を取得して、取得した推論結果に基づく推論結果情報を取得する装置である。
 表示出力装置22及び操作入力装置23により、画像処理装置200を操作するユーザに対してインタラクティブなユーザインタフェースが提供される。
 すなわち、ユーザは、表示出力装置22に表示される表示画像を確認しつつ、操作入力装置23を用いてユーザ操作を行うことにより、ユーザが所望する制御を画像処理装置200に行わせることができる。
 図7を参照して、実施の形態1に係る画像処理装置200の要部の構成について説明する。
 図7は、実施の形態1に係る画像処理装置200の要部の構成の一例を示すブロック図である。
 画像処理装置200は、推論対象画像取得部210、1次元推論対象画像生成部220、及び推論部240を備える。
 画像処理装置200は、上述の構成に加えて、撮影推論画像取得部211又は学習済モデル取得部230を備えるものであってもよい。
 以下、画像処理装置200は、図7に示すように、推論対象画像取得部210、撮影推論画像取得部211、1次元推論対象画像生成部220、学習済モデル取得部230、及び推論部240を備えるものとして説明する。
 なお、画像処理装置200は、図7には不図示の構成として、操作入力装置23が出力する操作信号を取得する操作取得部と表示画像を生成して当該表示画像を示す表示画像信号を表示出力装置22に出力する表示画像出力部を備えるものとする。
 撮影推論画像取得部211は、推論対象物体を撮影することにより得た撮影推論画像を示す撮影推論画像情報を取得する。
 具体的には、例えば、撮影推論画像取得部211は、撮像装置24が出力する撮影推論画像情報を取得する。
 撮影推論画像取得部211が撮影推論画像情報を取得する方法は、撮像装置24が出力する撮影推論画像情報を取得する方法に限定されるものではない。例えば、撮影推論画像取得部211は、撮影推論画像情報を予め記憶した記憶装置21から撮影推論画像情報を読み出すことにより撮影推論画像情報を取得してもよい。
 推論対象画像取得部210は、推論対象物体を撮影して得られた画像(撮影推論画像)に基づく画像(推論対象画像)を示す推論対象画像情報を取得する。
 具体的には、例えば、推論対象画像取得部210は、推論対象画像情報を予め記憶した記憶装置21から推論対象画像情報を読み出すことにより、推論対象画像情報を取得する。
 推論対象画像取得部210が推論対象画像情報を取得する方法は、記憶装置21から読み出す方法に限定されるものではない。例えば、推論対象画像取得部210は、撮影推論画像取得部211が取得する撮影推論画像情報を推論対象画像情報として取得してもよい。また、例えば、推論対象画像取得部210は、撮影推論画像取得部211が取得する撮影推論画像情報に基づいて、推論対象画像情報を生成することにより推論対象画像情報を取得してもよい。推論対象画像取得部210が、撮影推論画像情報に基づいて推論対象画像情報を生成する方法については後述する。
 1次元推論対象画像生成部220は、推論対象画像取得部210が取得する推論対象画像情報が示す推論対象画像を1次元化して、推論対象画像情報に対応する1次元信号(以下「1次元推論対象画像信号」という。)を生成する。
 具体的には、例えば、1次元推論対象画像生成部220は、推論対象画像取得部210が取得する推論対象画像情報が示す推論対象画像をラスタ捜査することにより1次元推論対象画像信号を生成する。
 以下、推論対象画像取得部210が取得する推論対象画像情報が示す推論対象画像を推論対象画像wと表記し、推論対象画像wに対応する1次元推論対象画像信号であって、1次元推論対象画像生成部220が生成する1次元推論対象画像信号を1次元推論対象画像信号w と表記して説明する。
 学習済モデル取得部230は、学習装置100が出力する学習済モデル情報を取得する。具体的には、例えば、学習済モデル取得部230は、学習済モデル情報を予め記憶した記憶装置21から学習済モデル情報を読み出すことにより、学習済モデル情報を取得する。学習済モデル取得部230は、LAN(Local Area Network)等の情報ネットワーク等を介して図6には不図示の学習装置100から学習済モデル情報を取得するものであってもよい。
 なお、推論部240が学習済モデル情報を予め保持する場合、画像処理装置200において学習済モデル取得部230は必須の構成ではない。
 推論部240は、1次元推論対象画像生成部220が生成する1次元推論対象画像信号に基づいて、1次元推論対象画像信号に対応する推論結果情報を取得する。具体的には、推論部240は、1次元推論対象画像信号を学習済モデル情報が示す学習済モデルに説明変数として入力して、学習済モデルが出力する推論結果を取得することにより、推論結果に基づく推論結果情報を取得する。
 学習装置100が生成する学習済モデルが推論結果として1次元推論対象画像信号に対応する1次元近似信号を出力するものである場合、例えば、推論部240は、1次元推論対象画像信号を学習済モデルに説明変数として入力し、学習済モデルが推論結果として出力する1次元近似信号を取得する。更に、推論部240は、学習済モデルが推論結果として出力する1次元近似信号から生成される復元画像を示す復元画像情報を推論結果情報として取得する。具体的には、例えば、推論部240は、学習済モデルが推論結果として出力する1次元近似信号を、推論対象画像取得部210が取得する推論対象画像情報が示す推論対象画像と同様の大きさの2次元画像にマッピングすることにより復元画像を生成する。推論部240は、復元画像を生成することにより、復元画像を示す復元画像情報を推論結果情報として取得する。
 また、学習装置100が生成する学習済モデルが推論結果として1次元推論対象画像信号に対応する推論対象画像の特徴ベクトルを出力するものである場合、例えば、推論部240は、1次元推論対象画像信号を学習済モデルに説明変数として入力し、学習済モデルが推論結果として出力する特徴ベクトルであって、1次元推論対象画像信号に対応する推論対象画像の特徴ベクトルを取得する。更に、推論部240は、学習済モデルが推論結果として出力する特徴ベクトルを示す特徴ベクトル情報を推論結果情報として取得する。
 以上のように構成することにより、画像処理装置200は、従来と比較して短時間で生成された学習済モデルを用いて、高精度な推論を行うことができる。
 推論対象画像取得部210が、撮影推論画像情報に基づいて推論対象画像情報を生成する方法について説明する。
 推論対象画像取得部210は、撮影推論画像取得部211が取得する撮影推論画像情報が示す撮影推論画像について、撮影推論画像を複数の画像領域に分割する。推論対象画像取得部210は、撮影推論画像を複数の画像領域に分割することにより得た複数の画像(以下「部分推論画像」という。)のそれぞれを示す部分推論画像情報を生成して取得する。推論対象画像取得部210は、撮影推論画像取得部211が取得する撮影推論画像情報に対応する複数の部分推論画像情報のうちの予め定められた1以上の部分推論画像情報のそれぞれを推論対象画像情報として取得する。
 推論対象画像取得部210が、部分推論画像情報を推論対象画像情報として取得する場合、1次元推論対象画像生成部220は、推論対象画像取得部210が取得する1以上の推論対象画像情報のそれぞれに対応する1次元推論対象画像信号を生成する。推論部240は、1次元推論対象画像生成部220が生成する1次元推論対象画像信号であって、1以上の推論対象画像情報のそれぞれに対応する1次元推論対象画像信号に対応する推論結果情報を取得する。
 当該場合、学習済モデルは、学習装置100が学習用画像として部分画像を用いて生成した学習済モデル、具体的には、学習装置100が複数の部分画像であって、複数の撮影画像のそれぞれにおける互いに同じ画像領域に対応する部分画像に基づく1次元学習画像信号を互いに並列に配列することにより生成した行列に基づいて生成した学習済モデルである。したがって、学習済モデルは定義した画像領域毎に一つ存在する。
 以上のように構成することにより、画像処理装置200は、撮影推論画像のうちの予め定められた1以上の画像領域のそれぞれにおける部分画像に特化した高精度な推論を行うことができる。
 図8A及び図8Bを参照して、実施の形態1に係る画像処理装置200の要部のハードウェア構成について説明する。
 図8A及び図8Bは、実施の形態1に係る画像処理装置200の要部のハードウェア構成の一例を示す図である。
 図8Aに示す如く、画像処理装置200はコンピュータにより構成されており、当該コンピュータはプロセッサ801及びメモリ802を有している。メモリ802には、当該コンピュータを推論対象画像取得部210、撮影推論画像取得部211、1次元推論対象画像生成部220、学習済モデル取得部230、及び推論部240として機能させるためのプログラムが記憶されている。メモリ802に記憶されているプログラムをプロセッサ801が読み出して実行することにより、推論対象画像取得部210、撮影推論画像取得部211、1次元推論対象画像生成部220、学習済モデル取得部230、及び推論部240が実現される。
 また、図8Bに示す如く、画像処理装置200は処理回路803により構成されても良い。この場合、推論対象画像取得部210、撮影推論画像取得部211、1次元推論対象画像生成部220、学習済モデル取得部230、及び推論部240の機能が処理回路803により実現されても良い。
 また、画像処理装置200はプロセッサ801、メモリ802及び処理回路803により構成されても良い(不図示)。この場合、推論対象画像取得部210、撮影推論画像取得部211、1次元推論対象画像生成部220、学習済モデル取得部230、及び推論部240の機能のうちの一部の機能がプロセッサ801及びメモリ802により実現されて、残余の機能が処理回路803により実現されるものであっても良い。
 プロセッサ801及びメモリ802は、図4Aに示すプロセッサ401及びメモリ402と同様のものであるため、説明を省略する。
 また、処理回路803は、図4Bに示す処理回路403と同様のものであるため、説明を省略する。
 図9を参照して、実施の形態1に係る画像処理装置200の動作について説明する。
 図9は、実施の形態1に係る画像処理装置200の処理の一例を説明するフローチャートである。
 なお、図9は、画像処理装置200が推論対象画像取得部210、1次元推論対象画像生成部220、及び推論部240に加えて、撮影推論画像取得部211及び学習済モデル取得部230を備える場合におけるフローチャートである。
 画像処理装置200が撮影推論画像取得部211又は学習済モデル取得部230を備えていない場合、図9において、撮影推論画像取得部211及び学習済モデル取得部230が行う処理については適宜省略が可能である。
 まず、ステップST901にて、撮影推論画像取得部211は、撮影推論画像情報を取得する。
 次に、ステップST902にて、推論対象画像取得部210は、推論対象画像情報を取得する。
 次に、ステップST903にて、1次元推論対象画像生成部220は、1次元推論対象画像信号を生成する。
 次に、ステップST904にて、学習済モデル取得部230は、学習済モデル情報を取得する。
 次に、ステップST905にて、推論部240は、学習済モデルが出力する推論結果を取得して推論結果に基づく推論結果情報を取得する。
 ステップST905の後、画像処理装置200は、当該フローチャートの処理を終了して、終了後にステップST901に戻って当該フローチャートの処理を繰り返して実行する。
 以上のように、実施の形態1に係る学習装置100は、学習用画像を示す学習用画像情報を取得する学習用画像取得部110と、学習用画像取得部110が取得する複数の学習用画像情報のそれぞれが示す学習用画像を1次元化して、複数の学習用画像情報に対応する複数の1次元学習画像信号を生成する1次元学習画像生成部120と、1次元学習画像生成部120が生成する複数の1次元学習画像信号を互いに並列に配列した行列を生成する行列生成部130と、行列生成部130が生成する行列について特異値分解を行うことにより、右特異ベクトル及び特異値を算出する特異値分解部140と、特異値分解部140が算出する右特異ベクトル及び特異値に基づく学習済モデルであって、推論対象物体を撮影して得られた画像である推論対象画像を1次元化した画像を示す1次元推論対象画像信号を説明変数として、推論結果を出力する学習済モデルを生成する学習済モデル生成部150と、学習済モデル生成部150が生成する学習済モデルを学習済モデル情報として出力する学習済モデル出力部160と、を備えた。
 このように構成することにより、学習装置100は、従来と比較して短時間で高精度な推論が可能な学習済モデルを生成することができる。
 また、以上のように、実施の形態1に係る学習装置100は、上述の構成において、学習済モデル生成部150は、1次元推論対象画像信号を説明変数として入力した際に、特異値分解部140が算出する右特異ベクトル及び特異値に基づいて、1次元推論対象画像信号の近似信号である1次元近似信号を推論結果として出力する学習済モデルを生成するように構成した。
 このように構成することにより、学習装置100は、従来と比較して短時間で高精度な推論が可能な学習済モデルであって、学習済モデルに説明変数として入力した推論対象画像に基づく1次元近似信号を推論結果として出力する学習済モデルを生成することができる。
 また、以上のように、実施の形態1に係る学習装置100は、上述の構成において、学習済モデル生成部150は、1次元推論対象画像信号を説明変数として入力した際に、特異値分解部140が算出する右特異ベクトル及び特異値に基づいて、1次元推論対象画像信号に対応する推論対象画像の特徴ベクトルを推論結果として出力する学習済モデルを生成するように構成した。
 このように構成することにより、学習装置100は、従来と比較して短時間で高精度な推論が可能な学習済モデルであって、学習済モデルに説明変数として入力した1次元推論対象画像信号に対応する推論対象画像の特徴ベクトルを推論結果として出力する学習済モデルを生成することができる。
 また、以上のように、実施の形態1に係る学習装置100は、上述の構成において、1次元学習画像生成部120は、学習用画像取得部110が取得する学習用画像情報が示す学習用画像をラスタ捜査することにより1次元学習画像信号を生成するように構成した。
 このように構成することにより、学習装置100は、簡単に学習用画像を1次元学習画像信号に変換することができる。
 また、以上のように、実施の形態1に係る学習装置100は、上述の構成において、学習用画像取得部110は、互いに等しい画素数である複数の学習用画像のそれぞれを示す学習用画像情報を取得するように構成した。
 このように構成することにより、学習装置100は、学習済モデルを生成する際に、複数の学習用画像に対して複雑な画像処理を施すことなく、簡単に行列を生成することができる。
 また、以上のように、実施の形態1に係る学習装置100は、上述の構成に加えて、対象物体を撮影することにより取得した撮影画像を示す撮影画像情報であって、互いに異なる複数の対象物体のそれぞれに対応する撮影画像情報を取得する撮影画像取得部111を備え、学習用画像取得部110は、撮影画像取得部111が取得する複数の撮影画像情報のそれぞれが示す撮影画像について、撮影画像を複数の画像領域に分割して、撮影画像に基づく複数の部分画像のそれぞれを示す部分画像情報を撮影画像情報毎に取得することにより、撮影画像取得部111が取得する複数の撮影画像情報のそれぞれに対応する複数の部分画像情報を学習用画像情報として取得するように構成した。
 このように構成することにより、学習装置100は、推論対象物体を撮影して得られた撮影画像のうちの予め定められた画像領域における部分画像に特化した高精度な推論が可能な学習済モデルを従来と比較して短時間で生成することができる。
 また、以上のように、実施の形態1に係る学習装置100は、上述の構成において、行列生成部130は、学習用画像取得部110が取得する複数の部分画像情報であって、撮影画像取得部111が取得する複数の撮影画像情報のそれぞれに対応する複数の部分画像情報のうちの予め定められた条件に適合する複数の部分画像情報に対応する複数の1次元学習画像信号を互いに並列に配列することにより、行列を生成するように構成した。
 このように構成することにより、学習装置100は、推論対象物体を撮影して得られた撮影画像のうちの予め定められた画像領域における部分画像に特化した高精度な推論が可能な学習済モデルを従来と比較して短時間で生成することができる。
 また、以上のように、実施の形態1に係る学習装置100は、上述の構成において、行列生成部130は、撮影画像取得部111が取得する複数の撮影画像情報のそれぞれが示す撮影画像における互いに同じ画像領域に対応する部分画像情報に基づいて1次元学習画像生成部120が生成した1次元学習画像信号を互いに並列に配列することにより、行列を生成するように構成した。
 このように構成することにより、学習装置100は、推論対象物体を撮影して得られた撮影画像のうちの予め定められた画像領域における部分画像に特化した高精度な推論が可能な学習済モデルを従来と比較して短時間で生成することができる。
 また、以上のように、実施の形態1に係る学習装置100は、上述の構成に加えて、学習用画像取得部110が取得する複数の部分画像情報であって、撮影画像取得部111が取得する複数の撮影画像情報のそれぞれに対応する複数の部分画像情報のそれぞれが示す部分画像をクラスタリングするクラスタリング部112を備え、行列生成部130は、クラスタリング部112がクラスタリングした結果に基づいて分類された各クラスに属する複数の部分画像のそれぞれについて1次元学習画像生成部120が生成した1次元学習画像信号を互いに並列に配列することにより、行列を生成するように構成した。
 このように構成することにより、学習装置100は、推論対象物体を撮影して得られた撮影画像のうちの各クラスに属する部分画像に特化した高精度な推論が可能な学習済モデルを従来と比較して短時間で生成することができる。
 また、以上のように、実施の形態1に係る学習装置100は、上述の構成に加えて、行列生成部130は、予め定められた条件に基づいて、条件毎に対応する行列を生成し、特異値分解部140は、行列生成部130が生成する条件毎の行列について、右特異ベクトル及び特異値を算出し、学習済モデル生成部150は、行列生成部130が生成する条件毎の行列に対応する右特異ベクトル及び特異値に基づいて、条件毎の行列に対応する学習済モデルを生成するように構成した。このように構成することにより、学習装置100は、推論対象物体を撮影して得られた撮影画像のうちの、予め定められた画像領域における部分画像、又は、クラスタリング部112がクラスタリングした結果に基づいて分類された各クラスに属する部分画像に特化した高精度な推論が可能な学習済モデルであって、条件毎の行列に対応する複数の学習済モデルを従来と比較して短時間で生成することができる。
 また、以上のように、実施の形態1に係る画像処理装置200は、推論対象物体を撮影して得られた画像である撮影推論画像に基づく画像である推論対象画像を示す推論対象画像情報を取得する推論対象画像取得部210と、推論対象画像取得部210が取得する推論対象画像情報が示す推論対象画像を1次元化して、推論対象画像情報に対応する1次元推論対象画像信号を生成する1次元推論対象画像生成部220と、1次元推論対象画像生成部220が生成する1次元推論対象画像信号に基づいて、1次元推論対象画像信号に対応する推論結果情報を取得する推論部240であって、1次元推論対象画像信号を学習済モデルに説明変数として入力して、学習済モデルが出力する推論結果を取得することにより、推論結果に基づく推論結果情報を取得する推論部240と、を備えた。
 このように構成することにより、画像処理装置200は、従来と比較して短時間で生成された学習済モデルを用いて、高精度な推論を行うことができる。
 また、以上のように、実施の形態1に係る画像処理装置200は、上述の構成において、推論部240は、1次元推論対象画像信号を学習済モデルに説明変数として入力し、学習済モデルが推論結果として出力する1次元近似信号であって、1次元推論対象画像信号の近似信号である1次元近似信号を取得し、学習済モデルが推論結果として出力する1次元近似信号から生成される復元画像を示す復元画像情報を推論結果情報として取得するように構成した。
 このように構成することにより、画像処理装置200は、従来と比較して短時間で生成された学習済モデルを用いて、学習済モデルに説明変数として入力した推論対象画像に基づく1次元推論対象画像信号から1次元推論対象画像信号を近似した1次元近似信号を取得し、取得した1次元近似信号を用いて推論対象画像を高精度に推論することができる。
 また、以上のように、実施の形態1に係る画像処理装置200は、上述の構成において、推論部240は、学習済モデルが推論結果として出力する1次元近似信号を、推論対象画像取得部210が取得する推論対象画像情報が示す推論対象画像と同様の大きさの2次元画像にマッピングすることにより復元画像を生成して、復元画像を示す復元画像情報を取得するように構成した。
 このように構成することにより、画像処理装置200は、従来と比較して短時間で生成された学習済モデルを用いて、学習済モデルに説明変数として入力した推論対象画像に基づく1次元推論対象画像信号から1次元推論対象画像信号を近似した1次元近似信号を取得し、取得した1次元近似信号を用いて推論対象画像を高精度に推論することができる。
 また、以上のように、実施の形態1に係る画像処理装置200は、上述の構成において、推論部240は、1次元推論対象画像信号を学習済モデルに説明変数として入力し、学習済モデルが推論結果として出力する特徴ベクトルであって、1次元推論対象画像信号に対応する推論対象画像の特徴ベクトルを取得し、学習済モデルが推論結果として出力する特徴ベクトルを示す特徴ベクトル情報を推論結果情報として取得するように構成した。
 このように構成することにより、画像処理装置200は、従来と比較して短時間で生成された学習済モデルを用いて、学習済モデルに説明変数として入力した1次元推論対象画像信号に対応する推論対象画像の特徴ベクトルを高精度に推論することができる。
 また、以上のように、実施の形態1に係る画像処理装置200は、上述の構成において、1次元推論対象画像生成部220は、推論対象画像取得部210が取得する推論対象画像情報が示す推論対象画像をラスタ捜査することにより1次元推論対象画像信号を生成するように構成した。
 このように構成することにより、画像処理装置200は、簡単に推論対象画像を1次元推論対象画像信号に変換することができる。
 また、以上のように、実施の形態1に係る画像処理装置200は、上述の構成に加えて、推論対象物体を撮影することにより得た撮影推論画像を示す撮影推論画像情報を取得する撮影推論画像取得部211を備え、推論対象画像取得部210は、撮影推論画像取得部211が取得する撮影推論画像情報が示す撮影推論画像について、撮影推論画像を複数の画像領域に分割して、撮影推論画像に基づく複数の部分推論画像のそれぞれを示す部分推論画像情報を取得することにより、撮影推論画像取得部211が取得する撮影推論画像情報に対応する複数の部分推論画像情報のうちの予め定められた1以上の部分推論画像情報のそれぞれを推論対象画像情報として取得し、1次元推論対象画像生成部220は、推論対象画像取得部210が取得する1以上の推論対象画像情報のそれぞれに対応する1次元推論対象画像信号を生成し、推論部240は、1次元推論対象画像生成部220が生成する1次元推論対象画像信号であって、1以上の推論対象画像情報のそれぞれに対応する1次元推論対象画像信号に対応する推論結果情報を取得するように構成した。
 このように構成することにより、画像処理装置200は、推論対象物体を撮影して得られた撮影推論画像のうちの予め定められた画像領域における部分画像に特化した高精度な推論を行うことができる。
実施の形態2.
 図10から図13までを参照して、実施の形態2に係る画像処理装置200aについて説明する。
 図10を参照して、実施の形態2に係る画像処理装置200aが適用される画像処理システム20aの要部の構成について説明する。
 図10は、実施の形態2に係る画像処理装置200aが適用される画像処理システム20aの要部の構成の一例を示すブロック図である。
 画像処理システム20aは、記憶装置21、表示出力装置22、操作入力装置23、撮像装置24、及び画像処理装置200aを備える。
 すなわち、画像処理システム20aは、実施の形態1に係る画像処理装置200が画像処理装置200aに変更されたものである。
 図10において、図6に示す構成と同様の構成には同一符号を付して詳細な説明を省略する。すなわち、記憶装置21、表示出力装置22、操作入力装置23、及び撮像装置24については詳細な説明を省略する。
 画像処理装置200aは、実施の形態1に係る画像処理装置200が備える機能を備えつつ、新たに、推論対象画像に写る推論対象物体に異常があるか否かを判定する機能が追加されたものである。ここで、異常とは正常な推論対象物体(良品)にない特徴のことを示す。異常の例としては、製品検査であれば傷、汚れ、変色、異物付着、破損、欠損、部品誤り、印字誤り等が挙げられる。
 図11を参照して、実施の形態2に係る画像処理装置200aの要部の構成について説明する。
 図11は、実施の形態2に係る画像処理装置200aの要部の構成の一例を示すブロック図である。
 画像処理装置200aは、推論対象画像取得部210、撮影推論画像取得部211、1次元推論対象画像生成部220、学習済モデル取得部230、推論部240、異常判定部250、及び判定結果出力部260を備える。
 すなわち、画像処理装置200aは、実施の形態1に係る画像処理装置200に異常判定部250及び判定結果出力部260が追加されたものである。
 図11において、図7に示す構成と同様の構成には同一符号を付して詳細な説明を省略する。すなわち、画像処理装置200aが備える撮影推論画像取得部211、1次元推論対象画像生成部220、学習済モデル取得部230、及び推論部240については詳細な説明を省略する。
 なお、実施の形態2に係る画像処理装置200aが備える推論部240が用いる学習済モデルは、実施の形態1に係る学習装置100が生成する学習済モデルであって、説明変数として入力された1次元推論対象画像信号の近似信号である1次元近似信号を推論結果として出力する学習済モデルである。さらに、当該学習済モデルは、異常のない撮影対象物体が写る撮影画像(以下「良品画像」という。)を示す複数の学習用画像にそれぞれ対応する複数の1次元学習画像信号を用いて学習されたモデルである。
 すなわち、実施の形態2に係る画像処理装置200aが備える推論部240は、1次元推論対象画像信号を学習済モデルに説明変数として入力し、学習済モデルが推論結果として出力する1次元近似信号であって、1次元推論対象画像信号の近似信号である1次元近似信号を取得し、学習済モデルが推論結果として出力する1次元近似信号から生成される復元画像を示す復元画像情報を推論結果情報として取得するものである。このとき、復元画像は複数の良品画像のみから学習された学習済モデルを用いて推論されているため、良品画像の特徴のみを精度良く復元することができる。
 異常判定部250は、推論対象画像取得部210が取得する推論対象画像情報と、推論部240が生成する復元画像情報とに基づいて、推論対象画像情報が示す推論対象画像と復元画像情報が示す復元画像とを比較することにより、推論対象画像に写る推論対象物体に異常があるか否かを判定する。
 具体的には、例えば、異常判定部250は、推論対象画像情報が示す推論対象画像と復元画像情報が示す復元画像とのそれぞれを予め定められた画像サイズを有する複数の検査ブロックに分割する。
 以下、推論対象画像を分割した検査ブロックを検査対象ブロックと称し、復元画像を分割した検査ブロックを復元検査ブロックと称して説明する。
 ここで、推論対象画像と復元画像とは同じ画像サイズの画像であり同一の分割を行うため、検査対象ブロックの個数と復元検査ブロックの個数とは等しいものとなる。以下、検査対象ブロックの個数と復元検査ブロックの個数とは、いずれもj(jは正の整数)個であるものとして説明する。また、検査ブロック及び復元検査ブロックは、分割画像の説明として例示した図3Bにおいて、S≦BかつS≦Bとなるように、各ブロックが隣接する、あるいはブロック同士が重なるように分割することにより生成可能である。このようにすることで、各異常領域に対して、異常領域(傷、異物等)がブロック内に収まる検査ブロックが1以上存在する確率を上げることができる。すなわち、異所領域がブロックの境界を跨いでしまうことで複数のブロックに異常領域が分割されてしまい、各ブロックの異常スコアが小さくなり検出漏れが発生してしまう確率を下げることができる。
 図12を参照して、実施の形態2に係る画像処理装置200aが備える異常判定部250が比較する推論対象画像における検査ブロックと、復元画像における検査ブロックを復元検査ブロックとについて説明する。
 図12は、実施の形態2に係る画像処理装置200aが備える異常判定部250が比較する推論対象画像における検査対象ブロックと、復元画像における復元検査ブロックと一例を示す説明図である。
 図12において、左側に示す画像が推論対象画像であり、推論対象画像における実線による矩形で囲んだ画像領域の画像が検査対象ブロックの1つである。また、図12において、右側に示す画像が復元画像であり、復元画像における実線による矩形で囲んだ画像領域の画像が当該検査対象ブロックに対応する復元検査ブロックである。
 異常判定部250は、j個の検査対象ブロックのそれぞれについて、検査対象ブロックと、復元画像において推論対象画像における当該検査対象ブロックと同じ画像領域に対応する復元検査ブロックとを比較することにより推論対象画像に写る推論対象物体に異常があるか否かを判定する。先述した通り、復元画像は複数の良品画像のみから学習された学習済モデルを用いて推論されているため、良品画像の特徴のみを精度良く復元することができる。一方で、良品に存在しない特徴を有する異常個所については復元精度が低くなる。よって、検査対象ブロックと復元検査ブロックとの差異が大きい領域が異常と判定することが可能となる。
 より具体的には、例えば、異常判定部250は、次式(9)を用いて、k(kはj以下の任意の正の整数)番目の検査対象ブロックと当該検査対象ブロックに対応するk番目の復元検査ブロックとの差分評価値を算出する。

Figure JPOXMLDOC01-appb-I000001
 ここで、αは、k番目の検査対象ブロックと当該検査対象ブロックに対応するk番目の復元検査ブロックとの差分評価値である。また、Rは、k番目の検査対象ブロックにおける画素の集合(以下「画素集合」という。)であり、Gは、k番目の復元検査ブロックにおける画素の集合であり、nはR及びGの画素数である。
 また、S(x)は、画素集合Xにおける画素x(x=1,2,・・・,n、nは画素集合Xの画素数)の信号値であり、Eは、画素集合Xにおける信号値の平均値である。
 なお、式(9)は各画素集合R、Gに対して平均値E(x=R、G)を引いた値の絶対値差分和を求めている。これにより画素集合R、Gの信号値自体の違いではなくテクスチャの違いにのみ着目した差分評価値を示す。これによって、学習に用いた複数の学習用画像のばらつきの範囲を超えるような、撮影条件ばらつきに起因する推論対象画像の画面全体の明るさといった平均値のばらつきに影響しない評価が可能となる。一方、そのような平均値のばらつきも含めて異常として評価したい場合は、式(9)におけるE(x=R、G)を削除した式をαとして定義すればよい。
 更に、例えば、異常判定部250は、次式(10)を用いて、j個の検査対象ブロックのそれぞれに対応する差分評価値の最大値である検査スコアIを算出する。
Figure JPOXMLDOC01-appb-I000002
 ここで、α_baseは、予め定められた値であって、予め用意した良品画像について、当該良品画像と、当該良品画像に基づいて推論部240が生成した復元画像(以下「良品復元画像」という。)と、に基づいて算出される良品画像における検査対象ブロックと良品復元画像における復元検査ブロックとの差分評価値(例えば式(9)で算出される差分評価値)の最大値である。
 すなわち、α_baseが予め用意した良品画像に基づいて発生し得る良品画像のばらつきを網羅した値であるとした場合、α_baseは、良品画像に基づいて発生する最大の異常度を示している。
 したがって、例えば、異常判定部250は、式(10)により算出される検査スコアIの値が0(零)を超える場合、推論対象画像に写る推論対象物体に異常があるか否かを判定する。
 なお、異常判定部250が、式(10)により算出される検査スコアIにより推論対象画像に写る推論対象物体に異常があるか否かを判定する閾値は、0(零)に限定されるものではない。当該閾値は、0(零)より大きい値であっても、0(零)より小さい値であってもよい。当該閾値は、大きい程、異常と判定されにくくなるため、過検出の発生確率(過検出率)が抑制される一方で、異常の見逃しが発生する確率(見逃し率)が上がる。この過検出率と見逃し率はトレードオフの関係にあるため、当該閾値は本画像処理装置におけるチューニングパラメータとなる。
 判定結果出力部260は、異常判定部250が判定した結果を判定結果情報として出力する。
 具体的には、例えば、判定結果出力部260は、判定結果情報を表示画像信号として表示出力装置22に出力して、判定結果情報を表示出力装置22に表示出力させてもよい。
 また、例えば、判定結果出力部260は、判定結果情報照明装置又は音声出力装置等の図10に不図示の出力装置に出力して、推論対象物体に異常があると判定した場合において、当該異常がある旨を当該出力装置に放置させるようにしてもよい。
 なお、実施の形態2に係る画像処理装置200aにおける推論対象画像取得部210、撮影推論画像取得部211、1次元推論対象画像生成部220、学習済モデル取得部230、推論部240、異常判定部250、及び判定結果出力部260の各機能は、実施の形態1において図8A及び図8Bに一例を示したハードウェア構成におけるプロセッサ801及びメモリ802により実現されるものであっても良く、又は処理回路803により実現されるものであっても良い。
 図13を参照して、実施の形態2に係る画像処理装置200aの動作について説明する。
 図13は、実施の形態2に係る画像処理装置200aの処理の一例を説明するフローチャートである。
 なお、図13において、ステップST901からステップST905までの処理は、図9に示すステップST901からステップST905までの処理と同様である。
 まず、ステップST901にて、撮影推論画像取得部211は、撮影推論画像情報を取得する。
 次に、ステップST902にて、推論対象画像取得部210は、推論対象画像情報を取得する。
 次に、ステップST903にて、1次元推論対象画像生成部220は、1次元推論対象画像信号を生成する。
 次に、ステップST904にて、学習済モデル取得部230は、学習済モデル情報を取得する。
 次に、ステップST905にて、推論部240は、学習済モデルが出力する推論結果を取得して推論結果に基づく推論結果情報を取得する。
 次に、ステップST1301にて、異常判定部250は、推論対象画像に写る推論対象物体に異常があるか否かを判定する。
 次に、ステップST1302にて、判定結果出力部260は、判定結果情報を出力する。
 ステップST1302の後、画像処理装置200aは、当該フローチャートの処理を終了して、終了後にステップST901に戻って当該フローチャートの処理を繰り返して実行する。
 以上のように、実施の形態2に係る画像処理装置200aは、推論対象物体を撮影して得られた画像である撮影推論画像に基づく画像である推論対象画像を示す推論対象画像情報を取得する推論対象画像取得部210と、推論対象画像取得部210が取得する推論対象画像情報が示す推論対象画像を1次元化して、推論対象画像情報に対応する1次元推論対象画像信号を生成する1次元推論対象画像生成部220と、1次元推論対象画像生成部220が生成する1次元推論対象画像信号に基づいて、1次元推論対象画像信号に対応する推論結果情報を取得する推論部240であって、1次元推論対象画像信号を学習済モデルに説明変数として入力して、学習済モデルが出力する推論結果を取得することにより、推論結果に基づく推論結果情報を取得する推論部240と、を備えた画像処理装置200aであって、画像処理装置200aが備える推論部240は、1次元推論対象画像信号を学習済モデルに説明変数として入力し、学習済モデルが推論結果として出力する1次元近似信号であって、1次元推論対象画像信号の近似信号である1次元近似信号を取得し、学習済モデルが推論結果として出力する1次元近似信号から生成される復元画像を示す復元画像情報を推論結果情報として取得するものであり、更に、画像処理装置200aは、推論対象画像取得部210が取得する推論対象画像情報と、推論部240が生成する復元画像情報とに基づいて、推論対象画像情報が示す推論対象画像と復元画像情報が示す復元画像とを比較することにより、推論対象画像に写る推論対象物体に異常があるか否かを判定する異常判定部250と、異常判定部250が判定した結果を判定結果情報として出力する判定結果出力部260と、を備えた。
 このように構成することにより、画像処理装置200aは、従来と比較して短時間で生成された学習済モデルを用いて、学習済モデルに説明変数として入力した推論対象画像に基づく1次元推論対象画像信号から1次元推論対象画像信号を近似した1次元近似信号を取得し、取得した1次元近似信号を用いて、推論対象画像を復元した復元画像を高精度に推論でき、更に、復元画像と推論対象画像とを比較することにより、推論対象画像に写る推論対象物体に異常があるか否かを判定することができる。
実施の形態3.
 図14から図16までを参照して、実施の形態3に係る画像処理装置200bについて説明する。
 図14を参照して、実施の形態3に係る画像処理装置200bが適用される画像処理システム20bの要部の構成について説明する。
 図14は、実施の形態3に係る画像処理装置200bが適用される画像処理システム20bの要部の構成の一例を示すブロック図である。
 画像処理システム20bは、記憶装置21、表示出力装置22、操作入力装置23、撮像装置24、及び画像処理装置200bを備える。
 すなわち、画像処理システム20bは、実施の形態1に係る画像処理装置200が画像処理装置200bに変更されたものである。
 図14において、図6に示す構成と同様の構成には同一符号を付して詳細な説明を省略する。すなわち、記憶装置21、表示出力装置22、操作入力装置23、及び撮像装置24については詳細な説明を省略する。
 画像処理装置200bは、実施の形態1に係る画像処理装置200が備える機能を備えつつ、新たに、推論対象画像情報を予め定められた複数のグループのうちのいずれかのグループに分類する機能が追加されたものである。
 図15を参照して、実施の形態3に係る画像処理装置200bの要部の構成について説明する。
 図15は、実施の形態3に係る画像処理装置200bの要部の構成の一例を示すブロック図である。
 画像処理装置200bは、推論対象画像取得部210、撮影推論画像取得部211、1次元推論対象画像生成部220、学習済モデル取得部230、推論部240、及び分類部270を備える。
 すなわち、画像処理装置200bは、実施の形態1に係る画像処理装置200に分類部270が追加されたものである。
 図15において、図7に示す構成と同様の構成には同一符号を付して詳細な説明を省略する。すなわち、画像処理装置200bが備える撮影推論画像取得部211、1次元推論対象画像生成部220、学習済モデル取得部230、及び推論部240については詳細な説明を省略する。
 なお、実施の形態3に係る画像処理装置200bが備える推論部240が用いる学習済モデルは、実施の形態1に係る学習装置100が生成する学習済モデルであって、説明変数として入力された1次元推論対象画像信号に対応する推論対象画像の特徴ベクトルを推論結果として出力する学習済モデルである。
 すなわち、実施の形態3に係る画像処理装置200bが備える推論部240は、1次元推論対象画像信号を学習済モデルに説明変数として入力し、学習済モデルが推論結果として出力する特徴ベクトルであって、1次元推論対象画像信号に対応する推論対象画像の特徴ベクトルを取得し、学習済モデルが推論結果として出力する特徴ベクトルを示す特徴ベクトル情報を推論結果情報として取得するものである。
 分類部270は、推論部240が取得する特徴ベクトル情報に基づいて、特徴ベクトル情報に対応する推論対象画像情報を、予め定められた複数のグループのうちのいずれかのグループに分類し、分類した結果を示す分類結果情報を出力する。
 具体的には、例えば、分類部270は、推論部240が取得する特徴ベクトル情報を用いて、サポートベクターマシン(Support Vector Machine:SVM)等の教師あり学習に基づく分類を行うことにより、推論対象画像情報を予め定められた複数のグループのうちのいずれかのグループに分類する。
 サポートベクターマシン等の教師あり学習に基づく分類方法については、周知の技術であるための説明を省略する。
 なお、実施の形態3に係る画像処理装置200bにおける推論対象画像取得部210、撮影推論画像取得部211、1次元推論対象画像生成部220、学習済モデル取得部230、推論部240、及び分類部270の各機能は、実施の形態1において図8A及び図8Bに一例を示したハードウェア構成におけるプロセッサ801及びメモリ802により実現されるものであっても良く又は処理回路803により実現されるものであっても良い。
 図16を参照して、実施の形態2に係る画像処理装置200bの動作について説明する。図16は、実施の形態2に係る画像処理装置200bの処理の一例を説明するフローチャートである。
 なお、図16において、ステップST901からステップST905までの処理は、図9に示すステップST901からステップST905までの処理と同様である。
 まず、ステップST901にて、撮影推論画像取得部211は、撮影推論画像情報を取得する。
 次に、ステップST902にて、推論対象画像取得部210は、推論対象画像情報を取得する。
 次に、ステップST903にて、1次元推論対象画像生成部220は、1次元推論対象画像信号を生成する。
 次に、ステップST904にて、学習済モデル取得部230は、学習済モデル情報を取得する。
 次に、ステップST905にて、推論部240は、学習済モデルが出力する推論結果を取得して推論結果に基づく推論結果情報を取得する。
 次に、ステップST1601にて、分類部270は、分類結果情報を出力する。
 ステップST1601の後、画像処理装置200bは、当該フローチャートの処理を終了して、終了後にステップST901に戻って当該フローチャートの処理を繰り返して実行する。
 以上のように、実施の形態2に係る画像処理装置200bは、推論対象物体を撮影して得られた画像である撮影推論画像に基づく画像である推論対象画像を示す推論対象画像情報を取得する推論対象画像取得部210と、推論対象画像取得部210が取得する推論対象画像情報が示す推論対象画像を1次元化して、推論対象画像情報に対応する1次元推論対象画像信号を生成する1次元推論対象画像生成部220と、1次元推論対象画像生成部220が生成する1次元推論対象画像信号に基づいて、1次元推論対象画像信号に対応する推論結果情報を取得する推論部240であって、1次元推論対象画像信号を学習済モデルに説明変数として入力して、学習済モデルが出力する推論結果を取得することにより、推論結果に基づく推論結果情報を取得する推論部240と、を備えた画像処理装置200bであって、画像処理装置200bが備える推論部240は、推論部240は、1次元推論対象画像信号を学習済モデルに説明変数として入力し、学習済モデルが推論結果として出力する特徴ベクトルであって、1次元推論対象画像信号に対応する推論対象画像の特徴ベクトルを取得し、学習済モデルが推論結果として出力する特徴ベクトルを示す特徴ベクトル情報を推論結果情報として取得するものであり、更に、画像処理装置200bは、推論部240が取得する特徴ベクトル情報に基づいて、特徴ベクトル情報に対応する推論対象画像情報を、予め定められた複数のグループのうちのいずれかのグループに分類し、分類した結果を示す分類結果情報を出力する分類部270を備えた。
 このように構成することにより、画像処理装置200bは、従来と比較して短時間で生成された学習済モデルを用いて、学習済モデルに説明変数として入力した1次元推論対象画像信号に対応する推論対象画像の特徴ベクトルを用いて、特徴ベクトル情報に対応する推論対象画像情報を、予め定められた複数のグループのうちのいずれかのグループに分類することができる。
 なお、この開示は、その開示の範囲内において、実施の形態の任意の構成要素の変形、又は、実施の形態において任意の構成要素の省略が可能である。
 この開示に係る学習装置は、学習システム又は画像処理システムに適用することができる。
 10 学習システム、11 記憶装置、12 表示出力装置、13 操作入力装置、100 学習装置、110 学習用画像取得部、111 撮影画像取得部、112 クラスタリング部、120 1次元学習画像生成部、130 行列生成部、140 特異値分解部、150 学習済モデル生成部、160 学習済モデル出力部、20,20a,20b 画像処理システム、21 記憶装置、22 表示出力装置、23 操作入力装置、24 撮像装置、200,200a,200b 画像処理装置、210 推論対象画像取得部、211 撮影推論画像取得部、220 1次元推論対象画像生成部、230 学習済モデル取得部、240 推論部、250 異常判定部、260 判定結果出力部、270 分類部、401,801 プロセッサ、402,802 メモリ、403,803 処理回路。

Claims (22)

  1.  学習用画像を示す学習用画像情報を取得する学習用画像取得部と、
     前記学習用画像取得部が取得する複数の前記学習用画像情報のそれぞれが示す前記学習用画像を1次元化して、複数の前記学習用画像情報に対応する複数の1次元学習画像信号を生成する1次元学習画像生成部と、
     前記1次元学習画像生成部が生成する複数の前記1次元学習画像信号を互いに並列に配列した行列を生成する行列生成部と、
     前記行列生成部が生成する前記行列について特異値分解を行うことにより、右特異ベクトル及び特異値を算出する特異値分解部と、
     前記特異値分解部が算出する前記右特異ベクトル及び前記特異値に基づく学習済モデルであって、推論対象物体を撮影して得られた画像である推論対象画像を1次元化した画像を示す1次元推論対象画像信号を説明変数として、推論結果を出力する前記学習済モデルを生成する学習済モデル生成部と、
     前記学習済モデル生成部が生成する前記学習済モデルを学習済モデル情報として出力する学習済モデル出力部と、
     を備えたこと
     を特徴とする学習装置。
  2.  前記学習済モデル生成部は、前記1次元推論対象画像信号を前記説明変数として入力した際に、前記特異値分解部が算出する前記右特異ベクトル及び前記特異値に基づいて、前記1次元推論対象画像信号の近似信号である1次元近似信号を前記推論結果として出力する前記学習済モデルを生成すること
     を特徴とする請求項1記載の学習装置。
  3.  前記学習済モデル生成部は、前記1次元推論対象画像信号を前記説明変数として入力した際に、前記特異値分解部が算出する前記右特異ベクトル及び前記特異値に基づいて、前記1次元推論対象画像信号に対応する前記推論対象画像の特徴ベクトルを前記推論結果として出力する前記学習済モデルを生成すること
     を特徴とする請求項1記載の学習装置。
  4.  前記特異値分解部は、前記左特異ベクトル、前記右特異ベクトル及び前記特異値が既に存在する場合、これらを得るために特異値分解した前記行列と前記行列生成部が生成する前記行列とを行方向に連結した行列を特異値分解する方法として、前記行列生成部が生成する前記行列を用いて、既に存在する前記左特異ベクトル、既に存在する前記右特異ベクトル及び既に存在する前記特異値を更新する行列演算を行うことで、前記右特異ベクトル及び前記特異値を算出すること
     を特徴とする請求項1記載の学習装置。
  5.  前記行列生成部は、前記左特異ベクトル、前記右特異ベクトル及び前記特異値が既に存在する場合、これらを得るために特異値分解した前記行列の中から1次元学習画像信号を1つ選択し、前記選択した1次元学習画像信号を除いた行列を生成し、
     前記特異値分解部は、前記選択した1次元学習画像信号を除いた前記行列の特異値分解結果を得る方法として、前記選択した1次元学習画像信号を用いて、既に存在する前記左特異ベクトル、既に存在する前記右特異ベクトル及び既に存在する前記特異値を更新する行列演算を行うことで、前記右特異ベクトル及び前記特異値を算出すること
     を特徴とする請求項1記載の学習装置。
  6.  前記1次元学習画像生成部は、前記学習用画像取得部が取得する前記学習用画像情報が示す前記学習用画像をラスタ捜査することにより前記1次元学習画像信号を生成すること
     を特徴とする請求項1記載の学習装置。
  7.  前記学習用画像取得部は、互いに等しい画素数である複数の前記学習用画像のそれぞれを示す前記学習用画像情報を取得すること
     を特徴とする請求項1記載の学習装置。
  8.  前記学習用画像取得部は、対象物体が撮影された撮影画像を分割した複数の部分画像のそれぞれを示す部分画像情報を、前記学習用画像情報として取得すること
     を特徴とする請求項1記載の学習装置。
  9.  前記行列生成部は、前記学習用画像取得部が取得する複数の前記部分画像情報のうちの予め定められた条件に適合する複数の前記部分画像情報に対応する複数の前記1次元学習画像信号を互いに並列に配列することにより、前記行列を生成すること
     を特徴とする請求項8記載の学習装置。
  10.  前記行列生成部は、前記撮影画像における互いに同じ画像領域に対応する前記部分画像情報に基づいて、前記1次元学習画像生成部が生成した前記1次元学習画像信号を互いに並列に配列することにより、前記行列を生成すること
     を特徴とする請求項9記載の学習装置。
  11.  前記学習用画像取得部が取得する複数の前記部分画像情報のそれぞれが示す前記部分画像をクラスタリングするクラスタリング部
     を備え、
     前記行列生成部は、前記クラスタリング部がクラスタリングした結果に基づいて分類された各クラスに属する複数の前記部分画像のそれぞれについて前記1次元学習画像生成部が生成した前記1次元学習画像信号を互いに並列に配列することにより、前記行列を生成すること
     を特徴とする請求項9記載の学習装置。
  12.  前記行列生成部は、予め定められた前記条件に基づいて、前記条件毎に対応する前記行列を生成し、
     前記特異値分解部は、前記行列生成部が生成する前記条件毎の前記行列について、前記右特異ベクトル及び前記特異値を算出し、
     前記学習済モデル生成部は、前記行列生成部が生成する前記条件毎の前記行列に対応する前記右特異ベクトル及び前記特異値に基づいて、前記条件毎の前記行列に対応する前記学習済モデルを生成すること
     を特徴とする請求項9記載の学習装置。
  13.  学習用画像取得部が、学習用画像を示す学習用画像情報を取得するステップと、
     1次元学習画像生成部が、前記学習用画像取得部により取得された複数の前記学習用画像情報のそれぞれが示す前記学習用画像を1次元化して、複数の前記学習用画像情報に対応する複数の1次元学習画像信号を生成するステップと、
     行列生成部が、前記1次元学習画像生成部により生成された複数の前記1次元学習画像信号を互いに並列に配列した行列を生成するステップと、
     特異値分解部が、前記行列生成部により生成された前記行列について特異値分解を行うことにより、右特異ベクトル及び特異値を算出するステップと、
     学習済モデル生成部が、前記特異値分解部により算出された前記右特異ベクトル及び前記特異値に基づく学習済モデルであって、推論対象物体を撮影して得られた画像である推論対象画像を1次元化した画像を示す1次元推論対象画像信号を説明変数として、推論結果を出力する前記学習済モデルを生成するステップと、
     学習済モデル出力部が、前記学習済モデル生成部により生成された前記学習済モデルを学習済モデル情報として出力するステップと、
     を備えたこと
     を特徴とする学習方法。
  14.  推論対象画像を示す推論対象画像情報を取得する推論対象画像取得部と、
     前記推論対象画像取得部が取得する前記推論対象画像情報が示す前記推論対象画像を1次元化して、前記推論対象画像情報に対応する1次元推論対象画像信号を生成する1次元推論対象画像生成部と、
     前記1次元推論対象画像生成部が生成する前記1次元推論対象画像信号に基づいて、前記1次元推論対象画像信号に対応する推論結果情報を取得する推論部であって、前記1次元推論対象画像信号を学習済モデルに説明変数として入力して、前記学習済モデルが出力する推論結果を取得することにより、前記推論結果に基づく前記推論結果情報を取得する前記推論部と、
     を備えたこと
     を特徴とする画像処理装置。
  15.  前記推論部は、前記1次元推論対象画像信号を前記学習済モデルに前記説明変数として入力し、前記学習済モデルが前記推論結果として出力する1次元近似信号であって、前記1次元推論対象画像信号の近似信号である前記1次元近似信号を取得し、前記学習済モデルが前記推論結果として出力する前記1次元近似信号から生成される復元画像を示す復元画像情報を前記推論結果情報として取得すること
     を特徴とする請求項14記載の画像処理装置。
  16.  前記推論部は、前記学習済モデルが前記推論結果として出力する前記1次元近似信号を、前記推論対象画像取得部が取得する前記推論対象画像情報が示す前記推論対象画像と同様の大きさの2次元画像にマッピングすることにより前記復元画像を生成して、前記復元画像を示す前記復元画像情報を取得すること
     を特徴とする請求項15記載の画像処理装置。
  17.  前記推論対象画像取得部が取得する前記推論対象画像情報と、前記推論部が生成する前記復元画像情報とに基づいて、前記推論対象画像情報が示す前記推論対象画像と前記復元画像情報が示す前記復元画像とを比較することにより、前記推論対象画像に写る推論対象物体に異常があるか否かを判定する異常判定部と、
     前記異常判定部が判定した結果を判定結果情報として出力する判定結果出力部と、
     を備えたこと
     を特徴とする請求項15記載の画像処理装置。
  18.  前記推論部は、前記1次元推論対象画像信号を前記学習済モデルに前記説明変数として入力し、前記学習済モデルが前記推論結果として出力する特徴ベクトルであって、前記1次元推論対象画像信号に対応する前記推論対象画像の前記特徴ベクトルを取得し、前記学習済モデルが前記推論結果として出力する前記特徴ベクトルを示す特徴ベクトル情報を前記推論結果情報として取得すること
     を特徴とする請求項14記載の画像処理装置。
  19.  前記推論部が取得する前記特徴ベクトル情報に基づいて、前記特徴ベクトル情報に対応する前記推論対象画像情報を、予め定められた複数のグループのうちのいずれかの前記グループに分類し、分類した結果を示す分類結果情報を出力する分類部
     を備えたこと
     を特徴とする請求項18記載の画像処理装置。
  20.  前記1次元推論対象画像生成部は、前記推論対象画像取得部が取得する前記推論対象画像情報が示す前記推論対象画像をラスタ捜査することにより前記1次元推論対象画像信号を生成すること
     を特徴とする請求項14記載の画像処理装置。
  21.  推論対象物体を撮影することにより得た撮影推論画像を示す撮影推論画像情報を取得する撮影推論画像取得部
     を備え、
     前記推論対象画像取得部は、前記撮影推論画像取得部が取得する前記撮影推論画像情報が示す前記撮影推論画像について、前記撮影推論画像を複数の画像領域に分割して、前記撮影推論画像に基づく複数の部分推論画像のそれぞれを示す部分推論画像情報を取得することにより、前記撮影推論画像取得部が取得する前記撮影推論画像情報に対応する複数の前記部分推論画像情報のうちの予め定められた1以上の前記部分推論画像情報のそれぞれを前記推論対象画像情報として取得し、
     前記1次元推論対象画像生成部は、前記推論対象画像取得部が取得する1以上の前記推論対象画像情報のそれぞれに対応する前記1次元推論対象画像信号を生成し、
     前記推論部は、前記1次元推論対象画像生成部が生成する前記1次元推論対象画像信号であって、1以上の前記推論対象画像情報のそれぞれに対応する前記1次元推論対象画像信号に対応する前記推論結果情報を取得すること
     を特徴とする請求項14記載の画像処理装置。
  22.  推論対象画像取得部が、推論対象画像を示す推論対象画像情報を取得するステップと、
     1次元推論対象画像生成部が、前記推論対象画像取得部により取得された前記推論対象画像情報が示す前記推論対象画像を1次元化して、前記推論対象画像情報に対応する1次元推論対象画像信号を生成するステップと、
     推論部が、前記1次元推論対象画像生成部により生成された前記1次元推論対象画像信号に基づいて、前記1次元推論対象画像信号に対応する推論結果情報を取得するステップであって、前記1次元推論対象画像信号を学習済モデルに説明変数として入力して、前記学習済モデルが出力する推論結果を取得することにより、前記推論結果に基づく前記推論結果情報を取得するステップと、
     を備えたこと
     を特徴とする画像処理方法。
PCT/JP2021/018320 2021-05-14 2021-05-14 学習装置、学習方法、画像処理装置、及び画像処理方法 WO2022239216A1 (ja)

Priority Applications (7)

Application Number Priority Date Filing Date Title
PCT/JP2021/018320 WO2022239216A1 (ja) 2021-05-14 2021-05-14 学習装置、学習方法、画像処理装置、及び画像処理方法
EP21941948.8A EP4328812A1 (en) 2021-05-14 2021-05-14 Training device, training method, image processing device, and image processing method
CN202180098003.1A CN117280356A (zh) 2021-05-14 2021-05-14 学习装置、学习方法、图像处理装置和图像处理方法
KR1020237037980A KR20230162115A (ko) 2021-05-14 2021-05-14 학습 장치, 및 학습 방법
JP2023520707A JP7337303B2 (ja) 2021-05-14 2021-05-14 学習装置、及び学習方法
TW110127678A TWI823123B (zh) 2021-05-14 2021-07-28 學習裝置以及學習方法
US18/385,625 US20240062527A1 (en) 2021-05-14 2023-10-31 Training device and training method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/018320 WO2022239216A1 (ja) 2021-05-14 2021-05-14 学習装置、学習方法、画像処理装置、及び画像処理方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/385,625 Continuation US20240062527A1 (en) 2021-05-14 2023-10-31 Training device and training method

Publications (1)

Publication Number Publication Date
WO2022239216A1 true WO2022239216A1 (ja) 2022-11-17

Family

ID=84028999

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/018320 WO2022239216A1 (ja) 2021-05-14 2021-05-14 学習装置、学習方法、画像処理装置、及び画像処理方法

Country Status (7)

Country Link
US (1) US20240062527A1 (ja)
EP (1) EP4328812A1 (ja)
JP (1) JP7337303B2 (ja)
KR (1) KR20230162115A (ja)
CN (1) CN117280356A (ja)
TW (1) TWI823123B (ja)
WO (1) WO2022239216A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115601232A (zh) * 2022-12-14 2023-01-13 华东交通大学(Cn) 一种基于奇异值分解的彩色图像去色方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020077186A (ja) * 2018-11-07 2020-05-21 株式会社東芝 監視システム、プログラム、及び記憶媒体
JP2021039757A (ja) * 2019-09-02 2021-03-11 国立研究開発法人農業・食品産業技術総合研究機構 分類装置、学習装置、分類方法、学習方法、制御プログラム及び記録媒体
JP2021042992A (ja) * 2019-09-06 2021-03-18 清水建設株式会社 外観検査システム、及び外観検査方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200132178A (ko) * 2019-05-16 2020-11-25 삼성전자주식회사 전자 장치 및 이의 제어 방법
JP7021158B2 (ja) * 2019-09-04 2022-02-16 株式会社東芝 ロボットシステムおよび駆動方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020077186A (ja) * 2018-11-07 2020-05-21 株式会社東芝 監視システム、プログラム、及び記憶媒体
JP2021039757A (ja) * 2019-09-02 2021-03-11 国立研究開発法人農業・食品産業技術総合研究機構 分類装置、学習装置、分類方法、学習方法、制御プログラム及び記録媒体
JP2021042992A (ja) * 2019-09-06 2021-03-18 清水建設株式会社 外観検査システム、及び外観検査方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DIEDERIK P KINGMAMAX WELLING: "Auto-Encoding Variational Bayes", ARXIV: 1312.6114VL0, 4 December 2020 (2020-12-04), Retrieved from the Internet <URL:https://arxiv.org/abs/1312.6114v10>
GOGOVI GIDEON KWADZO: "Digital Image Processing Via Singular Value Decomposition", THESIS, 1 May 2013 (2013-05-01), pages 1 - 95, XP093003173 *
MATTHEW BRAND: "Fast Low-Rank Modifications of the Thin Singular Value Decomposition", MITSUBISHI ELECTRIC RESEARCH LABORATORIES, Retrieved from the Internet <URL:https://www.merl.com/publications/docs/TR2006-059.pdf)>

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115601232A (zh) * 2022-12-14 2023-01-13 华东交通大学(Cn) 一种基于奇异值分解的彩色图像去色方法及系统

Also Published As

Publication number Publication date
TWI823123B (zh) 2023-11-21
US20240062527A1 (en) 2024-02-22
CN117280356A (zh) 2023-12-22
TW202244837A (zh) 2022-11-16
EP4328812A1 (en) 2024-02-28
KR20230162115A (ko) 2023-11-28
JP7337303B2 (ja) 2023-09-01
JPWO2022239216A1 (ja) 2022-11-17

Similar Documents

Publication Publication Date Title
Qi et al. Pointnet++: Deep hierarchical feature learning on point sets in a metric space
Zha et al. Non-convex weighted ℓp nuclear norm based ADMM framework for image restoration
EP3963516B1 (en) Teaching gan (generative adversarial networks) to generate per-pixel annotation
Gu et al. Blind image quality assessment via learnable attention-based pooling
Ghorai et al. Multiple pyramids based image inpainting using local patch statistics and steering kernel feature
Arun et al. CNN based spectral super-resolution of remote sensing images
Jiang et al. A deep evaluator for image retargeting quality by geometrical and contextual interaction
CN108182449A (zh) 一种高光谱图像分类方法
CN107784288A (zh) 一种基于深度神经网络的迭代定位式人脸检测方法
WO2020168648A1 (zh) 一种图像分割方法、装置及计算机可读存储介质
CN113177592B (zh) 一种图像分割方法、装置、计算机设备及存储介质
CN108460400A (zh) 一种结合多种特征信息的高光谱图像分类方法
US20240062527A1 (en) Training device and training method
Dinesh et al. 3D point cloud color denoising using convex graph-signal smoothness priors
Huang et al. A deep dictionary model for image super-resolution
Jin et al. Joint metal artifact reduction and segmentation of CT images using dictionary-based image prior and continuous-relaxed potts model
Tussupov et al. APPLYING MACHINE LEARNING TO IMPROVE A TEXTURE TYPE IMAGE.
Ahmadian et al. Single image super-resolution with self-organization neural networks and image laplace gradient operator
CN113409316B (zh) 一种图像分类方法、装置、计算机可读存储介质及设备
CN114764746A (zh) 激光雷达的超分辨率方法和装置、电子设备及存储介质
Shen et al. Graph-Represented Distribution Similarity Index for Full-Reference Image Quality Assessment
CN111597373B (zh) 基于卷积神经网络和连通图的图片归类方法及相关设备
CN111597375B (zh) 基于相似图片组代表特征向量的图片检索方法及相关设备
US20230401670A1 (en) Multi-scale autoencoder generation method, electronic device and readable storage medium
Achaibou et al. Guided depth completion using active infrared images in time of flight systems

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21941948

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2023520707

Country of ref document: JP

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 20237037980

Country of ref document: KR

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 1020237037980

Country of ref document: KR

WWE Wipo information: entry into national phase

Ref document number: 202180098003.1

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 2021941948

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2021941948

Country of ref document: EP

Effective date: 20231123

NENP Non-entry into the national phase

Ref country code: DE