WO2020129235A1 - 画像認識装置及び方法 - Google Patents

画像認識装置及び方法 Download PDF

Info

Publication number
WO2020129235A1
WO2020129235A1 PCT/JP2018/047224 JP2018047224W WO2020129235A1 WO 2020129235 A1 WO2020129235 A1 WO 2020129235A1 JP 2018047224 W JP2018047224 W JP 2018047224W WO 2020129235 A1 WO2020129235 A1 WO 2020129235A1
Authority
WO
WIPO (PCT)
Prior art keywords
learning model
image recognition
learning
feature
feature extraction
Prior art date
Application number
PCT/JP2018/047224
Other languages
English (en)
French (fr)
Inventor
竜 弓場
康隆 豊田
新藤 博之
Original Assignee
株式会社日立ハイテク
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立ハイテク filed Critical 株式会社日立ハイテク
Priority to PCT/JP2018/047224 priority Critical patent/WO2020129235A1/ja
Priority to US17/286,604 priority patent/US12014530B2/en
Priority to KR1020217015935A priority patent/KR102654003B1/ko
Priority to TW108139465A priority patent/TWI731459B/zh
Publication of WO2020129235A1 publication Critical patent/WO2020129235A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/695Preprocessing, e.g. image segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/698Matching; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/42Document-oriented image-based pattern recognition based on the type of document
    • G06V30/422Technical drawings; Geographical maps
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30108Industrial image inspection
    • G06T2207/30148Semiconductor; IC; Wafer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/06Recognition of objects for industrial automation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Definitions

  • the present invention relates to an image recognition device and method in, for example, a semiconductor pattern inspection.
  • Pattern recognition using machine learning such as deep learning can extract various types of patterns from various images with high accuracy, and it can be expected to be effective even in applications where contour lines are extracted from semiconductor patterns.
  • the contour line extracted from the semiconductor pattern is used for shape evaluation and the like by comparison with a design drawing of the semiconductor pattern.
  • the learning model is a parameter such as a coefficient of a network structure of deep learning, and a learning sample composed of a set of an image and teacher data (inference result which is a target of learning) is set in advance according to the learning model. It is calculated using a learning operation. Due to the nature of machine learning, in order to extract a good contour line from an image, an image having image features of the image to be inferred, that is, an image similar to the inference target, is included in the learning samples used in the learning operation. Must be included. In order for contour line extraction to exhibit higher performance, it is desirable that images that are not similar to the image to be inferred are not included in the learning sample. This is because a learning model specialized in contour extraction from an image to be inferred is obtained by the learning calculation.
  • the optimum learning sample refers to a learning model capable of extracting the best contour line from the image given at the time of operation.
  • Patent Document 1 discloses a method of selecting an optimal learning model from a plurality of learning models on condition that the prediction error is the smallest.
  • the prediction error is the error between the predicted value and the correct value when inferring using a learning model.
  • Patent Document 2 discloses a method of selecting an optimum learning model from a plurality of learning models by a selection method using an index called certainty factor.
  • the certainty factor is an index calculated from the intermediate processing result until the inference result is obtained using the learning model, and is a measure of the certainty of the inference result (expected value of being the correct answer).
  • JP 2001-236337 A Japanese Patent Laid-Open No. 2001-339265
  • Patent Document 1 and Patent Document 2 described above are useful when applied to an image recognition apparatus and method in semiconductor pattern inspection.
  • the method of Patent Document 1 has a first problem that a correct value is required for selecting a learning model.
  • the correct value for contour line extraction is the inference result of the contour line accurately extracted at every point in the image.
  • Accurately extracted contour lines can be obtained, for example, by manually assigning correct values for contour line extraction to each pixel in the image, but preparing this for each image to be inferred is the start of operation. It takes work time and man-hours.
  • Patent Literature 2 since the scale of the certainty factor of interest differs depending on the type of learning model (a mathematical model of machine learning, a network structure of deep learning, etc.), a plurality of types of learning models are to be selected. Has a second problem that is not applicable.
  • the object of the present invention is that in contour line extraction using machine learning, an image in which an optimal learning model for an image at the time of inference can be selected without requiring a correct value or certainty factor
  • a recognition device and method are provided.
  • a feature extraction learning model group that stores a plurality of feature extraction learning models, and an associative learning that stores an associative learning model paired with the feature extraction learning model
  • a feature amount extraction unit that refers to a model group and a learning model for feature extraction to extract a feature amount from input data, and data that outputs a recall result accompanied by dimension compression of the feature amount by referring to a learning model for recall
  • An image characterized by including an inter-recollection unit and a learning model selection unit that selects a learning model for feature extraction from a group of learning models for feature extraction on condition that the difference between the feature amount and the recall result is minimized.
  • a feature extraction learning model group that stores a plurality of feature extraction learning models
  • a feature amount extraction unit that extracts a feature amount from input data with reference to the feature extraction learning model
  • a common scale that allows comparison between multiple types of learning models is calculated from the scores when the amount extraction unit extracts the feature amount
  • the learning model for feature extraction is used by using the common scale from the feature extraction learning model group.
  • An image recognition device characterized by comprising a learning model selection unit for selecting.
  • a plurality of learning models for feature extraction and a plurality of learning models for recall that are paired with the learning model for feature extraction are provided, and the learning model for feature extraction is referred to to input data.
  • the feature extraction is performed by referring to the learning model for recall, and the recall result accompanied by the dimension compression of the feature is obtained, and the feature extraction learning model group
  • the image recognition method is characterized in that a learning model for feature extraction is selected from the inside.
  • a plurality of learning models for feature extraction are provided, a feature amount is extracted from input data with reference to the learning model for feature extraction, and a plurality of types of learning models are extracted from scores when the feature amount is extracted.
  • An image recognition method characterized by calculating a common scale that can be compared with each other and selecting a learning model for feature extraction from a plurality of learning models for feature extraction using the common scale. is there.
  • the feature amount is extracted from the image to be inferred, and the recall result of the feature amount is acquired. It is possible to select a learning model for feature amount extraction on the condition that the difference of is minimized.
  • FIG. 1 is a diagram showing an example of a functional configuration of an image recognition apparatus according to a first embodiment of the present invention.
  • the figure explaining input-output of the feature-value extraction part 1. The figure which shows the example of one typical input data 30 and one feature-value 40 calculated
  • the figure explaining the input/output of the data recall part 3. The figure which shows an example of one typical characteristic amount 40 and one early result 50.
  • the figure which shows the data storage method in the database which stores the learning model group M2 for feature extraction, and the learning model group M4 for recall.
  • FIG. 1 The figure explaining input-output of the feature-value extraction part 1.
  • FIG. 9 is a diagram showing a specific configuration example of a learning model m2a for feature extraction (left) and a corresponding learning model m4a (right) stored in the database DB of FIG. 8.
  • FIG. 9 is a diagram showing a specific configuration example of a learning model for feature extraction m2b (left) and a corresponding learning model for recall m4b (right) stored in the database DB of FIG. 8.
  • the figure which shows the example of the feature-values 40a and 40b which the feature-value extraction part 1 output using the learning models m2a and m2b for feature extraction.
  • FIG. 6 is a diagram showing an example of a functional configuration of an image recognition device according to a third embodiment of the invention.
  • FIG. 14 is a diagram showing an example of the functional configuration of an image recognition device 7A according to a first modified example of the fourth embodiment.
  • FIG. 14 is a diagram showing a functional configuration example of an image recognition device 7A according to a second modified example of the fourth embodiment.
  • FIG. 1 shows an example of the functional configuration of the image recognition apparatus according to the first embodiment of the present invention realized by using a computer device.
  • the computer device 7 includes a feature amount extraction unit 1, a data inter-memory recall unit 3, a learning model selection unit 5, and a general process, which are processes realized by an arithmetic function such as a CPU. It is composed of a feature extraction learning model group M2 and a recall learning model group M4 realized by a database.
  • the computer device 7 incorporates an input sample 10 which is a sample during operation of an image which is a target of contour extraction in a semiconductor pattern inspection.
  • the feature extraction learning model group M2 stores two or more feature extraction learning models m2 in the database.
  • the learning model group for recall M4 stores two or more learning models for recall m4 in the database.
  • the feature extraction learning model group M2 and the recall learning model group M4 share the symbols assigned to the feature extraction and recall learning models m2 and m4, and the feature extraction and recall learning models m2 of the same symbol. , M4 are pairs learned from the same learning sample.
  • the feature amount extraction unit 1 extracts a contour line (hereinafter, the contour line extracted by the feature amount extraction unit 1 will be referred to as a feature amount) from the image in the input sample 10 by referring to the learning model m2 for feature extraction.
  • the feature amount is extracted from the image in the input sample 10 for each of the feature extraction learning models m2 in the feature extraction learning model group M2.
  • the inter-data recall unit 3 has a function of recalling the feature amount from the feature amount by referring to the learning model m4 for recall, and recalls the feature amount from each of the feature amounts output by the feature amount extraction unit 1.
  • the feature amount evoked by the inter-data recall unit 3 will be referred to as a recall result.
  • the learning model selection unit 5 selects the learning model m2 in which the difference between the feature amount output by the feature amount extraction unit 1 and the feature amount output by the inter-data recall unit 3 is minimum, and the symbols assigned to the learning model m2 are selected. Output.
  • Each of the functions in FIG. 1 described above can be realized by signal processing on a computer.
  • the input sample 10 is a small number of samples of images from which feature quantities are extracted during operation. A small number of samples are acquired, for example, by randomly selecting images taken during operation.
  • the input sample 10 is collected from a limited type of manufacturing process and the like, and a small number of samples are composed of one or a small number of types of images.
  • FIG. 2 is a diagram for explaining the input/output of the feature quantity extraction unit 1.
  • the function of the feature amount extraction unit 1 alone will be described with reference to FIG.
  • the feature quantity extraction unit 1 focuses on one learning model m2 for feature extraction in the learning model group M2 for feature extraction, and when referring to this, learns from one input data 30 in the input sample 10 the semantic segmentation. Is used to output one feature amount 40 to the data recall unit 3.
  • FIG. 3 shows an example of one typical input data 30 and one feature amount 40 obtained by using semantic segmentation for one input data 30.
  • the input data 30 is an image from which contour lines are to be extracted as shown in the example on the left of FIG. 3, and each pixel in the image is, for example, 256 ⁇ 256 bit data.
  • semantic segmentation is a method of machine learning that determines the category of each pixel in an image.
  • the learning model m2 for feature extraction is a parameter such as a weighting factor or a threshold referred to in the semantic segmentation.
  • One feature quantity 40 obtained by using the semantic segmentation in the feature quantity extraction unit 1 is shown in the example on the right side of FIG. 3, where the constituent elements (pixels) in the input data 30 are contour lines 41 and closed areas 42 ( The area surrounded by the contour line 41) and the background 43 are classified (category line extraction result).
  • the relationship between the input (one input data 30) and the output (one feature quantity 40) of the feature quantity extraction unit 1 has been described with reference to FIG. 3 by way of example.
  • This extraction uses the learning model m2 for feature extraction.
  • the learning model m2 for feature extraction will be described next.
  • the learning model m2 for feature extraction is calculated by a predetermined learning operation from a learning sample composed of one or more of a set of input data 30 and teacher data.
  • the teacher data is an image of the same format as the feature amount 40 illustrated on the left side of FIG. 3, and the category of each pixel in the image is appropriately assigned. This learning calculation is optimized so that the difference between the feature amount output from the feature amount extraction unit 1 from the input data 30 included in the learning sample and the teacher data in the learning sample is minimized.
  • the feature quantity extraction unit 1 refers to the learning model m2 for feature extraction and the input data 30 similar to the learning sample is given, the category of each pixel in the input data 30 is accurately determined. It becomes possible to output the determined feature amount 40.
  • the feature amount extraction unit 1 refers to the learning model m2 and the input data 30 deviated from the learning sample is given, the feature amount extraction unit 1 is out of the optimization range, and thus the pixel in the feature amount 40 is erroneously determined. Another will be included. Misjudgment is likely to occur particularly in the input data 30 where the learning sample and the image appear different.
  • the feature quantity extraction unit 1 stores the input data 30 (one or more) in the input sample 10 and the learning model m2 (two or more) for feature extraction included in the learning model group M2 for feature extraction.
  • the feature amount 40 is extracted for each combination.
  • FIG. 4 is a diagram for explaining input/output of the data recall unit 3.
  • the inter-data recall unit 3 when referring to one of the learning models for recall m4 in the group of learning models for recall M4, obtains one recall result 50 from one of the feature amounts 40 by using the dimension compression and the learning model selection unit. Output to 5.
  • FIG. 5 shows an example of one typical feature amount 40 and one early result 50.
  • the recall result 50 on the right side of FIG. 5 is a category having the same components as the feature amount 40 (composed of categories of the contour line 41, the closed region 42, and the background 43) shown on the left side of FIG. It is composed of a region 52 and a background 53.
  • the inter-data recall unit 4 retrieves the recall result for each combination of the feature amount 40 output from the feature amount extraction unit 1 and the recall learning model 14 included in the recall learning model group M4. Output 50.
  • the difference between the feature amount 40 and the recall result 50 is not necessarily clear, but the recall result 50 is information obtained by dimensionally compressing the feature amount 40.
  • Dimensional compression in the data recall unit 3 will be described with reference to FIG.
  • Dimensional compression means that when the feature amount 40 and the recall result 50 are regarded as high-dimensional data (dimensional data of the number of pixels) composed of constituent elements (pixels), the feature amount 40 has a dimension lower than that of the feature amount 40. After being mapped (compressed) to the data 70, it refers to an operation of mapping (reconstructing) again into the dimension of the recall result 50.
  • This dimensional compression if the feature amount 40 is in a predetermined range in the high dimensional space corresponding to the dimensional compressed data 70, almost no information is lost in the process of compressing the feature amount 40 into the dimensional compressed data 70. There is a property that the difference between the recall result 50 and the feature amount 40 becomes small. Contrary to dimensional compression, when the feature amount 40 deviates from a predetermined range in the high-dimensional space, information is lost in the process of compressing the feature amount 40 into the dimensional compressed data 70, and the recall result 50 And the feature amount 40 has a large difference.
  • This dimensional compression can be realized by applying a general algorithm such as principal component analysis or deep learning auto encoder.
  • FIG. 7 is a diagram for explaining another form of dimension compression in the data recall unit 3.
  • the dimensional compression may include intermediate data 71 and 72 that map data between the feature amount 40 and the dimensional compressed data 70 or between the dimensional compressed data 70 and the recall result 50. In this case as well, the properties described above do not change.
  • the learning model m4 for recall is a parameter such as a weighting factor or a threshold referred to in dimension reduction.
  • the learning model m4 for recollection is obtained from a learning sample composed of one or more feature quantities 40 such that the difference between the feature quantity 40 in the learning sample and its recall result 50 becomes small.
  • FIG. 8 is a diagram showing a data storage method in the database DB that stores the feature extraction learning model group M2 and the recall learning model group M4.
  • the feature extraction learning model group M2 and the recollection learning model group M4 two or more stored feature extraction learning models m2 and recollection learning models m4 are shown as a and b as shown in FIG.
  • the same symbol 20 is allocated and managed in the database DB, for example.
  • the symbol 20 may be any symbol such as a serial number.
  • the learning model m2 for feature extraction and the learning model m4 for recall to which the same symbol is assigned are a pair calculated from the same learning sample.
  • the combination of the processing step S1 and the processing step S6 means that the processing between them is repeatedly executed for each learning model. Further, in this flow, the combination of the processing steps S2 and S4 means that the processing between them is repeatedly executed for each feature amount.
  • the feature amount extraction unit 1 outputs the feature amount 40 for each of the feature extraction learning models m2 in the feature extraction learning model group M2 (processing step S1 to processing step S6).
  • the difference between the feature amount 40 and the recall result 50 is obtained (processing step S3).
  • the statistic of the difference over the plurality of feature amounts 40 is calculated from the difference of the process step S3 obtained from each of the feature amounts 40 (process step S5).
  • processing of processing step S7 is entered.
  • processing step S7 the minimum value of the statistic of the difference calculated in processing step S5 is obtained from the plurality of learning models m2 for feature extraction.
  • processing step S8 the symbol 20 (see FIG. 8) of the learning model m2 for feature extraction when the difference in processing step S3 takes the minimum value in processing step S7 is selected. From the symbol 20 selected in the processing step S8, the learning model m2 for feature extraction and the learning model m4 for recall can be uniquely specified by referring to the database DB.
  • FIG. 10a shows a specific configuration example of a learning model m2a for feature extraction (left) and a corresponding learning model for recall m4a (right) stored in the database DB of FIG.
  • FIG. 10b shows a specific configuration example of the learning model m2b (left) for feature extraction and the corresponding learning model m4b (right) stored in the database DB of FIG.
  • the learning model m2a for feature extraction stored in the database DB of FIG. 8 learns input data 30a and teacher data 60a, and input data 30 similar to the input data 30a and its teacher data as shown in FIG. 10a. Learned as a sample. Further, as shown in FIG. 10b, the learning model m2b for feature extraction is learned using the input data 30b and the teacher data 60b, and the input data 30 and the teacher data similar to the input data 30b as learning samples.
  • the left and right closed regions 62a are separated in the central portion 64a, while in the teacher data 60b of FIG. 10b, the left and right closed regions 62a are connected in the central portion 64b.
  • the learning model m4a for recall is learned in advance from the teacher data 60a, the image similar to the input data 30a, and the teacher data.
  • the learning model m4b for recall is learned from images similar to the teacher data 60ab and the input data 30b and the teacher data.
  • FIG. 11 is a diagram showing an example of the feature quantities 40a and 40b output by the feature quantity extraction unit 1 using the learning models m2a and m2b for feature extraction.
  • the input data 30a of FIG. Therefore, the categories of the contour line 41a, the closed region 42a, and the background 43a are accurately discriminated everywhere including the central portion 44a.
  • the feature amount 40b output using the learning model m2b for feature extraction includes the input data 30b (see FIG. 10b) of the learning sample and the input data 30 similar thereto. Is not similar to the input sample 10, and therefore the category of the contour line 41b, the closed region 42b, and the background 43b in the feature amount 40b includes misjudgment. Further, this misjudgment is concentrated on the central portion 44b where the difference in appearance of the image is large between the input data 30a and the input data 30b.
  • FIG. 12 shows recall results 50a and 50b output from the feature quantities 40a and 40b by the inter-data recall unit 3 referring to the learning models m4a and m4b for recall.
  • the recollection result 50a on the left side of FIG. 12 shows that the learning sample when the learning model m4a for recollection includes the teacher data 60a similar to the feature amount 40a, and thus the feature in the entire image including the central portion 54a. There is almost no difference between the quantity 40a and the recall result 50a.
  • the recall result 50b on the right side of FIG. 12 does not include the feature amount 40 including the misjudgment in the central portion 44b like the feature amount 40b in the learning sample when the learning model m4b for recall is learned. Therefore, a large difference appears between the feature amount 40b and the central portion 54b.
  • the difference derivation in the process of the processing step S3 of FIG. 9 is performed by using the vector when the feature amount 40 and the recall result 50 are high-dimensional vectors. Calculate by the distance between.
  • an element vector in which the contour lines 41 and 51 of each pixel, the closed regions 42 and 52, and the backgrounds 43 and 53 in the feature amount 40 and the recall result 50 are the first, second, and third elements in order are set as the feature amount 40 and
  • the Euclidean distance between feature quantity vectors (3N dimensions if the number of pixels is N) vector-combined by the number of pixels of the recall result 50 can be calculated.
  • the Euclidean distance can be calculated, and the distance between the vectors can be calculated by an arbitrary scale as long as the distance between the two feature amount vectors can be measured.
  • processing step S5 the statistic of the difference in the processing step S3 obtained for each of the input data 30 in the input sample 10 is calculated.
  • Statistic of difference can be calculated by arithmetic average of distances of multiple feature vectors.
  • any statistic can be applied as long as it is possible to obtain a representative value from a plurality of feature quantity vectors such as a harmonic mean and a median in addition to the arithmetic mean.
  • the difference statistic is smaller than the difference statistic obtained by referring to the learning model m4a for recall. Then, the statistical amount of the difference obtained by referring to the learning model m4b for recall becomes large.
  • processing step S7 of FIG. 9 the minimum value of the statistic of the difference in processing step S5 is calculated.
  • processing step S8 the symbol 20 assigned to the learning model m2 for feature extraction when the difference statistic in processing step S5 takes the minimum value is output.
  • the learning model selection unit 5 outputs information that uniquely determines the learning model m2 for feature extraction, such as the actual state and file name of the file of the learning model m2 for feature extraction specified by the symbol 20. You may do it.
  • FIG. 13 is a diagram showing an example of a screen display of the learning model selection unit 5.
  • the learning model selection unit 5 may use a screen display such as the screen 80 in FIG. 13 so that an operator who performs the execution control or the like of the first embodiment can visually confirm the selection result.
  • the selection result 81 shows the symbols 20 in the database of FIG. 8 selected by the learning model selection unit 5 (example a in the figure).
  • the numerical value of the difference between the selected learning models (statistic of the difference in the processing step S5) as in 82 or the learning model selection as in 83, so that the operator can grasp the details of the learning model selection. You may display the selection range of the symbol 20 made into the target of.
  • the difference between the feature amount 40 output by the feature amount extraction unit 1 and the recall result 50 output by the inter-data recall unit 3 is obtained by the method described above, and the symbol 20 is set under the condition that the difference is the minimum.
  • the image recognition apparatus is configured on the premise that the learning model is appropriately configured, but in the second embodiment, the image recognition apparatus in consideration of the learning model not properly configured. Is proposed.
  • FIG. 14 shows a functional configuration example of the image recognition device 7 according to the second embodiment of the present invention.
  • the image recognition apparatus 7 of FIG. 14 differs from the configuration of FIG. 1 in that a learning model suitability determination unit 106 is added and the learning model selection unit 5 of FIG. 1 is configured like a learning model reselection unit 107. That is the point.
  • m2 and m4 are the learning model for feature extraction and the learning model for recall selected in the first embodiment.
  • the symbol assigned to this learning model is x.
  • the input sample 10 is a small number of samples of the input data 30 extracted at a predetermined timing during long-term operation of contour extraction.
  • the term “long-term operation” refers to the timing at which contour extraction is continued for a predetermined period or more after the learning model is selected by the method of the first embodiment.
  • the feature amount extraction unit 1 extracts the feature amount 40 from the input data 30 in the input sample 10 with reference to the learning model m2 for feature extraction.
  • the inter-data recall unit 103 outputs the recall result 50 from the feature amount 40 output by the feature amount extraction unit 1 with reference to the learning model m4 for recall.
  • the learning model suitability determination unit 106 added in the second embodiment makes a difference from the feature amount 40 and the recall result 50 output by the feature amount extraction unit 1 and the inter-data recall unit 3 in a procedure similar to the processing step S5 of FIG. Calculate the statistics of. Then, when the statistic of the difference becomes larger than a predetermined threshold value set in advance, it is determined that the learning model of the symbol x does not conform to the input data 30 during the long-term operation in which the input sample 10 is sampled. The result of this determination is output by displaying the screen 80 output by the learning model reselecting unit 107 (corresponding to the learning model selecting unit 5 in FIG. 1). Alternatively, it may be output to a file or notified to an external computer via a network.
  • a learning model reselection unit 107 may be further provided after the learning model suitability determination unit 106.
  • the learning model reselection unit 107 uses the input sample 10 as an input (replacing the old input sample 10 with the new input sample 10) when the learning model suitability determination unit 106 determines that the learning model suitability is not suitable, and follows the procedure of the first embodiment.
  • a learning model 12 for feature extraction is selected.
  • the property of the input data 30 is changed by the method described above in the course of long-term operation, and the learning model 12 for contour extraction selected by the method of the first embodiment becomes non-conforming. Can be detected. Furthermore, it is possible to reselect the learning model 12 that is optimum for the input sample 110 for contour extraction.
  • the configuration of the second embodiment shown in FIG. 14 is that the learning model suitability determination unit 106 is installed between the inter-data recall unit 3 and the learning model selection unit 5 in the configuration of the first embodiment shown in FIG. Therefore, the learning model suitability determination unit 106 does not pass through the learning model suitability determination unit 106 at the beginning of operation of the image recognition device 7, but the learning model suitability determination unit 106 functions based on the driving experience thereafter, and the learning model selection unit 5 performs reselection. It can be called a thing.
  • the teacher data necessary for designing and preparing the image recognition device 7 can be easily obtained and the learning model can be obtained. Describe what to learn. Therefore, the learning model as the learning result of the third embodiment is reflected in the first and second embodiments.
  • FIG. 15 shows an example of the functional configuration of the image recognition apparatus according to the third embodiment of the present invention.
  • the image recognition apparatus 7 of FIG. 15 differs from the configuration of FIG. 1 in that a teacher data creation support unit 208 and a learning model learning unit 209 are added.
  • FIG. 15 does not describe the learning model selection unit 5 in FIG. 1 or the learning model suitability determination unit 106 in FIG. 14, but these functions are not described, and in actual operation, the first embodiment will be described.
  • the configuration is as in the second embodiment.
  • M2 and m4 are the learning model for feature extraction and the learning model for recall selected in the first embodiment.
  • the input sample 10 is a set of arbitrary input data 30, and may be the input sample 10 described in the first and second embodiments, for example.
  • the feature amount extraction unit 1 extracts the feature amount 40 from the input data 30 in the input sample 10 with reference to the learning model m2 for feature extraction.
  • the inter-data recall unit 3 outputs the recall result 50 from the feature amount 40 output by the feature amount extraction unit 201 with reference to the learning model m4 for recall.
  • the teacher data creation support unit 208 added in the third embodiment obtains the difference between the feature amount 40 and the recall result 50 output by the feature amount extraction unit 1 and the inter-data recall unit 3 in the procedure of processing step S3 in FIG.
  • the user interface for teacher training in which the input points are narrowed down to a place where the difference is large, is included.
  • a screen 90 in FIG. 16 is an example of a user interface of the teacher data creation support unit 208, and includes an input screen 91, an input selection 92, and an input pen 93.
  • the operator can perform the work of assigning the categories of the outline 61, the closed region 62, and the background 63 by using the input data 30 as a sketch.
  • the assignment of labels on the input screen 91 is performed by the operator selecting the categories of the contour line 61, the closed region 62, and the background 63 from the radio buttons of the input selection 92, and operating the input pen 93.
  • the user interface in the learning sample creation support unit 208 preferably has a function of drawing the input data as a sketch and drawing the category of the characteristic amount, and further inputting the category of the characteristic amount.
  • the teacher data creation support unit 208 discriminates a place with a small difference and a place with a large difference in the processing step S3.
  • the small places and the large places are determined to have a large difference if the density of the difference in the processing step S3 when the input data 30 on the input screen 91 is divided into small areas is large, and it is small if the difference density is low.
  • the label of the place where the difference in the processing step S3 is small is displayed in the same manner as the feature amount 40. That is, the contour line 41, the closed region 42, and the background 43 in the feature amount 40 are sequentially assigned to the contour line 61, the closed region 62, and the background 63 in the input screen 91. Then, the operator is urged to make an input on the input screen 91 by narrowing down the area having a large difference in the processing step S3.
  • the place where there is a difference in the processing step S3 is (input data 30a There is a large difference between the feature amount 40b extracted from the feature amount 40b and the recall result 50b extracted from the feature amount 40b).
  • the teacher data creation support unit 208 configures the learning model m2 for feature extraction and the learning model m4 for recall to include a plurality of pairs of the learning model m2 for feature extraction and the learning model m4 for recall. Even if the accuracy of the category in the screen 91 is improved by generating the category (the contour line 61, the closed region 62, the background 63) in the screen 91 from the plurality of feature amounts 40 and the recall result 50. good.
  • a category in the screen 91 may be generated by obtaining a location where there is a difference in the processing step S3 from a statistic such as a mode of difference between the plurality of feature amounts 40 and the recall result 50.
  • the operator may switch an appropriate one of the plurality of feature amounts 40 and the recall result 50 to be used for generating the category on the screen 91 by operating a button (not shown) on the screen 90. good.
  • the learning sample creation support unit 208 obtains an input location using a plurality of feature amounts and recall results, and/or switches the input location.
  • the learning model learning unit 209 added in the third embodiment uses the learning sample m2 for the feature extraction of the input data 30 in the input sample 10 and the input result of the screen 90 by using the learning sample in which the teacher data is set. To learn.
  • an arbitrary learning sample may be added in addition to the learning sample so that the inference result of the feature amount 40 when the learning model is referred to is excellent.
  • the learning model m4 for recall is learned in addition to the learning model m2 for feature extraction, and a new learning model m4 is learned.
  • the symbol 20 may be allocated and added to the database DB of FIG.
  • the learning model learning unit further learns the learning model for recall, and the learning model of the feature amount learned by the learning model learning unit is used as a feature extraction learning model group, and the learning model learning unit learns The learning model for C is added to the learning model group for feature extraction.
  • a learning model m2 for optimal feature extraction with respect to the population sampled from the input sample 10 is selected by the teacher data creation support unit 208 at a location where the operator inputs it. You can learn by using limited teacher data. By narrowing down the places where the operator inputs, it is possible to reduce the man-hours for creating the teacher data as compared with the case where the teacher data is assigned to all the pixels of the input data 30 in the input sample 10.
  • Example 4 describes how to easily obtain an optimal learning model.
  • FIG. 17 shows an example of the functional configuration of the image recognition device 7A according to the fourth embodiment of the present invention.
  • the configuration of FIG. 17 is obtained by excluding the configuration of the inter-data recall unit 3 from the configuration of FIG. 1, but the feature extraction learning model group M2, the feature amount extraction unit 1, and the learning model selection unit 5 are partially Since the handling data, the internal configuration, the processing content, and the like are different, these are represented as the feature extraction learning model group M2A, the feature amount extraction unit 1A, and the learning model selection unit 5A in FIG. 17, respectively.
  • the feature-extraction learning model group M2A includes, among the learning models m2 for feature extraction, a learning model for feature extraction m2A of a type that can output a score for each category when the feature amount 40 is extracted. It is a set.
  • the feature amount extraction unit 1A refers to each of the feature extraction learning models m2A in the feature extraction learning model group M2A and outputs the feature amount 40 and the score from each input data 30 in the input sample 10.
  • the learning model selection unit 5A calculates a common scale with which the reliability of the category discrimination results can be compared among the learning models m2A for extracting a plurality of types of features from the score, and the common scale is set to the minimum value as a condition. An optimal learning model m2A for feature extraction is selected.
  • FIG. 18 is a diagram showing a signal processing flow of the learning model selection unit 5A of FIG.
  • the combination of processing step S301 and processing step S306 means that the processing between them is repeatedly executed for each learning model.
  • the combination of the processing step S302 and the processing step S304 means that the processing between them is repeatedly executed for each input data 30.
  • the statistical value of the common scale is calculated from the average value or the median of the common scale of each pixel in each input data 30 in the processing step S305.
  • step S307 After the above iterative processing is executed for all learning models and the input data 30, the processing of step S307 is started.
  • processing step S307 the maximum value of the statistics of the common scale calculated in processing step S305 is calculated.
  • processing step S308 the symbol 20 of the learning model m2A for feature extraction when the common scale has the maximum value is selected.
  • FIG. 19 shows an example of the common scale in the processing step S303 of FIG.
  • Graphs 311 and 312 show the scores for each category obtained from the learning models m2A for extracting the different types of feature amounts.
  • the type means that a mathematical model for machine learning, a network structure for deep learning, and the like in the learning model m2A for feature amount extraction are different.
  • the categories in the graph 311 and the graph 312 refer to the labels allocated to the contour line 41, the closed region 42, and the background 43 that form the feature amount 40. Looking at the two scores in the graph 311 and the graph 312, the value in the graph 312 is larger than that in the graph 311, but the magnitudes cannot be compared because the types are different and the scales are different.
  • the learning model m2A for feature extraction is classified into the category having the largest score.
  • the more the difference between the maximum value of the score and the other values the more reliable the category discrimination can be.
  • the score of the graph 312 is highest in category 3, the difference between the scores of category 1 and category 2 is small. Therefore, it can be considered that the determination of the category 3 from the graph 312 has low reliability that the determination result of the category is changed if the score changes due to a slight disturbance.
  • the score of the graph 312 has a large difference between the category 3 having the largest value and the other categories 1 and 2. Therefore, it can be considered that the determination of the category 3 from the graph 311 has high reliability that the determination result of the category does not change even if there is some disturbance.
  • the variation of the score is used as a common measure.
  • the variation is a statistic indicating the degree of variation such as the standard deviation and entropy of the score, and the larger the value, the more the score is different between categories as shown in the graph 311.
  • the degree of protrusion of the score may be used as a common measure.
  • the protrusion degree is an index indicating how much the maximum value of the score is significantly larger than other scores, and for example, the difference between the maximum value of the score and the average value of the score in the graph 311, or It can be calculated by the difference between the maximum value of the score and the second largest value of the score.
  • the certainty factor 1 in the graph 321 is the maximum value of the score in the graph 311. In this way, setting the maximum value of the score as the certainty factor is common in the category discrimination algorithm using machine learning.
  • the certainty factor 2 in the graph 322 is the maximum value of the score in the graph 321.
  • the correct answer rate in the graph 321 and the graph 322 is the expectation of the correct answer rate that indicates the probability that the correct answer is obtained when the determination result of the category when the certainty factor 1 and the certainty factor 2 have predetermined values is the population. This is a value indicator.
  • the learning sample obtained when the learning model 12 for feature extraction is learned can be applied to the population, but the present invention is not limited to this, and a set of arbitrary input data 30 and its teacher data can be applied.
  • the accuracy rate can be used as a common measure.
  • the certainty factors calculated from the graph 311 and the graph 312 are k1 and k2
  • the correct answer rates in the graph 321 and the graph 322 are y1 and y2, and y1 is higher than y2. Since the accuracy of the obtained category discrimination result is higher, the reliability is considered to be higher. Therefore, in the processing step S303, the certainty factor such as the certainty factor 1 and the certainty factor 2 can be converted into the correct answer rate to be a common index.
  • processing step S303 of FIG. 18 in the learning models m2A for extracting a plurality of types of features, when the variations and the magnitudes of the protrusions are significantly different, the same procedure as described in the description of FIG. 20 is performed. It may be converted into a correct answer rate and then used as a common scale. Alternatively, in order to suppress the variation in size among the plurality of types of learning models m2A for feature extraction, a statistic amount such as the variation or the average value of the protrusion degree in the population is obtained and divided by this statistic amount. You may normalize.
  • the learning model m2A for feature extraction is limited to the type capable of outputting the score when the feature quantity 40 is extracted by the method described above, a plurality of features It is possible to select the optimum one for the input sample 10 from the learning model m2A for extraction. Further, unlike Patent Document 2, even if the confidence factors of the feature extraction learning model m2A in the feature extraction learning model group M2A are different indices, the feature extraction learning model m2A can be selected. Become.
  • FIG. 21 shows a functional configuration example of the image recognition device 7A according to the first modification of the fourth embodiment.
  • the upper part of the image recognition device 7A of FIG. 21 adopts the configuration of FIG. 17, and the lower half is a combination of the partial offensives of FIG.
  • a learning model suitability determination unit 306 that determines the suitability of the learning model m2 for feature extraction selected by the learning model selection unit 5A for the input sample 10 by using the statistics of the common scale may be provided.
  • the learning model suitability determination unit 306 determines that the reliability is low and does not match if the statistic of the common scale obtained by the same procedure as the processing step S305 is smaller than a predetermined threshold.
  • a learning model reselection unit 307 that selects an appropriate learning model m2 for feature extraction for the input sample 10 from the feature extraction learning model group M2. (Including the functions of the feature amount extraction unit 301 and the learning model selection unit 306) may be provided.
  • FIG. 22 shows a functional configuration example of the image recognition device 7A according to the second modification of the fourth embodiment.
  • the upper part of the image recognition device 7A of FIG. 22 adopts the configuration of FIG. 17, and the lower half is a combination of the partial offensives of FIG.
  • the teacher data creation support unit 308 provided with a user interface narrowed down to the part of the common scale of the processing step S305 (the part where the reliability of the category discrimination of the feature amount 40 is low), and the teacher data created by the teacher data creation support unit 308.
  • a learning model learning unit 309 that learns the learning model m2 for feature amount extraction using may be provided.
  • the learning model m2 for optimal feature extraction with respect to the population sampled from the input sample 210 can be learned by using the teacher data in which the locations input by the worker are narrowed down. .. Further, the learning model learning unit 309 may add the learned learning model m2 for feature amount extraction to the feature extraction learning model group M2 so that the learning model reselection unit 307 can select it.
  • the categories forming the feature amount 40 are not limited to the outline 41, the closed region 42, and the background 43.
  • a category such as a corner point of the contour line may be added.
  • categories may be omitted from the contour line 41, the closed region 42, and the background 43.
  • the constituent elements of the category of the teacher data such as the recall result 50 or 60a also change.
  • the feature amount 40 may be any feature amount that can be extracted from the input data 30 (that is, an image) other than the contour line described above.
  • a design drawing of the input data 30 or a defect in the input data 30 may be used as the feature amount 40.
  • the categories forming the teacher data such as the recall results 50 and 60a also change.
  • the arbitrary feature amount is not limited to the category of each pixel as long as the recall result 50 can be acquired.
  • the arbitrary feature amount may be the brightness of each pixel.
  • the feature amount extraction unit 1 may perform image processing in which appropriate parameters differ depending on the input sample 10 other than the method of extracting the feature amount 40 using the machine learning described above.
  • the learning model m2 for feature extraction is the parameter.
  • the image processing for example, the lightness gradient and the lightness are obtained for each pixel in the input data 30, and compared with a predetermined threshold value in the parameter, and each pixel in the input data 30 is classified into a contour line 41 and a background 43. It may be a discriminator.
  • the feature quantity extraction unit 1 may mix machine learning and the image processing. In this case, the feature quantity extraction unit 1 may switch between machine learning and the image processing according to the feature extraction learning model m2 in the feature extraction learning model group M2.
  • the input data 30 may be any data that allows the inter-data recall unit 3 to output a recall result accompanied by dimension compression in the first to third embodiments.
  • the categories forming the teacher data such as the recall results 50 and 60a also change.
  • the input data 30 may be a speech voice and the feature amount 40 may be an alphabet.
  • the learning model selection of the present invention can be applied to all systems using arbitrary machine learning that handles a feature amount that can be recalled from the feature amount with dimension compression, in addition to the selection of the learning model for contour line extraction.
  • 1 feature amount extraction unit
  • 2 feature extraction learning model group
  • 3 inter-data recall unit
  • 4 recall learning model group
  • 5 learning model selection unit
  • 10 input sample

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

機械学習を用いた輪郭線抽出において、推論時の画像に最適な学習モデルを正解値あるいは確信度を必要とすることなく選択する。複数の特徴抽出用の学習モデルを格納する特徴抽出用学習モデル群と、特徴抽出用の学習モデルと対になった想起用の学習モデルを格納する想起用学習モデル群と、特徴抽出用の学習モデルを参照して入力データから特徴量を抽出する特徴量抽出部と、想起用の学習モデルを参照して特徴量の次元圧縮を伴う想起結果を出力するデータ間想起部と、特徴量と想起結果の差分が最小になることを条件に特徴抽出用学習モデル群の中から特徴抽出用の学習モデルを選択する学習モデル選択部を備えることを特徴とする。

Description

画像認識装置及び方法
 本発明は、例えば半導体パターンの検査における画像認識装置及び方法に関する。
 深層学習をはじめとした機械学習を用いたパターン認識は、様々な画像から種種のパターンを高精度に抽出することが可能であり、半導体パターン中から輪郭線を抽出する用途でも効果が期待できる。半導体パターン中から抽出された輪郭線は、半導体パターンの設計図との比較による形状評価等に用いられる。
 輪郭抽出において複数の種類の画像を推論対象として運用する場合、例えば半導体製造工程におけるリゾグラフィーやエッチング等の複数の製造工程の画像を推論対象として運用する場合等において、画像の種類毎に画像の見え方の差異が大きなときにおいて機械学習を用いた輪郭線抽出が一層高い性能を発揮するためには、学習モデルを分割することが望まれる。
 学習モデルとは、深層学習のネットワーク構造体の係数等のパラメータであって、画像と教師データ(学習の目標となる推論結果)の組からなる学習サンプルから、事前に学習モデルに応じた所定の学習演算を用いて計算されたものである。機械学習の性質上、画像から良好な輪郭線を抽出するためには、学習演算に用いる学習サンプルの中に、推論対象とする画像の画像特徴を備えた画像、すなわち推論対象と類似した画像が含まれている必要がある。輪郭線抽出がより高い性能を発揮するには、推論対象とする画像と類似しない画像が学習サンプル中に含まれないことが望まれる。これは学習演算によって、推論対象とする画像からの輪郭抽出に特化した学習モデルが得られるためである。
 一方で、複数の学習モデルを用意したときには、複数の学習モデルの中から最適な学習モデルを選択する方法が必要となってしまう。最適な学習サンプルとは、運用時に与えられる画像に対して、その画像から最も良好な輪郭線抽出ができる学習モデルを指す。
 特許文献1には、複数の学習モデルの中から、予測誤差が最も小さくなることを条件に最適な学習モデルを選択する方法が示されている。予測誤差とは、学習モデルを使って推論したときの予測値と正解値の間の誤差である。
 特許文献2には、確信度と呼ばれる指標を用いた選択方法によって、複数の学習モデルの中から最適な学習モデルを選択する方法が開示されている。確信度とは、学習モデルを用いて推論結果を出すまでの中間処理結果から計算される指標であり、推論結果の確からしさ(正解であることの期待値)の目安となる。
特開2001-236337号公報 特開2001-339265号公報
 上記した特許文献1、特許文献2に記載の手法は、半導体パターンの検査における画像認識装置及び方法に適用して有用である。
 然しながら、この特許文献1の手法には、学習モデルの選択に正解値を必要とするという第1の課題がある。輪郭線抽出の正解値とは、画像中のあらゆる箇所において正確に抽出された輪郭線の推論結果である。正確に抽出された輪郭線は、例えば人手で画像中の各画素に輪郭線抽出の正解値を割り振ることで入手可能であるが、これを推論対象とする画像毎に用意するのは、運用開始までに作業時間と作業工数を要してしまう。
 また、特許文献2において着目する確信度は学習モデルの種類(機械学習の数理モデルや深層学習のネットワーク構造等)によって尺度が異なるために、複数の種類の学習モデルが選択の対象となる場合には適用できないという第2の課題がある。
 以上のことから本発明の目的とするところは、機械学習を用いた輪郭線抽出において、推論時の画像に最適な学習モデルを正解値あるいは確信度を必要とすることなく選択することができる画像認識装置及び方法を提供することである。
 以上のことから本発明においては「複数の特徴抽出用の学習モデルを格納する特徴抽出用学習モデル群と、特徴抽出用の学習モデルと対になった想起用の学習モデルを格納する想起用学習モデル群と、特徴抽出用の学習モデルを参照して入力データから特徴量を抽出する特徴量抽出部と、想起用の学習モデルを参照して特徴量の次元圧縮を伴う想起結果を出力するデータ間想起部と、特徴量と想起結果の差分が最小になることを条件に特徴抽出用学習モデル群の中から特徴抽出用の学習モデルを選択する学習モデル選択部を備えることを特徴とする画像認識装置」としたものである。
 また本発明においては「複数の特徴抽出用の学習モデルを格納する特徴抽出用学習モデル群と、特徴抽出用の学習モデルを参照して入力データから特徴量を抽出する特徴量抽出部と、特徴量抽出部が特徴量を抽出するときのスコアから複数種類の学習モデル間で比較が可能な共通尺度を計算し、特徴抽出用学習モデル群の中から共通尺度を用いて特徴抽出用の学習モデルを選択する学習モデル選択部を備えることを特徴とする画像認識装置」としたものである。
 また本発明においては「複数の特徴抽出用の学習モデルと、特徴抽出用の学習モデルと対になった複数の想起用の学習モデルとを備え、特徴抽出用の学習モデルを参照して入力データから特徴量を抽出し、想起用の学習モデルを参照して特徴量の次元圧縮を伴う想起結果を得、特徴量と想起結果の差分が最小になることを条件に特徴抽出用学習モデル群の中から特徴抽出用の学習モデルを選択することを特徴とする画像認識方法」としたものである。
 また本発明においては「複数の特徴抽出用の学習モデルを備え、特徴抽出用の学習モデルを参照して入力データから特徴量を抽出し、特徴量を抽出するときのスコアから複数種類の学習モデル間で比較が可能な共通尺度を計算し、複数の特徴抽出用の学習モデルの中から共通尺度を用いて特徴抽出用の学習モデルを選択することを特徴とする画像認識方法」としたものである。
 本発明を適用することにより、入力データを画像として特徴量を輪郭線とした際に、推論対象とする画像から特徴量を抽出し、また特徴量の想起結果を取得し、特徴量と想起結果の差分が最小となることを条件として特徴量抽出用の学習モデルを選択することが可能となる。
本発明の実施例1に係る画像認識装置の機能構成の一例を示す図。 特徴量抽出部1の入出力を説明する図。 典型的な一つの入力データ30と、一つの入力データ30に対してセマンティックセグメンテーションを用いて求めた一つの特徴量40の例を示す図。 データ間想起部3の入出力を説明する図。 典型的な一つの特徴量40と、一つの早期結果50の例を示す図。 データ間想起部3における次元圧縮を説明する図。 データ間想起部3における次元圧縮の他の形態。 特徴抽出用学習モデル群M2および想起用学習モデル群M4を収納するデータベースにおけるデータ格納手法を示す図。 学習モデル選択部5の信号処理フローを示す図。 図8のデータベースDBに収納された特徴抽出用の学習モデルm2a(左)とこれに対応する想起用学習モデルm4a(右)の具体的な構成事例を示す図。 図8のデータベースDBに収納された特徴抽出用の学習モデルm2b(左)とこれに対応する想起用学習モデルm4b(右)の具体的な構成事例を示す図。 特徴量抽出部1が特徴抽出用の学習モデルm2a、m2bを使って出力した特徴量40a、40bの例を示す図。 データ間想起部3が想起用の学習モデルm4aならびにm4bを参照して、特徴量40aならびに40bから出力した想起結果50aならびに50bを示す図。 学習モデル選択部の画面表示の例を示す図。 本発明の実施例2に係る画像認識装置の機能構成の一例を示す図。 本発明の実施例3に係る画像認識装置の機能構成の一例を示す図。 教師データ作成支援部208における表示画面例を示す図。 本発明の実施例4に係る画像認識装置の機能構成の一例を示す図。 図17の学習モデル選択部5Aの信号処理フローを示す図。 処理ステップS303における共通尺度の求め方の例を説明する図。 処理ステップS303における共通尺度の求め方の他例を説明する図。 実施例4の変形実施例1に係る画像認識装置7Aの機能構成例を示す図。 実施例4の変形実施例2に係る画像認識装置7Aの機能構成例を示す図。
 以下、本発明の具体的な実施例について、図面を参照しながら説明する。
 計算機装置を用いて実現される本発明の実施例1に係る画像認識装置の機能構成の一例を図1に示す。
 まず図1の機能構成の概要を述べると、計算機装置7は、CPUなどの演算機能により実現される処理である特徴量抽出部1とデータ間想起部3と学習モデル選択部5と、一般にはデータベースにより実現される特徴抽出用学習モデル群M2と想起用学習モデル群M4により構成されている。計算機装置7には、半導体パターンの検査における輪郭抽出の対象となる画像の運用時におけるサンプルである入力サンプル10がとりこまれる。
 特徴抽出用学習モデル群M2は、2つ以上の特徴抽出用の学習モデルm2をデータベース内に格納している。想起用学習モデル群M4は、2つ以上の想起用の学習モデルm4をデータベース内に格納している。特徴抽出用学習モデル群M2および想起用学習モデル群M4は、特徴抽出用および想起用の学習モデルm2、m4の振り当てた記号を共有し、同じ記号の特徴抽出用および想起用の学習モデルm2、m4は同一の学習サンプルから学習された対である。
 特徴量抽出部1は、特徴抽出用の学習モデルm2を参照して入力サンプル10中の画像から輪郭線(以下、特徴量抽出部1が抽出する輪郭線を特徴量と記す)を抽出する機能を備え、特徴抽出用学習モデル群M2中の特徴抽出用の学習モデルm2毎に、入力サンプル10中の画像から特徴量を抽出する。
 データ間想起部3は、想起用の学習モデルm4を参照して特徴量から特徴量を想起する機能を備え、特徴量抽出部1が出力した特徴量それぞれから特徴量を想起する。以降、データ間想起部3が想起した特徴量を想起結果と標記する。
 学習モデル選択部5は、特徴量抽出部1が出力した特徴量とデータ間想起部3が出力した特徴量の差分が最小となる学習モデルm2を選択し、学習モデルm2に割り振られた記号を出力する。以上述べた図1中の各機能は、任煮の計算機上の信号処理で実現できる。
 以下、図1中の各構成機能の詳細を述べる。入力サンプル10は、運用時において特徴量の抽出対象となる画像の少数のサンプルである。少数のサンプルは、運用時に撮影される画像をランダムに選択すること等で取得される。入力サンプル10は限られた種類の製造工程等から収集されたものであって、少数のサンプル中には、ひとつもしくは少数の種類の画像から構成される。
 図2は、特徴量抽出部1の入出力を説明する図である。図2を用いて特徴量抽出部1の単体の機能について説明する。特徴量抽出部1は、特徴抽出用学習モデル群M2中の一つの特徴抽出用の学習モデルm2に着目して、これを参照したとき、入力サンプル10中の一つの入力データ30から、セマンティックセグメンテーションを用いて一つの特徴量40をデータ間想起部3に出力する。
 図3は、典型的な一つの入力データ30と、一つの入力データ30に対してセマンティックセグメンテーションを用いて求めた一つの特徴量40の例を示している。まず入力データ30は、図3の左に例を示す様に輪郭線の抽出対象となる画像であり、画像中の各画素は例えば256×256ビットのデータである。
 ここでセマンティックセグメンテーションとは、画像中の各画素のカテゴリを判別する機械学習の一手法である。特徴抽出用の学習モデルm2は、セマンティックセグメンテーションにおいて参照する荷重係数や閾値等のパラメータである。
 特徴量抽出部1において、セマンティックセグメンテーションを用いて求めた一つの特徴量40は図3の右に例を示すように、入力データ30内の構成要素(画素)を輪郭線41、閉領域42(輪郭線41に囲まれた領域)、背景43の様なカテゴリに判別したもの(輪郭線の抽出結果)である。
 図3により特徴量抽出部1の入力(一つの入力データ30)と出力(一つの特徴量40)の関係を、一例をあげて説明したが、この抽出は、特徴抽出用の学習モデルm2を用いて実現されているので、次に特徴抽出用の学習モデルm2側について説明する。
 特徴抽出用の学習モデルm2は、入力データ30と教師データの組の、ひとつ以上から構成される学習サンプルから所定の学習演算により計算される。ここで教師データとは、図3の左に例示した特徴量40と同じフォーマットの画像であって、画像中の各画素のカテゴリは適切に割振られている。この学習演算では、学習サンプルに含まれる入力データ30から特徴量抽出部1が出力する特徴量と、学習サンプル中の教師データとの差分が最小になる様に最適化される。
 この学習演算によって、特徴量抽出部1は特徴抽出用の学習モデルm2を参照したときに、学習サンプルと類似した入力データ30が与えられたときには、入力データ30中の各画素のカテゴリが精度良く判別された特徴量40を出力することができる様になる。一方で、特徴量抽出部1は学習モデルm2を参照したときに、学習サンプルと乖離した入力データ30が与えられたときには、最適化の範囲外であるため、特徴量40中の画素には誤判別が含まれるようになる。誤判別は、特に入力データ30中で学習サンプルと画像の見かけが乖離した場所で現れやすくなる。
 図1の構成図において特徴量抽出部1は、入力サンプル10中の入力データ30(ひとつ以上)、および特徴抽出用学習モデル群M2に含まれる特徴抽出用の学習モデルm2(2つ以上)の組み合わせそれぞれに対して、特徴量40を抽出する。
 図4は、データ間想起部3の入出力を説明する図である。次に図4を用いてデータ間想起部3の単体の機能について説明する。データ間想起部3は、想起用学習モデル群M4中の一つの想起用の学習モデルm4を参照したとき、一つの特徴量40から一つの想起結果50を、次元圧縮を用いて学習モデル選択部5に出力する。
 図5は、典型的な一つの特徴量40と、一つの早期結果50の例を示している。まず図5右側の想起結果50は、図5の左に示す特徴量40(輪郭線41、閉領域42、背景43のカテゴリから構成)と構成要素を同じくしたカテゴリである、輪郭線51、閉領域52、背景53から構成されている。図1の構成図においてデータ間想起部4は、特徴量抽出部1が出力する特徴量40、および想起用学習モデル群M4に含まれる想起用の学習モデル14の組み合わせそれぞれに対して、想起結果50を出力する。
 図5の図示によれば、特徴量40と想起結果50の差異は必ずしも明確ではないが、想起結果50は特徴量40を次元圧縮した情報である。データ間想起部3における次元圧縮について図6を用いて説明する。次元圧縮とは、特徴量40および想起結果50を構成要素(画素)からなる高次元データ(画素数の次元のデータ)と捕らえたとき、特徴量40を特徴量40よりも次元が低い次元圧縮データ70に写像(圧縮)した後に、再び想起結果50の次元に再び写像(復元)する演算を指す。
 この次元圧縮は、特徴量40が次元圧縮データ70に応じた高次元空間中の所定範囲にあれば、特徴量40から次元圧縮データ70に圧縮される過程でほとんど情報が失われることがなく、想起結果50と特徴量40の差分は小さくなるという性質がある。次元圧縮には反対に、特徴量40が高次元空間中の所定範囲内から逸脱している場合、特徴量40から次元圧縮データ70に圧縮される過程で情報が失われてしまい、想起結果50と特徴量40の差分は大きくなるという性質もある。この次元圧縮は、主成分分析や、深層学習のオートエンコーダ等の一般的なアルゴリズムを適用することで実現できる。
 図7は、データ間想起部3における次元圧縮の他の形態を説明する図である。図7に示すように、次元圧縮では、特徴量40と次元圧縮データ70の間もしくは次元圧縮データ70と想起結果50の間にデータを写像する中間データ71および72を含んでも良い。この場合も、以上述べた性質は変わらない。
 図4によりデータ間想起部3の入力(一つの特徴量40)と出力(一つの早期結果50)の関係を、一例をあげて説明したが、この次元圧縮は、想起用の学習モデルm4を用いて実現されているので、次に想起用の学習モデルm4側について説明する。
 想起用の学習モデルm4は、次元圧縮において参照する荷重係数や閾値等のパラメータである。学習演算において、想起用の学習モデルm4は、一つ以上の特徴量40からなる学習サンプルから、学習サンプル内の特徴量40とその想起結果50の差分が小さくなるように求められる。この学習演算によって、学習サンプル内の特徴量40が低次元データ70に圧縮されても極力情報をほぼ失うことが無い様になる。(学習サンプル内の特徴量40の分布の複雑さが想起用の学習モデルm4の許容範囲にあれば、学習サンプル内の特徴量40が低次元データ70に圧縮されても情報はほぼ全く失われない。)
 この結果、学習サンプルと類似した特徴量40がデータ間想起部3に与えられたときには、低次元データ70に圧縮されても失われる情報が小さい(もしくほぼ全く無い)ため、想起結果50と特徴量40の差分は小さくなる。一方で、学習サンプルと乖離した特徴量40がデータ間想起部3に与えられたときには、低次元データ70に圧縮される過程で多くの情報が失われるため、想起結果50と特徴量40の差分は大きくなる。
 図8は、特徴抽出用学習モデル群M2および想起用学習モデル群M4を収納するデータベースDBにおけるデータ格納手法を示す図である。特徴抽出用学習モデル群M2および想起用学習モデル群M4において、格納された2つ以上の特徴抽出用の学習モデルm2および想起用の学習モデルm4は、図8に示すようにa、bの様な同じ記号20が割り振られて例えばデータベースDB中に管理される。ここで記号20はシリアル番号等、任意の記号を割り振って良い。同一の記号が割り振られた特徴抽出用の学習モデルm2および想起用の学習モデルm4は、同じ学習サンプルから計算された対である。
 図9のフローを用いて学習モデル選択部5の信号処理の概要について説明する。なおこのフローにおいて、処理ステップS1と処理ステップS6の組み合わせは、学習モデルごとにこれらの間の処理を繰り返し実行することを意味している。またこのフローにおいて、処理ステップS2と処理ステップS4の組み合わせは、特徴量ごとにこれらの間の処理を繰り返し実行することを意味している。
 図9のフローによれば、まず、特徴抽出用学習モデル群M2中の特徴抽出用の学習モデルm2のそれぞれで(処理ステップS1から処理ステップS6)、特徴量抽出部1が出力した特徴量40の各々について(処理ステップS2から処理ステップS4)、特徴量40と想起結果50の差分を求める(処理ステップS3)。そして、特徴量40の各々から求めた処理ステップS3の差分から、複数の特徴量40に渡る差分の統計量を計算する(処理ステップS5)。
 以上の繰り返し処理がすべての学習モデル、および特徴量40に対して実行されたのちに、処理ステップS7の処理に入る。処理ステップS7では、複数の特徴抽出用の学習モデルm2の中から、処理ステップS5で求めた差分の統計量の最小値を求める。そして処理ステップS8では、処理ステップS3の差分が処理ステップS7の最小値をとるときの特徴抽出用の学習モデルm2の記号20(図8参照)を選択する。処理ステップS8で選択した記号20からは、データベースDBを参照することで特徴抽出用の学習モデルm2ならびに想起用の学習モデルm4が一意に特定できる。
 以下、図9の処理ステップS3の詳細を、図10a、図10b、図11、図12の例を使って説明する。
 まず図10aは、図8のデータベースDBに収納された特徴抽出用の学習モデルm2a(左)とこれに対応する想起用学習モデルm4a(右)の具体的な構成事例を示している。また、図10bは、図8のデータベースDBに収納された特徴抽出用の学習モデルm2b(左)とこれに対応する想起用学習モデルm4b(右)の具体的な構成事例を示している。
 なお、処理ステップS3の処理を行うにあたり、図8のデータベースDBに格納された各種のデータは、予め、以下のように準備されているものとする。
 まず、図8のデータベースDBに格納された特徴抽出用の学習モデルm2aは図10aに示すように、入力データ30aと教師データ60a、ならびに入力データ30aに類似した入力データ30とその教師データを学習サンプルとして学習されている。また、特徴抽出用の学習モデルm2bは図10bに示すように、入力データ30bと教師データ60b、ならびに入力データ30bに類似した入力データ30と教師データを学習サンプルとして学習されている。
 さらに図10a、図10bに示すように教師データ60aならびに60bには、入力データ30aならびに30bの各画素から理想的に特徴量40が抽出された場合の輪郭線61aならびに61b、閉領域62aならびに62b、背景63aならびに63bのカテゴリが割り振られている。
 ここで図10aの教師データ60aでは中央部64aにおいて左右の閉領域62aは離れている一方、図10bの教師データ60bでは中央部64bにおいて左右の閉領域62aが連結しているという差異がある。また、想起用の学習モデルm4aは、教師データ60a、および入力データ30aに類似した画像とその教師データから事前に学習されている。想起用の学習モデルm4bは、教師データ60abおよび入力データ30bに類似した画像とその教師データから学習されている。
 以下、入力データ30aとほぼ同じ画像1枚が入力サンプル10として与えられた場合を例に挙げて説明する。図11は、特徴量抽出部1が特徴抽出用の学習モデルm2a、m2bを使って出力した特徴量40a、40bの例を示す図である。
 このとき図11の左に示す様に、特徴量抽出部1が特徴抽出用の学習モデルm2aを使って出力した特徴量40aでは、入力サンプル10と類似した図10aの入力データ30aが学習サンプル中に含まれるために、中央部44aを含むあらゆる場所において輪郭線41a、閉領域42a、背景43aのカテゴリが正確に判別されている。
 一方で、図11の右に示す様に、特徴抽出用の学習モデルm2bを使って出力された特徴量40bには、その学習サンプルの入力データ30b(図10b参照)およびそれに類似した入力データ30は入力サンプル10と類似しないため、特徴量40b中において輪郭線41b、閉領域42b、背景43bのカテゴリには誤判別が含まれる。また、この誤判別は、入力データ30aと入力データ30bの間で、画像の見た目の差異が大きな中央部44bに集中する。
 図12は、データ間想起部3が想起用の学習モデルm4aならびにm4bを参照して、特徴量40aならびに40bから出力した想起結果50aならびに50bを示している。
 図12左の想起結果50aは、想起用の学習モデルm4aを学習した際の学習サンプル中には、特徴量40aと類似した教師データ60aが含まれるため、中央部54aを含めた画像全体において特徴量40aと想起結果50aの間には差分がほとんど生じていない。一方で、図12右の想起結果50bは、想起用の学習モデルm4bを学習した際の学習サンプル中には、特徴量40bの様に中央部44bに誤判別を含む特徴量40が含まれないため、中央部54bにおいて特徴量40bとの間に大きな差分が現れている。
 図10a、図10b、図11、図12の例を踏まえたうえで、図9の処理ステップS3での処理における差分導出は、特徴量40および想起結果50を高次元ベクトルとしたときの、ベクトル間の距離で計算する。
 例えば、特徴量40および想起結果50における各画素の輪郭線41および51、閉領域42および52、背景43および53を順に第1、第2、第3要素とした要素ベクトルを、特徴量40および想起結果50の画素数だけベクトル結合した特徴量ベクトル(画素数がN個ならば3N次元)間のユークリッド距離で、ベクトル間の距離は計算できる。ただし、ユークリッド距離意外にも、2つの特徴量ベクトル間の距離が計測できる尺度ならば、任意の尺度でベクトル間の距離は計算できる。
 なお、次元圧縮では、輪郭線51、閉領域52、背景53のデータの形態は、輪郭線41、閉領域42、背景43のデータの形態と異なっていても、ベクトル間の距離が計算できる尺度があれば問題とならない。例えば、前者のデータの形態が連続値、後者のデータの形態が離散値としても、ユークリッド距離は計算できるので問題とならない。
 図9に戻り、処理ステップS5の具体的な処理内容について説明する。処理ステップS5では、入力サンプル10中の入力データ30それぞれについて求めた処理ステップS3の差分の統計量を計算する。
 差分の統計量は、複数の特徴量ベクトルの距離の相加平均で計算できる。ただし、相加平均に限らず調和平均や中央値など、複数の特徴量ベクトルから代表値を可能なものならば、任意の統計量を適用できる。差分の統計量は、例えば入力サンプル10中の入力データ30が主に入力データ30aに類するものから構成される場合、想起用の学習モデルm4aを参照して求めた差分の統計量は小さくなる一方で、想起用の学習モデルm4bを参照して求めた差分の統計量は大きくなる。
 図9の処理ステップS7では、処理ステップS5の差分の統計量の最小値を計算する。処理ステップS8では、処理ステップS5の差分の統計量が最小値をとるときの特徴抽出用の学習モデルm2に割り振られた記号20を出力する。例えば入力サンプル10中の入力データ30が入力データ30aに類似する場合、図8のデータベース中において想起用の学習モデルm4aに割り振られた記号aが出力される。なお、学習モデル選択部5は記号20以外にも、記号20が指定する特徴抽出用の学習モデルm2のファイルの実態やファイル名等、特徴抽出用の学習モデルm2が一意に定まる情報を出力するようにしても良い。
 図13は、学習モデル選択部5の画面表示の例を示す図である。学習モデル選択部5は、図13の画面80中の様な画面表示を用いて、実施例1の実行制御等を行う作業者が選択結果を目視確認できるようにしても良い。選択結果81には図8のデータベース中の記号20のうち、学習モデル選択部5に選択されたもの(図中の例a)を示している。画面80中には作業者が学習モデル選択の詳細を把握できるように、82のように選択した学習モデルの差分の数値(処理ステップS5の差分の統計量)や、83のように学習モデル選択の対象とした記号20の選択範囲を表示しても良い。
 本発明の実施例1では、以上述べた方法によって特徴量抽出部1が出力した特徴量40とデータ間想起部3が出力した想起結果50の差分を求め、差分が最小となる条件で記号20を選択することによって、特徴量抽出用学習モデル群の中から入力サンプル10に対して最適な特徴抽出用の学習モデルm2を選択することが可能になる。この際に差分を求めるために、特許文献1と異なり正解値は不要であり、特許文献2と異なり確信度は不要である。
 実施例1においては、学習モデルが適切に構成されていることを前提として画像認識装置を構成しているが、実施例2においては学習モデルが適切に構成されていないことも考慮した画像認識装置を提案している。
 本発明の実施例2に係る画像認識装置7の機能構成例を図14に示す。なお図14の画像認識装置7が図1の構成と相違している点は、学習モデル適否判定部106を追加し、図1の学習モデル選択部5を学習モデル再選択部107のように構成した点である。
 図14において、まずm2およびm4は、実施例1によって選択された特徴抽出用の学習モデルおよび想起用の学習モデルである。ここでは、この学習モデルに割り振られた記号をxとしている。
 入力サンプル10は、輪郭抽出の長期運用時において所定のタイミングで抽出された入力データ30の少数のサンプルである。長期運用時とは、実施例1の方法で学習モデルを選択した後に、所定以上の期間、輪郭抽出を運用し続けたタイミングを指す。
 特徴量抽出部1は、特徴抽出用の学習モデルm2を参照して入力サンプル10中の入力データ30から特徴量40を抽出する。データ間想起部103は、想起用の学習モデルm4を参照して、特徴量抽出部1が出力した特徴量40から想起結果50を出力する。
 実施例2において追加された学習モデル適否判定部106は、特徴量抽出部1ならびにデータ間想起部3が出力した特徴量40ならびに想起結果50から、図9の処理ステップS5と同様の手順で差分の統計量を計算する。そして、この差分の統計量が事前に定められた所定閾値よりも大きくなると、入力サンプル10をサンプリングした長期運用時における入力データ30に対し、記号xの学習モデルが非適合と判定する。この判定の結果は、学習モデル再選択部107(図1の学習モデル選択部5に相当)が出力する画面80の表示等で出力する。あるいは、ファイルに出力するか、外部の計算機にネットワークを通じて通知しても良い。
 学習モデル適否判定部106の後段には、さらに学習モデル再選択部107を設けても良い。学習モデル再選択部107は、学習モデル適否判定部106が非適合と判定したときに、入力サンプル10を入力として(旧入力サンプル10を新入力サンプル10に置き換えて)、実施例1の手順で特徴量抽出用の学習モデル12を選択する。
 本発明の実施例1では、以上述べた方法によって、長期運用の過程で入力データ30の性質が変化し、実施例1の方法で選択した輪郭抽出用の学習モデル12が非適合となったことが検出できる。またさらに、入力サンプル110に最適な輪郭抽出用の学習モデル12の再選択も可能となる。
 なお図14に示した実施例2の構成は、図1に示す実施例1の構成において、データ間想起部3と学習モデル選択部5の間に学習モデル適否判定部106を設置したものということができ、画像認識装置7における作動当初には学習モデル適否判定部106を経由せず、その後の運転経験を踏まえて学習モデル適否判定部106が機能し、学習モデル選択部5において再選択を行うものということができる。
 実施例3においては、実施例1、実施例2に記載の画像認識装置7を実運用する前提として、画像認識装置7の設計、準備段階において必要な教師データを簡便に入手し、学習モデルを学習することについて説明する。従って、実施例3の学習結果としての学習モデルが実施例1、実施例2に反映されていくものである。
 本発明の実施例3に係る画像認識装置の機能構成の一例を図15に示す。なお図15の画像認識装置7が図1の構成と相違している点は、教師データ作成支援部208と学習モデル学習部209を追加した点である。
 なおここで図15には、図1における学習モデル選択部5あるいは図14における学習モデル適否判定部106が記述されていないが、これらの機能は記述がないだけで、実運用に際しては実施例1、実施例2のように構成されるものである。
 m2およびm4は、実施例1によって選択された特徴抽出用の学習モデルおよび想起用の学習モデルである。入力サンプル10は、任意の入力データ30の集合であって、例えば実施例1、2で述べた入力サンプル10でもよい。特徴量抽出部1は、特徴抽出用の学習モデルm2を参照して入力サンプル10中の入力データ30から特徴量40を抽出する。データ間想起部3は、想起用の学習モデルm4を参照して、特徴量抽出部201が出力した特徴量40から想起結果50を出力する。
 実施例3で追加された教師データ作成支援部208は、特徴量抽出部1およびデータ間想起部3が出力した特徴量40および想起結果50の差分を、図9の処理ステップS3の手順で求め、この差分が多い場所に入力箇所を絞った教師付けのためのユーザインタフェースを含んで構成したものである。
 図16中の画面90は、教師データ作成支援部208のユーザインタフェースの一例であり、入力画面91、入力選択92、入力ペン93から構成される。入力画面91では、入力データ30を下絵にして、輪郭線61、閉領域62、背景63のカテゴリを割り振る作業を作業者が行うことを可能にする。入力画面91のラベルの割り振りは、作業者が入力選択92のラジオボタンの中から輪郭線61、閉領域62、背景63のカテゴリを選択し、入力ペン93を操作することで行われる。このように、学習サンプル作成支援部208におけるユーザインタフェースにおいて、入力データを下絵にして特徴量のカテゴリを描画し、さらに特徴量のカテゴリを入力できる機能を有するのがよい。
 教師データ作成支援部208は入力画面91において、処理ステップS3の差分が少ない場所と多い場所を判別する。この少ない場所と多い場所は、入力画面91中の入力データ30をブロック等に少領域分割したときの処理ステップS3の差分の密度が閾値よりも高ければ差分が多い、低ければ少ないとする。そして、処理ステップS3の差分が少ない場所のラベルを特徴量40と同じになるようにして表示する。すなわち、特徴量40中の輪郭線41、閉領域42、背景43を順に、入力画面91中の輪郭線61、閉領域62、背景63に割り当てる。そして、処理ステップS3の差分が多い領域に絞って、作業者に入力画面91への入力を促す。
 例えば、入力画面91の下絵が入力データ30a、特徴抽出用の学習モデルm2および想起用の学習モデルm4がそれぞれm2bおよびm4bのときは、前記処理ステップS3の差分がある場所は、(入力データ30aから抽出された特徴量40bと、特徴量40bから抽出された想起結果50bとの間で差分が多い)中央部44bとなる。
 ここで教師データ作成支援部208は、(特徴抽出用の学習モデルm2および想起用の学習モデルm4を、複数対の特徴抽出用の学習モデルm2および想起用の学習モデルm4から構成されるようにして、)複数の特徴量40および想起結果50から、画面91中のカテゴリ(輪郭線61、閉領域62、背景63)を生成することで、前記画面91中のカテゴリの精度改善を図っても良い。例えば、複数の特徴量40および想起結果50の差分の最頻値等の統計量から前記処理ステップS3の差分がある場所を求め、画面91中のカテゴリを生成してよい。あるいは、画面90上に図示しないボタンの操作により、複数の特徴量40および想起結果50の中から、画面91中のカテゴリの生成に使うのに適切なものを作業者が切り替えられるようにしても良い。このように、学習サンプル作成支援部208が複数の特徴量と想起結果を用いて入力箇所を求めるか、あるいは入力箇所を切り替えることの少なくとも一方を行うこととするのがよい。
 また実施例3により追加された学習モデル学習部209は、入力サンプル10中の入力データ30および画面90の入力結果を、教師データを組とした学習サンプルを用いて、特徴抽出用の学習モデルm2を学習する。学習モデル学習部209の学習では、学習モデルを参照した際の特徴量40の推論結果が優れる様に、前記学習サンプル以外に任意の学習サンプルを加えても良い。
 学習モデル学習部209における学習では、実施例2で述べた長期運用時における学習モデルの再選択に備えて、特徴抽出用の学習モデルm2に加えて想起用の学習モデルm4を学習し、新たな記号20を割り振って図8のデータベースDBに追加しても良い。
 このようにして、学習モデル学習部がさらに前記想起用の学習モデルを学習し、学習モデル学習部が学習した特徴量の学習モデルを特徴抽出用学習モデル群に、学習モデル学習部が学習した想起用の学習モデルを特徴抽出用学習モデル群に追加することになる。
 本発明の実施例3では、以上述べた方法によって、入力サンプル10をサンプリングした母集団に対して最適な特徴抽出用の学習モデルm2を、教師データ作成支援部208によって作業者が入力する箇所を絞った教師データを用いて学習できる。この作業者が入力する箇所を絞ることにより、入力サンプル10中の入力データ30の全画素に教師データを割り振るよりも、教師データの作成の工数を低減できる。
 実施例4においては、最適な学習モデルを簡便に入手することについて説明する。
 本発明の実施例4に係る画像認識装置7Aの機能構成の一例を図17に示す。図17の構成は、図1の構成においてデータ間想起部3の構成を除外したものであるが、特徴抽出用学習モデル群M2、特徴量抽出部1、学習モデル選択部5については、一部その取り扱いデータ、内部構成あるいは処理内容などが相違していることから、これらを夫々図17においては特徴抽出用学習モデル群M2A、特徴量抽出部1A、学習モデル選択部5Aとして表記している。
 まず特徴抽出用学習モデル群M2Aは、特徴抽出用の学習モデルm2の中でも特に、特徴量40を抽出する際にカテゴリ毎のスコアを出力することが可能な種類の特徴抽出用の学習モデルm2Aの集合である。
 特徴量抽出部1Aは、特徴抽出用学習モデル群M2A中の特徴抽出用の学習モデルm2A各々を参照して、入力サンプル10中の入力データ30それぞれから特徴量40ならびに前記スコアを出力する。
 学習モデル選択部5Aは、前記スコアから複数種類の特徴抽出用の学習モデルm2A間でカテゴリの判別結果の信頼度を比較可能な共通尺度を計算し、この共通尺度が最小となることを条件として最適な特徴抽出用の学習モデルm2Aを選択する。
 図18は、図17の学習モデル選択部5Aの信号処理フローを示す図である。なおこのフローにおいて、処理ステップS301と処理ステップS306の組み合わせは、学習モデルごとにこれらの間の処理を繰り返し実行することを意味している。またこのフローにおいて、処理ステップS302と処理ステップS304の組み合わせは、入力データ30ごとにこれらの間の処理を繰り返し実行することを意味している。
 図18のフローによれば、まず、特徴抽出用学習モデル群M2A中の特徴抽出用の学習モデルm2Aそれぞれで(処理ステップS301から処理ステップS306)、入力サンプル10中の入力データ30各々について(処理ステップS302から処理ステップS304)、処理ステップS303においてスコアから共通尺度を計算する。
 そして、入力データ30各々から求めた処理ステップS303の共通尺度から、処理ステップS305において各入力データ30中の各画素における共通尺度の平均値や中央値等から共通尺度の統計量を計算する。
 以上の繰り返し処理がすべての学習モデル、および入力データ30に対して実行されたのちに、処理ステップS307の処理に入る。処理ステップS307では、処理ステップS305で求めた共通尺度の統計量の最大値を求める。そして処理ステップS308では、共通尺度が最大値をとるときの特徴抽出用の学習モデルm2Aの記号20を選択する。
 図19に、図18の処理ステップS303の共通尺度の例を示す。グラフ311およびグラフ312は、種類の異なる特徴量抽出用の学習モデルm2Aから求められたカテゴリ毎のスコアを示す。前記種類とは、特徴量抽出用の学習モデルm2Aにおける機械学習の数理モデルや深層学習のネットワーク構造等が異なることを指す。グラフ311およびグラフ312中のカテゴリとは、特徴量40を構成する輪郭線41、閉領域42、背景43に割り振られたラベルを指す。グラフ311およびグラフ312中の2つの前記スコアを見ると、グラフ312中のほうがグラフ311よりも値が大きいが、前記種類が異なるために尺度が異なるため大小を比較できない。
 ここで、一般に特徴量抽出用の学習モデルm2Aは、前記スコアが最大のカテゴリに判別する。この際に、前記スコアの最大値と他の値に差があるほど、カテゴリの判別は信頼できる。例えば、グラフ312の前記スコアはカテゴリ3が最も高いものの、カテゴリ1とカテゴリ2の前記スコアの差は小さい。このため、グラフ312からカテゴリ3と判別することは、僅かな外乱で前記スコアの変動があるとカテゴリの判別結果は変わってしまう信頼度が低いものと考えられる。反対に、グラフ312の前記スコアは、もっとも値が大きなカテゴリ3と、他のカテゴリ1、2の間で大きな差がある。このため、グラフ311からカテゴリ3と判別することは、多少の外乱があってもカテゴリの判別結果は変わらない信頼度が高いものと考えられる。
 そこで処理ステップS303では、前記スコアのばらつきを共通尺度とする。前記ばらつきとは、前記スコアの標準偏差やエントロピー等のばらつきの程度を表す統計量であり、大きな値をとるほどグラフ311のようにカテゴリ間の前記スコアに差があることを示す。あるいは、処理ステップS303では、前記スコアの突出度を共通尺度としても良い。前記突出度とは、前記スコアの最大値が他の前記スコアと比べてどの程度突出して大きいかを示す指標であり、例えばグラフ311における前記スコアの最大値と前記スコアの平均値の差や、前記スコアの最大値と前記スコアの2番目に大きな値の差で計算できる。
 図20を使って、処理ステップS303における共通尺度の他の例を述べる。グラフ321における確信度1は、グラフ311中における前記スコアの最大値である。このように前記スコアの最大値を確信度とすることは、機械学習を用いたカテゴリ判別のアルゴリズムにおいて一般的である。グラフ322における確信度2は、グラフ321中における前記スコアの最大値である。グラフ321およびグラフ322における正解率とは、確信度1および確信度2が所定値をとったときのカテゴリの判別結果を母集団としたときに、どの確率で正解であったかを示す正解率の期待値となる指標である。なお前記母集団には、特徴抽出用の学習モデル12を学習したときの学習サンプルを適用できるが、これに限らず任意の入力データ30とその教師データとの組を適用できる。
 図18の処理ステップS303では、前記正解率を共通尺度とすることができる。例えば、グラフ311およびグラフ312から計算される確信度がk1およびk2のとき、グラフ321中およびグラフ322中の正解率はy1およびy2であり、y1のほうがy2よりも高いために、グラフ311から求めたカテゴリの判別結果のほうが正解率が高いことから、信頼度が高いと考えられる。よって、処理ステップS303では、確信度1や確信度2の様な確信度を正解率に換算することで共通指標とできる。
 図18の処理ステップS303では、複数の種類の特徴抽出用の学習モデルm2Aにおいて、前記ばらつきや前記突出度の大きさが大きく異なる場合には、図20の説明で述べたのと同様の手順で正解率に換算してから、共通尺度としても良い。あるいは、複数の種類の特徴抽出用の学習モデルm2A間で大きさのばらつきを抑えるために、前記母集団における前記ばらつきや前記突出度の平均値等の統計量をもとめ、この統計量で除算して正規化しても良い。
 本発明の実施例4では、以上述べた方法によって、特徴抽出用の学習モデルm2Aにおいて特徴量40を抽出する際に前記スコアを出力することが可能な種類のものに限定すれば、複数の特徴抽出用の学習モデルm2Aの中から入力サンプル10に最適なものを選択することが可能になる。また、特許文献2と異なり、特徴抽出用学習モデル群M2A中の特徴抽出用の学習モデルm2Aの確信度がそれぞれ異なる指標であっても、特徴抽出用の学習モデルm2Aを選択することが可能になる。
 図21は、実施例4の変形実施例1に係る画像認識装置7Aの機能構成例を示している。図21の画像認識装置7Aの上部分は、図17の構成を採用し、下半分は図14の一部攻勢を組み合わせたものである。
 本発明の実施例4の変形実施例1では、図21に示す様に、実施例2と同様に長期運用時において、入力サンプル110を構成する入力データ30から処理ステップS305と同様の手順で求めた共通尺度の統計量を用いて、入力サンプル10に対して学習モデル選択部5Aが選択した特徴抽出用の学習モデルm2の適否を判定する学習モデル適否判定部306を設けても良い。学習モデル適否判定部306は前記処理ステップS305と同様の手順で求めた共通尺度の統計量が事前に定めた閾値よりも小さければ、信頼度が低く適合しないと判定する。さらに学習モデル適否判定部306が適合しないと判断した場合に、入力サンプル10に対して適切な特徴抽出用の学習モデルm2を特徴抽出用学習モデル群M2の中から選択する学習モデル再選択部307(特徴量抽出部301と学習モデル選択部306の機能を内包する)を設けても良い。
 図22は、実施例4の変形実施例2に係る画像認識装置7Aの機能構成例を示している。図22の画像認識装置7Aの上部分は、図17の構成を採用し、下半分は図15の一部攻勢を組み合わせたものである。
 本発明の実施例4の変形実施例2に係る画像認識装置7Aでは、入力サンプル10中から図18の処理ステップS305の共通尺度を求め、教師データ作成支援部208における教師データの入力箇所を前記処理ステップS305の共通尺度の小さな箇所(特徴量40のカテゴリ判別の信頼度が低い箇所)に絞ったユーザインタフェースを備えた教師データ作成支援部308、および教師データ作成支援部308で作成した教師データを用いて特徴量抽出用の学習モデルm2を学習する学習モデル学習部309を備えても良い。
 これにより実施例3と同様に、入力サンプル210をサンプリングした母集団に対して最適な特徴抽出用の学習モデルm2を、作業者が入力する箇所を絞った教師データを用いて学習できるようになる。また学習モデル学習部309は学習した特徴量抽出用の学習モデルm2を、学習モデル再選択部307で選択できるように特徴抽出用学習モデル群M2に加えても良い。
 以上述べた本発明の実施例1から実施例4においては、その本質を逸脱しない範囲において構成要素を以下のように変更することが可能である。
 特徴量40を構成するカテゴリは、輪郭線41、閉領域42、背景43以外に限らない。例えば輪郭線のコーナー点等のカテゴリを加えても良い。また輪郭線41、閉領域42、背景43の中からカテゴリ省いても良い。これに応じて、想起結果50や60a等の教師データのカテゴリの構成要素も変化する。
 特徴量40は以上述べた輪郭線以外にも、入力データ30(すなわち画像)から抽出できる任意の特徴量にすることができる。例えば、入力データ30の設計図や、入力データ30中の欠陥を特徴量40としても良い。これに応じて、想起結果50や60a等の教師データを構成するカテゴリも変化する。前記任意の特徴量は、想起結果50が取得可能なものであれば、各画素のカテゴリに限らない。例えば、前記任意の特徴量は、各画素の明度とすることができる。
 特徴量抽出部1は、以上述べた機械学習を用いて特徴量40を抽出する手法以外にも、入力サンプル10に応じて適正なパラメータが異なる画像処理であってよい。この場合、特徴抽出用の学習モデルm2は、前記パラメータとなる。前記画像処理は例えば、入力データ30中の各画素において明度勾配と明度を求め、前記パラメータ中の所定の閾値と比較して、入力データ30中の各画素を、輪郭線41と背景43にカテゴリ判別するものでも良い。あるいは、特徴量抽出部1は、機械学習と前記画像処理を混在させてもよい。この場合、特徴量抽出部1は、特徴抽出用学習モデル群M2中の特徴抽出用の学習モデルm2に応じて、機械学習と前記画像処理を切り替えても良い。
 入力データ30は以上述べた画像以外にも、実施例1から実施例3においてはデータ間想起部3が次元圧縮を伴う想起結果を出力可能な任意のデータにすることができる。これに応じて、想起結果50や60a等の教師データを構成するカテゴリも変化する。例えば、入力データ30を発話音声とし、特徴量40をアルファベットとしてもよい。
 本発明の学習モデル選択は輪郭線抽出用の学習モデルの選択以外にも、特徴量から次元圧縮を伴う想起が可能な特徴量を扱う任意の機械学習を用いたシステム全般に適用できる。
1:特徴量抽出部、2:特徴抽出用学習モデル群、3:データ間想起部、4:想起用学習モデル群、5:学習モデル選択部、10:入力サンプル

Claims (26)

  1.  複数の特徴抽出用の学習モデルを格納する特徴抽出用学習モデル群と、前記特徴抽出用の学習モデルと対になった想起用の学習モデルを格納する想起用学習モデル群と、前記特徴抽出用の学習モデルを参照して入力データから特徴量を抽出する特徴量抽出部と、前記想起用の学習モデルを参照して前記特徴量の次元圧縮を伴う想起結果を出力するデータ間想起部と、前記特徴量と前記想起結果の差分が最小になることを条件に特徴抽出用学習モデル群の中から前記特徴抽出用の学習モデルを選択する学習モデル選択部を備えることを特徴とする画像認識装置。
  2.  請求項1に記載の画像認識装置であって、
     前記特徴量と前記想起結果の差分から前記入力データのサンプルをサンプリングした母集団に対して選択された前記特徴抽出用の学習モデルが適合するかを判定する学習モデル適否判定部を備えることを特徴とする画像認識装置。
  3.  請求項2に記載の画像認識装置であって、
     前記学習モデル適否判定部が適合しないと判定した場合に、前記入力データのサンプルを用いて前記特徴抽出用の学習モデルを再選択することを特徴とする画像認識装置。
  4.  請求項1に記載の画像認識装置であって、
     前記入力データのサンプルにおいて前記特徴量と前記想起結果の差分が多いところに入力箇所を絞った教師付けのユーザインタフェースを設ける教師データ作成支援部と、教師データ作成支援部で作成した教師データを用いて前記特徴抽出用の学習モデルを学習する学習モデル学習部を備えることを特徴とする画像認識装置。
  5.  請求項4に記載の画像認識装置であって、
     前記教師データ作成支援部における前記ユーザインタフェースにおいて、前記入力データを下絵にして前記特徴量のカテゴリを描画し、さらに前記特徴量のカテゴリを入力できる機能を有すことを特徴とする画像認識装置。
  6.  請求項4に記載の画像認識装置であって、
     前記教師データ作成支援部が複数の前記特徴量と前記想起結果を用いて前記入力箇所を求めるか、あるいは前記入力箇所を切り替えることの少なくとも一方を行うことを特徴とする画像認識装置。
  7.  請求項4に記載の画像認識装置であって、
     前記学習モデル学習部がさらに前記想起用の学習モデルを学習し、前記学習モデル学習部が学習した前記特徴量の学習モデルを前記特徴抽出用学習モデル群に、前記学習モデル学習部が学習した前記想起用の学習モデルを特徴抽出用学習モデル群に追加することを特徴とする画像認識装置。
  8.  請求項1から請求項7のいずれか1項に記載の画像認識装置であって、
     前記特徴量が前記入力データ中の要素のカテゴリであることを特徴とする画像認識装置。
  9.  請求項1から請求項8のいずれか1項に記載の画像認識装置であって、
     前記入力データが画像であって、前記特徴量が輪郭線もしくは設計図であることを特徴とする画像認識装置。
  10.  請求項1から請求項9のいずれか1項に記載の画像認識装置であって、
     前記次元圧縮が主成分分析あるいはオートエンコーダを用いて行われることを特徴とする画像認識装置。
  11.  請求項1から請求項10のいずれか1項に記載の画像認識装置であって、
     前記特徴量抽出部の中に機械学習以外の手法を用いた特徴量抽出部がひとつ以上含まれることを特徴とする画像認識装置。
  12.  請求項1から請求項11のいずれか1項に記載の画像認識装置であって、
     前記学習モデル選択部が前記特徴抽出用の学習モデルの選択結果、前記差分、前記特徴抽出用の学習モデルの選択の範囲のうちひとつ以上を画面表示することを特徴とする画像認識装置。
  13.  複数の特徴抽出用の学習モデルを格納する特徴抽出用学習モデル群と、前記特徴抽出用の学習モデルを参照して入力データから特徴量を抽出する特徴量抽出部と、前記特徴量抽出部が前記特徴量を抽出するときのスコアから複数種類の学習モデル間で比較が可能な共通尺度を計算し、特徴抽出用学習モデル群の中から前記共通尺度を用いて前記特徴抽出用の学習モデルを選択する学習モデル選択部を備えることを特徴とする画像認識装置。
  14.  請求項13に記載の画像認識装置であって、
     前記共通尺度から選択された前記特徴抽出用の学習モデルが適合するかを判定する学習モデル適否判定部を備えることを特徴とする画像認識装置。
  15.  請求項14に記載の画像認識装置であって、
     前記学習モデル適否判定部が適合しないと判定した場合に、前記入力データのサンプルを用いて前記特徴抽出用の学習モデルを再選択する学習モデル再選択部を備えることを特徴とする画像認識装置。
  16.  請求項13に記載の画像認識装置であって、
     入力データのサンプルにおいて前記共通尺度が小さいところに入力箇所を絞った教師付けのユーザインタフェースを設ける教師データ作成支援部と、教師データ作成支援部で作成した教師データを用いて前記特徴抽出用の学習モデルを学習する学習モデル学習部を備えることを特徴とする画像認識装置。
  17.  請求項16に記載の画像認識装置であって、
     前記教師データ作成支援部における前記ユーザインタフェースは、前記入力データを下絵にして前記特徴量のカテゴリを描画し、前記特徴量のカテゴリを入力できる機能を有することを特徴とする画像認識装置。
  18.  請求項16に記載の画像認識装置であって、
     前記学習モデル学習部が学習した前記特徴量の学習モデルを特徴抽出用学習モデル群に追加することを特徴とする画像認識装置。
  19.  請求項13から請求項18のいずれか1項に記載の画像認識装置であって、
     前記特徴量が前記入力データ中の要素のカテゴリであることを特徴とする画像認識装置。
  20.  請求項13から請求項19のいずれか1項に記載の画像認識装置であって、
     前記入力データが画像であって、前記特徴量が輪郭線もしくは設計図であることを特徴とする画像認識装置。
  21.  請求項13から請求項20のいずれか1項に記載の画像認識装置であって、
     前記共通尺度が前記スコアのばらつきの程度を表す統計量あるいは前記スコアの突出の程度を表す統計量であることを特徴とする画像認識装置。
  22.  請求項13から請求項21のいずれか1項に記載の画像認識装置であって、
     記共通尺度が前記スコアから換算した正解率であることを特徴とする画像認識装置。
  23.  請求項13から請求項22のいずれか1項に記載の画像認識装置であって、
     前記特徴量抽出部の中に機械学習以外の手法を用いた特徴量抽出部がひとつ以上含まれることを特徴とする画像認識装置。
  24.  請求項13から請求項23のいずれか1項に記載の画像認識装置であって、
     前記学習モデル選択部が前記特徴抽出用の学習モデルの選択結果、差分、前記特徴抽出用の学習モデルの選択の範囲のうちひとつ以上を画面表示することを特徴とする画像認識装置。
  25.  複数の特徴抽出用の学習モデルと、前記特徴抽出用の学習モデルと対になった複数の想起用の学習モデルとを備え、前記特徴抽出用の学習モデルを参照して入力データから特徴量を抽出し、前記想起用の学習モデルを参照して前記特徴量の次元圧縮を伴う想起結果を得、前記特徴量と前記想起結果の差分が最小になることを条件に特徴抽出用学習モデル群の中から前記特徴抽出用の学習モデルを選択することを特徴とする画像認識方法。
  26.  複数の特徴抽出用の学習モデルを備え、前記特徴抽出用の学習モデルを参照して入力データから特徴量を抽出し、前記特徴量を抽出するときのスコアから複数種類の学習モデル間で比較が可能な共通尺度を計算し、複数の特徴抽出用の学習モデルの中から前記共通尺度を用いて前記特徴抽出用の学習モデルを選択することを特徴とする画像認識方法。
PCT/JP2018/047224 2018-12-21 2018-12-21 画像認識装置及び方法 WO2020129235A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
PCT/JP2018/047224 WO2020129235A1 (ja) 2018-12-21 2018-12-21 画像認識装置及び方法
US17/286,604 US12014530B2 (en) 2018-12-21 2018-12-21 Image recognition device and method
KR1020217015935A KR102654003B1 (ko) 2018-12-21 2018-12-21 화상 인식 장치 및 방법
TW108139465A TWI731459B (zh) 2018-12-21 2019-10-31 圖像辨識裝置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/047224 WO2020129235A1 (ja) 2018-12-21 2018-12-21 画像認識装置及び方法

Publications (1)

Publication Number Publication Date
WO2020129235A1 true WO2020129235A1 (ja) 2020-06-25

Family

ID=71102706

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/047224 WO2020129235A1 (ja) 2018-12-21 2018-12-21 画像認識装置及び方法

Country Status (4)

Country Link
US (1) US12014530B2 (ja)
KR (1) KR102654003B1 (ja)
TW (1) TWI731459B (ja)
WO (1) WO2020129235A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020119048A (ja) * 2019-01-18 2020-08-06 富士通株式会社 Dnn選択プログラム、dnn選択方法および情報処理装置

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020156738A1 (en) * 2019-01-29 2020-08-06 Asml Netherlands B.V. Methods and apparatus for controlling a lithographic process
TWI732370B (zh) * 2019-12-04 2021-07-01 財團法人工業技術研究院 神經網路模型的訓練裝置和訓練方法
CN116342923A (zh) * 2022-12-16 2023-06-27 环旭电子股份有限公司 影像识别深度学习模型的训练方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012068965A (ja) * 2010-09-24 2012-04-05 Denso Corp 画像認識装置
JP2015001888A (ja) * 2013-06-17 2015-01-05 富士ゼロックス株式会社 情報処理プログラム及び情報処理装置
JP2017215828A (ja) * 2016-06-01 2017-12-07 富士通株式会社 学習モデル差分提供プログラム、学習モデル差分提供方法、および学習モデル差分提供システム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3743247B2 (ja) 2000-02-22 2006-02-08 富士電機システムズ株式会社 ニューラルネットワークによる予測装置
JP4478290B2 (ja) 2000-05-29 2010-06-09 マスプロ電工株式会社 波形補正回路
JP6054005B1 (ja) * 2015-06-03 2016-12-27 三菱電機株式会社 推論装置及び推論方法
JP6639123B2 (ja) * 2015-07-06 2020-02-05 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
US10217236B2 (en) * 2016-04-08 2019-02-26 Orbital Insight, Inc. Remote determination of containers in geographical region
JP6824125B2 (ja) * 2017-07-28 2021-02-03 株式会社日立製作所 医用撮像装置及び画像処理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012068965A (ja) * 2010-09-24 2012-04-05 Denso Corp 画像認識装置
JP2015001888A (ja) * 2013-06-17 2015-01-05 富士ゼロックス株式会社 情報処理プログラム及び情報処理装置
JP2017215828A (ja) * 2016-06-01 2017-12-07 富士通株式会社 学習モデル差分提供プログラム、学習モデル差分提供方法、および学習モデル差分提供システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020119048A (ja) * 2019-01-18 2020-08-06 富士通株式会社 Dnn選択プログラム、dnn選択方法および情報処理装置
JP7151501B2 (ja) 2019-01-18 2022-10-12 富士通株式会社 Dnn選択プログラム、dnn選択方法および情報処理装置

Also Published As

Publication number Publication date
TWI731459B (zh) 2021-06-21
US20210374403A1 (en) 2021-12-02
US12014530B2 (en) 2024-06-18
TW202029013A (zh) 2020-08-01
KR102654003B1 (ko) 2024-04-04
KR20210082222A (ko) 2021-07-02

Similar Documents

Publication Publication Date Title
WO2020129235A1 (ja) 画像認識装置及び方法
US6021220A (en) System and method for pattern recognition
CN111402979B (zh) 病情描述与诊断一致性检测方法及装置
CA3066029A1 (en) Image feature acquisition
EP4060607A1 (en) Information processing device, information processing method, and program
JP2020501238A (ja) 顔検出トレーニング方法、装置及び電子機器
KR101957456B1 (ko) 뇌 질환 검출 및 예측 시스템 및 방법
US20050036712A1 (en) Image retrieving apparatus and image retrieving program
GB2259599A (en) Automatic clustering method
WO2019026134A1 (ja) 情報処理装置および情報処理方法
JP2017102906A (ja) 情報処理装置、情報処理方法及びプログラム
CN116453438A (zh) 一种显示屏参数检测方法、装置、设备及存储介质
JP2019067299A (ja) ラベル推定装置及びラベル推定プログラム
CN111414930A (zh) 深度学习模型训练方法及装置、电子设备及存储介质
CN111767273B (zh) 基于改进som算法的数据智能检测方法及装置
CN115362445A (zh) 数据分类装置、数据分类方法以及数据分类程序
Liang et al. Performance evaluation of document structure extraction algorithms
JP2004192555A (ja) 情報管理方法、情報管理装置及び情報管理プログラム
CN116467466A (zh) 基于知识图谱的编码推荐方法、装置、设备及介质
Wang et al. A study on software metric selection for software fault prediction
CN114022698A (zh) 一种基于二叉树结构的多标签行为识别方法及装置
CN114330090A (zh) 一种缺陷检测方法、装置、计算机设备和存储介质
CN113240021B (zh) 一种筛选目标样本的方法、装置、设备及存储介质
WO2020107836A1 (zh) 基于 word2vec 的用户缺失画像的补充方法和相关设备
CN112153370B (zh) 基于群敏感对比回归的视频动作质量评价方法及系统

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18943918

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 20217015935

Country of ref document: KR

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18943918

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP