WO2022230338A1 - 欠陥を検出するシステム、及びコンピュータ可読媒体 - Google Patents

欠陥を検出するシステム、及びコンピュータ可読媒体 Download PDF

Info

Publication number
WO2022230338A1
WO2022230338A1 PCT/JP2022/007813 JP2022007813W WO2022230338A1 WO 2022230338 A1 WO2022230338 A1 WO 2022230338A1 JP 2022007813 W JP2022007813 W JP 2022007813W WO 2022230338 A1 WO2022230338 A1 WO 2022230338A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
images
autoencoder
sub
input
Prior art date
Application number
PCT/JP2022/007813
Other languages
English (en)
French (fr)
Inventor
宏 福田
Original Assignee
株式会社日立ハイテク
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立ハイテク filed Critical 株式会社日立ハイテク
Priority to CN202280027072.8A priority Critical patent/CN117203747A/zh
Priority to KR1020237033988A priority patent/KR20230153453A/ko
Priority to US18/286,507 priority patent/US20240193760A1/en
Publication of WO2022230338A1 publication Critical patent/WO2022230338A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • G06T7/0008Industrial image inspection checking presence/absence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/40Image enhancement or restoration using histogram techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • G06T7/001Industrial image inspection using an image reference approach
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01LSEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
    • H01L22/00Testing or measuring during manufacture or treatment; Reliability measurements, i.e. testing of parts without further processing to modify the parts as such; Structural arrangements therefor
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01LSEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
    • H01L22/00Testing or measuring during manufacture or treatment; Reliability measurements, i.e. testing of parts without further processing to modify the parts as such; Structural arrangements therefor
    • H01L22/10Measuring as part of the manufacturing process
    • H01L22/12Measuring as part of the manufacturing process for structural parameters, e.g. thickness, line width, refractive index, temperature, warp, bond strength, defects, optical inspection, electrical measurement of structural dimensions, metallurgic measurement of diffusions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10056Microscopic image
    • G06T2207/10061Microscopic image from scanning electron microscope
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30108Industrial image inspection
    • G06T2207/30148Semiconductor; IC; Wafer

Definitions

  • the present disclosure relates to a method, system, and computer-readable medium for detecting defects, and in particular, a method, system, and computer-readable medium for detecting with high accuracy the occurrence of minute pattern defects that occur stochastically very rarely. Regarding.
  • Patent Literature 1 discloses an autoencoder in which a three-layer neural network undergoes supervised learning using the same data for the input layer and the output layer. explained.
  • Patent Document 2 an original image is divided into grids of small areas, model learning is performed using an autoencoder for each small area, and an inspection model generated by the model learning is used to divide an image as an inspection target. It is described that anomaly detection processing is performed for each data to specify an anomalous location in units of small regions.
  • image (or data) augmentation is performed using multiple images generated by cutting out portions of one image and performing various different processing. commonly known.
  • Patent Documents 1 and 2 describe generating an estimation model for each small area and using the model to detect anomalies in each small area. Such a technique is effective when the pattern (geometric shape) contained in the image is a relatively simple shape.
  • a method, system, and computer readable method for generating a reference image based on an appropriate model and inspecting defects using the reference image, even for a sample including a large number of patterns, such as a semiconductor device, will be described below. Describe the medium.
  • a system, method, and computer readable medium for detecting defects on a semiconductor wafer, such as by identifying one or more defects contained in an input image received.
  • the one or more computer systems comprise a learner including an autoencoder trained in advance by inputting a plurality of images at different positions included in the training images, and the one or more computer systems proposes a system or the like that divides the input image, inputs it to the autoencoder, and compares the output image output from the autoencoder with the input image.
  • FIG. 4 is a flow chart showing the procedure of a defect detection method;
  • FIG. 10 is a diagram showing an example of the frequency distribution of the degree of divergence between input and output of an autoencoder;
  • FIG. 4 is a diagram showing an example of the arrangement of sub-images for inspection;
  • FIG. 2 is a diagram showing an example of a design pattern of wiring layers of a typical logic semiconductor integrated circuit;
  • FIG. 4 is a diagram showing an overview of the relationship between circuit design patterns and sub-images;
  • FIG. 4 is a diagram showing an overview of the relationship between patterns transferred onto a wafer and sub-images;
  • FIG. 4 is a timing chart showing the relationship between an imaging process in a scanning electron microscope and an image analysis process in a computer system;
  • FIG. 10 is a diagram for explaining the principle of improving the accuracy rate by providing a superimposed region in a sub-image region;
  • FIG. 4 is a diagram showing inspection processes of a semiconductor device manufacturing department and a design department;
  • abnormality determination is performed by comparing the pattern image to be inspected with the external normal pattern image.
  • a normal pattern image is an image of the same pattern created separately (for example, at a different position on the same wafer), or a composite image of a plurality of images of the same pattern (often called a golden image), a design pattern, or a simulation image generated from the design pattern. , etc. are used.
  • golden images and design data are not prepared for each design pattern, it may be difficult to conduct proper inspections.
  • machine learning using deep neural networks and the like has been developed, and attempts have been made to detect defects using this.
  • this method is applied to inspect random patterns of semiconductor integrated circuits, the scale of the network becomes unrealistically large, as will be explained later.
  • by embedding normal pattern information in a neural network of a realistic scale defect inspection and defect judgment of wafers with patterns of arbitrary design shapes without using golden images and design data.
  • FIG. 1 is a flow chart for explaining the process of generating an autoencoder based on acquisition of an original image for learning and performing serial defect detection using the autoencoder.
  • FIG. 2 is an image for learning an autoencoder.
  • 4 is a flow chart for explaining a process of acquiring an inspection image in parallel and detecting a defect included in the inspection image.
  • an image original image for learning
  • an image original image for learning
  • a scanning electron microscope SEM
  • the image includes a minimum dimension pattern defined by the layout design rule and is obtained for a pattern created under optimum conditions of the lithography or etching process.
  • a plurality of sub-images for learning are cut out at different positions in the original image for learning.
  • a plurality of original images for learning are prepared, a plurality of sub-images for learning are cut out from each of them.
  • the angle of view of the sub-image for learning (for example, the length of one side of the sub-image) may be about F to 4F, where F is the resolution of the lithography or etching process or the minimum dimension of the layout design rule. preferable.
  • one autoencoder is generated using the plurality of cut-out learning sub-images as teacher data.
  • one autoencoder is generated from a plurality of sub-images cut out from different positions of the sample (wafer). This means that instead of generating an autoencoder for each of the multiple subimages at different positions, we generate one autoencoder using the subimages at different positions. It does not mean that the number of autoencoders generated is limited to one. For example, semiconductor devices including a plurality of types of circuits, which will be described later, may have different circuit performances, and it may be desirable to generate an autoencoder in each circuit.
  • each circuit uses a plurality of sub-images at different positions to generate an autoencoder for each circuit.
  • a plurality of autoencoders may be generated according to the optical conditions of the SEM, the manufacturing conditions of the semiconductor device, and the like.
  • a sub-image is a small region image cut out from different shapes or different positions, and generates one autoencoder based on the input of these images.
  • the small area image includes the background, pattern, and edge of the semiconductor device, and the number of included patterns or background is preferably one.
  • the sample image is generated in layers, and so on.
  • the set of all sub-images for learning may be divided into a teacher data set and a test data set, and the autoencoder may be trained using the image data of the teacher data set while verifying the accuracy with the data of the test data set.
  • the autoencoder uses normal data as teacher data to learn an hourglass-shaped neural network as shown in FIG. That is, the network is trained so that when normal data is input, the input data itself is output.
  • an hourglass-shaped neural network the amount of information is suppressed to a level necessary for reproducing normal data as normal data in the constricted portion of the network. Therefore, if data other than normal data is input, it cannot be reproduced correctly. Therefore, it is known that normality or abnormality can be determined by taking the difference between the input and the output.
  • An autoencoder consists of an encoder (compressor) and a decoder (demodulator), the encoder compresses the input data into an intermediate layer called the hidden layer vector, and the decoder extracts the hidden layer vector from which the output data is as close as possible to the original input data. generated to be Since the dimension of the hidden layer vector is smaller than the dimension of the input vector, it can be regarded as a compressed form of the information of the input data.
  • the autoencoder is trained using normal data as teacher data. At this time, when normal data is input, the autoencoder outputs output data that is as close to normal data as possible. is known to be difficult. Therefore, there is known a method of determining whether or not there is an abnormality in the input data by comparing the input and the output and seeing if they match within a certain allowable range.
  • a fully-connected multi-perceptron a feedforward neural network (FNN), a convolutional neural network (CNN), or the like can be used.
  • FNN feedforward neural network
  • CNN convolutional neural network
  • the number of layers, the number of neurons in each layer or the number of CNN filters, network configuration such as activation function, loss function, optimization method, mini-batch size, learning methods such as number of epochs are generally known.
  • the inventor made use of the characteristics of the autoencoder and studied an appropriate method, system, and non-transitory computer-readable medium for defect inspection of semiconductor devices.
  • the inventors found that the shape of a semiconductor device included in an image obtained by an electron microscope or the like is complex in a wide area, but simple in a narrow area, and can be regarded as a simple shape. , the image area is reduced, and if the narrow area image is used as an input to the autoencoder, defect inspection based on high-precision comparison image generation becomes possible.
  • the curvature r of the pattern edge included in a certain narrow image area, the intersection (x1, y1, x2, y2) of the frame of the narrow image area, and the boundary (edge) between the inside of the pattern and the background portion is 4.
  • the curvature r of the pattern edge included in a certain narrow image area, the intersection (x1, y1, x2, y2) of the frame of the narrow image area, and the boundary (edge) between the inside of the pattern and the background portion is 4.
  • the area that can be inspected is extremely large with respect to the size of the pattern that needs to be inspected (for example, the line width).
  • a pattern that can be inspected corresponds to one branch of a tree. That is, for example, when performing a full-surface inspection, it is necessary to capture an image with a resolution that enables recognition of a single tree branch over the entire island.
  • an image obtained by capturing a semiconductor device is mainly divided into narrow regions that can be regarded as a simple shape as described above, and the divided image is input to an autoencoder.
  • a method, system, and non-transitory computer-readable medium are described for performing defect inspection by comparing autoencoder output images.
  • the pattern to be inspected which is designed according to the layout design rules and transferred onto the wafer using the lithography or etching process, is imaged with an SEM to obtain an inspection image (original image for inspection).
  • a plurality of sub-images for inspection are cut out from the original image for inspection with the same angle of view as the sub-image for learning, and are input to the autoencoder to obtain an output image (first image) for inspection.
  • Defects are detected from the difference between sub-images (second images).
  • a detection method for example, for each of a plurality of inspection sub-images, the degree of divergence between the input and the output is calculated, a histogram as shown in FIG.
  • the value is A sub-image exceeding a certain threshold is output as an image with a high possibility of having a defect.
  • a value obtained by summing the squares of the differences in the luminance values of corresponding pixels in the input and output images for all pixels can be used.
  • another method of obtaining the difference between the input and the output based on the comparison between the input and the output may be used.
  • the shape of the histogram showing the frequency for each degree of difference will change. For example, even if sub-images exceeding the above threshold are not detected in a specific image to be inspected, if the extrapolated value of the frequency of appearance near the divergence threshold increases due to, for example, the tail of the histogram extending, the inspection point It is expected that defects will be detected by increasing the inspection image in the vicinity. Even if defects do not occur, the shape of the histogram is very sensitive to changes in process conditions. can be prevented. Therefore, the shape change itself can be used as an index of the normality of the process. As an index of shape change, numerical values such as the mean value, standard deviation, skewness, kurtosis, and higher-order moment of histogram distribution may be used.
  • the computer system is configured to display, on the display device, a frequency histogram for each degree of divergence (difference information) extracted from a plurality of sub-images, as illustrated in FIG. Additionally, the computer system may be configured to evaluate the shape of the histogram using the index. At least one of a past image of a semiconductor wafer manufactured under the same manufacturing conditions, a histogram extracted from the image, and shape data thereof is used as reference data (first data) to evaluate changes in the process state. , and compared with a newly extracted histogram or its shape data (second data), it is possible to monitor changes over time in the process conditions.
  • the change over time of the skewness (index value of shape change) with respect to the original histogram shape may be graphed and displayed or output as a report. Further, as illustrated in FIG. 4, a plurality of histograms extracted from semiconductor wafers with the same manufacturing conditions but with different manufacturing timings may be displayed together. Furthermore, an alarm may be issued when the skewness or the like exceeds a predetermined value.
  • a learning device that learns data sets such as information on changes in frequency information for each difference information (change in histogram shape over time, etc.), causes of abnormalities, amount of adjustment of semiconductor manufacturing equipment, timing of adjustment of semiconductor manufacturing equipment, etc. as teacher data. , and inputting frequency information for each difference information to the learning device, thereby estimating the cause of an abnormality or the like.
  • the plurality of inspection sub-images cover the entire area of the inspection original image.
  • the plurality of test sub-images preferably have overlapping areas in common with adjacent test sub-images. For example, when cutting out sub-images for inspection from the inspection image, as shown in FIG. If a defect is detected in two or more adjacent sub-images, it may be determined that there is a high probability that the defect is present. In this way, the region is set so that a plurality of sub-image regions straddle the same location, and if a defect is found in a plurality of sub-image regions in which some regions overlap, the region is a region where a defect occurs with a high probability. may be defined as
  • FIG. 13 shows an example in which a plurality of sub-image areas 1302 are set in an image acquisition area 1301 while providing, for example, an overlapping area 1303 .
  • sub-areas 1302 are set at four locations around the superimposed area 1303.
  • the four sub-image areas are set so as to partially overlap other sub-areas, and the four sub-areas are superimposed in an overlapping area 1303 .
  • Areas 1306 and 1307 are similar.
  • An area 1305 shows an example in which a sub-area 1308 located in the lower right of the area is extracted as an area with a large divergence.
  • the shaded area is extracted as an area with a large degree of divergence.
  • the upper left, upper right, and lower right sub-image areas are extracted, and in the area 1307, the upper left and lower right sub-image areas are extracted as areas with a large divergence degree. Since it is considered that the larger the number of sub-regions with a large degree of deviation, the higher the probability of defect occurrence, the identification display according to the number of regions with a large degree of deviation per unit area should be performed on the map that defines the sample coordinates.
  • the defect existence probability can be displayed as a distribution.
  • FIG. 13 shows an example of displaying a bar graph 1304 that increases and decreases according to the number of areas with large degrees of deviation.
  • weighting according to the degree of divergence may be performed, for example.
  • identification display may be performed according to the statistic of the degree of divergence of a plurality of sub-regions.
  • the defect existence probability may be obtained according to the number of superimposed regions per unit area or the density of regions with a large divergence.
  • the sub-image position for example, the center coordinates of the sub-image
  • the degree of divergence By plotting the relationship between the sub-image position (for example, the center coordinates of the sub-image) and the degree of divergence, it is possible to know the distribution of defect positions within the original image area.
  • the above positional distribution is useful for inferring the mechanism of defect generation.
  • by outputting an enlarged SEM image around the position of the sub-image having a large degree of divergence it is possible to directly confirm an abnormality such as a defect shape.
  • a bar graph 1304 as exemplified in FIG. 13 on the GUI screen and displaying the image of the area 1305 according to the selection, visual confirmation corresponding to the defect existence probability becomes possible.
  • An autoencoder trains an hourglass-shaped neural network using normal data as teacher data so that input data itself is output when normal data is input. If data other than normal data is input, it cannot be reproduced correctly. Therefore, by taking the difference between the input and the output, it can be applied to abnormality detection for determining normality or abnormality. Therefore, it is conceivable to apply the method to the inspection SEM image of the pattern of the semiconductor integrated circuit, and to apply it to the detection of abnormalities in the pattern.
  • FIG. 1 An example of a wiring layer pattern of a typical logic semiconductor integrated circuit is shown in FIG.
  • Such circuit patterns are usually designed according to certain layout design rules, and in many cases simply consist of pattern areas (lines) and non-pattern areas (intervals (white areas)) that extend in the vertical and horizontal directions and are larger than the minimum dimensions. .
  • an area with a certain limited angle of view is cut out from an arbitrary layout design pattern.
  • the pattern (object) included in the clipped angle of view varies depending on the positional relationship between the target pattern and the clipped region. , the included pattern is reduced to a relatively simple pattern.
  • FIG. 7(b) shows how the sub-image changes when the pattern is cut by changing the position of the sub-region with respect to the corner. For example, if the sub-region is completely outside the pattern as shown in the left of FIG. 7(a), the sub-image does not include the pattern region (corresponding to the lower left of FIG. 7(b)). As shown in the left part of FIG. 7(a), when the sub-area is at the edge of the pattern corner, the pattern area appears in the lower left corner of the sub-image (corresponding to the upper right part in FIG. 7(b)).
  • the sub-region is a square whose side is the minimum dimension in the layout design rule, and an arbitrary position of an arbitrary design pattern is cut out with this square, at most one pattern region and one non-pattern region are cut out. only included. If the pattern is limited to the vertical and horizontal directions, the variation is, as shown in FIG. It is defined by how to allocate each of the defined four areas A, B, C, and D to pattern areas or non-pattern areas.
  • lithographic processes can be thought of as low-pass filters for spatial frequencies in a two-dimensional plane.
  • the size of the sub-image to be cut out is assumed to be a square with one side having the minimum design dimension, but this is an assumption for the sake of simplicity of explanation, and in reality it is not limited to this.
  • the length of one side of the sub-image is preferably 2 to 4 times the minimum dimension of the design pattern or 2 to 4 times less than the resolution critical dimension of the lithography or etching process used for transfer.
  • the resolution limit dimension W is determined by the wavelength ⁇ of light used in lithography, the numerical aperture NA of the optical system, the proportional constant k1 depending on the illumination method and resist process, and the spatial frequency magnification amplification factor Me of the etching process.
  • Me is 1 when etching a pattern formed by lithography as it is, 1/2 for the so-called SADP (Self-Aligned Double Patterning) or LELE (Litho-Etch-Litho-Etch) process, and 1/2 for the LELELE process. 3. 0.25 for SAQP (Self-Aligned Quadruple Patterning) process.
  • SADP Self-Aligned Double Patterning
  • LELE Litho-Etch-Litho-Etch
  • LELELE Low-Etch-Litho-Etch
  • SAQP Self-Aligned Quadruple Patterning
  • formula 2 is stored in the storage medium of the computer system, and the appropriate size of the sub-image is selected by inputting necessary information from an input device or the like. You can make it work.
  • M is a multiple (for example, 2 ⁇ multiple ⁇ 4) of the minimum dimension of the pattern as described above. Note that it is not always necessary to enter all values. For example, if the wavelength of light used for exposure is fixed, treat it as already entered information and enter other information, Alternatively, the size of the sub-image may be obtained. Further, as described above, the size SI (length of one side) of the sub-region may be calculated based on the input of the dimensions of the layout pattern.
  • the variation can be covered by cutting out images of various transferred patterns, including patterns designed with minimum allowable dimensions, at various different positions. For example, as shown in FIG. 8(b), by cutting out a rectangular pattern with rounded corners by changing the position of the window indicated by the dotted line in various ways, variations for learning as shown in FIG. 8(c) can be obtained. Sub-images can be generated. Also, patterns cut at various different angles may be added.
  • the relative positional relationship between the angle of view and the pattern changes in various ways depending on the positioning accuracy of the wafer stage. Therefore, the relative positional relationship between the angle of view of the sub-image acquired from the SEM image and the pattern included therein also varies.
  • a normal pattern must be judged normal for these various relative positional relationships. Variations within these normal ranges can be covered by cutting different patterns of the same or similar designs at different locations.
  • the autoencoder is configured and learned so that the degree of divergence between the input and output of the autoencoder with respect to normal patterns is kept small while the degree of divergence with respect to abnormal patterns is maximized. .
  • a patterned area or non-patterned area may exist at the edge of the field of view (FOV) of the sub-image and may be detected as an abnormality without being reproduced by the autoencoder.
  • FOV field of view
  • the adjacent sub-image is also detected as abnormal.
  • the width of the patterned area or the non-patterned area with a normal width is within the normal range, no abnormality is detected in the adjacent sub-image. Therefore, as shown in FIG. 5, the feed pitch of the detection sub-region is set smaller than the angle of view of the sub-region, and the case where an abnormality is simultaneously detected in adjacent sub-images is determined to be a true abnormality. rate improves.
  • FIG. 14 is a diagram explaining the principle of improving the accuracy rate by providing a superimposed area in the sub-image area (setting the feed pitch of the sub-image area to be smaller than the angle of view).
  • the feed pitch of the sub-image areas (1401 to 1404) on the image acquisition area 1301 is half that of the sub-image area.
  • FIG. 14 shows an example in which an abnormality is detected in sub-image areas 1401, 1403, and 1404 included in areas 1305 and 1307, and no abnormality is detected in a sub-image area 1402.
  • FIG. As described above, no abnormality is detected in the sub-image area 1402 adjacent to the sub-image area 1401 in which an abnormality has been detected in the area 1305 . By including such a determination procedure, it is possible to quantitatively evaluate an improvement in the accuracy rate of anomalies and the probability of anomalies.
  • the system consists of a scanning electron microscope and one or more computer systems for storing and processing image data output therefrom.
  • the computer system is configured to read a program stored in a predetermined computer-readable medium and execute defect detection processing as described later.
  • a computer system is configured to communicate with the scanning electron microscope.
  • the computer system may be remote from the scanning electron microscope, connected to the scanning electron microscope by one or more transmission media, or may be a module of the scanning electron microscope.
  • the scanning electron microscope captures the wafer pattern created under optimal conditions and transfers the image data to the computer system.
  • a computer system stores the images as training images and generates an autoencoder from the training images.
  • the scanning electron microscope then images the wafer pattern under inspection and transfers the image data to a computer system.
  • the computer system stores the image as inspection image data, and detects defects from the inspection image data using the autoencoder.
  • the computer system outputs a signal for displaying at least one of inspection results, inspection conditions, electron microscope images, etc. on the display device.
  • the display device displays necessary information based on the signal.
  • pipeline processing and parallel computation may be combined. That is, the scanning electron microscope captures an image of a specified position on the inspection wafer according to an imaging recipe. Immediately after each position is captured, each image is transferred to the computer system, and an image of the next specified position is captured according to the imaging recipe. The computer system generates a plurality of sub-images from the sequentially transferred images and calculates the degree of divergence for each sub-image. Here, the degree of divergence calculation for a plurality of sub-images may be processed in parallel.
  • an electron beam 803 is extracted from an electron source 801 by an extraction electrode 802 and accelerated by an acceleration electrode (not shown).
  • the accelerated electron beam 803 is condensed by a condenser lens 804 which is one form of a focusing lens, and then deflected by a scanning deflector 805 .
  • the electron beam 803 scans the sample 809 one-dimensionally or two-dimensionally.
  • An electron beam 803 incident on a specimen 809 is decelerated by a decelerating electric field formed by applying a negative voltage to an electrode incorporated in a specimen stage 808 and focused by the lens action of an objective lens 806 to reach the specimen 809 . surface is irradiated.
  • a vacuum is maintained inside the sample chamber 807 .
  • Electrons 810 (secondary electrons, backscattered electrons, etc.) are emitted from the irradiated location on the sample 809 .
  • Emitted electrons 810 are accelerated toward the electron source 801 by the acceleration action based on the negative voltage applied to the electrodes built in the sample stage 808 .
  • Accelerated electrons 810 collide with conversion electrodes 812 to generate secondary electrons 811 .
  • Secondary electrons 811 emitted from the conversion electrode 812 are captured by a detector 813, and the output I of the detector 813 changes depending on the amount of captured secondary electrons.
  • the output I changes, the brightness of the display device changes. For example, when forming a two-dimensional image, the deflection signal to the scanning deflector 805 and the output I of the detector 813 are synchronized to form an image of the scanning area.
  • the SEM illustrated in FIG. 811 shows an example in which the electrons 810 emitted from the sample 809 are once converted into secondary electrons 811 at the conversion electrode 812 and detected, but the configuration is of course limited to such a configuration. Instead, for example, a configuration in which an electron multiplier or a detection surface of a detector is arranged on the trajectory of accelerated electrons may be adopted.
  • a controller 814 supplies necessary control signals to each optical element of the SEM according to an operation program for controlling the SEM called an imaging recipe.
  • the image processing unit 816 generates an integrated image by integrating signals obtained by a plurality of scans on a frame-by-frame basis, if necessary.
  • an image obtained by scanning the scanning area once is called an image of one frame.
  • an integrated image is generated by averaging signals obtained by 8 times of two-dimensional scanning on a pixel-by-pixel basis. It is also possible to scan the same scanning area multiple times and generate and store multiple one-frame images for each scan.
  • the generated image is transferred to an external data processing computer at high speed by an image transfer device. As described above, image transfer may be performed in parallel with imaging in a pipeline fashion.
  • a work station 820 controls the entire system having a storage medium 819 for storing the measured values of each pattern and the luminance value of each pixel. , GUI).
  • the image memory stores the output signal of the detector (the signal proportional to the amount of electrons emitted from the sample) in synchronization with the scanning signal supplied to the scanning deflector 805, and stores the corresponding address (x, y).
  • the image processing unit 816 generates a line profile from the luminance values stored in the memory as needed, identifies edge positions using a threshold method or the like, and functions as an arithmetic processing unit that measures dimensions between edges. also works.
  • FIG. 16 shows an example of a GUI screen for setting learning conditions (training conditions).
  • the GUI screen shown in FIG. 16 is provided with a setting field 1601 for setting a file name or a folder name in which training images and metadata attached to each image are placed.
  • the computer system stores image data and metadata or reads them from an external storage medium, and displays them in the attached information display field 1606 and the SEM image display field 1607, respectively.
  • a setting field 1602 for setting the dimension Lsub (angle of view) of the sub-image is provided. Note that the minimum size F of the pattern included in the image and the coefficient n using this as a unit may be input from the setting field 1602 .
  • an input field may be used in which at least 1 of the number of pixels Npxl (the number of pixels in at least one of the vertical and horizontal directions, or the total number of pixels) of the sub-image can be input.
  • One or more of a plurality of parameters relating to sub-image dimensions, such as dimensions, minimum pattern dimensions, and number of pixels, may be selectable.
  • the GUI screen illustrated in FIG. 16 further includes a setting field 1603 for setting the pitch Ps between sub-images.
  • the same parameters as those in the setting field may be input, or the exclusion area width Wexcl around the sub-images (interval width between sub-images not acquired as sub-images) may be input. You can do it. Also, a plurality of parameters may be input together.
  • a setting field 1604 is provided for setting the number of sub-images to be selected from the sub-images cut out under the conditions set in the setting fields 1601 to 1603 and the like.
  • the number of sub - images to be used for learning is set. length of one side), the computer system notifies that or sets the maximum number of samples that can be set. It is also possible to take training time into account and not use all the data.
  • a setting field 1605 for setting the type of neural network is provided.
  • Neural networks that can be set in the setting field 1605 include, for example, Auto Encoder (AE), Convolutional Auto Encoder (CAE), Variational Auto Encoder (VAE), and Convolutional Variational Auto Encoder (CVAE). These modules are built into or stored in the computer system.
  • parameters related to neural network configuration such as latent dimension, encoding dimension, number of stages, number of neurons (or filters) in each stage, activation function, mini-batch size, number of epochs, loss function, optimization method, number of training data and
  • a setting column may be provided in which optimization parameters such as the ratio of the number of verification data can be set.
  • a setting column may be provided for setting the model configuration and network weighting coefficient storage file name and folder name.
  • a display column on the GUI screen that allows the training results to be visually determined. Specifically, it is a histogram of the degree of divergence and an in-plane distribution of the degree of divergence of each image for training. These information may be displayed by selecting tags 1608 and 1609, for example. Furthermore, as supplementary information, the model configuration and network weighting coefficient storage file or folder name may be displayed together.
  • FIG. 16 has been described as a GUI for setting learning conditions
  • the GUI screen for setting inspection conditions also includes folders in which images to be inspected and metadata attached to each image are placed, sampling pitch Ps of sub-images, image It is desirable to be able to set the surrounding exclusion area width Wexcl, the model configuration used for inspection, the file name of the network weight coefficient, the deviation threshold used for defect determination, the file name for saving inspection result data, the folder name, etc. .
  • a wiring layer pattern of a logic LSI semiconductor integrated circuit
  • logic circuits and SRAMs is formed on a predetermined base layer for EUV by using an exposure apparatus with NA of 0.33 and a resist processing apparatus using EUV light with a wavelength of 13.5 nm.
  • a wafer coated with a resist was exposed to light to form a resist pattern.
  • Predetermined optimum conditions were used for exposure amount, focus, resist processing conditions, and the like.
  • the logic circuit section and the SRAM section are imaged using an SEM such as that shown in FIG. saved.
  • the pixel size of the original image for learning was 1 nm, and the FOV was 2048 nm (length of one side).
  • 39601 50 nm-square sub-images for learning were cut out from each of all the acquired original images for learning at a feed pitch of 10 nm in the vertical and horizontal directions.
  • the input is a vector with a length of 2500, which is a one-dimensional version of the two-dimensional image data in which the luminance value (gray level) of the image pixel is the value of each element.
  • the final output was a vector of length 2500, the same as the input.
  • ReLU was used as the activation function for each layer except for the final layer.
  • 80% of the sub-images for learning were selected at random as teacher data, and learning was performed.
  • Mean square error was used as the loss function, and RMSProp was used as the optimization algorithm. Note that the pixel size, original image size, sub-image size, network configuration, learning method, etc. are not limited to those shown above.
  • the original image for inspection of the pattern including the minimum dimension was acquired at the periphery of the wafer.
  • an FEM (Focus Exposure Matrix) wafer for inspection was created using the same materials and process equipment, and original images for inspection of patterns including the minimum dimensions formed under various exposure and focus conditions that deviated from the predetermined optimal conditions were obtained. .
  • An FEM wafer is a chip that has been exposed and transferred on the wafer under various conditions of focus and exposure. From each of these inspection original images, 9801 inspection sub-images of 50 nm square were cut out at a feed pitch of 20 nm in the vertical and horizontal directions. Each of these test sub-images was input into the autoencoder and the output was calculated. The degree of divergence between the input vector and the output vector was calculated by summing the squares of the deviations of the corresponding elements of the input vector and the output vector. A histogram of the degree of divergence of all the sub-images for inspection was created, and the sub-images for inspection whose degree of divergence was equal to or greater than the threshold value were extracted.
  • an SEM capable of relatively large beam deflection is used as the imaging device.
  • the pixel size of the original image for learning and the original image for inspection was set to 2 nm, and the FOV size was set to 4096 nm.
  • 163,216 learning sub-images of 48 nm square were cut out at a feed pitch of 10 nm in the vertical and horizontal directions.
  • 113,569 learning sub-images of 48 nm square were cut out at a feed pitch of 12 nm in the vertical and horizontal directions.
  • 40,804 sub-images for learning of 48 nm square were cut out from each image at a feed pitch of 20 nm in the vertical and horizontal directions.
  • a convolutional neural network (CNN) is used for the autoencoder.
  • the input is two-dimensional image data (30 ⁇ 30 two-dimensional array) with each pixel luminance value (gray level) as an element.
  • Nine layers of 12, 12, 12, 12, 12, 1 were used, and the size of the convolution filter was 3 ⁇ 3.
  • Each convolution in the first half has a 3x3 max pooling layer, each convolution in the following two layers has a 3x3 max pooling layer, and each convolution in the latter two layers has a 2x2 max pooling layer.
  • a 3 ⁇ 3 up-sampling layer was provided after the up-sampling layer and each subsequent convolution of the two layers.
  • an activation function ReLU is provided after the max pooling layer and up sampling layer.
  • the network was trained using the sigmoid function as the activation function of the final layer, binary_crossentropy as the loss function, and Adam as the optimization algorithm.
  • the same defect inspection as in the first application example could be performed for a wide range of patterns in a short period of time.
  • the imaging conditions, image cropping method, autoencoder network configuration, learning method, and the like in this embodiment are not limited to those described above.
  • a variational autoencoder, a convolutional variational autoencoder, or the like may be used.
  • the inspection as described in the first application example and the second application example does not require design data unlike the Die to data base inspection method.
  • the judgment work is usually performed in a circuit design department, a yield control department, or the like, not in the manufacturing process of the integrated circuit where the inspection by this method is performed. Therefore, the in-wafer in-chip coordinates and the image data of the abnormal pattern extracted in the manufacturing process by this method may be transmitted to the circuit design department or the yield control department holding the design data.
  • the circuit design department, yield management department, or the like determines whether the detected abnormality is acceptable in terms of circuit performance and function based on the above coordinates and images, and if it is not acceptable, takes necessary measures. By doing so, in this method, yield management based on design data can be performed without holding design data in the manufacturing process.
  • a semiconductor wafer pattern is usually generated by lithography or the like using a photomask created based on design data designed by a design department (step 1501).
  • the resist pattern and the like are evaluated by measurement and inspection equipment such as a CD-SEM to determine whether manufacturing is being performed under appropriate conditions.
  • measurement and inspection equipment such as a CD-SEM to determine whether manufacturing is being performed under appropriate conditions.
  • an SEM image is obtained for a semiconductor device pattern manufactured in a manufacturing department (step 1502), a sub-image is cut out, and an inspection using an autoencoder is performed (step 1503).
  • the manufacturing department conducts inspections using an autoencoder, and selectively transmits image data that captures patterns that can be considered abnormal to the design department and yield management department.
  • the design department reads the image data transmitted from the manufacturing department (step 1505), designs the semiconductor device at the time of designing, and executes a comparison inspection with the held design data (step 1506).
  • the design data is diagrammed as layout data. Also, pattern edges included in the image data are thinned (contoured).
  • the design department will decide whether to consider a design change based on the above comparative inspection, or whether to continue manufacturing without making a design change by reviewing the manufacturing conditions.
  • the computer system on the manufacturing department side executes an inspection using an autoencoder and creates a report to the design department based on the inspection results (step 1504).
  • the report to the design department includes, for example, the coordinate information of the position where the abnormality was found, the SEM image, and may also include manufacturing conditions, SEM apparatus conditions (observation conditions), and the like. Further, the report may include information such as the frequency distribution of the degree of deviation as illustrated in FIG. 4 and the probability of occurrence of defects in the surroundings.
  • the computer system on the design department side executes a comparative inspection and creates a report based on the inspection results (step 1508).
  • the report may include the results of the comparison inspection, and may also include the defect types specified as a result of the comparison inspection, inspection conditions, and the like.
  • the computer system of the design department may include a learner such as a DNN trained by a data set of comparative inspection results and past feedback history (whether the design was changed or the manufacturing conditions were adjusted, etc.). .
  • comparison inspection results difference information of corresponding positions of outline data and layout data, etc.
  • correction of design data, policy of correction, policy of correction of manufacturing conditions, etc. are output (step 1507).
  • the learner can be replaced with a database that stores the relationship between the comparison test results and the feedback policy.
  • Application Example 3 Using an exposure apparatus with an NA of 0.33 and a resist processing apparatus using EUV light with a wavelength of 13.5 nm, a DRAM word line layer mask is exposed onto a wafer having a predetermined base layer coated with an EUV resist, and a resist pattern is formed. formed. Predetermined optimum conditions were used for exposure amount, focus, resist processing conditions, and the like.
  • the memory cell portion was imaged using a wide FOV compatible SEM in the same manner as in Application Example 2 at a plurality of locations within the wafer surface, avoiding the wafer peripheral portion, transferred to a data processing computer, and stored as original images for learning. After that, learning sub-images were generated in the same manner as in Application Example 2, and an autoencoder was created using these sub-images.
  • a wafer is extracted at a predetermined frequency, inspection images are acquired at a plurality of predetermined positions within the wafer surface, and are obtained in the same size as the learning sub-images.
  • a test sub-image was generated.
  • the inspection sub-image was input to the autoencoder, and the degree of divergence from the output was calculated. When the locations with high possibility of defects were extracted from the degree of divergence and their distribution in the inspection image was obtained, two cases of defects that appeared randomly and defects that were concentrated in a linear distribution were found.
  • the learning pattern and the pattern to be inspected are fixed to the specific process layer pattern of the specific LSI.
  • an autoencoder that determines normal dimensional variation and LER (Line Edge Roughness) within the allowable range.
  • a wafer prepared in the same manner as the wafer for acquiring the original image for learning in Application Example 1 is inspected using an optical defect inspection apparatus for patterned wafers to identify possible defect positions. output.
  • a pattern observation image was captured using a review SEM centering on the output in-plane position of the wafer, and defects were detected using the autoencoder produced in Application Example 1.
  • FIG. A difference image between the input image and the output image of the autoencoder was output for the sub-image of the portion where the defect was detected.
  • various defects are local (point-like) protrusions or recesses, linear protrusions or recesses across patterns, and along pattern edges.
  • the unevenness was classified into linear protrusions or recesses, unevenness along the pattern edge, fine unevenness spreading over the entire image, gentle unevenness spreading over the entire image, and the like. These in turn suggest, for example, micro-foreign particles, bridges between patterns or separation of patterns, pattern edge shifts, pattern edge roughness, image noise, image brightness shifts.
  • a defect inspection was performed by the method shown in Application Example 2 for the estimated area with a high risk of defect occurrence.
  • ADC Auto Defect Classification
  • Defect types include bridging between pattern lines, breakage of pattern lines, disappearance of isolated patterns, excess of LER tolerance, local undulation of pattern lines, other pattern size and shape variations, various foreign matter defects, etc. did.
  • pattern abnormalities can be extracted at high speed without using a golden image, design information, or the like.
  • the autoencoder is used to extract defects concerns.
  • the ADC is selectively used to classify and determine the defect in the pattern image near the defect concern point.
  • a combination of an image analysis method and machine learning such as SVM (support vector machine), or various techniques such as supervised machine learning (deep learning using CNN) can be used.
  • SVM support vector machine
  • supervised machine learning deep learning using CNN
  • One or more computer systems are equipped with a module that includes an ADC module and an autoencoder, so that parts that can be candidates for defects can be extracted at high speed, and the work up to defect classification can be made more efficient. becomes.
  • one defect classification neural network as shown in FIG. 12(b) perform defect classification and judgment.
  • the defect classification neural network shown in FIG. 12(b) is composed of an autoencoder section and a comparative classification section. A large number of sub-images are generated from the SEM image of the inspection target as described in Application Examples 1 to 7, and each sub-image is input to the defect classification network of FIG. 12(b). In the network, first, each sub-image is input to an autoencoder section, and then the obtained autoencoder output and the original subimage are simultaneously input to a comparison and classification section.
  • the comparison/classification unit is, for example, a neural network such as a multiperceptron or a CNN that receives the combined vector or matrix of the autoencoder output and the original sub-image, and outputs the probability that the input sub-image is defect-free or contains various defects.
  • a neural network such as a multiperceptron or a CNN that receives the combined vector or matrix of the autoencoder output and the original sub-image, and outputs the probability that the input sub-image is defect-free or contains various defects.
  • the learning of the above defect classification network is performed as follows. First, as described in Application Examples 1 to 7, the autoencoder is trained to reproduce and output the input as much as possible when sub-images generated from patterns in the normal range are input. Next, a large number of images including defects are input to the autoencoder section to create teacher data of defect images.
  • the teacher data may be created by another method without referring to the autoencoder output. Next, a large number of images containing the defects are input to the entire defect classification network, and learning is performed using the teacher data. However, at this time, the network of the autoencoder section is fixed, and only the network of the comparison classification section is learned. Even with this method, bridges between pattern lines, breakage of pattern lines, disappearance of isolated patterns, exceeding the allowable value of LER, local undulations of pattern lines, other pattern size and shape variations, various foreign matter defects, etc. could be determined. .

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Manufacturing & Machinery (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Power Engineering (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Computer Hardware Design (AREA)
  • Testing Or Measuring Of Semiconductors Or The Like (AREA)
  • Image Analysis (AREA)

Abstract

本開示は、半導体デバイスのように、多数のパターンが含まれるサンプルであっても、適正なモデルに基づく参照画像生成と、当該参照画像を用いた欠陥検査を目的とする。本開示では受け取った入力画像に含まれる欠陥を特定する1以上のコンピュータシステムであって、当該1以上のコンピュータシステムは、学習用画像に含まれる異なる位置の複数の画像の入力によって予め学習が施されたオートエンコーダを含む学習器を備え、前記1以上のコンピュータシステムは、前記入力画像を分割して、前記オートエンコーダに入力し、当該オートエンコーダから出力される出力画像と、前記入力画像を比較するシステムを提案する。

Description

欠陥を検出するシステム、及びコンピュータ可読媒体
 本開示は、欠陥を検出する方法、システム、及びコンピュータ可読媒体に係り、特に、確率的に非常に稀に発生する微細なパターン欠陥の発生を高精度に検出する方法、システム、及びコンピュータ可読媒体に関する。
 オートエンコーダを用いて画像内に含まれる欠陥を検出する技術が知られている。特許文献1には3層のニューラルネットを、入力層と出力層に同じデータを用いて教師あり学習させたオートエンコーダが開示され、入力層に加える学習データにノイズ成分を加えて学習させることが説明されている。特許文献2には、オリジナル画像を小領域のグリッドに分割し、その小領域毎にオートエンコーダを用いてモデル学習を行い、当該モデル学習で生成された検査モデルで、検査対象として分割された画像データ毎に異常検出処理を行って異常個所を小領域単位で特定することが説明されている。又、ニューラルネット等による機械学習を用いた画像分類では、1枚の画像の部分を切り出して様々異なる加工を行って生成した複数の画像を用いて学習を行うことがimage(又はdata) augmentationとして一般的に知られている。
特開2018-205163号公報(対応米国特許公開公報US2020/0111217) WO2020-031984
 特許文献1、2には小領域単位で推定モデルを生成し、そのモデルを用いて、それぞれの小領域で異常検出を行うことが説明されている。このような手法は、画像内に含まれるパターン(幾何学形状)が比較的簡単な形状である場合は有効である。
 しかしながら、半導体デバイスを構成するパターンのように、単位面積当たりのエッジ数(辺の数)が膨大であり、且つそのエッジによって形作られる幾何学形状の数も膨大となるようなサンプルの場合、小領域の大きさを大きくしてしまうと、複雑形状の組み合わせのバリエーションの数も膨大となってしまうため、適正なモデル形成が困難となる。一方で、小領域に含まれるパターン形状が単純になる程度にその大きさを小さくした場合、モデルの数が膨大となるため、モデルを用意することが困難である。また、どのモデルを適用するかの判別が困難となる。
 以下に、半導体デバイスのように、多数のパターンが含まれるサンプルであっても、適正なモデルに基づく参照画像生成と、当該参照画像を用いた欠陥検査を目的とする方法、システム、及びコンピュータ可読媒体について説明する。
 上記目的を達成するための一態様として、半導体ウエハ上の欠陥を検出するためのシステム、方法、コンピュータ可読媒体であって、当該システム等は、受け取った入力画像に含まれる欠陥を特定する1以上のコンピュータシステムを備え、前記1以上のコンピュータシステムは、学習用画像に含まれる異なる位置の複数の画像の入力によって予め学習が施されたオートエンコーダを含む学習器を備え、前記1以上のコンピュータシステムは、前記入力画像を分割して、前記オートエンコーダに入力し、当該オートエンコーダから出力される出力画像と、前記入力画像を比較するシステム等を提案する。
 上記構成によれば、任意設計形状の複雑な回路パターンの欠陥検出を、設計データを利用することなく短時間かつ簡便に行うことができる。
欠陥検出方法の手順を示す図。 欠陥検出方法の手順を示すフローチャート。 オートエンコーダの構成の概念を示す図。 オートエンコーダの入出力の乖離度の頻度分布の一例を示す図。 検査用サブ画像の配置の一例を示す図。 典型的なロジック半導体集積回路の配線層の設計パターンの一例を示す図。 回路設計パターンとサブ画像の関係の概要を示す図。 ウエハ上に転写されたパターンとサブ画像の関係の概要を示す図。 欠陥検出システムの概略構成を示す図。 走査電子顕微鏡における撮像工程とコンピュータシステムにおける画像解析工程との関係を示すタイミングチャート。 撮像ツールの一種である走査電子顕微鏡の一例を示す図。 オートエンコーダを含む欠陥検査システムの一例を示す図。 欠陥存在確率分布を可視化したGUI画面の一例を示す図。 サブ画像領域に重畳領域を設けることによって、正解率が向上する原理を説明する図。 半導体デバイス製造部門と設計部門のそれぞれの検査工程を示す図。 学習条件を設定するGUI画面の一例を示す図。
 光や電子線を用いた半導体集積回路のパターン付きウエハの欠陥検査・欠陥判定では、被検査パターン画像を、外部の正常パターン画像と比較することにより異常判定を行う。正常パターン画像は別個に(例えば同一ウエハ内の別の位置に)作成した同一パターン像、又は複数の同一パターン像の合成像(しばしばゴールデン画像と呼ばれる)、設計パターン、設計パターンから生成したシミュレーション像、等が用いられる。
 ゴールデン画像や設計データは、設計パターン毎に用意しないと、適正な検査を行うことが困難となる場合がある。一方、近年、ディープニューラルネットワーク等を用いた機械学習が発達し、これを用いて欠陥検出を行う試みがなされている。しかしながら、この方法を半導体集積回路のランダムなパターンの検査に適用しようとすると、後に説明するように上記ネットワークの規模が非現実的に大きくなってしまう。これに対して、以下、現実的な規模のニューラルネットワークの中に正常パターンの情報を埋め込むことにより、ゴールデン画像や設計データを利用せずに、任意設計形状のパターン付きウエハの欠陥検査・欠陥判定を行う例について説明する。
 以下に画像取得から画像内に含まれる欠陥検出に至るまでの工程について説明する。本例では主に、ある既定のレイアウト設計ルールに従って設計された任意の2次元形状パターンを有するマスクを、所定のリソグラフィ又はエッチングプロセスを用いてウエハ上に転写したパターンを検査する工程を説明する。図1は学習用元画像の取得に基づいて、オートエンコーダを生成し、当該オートエンコーダを用いて欠陥検出をシリーズで行う工程を説明するフローチャートであり、図2はオートエンコーダを学習させるための画像と、検査用画像の取得を並行して行い、検査用画像内に含まれる欠陥を検出する工程を説明するフローチャートである。
 まず、上記レイアウト設計ルールに従って設計され、上記リソグラフィ又はエッチングプロセスを用いてウエハ上に転写したパターンを、走査型電子顕微鏡(SEM)で上面から撮像した画像(学習用元画像)を準備する。上記ウエハ上の異なる領域を撮像した複数の画像、又は、上記設計ルールと上記プロセスを同じくする別のウエハ上の異なる領域を撮像した複数の画像を準備することが好ましい。又、上記画像は、上記レイアウト設計ルールで規定される最小寸法パターンを含み、上記リソグラフィ又はエッチングプロセスの最適条件で作成されたパターンに対して取得することが望ましい。
 次に、上記学習用元画像内の異なる位置において複数の学習用サブ画像を切り出す。学習用元画像を複数準備した場合は、各々において複数の学習用サブ画像を切り出す。ここで、上記学習用サブ画像の画角(例えばサブ画像の一辺の長さ)は、上記リソグラフィ又はエッチングプロセスの解像度、又は上記レイアウト設計ルールの最小寸法をFとしてF~4F程度とすることが好ましい。
 次に、上記切り出した複数の学習用サブ画像を教師データとする1個のオートエンコーダを生成する。以下に説明する実施例では、試料(ウエハ)の異なる位置から切り出される複数のサブ画像から、1のオートエンコーダを生成する。これは異なる位置の複数のサブ画像のそれぞれでオートエンコーダを生成するのではなく、異なる複数の位置のサブ画像を利用して1のオートエンコーダを生成することを意味するものであり、最終的に生成されるオートエンコーダの数が1に限定されることを意味するものではない。例えば後述する複数種の回路を含む半導体デバイスなどは、回路の出来栄えが異なる場合があり、それぞれの回路でオートエンコーダを生成することが望ましい場合がある。この場合は、それぞれの回路において、それぞれ複数の異なる位置のサブ画像を利用して、それぞれの回路のオートエンコーダを生成する。また、SEMの光学条件や半導体デバイスの製造条件等に応じて、複数のオートエンコーダを生成するようにしても良い。
 サブ画像は、異なる複数形状、或いは異なる複数位置から切り出される小領域画像であり、これら画像の入力に基づいて1のオートエンコーダを生成する。小領域画像には、半導体デバイスの背景、パターン、及びエッジが含まれ、且つ含まれるパターン或いは背景の数は1であることが望ましく、また、学習用画像、入力画像共に、同じプロセス条件、同じレイヤ、等々で生成された試料画像であることが望ましい。
 本例では、上記撮像画像を複数準備した後、全ての撮像画像に含まれる全ての学習用サブ画像を教師データとする1個のオートエンコーダを生成する工程について説明する。全学習用サブ画像の集合を、教師データ集合とテストデータ集合に分割し、テストデータ集合のデータでその精度を検証しながら、教師データ集合の画像データでオートエンコーダを学習させるようにしても良い。
 オートエンコーダは、教師データとして正常データを用いて、図3に示すような砂時計型のニューラルネットワークを学習させる。即ち、正常データを入力したとき、入力データ自体が出力されるように、ネットワークを学習させる。一般に、砂時計型のニューラルネットを用いることにより、ネットワークのくびれ部分では、情報量が正常データを正常データとして再現するために必要なレベルに抑えられる。このため、正常データ以外のデータが入力されると、これを正しく再現することができない。従って、入力と出力の差をとることにより、正常か異常かの判別を行うことができることが知られている。
 オートエンコーダは、エンコーダ(圧縮器)とデコーダ(復調器)からなり、エンコーダは入力データを隠れ層ベクトルと呼ばれる中間層に圧縮し、デコーダーは隠れ層ベクトルから出力データができるだけ元の入力データに近くなるように生成する。隠れ層ベクトルの次元は入力ベクトルの次元より小さいので、入力データの情報を圧縮した形態とみなせる。異常検知に応用する場合、オートエンコーダを教師データとして正常データを用いて学習させる。このとき、オートエンコーダは正常データを入力したとき正常データにできるだけ近い出力データを出力するが、それ以外のデータ、又は教師データにおいて出現頻度の低いデータを入力したときには、これらを正しく復元することは難しいことが知られている。従って、上記入力と出力を比較して、両者がある許容範囲で一致するかどうかを見ることにより入力データに含まれる異常の有無を判定する方法が知られている。
 オートエンコーダの構成としては、全結合型のマルチパーセプトロンまたはフィードフォワードニューラルネットワーク(FNN)、コンボリューショナルニューラルネットワーク(CNN)等を用いることができる。オートエンコーダにおける、層数、各層におけるニューロン数又はCNNのフィルター数、活性化関数等のネットワーク構成、ロス関数、最適化手法、ミニバッチサイズ、エポック数等の学習方法については、一般に知られている様々なものを用いることができる。
 発明者はオートエンコーダの特徴を活かして、半導体デバイスの欠陥検査を行う適切な方法、システム、及び非一時的コンピュータ可読媒体について検討を行った。その結果、発明者は電子顕微鏡等で取得された画像に含まれる半導体デバイスの形状は、広域であれば複雑であるが、狭域で見れば単純な形状であり、単純形状として捉えられる程度まで、画像領域を縮小し、その狭域画像をオートエンコーダの入力とすれば、高精度な比較画像生成に基づく欠陥検査が可能となるという考えに至った。
 例えば、或る狭画像領域内に含まれるパターンエッジと、狭画像領域の枠の交点(x1,y1,x2,y2)と、パターン内部と背景部分の境界(エッジ)の曲率rを、それぞれ4ビットで表現すると、原理的には20個程度のbinary neuronとなり、学習が容易になる。
 また、微細化の進む半導体デバイス故の特徴として、検査を要するパターンの大きさ(例えば線幅)に対して、検査の対象となり得る領域が極めて大きいことがあげられる。具体的な一例として、大きさが直径300mmの半導体ウエハを直径30kmの島と見立てた場合、検査対象となり得るパターンは木の枝1本に相当する。即ち、例えば全面検査を行う場合、木の枝1本を認識可能な分解能の画像を、島全体に亘って撮像する必要がある。更に、比較検査の場合、検査画像の比較対象となる参照画像を検査画像に応じて用意する必要がある。このような膨大な画像取得を高効率に可能とする手法が望まれる。
 本明細書では、主に半導体デバイスを撮像した画像について、上述のように単純形状と捉えることができる程度の狭領域に画像を分割し、その分割画像をオートエンコーダの入力とし、当該入力画像とオートエンコーダの出力画像を比較することによって欠陥検査を行う方法、システム、及び非一時的コンピュータ可読媒体について説明する。
 次に、前記レイアウト設計ルールに従って設計され、前記リソグラフィ又はエッチングプロセスを用いてウエハ上に転写した被検査パターンをSEMで撮像して検査画像(検査用元画像)を取得する。上記、検査用元画像から、前記学習用サブ画像と同じ画角で、複数の検査用サブ画像を切り出し、上記オートエンコーダに入力し、得られる出力画像(第1の画像)と入力した検査用サブ画像(第2の画像)の差から欠陥を検出する。検出方法としては、例えば、複数の検査用サブ画像の各々に対して、その入力と出力の乖離度を算出し、全サブ画像に対して図4に示すようなヒストグラムを作成し、その値がある閾値を越えたサブ画像を欠陥が存在する可能性の高い画像として出力する。上記乖離度としては、例えば、入出力画像において対応する各画素の輝度値の差の二乗を全画素に対して足し合わせた値を用いることができる。また入力と出力の比較に基づいて入力と出力の差分を求める他の手法を用いるようにしても良い。
 なお、検査画像に何らかの正常からの逸脱が発生すると、差分の程度毎の頻度を示すヒストグラムの形状に変化が生じる。例えば、特定の被検査画像内で上記閾値を越えたサブ画像が検出されない場合にも、例えばヒストグラムのテールが伸びる等して、乖離度閾値近傍における出現頻度の外挿値が増大すると、検査点近傍の検査画像を増やすと欠陥が検出されることが予想される。また、欠陥発生に至らなくても、上記ヒストグラムの形状はプロセス状態の変化に非常に敏感なので、欠陥発生に至る前に異常を検知してその対策を行うことにより、欠陥発生等の問題を未然に防止することができる。従って、上記形状の変化自体を、上記プロセスの正常度の指標とすることができる。形状変化の指標としては、ヒストグラム分布の平均値、標準偏差、歪度、尖度、さらに高次のモーメント等の数値を用いてもよい。
 コンピュータシステムは、図4に例示するような複数のサブ画像から抽出された乖離度(差分情報)毎の頻度のヒストグラムを表示装置上に表示するように構成されている。更にコンピュータシステムは、上記指標を用いてヒストグラムの形状を評価するように構成されていても良い。プロセス状態の変化を評価すべく、同じ製造条件で製造された半導体ウエハの過去の画像、当該画像から抽出されるヒストグラム、及びその形状データの少なくとも1つを参照データ(第1のデータ)として所定の記憶媒体に記憶しておき、新たに抽出されたヒストグラム、或いはその形状データ等(第2のデータ)と比較することによって、プロセス条件の経時変化をモニタすることができる。
 経時変化を評価するために、例えばもとのヒストグラム形状に対する歪度(形状変化の指標値)の経時変化をグラフ化し、それを表示或いはレポートとして出力するようにしても良い。また、図4に例示するように、同じ製造条件だけれども、製造タイミングが異なる半導体ウエハから抽出された複数のヒストグラムを併せて表示するようにしても良い。更に、歪度などが所定値を超えたときに警報を発生するようにしても良い。
 更に、差分情報毎の頻度情報の変化(ヒストグラム形状の経時変化など)情報と、異常原因、半導体製造装置の調整量、半導体製造装置の調整タイミングなどのデータセットを教師データとして学習させた学習器を用意し、当該学習器に差分情報毎の頻度情報を入力することによって、異常原因等を推定するようにしても良い。
 プロセス変動が顕著になると入力と出力の乖離度が大きな個所が増加することが考えられるので、例えば特定の乖離度の頻度を選択的に評価(例えば閾値判定)することによってプロセス変動を評価するようにしても良い。
 複数の検査用サブ画像は、検査用元画像の全領域をカバーすることが好ましい。さらに、複数の検査用サブ画像は、隣接する検査用サブ画像と共通の重複するエリアを持つことが好ましい。例えば、検査画像から検査用サブ画像を切り出す際、図5に示すように、縦横方向にサブ画像の画角の半分の距離ごとに画像を切り出す等する。隣接する2つ以上のサブ画像で欠陥が検出された場合、高い確率で欠陥が存在する可能性があると判定することもできる。このように同じ個所に複数のサブ画像領域が跨るように領域設定を行い、一部領域が重畳する複数のサブ画像領域で欠陥が認められる場合に、当該領域を高確率で欠陥が発生する領域として定義するようにしても良い。
 例えば図13に例示するように乖離度の程度に応じて、欠陥存在確率を表示するGUIを用意するようにしても良い。図13では画像取得領域1301の中で複数のサブ画像領域1302を、例えば重畳領域1303を設けつつ設定した例を示している。領域1305では、例えばサブ領域1302を、重畳領域1303を中心として4個所に設定している。4個所に設定されたサブ画像領域は、それぞれ他のサブ領域に一部が重畳するように設定され、重畳領域1303では4つのサブ領域が重畳された状態となっている。領域1306、1307も同様である。
 領域1305は、当該領域の内の右下に位置するサブ領域1308が、乖離度が大きい領域として抽出されている例を示している。図13では斜線で表現された領域が、乖離度が大きい領域として抽出されているものとして説明する。また、領域1306では左上、右上、及び右下の3つのサブ画像領域、領域1307では左上と右下の2つのサブ画像領域が、乖離度の大きい領域として抽出されている。乖離度の大きなサブ領域の数が多い程、欠陥発生確率が大きいと考えられるため、単位面積当たりの乖離度の大きな領域の数に応じた識別表示を、試料座標を定義するマップ上で行うことによって、欠陥存在確率を分布表示することができる。図13は、乖離度の大きな領域の数に応じて増減する棒グラフ1304を表示した例を示している。なお、欠陥存在確率を算出するのに、例えば乖離度の大きさに応じた重み付けを行うようにしても良い。また、複数のサブ領域の乖離度の統計量に応じた識別表示を行うようにしても良い。更に単位面積当たりの重畳領域の数や、乖離度が大きな領域の密集度に応じて欠陥存在確率を求めるようにしても良い。
 サブ画像位置(例えばサブ画像の中心座標)と上記乖離度の関係をプロットすることにより、元画像領域内における欠陥位置の分布を知ることができる。上記位置分布は欠陥発生のメカニズムを推測するのに有用である。又、乖離度の大きなサブ画像位置周辺のSEM画像を拡大出力することにより欠陥形状等の異常を直接確認することができる。この場合、図13に例示するような棒グラフ1304をGUI画面上で選択し、当該選択によって領域1305の画像を表示することによって、欠陥存在確率に応じた目視での確認が可能となる。
 さらに、欠陥の大きさが正常パターンに比べて比較的小さい場合、そのような欠陥を含む画像Idを入力したときのオートエンコーダの出力F(Id)は欠陥が無かったときの正常パターンI0に近くなる。従って、両者の差、ΔI=Id-F(Id)~Id-I0を求めることにより背景パターンから欠陥のみを抽出することができる。これにより欠陥の種類・形状を推定・分類することができる。このような差とパターン形状情報を教師データとして、DNN等を含む学習器を学習させることによって、学習器に、差分情報と設計データやSEM画像から抽出される形状情報(或いはパターンの形状に応じて割り当てられる識別情報)を入力することによって、欠陥の種類や形状を推定することが可能となる。
 次に、欠陥が検出されるメカニズムについて説明する。オートエンコーダでは、正常データを入力すると入力データ自体が出力されるように、教師データとして正常データを用いて、砂時計型のニューラルネットワークを学習させる。正常データ以外のデータが入力されると、これを正しく再現することができないので、入力と出力の差をとることにより、正常か異常かの判別を行う異常検知に応用できる。従って、半導体集積回路のパターンの検査SEM像等に適用することにより、パターンの異常検出等に適用することが考えられるが、以下の検討事項が存在する。
 図6に典型的なロジック半導体集積回路の配線層パターンの例を示す。このような回路パターンは通常あるレイアウト設計ルールに従って設計され、多くの場合、単純には縦横方向に延びる、最小寸法以上のパターン領域(線)及び非パターン領域(間隔(白抜き部分))からなる。このようなパターンのバリエーションの数は一般的に天文学的となる。例えば、許容されるパターン最小設計寸法を20nmとすると、一般的な測長SEMの撮像領域サイズである500nm角領域に上記最小寸法ピクセルは25×25=625個存在し、パターンバリエーションは2の625乗個存在する。実際には、他の様々な設計ルール制限によりバリエーションの数はこの値よりは少なくなるが、上記数が天文学的であることは変わりない。このような天文学的な数のバリエーションのパターンを正常に再現するようにオートエンコーダを構成し学習を行うことは、現実的には極めて困難である。又、さらに、ここに欠陥が存在する場合、その発生場所と欠陥の種類により、パターンと欠陥の組み合わせのバリエーションの数はさらに大きくなり、これをネットワークで学習することは極めて困難である。
 本例では、任意のレイアウト設計パターンから、ある限られた画角で領域を切り出す。切り出された画角に含まれるパターン(オブジェクト)は、対象パターンと切り出す領域の位置関係により様々に変化するが、領域の大きさを最小寸法の1~4倍程度(例えば1≦倍率≦4)の画角とすることにより、含まれるパターンは比較的単純なパターンに還元される。
 例えば、サブ領域をレイアウト設計ルール上の最小寸法を1辺とする正方形として、図7(a)に示すようなパターンの角部を切り出すことを想定する。角部に対してサブ領域の位置を様々に変えてパターンを切り取った時の、サブ画像の変化の様子を図7(b)に示す。例えば、サブ領域が図7(a)左に示すように完全にパターンの外側にある場合、サブ画像にはパターン領域が含まれない(図7(b)の左下に相当)。図7(a)左に示すように、サブ領域がパターン角部の端にある場合、サブ画像の左下にパターン領域が現れる(図7(b)の右上に相当)。
 このように、サブ領域をレイアウト設計ルール上の最小寸法を1辺とする正方形として、これで任意の設計パターンの任意の位置を切り出すと、その中には高々1個のパターン領域と非パターン領域しか含まれない。パターンを縦横方向に限定すると、そのバリエーションは、図7(c)に示すように、パターン領域と非パターン領域の縦方向境界線の座標x0、横方向境界線の座標y0、上記2つの境界により規定される4つの領域A、B、C、Dの各々のパターン領域又は非パターン領域への割り振り方、で規定される。
 サブ領域の一辺を20nmとして設計の粒度を1nmとすると、バリエーションの数は高々、20×20×2の4乗=6400程度となり、前記500nm角領域内のパターンバリエーションの天文学的な数に比べて格段に小さくなる(前記500nm角領域内のパターンバリエーションは20nmの設計粒度で計算したので、1nmの設計粒度で考えると差はさらに拡大する)。
 次に、任意の設計パターンをウエハ上に転写した後のパターンに対して、その任意の位置でサブ領域を切り出した場合を考える。一般的に、リソグラフィープロセスは2次元平面における空間周波数に対するローパスフィルタと考えることができる。
 このような前提から、解像限界寸法以下のパターンは転写されず、また、図8(a)に例示するように、パターンの角部は丸みを帯び、曲率半径はある限界以下にはならない。レイアウト設計ルールの最小寸法は上記解像限界より大きく設定されるので、パターンが正常に転写された場合、サブ領域内には高々1個のパターン領域と非パターン領域しか含まれず、その境界は上記限界曲率半径以上の曲率半径を持つ曲線となる。かかるパターンのバリエーションの数も、図8(c)に示すように、近似的に、サブ領域外周と上記境界の両端の交点座標(x1,y1)、(x2,y2)、及び上記曲率半径rにより規定され、前記サブ領域内設計パターンのバリエーション数のオーダーと同程度となる。発明者の検討によれば、バリエーションの数をこの程度に抑えることにより、正常な入力パターン像を出力に再現するオートエンコーダ―を、計算可能な規模のニューラルネットワークが構成できる。
 一方、転写されたパターンに、解像限界寸法以下の部分や、曲率半径が限界値以下となった部分が現れた場合、そのような部分は何らかの異常が発生したものとみなすことができる。上記オートエンコーダ―を、正常転写像以外の画像が入力されると正しく再現しないように構成することにより、上記異常パターンが入力された場合、入力と出力の差が増大するので、これを検出することにより異常が発生した可能性を検知することができる。
 上記説明では、切り出すサブ画像の大きさを1辺が最小設計寸法の正方形としたが、これは説明を簡潔にするための仮定であって、実際にはこれに限らない。例えば、1辺が最小設計寸法より大きい場合、そこに含まれるパターンのバリエーションの数は、上記説明の値より大きくなるが、オートエンコーダの構成及び学習が可能な範囲であれば、上記説明が成り立つ。但し、サブ画像の1辺の長さは、設計パターンの最小寸法の2~4倍、又は、転写に用いられるリソグラフィ又はエッチングプロセスの解像限界寸法の2~4倍以下であることが好ましい。上記解像限界寸法Wは、リソグラフィに用いられる光の波長λ、光学系の開口数NA、照明方法やレジストプロセスに依存する比例定数k1、エッチングプロセスの空間周波数倍率増幅率Meにより、
Figure JPOXMLDOC01-appb-M000001
と表される。Meは、リソグラフィで形成されたパターンをそのままエッチングする場合は1、所謂SADP(Self-Aligned Double Patterning)やLELE(Litho-Etch-Litho-Etch)プロセスの場合1/2、LELELEプロセスの場合1/3、SAQP(Self-Aligned Quadruple Patterning)プロセスの場合0.25となる。このようにMeはマルチパターニングの種類や原理に応じて決まる値である。
 サブ領域の大きさを適切に選択するために、例えばコンピュータシステムの記憶媒体に、数2を記憶させておき、入力装置等から必要情報を入力することにより、適正なサブ画像の大きさを選択するようにしても良い。
Figure JPOXMLDOC01-appb-M000002
 Mは上述のようにパターンの最小寸法に対する倍数(例えば2≦倍数≦4)である。なお、必ずしも全ての値を入力する必要はなく、例えば、露光に使用する光の波長を固定的に使用しているような場合は、既入力情報として扱い、その他の情報を入力することによって、サブ画像の大きさを求めるようにしても良い。また、上述のようにレイアウトパターンの寸法の入力に基づいてサブ領域の大きさSI(一辺の長さ)を計算するようにしても良い。
 上記オートエンコーダの学習では、様々なバリエーションの正常パターンを教師データとして用いる必要がある。本説明では、最小許容寸法で設計されたパターンを含む様々な転写パターンの画像を、異なる様々な位置で切り出すことにより、上記バリエーションをカバーすることができる。例えば、図8(b)に示すように、角部に丸みを持つ長方形パターンを、点線で示すウィンドウの位置を様々に変えて切り出すことにより、図8(c)に示すようなバリエーションの学習用サブ画像を生成することができる。また、異なる様々な角度で切り出したパターンを加えてもよい。
 さらに、実際の転写パターンを、意図した設計寸法と厳密に一致させることは難しいので、設計上定められた範囲内での変動が許容される。この許容範囲内にある転写パターンは正常と判断されなければならない。又、実際の転写パターンのエッジには、ラインエッジラフネスとよばれるランダムな凹凸が存在する。このラインエッジラフネスについても、設計上定められた範囲の凹凸が許容される。この許容範囲内にある転写パターンは正常と判断されなければならない。これらの寸法及びエッジの凹凸の様相は、ウエハ上の場所により変化する。このため、同一又は異なるウエハ上に存在する、同一設計または類似設計の様々なパターンを、異なる様々な位置で切り出すことにより、これらの正常な範囲内のバリエーションをカバーすることができる。
 さらに、SEM等で画像を取得するとき、ウエハステージの位置決め精度等により画角とパターンの相対位置関係が様々に変化する。このため、SEM画像から取得したサブ画像の画角とそこに含まれるパターンの相対位置関係も様々に変化する。これら様々な相対位置関係に対して、正常パターンは正常と判断されなければならない。同一設計または類似設計の様々なパターンを、異なる様々な位置で切り出すことにより、これらの正常な範囲内のバリエーションをカバーすることができる。
 次に、欠陥検出の正解率を上げるための基本的な考え方について説明する。正解率を上げるには、まず、上記オートエンコーダは、正常パターンに対するオートエンコーダの入出力の乖離度を小さく抑えつつ、異常パターンに対する乖離度ができるだけ大きくなるように構成、かつ学習することが望まれる。
 上記構成の極端な例として、第1に、入力と出力を直接つないで入力をそのまま出力した場合、正常パターンも異常パターンもそのまま出力するので、出入力の差異により両者を判別することはできない。次に、第2の極端な例として、前記砂時計型ネットワークのくびれのニューロン数を1個とした場合、通常、入力パターンのバリエーションを表現しきれない恐れがある。この場合、正常パターンに対しても乖離度が大きくなってしまう。従って、くびれ部分の層のニューロン数を、入力を再現するために必要な最小限に設定することが望ましい。一般的にオートエンコーダを含む深層学習では、このような個々の目的に最適なネットワークの構成を理論的に求めるのは難しい。従って、くびれ部分の層のニューロン数をはじめとするネットワークの構成は、試行錯誤により設定する必要がある。
 次に、正解率を劣化させる要因について述べる。パターン領域又は非パターン領域がサブ画像の画角(Field Of View:FOV)の端部に存在して、オートエンコーダにより再現されずに異常として検知されることがある。この場合、上記パターン領域又は非パターン領域の幅が本当に異常に小さいのか、あるいは正常な幅のパターン領域又は非パターン領域の端部が上記サブ領域に重なっているのかを判別することは難しく、後者の場合、誤検知となる。この誤検知は、上記サブ画像に隣接する、望ましくは重複部分をもって隣接するサブ画像における異常判定を併せて考えることにより解決される。
 上記パターン領域又は非パターン領域の幅が真に異常に小さいのであれば、上記隣接サブ画像においても、異常として検知される。一方、正常な幅のパターン領域又は非パターン領域の幅が正常範囲の内にあれば、上記隣接サブ画像では異常検知されない。従って、図5に示すように、検出用サブ領域の送りピッチをサブ領域の画角より小さく設定し、隣接するサブ画像で同時に異常が検知された場合を真の異常と判断することにより、正解率が向上する。
 図14は、サブ画像領域に重畳領域を設ける(サブ画像領域の送りピッチを画角より小さく設定する)ことによって、正解率が向上する原理を説明する図である。図14の例では、画像取得領域1301上のサブ画像領域(1401~1404)の送りピッチが当該サブ画像領域の半分である場合を例示している。図14では領域1305、1307に含まれるサブ画像領域1401、1403、1404にて異常が検知され、サブ画像領域1402では異常が検知されなかった例を示している。上述のように領域1305では異常が検知されたサブ画像領域1401に隣接するサブ画像領域1402では異常が検知されていないので、領域1307と比較して相対的に異常ではない可能性が高い。このような判断手順を含ませることによって、異常の正解率向上や異常の確率を定量的に評価することができる。
 また、図14の例の場合、1の重畳領域について4つのサブ画像領域が設定されることになるが、欠陥が存在する位置を中心として異常が検知されるサブ画像が集中と考えられる。よって、異常が検知されたサブ画像の位置毎の頻度(例えば単位面積当たりの異常画像の数)を評価することによって欠陥が位置すると考えられる位置を特定するという効果も期待できる。
 次に、オートエンコーダを含む検査システムについて、図9を用いて説明する。本システムは、走査電子顕微鏡と、そこから出力される画像データを保存、データ処理するための1以上のコンピュータシステムより構成されている。当該コンピュータシステムは、所定のコンピュータ読み取り可読媒体に記憶されたプログラムを読み出し、後述するような欠陥検出処理を実行するように構成されている。コンピュータシステムは、走査電子顕微鏡と通信可能に構成されている。コンピュータシステムは、1以上の伝送媒体で走査電子顕微鏡に接続され、走査電子顕微鏡と離間した位置に設置されても良いし、走査電子顕微鏡のモジュールとするようにしても良い。
 まず、走査電子顕微鏡は、最適条件で作成したウエハパターンを撮像して画像データをコンピュータシステムへ転送する。コンピュータシステムは、上記画像を学習用画像として保存し、上記学習用画像からオートエンコーダを生成する。次に、走査電子顕微鏡は、検査対象ウエハパターンを撮像し、画像データをコンピュータシステムへ転送する。コンピュータシステムは上記画像を検査用画像データとして保存するとともに、上記検査用画像データから上記オートエンコーダを用いて欠陥を検出する。更にコンピュータシステムは、検査結果、検査条件、電子顕微鏡画像等の少なくとも1つを表示装置に表示させるための信号を出力する。表示装置は当該信号に基づいて必要な情報を表示する。
 検査用画像の撮像並びにサブ画像生成・乖離度算出に関しては、図10に示すようにパイプライン方式処理と並列計算を組み合わせる等してもよい。即ち、前記走査電子顕微鏡は、撮像レシピに従い検査用ウエハ上のある指定位置の画像を撮像する。上記各位置の撮像後直ちに、各画像を前記コンピュータシステムへ転送するとともに、撮像レシピに従い次の指定位置の画像を撮像する。コンピュータシステムは、逐次転送された画像から複数のサブ画像を生成しサブ画像毎に乖離度を算出する。ここで、複数サブ画像に対する乖離度算出は並列処理してもよい。
 図11に例示する走査電子顕微鏡は、電子源801から引出電極802によって電子ビーム803が引き出され、不図示の加速電極により加速される。加速された電子ビーム803は、集束レンズの一形態であるコンデンサレンズ804により絞られた後、走査偏向器805により偏向される。これにより、電子ビーム803は、試料809上を一次元的又は二次元的に走査する。試料809に入射する電子ビーム803は、試料台808に内蔵された電極に、負電圧を印加することによって形成される減速電界により減速されると共に、対物レンズ806のレンズ作用により集束されて試料809の表面を照射される。
試料室807内部は真空が保たれている。
 試料809上の照射箇所からは電子810(二次電子、後方散乱電子等)が放出される。放出された電子810は、試料台808に内蔵された前記電極に印加された負電圧に基づく加速作用により、電子源801の方向に加速される。加速された電子810は変換電極812に衝突し、二次電子811を発生させる。変換電極812から放出された二次電子811は、検出器813により捕捉され、捕捉された二次電子量により検出器813の出力Iが変化する。この出力Iの変化に応じ、表示装置の輝度が変化する。例えば二次元像を形成する場合には、走査偏向器805への偏向信号と、検出器813の出力Iとを同期させ、走査領域の画像を形成する。
 なお、図811に例示するSEMは、試料809から放出された電子810を変換電極812において二次電子811に一端変換して検出する例を示しているが、無論このような構成に限られることはなく、例えば加速された電子の軌道上に、電子倍像管や検出器の検出面を配置する構成を採用しても良い。制御装置814は、撮像レシピと呼ばれるSEMを制御するための動作プログラムに従って、上記SEMの各光学要素に必要な制御信号を供給する。
 次に検出器813で検出された信号はA/D変換器815によってデジタル信号に変換され、画像処理部816に送られる。画像処理部816は、必要に応じて、複数の走査によって得られた信号をフレーム単位で積算することによって積算画像を生成する。ここで、走査領域の1回の走査で得られる画像を1フレームの画像と呼ぶ。例えば、8フレームの画像を積算する場合、8回の2次元走査によって得られた信号を画素単位で加算平均処理を行うことによって、積算画像を生成する。同一走査領域を複数回走査して、走査毎に1フレームの画像を複数個生成して保存することもできる。生成された画像は、画像転送装置により、外部のデータ処理コンピュータに高速画像転送される。先に説明したように、画像転送は、撮像とパイプライン方式で並列に行ってもよい。
 さらにまた、各パターンの計測値や各画素の輝度値等を保存する記憶媒体819を有する全体制御はワークステーション820によって行われる、必要な装置の操作、検出結果の確認等がグラフィカルユーザーインタフェース(以下、GUIと表記する)によって実現できるようになっている。また、画像メモリは、走査偏向器805に供給される走査信号に同期して、検出器の出力信号(試料から放出される電子量に比例する信号)を、対応するメモリ上のアドレス(x,y)に記憶するように構成されている。なお、画像処理部816は、必要に応じて、メモリに記憶された輝度値からラインプロファイルを生成し、閾値法等を用いてエッジ位置を特定し、エッジ間の寸法を測定する演算処理装置としても機能する。
 学習条件(トレーニング条件)を設定するGUI画面を図16に例示する。図16に示すGUI画面では、トレーニング用画像と各画像に付随するメタデータが置かれたファイル名、或いはフォルダ名を設定できる設定欄1601が設けられている。ここでの設定に基づいてコンピュータシステムは、画像データとメタデータを内蔵する、或いは外部の記憶媒体から読み出し、付属情報表示欄1606、SEM画像表示欄1607にそれぞれ表示する。更に図16に例示するGUI画面上には、サブ画像の寸法Lsub(画角)を設定する設定欄1602が設けられている。なお、設定欄1602から画像に含まれるパターンの最小寸法Fや、これを単位とする係数nを入力するようにしても良い。この場合、所定の計算式(サブ画像サイズ=F×n(1≦n≦4))に基づいて、サブ画像の寸法を計算する。また、サブ画像のピクセル数Npxl(縦横の少なくとも一方の画素数、或いは総画素数)の少なくとも1の入力が可能な入力欄とするようにしても良い。寸法、パターンの最小寸法、ピクセル数等のサブ画像の寸法に関する複数のパラメータの1つ或いは複数を選択可能とするようにしても良い。
 図16に例示するGUI画面には、更にサブ画像間のピッチPsを設定する設定欄1603が設けられている。設定欄1603では設定欄と同様のパラメータの入力を可能とするようにしても良いし、サブ画像周囲の排除領域幅Wexcl(サブ画像として取得しないサブ画像間の間隔幅)の入力を可能とするようにしても良い。また、複数のパラメータを併せて入力可能とするようにしても良い。更に図16に例示するGUI画面上には、設定欄1601~1603等で設定される条件で切り出されるサブ画像の中から、選択するサブ画像の枚数を設定するための設定欄1604が設けられている。ここで学習に供するサブ画像の数を設定することになるが、設定値が設定可能な最大サンプル(サブ画像)数(=((Lo-2Wexcl-Lsub)/Ps)、Loは元画像の一辺の長さ)を超えるときは、コンピュータシステムは、その旨を通知する、或いは設定可能な最大サンプル数に設定する。なお、トレーニング時間を考慮して全てのデータを使用しない等の対応も可能である。
 更に図16に例示するGUI画面上には、ニューラルネットワークの種類を設定する設定欄1605が設けられている。設定欄1605で設定可能なニューラルネットワークは、例えばAuto Encoder(AE)、Convolutional Auto Encoder(CAE)、Variational Auto Encoder(VAE)、Convolutional Variational Auto Encoder(CVAE)などがある。これらのモジュールはコンピュータシステムに内蔵、或いは記憶されている。
 また、Latent dimension、Encoding dimension、段数、各段のニューロン(又はフィルタ)数、活性化関数など、ニューラルネットワークの構成に関するパラメータ、ミニバッチサイズ、エポック数、ロス関数、最適化手法、トレーニングデータ数と検証用データ数の割合など、最適化パラメータの設定が可能な設定欄を設けるようにしても良い。更にモデル構成及びネットワークの重み係数保存ファイル名やフォルダ名を設定する設定欄を設けるようにしても良い。
 更にGUI画面上には、トレーニング結果を目視で判断可能な表示欄を設けておくことが望ましい。具体的には乖離度のヒストグラムやトレーニング用の各画像の乖離度の面内分布である。これらの情報は例えばタグ1608、1609を選択することによって表示可能とするようにしても良い。更に付帯情報として、モデル構成及びネットワークの重み係数保存ファイルやフォルダ名を併せて表示するようにしても良い。
 また、図16は学習条件を設定するGUIとして説明したが、検査条件を設定するGUI画面でも、検査対象画像と各画像に付帯するメタデータが置かれたフォルダ、サブ画像のサンプリングピッチPs、画像周囲の排除領域幅Wexcl、検査に用いるモデル構成、ネットワークの重み係数のファイル名、欠陥判定に用いる乖離度の閾値、検査結果データを保存するファイル名、フォルダ名などを設定可能とすることが望ましい。
 上述のようなGUIを用いた設定を可能とすることによって、適切な学習条件や検査条件のもと、モデルの生成と欠陥検査を行うことが可能となる。
 以下に、オートエンコーダを用いた欠陥検出法の適用例を示す。
 [適用例1]
 波長13.5nmのEUV光を用いたNA0.33の露光装置とレジスト処理装置により、ロジック回路及びSRAM等を含むロジックLSI(半導体集積回路)の配線層パターンを、所定の下地層上にEUV用レジストを塗布したウエハに露光して、レジストパターンを形成した。露光量、フォーカス、レジスト処理条件等に関し、あらかじめ求めた所定の最適条件を用いた。ウエハ周辺部を避けたウエハ面内の複数個所で、ロジック回路部、及びSRAM部を、図11に例示するようなSEMを用いて撮像し、データ処理用コンピュータに転送して学習用元画像として保存した。
 学習用元画像のピクセルサイズは1nm、FOVは2048nm(一辺の長さ)とした。次に、取得した全ての学習用元画像の各々において、縦横方向に10nmの送りピッチで、50nm角の学習用サブ画像を39601個切り出した。
 次に、データ処理用コンピュータで、以下のオートエンコーダを構成した。入力は画像ピクセルの輝度値(グレーレベル)を各要素の値とする2次元画像データを1次元化した長さ2500のべクトル、オートエンコーダのネットワーク構成は、ニューロン数が入力側から、256、64、12、64、256の全結合層で、最終出力は入力と同じ長さ2500のべクトルとした。また、最終層を除く各層の活性化関数はReLUとした。上記学習用サブ画像の80%をランダムに選択して教師データとし、学習を行った。ロス関数としてmean square error、最適化アルゴリズムとしてRMSPropを用いた。なお、ピクセルサイズ、元画像サイズ、サブ画像サイズ、ネットワーク構成、学習方法等は、上で示したものに限らない。
 次に、上記ウエハの周辺部で、最小寸法含むパターンの検査用元画像を取得した。又、同じ材料及びプロセス装置で検査用FEM(Focus Exposure Matrix)ウエハを作成し、所定の最適条件から外れた様々な露光・フォーカス条件で形成された最小寸法含むパターンの検査用元画像を取得した。
 FEMウエハとは、ウエハ上にフォーカスと露光量を様々に振った条件でチップを露光転写したものである。これらの検査用元画像の各々において、縦横方向に20nmの送りピッチで、50nm角の検査用サブ画像を9801個切り出した。これらの検査用サブ画像の各々を上記オートエンコーダに入力し、出力を計算した。入力ベクトルと出力ベクトルの乖離度を、入力ベクトルと出力ベクトルの対応する各要素の偏差の二乗の総和により計算した。全ての検査用サブ画像の乖離度のヒストグラムを作成し、乖離度が閾値以上の検査用サブ画像を抽出した。
 さらに上記抽出した検査用サブ画像のうち、隣接するものを抽出し、互いに隣接するサブ画像中心の平均座標を欠陥懸念点の座標として保存、出力した。また、上記位置を中心とする(上記隣接して差分が閾値を越えるサブ画像を含む)画像を出力した。上記欠陥懸念点の画像を確認したところ、いわゆるstochastic欠陥が認められた。欠陥懸念点の出現頻度は、ウエハの周辺部において、また露光・フォーカス条件が最適点からはずれるにつれ増大した。これにより、ウエハ上で所定の歩留まりが得られる有効面積範囲や露光・フォーカス条件を明らかにした。
 [適用例2]
 本実施例では、第1実施例においてパターンの撮像に用いたSEMに代えて、相対的に大きなビームの偏向(走査)が可能なSEMを撮像デバイスとして用いた。学習用元画像及び検査用元画像のピクセルサイズは2nm、FOVサイズは4096nmとした。学習用元画像の各々において、縦横方向に10nmの送りピッチで、48nm角の学習用サブ画像を163,216個切り出した。同様にして、縦横方向に12nmの送りピッチで、48nm角の学習用サブ画像を113,569個切り出した。検査用サブ画像については、画像毎に、縦横方向に20nmの送りピッチで、48nm角の学習用サブ画像を40,804個切り出した。
 本実施例ではオートエンコーダにコンボリューショナルニューラルネットワーク(CNN)を用いた。入力は、各ピクセル輝度値(グレーレベル)を要素とする2次元画像データ(30×30の2次元配列)、オートエンコーダのネットワーク構成は、畳み込みフィルター数が入力側から、12, 12, 12, 12, 12, 12, 12, 12, 1の9層とし、畳み込みフィルターのサイズは3×3とした。前半2層の各畳み込みの後段には3×3のmax pooling層、続く2層の各畳み込みの後段には3×3のmax pooling層、後半2層の各畳み込みの後段には2×2のup sampling層、続く2層の各畳み込みの後段には3×3のup sampling層を設けた。
 又、これらmax pooling層及びup sampling層の後段には、活性化関数ReLUを設けた。最終層の活性化関数はsigmoid関数とし、ロス関数としてbinary_crossentropy、最適化アルゴリズムとしてAdamを用いて、ネットワークを学習させた。
 次に、学習に用いたウエハと同じレイアウトルールで設計された別のマスクを、学習用ウエハと同じリソグラフィ又はエッチングプロセスを用いてウエハ上に転写したパターンを検査した。本実施例により、第1適用例同様の欠陥検査を、広い面積範囲のパターンに対して短時間で行うことができた。本実施例に関しても、撮像条件、画像切り取り方法、オートエンコーダのネットワーク構成、学習方法等、上に示したものに限らない。例えば、変分オートエンコーダ、コンボリューショナル変分オートエンコーダ等を用いてもよい。
 第1適用例、及び第2適用例にて説明したような検査では、Die to data base検査法のように設計データを必要としない。しかしながら、検出されたパターン異常が集積回路の性能劣化や機能不良等に及ぼす影響を調べるには、パターン異常を設計データと比較して判断することが望ましい。上記判断作業は通常、本方法による検査が行われる集積回路の製造工程ではなく、回路設計部門もしくは歩留まり管理部門等で行われる。そこで、本方法により製造工程で抽出された異常パターンのウエハ内チップ内座標と画像データを、設計データを保持する回路設計部門もしくは歩留まり管理部門等へ伝送してもよい。回路設計部門もしくは歩留まり管理部門等では、上記座標と画像に基づき検出された異常が回路性能及び機能上、許容できるか判断し、許容できない場合には必要な対策を講じる。このようにすることにより、本方法では、製造工程で設計データを保持することなく、設計データに基づく歩留まり管理を行うことができる。
 図15に例示するように、通常、半導体ウエハのパターンは、設計部門で設計された設計データをもとに作成されたフォトマスクを用いたリソグラフィ等によって、生成される(ステップ1501)。製造部門では、レジストパターン等をCD-SEM等の計測、検査装置で評価し、適正な条件のもと製造が行われているか、評価する。上述のような適用例では製造部門で製造された半導体デバイスパターンについてSEM画像を取得(ステップ1502)し、サブ画像の切り出しの上、オートエンコーダを用いた検査を行う(ステップ1503)。
 製造部門では、オートエンコーダを用いた検査を行い、異常と見做せるパターン等が撮像された画像データを選択的に設計部門や歩留まり管理部門に伝送する。設計部門では、製造部門から伝送されてきた画像データを読み込み(ステップ1505)、半導体デバイス設計時に設計し、保有する設計データとの比較検査を実行する(ステップ1506)。なお、比較検査のために設計データを、レイアウトデータとして線図化する。また、画像データに含まれるパターンエッジを細線化(輪郭線化)しておく。
 設計部門では、上記比較検査に基づいて設計変更を検討するのか、製造条件の見直し等によって、設計変更することなく、製造を継続するのかを判断する。
 製造部門側のコンピュータシステムは、オートエンコーダによる検査と、検査結果に基づく設計部門へのレポートの作成を実行する(ステップ1504)。設計部門へのレポートは、例えば異常が発見された位置の座標情報と、SEM画像を含み、それに製造条件やSEMの装置条件(観察条件)などを含むようにしても良い。また、図4に例示したような乖離度の頻度分布や、周囲の欠陥発生確率などの情報をレポートに含めるようにしても良い。
 一方で設計部門側のコンピュータシステムは、比較検査と、検査結果に基づくレポートの作成を実行する(ステップ1508)。レポートには、比較検査結果を含み、それに比較検査の結果特定された欠陥種や、検査条件などを含ませるようにしても良い。更に、設計部門側のコンピュータシステムは、比較検査結果と過去のフィードバック履歴(設計変更したか製造条件の調整で対応したかなど)のデータセットによって学習されたDNN等の学習器を含むようにしても良い。学習器に比較検査結果(輪郭線データとレイアウトデータの対応位置の差分情報など)を入力することによって、設計データの修正、修正の方針、製造条件の修正の方針などを出力する(ステップ1507)。なお、学習器は比較検査結果とフィードバック方針との関係を記憶するデータベースに置き換えることもできる。
 [適用例3]
 波長13.5nmのEUV光を用いたNA0.33の露光装置とレジスト処理装置により、DRAMのワード線層マスクを所定の下地層上にEUV用レジストを塗布したウエハに露光して、レジストパターンを形成した。露光量、フォーカス、レジスト処理条件等に関し、あらかじめ求めた所定の最適条件を用いた。ウエハ周辺部を避けたウエハ面内の複数個所で、メモリセル部を、適用例2と同様に広FOV対応SEMを用いて撮像し、データ処理用コンピュータに転送、学習用元画像として保存した。しかる後、適用例2と同様に学習用サブ画像を生成し、これを用いてオートエンコーダを作成した。
 次に、上記DRAMの量産ラインの上記ワード線露光プロセスにおいて、所定の頻度でウエハを抜き取り、上記ウエハ面内の所定の複数位置で検査用画像を取得し、上記学習用サブ画像と同一サイズの検査用サブ画像を生成した。上記検査用サブ画像を上記オートエンコーダに入力し、その出力との乖離度を算出した。乖離度から欠陥可能性の高い箇所を抽出し、その検査画像内での分布を求めたところ、ランダムに出現する欠陥と、線状に集中して分布する欠陥の2つのケースが見られた。
 上記箇所の拡大SEM画像を解析した結果、前者はEUVレジストで露光条件が変動したことに起因するストカスティック欠陥であるのに対し、後者は露光プロセス中の異物に起因する欠陥であることが明らかになり、各々対策を行いことにより欠陥発生を低減した。
 本適用例では、学習用パターンと検査対象パターンを特定LSIの特定プロセス層パターンに固定したが、この場合でも、異なる位置で取得した複数像の入力によって学習を行うことにより、検査画像の位置ずれ、許容範囲内の寸法変動及びLER(Line Edge Roughness)を正常と判断するオートエンコーダを生成することができる。
 [適用例4]
 適用例1で学習用元画像取得のためのウエハを準備した際と同様の方法により作成したウエハを、パターン付きウエハ用光学式欠陥検査装置を用いて検査して、欠陥可能性のある位置を出力した。出力されたウエハ面内位置を中心に、レビューSEMを用いてパターン観察像を撮像し、適用例1で作成したオートエンコーダを用いて欠陥検出を行った。上記欠陥検出された箇所のサブ画像に対して、オートエンコーダの入力画像と出力画像の差分画像を出力した。その結果、様々な欠陥は、上記差分の元画像の画角内における分布において、局所的な(点状の)凸部又は凹部、パターン間にまたがる線状の凸部又は凹部、パターンエッジに沿った線状の凸部又は凹部、パターンエッジに沿った凹凸、画像全体に広がる細かい凹凸、画像全体に広がるなだらかな凹凸、等に分類された。これらは順に例えば、微小異物、パターン間のブリッジ又はパターンの分離、パターンエッジのシフト、パターンエッジのラフネス、画像のノイズ、画像輝度のシフトを示唆する。
 [適用例5]
 適用例3で学習用元画像取得のためのウエハを準備した際と同様の方法により作成したウエハに対し、そのウエハ全面のDRAMメモリセル領域を、パターン付きウエハ用光学式欠陥検査装置を用いて検査して、ヘイズレベルのウエハ面内分布を計測した。ヘイズレベルが所定の閾値より高い領域に対して、適用例2に示した方法で欠陥検査を行った。
 [適用例6]
 適用例1で学習用元画像取得のためのウエハを準備した際と同様の方法により作成したウエハに対して、パターン設計情報、上記情報に基づくパターンシミュレーション、露光装置等のプロセス装置からのフォーカスマップ等の出力情報、又は、ウエハ形状等の各種計測機の出力等から、欠陥発生の危険領域をあらかじめ推定した。推定された欠陥発生危険度の高い領域に対して、適用例2に示した方法で欠陥検査を行った。
 [適用例7]
 適用例1から適用例6において、欠陥検査により抽出された欠陥懸念点座標を含むパターン画像から、所謂ADC(Auto Defect Classification)を用いて欠陥の判定及びその種類を分類した。欠陥の種類としては、パターン線間のブリッジ、パターン線の破断、孤立パターンの消失、LERの許容値越え、パターン線の局所的なうねり、その他のパターン寸法形状変動、各種異物欠陥、等を判定した。オートエンコーダを用いた検査法によれば、パターンの異常を、ゴールデン画像や設計情報等を用いることなく高速に抽出することができる。これをADC等の他の方法と組み合わせることにより、抽出された欠陥を分類・解析して、欠陥発生の原因解析と対策を行うことができる。
 例えばオートエンコーダによって異常が見られた部分のSEM画像について選択的に比較検査やADCを行うことによって、検査の効率化を図ることができる。また、通常検査とオートエンコーダの検査の双方を行うことによって、より欠陥の検出確度を向上させることができる。
 [適用例8]
 適用例1等で説明したように、オートエンコーダを用いた検査は、正常パターンからの逸脱を、ゴールデン画像や設計情報等を用いることなく高速に抽出する。即ち、図12(a)に示すように、検査画像から切り出したサブ画像をオートエンコーダに入力し、その出力と上記入力を比較判別することにより、上記サブ画像の欠陥・無欠陥を判別する。
 しかしながら、欠陥発生の原因解析と対策を行うためには、さらに抽出された欠陥の種類に関する情報を取得することが望ましい。そこで、本適用例では、抽出された欠陥の種類(パターン線間のブリッジ、パターン線の破断、孤立パターンの消失、LERの許容値越え、パターン線の局所的なうねり、その他のパターン寸法形状変動、各種異物欠陥、等)を分類するために、以下の2つの方法を試みた。
 第1の方法では、まずオートエンコーダにより欠陥懸念点を抽出する。次に、上記欠陥懸念点近傍のパターン画像について選択的に、ADCを用いて欠陥の分類・判定を行なう。上記ADCとしては、例えば、画像解析法とSVM(サポートベクターマシン)等の機械学習の組み合わせや、教師あり機械学習(CNNを用いた深層学習)等の様々な手法を用いることができる。この方法を用いて、上記各種欠陥の種類を判定した。
 1以上のコンピュータシステムは、ADCモジュールとオートエンコーダを含むモジュールを備えることによって、欠陥の候補となり得る部分の抽出を高速に行うことができ、欠陥分類に至るまでの作業を効率化することが可能となる。
 第2の方法では、第1の方法のようにオートエンコーダとADCを2段階に分けて適用することなく、図12(b)に示すような1個の欠陥分類ニューラルネットワークを用いて1度に欠陥分類・判定を行う。図12(b)の欠陥分類ニューラルネットワークはオートエンコーダ部と比較分類部から構成される。検査対象のSEM画像から、適用例1から適用例7で説明したように多数のサブ画像を生成し、各サブ画像を図12(b)の欠陥分類ネットワークに入力する。上記ネットワーク内では、まず、上記各サブ画像がオートエンコーダ部に入力され、次に、得られたオートエンコーダ出力と元の上記サブ画像が同時に比較分類部に入力される。比較分類部は、例えばオートエンコーダ出力と元のサブ画像の結合ベクトル又は行列を入力とするマルチパーセプトロンやCNN等のニューラルネットで、入力サブ画像が無欠陥又は各種欠陥を含む確率を出力する。
 上記欠陥分類ネットワークの学習は次のように行う。まず、オートエンコーダ部は、適用例1から適用例7で説明したように、正常範囲のパターンから生成したサブ画像を入力したとき、できるだけ入力を再現出力するように学習される。次に、欠陥を含む多数の画像をオートエンコーダ部に入力し、欠陥画像の教師データを作成する。
 具体的には、欠陥抽出されなかったサブ画像に対しては無欠陥(出力番号=0)、欠陥抽出されたサブ画像に対しては対応する欠陥種類(出力番号=1、2、…)のマーク付けを行う。なお、教師データ作成は、オートエンコーダ出力を参照せずに別の方法で行ってもよい。次に、上記欠陥を含む多数の画像を、欠陥分類ネットワークの全体に入力し、上記教師データを用いて学習を行う。但し、このとき、オートエンコーダ部のネットワークは固定し、比較分類部のネットワークのみを学習させる。この方法でも、パターン線間のブリッジ、パターン線の破断、孤立パターンの消失、LERの許容値越え、パターン線の局所的なうねり、その他のパターン寸法形状変動、各種異物欠陥、等を判定できた。
 なお、上記第2の方法では、オートエンコーダ部と比較分類部を明示的に分割し、各々の学習を別個に行ったが、図12(c)に示すように、1個のネットワークとして取り扱い学習させてもよい。
801…電子源、802…引出電極、803…電子ビーム、804…コンデンサレンズ、805…走査偏向器、806…対物レンズ、807…試料室、808…試料台、809…試料、810…電子、811…二次電子、812…変換電極、813…検出器、814…制御装置、815…A/D変換器、816…画像処理部、817…CPU、818…画像メモリ、819…記憶媒体、820…ワークステーション

Claims (15)

  1.  半導体ウエハ上の欠陥を検出するように構成されたシステムであって、
     当該システムは、受け取った入力画像に含まれる欠陥を特定する1以上のコンピュータシステムを備え、前記1以上のコンピュータシステムは、学習用画像に含まれる異なる位置の複数の画像の入力によって予め学習が施されたオートエンコーダを含む学習器を備え、前記1以上のコンピュータシステムは、前記入力画像を分割して、前記オートエンコーダに入力し、当該オートエンコーダから出力される出力画像と、前記入力画像を比較するように構成されているシステム。
  2.  請求項1において、
     前記1以上のコンピュータシステムは、前記入力画像を複数のサブ画像に分割し、当該分割された複数のサブ画像に基づいて1のオートエンコーダを学習させるように構成されているシステム。
  3.  請求項1において、
     前記1以上のコンピュータシステムは、学習用の入力画像の入力に基づいて前記オートエンコーダを学習させ、当該学習が施された前記オートエンコーダに、検査用の複数のサブ画像の入力することによって画像に含まれる欠陥を検出するように構成されているシステム。
  4.  請求項1において、
     前記異なる位置の複数の画像に対応する前記半導体ウエハ上の大きさは、当該複数の画像内に含まれるオブジェクトの最小寸法の1倍より大きく、4倍より小さいシステム。
  5.  請求項1において、
     前記1以上のコンピュータシステムは、前記入力画像を、重畳領域を設けつつ複数のサブ画像に分割するように構成されているシステム。
  6.  請求項1において、
     前記1以上のコンピュータシステムは、前記入力画像と出力画像の乖離度を評価するように構成されているシステム。
  7.  請求項6において、
     前記1以上のコンピュータシステムは、前記乖離度の頻度分布または半導体ウエハ上の分布を表示装置に表示させるように構成されているシステム。
  8.  請求項6において、
     前記1以上のコンピュータシステムは、前記入力画像を、重畳領域を設けつつ、複数のサブ画像に分割し、当該分割された入力画像と出力画像の乖離度を評価し、前記重畳領域を構成するサブ画像の内、前記乖離度が所定値以上のサブ画像の数に応じた識別情報を表示装置に表示させるように構成されているシステム。
  9.  半導体ウエハ上の欠陥を検出するコンピュータ実装方法を実行するためにコンピュータシステム上で実行可能なプログラム命令を記憶する非一時的コンピュータ可読媒体であって、前記コンピュータ実装方法は、学習用画像に含まれる異なる位置の複数の画像の入力によって予め学習が施されたオートエンコーダを含む学習器を備え、前記1以上のコンピュータシステムは、前記入力画像を分割して、前記オートエンコーダに入力し、当該オートエンコーダから出力される出力画像と、前記入力画像を比較する非一時的コンピュータ可読媒体。
  10.  半導体ウエハへのビーム照射に基づいて得られる画像信号を処理するシステムであって、
     当該システムは、第1の画像データと第2の画像データとの間の差分情報を演算する1以上のコンピュータシステムを備え、前記1以上のコンピュータシステムは、前記第1の画像データと第2の画像データ間の差分の程度毎の頻度を演算するように構成されているシステム。
  11.  請求項10において、
     前記1以上のコンピュータシステムは、前記第1の画像データと第2の画像データの画素毎の乖離度の程度毎の頻度を示すヒストグラムを生成するように構成されているシステム。
  12.  請求項11において、
     前記1以上のコンピュータシステムは、前記ヒストグラムの形状を評価するように構成されているシステム。
  13.  請求項11において、
     前記1以上のコンピュータシステムは、異なる製造タイミングで製造された異なる半導体ウエハで得られた異なる前記ヒストグラムを表示装置に表示させるように構成されているシステム。
  14.  請求項10において、
     前記1以上のコンピュータシステムは、学習用画像に含まれる異なる位置の複数の画像の入力によって予め学習が施されたオートエンコーダを含む学習器を備え、前記1以上のコンピュータシステムは、前記第2の画像を分割して、前記オートエンコーダに入力し、当該オートエンコーダから出力される第1の画像と、前記第2の画像を比較するように構成されているシステム。
  15.  請求項10において、
     前記1以上のコンピュータシステムは、前記第1の画像と第2画像の画素毎の乖離度を評価するように構成されているシステム。
PCT/JP2022/007813 2021-04-27 2022-02-25 欠陥を検出するシステム、及びコンピュータ可読媒体 WO2022230338A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202280027072.8A CN117203747A (zh) 2021-04-27 2022-02-25 检测缺陷的系统及计算机可读介质
KR1020237033988A KR20230153453A (ko) 2021-04-27 2022-02-25 결함을 검출하는 시스템 및 컴퓨터 가독 매체
US18/286,507 US20240193760A1 (en) 2021-04-27 2022-02-25 System for Detecting Defect and Computer-Readable Medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021-074653 2021-04-27
JP2021074653A JP2022168944A (ja) 2021-04-27 2021-04-27 欠陥を検出するシステム、及びコンピュータ可読媒体

Publications (1)

Publication Number Publication Date
WO2022230338A1 true WO2022230338A1 (ja) 2022-11-03

Family

ID=83846900

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/007813 WO2022230338A1 (ja) 2021-04-27 2022-02-25 欠陥を検出するシステム、及びコンピュータ可読媒体

Country Status (5)

Country Link
US (1) US20240193760A1 (ja)
JP (1) JP2022168944A (ja)
KR (1) KR20230153453A (ja)
CN (1) CN117203747A (ja)
WO (1) WO2022230338A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117710371A (zh) * 2024-02-05 2024-03-15 成都数之联科技股份有限公司 一种扩充缺陷样本的方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018005773A (ja) * 2016-07-07 2018-01-11 株式会社リコー 異常判定装置及び異常判定方法
JP2018506168A (ja) * 2014-12-03 2018-03-01 ケーエルエー−テンカー コーポレイション サンプリング及びフィーチャ選択を伴わない自動欠陥分類
JP2018049355A (ja) * 2016-09-20 2018-03-29 株式会社東芝 異常検知装置、学習装置、異常検知方法、学習方法、異常検知プログラム、および学習プログラム
JP2019158405A (ja) * 2018-03-08 2019-09-19 株式会社東芝 検査装置、検査方法、及びプログラム
WO2020031984A1 (ja) * 2018-08-08 2020-02-13 Blue Tag株式会社 部品の検査方法及び検査システム
JP2020160616A (ja) * 2019-03-25 2020-10-01 ブラザー工業株式会社 生成装置、コンピュータプログラム、生成方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6792842B2 (ja) 2017-06-06 2020-12-02 株式会社デンソー 外観検査装置、変換データ生成装置、及びプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018506168A (ja) * 2014-12-03 2018-03-01 ケーエルエー−テンカー コーポレイション サンプリング及びフィーチャ選択を伴わない自動欠陥分類
JP2018005773A (ja) * 2016-07-07 2018-01-11 株式会社リコー 異常判定装置及び異常判定方法
JP2018049355A (ja) * 2016-09-20 2018-03-29 株式会社東芝 異常検知装置、学習装置、異常検知方法、学習方法、異常検知プログラム、および学習プログラム
JP2019158405A (ja) * 2018-03-08 2019-09-19 株式会社東芝 検査装置、検査方法、及びプログラム
WO2020031984A1 (ja) * 2018-08-08 2020-02-13 Blue Tag株式会社 部品の検査方法及び検査システム
JP2020160616A (ja) * 2019-03-25 2020-10-01 ブラザー工業株式会社 生成装置、コンピュータプログラム、生成方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117710371A (zh) * 2024-02-05 2024-03-15 成都数之联科技股份有限公司 一种扩充缺陷样本的方法、装置、设备及存储介质
CN117710371B (zh) * 2024-02-05 2024-04-26 成都数之联科技股份有限公司 一种扩充缺陷样本的方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN117203747A (zh) 2023-12-08
US20240193760A1 (en) 2024-06-13
JP2022168944A (ja) 2022-11-09
KR20230153453A (ko) 2023-11-06

Similar Documents

Publication Publication Date Title
KR102218364B1 (ko) 패턴 검사 시스템
US9177372B2 (en) Defect estimation device and method and inspection system and method
US9767548B2 (en) Outlier detection on pattern of interest image populations
JP4791267B2 (ja) 欠陥検査システム
JP6043662B2 (ja) 検査方法および検査装置
JP5408852B2 (ja) パターン測定装置
JP5065943B2 (ja) 製造プロセスモニタリングシステム
US8045789B2 (en) Method and apparatus for inspecting defect of pattern formed on semiconductor device
JP4787673B2 (ja) パターン検査装置および方法
JP2022507543A (ja) 画素レベル画像定量のための深層学習式欠陥検出及び分類方式の使用
JP4336672B2 (ja) 試料検査装置、試料検査方法及びプログラム
JP6472447B2 (ja) フォトマスク欠陥性における変化の監視
US8788981B2 (en) Method of OPC model building, information-processing apparatus, and method of determining process conditions of semiconductor device
US20120307043A1 (en) Inspection apparatus and method
WO2022230338A1 (ja) 欠陥を検出するシステム、及びコンピュータ可読媒体
CN113039631A (zh) 通过将光学信号拟合到点扩散函数的缺陷分类
JP3652589B2 (ja) 欠陥検査装置
JP4977123B2 (ja) 試料検査装置、試料検査方法及びプログラム
JP2020134165A (ja) 検査装置及び検査方法
JP2022120623A (ja) 欠陥検査装置及び欠陥検査方法
CN116754580A (zh) 半导体样品制造的掩模检查

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22795261

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 20237033988

Country of ref document: KR

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 1020237033988

Country of ref document: KR

WWE Wipo information: entry into national phase

Ref document number: 202280027072.8

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 18286507

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 22795261

Country of ref document: EP

Kind code of ref document: A1