WO2024158019A1 - コンピュータプログラム、情報処理方法、及び情報処理装置 - Google Patents

コンピュータプログラム、情報処理方法、及び情報処理装置 Download PDF

Info

Publication number
WO2024158019A1
WO2024158019A1 PCT/JP2024/002108 JP2024002108W WO2024158019A1 WO 2024158019 A1 WO2024158019 A1 WO 2024158019A1 JP 2024002108 W JP2024002108 W JP 2024002108W WO 2024158019 A1 WO2024158019 A1 WO 2024158019A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
features
substrate processing
learning model
predicted value
Prior art date
Application number
PCT/JP2024/002108
Other languages
English (en)
French (fr)
Inventor
累輝 小林
正樹 狐塚
Original Assignee
東京エレクトロン株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 東京エレクトロン株式会社 filed Critical 東京エレクトロン株式会社
Publication of WO2024158019A1 publication Critical patent/WO2024158019A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Definitions

  • the present invention relates to a computer program, an information processing method, and an information processing device.
  • Virtual measurement technology has been increasingly used in the field of substrate processing.
  • measurement data obtained during processing of an object such as a substrate is analyzed, and a predicted value for the resulting product is calculated.
  • the present disclosure provides a computer program, an information processing method, and an information processing device that can perform analysis that takes spatial correlation into account using a learning model.
  • a computer program is a computer program for causing a computer to execute a process of acquiring data related to substrate processing, extracting features of the acquired data using a first learning model trained to output features of the data in response to input of the data, converting the extracted features into features of a set target dimension, and inputting the dimension-converted features into a second learning model trained to output predicted values related to substrate processing in response to input of features having the target dimension to obtain predicted values.
  • analysis that takes spatial correlation into account can be performed using a learning model.
  • FIG. 1 is an explanatory diagram illustrating a configuration of an information processing system according to an embodiment.
  • FIG. 2 is an explanatory diagram illustrating a prediction method according to the first embodiment.
  • 1 is a block diagram showing an internal configuration of an information processing device; 1 is a flowchart showing a procedure for generating a prediction model. 1 is a flowchart showing a prediction procedure using a prediction model.
  • FIG. 1 is an explanatory diagram for explaining performance evaluation of a prediction model. 1 is a graph showing the spatial distribution of importance of each observation data.
  • 13 is a flowchart showing a procedure of a process executed by an information processing device according to a second embodiment.
  • FIG. 13 is an explanatory diagram illustrating a prediction method in embodiment 3.
  • 13 is a flowchart showing a procedure of a process executed by an information processing device according to a fourth embodiment. 13 is a flowchart showing a procedure of a process executed by an information processing device according to a fifth embodiment.
  • (Embodiment 1) 1 is a diagram illustrating a configuration of an information processing system according to an embodiment of the present invention, which includes an information processing apparatus 100 and a substrate processing apparatus 200 that are communicatively connected to each other.
  • the substrate processing apparatus 200 is, for example, a semiconductor manufacturing apparatus including at least one of an exposure apparatus, an etching apparatus, a film forming apparatus, an ion implantation apparatus, an ashing apparatus, a sputtering apparatus, etc.
  • the substrate processing apparatus 200 may be a display manufacturing apparatus that manufactures FDPs (Flat Display Panels) such as liquid crystal display panels and organic EL (Electro-Luminescence) panels.
  • various set values are set, such as the substrate temperature, the pressure and gas flow rate in the chamber, and the voltage applied from the high frequency power source.
  • the set values are given, for example, by a process recipe.
  • the substrate processing apparatus 200 is also provided with various sensors and devices for measuring the substrate temperature, the pressure and gas flow rate in the chamber, the voltage applied to the upper and lower electrodes, and the plasma emission intensity, and various measurement values are measured during the process.
  • the substrate processing apparatus 200 also collects appropriate time series data such as images (RGB data) of the substrate (wafer) before and after the process and process logs at any time.
  • the substrate processing apparatus 200 outputs the measurement values, images, time series data, etc. obtained during the process to the information processing apparatus 100 as observation data.
  • the information processing device 100 acquires observation data from the substrate processing device 200 as data related to the substrate processing.
  • the information processing device 100 calculates predicted values related to the substrate processing based on the acquired observation data.
  • Virtual measurements using observational data have been performed in the past.
  • some input signal such as a sensor measurement value, image data, or time series data is input to a machine learning model that corresponds to the input signal, and the required predicted value is obtained by executing a calculation using the machine learning model.
  • a model that introduces dimensional mapping is proposed as a prediction model MD2 that takes spatial correlation into account.
  • Dimension mapping refers to converting the dimensions of features (variables that serve as clues for prediction) extracted from observed data to match the physical dimensions (target dimensions) to be calculated as predicted values.
  • a machine learning learning model hereinafter referred to as feature extraction model MD1
  • dimensional mapping is introduced into a unimodal network structure to explicitly take spatial correlation into account, thereby improving accuracy and interpretability.
  • FIG. 2 is an explanatory diagram explaining the prediction method in the first embodiment.
  • the information processing device 100 acquires data related to substrate processing from the substrate processing device 200.
  • the data acquired by the information processing device 100 is arbitrary, and is observation data including measurement data output from sensors of the substrate processing device 200, image data obtained by capturing an image of the substrate to be processed, and time series data such as process logs.
  • the information processing device 100 extracts features of the observation data acquired from the substrate processing device 200 using a feature extraction model MD1 (first learning model) that is trained to take the observation data as input and output the features of the observation data.
  • MD1 first learning model
  • the features to be extracted are preferably variables that provide clues for prediction.
  • a machine learning learning model including deep learning can be used as the feature extraction model MD1.
  • learning models based on CNN Convolutional Neural Network
  • Transformer Recurrent Neural Networks
  • LSTM Long Short Term Memory
  • MLP Multi-Layer Perceptrons
  • learning models other than deep learning such as an autoregressive model, a moving average model, or an autoregressive moving average model, may be used.
  • the learning model used for the feature extraction model MD1 is set appropriately according to the input observation data and the features to be extracted.
  • the feature extraction model MD1 for example, has an input layer, one or more intermediate layers, and an output layer, and is trained to output features from the output layer in response to observation data input to the input layer. Alternatively, a value output from one of the intermediate layers may be used as a feature.
  • the feature extraction model MD1 may be configured to have only an input layer and an output layer, without having an intermediate layer. In this embodiment, the feature output from the feature extraction model MD1 is described as being one-dimensional, but the feature may be two or more dimensional.
  • the information processing device 100 converts (dimension mapping) the dimension of the extracted feature quantity to match the target dimension (physical dimension to be calculated as a predicted value).
  • the dimension of the extracted feature quantity may be converted to two dimensions.
  • FIG. 2 shows dimensional mapping from one-dimensional feature quantity to two-dimensional feature quantity. Any dimension may be used before and after the conversion, and is appropriately set according to the observation data used and the predicted value to be calculated.
  • the target dimension may be expanded or reduced, or may be equal to the dimension of the feature quantity before the conversion.
  • the one-dimensional feature quantity can be converted to a two-dimensional feature quantity by rearranging (mapping) each element into an N x ⁇ N y matrix.
  • the information processing device 100 uses the dimensionally mapped features as input to obtain a predicted value regarding the substrate processing using a prediction model MD2 (second learning model) that has been trained to output a predicted value regarding the substrate processing.
  • MD2 second learning model
  • a machine learning learning model including deep learning can be used as the prediction model MD2.
  • a learning model based on CNN, Transformer, RNN, LSTM, MLP, etc. can be used.
  • a learning model other than deep learning such as an autoregressive model, a moving average model, or an autoregressive moving average model, may be used.
  • the learning model used for the prediction model MD2 is set appropriately according to the target dimension of the input feature amount and the predicted value to be calculated.
  • dimensional mapping is described as an independent process, but it may be a process executed inside the prediction model MD2.
  • the prediction model MD2 is also called a dimensional mapping model.
  • the feature extraction model MD1 and the prediction model MD2 are described as independent learning models, but they may be constructed as a single learning model. In this case, feature extraction, dimensional mapping, and calculation of predicted values are performed within a single learning model.
  • FIG. 3 is a block diagram showing the internal configuration of the information processing device 100.
  • the information processing device 100 is, for example, a dedicated or general-purpose computer including a control unit 101, a storage unit 102, a communication unit 103, an operation unit 104, and a display unit 105.
  • the control unit 101 includes a CPU (Central Processing Unit), a ROM (Read Only Memory), a RAM (Random Access Memory), etc.
  • the ROM included in the control unit 101 stores control programs and the like that control the operation of each piece of hardware included in the information processing device 100.
  • the CPU in the control unit 101 reads and executes the control programs stored in the ROM and computer programs (described below) stored in the memory unit 102, and controls the operation of each piece of hardware, causing the entire device to function as the information processing device of the present disclosure.
  • the RAM included in the control unit 101 temporarily stores data used during the execution of calculations.
  • control unit 101 is configured to include a CPU, ROM, and RAM, but the configuration of the control unit 101 is not limited to the above.
  • the control unit 101 may be, for example, one or more control circuits or arithmetic circuits including a GPU (Graphics Processing Unit), an FPGA (Field Programmable Gate Array), a DSP (Digital Signal Processor), a quantum processor, volatile or non-volatile memory, etc.
  • the control unit 101 may have functions such as a clock that outputs date and time information, a timer that measures the elapsed time from when an instruction to start measurement is given to when an instruction to end measurement is given, and a counter that counts numbers.
  • the memory unit 102 includes a storage device such as a hard disk drive (HDD), a solid state drive (SSD), or an electronically erasable programmable read only memory (EEPROM).
  • the memory unit 102 stores various computer programs executed by the control unit 101 and various data used by the control unit 101.
  • the computer program (program product) stored in the storage unit 102 includes a prediction processing program PG1 for causing a computer to execute a process for obtaining predicted values related to substrate processing from observation data of the substrate processing apparatus 200.
  • the prediction processing program PG1 may be a single computer program, or may be a program group consisting of multiple computer programs.
  • the prediction processing program PG1 may be executed by multiple computers in cooperation. Furthermore, the prediction processing program PG1 may partially use an existing library.
  • a computer program including the prediction processing program PG1 is provided by a non-transitory recording medium RM on which the computer program is recorded in a readable manner.
  • the recording medium RM is a portable memory such as a CD-ROM, USB memory, a Secure Digital (SD) card, a micro SD card, or a Compact Flash (registered trademark).
  • the control unit 101 reads various computer programs from the recording medium RM using a reading device not shown in the figure, and stores the various computer programs that have been read in the memory unit 102.
  • the computer programs stored in the memory unit 102 may also be provided by communication. In this case, the control unit 101 acquires the computer program by communication via the communication unit 103, and stores the acquired computer program in the memory unit 102.
  • the memory unit 102 also stores a feature extraction model MD1 used in a process for extracting features from observed data, and a prediction model MD2 used in a process for determining a predicted value related to substrate processing from features after conversion to the target dimension.
  • the feature extraction model MD1 and the prediction model MD2 may be stored in an external device.
  • the control unit 101 of the information processing device 100 may access the external device via a communication network, transmit the observed data acquired from the substrate processing device 200 to the external device, and acquire the predicted value obtained as a result of calculation by the external device via the communication network.
  • the communication unit 103 has a communication interface for transmitting and receiving various data to and from an external device.
  • a communication interface conforming to a communication standard such as LAN (Local Area Network) can be used as the communication interface of the communication unit 103.
  • the external device is the above-mentioned substrate processing apparatus 200 or a user terminal (not shown).
  • the communication unit 103 transmits the data to the destination external device, and when data transmitted from the external device is received, the communication unit 103 outputs the received data to the control unit 101.
  • the operation unit 104 includes operation devices such as a touch panel, a keyboard, and switches, and accepts various operations and settings by the user.
  • the control unit 101 performs appropriate control based on various operation information provided by the operation unit 104, and stores setting information in the storage unit 102 as necessary.
  • the display unit 105 includes a display device such as a liquid crystal monitor or an organic EL (Electro-Luminescence) monitor, and displays information to be notified to the user, etc., in response to instructions from the control unit 101.
  • a display device such as a liquid crystal monitor or an organic EL (Electro-Luminescence) monitor, and displays information to be notified to the user, etc., in response to instructions from the control unit 101.
  • the information processing device 100 may be a single computer, or may be a computer system composed of multiple computers and peripheral devices.
  • the information processing device 100 may be a virtual machine whose entity has been virtualized, or may be a cloud.
  • the information processing device 100 and the substrate processing device 200 are described as separate entities, but the information processing device 100 may be provided inside the substrate processing device 200.
  • the operation of the information processing device 100 will be described below.
  • the information processing apparatus 100 according to this embodiment generates a prediction model MD2 in a learning phase before the substrate processing apparatus 200 starts to be put into actual operation.
  • Figure 4 is a flowchart showing the procedure for generating the prediction model MD2.
  • training data required for learning is collected. For example, when the etching shape at each location on the substrate surface is obtained as a predicted value based on the plasma emission intensity, measurement data of the plasma emission intensity measured by an OES (Optical Emission Spectrometer) and measurement data of the etching shape at each location measured using an optical observation device or an ultrasonic microscope are collected as training data.
  • the training data is not limited to the measurement data of the plasma emission intensity and the etching shape, but observation data of values used for prediction and actual measured values of values to be predicted are collected as training data.
  • the collected training data is stored in the memory unit 102 of the information processing device 100. It is assumed that the feature extraction model MD1 has been generated in advance using a known algorithm.
  • the control unit 101 reads out the training data stored in the memory unit 102 (step S101), and selects a set of training data from the read out training data (step S102).
  • the control unit 101 inputs the observation data (values used for prediction) included in the selected training data into the feature extraction model MD1, and extracts features of the observation data by executing a calculation by the feature extraction model MD1 (step S103).
  • the control unit 101 converts the dimension of the feature extracted from the observation data into the target dimension (step S104). That is, the control unit 101 performs dimension mapping on the extracted feature dimension to match the physical dimension to be calculated as a predicted value.
  • the control unit 101 inputs the feature quantities converted into the target dimensions into the prediction model MD2, and executes calculations using the prediction model MD2 to obtain a predicted value for each location (step S105). Before learning begins, it is assumed that initial values are set for the model parameters of the prediction model MD2. Also, in this flowchart, the dimensional mapping process and the calculation process using the prediction model MD2 are described as independent processes, but the dimensional mapping may be executed within the processing of the prediction model MD2.
  • the control unit 101 evaluates the predicted value calculated in step S105 (step S106) and determines whether learning is complete (step S107).
  • a known loss function is used to evaluate the predicted value. If the value of the loss function becomes less than a threshold value in the process of optimizing (minimizing) the loss function, the control unit 101 can determine that learning of the prediction model MD2 is complete.
  • control unit 101 updates the model parameters (weighting coefficients and biases between nodes) in the prediction model MD2 (step S108) and returns the process to step S102.
  • step S109 If it is determined that learning is complete (S107: YES), a trained model is obtained, and the control unit 101 stores the model in the storage unit 102 as a trained prediction model MD2 (step S109).
  • FIG. 5 is a flowchart showing the prediction procedure using the prediction model MD2.
  • the control unit 101 of the information processing device 100 acquires observation data to be used for prediction from the substrate processing device 200, for example, via the communication unit 103 (step S121).
  • the control unit 101 inputs the acquired observation data into the feature extraction model MD1 and executes calculations using the feature extraction model MD1 to extract features from the observation data (step S122).
  • the control unit 101 converts the dimension of the feature extracted from the observation data into the target dimension (step S123). In other words, the control unit 101 performs dimension mapping on the extracted feature dimension to match the physical dimension to be calculated as a predicted value.
  • the control unit 101 inputs the features converted into the target dimensions into the prediction model MD2, and performs calculations using the prediction model MD2 to obtain a predicted value for each location (step S124).
  • the control unit 101 outputs the prediction result based on the prediction model MD2 (step S125).
  • the control unit 101 may display the prediction result on the display unit 105, or may notify the user terminal or the like via the communication unit 103.
  • FIG. 6 is an explanatory diagram for explaining the performance evaluation of the prediction model MD2.
  • Each graph in FIG. 6 shows the in-plane distribution when the etching shape (opening width) is virtually or actually measured.
  • the horizontal axis of each graph corresponds to a first direction in the substrate plane, and the horizontal axis corresponds to a second direction of the substrate perpendicular to the first direction.
  • the shading shown in each graph corresponds to the width of the opening width, with areas with lower concentration indicating wider opening widths and areas with higher concentration indicating narrower opening widths.
  • FIG. 6A shows the prediction results (virtual measurement) using a conventional method
  • FIG. 6B shows the prediction results (virtual measurement) using the method disclosed herein
  • FIG. 6C shows the actual values obtained by actual measurement.
  • the design value of the opening width was set to be constant regardless of the location where the opening was formed, but when the opening width of the openings actually formed in the substrate was measured, it was confirmed that the opening width was widest near the center of the substrate surface and narrowed toward the periphery, as shown in Figure 6C.
  • Figure 6 shows the prediction results using captured images as observation data, but when the aperture width was predicted using plasma emission intensity and process logs as observation data, it was found that the method disclosed herein improved prediction accuracy compared to conventional methods.
  • a method in which spatial correlation is introduced into a machine learning learning model using dimensional mapping, and virtual measurement is performed using the learning model (prediction model MD2).
  • prediction model MD2 the learning model
  • the information processing device 100 uses the prediction model MD2 to calculate the importance (contribution) of features for each location.
  • known methods such as Lime (Local Interpretable Model-Agnostic Explanations), SHAP (Shapley Additive exPlanations), and CAM (Class Activation Mapping) are used.
  • Lime and SHAP are methods that identify how much the output has changed when the input is reduced, and determine that the greater the change in output, the higher the importance.
  • CAM is a method that calculates the importance by using error backpropagation during learning.
  • Figure 7 is a graph showing the spatial distribution of importance for each observation data.
  • Figure 7A shows the spatial distribution of importance when using plasma emission intensity (OES)
  • Figure 7B shows captured images (wafer optical inspection system)
  • Figure 7C shows process logs (P-logs) as the observation data.
  • the horizontal axis of each graph corresponds to a first direction in the substrate surface, and the horizontal axis corresponds to a second direction on the substrate perpendicular to the first direction.
  • the shading shown in each graph corresponds to high or low importance. Areas with high density on the graph indicate places with high importance, and areas with low density indicate places with low importance.
  • training may be performed using a loss function with weighting adjusted for each location.
  • a prediction model MD2 specialized for the peripheral area may be generated by training using a loss function with a larger weighting for the peripheral area.
  • images captured by a wafer optical inspection system are used as the observation data, a prediction model MD2 specialized for the central area may be generated by training using a loss function with a larger weighting for the central area.
  • a prediction model MD2 specialized for the peripheral area can be created using the above-mentioned method, and the process can be improved by taking into account the prediction results from the prediction model MD2.
  • FIG. 8 is a flowchart showing the procedure of processing executed by the information processing device 100 according to the second embodiment.
  • the control unit 101 of the information processing device 100 acquires observation data to be used for prediction from the substrate processing device 200, for example, via the communication unit 103 (step S201).
  • the control unit 101 calculates a predicted value for each location based on the acquired observation data (step S202).
  • the method of calculating the predicted value is the same as in embodiment 1. That is, the control unit 101 inputs the acquired observation data into a feature extraction model MD1 to extract features, and performs dimensional mapping of the extracted features to a target dimension (a physical dimension for which a predicted value is to be calculated). Next, the control unit 101 inputs the dimensionally mapped features into a prediction model MD2 and performs a calculation to calculate a predicted value for each location.
  • the control unit 101 calculates the contribution of the observed data to the calculated predicted value for each location (step S203).
  • the contribution is a SHAP value that can be calculated using, for example, the prediction model MD2.
  • the SHAP value is a value that corresponds to the difference between a predicted value calculated by inputting multiple observed data into the prediction model MD2 and a predicted value calculated by the prediction model MD2 when one of the multiple observed data is not present.
  • the contribution is not limited to the SHAP value, and can be calculated using existing methods such as Lime or CAM.
  • the control unit 101 outputs the spatial distribution of the contribution degree (step S204). Based on the contribution degree for each location calculated in step S203, the control unit 101 creates a graph (color contour map) such as those shown in Figures 7A to 7C, for example, and displays it on the display unit 105. The control unit 101 may also transmit the created graph to the user terminal.
  • a graph color contour map
  • the control unit 101 executes control according to the degree of contribution of each location (step S205).
  • the control unit 101 adjusts the parameters for the control object according to the degree of contribution of each location, and controls the process according to the adjusted parameters. For example, if it is found that the plasma emission intensity of a particular frequency contributes well near the peripheral portion, the gas flow rate can be adjusted to increase the emission intensity, thereby enabling process control to improve in-plane uniformity.
  • the amount of adjustment of the parameters relative to the degree of contribution is determined, for example, on a rule basis.
  • step S204 the spatial distribution of the contribution degree is output in step S204, and then control according to the contribution degree is executed in step S205.
  • steps S204 the spatial distribution of the contribution degree is output in step S204, and then control according to the contribution degree is executed in step S205.
  • steps S204 control according to the contribution degree is executed in step S205.
  • the importance (contribution) of features is calculated for each location, and the spatial distribution of the calculated importance is output, making it possible to understand which parameters are likely to have an effect on which locations, which can lead to process improvement and control.
  • FIG. 9 is an explanatory diagram explaining a prediction method in embodiment 3.
  • multimodal virtual measurement that takes spatial correlation into account will be explained.
  • the information processing device 100 acquires multiple types of observation data.
  • inputs 1 to 3 are observation data input to feature extraction models MD11, MD12, and MD13, respectively.
  • input 1 is plasma emission intensity by OES
  • input 2 is an image captured by a wafer optical inspection system
  • input 3 is a process log.
  • the types of observation data used for prediction are not limited to three, and may be two, four, or more than three.
  • Feature extraction model MD11 is a model corresponding to feature extraction model MD1 described in embodiment 1, and is trained to output the features of observed data when observation data of input 1 is input. The same is true for feature extraction models MD12 and MD13, which are trained to output the respective features when observation data of input 1 and input 2 are input, respectively. Trained feature extraction models MD11, MD12, and MD13 are stored in memory unit 102 of information processing device 100.
  • the information processing device 100 uses feature extraction models MD11 to MD13 to extract features of inputs 1 to 3, respectively, and converts the dimensions of each extracted feature into features of a target dimension.
  • the dimension mapping described in the first embodiment is used for the feature dimension conversion.
  • the feature extracted from the feature extraction model MD11 is converted into a two-dimensional feature of, for example, N x ⁇ N y
  • the feature extracted from the feature extraction models MD12 and MD13 are also converted into a two-dimensional feature of N x ⁇ N y .
  • the information processing device 100 concatenates the features after the dimension conversion in a concatenation layer CL.
  • a channel can be added and the features can be concatenated in the channel direction as Nx x Ny x C.
  • the information processing device 100 inputs the feature quantities linked by the linking layer CL into the prediction model MD20 to obtain a predicted value.
  • the prediction model MD20 is a model corresponding to the prediction model MD2 described in the first embodiment, and is trained to output a predicted value related to substrate processing in response to the input of the feature quantities.
  • the types of models that can be used in the prediction model MD20 and the model training method are the same as those in the first embodiment.
  • the memory unit 102 of the information processing device 100 stores the trained prediction model MD20.
  • the information processing device 100 uses the prediction model MD20 stored in the memory unit 102 to calculate a predicted value at each location on the substrate.
  • a method for performing multimodal virtual measurement using a learning model (prediction model MD20) that introduces spatial correlation has been disclosed.
  • the prediction model MD20 By applying the method disclosed in the second embodiment to the prediction model MD20, it is possible to calculate the contribution of features for each modality and location. This makes it possible to understand the locations within the dimensions that each modality is good at, improving interpretability.
  • each modal excels at. For example, prediction accuracy can be improved by predicting the edge of the substrate using the plasma emission intensity and process logs from OES, and predicting the area excluding the edge of the substrate using images captured by a wafer optical inspection system. Furthermore, it is possible to analyze which modal has an effect on which location, leading to improvements in the model and process.
  • FIG. 10 is a flowchart showing the procedure of processing executed by the information processing device 100 according to the fourth embodiment.
  • the control unit 101 of the information processing device 100 acquires observation data to be used for prediction from the substrate processing device 200, for example, via the communication unit 103 (step S401).
  • the control unit 101 calculates a predicted value for each location based on the acquired observation data (step S402).
  • the method of calculating the predicted value is the same as in embodiment 1. That is, the control unit 101 inputs the acquired observation data into a feature extraction model MD1 to extract features, and performs dimensional mapping of the extracted features to the target dimensions. Next, the control unit 101 inputs the dimensionally mapped features into a prediction model MD2 and performs a calculation to calculate a predicted value for each location.
  • the control unit 101 may calculate a predicted value using the prediction model MD20 using the method disclosed in embodiment 3.
  • the control unit 101 determines whether or not an alarm needs to be issued based on the calculated predicted value (step S403). For example, the control unit 101 compares the calculated predicted value with a preset threshold value, and determines that an alarm needs to be issued if the predicted value exceeds the threshold value (or is less than the threshold value). Alternatively, the control unit 101 may determine whether or not the predicted value falls within a preset normal range, and determine that an alarm needs to be issued if the predicted value falls outside the normal range.
  • the threshold value and normal range may be set for each location to be predicted.
  • control unit 101 ends the processing according to this flowchart without outputting an alarm.
  • the control unit 101 If it is determined that an alarm output is necessary (S403: YES), the control unit 101 outputs an alarm (step S404). For example, the control unit 101 outputs an alarm by displaying information that the substrate processing is not normal on the display unit 105. Alternatively, the control unit 101 may notify the communication unit 103 of the information that the substrate processing is not normal to a user terminal or the like.
  • predictions are made using prediction models that take spatial correlation into account (prediction models MD2 and MD20), so more accurate predicted values can be obtained.
  • prediction models MD2 and MD20 are highly accurate predicted values.
  • highly accurate predicted values are compared with thresholds and normal ranges, so it is possible to more accurately determine whether or not an alarm needs to be issued.
  • FIG. 11 is a flowchart showing the procedure of processing executed by the information processing device 100 according to the fifth embodiment.
  • the control unit 101 of the information processing device 100 acquires observation data to be used for prediction from the substrate processing device 200, for example, via the communication unit 103 (step S501).
  • the control unit 101 calculates a predicted value for each location based on the acquired observation data (step S502).
  • the method of calculating the predicted value is the same as in embodiment 1. That is, the control unit 101 inputs the acquired observation data into a feature extraction model MD1 to extract features, and performs dimensional mapping of the extracted features to the target dimensions. Next, the control unit 101 inputs the dimensionally mapped features into a prediction model MD2 and performs a calculation to calculate a predicted value for each location.
  • the control unit 101 may calculate a predicted value using the prediction model MD20 using the method disclosed in embodiment 3.
  • the control unit 101 executes control over substrate processing in the substrate processing apparatus 200 based on the calculated predicted value (step S503). For example, the control unit 101 compares the calculated predicted value with a preset reference value, and determines a control value for the substrate processing apparatus 200 (e.g., a control value that brings the predicted value closer to the reference value) based on the deviation between the predicted value and the reference value.
  • the reference value may be set for each location to be predicted.
  • the control unit 101 performs control over substrate processing by outputting a control command including the determined control value to the substrate processing apparatus 200.
  • predictions are made using prediction models that take spatial correlation into account (prediction models MD2 and MD20), so more accurate prediction values can be obtained.
  • substrate processing is controlled based on these highly accurate prediction values, which can lead to process improvements.
  • REFERENCE SIGNS LIST 100 Information processing device 101 Control unit 102 Storage unit 103 Communication unit 104 Operation unit 105 Display unit 200 Substrate processing device PG1 Prediction processing program MD1 Feature extraction model MD2 Prediction model RM Recording medium

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Drying Of Semiconductors (AREA)

Abstract

コンピュータプログラム、情報処理方法、及び情報処理装置の提供。 基板処理に関するデータを取得し、データの入力に応じて、データの特徴量を出力するよう学習された第1学習モデルを用いて、取得したデータの特徴量を抽出し、抽出した特徴量を、設定された対象次元の特徴量に変換し、対象次元を有する特徴量の入力に応じて、基板処理に関する予測値を出力するよう学習された第2学習モデルに、次元変換後の特徴量を入力して予測値を求める処理をコンピュータに実行させる。

Description

コンピュータプログラム、情報処理方法、及び情報処理装置
 本発明は、コンピュータプログラム、情報処理方法、及び情報処理装置に関する。
 従来より、基板処理の分野では、仮想計測技術の活用が進められている。仮想計測技術では、例えば、基板などの対象物の処理中に得られる計測データを解析し、結果物についての予測値を演算によって求める。
特表2019-537240号公報
 本開示は、空間相関を考慮した解析を学習モデルで行うことができるコンピュータプログラム、情報処理方法、及び情報処理装置を提供する。
 本発明の一形態に係るコンピュータプログラムは、基板処理に関するデータを取得し、前記データの入力に応じて、前記データの特徴量を出力するよう学習された第1学習モデルを用いて、取得したデータの特徴量を抽出し、抽出した特徴量を、設定された対象次元の特徴量に変換し、前記対象次元を有する特徴量の入力に応じて、基板処理に関する予測値を出力するよう学習された第2学習モデルに、次元変換後の特徴量を入力して予測値を求める処理をコンピュータに実行させるためのコンピュータプログラムである。
 本開示によれば、空間相関を考慮した解析を学習モデルで行うことができる。
実施の形態に係る情報処理システムの構成を説明する説明図である。 実施の形態1における予測手法を説明する説明図である。 情報処理装置の内部構成を示すブロック図である。 予測モデルの生成手順を示すフローチャートである。 予測モデルを用いた予測手順を示すフローチャートである。 予測モデルの性能評価を説明するための説明図である。 観測データ毎の重要度の空間分布を示すグラフである。 実施の形態2に係る情報処理装置が実行する処理の手順を示すフローチャートである。 実施の形態3における予測手法を説明する説明図である。 実施の形態4に係る情報処理装置が実行する処理の手順を示すフローチャートである。 実施の形態5に係る情報処理装置が実行する処理の手順を示すフローチャートである。
 以下、図面を参照して一実施形態について説明する。説明において、同一要素又は同一機能を有する要素には同一の符号を付し、重複する説明を省略する。
(実施の形態1)
 図1は実施の形態に係る情報処理システムの構成を説明する説明図である。実施の形態に係る情報処理システムは、通信可能に接続された情報処理装置100及び基板処理装置200を備える。
 基板処理装置200は、例えば、露光装置、エッチング装置、成膜装置、イオン注入装置、アッシング装置、スパッタリング装置などを少なくとも1つ含む半導体製造装置である。代替的に、基板処理装置200は、液晶ディスプレイパネル、有機EL(Electro-Luminescence)パネルなどのFDP(Flat Display Panel)を製造するディスプレイ製造装置であってもよい。
 基板処理装置200でプロセスが開始される際、基板の温度、チャンパ内の圧力やガス流量、高周波電源より印加する電圧などの各種の設定値が設定される。設定値は、例えばプロセスレシピによって与えられる。また、基板処理装置200には、基板の温度、チャンバ内の圧力やガス流量、上部電極や下部電極に印加される電圧、プラズマ発光強度等を計測する各種のセンサや機器が設けられており、プロセスの実行中に各種の計測値が計測される。また、基板処理装置200では、上述した計測値に限らず、プロセス前後の基板(ウェハ)の画像(RGBデータ)やプロセスログなどの適宜の時系列データが随時収集される。基板処理装置200は、プロセスの実行中に得られる計測値、画像、時系列データ等を観測データとして情報処理装置100へ出力する。
 情報処理装置100は、基板処理に関するデータとして、基板処理装置200から観測データを取得する。情報処理装置100は、取得した観測データに基づき、基板処理に関する予測値を求める。
 従来より、観測データを用いた仮想計測が行われている。例えば、従来では、センサ計測値、画像データ、時系列データなどの何らかの入力信号を、入力信号に即した機械学習モデルに入力し、機械学習モデルによる演算を実行することによって、必用な予測値を求めている。
 しかしながら、従来の機械学習モデルでは、空間相関を考慮した設計がなされていないため、精度や解釈可能性に問題がある。例えば、空間相関が考慮されていなければ、場所毎に独立した予測が行われるので、互いに隣接する場所であっても予測値に大きな違いが生じる場合があり、結果として予測結果が空間的に歪む可能性がある。また、空間相関が考慮されていなければ、どのパラメータがどの場所に効きやすいかを把握することは困難である。
 そこで、本実施の形態では、空間相関を考慮した予測モデルMD2として、次元マッピングを導入したモデルを提案する。次元マッピングは、観測データから抽出される特徴量(予測の手がかりとなる変数)の次元を、予測値として算出したい物理的な次元(対象次元)に合わせて変換することを表す。特徴量の抽出には、例えば機械学習の学習モデル(以下、特徴量抽出モデルMD1という)が用いられる。実施の形態1では、ユニモーダルなネットワーク構造に次元マッピングを導入することによって、空間相関を明示的に考慮し、精度及び解釈可能性の向上を実現する。
 図2は実施の形態1における予測手法を説明する説明図である。情報処理装置100は、基板処理装置200より基板処理に関するデータを取得する。情報処理装置100が取得するデータは任意であり、基板処理装置200のセンサ等より出力される計測データ、処理対象の基板を撮像して得られる画像データ、プロセスログ等の時系列データなどを含む観測データである。
 情報処理装置100は、観測データを入力として、当該観測データの特徴量を出力するよう学習された特徴量抽出モデルMD1(第1学習モデル)を用いて、基板処理装置200から取得した観測データの特徴量を抽出する。抽出すべき特徴量は、予測の手がかりとなるような変数であることが好ましい。
 特徴量抽出モデルMD1として、深層学習を含む機械学習の学習モデルを用いることができる。例えば、CNN(Convolutional Neural Network)、Transformer、RNN(Recurrent Neural Networks)、LSTM(Long Short Term Memory)、MLP(Multi-Layer Perceptrons)などに基づく学習モデルを用いることができる。代替的に、自己回帰モデル、移動平均モデル、自己回帰移動平均モデルなど、深層学習以外の学習モデルを用いてもよい。特徴量抽出モデルMD1に用いる学習モデルは、入力される観測データや抽出すべき特徴量に応じて適宜設定される。
 特徴量抽出モデルMD1は、例えば、入力層、1又は複数の中間層、及び出力層を備え、入力層への観測データの入力に応じて、出力層から特徴量を出力するよう学習される。代替的に、中間層の何れか1つから出力される値を特徴量として用いてもよい。特徴量抽出モデルMD1は、中間層を備えずに、入力層及び出力層のみ備える構成であってもよい。本実施の形態では、特徴量抽出モデルMD1から出力される特徴量の次元を1次元として説明するが、特徴量の次元は2次元以上であってもよい。
 次いで、情報処理装置100は、抽出した特徴量の次元を対象次元(予測値として算出したい物理的な次元)に合わせて変換(次元マッピング)する。予測値として、基板面内での各場所でのエッチングレート、エッチング形状(開口幅若しくは開口深さ)、膜厚等を算出したい場合、抽出した特徴量の次元を2次元に変換すればよい。図2の例では、1次元の特徴量から2次元の特徴量への次元マッピングを示している。変換前後は任意の次元でよく、使用する観測データや算出したい予測値に応じて適宜設定される。対象次元は拡大又は縮小される場合もあるし、変換前の特徴量の次元と等しい場合もある。特徴量抽出モデルMD1から出力される特徴量がN個(N=Nx ×Ny )の要素からなる1次元の特徴量である場合、各要素をNx ×Ny のマトリクスに配置し直す(マッピングする)ことにより、1次元の特徴量を2次元の特徴量に変換することができる。
 情報処理装置100は、次元マッピングされた特徴量を入力として、基板処理に関する予測値を出力するよう学習された予測モデルMD2(第2学習モデル)を用いて、基板処理に関する予測値を求める。
 予測モデルMD2として、深層学習を含む機械学習の学習モデルを用いることができる。例えば、CNN、Transformer、RNN、LSTM、MLPなどに基づく学習モデルを用いることができる。代替的に、自己回帰モデル、移動平均モデル、自己回帰移動平均モデルなど、深層学習以外の学習モデルを用いてもよい。予測モデルMD2に用いる学習モデルは、入力される特徴量の対象次元や算出すべき予測値に応じて適宜設定される。
 本実施の形態では、説明の都合上、次元マッピングを独立した処理として記載したが、予測モデルMD2の内部で実行される処理であってもよい。このため、予測モデルMD2は、次元マッピングモデルとも称される。
 また、本実施の形態では、便宜的に、特徴量抽出モデルMD1と予測モデルMD2とを独立した学習モデルとして記載したが、1つの学習モデルとして構築されてもよい。この場合、1つの学習モデル内で、特徴量の抽出、次元マッピング、予測値の演算が実行される。
 図3は情報処理装置100の内部構成を示すブロック図である。情報処理装置100は、例えば、制御部101、記憶部102、通信部103、操作部104、及び表示部105を備える専用又は汎用のコンピュータである。
 制御部101は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)などを備える。制御部101が備えるROMには、情報処理装置100が備えるハードウェア各部の動作を制御する制御プログラム等が記憶される。制御部101内のCPUは、ROMに記憶されている制御プログラムや記憶部102に記憶されている後述のコンピュータプログラムを読み込んで実行し、ハードウェア各部の動作を制御することにより、装置全体を本開示の情報処理装置として機能させる。制御部101が備えるRAMには、演算の実行中に利用されるデータが一時的に記憶される。
 実施の形態では、制御部101がCPU、ROM、及びRAMを備える構成としたが、制御部101の構成は上記のものに限定されない。制御部101は、例えば、GPU(Graphics Processing Unit)、FPGA(Field Programmable Gate Array)、DSP(Digital Signal Processor)、量子プロセッサ、揮発性又は不揮発性のメモリ等を備える1又は複数の制御回路又は演算回路であってもよい。また、制御部101は、日時情報を出力するクロック、計測開始指示を与えてから計測終了指示を与えるまでの経過時間を計測するタイマ、数をカウントするカウンタ等の機能を備えてもよい。
 記憶部102は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、EEPROM(Electronically Erasable Programmable Read Only Memory)などの記憶装置を備える。記憶部102には、制御部101によって実行される各種のコンピュータプログラムや制御部101によって利用される各種のデータが記憶される。
 記憶部102に記憶されるコンピュータプログラム(プログラム製品)は、基板処理装置200の観測データから基板処理に関する予測値を求める処理をコンピュータに実行させるための予測処理プログラムPG1を含む。予測処理プログラムPG1は、単一のコンピュータプログラムであってもよく、複数のコンピュータプログラムにより構成されるプログラム群であってもよい。予測処理プログラムPG1は、複数のコンピュータにより協働して実行されてもよい。また、予測処理プログラムPG1は、既存のライブラリを部分的に用いるものであってもよい。
 予測処理プログラムPG1を含むコンピュータプログラムは、当該コンピュータプログラムを読み取り可能に記録した非一時的な記録媒体RMにより提供される。記録媒体RMは、CD-ROM、USBメモリ、SD(Secure Digital)カード、マイクロSDカード、コンパクトフラッシュ(登録商標)などの可搬型メモリである。制御部101は、図に示していない読取装置を用いて、記録媒体RMから各種コンピュータプログラムを読み取り、読み取った各種コンピュータプログラムを記憶部102に記憶させる。また、記憶部102に記憶されるコンピュータプログラムは、通信により提供されてもよい。この場合、制御部101は、通信部103を介した通信によりコンピュータプログラムを取得し、取得したコンピュータプログラムを記憶部102に記憶させる。
 また、記憶部102には、観測データから特徴量を抽出する処理に用いられる特徴量抽出モデルMD1と、対象次元への変換後の特徴量から基板処理に関する予測値を求める処理に用いられる予測モデルMD2とが記憶される。代替的に、これらの特徴量抽出モデルMD1及び予測モデルMD2は、外部装置に格納されてもよい。この場合、情報処理装置100の制御部101は、通信ネットワーク経由で外部装置にアクセスし、基板処理装置200から取得した観測データを外部装置へ送信し、外部装置による演算結果として得られる予測値を、通信ネットワーク経由で取得してもよい。
 通信部103は、外部装置との間で各種のデータを送受信するための通信インタフェースを備える。通信部103の通信インタフェースとして、LAN(Local Area Network)などの通信規格に準拠した通信インタフェースを用いることができる。外部装置は、上述の基板処理装置200やユーザ端末(不図示)などである。通信部103は、送信すべきデータが制御部101から入力された場合、宛先の外部装置へデータを送信し、外部装置から送信されたデータを受信した場合、受信したデータを制御部101へ出力する。
 操作部104は、タッチパネル、キーボード、スイッチなどの操作デバイスを備え、ユーザ等による各種の操作及び設定を受付ける。制御部101は、操作部104より与えられる各種の操作情報に基づき適宜の制御を行い、必要に応じて設定情報を記憶部102に記憶させる。
 表示部105は、液晶モニタや有機EL(Electro-Luminescence)モニタなどの表示デバイスを備え、制御部101からの指示に応じてユーザ等に報知すべき情報を表示する。
 本実施の形態における情報処理装置100は、単一のコンピュータであってもよく、複数のコンピュータや周辺機器などにより構成されるコンピュータシステムであってもよい。また、情報処理装置100は、実体が仮想化された仮想マシンであってもよく、クラウドであってもよい。更に、本実施の形態では、情報処理装置100と基板処理装置200とを別体として記載したが、情報処理装置100は基板処理装置200の内部に設けられてもよい。
 以下、情報処理装置100の動作について説明する。
 本実施の形態に係る情報処理装置100は、基板処理装置200での実運用が開始される前の学習フェーズにおいて、予測モデルMD2を生成する。
 図4は予測モデルMD2の生成手順を示すフローチャートである。予測モデルMD2の生成に先立ち、学習に必要な訓練データが収集される。例えば、プラズマ発光強度に基づき、基板面内の各場所でのエッチング形状を予測値として求める場合、OES(Optical Emission Spectrometer)により計測されるプラズマ発光強度の計測データと、光学観察装置や超音波顕微鏡などを使用して計測される各場所のエッチング形状の計測データとが訓練データとして収集される。訓練データは、プラズマ発光強度及びエッチング形状の計測データに限らず、予測に用いる値の観測データと、予測したい値の実測値とが訓練データとして収集される。収集された訓練データは、情報処理装置100の記憶部102に記憶される。特徴量抽出モデルMD1については、公知のアルゴリズムを用いて事前に生成されているものとする。
 制御部101は、記憶部102に記憶されている訓練データを読み出し(ステップS101)、読み出した訓練データから、一組の訓練データを選択する(ステップS102)。制御部101は、選択した訓練データに含まれる観測データ(予測に用いる値)を特徴量抽出モデルMD1に入力し、特徴量抽出モデルMD1による演算を実行することにより、観測データの特徴量を抽出する(ステップS103)。
 制御部101は、観測データから抽出した特徴量の次元を対象次元に変換する(ステップS104)。すなわち、制御部101は、抽出した特徴量の次元を予測値として算出したい物理的な次元に合わせて次元マッピングする。
 制御部101は、対象次元に変換された特徴量を予測モデルMD2に入力し、予測モデルMD2による演算を実行することにより、場所毎に予測値を求める(ステップS105)。学習が開始される前の段階において、予測モデルMD2のモデルパラメータには、初期値が設定されているものとする。また、本フローチャートでは、次元マッピングの処理と、予測モデルMD2による演算処理とをそれぞれ独立した処理として記載したが、次元マッピングは予測モデルMD2の処理の中で実行されてもよい。
 制御部101は、ステップS105で算出した予測値を評価し(ステップS106)、学習が完了したか否かを判断する(ステップS107)。予測値の評価には公知の損失関数が用いられる。損失関数を最適化(最小化)する過程で、損失関数の値が閾値未満となった場合、制御部101は、予測モデルMD2の学習が完了したと判断することができる。
 学習が完了していないと判断した場合(S107:NO)、制御部101は、予測モデルMD2におけるモデルパラメータ(ノード間の重み係数やバイアス)を更新し(ステップS108)、ステップS102へ処理を戻す。
 学習が完了したと判断した場合(S107:YES)、学習済みのモデルが得られるので、制御部101は、そのモデルを学習済みの予測モデルMD2として記憶部102に記憶させる(ステップS109)。
 情報処理装置100は、予測モデルMD2が生成された後の運用フェーズにおいて、予測モデルMD2を用いた予測を行う。図5は予測モデルMD2を用いた予測手順を示すフローチャートである。情報処理装置100の制御部101は、例えば通信部103を通じて、予測に用いる観測データを基板処理装置200より取得する(ステップS121)。
 制御部101は、取得した観測データを特徴量抽出モデルMD1に入力し、特徴量抽出モデルMD1による演算を実行することにより、観測データの特徴量を抽出する(ステップS122)。
 制御部101は、観測データから抽出した特徴量の次元を対象次元に変換する(ステップS123)。すなわち、制御部101は、抽出した特徴量の次元を予測値として算出したい物理的な次元に合わせて次元マッピングする。
 制御部101は、対象次元に変換された特徴量を予測モデルMD2に入力し、予測モデルMD2による演算を実行することにより、場所毎に予測値を求める(ステップS124)。
 制御部101は、予測モデルMD2による予測結果を出力する(ステップS125)。制御部101は、予測結果を表示部105に表示させてもよく、通信部103を通じてユーザ端末等に通知してもよい。
 図6は予測モデルMD2の性能評価を説明するための説明図である。図6に示す各グラフは、エッチング形状(開口幅)を仮想計測若しくは実計測したときの面内分布を示している。各グラフの横軸は基板面内の第1方向に対応し、横軸は第1方向と直交する基板の第2方向に対応する。各グラフに示す濃淡は開口幅の広狭に対応し、濃度が薄い領域ほど開口幅が広く、濃度が濃い領域ほど開口幅が狭いことを示している。図6Aは従来手法による予測結果(仮想計測)、図6Bは本開示の手法による予測結果(仮想計測)、図6Cは実計測による実測値を示している。
 実計測では、エッチングにより基板表面に多数の開口を形成し、光学観察装置や超音波顕微鏡などの計測装置を用いて、各開口の開口幅を実測した。仮想計測では、同じ開口が形成された基板表面をカメラで撮像し、得られた撮像画像を観測データに用いて、開口幅の予測を行った。撮像画像には、ウェハ光学検査システムで撮像されるRGB3色のカラー画像を用いた。
 開口幅の設計値は開口を形成する場所に依らず一定としたが、実際に基板に形成された開口の開口幅を実測したところ、図6Cに示すように、基板表面の中心付近では開口幅が最も広く、周縁に向かうに従い開口幅が狭くなるような面内分布が確認された。
 一方、従来手法(この例では線形回帰)で開口幅を予測したところ、図6Aに示すように、基板表面の中心付近で開口幅が最も広く、周縁に向かって開口幅が徐々に狭くなる傾向は見られるものの、開口幅が同一となる領域がグラフの横方向に拡がっており、予測結果が歪んだ状態となった。
 これに対し、本開示の手法(予測モデルMD2)で開口幅を予測したところ、図6Bに示すように、予測結果は特定の方向に歪まず、実測に近い周方向に均一な分布が得られた。従来手法による予測値と実測値との間の平均二乗誤差は0.8程度であったのに対し、本開示の手法による予測値と実測値との間の平均二乗誤差は0.6程度となり、予測精度が有意に改善することが分かった。
 図6では、撮像画像を観測データに用いた予測結果について示したが、プラズマ発光強度やプロセスログを観測データに用いて開口幅の予測を行った結果、本開示の手法は、従来手法と比較して、予測精度が改善することが分かった。
 以上のように、実施の形態1では、次元マッピングを利用して空間相関を機械学習の学習モデルに導入し、当該学習モデル(予測モデルMD2)を用いて仮想計測を行う手法を開示した。空間相関を用いることで、モデルの解釈が容易となり、実際の空間分布を予測に反映させることが可能となった。また、空間相関が考慮されていない従来手法と比較すると、予測精度が有意に改善されることが分かった。
(実施の形態2)
 実施の形態2では、場所毎に特徴量の重要度(寄与度ともいう)を算出し、算出した重要度の空間分布を出力する構成について説明する。
 実施の形態2に係る情報処理装置100は、予測モデルMD2を用いて、場所毎に特徴量の重要度(寄与度)を算出する。重要度の算出には、Lime(Local Interpretable Model-Agnostic Explanations)、SHAP(SHapley Additive exPlanations)、CAM(Class Activation Mapping)などの公知の手法が用いられる。LimeやSHAPは、入力を減らした際に、出力がどれほど変化したのかを特定し、出力が大きく変化したものほど重要度が高いと判断する手法である。CAMは、学習時の誤差逆伝搬を利用して重要度を算出する手法である。
 図7は観測データ毎の重要度の空間分布を示すグラフである。図7Aはプラズマ発光強度(OES)、図7Bは撮像画像(ウェハ光学検査システム)、図7Cはプロセスログ(P-logs)をそれぞれ観測データに用いた場合の重要度の空間分布を示している。各グラフの横軸は基板面内の第1方向に対応し、横軸は第1方向と直交する基板の第2方向に対応する。各グラフに示す濃淡は重要度の高低に対応する。グラフ上の濃度が高い領域は重要度が高い場所を示し、濃度が低い領域は重要度が低い場所を示している。
 プラズマ発光強度を観測データに用いて開口幅を予測した場合、プラズマ発光強度に基づく特徴量の重要度は、基板の中心付近に向かうにつれて低くなり、基板の周縁に向かうにつれて高くなる空間分布となった(図7A)。このグラフより、プラズマ発光強度を観測データに用いる場合、基板の周縁において開口幅を良好に予測できることが分かる。プロセスログを観測データに用いた場合についても同様の結果が得られた(図7C)。
 一方、ウェハ光学検査システムによる撮像画像を観測データに用いて開口幅を予測した場合、撮像画像に基づく特徴量の重要度は、基板周縁の一部の領域(グラフの右上隅及び左下隅に対応した領域)で低くなり、それ以外の領域で高くなる空間分布となった(図7B)。このグラフより、撮像画像を用いる場合には、基板周縁の一部を除く領域で開口幅を良好に予測できることが分かる。
 このように、観測データの種類(特徴量)に応じて、重要度の空間分布が異なるので、予測モデルMD2を生成する際に、場所毎に重みを調整した損失関数を用いて学習を行ってもよい。例えば、プラズマ発光強度やプロセスログを観測データに用いる場合、周縁部の重みを大きくした損失関数を用いて学習を行うことにより、周縁部に特化した予測モデルMD2を生成してもよい。また、ウェハ光学検査システムによる撮像画像を観測データに用いる場合、中心部の重みを大きくした損失関数を用いて学習を行うことにより、中心部に特化した予測モデルMD2を生成してもよい。
 また、本実施の形態では、場所毎に特徴量の寄与度を確認することができるので、例えば、プロセスログに存在するセンサ出力値が基板のどの部分に寄与するのかを把握することができ、センサ出力値が変化するようにプロセスを調整することで、プロセス改善に繋げることができる。また、現実の基板処理において、周縁部のプロセス状態が良くないため歩留まりが悪い等の事情があれば、上述した手法により周縁部に特化した予測モデルMD2を作成し、予測モデルMD2による予測結果を加味してプロセスを改善してもよい。
 図8は実施の形態2に係る情報処理装置100が実行する処理の手順を示すフローチャートである。情報処理装置100の制御部101は、例えば通信部103を通じて、予測に用いる観測データを基板処理装置200より取得する(ステップS201)。
 制御部101は、取得した観測データに基づき場所毎の予測値を算出する(ステップS202)。予測値の算出方法は、実施の形態1と同様である。すなわち、制御部101は、取得した観測データを特徴量抽出モデルMD1に入力して特徴量を抽出し、抽出した特徴量の次元を対象次元(予測値として算出したい物理的な次元)に次元マッピングする。次いで、制御部101は、次元マッピングされた特徴量を予測モデルMD2に入力して演算を行うことにより、場所毎の予測値を算出する。
 制御部101は、算出した予測値に対する観測データの寄与度を場所毎に算出する(ステップS203)。寄与度は、例えば予測モデルMD2を用いて算出することができるSHAP値である。SHAP値は、複数の観測データを予測モデルMD2に入力して算出される予測値と、当該複数の観測データのうち一の観測データが無かった場合に予測モデルMD2より算出される予測値との差分に相当する値である。寄与度はSHAP値に限らず、LimeやCAMなどの既存の手法を用いて算出され得る。
 制御部101は、寄与度の空間分布を出力する(ステップS204)。制御部101は、ステップS203で算出した場所毎の寄与度に基づき、例えば、図7A~図7Cに示すようなグラフ(カラーコンターマップ)を作成し、表示部105に表示させる。また、制御部101は、作成したグラフをユーザ端末へ送信してもよい。
 制御部101は、場所毎の寄与度に応じた制御を実行する(ステップS205)。制御部101は、場所毎の寄与度に応じて制御対象に対するパラメータを調整し、調整後のパラメータに従ってプロセスを制御する。例えば、特定の周波数のプラズマ発光強度が周縁部付近に良く寄与することが分かった場合、その発光強度を上げるようにガスの流量を調整し、面内均一性を向上させるといったプロセス制御が可能となる。寄与度に対するパラメータの調整量は例えばルールベースで定められる。
 なお、図8のフローチャートでは、ステップS204で寄与度の空間分布を出力した後、ステップS205で寄与度に応じた制御を実行する手順としたが、これらの手順は前後してもよく、何れか一方の手順のみが実行されてもよい。
 以上のように、実施の形態2では、場所毎に特徴量の重要度(寄与度)を算出し、算出した重要度の空間分布を出力するので、どのパラメータがどの場所に効きやすいのを把握することが可能となり、プロセスの改善や制御に繋げることができる。
(実施の形態3)
 実施の形態3では、複数種の観測データから予測値を算出する構成について説明する。
 通常、一枚のウェハには幾つかの測定点が存在する。この測定点を独立に算出するのではなく、測定点の物理的な次元に即して特徴量抽出ないしは予測値を算出することで高精度かつ解釈性の高いモデルが実現できる。
 図9は実施の形態3における予測手法を説明する説明図である。実施の形態3では、空間相関を考慮したマルチモーダル仮想計測について説明する。情報処理装置100は、複数種の観測データを取得する。図9において、入力1~入力3はそれぞれ特徴量抽出モデルMD11、MD12、MD13に入力される観測データである。例えば、入力1はOESによるプラズマ発光強度、入力2はウェハ光学検査システムによる撮像画像、入力3はプロセスログである。予測に用いる観測データは3種類に限らず、2種類または4種類以上であってもよい。
 特徴量抽出モデルMD11は、実施の形態1で説明した特徴量抽出モデルMD1に対応するモデルであり、入力1の観測データが入力された場合、当該観測データの特徴量を出力するように学習される。特徴量抽出モデルMD12,MD13についても同様であり、それぞれ入力1,入力2の観測データが入力された場合、それぞれの特徴量を出力するよう学習される。情報処理装置100の記憶部102には、学習済みの特徴量抽出モデルMD11,MD12,MD13が記憶される。
 情報処理装置100は、特徴量抽出モデルMD11~MD13を用いて、入力1~入力3の特徴量をそれぞれ抽出し、抽出した各特徴量の次元を対象次元の特徴量に変換する。特徴量の次元変換には、実施の形態1で説明した次元マッピングが使用される。特徴量抽出モデルMD11から抽出した特徴量を例えばNx ×Ny の2次元の特徴量に変換する場合、特徴量抽出モデルMD12,MD13から抽出した特徴量についてもNx ×Ny の2次元の特徴量に変換する。
 情報処理装置100は、次元変換後の特徴量を連結層CLにて連結する。各特徴量について、Nx ×Ny の2次元の特徴量が得られた場合、チャネルを追加し、Nx ×Ny ×Cのようにチャネル方向に特徴量を連結すればよい。ここで、Cは入力の数(観測データの種類の数)であり、図9のケースではC=3である。
 情報処理装置100は、連結層CLで連結された特徴量を予測モデルMD20に入力し、予測値を求める。予測モデルMD20は、実施の形態1で説明した予測モデルMD2に対応するモデルであり、特徴量の入力に応じて、基板処理に関する予測値を出力するよう学習される。予測モデルMD20に使用できるモデルの種類やモデルの学習方法等は実施の形態1と同様である。情報処理装置100の記憶部102には、学習済みの予測モデルMD20が記憶される。情報処理装置100は、記憶部102に記憶された予測モデルMD20を用いて、基板の各場所における予測値を算出する。
 以上のように、実施の形態3では、空間相関を導入した学習モデル(予測モデルMD20)を用いてマルチモーダル仮想計測を行う手法を開示した。予測モデルMD20について実施の形態2で開示した手法を適用することにより、モーダル毎及び場所毎に特徴量の寄与度を算出することができる。これにより、モーダル毎に得意な次元内の箇所を理解することができ、解釈性が向上する。
 また、モーダル毎に得意な次元内の箇所を明示的に使用することが可能である。例えば、OESによるプラズマ発光強度やプロセスログを用いて基板周縁部の予測を行い、ウェハ光学検査システムによる撮像画像を用いて基板周縁部を除く領域の予測を行うことで、予測精度を向上させることができる。更に、どのモーダルがどの場所に影響を与えるか分析し、モデルやプロセスの改善に繋げることが可能となる。
(実施の形態4)
 実施の形態4では、予測値に応じて警報を出力する構成について説明する。
 図10は実施の形態4に係る情報処理装置100が実行する処理の手順を示すフローチャートである。情報処理装置100の制御部101は、例えば通信部103を通じて、予測に用いる観測データを基板処理装置200より取得する(ステップS401)。
 制御部101は、取得した観測データに基づき場所毎の予測値を算出する(ステップS402)。予測値の算出方法は、実施の形態1と同様である。すなわち、制御部101は、取得した観測データを特徴量抽出モデルMD1に入力して特徴量を抽出し、抽出した特徴量の次元を対象次元に次元マッピングする。次いで、制御部101は、次元マッピングされた特徴量を予測モデルMD2に入力して演算を行うことにより、場所毎の予測値を算出する。予測に用いる観測データとして複数種の観測データが得られる場合、制御部101は、実施の形態3に開示した手法を用いて、予測モデルMD20により予測値を算出してもよい。
 制御部101は、算出した予測値に応じて警報出力の要否を判断する(ステップS403)。例えば、制御部101は、算出した予測値と事前に設定された閾値とを比較し、予測値が閾値を超える場合(若しくは閾値未満の場合)に、警報出力を要と判断する。代替的に、制御部101は、予測値が事前に設定された正常範囲内に入るか否かを判断し、予測値が正常範囲から外れる場合に警報出力を要と判断してもよい。なお、閾値や正常範囲は予測対象の場所毎に設定されてもよい。
 警報出力を不要と判断した場合(S403:NO)、制御部101は、警報を出力することなく、本フローチャートによる処理を終了する。
 警報出力を要と判断した場合(S403:YES)、制御部101は、警報を出力する(ステップS404)。例えば、制御部101は、基板処理が正常でない旨の情報を表示部105に表示することによって警報を出力する。代替的に、制御部101は、基板処理が正常でない旨の情報を通信部103をユーザ端末等に通知してもよい。
 本実施の形態では、空間相関を考慮した予測モデル(予測モデルMD2,MD20)を用いて予測を行うので、より精度の高い予測値が得られる。本実施の形態では、このような精度の高い予測値を閾値や正常範囲と比較するので、より正確に警報出力の要否を判断できる。
(実施の形態5)
 実施の形態5では、予測値に基づき基板処理における制御を実行する構成について説明する。
 図11は実施の形態5に係る情報処理装置100が実行する処理の手順を示すフローチャートである。情報処理装置100の制御部101は、例えば通信部103を通じて、予測に用いる観測データを基板処理装置200より取得する(ステップS501)。
 制御部101は、取得した観測データに基づき場所毎の予測値を算出する(ステップS502)。予測値の算出方法は、実施の形態1と同様である。すなわち、制御部101は、取得した観測データを特徴量抽出モデルMD1に入力して特徴量を抽出し、抽出した特徴量の次元を対象次元に次元マッピングする。次いで、制御部101は、次元マッピングされた特徴量を予測モデルMD2に入力して演算を行うことにより、場所毎の予測値を算出する。予測に用いる観測データとして複数種の観測データが得られる場合、制御部101は、実施の形態3に開示した手法を用いて、予測モデルMD20により予測値を算出してもよい。
 制御部101は、算出した予測値に基づき、基板処理装置200での基板処理に関する制御を実行する(ステップS503)。例えば、制御部101は、算出した予測値と事前に設定された基準値とを比較し、予測値と基準値との間のずれに基づいて基板処理装置200に対する制御値(例えば、予測値が基準値に近づくような制御値)を求める。基準値は予測対象の場所毎に設定されてもよい。制御部101は、求めた制御値を含む制御命令を基板処理装置200へ出力することにより、基板処理に関する制御を行う。
 本実施の形態では、空間相関を考慮した予測モデル(予測モデルMD2,MD20)を用いて予測を行うので、より精度の高い予測値が得られる。本実施の形態では、このような精度の高い予測値に基づき、基板処理に関する制御を行うので、プロセス改善に繋げることができる。
 今回開示された実施形態は、全ての点において例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上述した意味ではなく、請求の範囲によって示され、請求の範囲と均等の意味及び範囲内での全ての変更が含まれることが意図される。
 各実施形態に記載した事項は相互に組み合わせることが可能である。また、請求の範囲に記載した独立請求項及び従属請求項は、引用形式に関わらず全てのあらゆる組み合わせにおいて、相互に組み合わせることが可能である。さらに、請求の範囲には他の2以上のクレームを引用するクレームを記載する形式(マルチクレーム形式)を用いているが、これに限るものではない。マルチクレームを少なくとも一つ引用するマルチクレーム(マルチマルチクレーム)を記載する形式を用いて記載してもよい。
 100 情報処理装置
 101 制御部
 102 記憶部
 103 通信部
 104 操作部
 105 表示部
 200 基板処理装置
 PG1 予測処理プログラム
 MD1 特徴量抽出モデル
 MD2 予測モデル
 RM 記録媒体

Claims (12)

  1.  基板処理に関するデータを取得し、
     前記データの入力に応じて、前記データの特徴量を出力するよう学習された第1学習モデルを用いて、取得したデータの特徴量を抽出し、
     抽出した特徴量を、設定された対象次元の特徴量に変換し、
     前記対象次元を有する特徴量の入力に応じて、基板処理に関する予測値を出力するよう学習された第2学習モデルに、次元変換後の特徴量を入力して予測値を求める
     処理をコンピュータに実行させるためのコンピュータプログラム。
  2.  次元変換後の特徴量の空間分布を示すデータを出力する
     処理を前記コンピュータに実行させるための請求項1記載のコンピュータプログラム。
  3.  前記第2学習モデルは、前記特徴量の空間分布に対して重みを設定した損失関数を用いて学習してある
     請求項1記載のコンピュータプログラム。
  4.  前記基板処理に関する複数種のデータを取得し、
     取得した複数種のデータの夫々について、前記第1学習モデルを用いて特徴量を抽出し、
     前記複数種のデータの夫々から抽出した特徴量の夫々を、前記対象次元の特徴量に変換し、
     次元変換後の特徴量の夫々を前記第2学習モデルに入力して予測値を求める
     処理を前記コンピュータに実行させるための請求項1記載のコンピュータプログラム。
  5.  前記予測値に対する基板の場所毎の特徴量の寄与度を算出し、
     算出結果を出力する
     処理を前記コンピュータに実行させるための請求項1記載のコンピュータプログラム。
  6.  前記データの基板の各場所への寄与度を算出し、
     算出結果に応じて、前記基板処理における制御を実行する
     処理を前記コンピュータに実行させるための請求項1記載のコンピュータプログラム。
  7.  前記第2学習モデルを用いて求めた予測値に応じて警報を出力する
     処理を前記コンピュータに実行させるための請求項1記載のコンピュータプログラム。
  8.  前記第2学習モデルを用いて求めた予測値に基づき、前記基板処理における制御を実行する
     処理を前記コンピュータに実行させるための請求項1記載のコンピュータプログラム。
  9.  前記特徴量の空間分布に対して重みを設定した損失関数を用いて、前記第2学習モデルを学習してある
     請求項1記載のコンピュータプログラム。
  10.  基板処理に関するデータを取得し、
     前記データの入力に応じて、前記データの特徴量を出力するよう学習された第1学習モデルを用いて、取得したデータの特徴量を抽出し、
     抽出した特徴量を、設定された対象次元の特徴量に変換し、
     次元変換後の特徴量の空間分布に対し、損失関数における重みを設定し、
     重みが設定された損失関数を用いて、前記特徴量の入力に応じて、前記基板処理に関する予測値を出力する第2学習モデルを生成する
     処理をコンピュータに実行させるためのコンピュータプログラム。
  11.  基板処理に関するデータを取得し、
     前記データの入力に応じて、前記データの特徴量を出力するよう学習された第1学習モデルを用いて、取得したデータの特徴量を抽出し、
     抽出した特徴量を、設定された対象次元の特徴量に変換し、
     前記対象次元を有する特徴量の入力に応じて、基板処理に関する予測値を出力するよう学習された第2学習モデルに、次元変換後の特徴量を入力して予測値を求める
     処理をコンピュータにより実行する情報処理方法。
  12.  基板処理に関するデータを取得する取得部と、
     前記データの入力に応じて、前記データの特徴量を出力するよう学習された第1学習モデルを用いて、取得したデータの特徴量を抽出する抽出部と、
     抽出した特徴量を、設定された対象次元の特徴量に変換する変換部と、
     前記対象次元を有する特徴量の入力に応じて、基板処理に関する予測値を出力するよう学習された第2学習モデルに、次元変換後の特徴量を入力して予測値を求める予測値算出部と
     を備える情報処理装置。
PCT/JP2024/002108 2023-01-26 2024-01-24 コンピュータプログラム、情報処理方法、及び情報処理装置 WO2024158019A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2023010470 2023-01-26
JP2023-010470 2023-01-26

Publications (1)

Publication Number Publication Date
WO2024158019A1 true WO2024158019A1 (ja) 2024-08-02

Family

ID=91970682

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2024/002108 WO2024158019A1 (ja) 2023-01-26 2024-01-24 コンピュータプログラム、情報処理方法、及び情報処理装置

Country Status (1)

Country Link
WO (1) WO2024158019A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018091836A (ja) * 2016-11-14 2018-06-14 ヴェリティー インストルメンツ,インコーポレイテッド 半導体処理システム内の光信号の校正のためのシステムおよび方法
CN112301322A (zh) * 2020-12-21 2021-02-02 上海陛通半导体能源科技股份有限公司 具有工艺参数智能调节功能的气相沉积设备及方法
JP2021086572A (ja) * 2019-11-29 2021-06-03 東京エレクトロン株式会社 予測装置、予測方法及び予測プログラム
JP2022504561A (ja) * 2018-10-09 2022-01-13 アプライド マテリアルズ インコーポレイテッド 先進の半導体プロセス最適化および生産中の適応制御

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018091836A (ja) * 2016-11-14 2018-06-14 ヴェリティー インストルメンツ,インコーポレイテッド 半導体処理システム内の光信号の校正のためのシステムおよび方法
JP2022504561A (ja) * 2018-10-09 2022-01-13 アプライド マテリアルズ インコーポレイテッド 先進の半導体プロセス最適化および生産中の適応制御
JP2021086572A (ja) * 2019-11-29 2021-06-03 東京エレクトロン株式会社 予測装置、予測方法及び予測プログラム
CN112301322A (zh) * 2020-12-21 2021-02-02 上海陛通半导体能源科技股份有限公司 具有工艺参数智能调节功能的气相沉积设备及方法

Similar Documents

Publication Publication Date Title
KR102275473B1 (ko) 생산 공정을 제어 또는 모니터링하기 위한 예상 데이터 생성
JP5959648B2 (ja) プロセス認識メトロロジー
KR101848958B1 (ko) 분광 정보를 툴 동작 파라미터 및 재료 측정치와 연결하는 것에 의한 툴 성능의 개선
TW202038030A (zh) 高階半導體製程優化及製造期間適應性控制
DE10296328B4 (de) Prozesslinie und Verfahren zum Steuern eines Ätzprozesses
TWI783147B (zh) 決定處理流程之系統及處理條件之決定方法
US11619926B2 (en) Information processing device, program, process treatment executing device, and information processing system
US20210357810A1 (en) Processing condition search device and processing condition search method
CN106158679A (zh) 结合晶圆实体测量与数位模拟以改善半导体元件制程方法
KR20220164786A (ko) 스펙트럼 기반 계측 및 프로세스 제어를 위한 머신 및 딥 러닝 방법
TW202401287A (zh) 用於關鍵尺寸計量的方法及系統
JP2018152552A (ja) 複雑な構造の測定システム及び方法
WO2024158019A1 (ja) コンピュータプログラム、情報処理方法、及び情報処理装置
TW202002119A (zh) 程序及計量控制、基於景觀資訊之程序指標及根本原因分析工具
TW202137001A (zh) 資料處理方法、裝置與系統、以及電腦可讀取記錄媒體
TWI734390B (zh) 自資料集中提取特徵
CN113348358B (zh) 用于大量生产过程监视的宽松耦合检验及计量系统
JP5198519B2 (ja) 欠陥解析方法、欠陥解析装置
US11187992B2 (en) Predictive modeling of metrology in semiconductor processes
TWI748110B (zh) 在成像技術中估計振幅及相位不對稱性以用於在疊對計量中達到高精準度
WO2023214541A1 (ja) モデル生成方法、コンピュータプログラム及び情報処理装置
WO2024117013A1 (ja) コンピュータプログラム、情報処理装置及び情報処理方法
TWI692648B (zh) 感測器位置判定技術
WO2024180705A1 (ja) 半導体デバイスの計測方法、および半導体デバイスの計測装置
US10678226B1 (en) Adaptive numerical aperture control method and system

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 24747343

Country of ref document: EP

Kind code of ref document: A1