WO2023181525A1 - 学習装置、情報処理装置、基板処理装置、基板処理システム、学習方法および処理条件決定方法 - Google Patents

学習装置、情報処理装置、基板処理装置、基板処理システム、学習方法および処理条件決定方法 Download PDF

Info

Publication number
WO2023181525A1
WO2023181525A1 PCT/JP2022/045709 JP2022045709W WO2023181525A1 WO 2023181525 A1 WO2023181525 A1 WO 2023181525A1 JP 2022045709 W JP2022045709 W JP 2022045709W WO 2023181525 A1 WO2023181525 A1 WO 2023181525A1
Authority
WO
WIPO (PCT)
Prior art keywords
processing
substrate
conditions
learning
condition
Prior art date
Application number
PCT/JP2022/045709
Other languages
English (en)
French (fr)
Inventor
真裕 ▲徳▼山
Original Assignee
株式会社Screenホールディングス
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社Screenホールディングス filed Critical 株式会社Screenホールディングス
Publication of WO2023181525A1 publication Critical patent/WO2023181525A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01LSEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
    • H01L21/00Processes or apparatus adapted for the manufacture or treatment of semiconductor or solid state devices or of parts thereof
    • H01L21/02Manufacture or treatment of semiconductor devices or of parts thereof
    • H01L21/04Manufacture or treatment of semiconductor devices or of parts thereof the devices having potential barriers, e.g. a PN junction, depletion layer or carrier concentration layer
    • H01L21/18Manufacture or treatment of semiconductor devices or of parts thereof the devices having potential barriers, e.g. a PN junction, depletion layer or carrier concentration layer the devices having semiconductor bodies comprising elements of Group IV of the Periodic Table or AIIIBV compounds with or without impurities, e.g. doping materials
    • H01L21/30Treatment of semiconductor bodies using processes or apparatus not provided for in groups H01L21/20 - H01L21/26
    • H01L21/302Treatment of semiconductor bodies using processes or apparatus not provided for in groups H01L21/20 - H01L21/26 to change their surface-physical characteristics or shape, e.g. etching, polishing, cutting
    • H01L21/306Chemical or electrical treatment, e.g. electrolytic etching

Definitions

  • the present invention relates to a learning device, an information processing device, a substrate processing device, a substrate processing system, a learning method, and a processing condition determination method, and includes a learning device that generates a learning model that simulates processing according to processing conditions by a substrate processing device;
  • the present invention relates to an information processing apparatus that determines processing conditions using the learning model, a substrate processing apparatus equipped with the information processing apparatus, a learning method executed by the learning apparatus, and a processing condition determination method executed by the information processing apparatus.
  • the thickness of the coating formed on the substrate is adjusted by an etching process in which a chemical solution is applied to the substrate.
  • etching treatment it is important to perform etching treatment so that the surface of the substrate is uniform, or to flatten the surface of the substrate by etching treatment.
  • the etching process is a complex process in which the throughput through which the coating is processed varies depending on the movement of the nozzle.
  • the amount of treatment of the film by the etching process is known after the substrate has been processed. For this reason, the work of setting the operation for moving the nozzle requires trial and error by engineers. Determining the optimal operation of a nozzle requires significant cost and time.
  • JP-A-2021-108367 discloses that a trained model is machine-trained using learning data in which the "input" is the processing amount (etching amount) and the "output" is the scan speed information.
  • An apparatus for determining scan rate information from a quantity is described. According to this technique, one piece of scan speed information is determined from the target processing amount.
  • the movement of the nozzle is time-series data that indicates a position that changes over time. If the operation of moving the nozzle becomes complicated, the sampling interval increases, and the number of dimensions of the time series data increases. Generally, as the number of dimensions of learning data increases, the amount of data required for machine learning increases exponentially. Therefore, as the number of dimensions of learning data increases, it becomes difficult to optimize a learning model obtained by machine learning. Furthermore, since etching processing is a complicated process, there may be more than one nozzle operation suitable for the target processing amount.
  • One of the objects of the present invention is to provide a learning device and a substrate processing system suitable for machine learning conditions that change over time for processing a substrate.
  • Another object of the present invention is an information processing apparatus, a substrate processing apparatus, a substrate processing system, and a processing condition determination method capable of presenting a plurality of processing conditions for the processing results of a complicated process for processing a substrate.
  • the goal is to provide the following.
  • Model generation that generates a learning model that performs machine learning on the learning data including the processing amount to estimate the processing amount that indicates the difference in film thickness before and after processing of the film formed on the substrate before being processed by the substrate processing equipment. It is equipped with a section and a section.
  • the learning data includes a transformation result and a processing amount that have been transformed so that the number of dimensions of a fluctuation condition that changes over time is reduced. Therefore, the number of dimensions of learning data can be reduced. As a result, a learning device suitable for machine learning of conditions that change over time for processing a substrate can be provided.
  • the apparatus further includes a variation condition generation section that generates a plurality of variation conditions, and a compressor generation section that causes an autoencoder to learn the plurality of variation conditions generated by the variation condition generation section and generates a compressor.
  • the compressor is generated by having the autoencoder learn the variation conditions. This makes it easy to create a compressor.
  • the processing conditions further include a fixed condition that does not change over time, and the learning data includes the fixed condition.
  • processing with different fixed conditions can be handled, and there is no need to generate multiple learning models with different fixed conditions.
  • a conversion result obtained by converting a temporary fluctuation condition by a compressor is given to a learning model, and if the processing amount estimated by the learning model satisfies an allowable condition, the substrate processing apparatus is operated under processing conditions including the temporary fluctuation condition.
  • a performance acquisition unit that is driven to obtain a processing amount indicating the difference in film thickness before and after processing of a film formed on a substrate processed by the substrate processing apparatus, and a conversion result obtained by converting temporary fluctuation conditions by a compressor.
  • an additional learning unit that trains the learning model using additional learning data including the amount of processing acquired by the performance acquisition unit.
  • the performance of the learning model can be improved.
  • a conversion result obtained by converting a temporary fluctuation condition by a compressor is given to the learning model, and when the processing amount estimated by the learning model satisfies an allowable condition, the conversion result and the processing amount estimated by the learning model are combined.
  • the apparatus further includes a distillation unit that generates a new learning model using the distillation data.
  • the substrate processing apparatus includes a nozzle that supplies a processing liquid to the substrate, and a moving section that changes the relative position of the nozzle and the substrate, and the fluctuation condition is a change in the relative position of the nozzle and the substrate that is changed by the moving section. It's the location.
  • a learning model is generated that estimates the amount of film to be processed by changing the relative position between the nozzle and the substrate and supplying the processing liquid from the nozzle to the substrate. Therefore, a learning model for estimating the amount of processing in etching processing can be generated.
  • the information processing apparatus is an information processing apparatus that manages a substrate processing apparatus, and the substrate processing apparatus is configured to perform coating processing under processing conditions including fluctuating conditions that vary over time.
  • a second compressor that processes the substrate by supplying a processing liquid to the substrate on which a a processing condition determining unit that determines processing conditions for driving the substrate processing apparatus using a learning model that estimates the processing amount indicating the difference in film thickness before and after processing of the film, the learning model
  • the conversion result obtained by converting the variable conditions included in the processing conditions under which the processing device processed the substrate by the first compressor, which is the same as the second compressor, and the film formed on the substrate processed by the substrate processing device before and after processing.
  • the processing conditions including the provisional fluctuation conditions are determined as the processing conditions for driving the substrate processing apparatus.
  • the temporary fluctuation condition is changed.
  • the processing conditions included are determined as processing conditions for driving the substrate processing apparatus. Therefore, a plurality of temporary fluctuation conditions can be determined for the processing amount that satisfies the allowable conditions. As a result, it is possible to provide an information processing apparatus that can present a plurality of processing conditions for the processing results of a complicated process for processing a substrate.
  • the substrate processing apparatus includes the above information processing apparatus.
  • a substrate processing system is a substrate processing system that manages a substrate processing apparatus that processes a substrate, and includes a learning device and an information processing apparatus, and the substrate processing apparatus manages a substrate processing apparatus that processes a substrate.
  • the learning device processes the substrate by supplying a processing liquid to the substrate on which the film is formed under processing conditions that include variable conditions that vary with the processing conditions.
  • an experimental data acquisition unit that acquires a processing amount indicating the difference in film thickness before and after the treatment of the coated film; a first compressor that converts the fluctuating conditions to reduce the number of dimensions; A process that shows the difference in film thickness before and after processing of a film formed on a substrate before being processed by a substrate processing apparatus by machine learning learning data including the converted conversion result and processing amount corresponding to processing conditions.
  • a model generation unit that generates a learning model for estimating the quantity, and the information processing device uses a second compressor that is the same as the first compressor and a learning model generated by the learning device to control the substrate processing device.
  • processing condition determining unit that determines processing conditions for driving, the processing condition determining unit providing the learning model with a conversion result obtained by converting the temporary fluctuation condition by the second compressor, and inferred by the learning model. If the processing amount satisfies the allowable condition, processing conditions including the provisional fluctuation conditions are determined as processing conditions for driving the substrate processing apparatus.
  • the learning method includes processing a substrate processing apparatus that processes a substrate by supplying a processing liquid to a substrate on which a film is formed to perform processing that includes variable conditions that vary over time. After driving under the conditions, there is a process to obtain the throughput that indicates the difference in film thickness of the film formed on the substrate before and after the process, a compression process to convert the variable conditions to reduce the number of dimensions, and a process to calculate the variation in the compression process.
  • the difference in film thickness before and after processing of the film formed on the substrate before being processed by the substrate processing equipment is calculated by machine learning the learning data including the conversion results of the conditions and the processing amount corresponding to the processing conditions.
  • a computer is made to perform a process of generating a learning model for estimating the amount of processing to be performed.
  • a processing condition determining method is a processing condition determining method executed by a computer that manages a substrate processing apparatus, wherein the substrate processing apparatus A process in which a substrate is processed by supplying a process liquid to a substrate on which a film has been formed under processing conditions including processing conditions, and a process in which the varying conditions are converted to reduce the number of dimensions, and a process of determining processing conditions for driving the substrate processing apparatus using a learning model that estimates a processing amount indicating a difference in film thickness before and after processing of a film formed on a substrate, the learning model comprising: In the same process as the conversion process, the fluctuation conditions included in the processing conditions under which the substrate processing equipment processed the substrate are converted, and the conversion result and the film thickness before and after processing of the film formed on the substrate processed by the substrate processing equipment are converted.
  • the method includes a process of determining processing conditions including a provisional variation condition as processing conditions for driving the substrate processing apparatus when the estimated processing amount satisfies the allowable condition.
  • a learning device and a substrate processing system suitable for machine learning of conditions that change over time for processing a substrate can be provided.
  • an information processing apparatus a substrate processing apparatus, a substrate processing system, and a processing condition determination method that can present a plurality of processing conditions for the processing results of a complicated process for processing a substrate.
  • FIG. 1 is a diagram for explaining the configuration of a substrate processing system according to an embodiment of the present invention.
  • FIG. 2 is a diagram showing an example of the configuration of an information processing device.
  • FIG. 3 is a diagram showing an example of the configuration of the learning device.
  • FIG. 4 is a diagram showing an example of the functional configuration of a substrate processing system in one of the embodiments of the present invention.
  • FIG. 5 is a first diagram showing an example of a nozzle operation pattern.
  • FIG. 6 is a second diagram showing an example of a nozzle operation pattern.
  • FIG. 7 is a diagram showing an example of film thickness characteristics.
  • FIG. 8 is a diagram explaining the predictor.
  • FIG. 9 is a flowchart showing an example of the flow of autoencoder generation processing.
  • FIG. 10 is a flowchart showing an example of the flow of predictor generation processing.
  • FIG. 11 is a flowchart showing an example of the flow of processing condition determination processing.
  • FIG. 12 is a flowchar
  • substrates include semiconductor substrates (semiconductor wafers), FPD (Flat Panel Display) substrates such as liquid crystal display devices or organic EL (Electro Luminescence) display devices, optical disk substrates, magnetic disk substrates, and magneto-optical substrates.
  • semiconductor substrates semiconductor wafers
  • FPD Fluor Deposition
  • organic EL Electro Luminescence
  • disk substrates photomask substrates, ceramic substrates, solar cell substrates, etc.
  • FIG. 1 is a diagram for explaining the configuration of a substrate processing system according to an embodiment of the present invention.
  • the substrate processing system 1 in FIG. 1 includes an information processing device 100, a learning device 200, and a substrate processing device 300.
  • the learning device 200 is, for example, a server
  • the information processing device 100 is, for example, a personal computer.
  • the learning device 200 and the information processing device 100 are used to manage the substrate processing device 300.
  • the number of substrate processing apparatuses 300 managed by the learning device 200 and the information processing apparatus 100 is not limited to one, and a plurality of substrate processing apparatuses 300 may be managed.
  • the information processing device 100, the learning device 200, and the substrate processing device 300 are connected to each other by a wired or wireless communication line or communication network.
  • the information processing device 100, the learning device 200, and the substrate processing device 300 are each connected to a network and can send and receive data to and from each other.
  • a local area network (LAN) or a wide area network (WAN) is used as the network.
  • the network may be the Internet.
  • the information processing apparatus 100 and the substrate processing apparatus 300 may be connected through a dedicated communication network.
  • the network connection type may be a wired connection or a wireless connection.
  • the learning device 200 does not necessarily need to be connected to the substrate processing device 300 and the information processing device 100 via a communication line or a communication line network.
  • data generated by the substrate processing apparatus 300 may be passed to the learning apparatus 200 via a recording medium.
  • data generated by the learning device 200 may be passed to the information processing device 100 via a recording medium.
  • the substrate processing apparatus 300 is provided with a display device, an audio output device, and an operation unit (not shown).
  • the substrate processing apparatus 300 is operated according to predetermined processing conditions (processing recipe) for the substrate processing apparatus 300.
  • the substrate processing apparatus 300 includes a control device 10 and a plurality of substrate processing units WU.
  • the control device 10 controls a plurality of substrate processing units WU.
  • the plurality of substrate processing units WU process the substrate by supplying a processing liquid to the substrate W on which the film is formed.
  • the processing liquid includes an etching liquid, and the substrate processing unit WU executes the etching process.
  • the etching solution is a chemical solution.
  • etching solution examples include hydrofluoric acid (a mixture of hydrofluoric acid (HF) and nitric acid ( HNO3 )), hydrofluoric acid, buffered hydrofluoric acid (BHF), ammonium fluoride, and HFEG (a mixture of hydrofluoric acid and ethylene glycol). ), or phosphoric acid (H 3 PO 4 ).
  • the substrate processing unit WU includes a spin chuck SC, a spin motor SM, a nozzle 311, and a nozzle moving mechanism 301.
  • the spin chuck SC holds the substrate W horizontally.
  • Spin motor SM has a first rotation axis AX1.
  • the first rotation axis AX1 extends in the vertical direction.
  • the spin chuck SC is attached to the upper end of the first rotation axis AX1 of the spin motor SM.
  • the spin motor SM rotates, the spin chuck SC rotates about the first rotation axis AX1.
  • the spin motor SM is a stepping motor.
  • the substrate W held by the spin chuck SC rotates around the first rotation axis AX1. Therefore, the rotation speed of the substrate W is the same as the rotation speed of the stepping motor.
  • the rotational speed of the substrate W may be acquired from the rotational speed signal generated by the encoder.
  • a motor other than a stepping motor can be used as the spin motor.
  • the nozzle 311 supplies the etching liquid to the substrate W.
  • the nozzle 311 is supplied with an etching liquid from an etching liquid supply section (not shown), and discharges the etching liquid toward the rotating substrate W.
  • the nozzle moving mechanism 301 moves the nozzle 311 in a substantially horizontal direction.
  • the nozzle moving mechanism 301 includes a nozzle motor 303 having a second rotation axis AX2 and a nozzle arm 305.
  • the nozzle motor 303 is arranged so that the second rotation axis AX2 runs substantially vertically.
  • the nozzle arm 305 has a longitudinal shape that extends linearly.
  • One end of the nozzle arm 305 is attached to the upper end of the second rotation axis AX2 such that the longitudinal direction of the nozzle arm 305 is in a direction different from the second rotation axis AX2.
  • a nozzle 311 is attached to the other end of the nozzle arm 305 so that its discharge port faces downward.
  • Nozzle motor 303 When the nozzle motor 303 operates, the nozzle arm 305 rotates in a horizontal plane around the second rotation axis AX2. Thereby, the nozzle 311 attached to the other end of the nozzle arm 305 moves (swivels) in the horizontal direction centering on the second rotation axis AX2. The nozzle 311 discharges etching liquid toward the substrate W while moving in the horizontal direction.
  • Nozzle motor 303 is, for example, a stepping motor.
  • the control device 10 includes a CPU (central processing unit) and a memory, and controls the entire substrate processing apparatus 300 by the CPU executing a program stored in the memory. Control device 10 controls spin motor SM and nozzle motor 303.
  • the learning device 200 receives experimental data from the substrate processing device 300, performs machine learning on a learning model using the experimental data, and outputs the learned learning model to the information processing device 100.
  • the information processing apparatus 100 uses the learned learning model to determine processing conditions for processing the substrate that the substrate processing apparatus 300 is scheduled to process from now on.
  • the information processing apparatus 100 outputs the determined processing conditions to the substrate processing apparatus 300.
  • FIG. 2 is a diagram illustrating an example of the configuration of an information processing device.
  • information processing device 100 includes CPU 101, RAM (random access memory) 102, ROM (read only memory) 103, storage device 104, operation unit 105, display device 106, and input/output I/F (interface ) 107.
  • the CPU 101, RAM 102, ROM 103, storage device 104, operation unit 105, display device 106, and input/output I/F 107 are connected to a bus 108.
  • the RAM 102 is used as a work area for the CPU 101.
  • a system program is stored in the ROM 103.
  • the storage device 104 includes a storage medium such as a hard disk or a semiconductor memory, and stores programs.
  • the program may be stored in ROM 103 or other external storage device.
  • a CD-ROM 109 is removably attached to the storage device 104.
  • a recording medium that remembers the program executed by the CPU 101 it is not limited to CD -ROM109 (MO (MAGNETIC Optical Disc) / MD (MINI DISC) / DVD (Digital Versatile Disc), not limited to CD -ROM109. ), IC card, optical card, mask It may be a medium such as a semiconductor memory such as ROM or EPROM (Erasable Programmable ROM).
  • the CPU 101 downloads the program from a computer connected to the network and stores it in the storage device 104, or the computer connected to the network writes the program to the storage device 104 so that the program is stored in the storage device 104.
  • the program may be loaded into the RAM 102 and executed by the CPU 101.
  • the programs referred to here include not only programs that can be directly executed by the CPU 101, but also source programs, compressed programs, encrypted programs, and the like.
  • the operation unit 105 is an input device such as a keyboard, mouse, or touch panel.
  • the user can give predetermined instructions to the information processing apparatus 100 by operating the operation unit 105.
  • the display device 106 is a display device such as a liquid crystal display device, and displays a GUI (Graphical User Interface) for receiving instructions from a user.
  • the input/output I/F 107 is connected to the network.
  • FIG. 3 is a diagram showing an example of the configuration of the learning device.
  • learning device 200 includes CPU 201, RAM 202, ROM 203, storage device 204, operation unit 205, display device 206, and input/output I/F 207.
  • the CPU 201 , RAM 202 , ROM 203 , storage device 204 , operation unit 205 , display device 206 , and input/output I/F 207 are connected to the bus 208 .
  • the RAM 202 is used as a work area for the CPU 201.
  • a system program is stored in the ROM 203.
  • the storage device 204 includes a storage medium such as a hard disk or a semiconductor memory, and stores programs.
  • the program may be stored in ROM 203 or other external storage device.
  • a CD-ROM 209 is removably attached to the storage device 204.
  • the operation unit 205 is an input device such as a keyboard, mouse, or touch panel.
  • the input/output I/F 207 is connected to the network.
  • FIG. 4 is a diagram showing an example of the functional configuration of a substrate processing system in one of the embodiments of the present invention.
  • control device 10 included in substrate processing apparatus 300 controls substrate processing unit WU to process substrate W in accordance with processing conditions.
  • the processing conditions are conditions for processing the substrate W during a predetermined processing time.
  • the processing time is the time determined for processing the substrate. In this embodiment, the processing time is the time during which the nozzle 311 is discharging the etching liquid onto the substrate W.
  • the processing conditions include the temperature of the etching solution, the concentration of the etching solution, the flow rate of the etching solution, the rotation speed of the substrate W, and the relative position of the nozzle 311 and the substrate W.
  • the processing conditions include variable conditions that change over time.
  • the variable condition is the relative position between the nozzle 311 and the substrate W.
  • the relative position is indicated by the rotation angle of the nozzle motor 303.
  • Processing conditions include fixed conditions that do not vary over time. In this embodiment, the fixed conditions are the temperature of the etching solution, the concentration of the etching solution, the flow rate of the etching solution, and the rotation speed of the substrate W.
  • the learning device 200 causes a learning model to learn the learning data and generates an inference model that infers an etching profile from processing conditions.
  • the inference model generated by the learning device 200 will be referred to as a predictor.
  • the learning device 200 includes a variation condition generation section 251, a compressor generation section 253, a compressor transmission section 255, an experimental data acquisition section 261, a first compression section 263, a predictor generation section 265, and a predictor transmission section. 267.
  • the functions provided in the learning device 200 are realized by the CPU 201 when the CPU 201 in the learning device 200 executes a learning program stored in the RAM 202 .
  • the variation condition generation unit 251 generates variation conditions. For example, the variation condition generation unit 251 generates a plurality of variation conditions by calculation.
  • the substrate W rotates around a first rotation axis AX1
  • the nozzle 311 rotates around a second rotation axis AX2. Therefore, a change in the relative position between the nozzle 311 and the substrate W is indicated by a change in the position of the nozzle 311. Changes in the position of the nozzle 311 are determined by the rotation angle of the nozzle motor 303. Further, the range of angles in which the nozzle motor 303 rotates is limited to a predetermined range. Furthermore, the processing time is a predetermined period.
  • changes in the position of the nozzle 311 can be classified into a plurality of operation patterns. For example, a plurality of operation patterns are determined in which at least one of the moving speed of the nozzle 311, the shift position indicating the position at which the speed is changed, the moving direction of the nozzle 311, and the number of times the nozzle 311 reverses its speed is fixed.
  • the variable condition generation unit 251 determines a function for each of a plurality of motion patterns, and generates a variable condition using the function.
  • FIG. 5 is a diagram showing an example of a nozzle operation pattern. Referring to FIG. 5, three variation conditions are shown in which the number of times the nozzle 311 reverses its speed is varied and other variables are kept the same.
  • the upper row shows a fluctuation condition in which there are three reversals from the positive side to the negative side
  • the middle row shows a fluctuation condition in which there are four reversals from the positive side to the negative side
  • the lower row shows a fluctuation condition in which there is a reversal from the positive side to the negative side four times.
  • a variation condition with five reversals is shown.
  • FIG. 6 is a diagram showing an example of a nozzle operation pattern. Referring to FIG. 6, three variation conditions are shown in which the acceleration at which the nozzle 311 accelerates and decelerates is varied and other variables are kept the same.
  • the upper row shows a constant speed fluctuation condition
  • the middle row shows a fluctuation condition in which the acceleration gradually decreases
  • the lower row shows a fluctuation condition in which the acceleration gradually increases.
  • the compressor generation unit 253 generates a compressor by performing machine learning on the plurality of variation conditions generated by the variation condition generation unit 251.
  • the compressor transmitter 255 transmits the compressor generated by the compressor generator 253 to the information processing apparatus 100.
  • the compressor generation unit 253 performs machine learning using a neural network.
  • compressor generation section 253 is configured by an autoencoder.
  • the compressor generation unit 253 causes the autoencoder to perform machine learning on the variation conditions generated by the variation condition generation unit 251.
  • the compressor generation unit 253 inputs the variation conditions generated by the variation condition generation unit 251 to the autoencoder as generation input data, and sets parameters such that the output of the autoencoder is equal to the generation input data. Determine.
  • the autoencoder consists of an input layer, a middle layer, and an output layer. The portion from the input layer to the intermediate layer corresponds to a compressor, and the portion from the intermediate layer to the output layer corresponds to a decoder.
  • the compressor generation unit 253 generates, as a compressor, a neural network that incorporates parameters set from the input layer to the intermediate layer of the learned autoencoder.
  • the compressor is an inference program that incorporates parameters set from the input layer to the intermediate layer of the learned autoencoder.
  • the compressor generation unit 253 may normalize the variation conditions and cause the autoencoder to perform machine learning on the normalized variation conditions.
  • the variation condition indicates the relative position of the nozzle 311 with respect to the substrate W, and an example will be described in which it is in the range of -150 mm to 150 mm, for example.
  • By normalizing the fluctuation conditions it is scaled to a range of 0 to 1.
  • By normalizing the fluctuation conditions the possible range of parameters is unified, and machine learning by the autoencoder becomes easier.
  • the compressor generation unit 253 classifies a plurality of variation conditions prepared in advance for machine learning into a first variation condition used for machine learning and a second variation condition used for compressor evaluation, and The conditions are machine learned by the autoencoder, and the performance of the autoencoder is evaluated under the second variation condition.
  • the experimental data acquisition unit 261 acquires experimental data from the substrate processing apparatus 300.
  • the experimental data includes processing conditions used when the substrate processing apparatus 300 actually processes the substrate W, and film thickness characteristics of the film formed on the substrate W before and after the processing.
  • the film thickness characteristic is indicated by the film thickness of a film formed on the substrate W at each of a plurality of different positions in the radial direction of the substrate W.
  • FIG. 7 is a diagram showing an example of film thickness characteristics.
  • the horizontal axis indicates the radial position of the substrate, and the vertical axis indicates the film thickness.
  • the origin of the horizontal axis indicates the center of the board.
  • the thickness of the coating formed on the substrate W before being processed by the substrate processing apparatus 300 is indicated by a solid line.
  • the thickness of the film formed on the substrate W is adjusted by performing a process of applying an etching liquid according to the process conditions by the substrate processing apparatus 300.
  • the thickness of the coating formed on the substrate W after being processed by the substrate processing apparatus 300 is indicated by a dotted line.
  • the difference between the thickness of the coating formed on the substrate W before being processed by the substrate processing apparatus 300 and the thickness of the coating formed on the substrate W after being processed by the substrate processing apparatus 300 is the processing amount (etching amount). ).
  • the processing amount indicates the thickness of the film reduced by the process of applying the etching solution by the substrate processing apparatus 300.
  • the radial distribution of processing amount is called an etching profile.
  • the etching profile includes processing amounts at each of a plurality of positions in the radial direction of the substrate W.
  • the film thickness formed by the substrate processing apparatus 300 be uniform over the entire surface of the substrate W. Therefore, a target film thickness is determined for the processing performed by the substrate processing apparatus 300.
  • the target film thickness is indicated by a dashed line.
  • the deviation characteristic is the difference between the film thickness of the film formed on the substrate W after being processed by the substrate processing apparatus 300 and the target film thickness.
  • the deviation characteristics include differences at each of a plurality of positions in the radial direction of the substrate W.
  • the first compression unit 263 converts the fluctuation conditions included in the processing conditions of the experimental data input from the experimental data acquisition unit 261 into a low-dimensional compressor using the compressor generated by the compressor generation unit 253. data set.
  • the compressor generated by the compressor generation unit 253 is a neural network.
  • the first compression unit 263 inputs a variation condition to a neural network, which is a compressor, and outputs a conversion result by the compressor to a predictor generation unit 265.
  • the predictor generation unit 265 receives the conversion result obtained by converting the fluctuation conditions from the first compression unit 263 and receives the experimental data from the experimental data acquisition unit 261.
  • the predictor generation unit 265 generates a predictor by performing supervised learning on a neural network.
  • the learning data includes input data and correct answer data.
  • the input data includes a conversion result obtained by converting the variable conditions by the first compression unit 263, and fixed conditions other than the variable conditions of the processing conditions included in the experimental data.
  • the correct data includes an etching profile.
  • the etching profile is the difference between the film thickness characteristics of the film before processing included in the experimental data and the film thickness properties of the film after processing included in the experimental data.
  • the predictor generation unit 265 inputs the input data to the neural network and determines the parameters of the neural network so that the output of the neural network is equal to the correct data.
  • the predictor generation unit 265 generates a neural network incorporating parameters set in a trained neural network as a predictor.
  • the predictor is an inference program that incorporates parameters set in a trained neural network.
  • the predictor generation unit 265 transmits the predictor to the information processing apparatus 100.
  • FIG. 8 is a diagram explaining the predictor.
  • the predictor includes an input layer, a hidden layer, and an output layer, and each layer includes a plurality of nodes indicated by circles. Note that although the figure shows one intermediate layer, the number of intermediate layers may be greater than this. Further, although five nodes are shown in the input layer, four nodes are in the middle layer, and three nodes are in the output layer, the number of nodes is not limited to this.
  • the output of the upper node is connected to the input of the lower node.
  • the parameters include coefficients that weight the outputs of higher-order nodes. Further, the number of intermediate layers is one or more, and the number is not limited.
  • an etching profile is output.
  • the etching profile is indicated by the difference E[n] in film thickness before and after processing at each of a plurality of positions P[n] (n is an integer of 1 or more) in the radial direction of the substrate W. Note that although the figure shows three output nodes of the predictor, in reality, the number of output nodes is n.
  • the information processing apparatus 100 includes a processing condition determination section 151, a compressor reception section 153, a predictor reception section 155, a second compression section 157, a prediction section 159, an evaluation section 161, A processing condition transmitter 163 is included.
  • the functions included in the information processing apparatus 100 are realized by the CPU 101 when the CPU 101 included in the information processing apparatus 100 executes a processing condition determination program stored in the RAM 102.
  • the compressor receiving unit 153 receives the compressor transmitted from the learning device 200 and outputs the received compressor to the second compression unit 157.
  • Predictor receiving section 155 receives the predictor transmitted from learning device 200 and outputs the received predictor to prediction section 159 .
  • the processing condition determining unit 151 determines processing conditions for the substrate W to be processed by the substrate processing apparatus 300.
  • the processing condition determination unit 151 outputs the variable conditions included in the processing conditions to the second compression unit 157 and outputs the fixed conditions included in the processing conditions to the prediction unit 159.
  • the processing condition determining unit 151 selects one of a plurality of variable conditions prepared in advance using the experimental design method, pairwise method, or Bayesian estimation, and sets a processing condition including the selected variable condition and the fixed condition. is determined as a processing condition for causing the prediction unit 159 to estimate.
  • As the plurality of variation conditions prepared in advance it is preferable to use a plurality of variation conditions generated by the learning device 200 to generate a compressor.
  • the second compression unit 157 compresses the fluctuation conditions input from the processing condition determination unit 151 using a compressor. Specifically, the second compression unit 157 inputs the fluctuation condition to the compressor, and outputs the output of the compressor to the prediction unit 159 as a conversion result.
  • the prediction unit 159 uses a predictor to estimate an etching profile from the fixed condition and the result of converting the variable condition by the compressor. Specifically, the prediction unit 159 inputs the conversion result input from the second compression unit 157 and the fixed conditions input from the processing condition determination unit 151 to a predictor, and evaluates the etching profile output by the predictor. It is output to section 161.
  • the evaluation unit 161 evaluates the etching profile input from the prediction unit 159 and outputs the evaluation result to the processing condition determination unit 151. Specifically, the evaluation unit 161 acquires the film thickness characteristics of the substrate W to be processed by the substrate processing apparatus 300 before processing. The evaluation unit 161 calculates the predicted film thickness characteristic after the etching process from the etching profile input from the prediction unit 159 and the film thickness characteristic of the substrate W before the process, and compares it with the target film thickness characteristic. If the comparison result satisfies the evaluation criteria, the processing conditions determined by the processing condition determining section 151 are output to the processing condition transmitting section 163. For example, the evaluation unit 161 calculates the deviation characteristic, and it is determined whether the deviation characteristic satisfies the evaluation criteria.
  • the deviation characteristic is the difference between the film thickness characteristic of the substrate W after the etching process and the target film thickness characteristic.
  • Evaluation criteria can be determined arbitrarily. For example, the evaluation criterion may be that the maximum value of the difference in the deviation characteristic is less than or equal to the threshold value, or that the average value of the differences is less than or equal to the threshold value.
  • the processing condition transmitting section 163 transmits the processing conditions determined by the processing condition determining section 151 to the substrate processing apparatus 300.
  • the substrate processing apparatus 300 processes the substrate W according to processing conditions.
  • the evaluation unit 161 If the evaluation result does not satisfy the evaluation criteria, the evaluation unit 161 outputs the evaluation result to the processing condition determination unit 151.
  • the evaluation result includes the film thickness characteristic predicted after the etching process or the difference between the film thickness characteristic predicted after the etching process and the target film thickness characteristic.
  • the processing condition determination unit 151 determines new processing conditions for the prediction unit 159 to estimate in response to the evaluation results being input from the evaluation unit 161.
  • the processing condition determining unit 151 selects one of a plurality of variable conditions prepared in advance using the experimental design method, pairwise method, or Bayesian estimation, and sets a processing condition including the selected variable condition and the fixed condition. is determined as a new processing condition for causing the prediction unit 159 to estimate.
  • the processing condition determining unit 151 may search for processing conditions using Bayesian estimation.
  • the evaluation unit 161 outputs a plurality of evaluation results, there are a plurality of pairs of processing conditions and evaluation results. Based on the tendency of the etching profiles in each of a plurality of sets, processing conditions are searched for which make the thickness of the film uniform, or processing conditions which minimize the difference between the film thickness characteristics predicted after etching and the target film thickness characteristics.
  • the processing condition determining unit 151 searches for processing conditions so as to minimize the objective function.
  • the objective function is a function that indicates the uniformity of the film thickness of the film or a function that indicates the consistency between the film thickness characteristics of the film and the target film thickness characteristics.
  • the objective function is a function in which the difference between the film thickness characteristic predicted after etching treatment and the target film thickness characteristic is expressed as a parameter.
  • the parameters here are the conversion results obtained by converting the corresponding fluctuation conditions by the second compression unit 157.
  • the corresponding variation condition is the variation condition before the conversion result used by the predictor to estimate the etching profile is converted.
  • the processing condition determination unit 151 selects a variation condition corresponding to the conversion result, which is a parameter determined by the search, from among the plurality of variation conditions, and determines a new processing condition including the selected variation condition and the fixed condition. do.
  • the processing condition determining unit 151 may select a variation condition obtained by decoding the parameters obtained by search using a decoder.
  • the decoder is part of an autoencoder configured by the compressor generation unit 253 of the learning device 200.
  • FIG. 9 is a flowchart showing an example of the flow of autoencoder generation processing.
  • the autoencoder generation process is a process executed by the CPU 201 of the learning device 200 when the CPU 201 executes an autoencoder generation program stored in the RAM 202.
  • the autoencoder generation program is part of the learning program.
  • CPU 201 included in learning device 200 generates a variable condition, and the process proceeds to step S02.
  • a plurality of operation patterns indicating changes in the position of the nozzle 311 are determined in advance, and one of the plurality of operation patterns is selected. Then, a function corresponding to the selected operation pattern is selected, and a variable condition is generated by sequentially varying the parameters.
  • step S02 the CPU 201 causes the autoencoder to learn, and advances the process to step S03.
  • the fluctuation conditions generated in step S01 are set to the input and output, and the parameters of the neural network are adjusted.
  • the varying conditions are sampled at predetermined sampling intervals. In this embodiment, the processing time is 20 seconds, and the sampling interval is 0.01 seconds. Therefore, the variation condition is data in which 2000 pieces of position data indicating positions are arranged in time series.
  • step S03 it is determined whether the adjustment is complete. Variation conditions used to evaluate the compressor are prepared in advance, and the performance of the autoencoder is evaluated using the variation conditions for evaluation. If the evaluation result satisfies predetermined evaluation criteria, it is determined that the adjustment is complete. If the evaluation result does not satisfy the evaluation criteria (NO in step S03), the process returns to step S01, but if the evaluation result satisfies the evaluation criteria (YES in step S03), the process proceeds to step S04.
  • step S01 If the process returns to step S01, a new motion pattern is generated in step S01.
  • the CPU 201 causes the autoencoder to perform machine learning using a plurality of variation conditions. Thereby, the parameters of the autoencoder are adjusted to appropriate values.
  • step S04 the autoencoder is stored in the storage device 104, and the process proceeds to step S05.
  • the autoencoder is a neural network with parameters adjusted by machine learning.
  • step S05 the compressor is transmitted and the process ends.
  • the CPU 201 controls the input/output I/F 107 and transmits a portion of the autoencoder from the input layer to the intermediate layer as a compressor to the information processing apparatus 100.
  • FIG. 10 is a flowchart illustrating an example of the flow of predictor generation processing.
  • the predictor generation process is a process executed by the CPU 201 of the learning device 200 when the CPU 201 executes a predictor generation program stored in the RAM 202 .
  • the predictor generation program is part of the learning program.
  • CPU 201 included in learning device 200 acquires experimental data.
  • the CPU 201 controls the input/output I/F 107 to acquire experimental data from the substrate processing apparatus 300 (step S11).
  • the experimental data may be obtained by reading experimental data recorded on a recording medium such as a CD-ROM 209 using the storage device 104. A plurality of experimental data are obtained here.
  • the experimental data includes processing conditions and film thickness characteristics of the film formed on the substrate W before and after the processing.
  • the film thickness characteristic is indicated by the film thickness of a film formed on the substrate W at a plurality of different positions in the radial direction of the substrate W.
  • step S12 experimental data to be processed is selected, and the process proceeds to step S13.
  • step S13 the variation conditions included in the experimental data are compressed, and the process proceeds to step S14.
  • the variable conditions are input to the compressor generated by the learning device 200, and the output of the compressor is obtained as a conversion result.
  • step S14 the conversion result, fixed conditions included in the experimental data, and etching profile are set as learning data.
  • the etching profile is the difference between the film thickness characteristics of the film before processing included in the experimental data and the film thickness properties of the film after processing included in the experimental data.
  • the learning data includes input data and correct answer data.
  • the conversion result by the compressor calculated in step S13 and the fixed conditions included in the experimental data are set as input data.
  • the etching profile is set as correct data.
  • step S15 the CPU 201 causes the predictor to perform machine learning, and advances the process to step S16.
  • Input data is input to a predictor, which is a neural network, and parameters are determined so that the output of the predictor is equal to the correct data. This adjusts the parameters of the predictor.
  • the predictor is a neural network having parameters determined by machine learning using learning data.
  • step S16 it is determined whether the adjustment is complete.
  • Learning data used for evaluating the predictor is prepared in advance, and the performance of the predictor is evaluated using the learning data for evaluation. If the evaluation result satisfies predetermined evaluation criteria, it is determined that the adjustment is complete. If the evaluation result does not satisfy the evaluation criteria (NO in step S16), the process returns to step S12, but if the evaluation result satisfies the evaluation criteria (YES in step S16), the process proceeds to step S17.
  • step S12 When the process returns to step S12, in step S12, experimental data that has not been selected to be processed is selected from among the experimental data acquired in step S11.
  • the CPU 201 causes the predictor to undergo machine learning using a plurality of pieces of learning data.
  • the parameters of the predictor which is a neural network, are adjusted to appropriate values.
  • step S18 the predictor is transmitted and the process ends.
  • the CPU 201 controls the input/output I/F 107 and transmits the predictor to the information processing apparatus 100.
  • FIG. 11 is a flowchart showing an example of the flow of processing condition determination processing.
  • the processing condition determination process is a process executed by the CPU 101 included in the information processing apparatus 100 when the CPU 101 executes a processing condition determination program stored in the RAM 102 .
  • CPU 101 included in information processing apparatus 100 selects one from a plurality of variable conditions prepared in advance (step S21), and advances the process to step S22.
  • the plurality of variation conditions are a plurality of variation conditions generated by the learning device 200 to generate a compressor.
  • One of a plurality of variation conditions prepared in advance is selected using an experimental design method, a pairwise method, Bayesian estimation, or the like.
  • step S22 the variable conditions are compressed, and the process proceeds to step S23.
  • the variable conditions are compressed using the compressor generated by the learning device 200.
  • a variable condition is input to the compressor, and its output is obtained as a conversion result.
  • step S23 an etching profile is estimated from the conversion result and the fixed conditions using a predictor, and the process proceeds to step S24.
  • the conversion result and fixed conditions are input to the predictor, and the etching profile output by the predictor is obtained.
  • step S24 the film thickness characteristic after processing is compared with the target film thickness characteristic.
  • the film thickness characteristics after processing the substrate W are calculated from the film thickness characteristics before processing of the substrate W to be processed by the substrate processing apparatus 300 and the etching profile estimated in step S23.
  • the film thickness characteristics after treatment are then compared with the target film thickness characteristics. Here, the difference between the film thickness characteristic after processing the substrate W and the target film thickness characteristic is calculated.
  • step S25 it is determined whether the comparison result satisfies the evaluation criteria. If the comparison result satisfies the evaluation criteria (YES in step S25), the process proceeds to step S26; otherwise, the process returns to step S21. For example, it is determined that the evaluation criteria are satisfied when the maximum value of the difference is less than or equal to the threshold value. Furthermore, it is determined that the evaluation criteria are satisfied when the average of the differences is less than or equal to the threshold value.
  • step S26 processing conditions including the variable condition selected immediately before in step S21 are set as processing condition candidates for driving the substrate processing apparatus 300, and the process proceeds to step S27.
  • step S27 it is determined whether an instruction to end the search has been accepted. If the termination instruction is accepted by the user operating the information processing device 100, the process proceeds to step S28, but if not, the process returns to step S21. Note that instead of the termination instruction input by the user, it may be determined whether a predetermined number of processing conditions have been set as candidates.
  • step S28 one of the one or more processing conditions set as candidates is determined, and the process proceeds to step S29.
  • One may be selected by the user operating the information processing apparatus 100 from among the one or more processing conditions set as candidates. Therefore, the range of choices for the user is expanded.
  • the variable condition that provides the simplest nozzle operation may be automatically selected from among the variable conditions included in the plurality of processing conditions.
  • the variation condition with the simplest nozzle operation can be, for example, the variation condition with the least number of shift points. Thereby, it is possible to present a plurality of variation conditions for the processing results for complicated nozzle operations for processing the substrate W. If a variable condition that allows easy nozzle control is selected from among the plurality of variable conditions, the substrate processing apparatus 300 can be easily controlled.
  • step S29 the processing conditions including the variable conditions determined in step S28 are transmitted to the substrate processing apparatus 300, and the processing ends.
  • the CPU 101 controls the input/output I/F 107 and transmits processing conditions to the substrate processing apparatus 300.
  • the substrate processing apparatus 300 processes the substrate W according to the processing conditions.
  • the fluctuation conditions are time series data sampled at a nozzle operation processing time of 20 seconds and a sampling interval of 0.01 seconds.
  • the variation condition consists of 2000 values. Therefore, the variable conditions can express complicated nozzle operations. In particular, nozzle operation with a relatively large number of shift points for changing the nozzle moving speed can be accurately expressed under variable conditions.
  • the compressor generation unit 253 in this embodiment causes the autoencoder to perform machine learning so as to convert the fluctuation conditions into a two-dimensional data set. For this reason, the compressor generated by the compressor generation unit 253 converts the variable condition made up of 2000 values into a two-dimensional data set.
  • the inventor has discovered that even when converting variable conditions consisting of 2000 values representing complex nozzle operations into a two-dimensional data set, the desired result can be obtained as an etching profile predicted by the predictor. Discovered through experiment.
  • the number of data input to the predictor can be reduced, so the configuration of the predictor can be simplified, and the neural network can be easily trained. Moreover, the parameters of the neural network can be adjusted to appropriate values, and the accuracy of the predictor can be improved.
  • a variation condition with 2000 dimensions is converted into a two-dimensional data set, there may be a plurality of variation conditions that have the same conversion result among the plurality of variation conditions.
  • the etching profile predicted by the predictor from each of the plurality of variation conditions with the same conversion result will be the same.
  • the processing condition determining unit 151 searches for processing conditions, processing conditions corresponding to different etching profiles are searched for, so processing conditions corresponding to a plurality of different etching profiles are selected. Ru. Therefore, the processing condition determination unit 151 can efficiently search for a processing condition from which a target etching profile is predicted from among a plurality of processing conditions.
  • sampling interval is not limited to this.
  • the sampling interval may be longer than this, or the sampling interval may be shorter than this.
  • the sampling interval may be 0.1 seconds or 0.005 seconds. In short, regardless of the number of dimensions of the variation condition, it is sufficient that the number of dimensions of the transformation result obtained by converting the variation condition by the compressor is two-dimensional.
  • the learning device 200 generates a predictor based on learning data.
  • the learning device 200 may perform additional learning on the predictor.
  • the learning device 200 acquires the film thickness characteristics and processing conditions of the coating before and after the processing of the substrate W processed by the substrate processing device 300.
  • the learning device 200 generates learning data from the film thickness characteristics and processing conditions of the film before and after the treatment, and performs machine learning on the predictor, thereby additionally learning the predictor. Additional learning does not change the configuration of the neural network that makes up the predictor, but adjusts the parameters.
  • the predictor Since the predictor is subjected to machine learning using information obtained as a result of the substrate processing apparatus 300 actually processing the substrate W, the accuracy of the predictor can be improved. Furthermore, the number of learning data used to generate a predictor can be minimized.
  • FIG. 12 is a flowchart showing an example of the flow of additional learning processing.
  • the additional learning process is a process executed by the CPU 201 of the learning device 200 when the CPU 201 executes an additional learning program stored in the RAM 202.
  • An additional study program is part of a study program.
  • CPU 201 included in learning device 200 acquires production data (step S31), and advances the process to step S32.
  • the production data includes the processing conditions when the substrate processing apparatus 300 processes the substrate W after the predictor is generated, and the film thickness characteristics of the coating before and after the processing.
  • the CPU 201 controls the input/output I/F 107 to acquire production data from the substrate processing apparatus 300 .
  • the production data may be obtained by reading experimental data recorded on a recording medium such as a CD-ROM 209 using the storage device 104.
  • step S32 the variable conditions are compressed, and the process proceeds to step S33.
  • the variable conditions are input to the compressor generated by the learning device 200, and the output of the compressor is obtained as a conversion result.
  • step S33 the conversion result, the fixed conditions included in the processing conditions of the production data, and the etching profile are set as learning data.
  • the etching profile is the difference between the film thickness characteristic of the film before processing included in the data at the time of production and the film thickness property of the film after processing included in the data at the time of production.
  • the conversion result by the compressor and the fixed conditions included in the processing conditions are set to the input data.
  • the etching profile is set as correct data.
  • step S34 the CPU 201 additionally learns the predictor, and advances the process to step S35.
  • Input data is input to a predictor, which is a neural network, and parameters are determined so that the output of the predictor is equal to the correct data. This further adjusts the predictor parameters.
  • step S35 it is determined whether the adjustment is complete.
  • the performance of the predictor is evaluated using the training data for evaluation. If the evaluation result satisfies predetermined evaluation criteria for additional learning, it is determined that the adjustment is complete.
  • the evaluation criterion for additional learning is a higher criterion than the evaluation criterion used when the predictor was generated. If the evaluation result does not satisfy the evaluation criteria for additional learning (NO in step S35), the process returns to step S31, but if the evaluation result satisfies the evaluation criteria for additional learning (YES in step S35), the process ends. .
  • the learning device 200 uses the processing conditions determined by the information processing device 100 and the distillation data including the etching profile estimated by the predictor from the processing conditions to perform machine learning on a new learning model.
  • a model may also be generated. This makes it easy to prepare data for learning a new learning model.
  • the learning device 200 generates the compressor by machine learning the autoencoder
  • the present invention is not limited to this.
  • the compressor may reduce the temporal change in the relative position of the nozzle 311 and the substrate W in other ways.
  • the learning data used to generate the predictor includes a conversion result obtained by converting the input data from the variable condition and a fixed condition.
  • the present invention is not limited to this.
  • the input data includes only the conversion result obtained by converting the variable conditions, and does not need to include the fixed conditions.
  • the relative position between the nozzle 311 and the substrate W is shown as an example of the variable condition, but the present invention is not limited to this. If at least one of the temperature of the etching solution, the concentration of the etching solution, the flow rate of the etching solution, and the rotation speed of the substrate W changes over time, these may be used as the variation conditions. Further, the number of variation conditions is not limited to one type, and may include a plurality of types.
  • the present invention is not limited to this.
  • the information processing apparatus 100 may be incorporated into the substrate processing apparatus 300.
  • the information processing device 100 and the learning device 200 may be incorporated into the substrate processing device 300.
  • the information processing device 100 and the learning device 200 are described as separate devices, they may be configured as an integrated device.
  • the learning device 200 of the present embodiment calculates the processing amount indicating the difference in film thickness before and after processing of the film formed on the substrate W after driving the substrate processing device 300 under processing conditions including variable conditions.
  • the learning data that includes the conversion results obtained by converting the variable conditions by the compressor as input data and the etching profile corresponding to the processing conditions as the correct data is subjected to machine learning by a neural network to estimate the etching profile.
  • Generate a predictor which is a learning model. Since the learning data includes, as input data, a transformation result that has been transformed so that the number of dimensions of a variation condition that changes over time is reduced, so the number of dimensions of the learning data can be reduced. Therefore, a learning device suitable for machine learning of conditions that change over time for processing the substrate W can be generated.
  • the learning device 200 generates a plurality of variation conditions within a range that can drive the substrate processing apparatus 300, and causes the autoencoder to perform machine learning on the generated plurality of variation conditions to generate a compressor. Therefore, since the compressor is generated by having the autoencoder learn the variation conditions, the compressor can be easily generated.
  • processing conditions include variable conditions and fixed conditions that do not change over time. Therefore, it is possible to handle processes with different fixed conditions, and there is no need to generate multiple learning models with different fixed conditions.
  • the learning device 200 after generating the predictor, the learning device 200 obtains a processing amount indicating the difference in film thickness before and after processing of the film formed on the substrate W processed by the substrate processing device 300 according to the processing conditions, and A learning model is trained using additional learning data including the conversion result obtained by converting the temporary fluctuation condition and the acquired processing amount. Therefore, since the learning model is additionally trained, the performance of the learning model can be improved.
  • the learning device 200 provides the learning model with the conversion result obtained by converting the temporary fluctuation condition by the compressor, and when the processing amount estimated by the learning model satisfies the allowable condition, the learning device 200 calculates the amount of processing estimated by the conversion result and the learning model.
  • a new learning model is generated using the distillation data including the processing amount. Therefore, it becomes easy to prepare data for learning a new learning model.
  • the substrate processing apparatus 300 includes a nozzle 311 that supplies a processing liquid to the substrate W, and a nozzle moving mechanism 301 that changes the relative position between the nozzle and the substrate W, and the fluctuation conditions are changed by the nozzle moving mechanism 301. This is the relative position between the nozzle 311 and the substrate W.
  • a learning model is generated that estimates the throughput of the film to be processed by changing the relative position between the nozzle 311 and the substrate W and supplying the processing liquid for the substrate W from the nozzle 311. Therefore, a learning model for estimating the amount of processing in etching processing can be generated.
  • the information processing device 100 also provides the learning model generated by the learning device 200 with the conversion result obtained by converting the temporary fluctuation conditions by the compressor generated by the learning device 200, so that the etching profile estimated by the learning model can be calculated.
  • the processing conditions including the provisional variable conditions are determined as the processing conditions for driving the substrate processing apparatus 300. Therefore, since the etching profile is estimated from the processing conditions, there is no need to conduct experiments or the like to find out the influence of the complicated nozzle operation on the etching processing results. Furthermore, since a plurality of temporary variation conditions are determined for the throughput that satisfies the tolerance conditions, it is possible to determine a plurality of variation conditions that respectively correspond to the plurality of etching profiles that satisfy the tolerance conditions. Therefore, a plurality of variable conditions can be presented for the processing results of a complex process for processing a substrate. If processing conditions that are easy to control for operating the nozzle are selected from among a plurality of variable conditions, the substrate processing apparatus 300 can be easily controlled.
  • the information processing apparatus 100 determines a plurality of processing conditions for the throughput that satisfies the tolerance conditions, it is possible to determine a plurality of processing conditions that respectively correspond to the plurality of etching profiles that satisfy the tolerance conditions.
  • the fixed conditions include the temperature of the etching solution. Therefore, it is possible to present a plurality of etching solution temperatures for the processing results of a complex process for processing a substrate. Furthermore, it is possible to select an etching liquid temperature that is easy to apply to the etching process from among a plurality of etching liquid temperatures. Since the temperature of the etching solution that is easy to apply can be selected, the temperature of the etching solution used in the etching process can be easily controlled.
  • the substrate W is an example of a substrate
  • the etching liquid is an example of a processing liquid
  • the substrate processing apparatus 300 is an example of a substrate processing apparatus
  • experimental data The acquisition unit 261 is an example of an experimental data acquisition unit
  • the first compression unit 263 is an example of a first compressor
  • the predictor is an example of a learning model
  • the predictor generation unit 265 is an example of a model generation unit. be.
  • the information processing device 100 is an example of an information processing device
  • the variable condition generation unit 251 is an example of a variable condition generation unit
  • the compressor generation unit 253 is an example of a compressor generation unit
  • the second compression unit 157 is an example of a second compressor
  • the nozzle 311 is an example of a nozzle that supplies a processing liquid to a substrate
  • the nozzle moving mechanism 301 is an example of a moving section
  • 151 is an example of a processing condition determining section.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Condensed Matter Physics & Semiconductors (AREA)
  • General Physics & Mathematics (AREA)
  • Manufacturing & Machinery (AREA)
  • Computer Hardware Design (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Power Engineering (AREA)
  • Cleaning Or Drying Semiconductors (AREA)
  • Exposure Of Semiconductors, Excluding Electron Or Ion Beam Exposure (AREA)
  • Weting (AREA)

Abstract

学習装置は、被膜が形成された基板に処理液を供給することにより基板を処理する基板処理装置を時間の経過に伴って変動する変動条件を含む処理条件で駆動した後に基板に形成された被膜の処理前後の膜厚の差を示す処理量を取得する実験データ取得部と、変動条件を次元数が低減するように変換する第1圧縮部と、第1圧縮部により変動条件が変換された変換結果と処理条件に対応する処理量とを含む学習用データを機械学習して基板処理装置により処理される前の基板に形成された被膜の処理前後の膜厚の差を示す処理量を推測する学習モデルを生成する予測器生成部と、を備える。

Description

学習装置、情報処理装置、基板処理装置、基板処理システム、学習方法および処理条件決定方法
 本発明は、学習装置、情報処理装置、基板処理装置、基板処理システム、学習方法および処理条件決定方法に関し、基板処理装置による処理条件に従った処理をシミュレートする学習モデルを生成する学習装置、その学習モデルを用いて処理条件を決定する情報処理装置、その情報処理装置を備えた基板処理装置、学習装置で実行される学習方法および情報処理装置で実行される処理条件決定方法に関する。
 半導体製造プロセスにおいて、洗浄プロセスがある。洗浄プロセスでは、基板に薬液を塗布するエッチング処理によって、基板に形成されている被膜の膜厚調整が行なわれる。この膜厚調整においては、基板の面が均一となるようにエッチング処理すること、あるいは、基板の面をエッチング処理によって平坦にすることが重要である。エッチング液をノズルから基板の一部に吐出する場合、ノズルを基板に対して径方向に移動させる必要がある。しかし、エッチング処理は、被膜が処理される処理量がノズルを移動させる動作の違いによって変化する複雑なプロセスである。また、エッチング処理により被膜が処理される処理量は、基板を処理した後に判明する。このため、ノズルを移動させる動作を設定する作業は、技術者による試行錯誤が必要である。ノズルの最適な動作を決定するまでに、多大なコスト及び時間を要する。
 特開2021-108367号公報には、「入力」を処理量(エッチング量)とし、「出力」をスキャン速度情報とする学習用データで機械学習させた学習済モデルを用いて、目標とする処理量からスキャン速度情報を決定する装置が記載されている。この技術によれば、目標とする処理量から1つのスキャン速度情報が決定される。
特開2021-108367号公報
 一方で、ノズルを移動させる動作をより複雑にすることが望まれる。ノズルを移動させる動作は、時間の経過に伴って変化する位置を示す時系列データである。ノズルを移動させる動作を複雑にすると、サンプリング間隔が多くなるので、時系列データの次元数が多くなる。一般に、学習用データの次元数が多くなると、機械学習に必要なデータ数が指数関数的に増加してしまう。このため、学習用データの次元数が多くなることにより、機械学習によって得られる学習モデルを最適化するのが困難となる。また、エッチング処理は、複雑なプロセスなので、目標とする処理量に適したノズルの動作は1つとは限らず、複数存在する場合がある。
 本発明の目的の1つは、基板を処理するために時間の経過に伴って変化する条件を機械学習させるのに適した学習装置および基板処理システム提供することである。
 また、本発明の他の目的は、基板を処理する複雑なプロセスの処理結果に対して複数の処理条件を提示することが可能な情報処理装置、基板処理装置、基板処理システムおよび処理条件決定方法を提供することである。
 被膜が形成された基板に処理液を供給することにより基板を処理する基板処理装置を時間の経過に伴って変動する変動条件を含む処理条件で駆動した後に基板に形成された被膜の処理前後の膜厚の差を示す処理量を取得する実験データ取得部と、変動条件を次元数が低減するように変換する圧縮器と、圧縮器により変動条件が変換された変換結果と処理条件に対応する処理量とを含む学習用データを機械学習して基板処理装置により処理される前の基板に形成された被膜の処理前後の膜厚の差を示す処理量を推測する学習モデルを生成するモデル生成部と、を備える。
 この局面に従えば、学習用データが、時間の経過に伴って変動する変動条件の次元数が低減するように変換された変換結果と処理量とを含む。このため、学習用データの次元数を少なくすることができる。その結果、基板を処理するために時間の経過に伴って変化する条件を機械学習させるのに適した学習装置を提供することができる。
 好ましくは、複数の変動条件を生成する変動条件生成部と、変動条件生成部により生成された複数の変動条件をオートエンコーダに学習させて圧縮器を生成する圧縮器生成部と、をさらに備える。
 この局面に従えば、圧縮器が、変動条件をオートエンコーダに学習させることにより生成される。このため、圧縮器の生成が容易になる。
 好ましくは、処理条件は、時間の経過に伴って変動しない固定条件をさらに含み、学習用データは、固定条件を含む。
 この局面に従えば、固定条件が異なる処理に対応でき、固定条件が異なる複数の学習モデルを生成する必要がない。
 好ましくは、圧縮器により仮の変動条件が変換された変換結果を学習モデルに与えて学習モデルにより推測される処理量が許容条件を満たす場合に仮の変動条件を含む処理条件で基板処理装置を駆動させて、基板処理装置により処理された基板に形成された被膜の処理前後の膜厚の差を示す処理量を取得する実績取得部と、圧縮器により仮の変動条件が変換された変換結果と実績取得部により取得された処理量とを含む追加学習用データを用いて学習モデルを学習させる追加学習部と、をさらに備える。
 この局面に従えば、学習モデルが追加学習されるので、学習モデルの性能を向上させることができる。
 好ましくは、圧縮器により仮の変動条件が変換された変換結果を学習モデルに与えて学習モデルにより推測される処理量が許容条件を満たす場合に変換結果と学習モデルにより推測された処理量とを含む蒸留用データを用いて新たな学習モデルを生成する蒸留部を、さらに備える。
 この局面に従えば、新たな学習モデルを学習させるためのデータを準備するのが容易になる。
 好ましくは、基板処理装置は、基板に処理液を供給するノズルと、ノズルと基板との相対位置を変化させる移動部と、を備え、変動条件は、移動部により変化するノズルと基板との相対位置である。
 この局面に従えば、ノズルと基板との相対位置を変化させて、ノズルから基板の処理液を供給することにより処理される被膜の処理量を推測する学習モデルが生成される。このため、エッチング処理における処理量を推測する学習モデルを生成することができる。
 この発明の他の局面によれば、情報処理装置は、基板処理装置を管理する情報処理装置であって、基板処理装置は、時間の経過に伴って変動する変動条件を含む処理条件で、被膜が形成された基板に処理液を供給することにより、基板を処理し、変動条件を次元数が低減するように変換する第2圧縮器と、基板処理装置により処理される前の基板に形成された被膜の処理前後の膜厚の差を示す処理量を推測する学習モデルを用いて、基板処理装置を駆動するための処理条件を決定する処理条件決定部と、を備え、学習モデルは、基板処理装置が基板を処理した処理条件に含まれる変動条件を第2圧縮器と同じ第1圧縮器により変換された変換結果と基板処理装置により処理された基板に形成された被膜の処理前後の膜厚の差を示す処理量とを含む学習用データを機械学習した推論モデルであり、処理条件決定部は、第2圧縮器により仮の変動条件が変換された変換結果を学習モデルに与えて学習モデルにより推測される処理量が許容条件を満たす場合に仮の変動条件を含む処理条件を、基板処理装置を駆動するための処理条件に決定する。
 この局面に従えば、時間の経過に伴って変動する仮の変動条件を変換した変換結果を学習モデルに与えて学習モデルにより推測される処理量が許容条件を満たす場合に、仮の変動条件を含む処理条件が基板処理装置を駆動するための処理条件に決定される。このため、許容条件を満たす処理量に対して複数の仮の変動条件を決定することができる。その結果、基板を処理する複雑なプロセスの処理結果に対して複数の処理条件を提示することが可能な情報処理装置を提供することができる。
 好ましくは、基板処理装置は、上記の情報処理装置を備える。
 この局面に従えば、基板を処理する複雑なプロセスの処理結果に対して複数の処理条件を提示することが可能な基板処理装置を提供することができる。
 この発明の他の局面によれば、基板処理システムは、基板を処理する基板処理装置を管理する基板処理システムであって、学習装置と情報処理装置とを備え、基板処理装置は、時間の経過に伴って変動する変動条件を含む処理条件で、被膜が形成された基板に処理液を供給することにより、基板を処理し、学習装置は、基板処理装置を処理条件で駆動した後に基板に形成された被膜の処理前後の膜厚の差を示す処理量を取得する実験データ取得部と、変動条件を次元数が低減するように変換する第1圧縮器と、第1圧縮器により変動条件が変換された変換結果と処理条件に対応する処理量とを含む学習用データを機械学習して基板処理装置により処理される前の基板に形成された被膜の処理前後の膜厚の差を示す処理量を推測する学習モデルを生成するモデル生成部と、を備え、情報処理装置は、第1圧縮器と同じ第2圧縮器と、学習装置により生成された学習モデルを用いて、基板処理装置を駆動するための処理条件を決定する処理条件決定部と、を備え、処理条件決定部は、第2圧縮器により仮の変動条件が変換された変換結果を学習モデルに与えて学習モデルにより推測される処理量が許容条件を満たす場合に仮の変動条件を含む処理条件を、基板処理装置を駆動するための処理条件に決定する。
 この局面に従えば、基板を処理するために時間の経過に伴って変化する条件を機械学習させるのに適し、かつ、基板を処理する複雑なプロセスの処理結果に対して複数の処理条件を提示することが可能な基板処理システムを提供することができる。
 この発明のさらに他の局面によれば、学習方法は、被膜が形成された基板に処理液を供給することにより基板を処理する基板処理装置を時間の経過に伴って変動する変動条件を含む処理条件で駆動した後に、基板に形成された被膜の処理前後の膜厚の差を示す処理量を取得する処理と、変動条件を次元数が低減するように変換する圧縮処理と、圧縮処理において変動条件が変換された変換結果と処理条件に対応する処理量とを含む学習用データを機械学習して基板処理装置により処理される前の基板に形成された被膜の処理前後の膜厚の差を示す処理量を推測する学習モデルを生成する処理と、をコンピューターに実行させる。
 この局面に従えば、基板を処理するために時間の経過に伴って変化する条件を機械学習させるのに適した学習方法を提供することができる。
 この発明のさらに他の局面によれば、処理条件決定方法は、基板処理装置を管理するコンピューターで実行される処理条件決定方法であって、基板処理装置は、時間の経過に伴って変動する変動条件を含む処理条件で、被膜が形成された基板に処理液を供給することにより基板を処理し、変動条件を次元数が低減するように変換する処理と、基板処理装置により処理される前の基板に形成された被膜の処理前後の膜厚の差を示す処理量を推測する学習モデルを用いて、基板処理装置を駆動するための処理条件を決定する処理と、を含み、学習モデルは、変換する処理と同じ処理で、基板処理装置が基板を処理した処理条件に含まれる変動条件が変換された変換結果と基板処理装置により処理された基板に形成された被膜の処理前後の膜厚の差を示す処理量とを含む学習用データを機械学習した推論モデルであり、処理条件を決定する処理は、変換する処理により仮の変動条件が変換された変換結果を学習モデルに与えて学習モデルにより推測される処理量が許容条件を満たす場合に仮の変動条件を含む処理条件を、基板処理装置を駆動するための処理条件に決定する処理を含む。
 この局面に従えば、基板を処理する複雑なプロセスの処理結果に対して複数の処理条件を提示することが可能な処理条件決定方法を提供することができる。
 基板を処理するために時間の経過に伴って変化する条件を機械学習させるのに適した学習装置および基板処理システム提供することができる。
 また、基板を処理する複雑なプロセスの処理結果に対して複数の処理条件を提示することが可能な情報処理装置、基板処理装置、基板処理システムおよび処理条件決定方法を提供することができる。
図1は本発明の一実施の形態に係る基板処理システムの構成を説明するための図である。 図2は情報処理装置の構成の一例を示す図である。 図3は学習装置の構成の一例を示す図である。 図4は本発明の本実施の形態の1つにおける基板処理システムの機能的な構成の一例を示す図である。 図5はノズルの動作パターンの一例を示す第1の図である。 図6はノズルの動作パターンの一例を示す第2の図である。 図7は膜厚特性の一例を示す図である。 図8は予測器を説明する図である。 図9はオートエンコーダ生成処理の流れの一例を示すフローチャートである。 図10は予測器生成処理の流れの一例を示すフローチャートである。 図11は処理条件決定処理の流れの一例を示すフローチャートである。 図12は追加学習処理の流れの一例を示すフローチャートである。
 以下、本発明の一実施の形態に係る基板処理システムについて図面を参照しながら詳細に説明する。以下の説明において、基板とは、半導体基板(半導体ウェハ)、液晶表示装置もしくは有機EL(Electro Luminescence)表示装置等のFPD(Flat Panel Display)用基板、光ディスク用基板、磁気ディスク用基板、光磁気ディスク用基板、フォトマスク用基板、セラミック基板または太陽電池用基板等をいう。
 1.基板処理システムの全体構成
 図1は、本発明の一実施の形態に係る基板処理システムの構成を説明するための図である。図1の基板処理システム1は、情報処理装置100、学習装置200および基板処理装置300を含む。学習装置200は、例えばサーバであり、情報処理装置100は、例えばパーソナルコンピューターである。
 学習装置200および情報処理装置100は、基板処理装置300を管理するために用いられる。なお、学習装置200および情報処理装置100が管理する基板処理装置300は、1台に限定されるものではなく、基板処理装置300の複数を管理してもよい。
 本実施の形態に係る基板処理システム1において、情報処理装置100、学習装置200および基板処理装置300は、互いに有線または無線の通信線または通信回線網により接続される。情報処理装置100、学習装置200および基板処理装置300は、それぞれがネットワークに接続され、互いにデータの送受信が可能である。ネットワークは、例えば、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)が用いられる。また、ネットワークは、インターネットであってもよい。また、情報処理装置100と基板処理装置300とは、専用の通信回線網で接続されてもよい。ネットワークの接続形態は、有線接続であってもよいし、無線接続であってもよい。
 なお、学習装置200は、基板処理装置300および情報処理装置100と、必ずしも通信線または通信回線網で接続される必要はない。この場合、基板処理装置300で生成されたデータが記録媒体を介して学習装置200に渡されてもよい。また、学習装置200で生成されたデータが記録媒体を介して情報処理装置100に渡されてもよい。
 基板処理装置300には、図示しない表示装置、音声出力装置および操作部が設けられる。基板処理装置300は、基板処理装置300の予め定められた処理条件(処理レシピ)に従って運転される。
 2.基板処理装置の概要
 基板処理装置300は、制御装置10と、複数の基板処理ユニットWUを備える。制御装置10は、複数の基板処理ユニットWUを制御する。複数の基板処理ユニットWUは、被膜が形成された基板Wに処理液を供給することにより基板を処理する。処理液はエッチング液を含み、基板処理ユニットWUはエッチング処理を実行する。エッチング液は、薬液である。エッチング液は、例えば、フッ硝酸(フッ酸(HF)と硝酸(HNO)との混合液)、フッ酸、バファードフッ酸(BHF)、フッ化アンモニウム、HFEG(フッ酸とエチレングリコールとの混合液)、又は、燐酸(HPO)である。
 基板処理ユニットWUは、スピンチャックSCと、スピンモータSMと、ノズル311と、ノズル移動機構301と、を備える。スピンチャックSCは、基板Wを水平に保持する。スピンモータSMは、第1回転軸AX1を有する。第1回転軸AX1は、上下方向に延びる。スピンチャックSCは、スピンモータSMの第1回転軸AX1の上端部に取り付けられる。スピンモータSMが回転すると、スピンチャックSCが第1回転軸AX1を中心として回転する。スピンモータSMは、ステッピングモータである。スピンチャックSCに保持された基板Wは、第1回転軸AX1を中心として回転する。このため、基板Wの回転速度は、ステッピングモータの回転速度と同じである。なお、スピンモータの回転速度を示す回転速度信号を生成するエンコーダを設ける場合、エンコーダにより生成される回転速度信号から基板Wの回転速度が取得されてもよい。この場合、スピンモータは、ステッピングモータ以外のモータを用いることができる。
 ノズル311は、基板Wにエッチング液を供給する。ノズル311は、図示しないエッチング液供給部からエッチング液が供給され、回転中の基板Wに向けてエッチング液を吐出する。
 ノズル移動機構301は、略水平方向にノズル311を移動させる。具体的には、ノズル移動機構301は、第2回転軸AX2を有するノズルモータ303と、ノズルアーム305と、を有する。ノズルモータ303は、第2回転軸AX2が略鉛直方向に沿うように配置される。ノズルアーム305は、直線状に延びる長手形状を有する。ノズルアーム305の一端は、ノズルアーム305の長手方向が第2回転軸AX2とは異なる方向となるように、第2回転軸AX2の上端に取り付けられる。ノズルアーム305の他端に、ノズル311がその吐出口が下方を向くように取り付けられる。
 ノズルモータ303が動作すると、ノズルアーム305は第2回転軸AX2を中心として水平面内で回転する。これにより、ノズルアーム305の他端に取り付けられたノズル311は、第2回転軸AX2を中心として水平方向に移動する(旋回する)。ノズル311は、水平方向に移動しながら基板Wに向けてエッチング液を吐出する。ノズルモータ303は、例えば、ステッピングモータである。
 制御装置10は、CPU(中央演算処理装置)およびメモリを含み、CPUがメモリに記憶されたプログラムを実行することにより、基板処理装置300の全体を制御する。制御装置10は、スピンモータSMおよびノズルモータ303を制御する。
 学習装置200は、基板処理装置300から実験データが入力され、実験データを用いて学習モデルを機械学習し、学習済の学習モデルを、情報処理装置100に出力する。
 情報処理装置100は、学習済の学習モデルを用いて、基板処理装置300がこれから処理する予定の基板に対して、基板を処理するための処理条件を決定する。情報処理装置100は、決定された処理条件を基板処理装置300に出力する。
 図2は、情報処理装置の構成の一例を示す図である。図2を参照して、情報処理装置100は、CPU101、RAM(ランダムアクセスメモリ)102、ROM(リードオンリメモリ)103、記憶装置104、操作部105、表示装置106および入出力I/F(インターフェイス)107により構成される。CPU101、RAM102、ROM103、記憶装置104、操作部105、表示装置106および入出力I/F107はバス108に接続される。
 RAM102は、CPU101の作業領域として用いられる。ROM103にはシステムプログラムが記憶される。記憶装置104は、ハードディスクまたは半導体メモリ等の記憶媒体を含み、プログラムを記憶する。プログラムは、ROM103または他の外部記憶装置に記憶されてもよい。
 記憶装置104には、CD-ROM109が着脱可能である。CPU101が実行するプログラムを記憶する記録媒体としては、CD-ROM109に限られず、光ディスク(MO(Magnetic Optical Disc)/MD(Mini Disc)/DVD(Digital Versatile Disc))、ICカード、光カード、マスクROM、EPROM(Erasable Programmable ROM)などの半導体メモリ等の媒体でもよい。さらに、CPU101がネットワークに接続されたコンピューターからプログラムをダウンロードして記憶装置104に記憶する、または、ネットワークに接続されたコンピューターがプログラムを記憶装置104に書込みするようにして、記憶装置104に記憶されたプログラムをRAM102にロードしてCPU101で実行するようにしてもよい。ここでいうプログラムは、CPU101により直接実行可能なプログラムだけでなく、ソースプログラム、圧縮処理されたプログラム、暗号化されたプログラム等を含む。
 操作部105は、キーボード、マウスまたはタッチパネル等の入力デバイスである。使用者は、操作部105を操作することにより、情報処理装置100に所定の指示を与えることができる。表示装置106は、液晶表示装置等の表示デバイスであり、使用者による指示を受け付けるためのGUI(Graphical User Interface)等を表示する。入出力I/F107は、ネットワークに接続される。
 図3は、学習装置の構成の一例を示す図である。図3を参照して、学習装置200は、CPU201、RAM202、ROM203、記憶装置204、操作部205、表示装置206および入出力I/F207により構成される。CPU201、RAM202、ROM203、記憶装置204、操作部205、表示装置206および入出力I/F207はバス208に接続される。
 RAM202は、CPU201の作業領域として用いられる。ROM203にはシステムプログラムが記憶される。記憶装置204は、ハードディスクまたは半導体メモリ等の記憶媒体を含み、プログラムを記憶する。プログラムは、ROM203または他の外部記憶装置に記憶されてもよい。記憶装置204には、CD-ROM209が着脱可能である。
 操作部205は、キーボード、マウスまたはタッチパネル等の入力デバイスである。入出力I/F207は、ネットワークに接続される。
 3.基板処理システムの機能構成
 図4は、本発明の本実施の形態の1つにおける基板処理システムの機能的な構成の一例を示す図である。図4を参照して、基板処理装置300が備える制御装置10は、基板処理ユニットWUを制御して、処理条件に従って基板Wを処理する。処理条件は、予め定められた処理時間の間に基板Wを処理する条件である。処理時間は、基板に対する処理に対して定められる時間である。本実施の形態において、処理時間は、基板Wにノズル311がエッチング液を吐出している間の時間である。
 処理条件は、本実施の形態においては、エッチング液の温度、エッチング液の濃度、エッチング液の流量、基板Wの回転数、ノズル311と基板Wとの相対位置を含む。処理条件は、時間の経過に伴って変動する変動条件を含む。本実施の形態において、変動条件は、ノズル311と基板Wとの相対位置である。相対位置は、ノズルモータ303の回転角度で示される。処理条件は、時間の経過に伴って変動しない固定条件を含む。本実施の形態において、固定条件は、エッチング液の温度、エッチング液の濃度、エッチング液の流量、基板Wの回転数である。
 学習装置200は、学習用データを学習モデルに学習させて、処理条件からエッチングプロファイルを推測する推論モデルを生成する。以下、学習装置200が生成する推論モデルを予測器という。
 学習装置200は、変動条件生成部251と、圧縮器生成部253と、圧縮器送信部255と、実験データ取得部261と、第1圧縮部263と、予測器生成部265と、予測器送信部267と、を含む。学習装置200が備える機能は、学習装置200が備えるCPU201がRAM202に格納された学習プログラムを実行することにより、CPU201により実現される。
 変動条件生成部251は、変動条件を生成する。例えば、変動条件生成部251は、演算により複数の変動条件を生成する。本実施の形態において、基板Wは、第1回転軸AX1を中心に回転し、ノズル311は、第2回転軸AX2を中心に回転する。このため、ノズル311と基板Wとの相対位置の変化は、ノズル311の位置の変化で示される。ノズル311の位置の変化は、ノズルモータ303の回転角度により定まる。また、ノズルモータ303の回転する角度の範囲は、所定範囲に制限される。さらに、処理時間は、予め定めた期間である。このため、ノズル311の位置の変化を複数の動作パターンに分類することができる。例えば、ノズル311の移動速度、速度を変更する位置を示す変速位置、ノズル311の移動方向、ノズル311が速度を反転する回数の少なくとも1つを固定した複数の動作パターンが定まる。変動条件生成部251は、複数の動作パターンごとに関数を定め、その関数を用いて変動条件を生成する。
 図5は、ノズルの動作パターンの一例を示す図である。図5を参照して、ノズル311が速度を反転する回数を異ならせ、他の変数を同じとした場合の3つの変動条件が示される。上段に、正側から負側への反転が3回の変動条件が示され、中段に正側から負側への反転が4回の変動条件が示され、下段に正側から負側への反転が5回の変動条件が示される。
 図6は、ノズルの動作パターンの一例を示す図である。図6を参照して、ノズル311が加減速する加速度を異ならせ、他の変数を同じとした場合の3つの変動条件が示される。上段に、定速度の変動条件が示され、中段に加速度が徐々に小さくなる変動条件が示され、下段に加速度が徐々に大きくなる変動条件が示される。
 図4に戻って、圧縮器生成部253は、変動条件生成部251により生成された複数の変動条件を機械学習することにより圧縮器を生成する。圧縮器送信部255は、圧縮器生成部253により生成された圧縮器を情報処理装置100に送信する。
 圧縮器生成部253は、ニューラルネットワークを用いて機械学習する。本実施の形態においては、圧縮器生成部253は、オートエンコーダにより構成されている。圧縮器生成部253は、変動条件生成部251において生成された変動条件をオートエンコーダに機械学習させる。具体的には、圧縮器生成部253は、変動条件生成部251により生成された変動条件を生成用入力データとしてオートエンコーダに入力し、オートエンコーダの出力が生成用入力データと等しくなるようにパラメータを決定する。オートエンコーダは、入力層、中間層および出力層で構成される。入力層から中間層までの部分が圧縮器に相当し、中間層から出力層までの部分が復号器に相当する。圧縮器生成部253は、学習済のオートエンコーダのうち入力層から中間層の部分に設定されたパラメータを組み込んだニューラルネットワークを圧縮器として生成する。圧縮器は、学習済のオートエンコーダのうち入力層から中間層の部分に設定されたパラメータを組み込んだ推論プログラムである。
 圧縮器生成部253は、変動条件を正規化し、正規化した変動条件をオートエンコーダに機械学習させてもよい。変動条件は、ノズル311の基板Wに対する相対位置を示し、例えば、-150mm~150mmの範囲とする例を説明する。変動条件を正規化することで0~1の範囲にスケーリングされる。変動条件を正規化することで、パラメータの取り得る範囲が統一され、オートエンコーダによる機械学習が容易になる。
 圧縮器生成部253は、機械学習のために予め準備された複数の変動条件を、機械学習に用いる第1変動条件と、圧縮器の評価に用いる第2変動条件とに分類し、第1変動条件をオートエンコーダに機械学習させ、第2変動条件でオートエンコーダの性能を評価する。
 実験データ取得部261は、基板処理装置300から実験データを取得する。実験データは、基板処理装置300が実際に基板Wを処理する場合に用いられる処理条件と、基板Wに形成された被膜の処理前後の膜厚特性とを含む。膜厚特性は、基板Wに形成される被膜の基板Wの径方向に異なる複数の位置それぞれにおける膜厚で示される。
 図7は、膜厚特性の一例を示す図である。図7を参照して、横軸に基板の半径方向の位置を示し、縦軸に膜厚を示す。横軸の原点が基板の中心を示す。基板処理装置300により処理される前の基板Wに形成された被膜の膜厚が実線で示される。基板処理装置300により処理条件に従ってエッチング液を塗布する処理が実行されることにより、基板Wに形成される被膜の膜厚が調整される。基板処理装置300により処理された後の基板Wに形成された被膜の膜厚が点線で示される。
 基板処理装置300により処理される前の基板Wに形成された被膜の膜厚と基板処理装置300により処理された後の基板Wに形成された被膜の膜厚との差が処理量(エッチング量)である。処理量は、基板処理装置300によりエッチング液を塗布する処理により減少した膜の厚さを示す。処理量の径方向の分布を、エッチングプロファイルという。エッチングプロファイルは、基板Wの径方向における複数の位置それぞれにおける処理量を含む。
 また、基板処理装置300により形成される膜厚は、基板Wの全面において均一であることが望まれる。このため、基板処理装置300により実行される処理に対して、目標となる目標膜厚が定められる。目標膜厚は、一点鎖線で示される。乖離特性は、基板処理装置300により処理された後の基板Wに形成された被膜の膜厚と目標膜厚との差分である。乖離特性は、基板Wの径方向における複数の位置それぞれにおける差分を含む。
 図4に戻って、第1圧縮部263は、実験データ取得部261から入力された実験データの処理条件に含まれる変動条件を、圧縮器生成部253により生成された圧縮器を用いて低次元のデータセットに変換する。ここでは、圧縮器生成部253により生成される圧縮器は、ニューラルネットワークである。第1圧縮部263は、圧縮器であるニューラルネットワークに変動条件を入力し、圧縮器による変換結果を予測器生成部265に出力する。
 予測器生成部265は、第1圧縮部263から変動条件を変換した変換結果が入力され、実験データ取得部261から実験データが入力される。予測器生成部265は、ニューラルネットワークに教師あり学習させることにより予測器を生成する。
 具体的には、学習用データは、入力データと正解データとを含む。入力データは、第1圧縮部263により変動条件が変換された変換結果と、実験データに含まれる処理条件の変動条件以外の固定条件と、を含む。正解データは、エッチングプロファイルを含む。エッチングプロファイルは、実験データに含まれる処理前の被膜の膜厚特性と、実験データに含まれる処理後の被膜の膜厚特性との差である。予測器生成部265は、入力データをニューラルネットワークに入力し、ニューラルネットワークの出力が正解データと等しくなるようにニューラルネットワークのパラメータを決定する。予測器生成部265は、学習済のニューラルネットワークに設定されたパラメータを組み込んだニューラルネットワークを予測器として生成する。予測器は、学習済のニューラルネットワークに設定されたパラメータを組み込んだ推論プログラムである。予測器生成部265は、予測器を情報処理装置100に送信する。
 図8は、予測器を説明する図である。図8を参照して、予測器は、入力層、中間層および出力層を含み、各層に〇で示される複数のノードが含まれる。なお、図では、中間層を1つ示しているが、中間層の数はこれより多くてもよい。また、入力層に5つのノード、中間層に4つ、出力層に3つのノードが示されるが、ノードの数は、これに限定されるものではない。上位のノードの出力は下位のノードの入力に接続される。パラメータは、上位のノードの出力に対して重み付けする係数を含む。また、中間層の数は、1以上であり、その数は限定されない。
 予測器に、変動条件を低次元のデータセットに変換した変換結果と固定条件とを入力すると、エッチングプロファイルが出力される。エッチングプロファイルは、基板Wの径方向の複数の位置P[n](nは1以上の整数)それぞれにおける処理前後の膜厚の差E[n]で示される。なお、図では、予測器の出力ノードの数を3つ示しているが、実際には、出力ノードの数はn個である。
 図4に戻って、情報処理装置100は、処理条件決定部151と、圧縮器受信部153と、予測器受信部155と、第2圧縮部157と、予測部159と、評価部161と、処理条件送信部163と、を含む。情報処理装置100が備える機能は、情報処理装置100が備えるCPU101がRAM102に格納された処理条件決定プログラムを実行することにより、CPU101により実現される。
 圧縮器受信部153は、学習装置200から送信される圧縮器を受信し、受信された圧縮器を第2圧縮部157に出力する。予測器受信部155は、学習装置200から送信される予測器を受信し、受信された予測器を予測部159に出力する。
 処理条件決定部151は、基板処理装置300により処理の対象となる基板Wに対する処理条件を決定する。処理条件決定部151は、処理条件に含まれる変動条件を第2圧縮部157に出力し、処理条件に含まれる固定条件を予測部159に出力する。処理条件決定部151は、実験計画法、ペアワイズ法またはベイズ推定を用いて、予め準備された複数の変動条件のうちから1つを選択し、選択された変動条件と固定条件とを含む処理条件を予測部159に推測させるための処理条件として決定する。予め準備された複数の変動条件は、学習装置200が圧縮器を生成するために生成した複数の変動条件を用いるのが好ましい。
 第2圧縮部157は、処理条件決定部151から入力される変動条件を、圧縮器を用いて圧縮する。具体的には、第2圧縮部157は、変動条件を圧縮器に入力し、圧縮器の出力を変換結果として予測部159に出力する。
 予測部159は、予測器を用いて圧縮器による変動条件の変換結果と固定条件とからエッチングプロファイルを推測する。具体的には、予測部159は、第2圧縮部157から入力される変換結果と処理条件決定部151から入力される固定条件とを予測器に入力し、予測器が出力するエッチングプロファイルを評価部161に出力する。
 評価部161は、予測部159から入力されるエッチングプロファイルを評価し、評価結果を処理条件決定部151に出力する。詳細には、評価部161は、基板処理装置300が処理対象とする予定の基板Wの処理前の膜厚特性を取得する。評価部161は、予測部159から入力されるエッチングプロファイルと、基板Wの処理前の膜厚特性とからエッチング処理後に予測される膜厚特性を算出し、目標とする膜厚特性と比較する。比較の結果が評価基準を満たしていれば、処理条件決定部151により決定された処理条件を処理条件送信部163に出力する。例えば、評価部161は、乖離特性を算出し、乖離特性が評価基準を満たしているか否かが判断される。乖離特性は、エッチング処理後の基板Wの膜厚特性と目標の膜厚特性との差分である。評価基準は、任意に定めることができる。例えば、評価基準は、乖離特性において差分の最大値が閾値以下であるとしてもよいし、差分の平均が閾値以下であるとしてもよい。
 処理条件送信部163は、処理条件決定部151により決定された処理条件を、基板処理装置300に送信する。基板処理装置300は、処理条件に従って基板Wを処理する。
 評価部161は、評価結果が評価基準を満たしていない場合は、評価結果を処理条件決定部151に出力する。評価結果は、エッチング処理後に予測される膜厚特性またはエッチング処理後に予測される膜厚特性と目標の膜厚特性との差分を含む。
 処理条件決定部151は、評価部161から評価結果が入力されることに応じて、予測部159に推測させるための新たな処理条件を決定する。処理条件決定部151は、実験計画法、ペアワイズ法またはベイズ推定を用いて、予め準備された複数の変動条件のうちから1つを選択し、選択された変動条件と固定条件とを含む処理条件を予測部159に推測させるための新たな処理条件として決定する。
 処理条件決定部151は、ベイズ推定を用いて処理条件を探索してもよい。評価部161により複数の評価結果が出力される場合、処理条件と評価結果との組が複数となる。複数の組それぞれにおけるエッチングプロファイルの傾向から被膜の膜厚が均一となる処理条件またはエッチング処理後に予測される膜厚特性と目標の膜厚特性との差分が最小化する処理条件を探索する。
 具体的には、処理条件決定部151は、目的関数を最小化するように処理条件を探索する。目的関数は、被膜の膜厚の均一性を示す関数または被膜の膜厚特性と目標膜厚特性との一致性を示す関数である。例えば、目的関数は、エッチング処理後に予測される膜厚特性と目標の膜厚特性との差分をパラメータで示した関数である。ここでのパラメータは、対応する変動条件を第2圧縮部157により変換された変換結果である。対応する変動条件は、予測器がエッチングプロファイルを推測するために用いた変換結果が変換される前の変動条件である。処理条件決定部151は、複数の変動条件のうちから探索により決定されたパラメータである変換結果に対応する変動条件を選択し、選択された変動条件と固定条件とを含む新たな処理条件を決定する。
 なお、処理条件決定部151は、予め準備された変動条件のうちから1つを選択するのに代えて、探索により求められたパラメータを、復号器で複号した変動条件を選択してもよい。復号器は、学習装置200の圧縮器生成部253により構成されるオートエンコーダの一部である。
 図9は、オートエンコーダ生成処理の流れの一例を示すフローチャートである。オートエンコーダ生成処理は、学習装置200が備えるCPU201がRAM202に格納されたオートエンコーダ生成プログラムを実行することにより、CPU201により実行される処理である。オートエンコーダ生成プログラムは、学習プログラムの一部である。
 図9を参照して、学習装置200が備えるCPU201は、変動条件が生成され、処理はステップS02に進む。ノズル311の位置の変化を示す複数の動作パターンが予め定められており、複数の動作パターンのうちから1つが選択される。そして、選択された動作パターンに対応する関数が選択され、パラメータを順に変動させることにより変動条件が生成される。
 ステップS02においては、CPU201は、オートエンコーダを学習させ、処理をステップS03に進める。ステップS01において生成された変動条件が入力と出力とに設定され、ニューラルネットワークのパラメータが調整される。変動条件は、所定のサンプリング間隔でサンプリングされる。本実施の形態においては、処理時間を20秒としており、サンプリング間隔を0.01秒としている。したがって、変動条件は、位置を示す2000個の位置データが時系列に配列されるデータである。
 ステップS03においては、調整が完了したか否かが判断される。圧縮器の評価に用いる変動条件が予め準備されており、評価用の変動条件でオートエンコーダの性能が評価される。評価結果が予め定められた評価基準を満たす場合に調整完了と判断される。評価結果が評価基準を満たさなければ(ステップS03でNO)、処理はステップS01に戻るが、評価結果が評価基準を満たすならば(ステップS03でYES)、処理はステップS04に進む。
 処理がステップS01に戻る場合、ステップS01において、新たな動作パターンが生成される。ステップS01~ステップS03のループにおいて、CPU201は、複数の変動条件を用いてオートエンコーダを機械学習させる。これにより、オートエンコーダのパラメータが適正な値に調整される。
 ステップS04においては、オートエンコーダが記憶装置104に記憶され、処理はステップS05に進む。オートエンコーダは、機械学習により調整されたパラメータが設定されたニューラルネットワークである。
 ステップS05においては、圧縮器が送信され、処理は終了する。CPU201は、入出力I/F107を制御し、オートエンコーダのうち入力層から中間層の部分を、圧縮器として情報処理装置100に送信する。
 図10は、予測器生成処理の流れの一例を示すフローチャートである。予測器生成処理は、学習装置200が備えるCPU201がRAM202に格納された予測器生成プログラムを実行することにより、CPU201により実行される処理である。予測器生成プログラムは、学習プログラムの一部である。
 図10を参照して、学習装置200が備えるCPU201は、実験データを取得する。CPU201は、入出力I/F107を制御して、基板処理装置300から実験データを取得する(ステップS11)。実験データは、CD-ROM209等の記録媒体に記録された実験データを記憶装置104で読み取ることにより取得されてもよい。ここで取得される実験データは、複数である。実験データは、処理条件と、基板Wに形成された被膜の処理前後の膜厚特性とを含む。膜厚特性は、基板Wに形成される被膜の基板Wの径方向における異なる複数の位置それぞれの膜厚で示される。
 次のステップS12においては、処理対象とするべき実験データが選択され、処理はステップS13に進む。ステップS13においては、実験データに含まれる変動条件が圧縮され、処理はステップS14に進む。学習装置200により生成された圧縮器に、変動条件が入力され、圧縮器の出力が変換結果として取得される。
 ステップS14においては、変換結果と、実験データに含まれる固定条件と、エッチングプロファイルと、が学習用データに設定される。エッチングプロファイルは、実験データに含まれる処理前の被膜の膜厚特性と、実験データに含まれる処理後の被膜の膜厚特性との差分である。学習用データは、入力データと正解データとを含む。ステップS13において算出された圧縮器による変換結果と、実験データに含まれる固定条件とが入力データに設定される。エッチングプロファイルが正解データに設定される。
 次のステップS15においては、CPU201は、予測器を機械学習させ、処理をステップS16に進める。入力データをニューラルネットワークである予測器に入力し、予測器の出力が正解データと等しくなるようにパラメータを決定する。これにより、予測器のパラメータが調整される。予測器は、学習用データを用いた機械学習により決定されたパラメータを有するニューラルネットワークである。
 ステップS16においては、調整が完了したか否かが判断される。予測器の評価に用いる学習用データが予め準備されており、評価用の学習用データで予測器の性能が評価される。評価結果が予め定められた評価基準を満たす場合に調整完了と判断される。評価結果が評価基準を満たさなければ(ステップS16でNO)、処理はステップS12に戻るが、評価結果が評価基準を満たすならば(ステップS16でYES)、処理はステップS17に進む。
 処理がステップS12に戻る場合、ステップS12において、ステップS11において取得された実験データのうちから処理対象に選択されていない実験データが選択される。ステップS12~ステップS16のループにおいて、CPU201は、複数の学習用データを用いて予測器を機械学習させる。これにより、ニューラルネットワークである予測器のパラメータが適正な値に調整される。ステップS18においては、予測器が送信され、処理は終了する。CPU201は、入出力I/F107を制御し、予測器を情報処理装置100に送信する。
 図11は、処理条件決定処理の流れの一例を示すフローチャートである。処理条件決定処理は、情報処理装置100が備えるCPU101がRAM102に格納された処理条件決定プログラムを実行することにより、CPU101により実行される処理である。
 図11を参照して、情報処理装置100が備えるCPU101は、予め準備された複数の変動条件のうちから1つを選択し(ステップS21)、処理をステップS22に進める。複数の変動条件は、学習装置200が圧縮器を生成するために生成した複数の変動条件である。実験計画法、ペアワイズ法またはベイズ推定等を用いて、予め準備された複数の変動条件のうちから1つが選択される。
 ステップS22においては、変動条件が圧縮され、処理はステップS23に進む。学習装置200で生成された圧縮器を用いて変動条件が圧縮される。ここでは、圧縮器に変動条件を入力し、その出力が変換結果として取得される。
 ステップS23においては、予測器を用いて、変換結果と固定条件とからエッチングプロファイルが推測され、処理はステップS24に進む。予測器に、変換結果と固定条件とを入力し、予測器が出力するエッチングプロファイルが取得される。ステップS24においては、処理後の膜厚特性が目標膜厚特性と比較される。基板処理装置300が処理の対象とする基板Wの処理前の膜厚特性と、ステップS23において推測されたエッチングプロファイルとから基板Wを処理した後の膜厚特性が算出される。そして、処理後の膜厚特性が目標膜厚特性と比較される。ここでは、基板Wを処理した後の膜厚特性と目標膜厚特性との差分が算出される。
 ステップS25においては、比較結果が評価基準を満たすか否かが判断される。比較結果が評価基準を満たすならば(ステップS25でYES)、処理はステップS26に進むが、そうでなければ処理はステップS21に戻る。例えば、差分の最大値が閾値以下である場合に評価基準を満たすと判断する。また、差分の平均が閾値以下である場合に評価基準を満たすと判断する。
 ステップS26においては、基板処理装置300を駆動するための処理条件の候補に、ステップS21において直前に選択された変動条件を含む処理条件が設定され、処理はステップS27に進む。ステップS27においては、探索の終了指示が受け付けられたか否かが判断される。情報処理装置100を操作するユーザーにより終了指示が受け付けられたならば処理はステップS28に進むが、そうでなければ処理はステップS21に戻る。なお、ユーザーにより入力される終了指示に変えて、予め定められた数の処理条件が候補に設定されたか否かが判断されてもよい。
 ステップS28においては、候補に設定された1以上の処理条件のうちから1つが決定され、処理はステップS29に進む。候補に設定された1以上の処理条件のうちから情報処理装置100を操作するユーザーにより1つが選択されてもよい。したがって、ユーザーの選択の範囲が広がる。また、複数の処理条件に含まれる変動条件のうちからノズル動作が最も簡略な変動条件が自動的に選択されてもよい。ノズル動作が最も簡略な変動条件は、例えば、変速点の数が最少の変動条件とすることができる。これにより、基板Wを処理する複雑なノズル動作に対する処理結果に対して複数の変動条件を提示することができる。複数の変動条件のうちからノズルの制御が容易な変動条件を選択すれば、基板処理装置300の制御が容易になる。
 ステップS29においては、ステップS28において決定された変動条件を含む処理条件が基板処理装置300に送信され、処理は終了する。CPU101は、入出力I/F107を制御して、処理条件を基板処理装置300に送信する。基板処理装置300は、情報処理装置100から処理条件を受信する場合、その処理条件に従って基板Wを処理する。
 4.具体例
 本実施の形態においては、変動条件は、ノズル動作の処理時間が20秒、サンプリング間隔0.01秒でサンプリングした時系列データである。変動条件は、2000個の値で構成される。このため、変動条件は、複雑なノズル動作を表現することが可能である。特に、ノズルの移動速度を変更する変速点の数を比較的多くしたノズル動作を変動条件で正確に表現することができる。
 本実施の形態における圧縮器生成部253は、変動条件を2次元のデータセットに変換するようにオートエンコーダを機械学習させる。このため、圧縮器生成部253により生成される圧縮器は、2000個の値で構成される変動条件を、2次元のデータセットに変換する。複雑なノズル動作を示す2000個の値からなる変動条件を、2次元のデータセットに変換する場合であっても、予測器により予測されるエッチングプロファイルとして所望の結果が得られることを発明者は実験によって発見した。
 このため、予測器に入力するデータの数を少なくできるので、予測器の構成を簡略化することができ、ニューラルネットワークを容易に学習させることができる。また、ニューラルネットワークのパラメータを適切な値に調整することができ、予測器の精度を向上させることができる。
 また、次元数が2000の変動条件を、2次元のデータセットに変換するので、複数の変動条件のうちに、変換結果が等しくなる複数の変動条件が存在する場合がある。この場合、変換結果が同じ複数の変動条件それぞれから予測器により予測されるエッチングプロファイルは同じとなる。本実施の形態においては、処理条件決定部151が処理条件を探索する際に、エッチングプロファイルが異なるものに対応する処理条件が探索されるので、複数の異なるエッチングプロファイルに対応する処理条件が選択される。このため、処理条件決定部151は、複数の処理条件のうちから目標となるエッチングプロファイルが予測される処理条件を効率的に探索することができる。
 なお、サンプリング間隔を0.01秒とする例を説明したが、サンプリング間隔はこれに限定されない。これより長いサンプリング間隔としてもよいし、これより短いサンプリング間隔としてもよい。例えば、サンプリング間隔は0.1秒としてもよいし、0.005秒としてもよい。要するに、変動条件の次元数に係わらず、変動条件を圧縮器で変換した変換結果の次元数が2次元であればよい。
 5.他の実施の形態
 (1)上述した実施の形態においては、学習装置200は、学習用データに基づいて、予測器を生成する。学習装置200は、予測器を追加学習するようにしてもよい。学習装置200は、予測器が生成された後に、基板処理装置300により処理された基板Wの処理前後それぞれにおける被膜の膜厚特性および処理条件を取得する。そして、学習装置200は、処理前後それぞれにおける被膜の膜厚特性および処理条件から学習用データを生成し、予測器を機械学習させることにより、予測器を追加学習する。追加学習によって、予測器を構成するニューラルネットワークの構成は変更されないが、パラメータが調整される。
 基板処理装置300が実際に基板Wを処理した結果、得られる情報を用いて、予測器を機械学習させるので、予測器の精度を向上させることができる。また、予測器を生成するために用いられる学習用データの数をできるだけ少なくできる。
 図12は、追加学習処理の流れの一例を示すフローチャートである。追加学習処理は、学習装置200が備えるCPU201がRAM202に格納された追加学習プログラムを実行することにより、CPU201により実行される処理である。追加学習プログラムは、学習プログラムの一部である。
 図12を参照して、学習装置200が備えるCPU201は、生産時データを取得し(ステップS31)、処理をステップS32に進める。生産時データは、予測器が生成された後に、基板処理装置300が基板Wを処理する際の処理条件、処理前後それぞれの被膜の膜厚特性を含む。CPU201は、入出力I/F107を制御して、基板処理装置300から生産時データを取得する。生産時データは、CD-ROM209等の記録媒体に記録された実験データを記憶装置104で読み取ることにより取得されてもよい。
 ステップS32においては、変動条件が圧縮され、処理はステップS33に進む。学習装置200により生成された圧縮器に、変動条件が入力され、圧縮器の出力が変換結果として取得される。ステップS33においては、変換結果と、生産時データの処理条件に含まれる固定条件と、エッチングプロファイルと、が学習用データに設定される。エッチングプロファイルは、生産時データに含まれる処理前の被膜の膜厚特性と、生産時データに含まれる処理後の被膜の膜厚特性との差分である。圧縮器による変換結果と処理条件に含まれる固定条件とが入力データに設定される。エッチングプロファイルが正解データに設定される。
 次のステップS34においては、CPU201は、予測器を追加学習し、処理をステップS35に進める。入力データをニューラルネットワークである予測器に入力し、予測器の出力が正解データと等しくなるようにパラメータを決定する。これにより、予測器のパラメータがさらに調整される。
 ステップS35においては、調整が完了したか否かが判断される。評価用の学習用データで予測器の性能が評価される。評価結果が予め定められた追加学習用評価基準を満たす場合に調整完了と判断される。追加学習用評価基準は、予測器が生成される場合に用いられた評価基準よりも高い基準である。評価結果が追加学習用評価基準を満たさなければ(ステップS35でNO)、処理はステップS31に戻るが、評価結果が追加学習用評価基準を満たすならば(ステップS35でYES)、処理は終了する。
 (2)学習装置200は、情報処理装置100により決定された処理条件およびその処理条件から予測器により推測されるエッチングプロファイルを含む蒸留用データを用いて、新たな学習モデルを機械学習させた蒸留モデルを生成してもよい。これにより、新たな学習モデルを学習させるためのデータを準備するのが容易になる。
 (3)学習装置200は、オートエンコーダを機械学習することにより圧縮器を生成するようにしたが、本発明は、これに限定されない。圧縮器は、ノズル311と基板Wとの相対位置の時間的な変化を、他の方法で次元を低減させてもよい。
 (4)本実施の形態において、予測器を生成するために用いる学習用データにおいて、入力データが変動条件を変換した変換結果と固定条件と、を含む。本発明は、これに限定されない。入力データは変動条件を変換した変換結果のみを含み、固定条件を含まなくてもよい。
 (5)本実施の形態において、変動条件の一例としてノズル311と基板Wとの相対位置を示したが、本発明は、これに限定されない。エッチング液の温度、エッチング液の濃度、エッチング液の流量および基板Wの回転数の少なくとも1つが、時間の経過に伴って変動する場合は、それらを変動条件としてもよい。また、変動条件は、1種類に限らず、複数を含み合わせてもよい。
 (6)情報処理装置100および学習装置200を、基板処理装置300と別体とする場合を例に説明したが、本発明はこれに限定されない。基板処理装置300に情報処理装置100が組み込まれていてもよい。さらに、基板処理装置300に、情報処理装置100および学習装置200が組み込まれていてもよい。また、情報処理装置100と学習装置200とは別体の装置としたが、それらは一体の装置として構成されてもよい。
 6.実施の形態における効果
 本実施の形態における学習装置200は、基板処理装置300を変動条件を含む処理条件で駆動した後に基板Wに形成された被膜の処理前後の膜厚の差を示す処理量を取得し、圧縮器により変動条件が変換された変換結果を入力データとして含み、かつ、処理条件に対応するエッチングプロファイルを正解データとして含む学習用データをニューラルネットワークに機械学習させて、エッチングプロファイルを推測する学習モデルである予測器を生成する。学習用データとして、時間の経過に伴って変動する変動条件の次元数が低減するように変換された変換結果を入力データとして含むので、学習用データの次元数を少なくすることができる。このため、基板Wを処理するために時間の経過に伴って変化する条件を機械学習させるのに適した学習装置を生成することができる。
 また、学習装置200は、基板処理装置300を駆動することが可能な範囲内の複数の変動条件を生成し、生成された複数の変動条件をオートエンコーダに機械学習させて圧縮器を生成する。このため、圧縮器が、変動条件をオートエンコーダに学習させることにより生成されるので、圧縮器の生成が容易になる。
 また、処理条件は、変動条件と、時間の経過に伴って変動しない固定条件と、を含む。このため、固定条件が異なる処理に対応でき、固定条件が異なる複数の学習モデルを生成する必要がない。
 また、学習装置200は、予測器を生成した後に、基板処理装置300が処理条件に従って処理した基板Wに形成された被膜の処理前後の膜厚の差を示す処理量を取得し、圧縮器により仮の変動条件が変換された変換結果と取得された処理量とを含む追加学習用データを用いて学習モデルを学習させる。このため、学習モデルが追加学習されるので、学習モデルの性能を向上させることができる。
 また、学習装置200は、圧縮器により仮の変動条件が変換された変換結果を学習モデルに与えて学習モデルにより推測される処理量が許容条件を満たす場合に変換結果と学習モデルにより推測された処理量とを含む蒸留用データを用いて新たな学習モデルを生成させる。このため、新たな学習モデルを学習させるためのデータを準備するのが容易になる。
 また、基板処理装置300は、基板Wに処理液を供給するノズル311と、ノズルと基板Wとの相対位置を変化させるノズル移動機構301と、を備え、変動条件は、ノズル移動機構301により変化するノズル311と基板Wとの相対位置である。ノズル311と基板Wとの相対位置を変化させて、ノズル311から基板Wの処理液を供給することにより処理される被膜の処理量を推測する学習モデルが生成される。このため、エッチング処理における処理量を推測する学習モデルを生成することができる。
 また、情報処理装置100は、学習装置200により生成された圧縮器により仮の変動条件が変換された変換結果を学習装置200により生成された学習モデルに与えて学習モデルにより推測されるエッチングプロファイルが許容条件を満たす場合に仮の変動条件を含む処理条件を、基板処理装置300を駆動するための処理条件に決定する。このため、処理条件からエッチングプロファイルが推測されるので、複雑に動作するノズルの動作がエッチング処理の処理結果に与える影響を、実験等をして求める必要がない。また、許容条件を満たす処理量に対して複数の仮の変動条件を決定するので、許容条件を満たす複数のエッチングプロファイルにそれぞれ対応する複数の変動条件を決定することができる。したがって、基板を処理する複雑なプロセスの処理結果に対して複数の変動条件を提示することができる。複数の変動条件のうちからノズルを動作させる制御が容易な処理条件を選択すれば、基板処理装置300の制御が容易になる。
 また、情報処理装置100は、許容条件を満たす処理量に対して複数の処理条件を決定するので、許容条件を満たす複数のエッチングプロファイルにそれぞれ対応する複数の処理条件を決定することができる。そして、固定条件は、エッチング液の温度を含む。したがって、基板を処理する複雑なプロセスの処理結果に対して複数のエッチング液の温度を提示することができる。また、複数のエッチング液の温度のうちから、エッチング処理への適用が容易なエッチング液の温度を選択できる。そして、適用が容易なエッチング液の温度を選択できるので、エッチング処理に用いるエッチング液の温調が容易になる。
 7.請求項の各構成要素と実施の形態の各部との対応関係
 基板Wが基板の一例であり、エッチング液が処理液の一例であり、基板処理装置300が基板処理装置の一例であり、実験データ取得部261が実験データ取得部の一例であり、第1圧縮部263が第1圧縮器の一例であり、予測器が学習モデルの一例であり、予測器生成部265がモデル生成部の一例である。また、情報処理装置100が情報処理装置の一例であり、変動条件生成部251が変動条件生成部の一例であり、圧縮器生成部253が圧縮器生成部の一例であり、第2圧縮部157が第2圧縮器の一例であり、ノズル311が基板に処理液を供給するノズルの一例であり、ノズル移動機構301が移動部の一例であり、予測部159,評価部161および処理条件決定部151が処理条件決定部の一例である。

Claims (11)

  1.  被膜が形成された基板に処理液を供給することにより基板を処理する基板処理装置を時間の経過に伴って変動する変動条件を含む処理条件で駆動した後に基板に形成された被膜の処理前後の膜厚の差を示す処理量を取得する実験データ取得部と、
     前記変動条件を次元数が低減するように変換する圧縮器と、
     前記圧縮器により前記変動条件が変換された変換結果と前記処理条件に対応する前記処理量とを含む学習用データを機械学習して前記基板処理装置により処理される前の基板に形成された被膜の処理前後の膜厚の差を示す処理量を推測する学習モデルを生成するモデル生成部と、を備えた学習装置。
  2.  複数の変動条件を生成する変動条件生成部と、
     前記変動条件生成部により生成された複数の変動条件をオートエンコーダに学習させて前記圧縮器を生成する圧縮器生成部と、をさらに備えた、請求項1に記載の学習装置。
  3.  前記処理条件は、時間の経過に伴って変動しない固定条件をさらに含み、
     前記学習用データは、前記固定条件を含む、請求項1または2に記載の学習装置。
  4.  前記圧縮器により仮の変動条件が変換された変換結果を前記学習モデルに与えて前記学習モデルにより推測される処理量が許容条件を満たす場合に前記仮の変動条件を含む処理条件で前記基板処理装置を駆動して、前記基板処理装置により処理された基板に形成された被膜の処理前後の膜厚の差を示す処理量を取得する実績取得部と、
     前記圧縮器により前記仮の変動条件が変換された変換結果と前記実績取得部により取得された処理量とを含む追加学習用データを用いて前記学習モデルを学習させる追加学習部と、をさらに備えた、請求項1~3のいずれかに記載の学習装置。
  5.  前記圧縮器により仮の変動条件が変換された変換結果を前記学習モデルに与えて前記学習モデルにより推測される処理量が許容条件を満たす場合に前記変換結果と前記学習モデルにより推測された前記処理量とを含む蒸留用データを用いて新たな学習モデルを生成する蒸留部を、さらに備えた請求項1~4のいずれかに記載の学習装置。
  6.  前記基板処理装置は、基板に前記処理液を供給するノズルと、
     前記ノズルと基板との相対位置を変化させる移動部と、を備え、
     前記変動条件は、前記移動部により変化する前記ノズルと基板との相対位置である、請求項1~5のいずれかに記載の学習装置。
  7.  基板処理装置を管理する情報処理装置であって、
     前記基板処理装置は、時間の経過に伴って変動する変動条件を含む処理条件で、被膜が形成された基板に処理液を供給することにより、基板を処理し、
     前記変動条件を次元数が低減するように変換する第2圧縮器と、
     前記基板処理装置により処理される前の基板に形成された被膜の処理前後の膜厚の差を示す処理量を推測する学習モデルを用いて、前記基板処理装置を駆動するための処理条件を決定する処理条件決定部と、を備え、
     前記学習モデルは、前記基板処理装置が基板を処理した処理条件に含まれる変動条件を前記第2圧縮器と同じ第1圧縮器により変換された変換結果と前記基板処理装置により処理された基板に形成された被膜の処理前後の膜厚の差を示す処理量とを含む学習用データを機械学習した推論モデルであり、
     前記処理条件決定部は、前記第2圧縮器により仮の変動条件が変換された変換結果を前記学習モデルに与えて前記学習モデルにより推測される処理量が許容条件を満たす場合に前記仮の変動条件を含む処理条件を、前記基板処理装置を駆動するための処理条件に決定する、情報処理装置。
  8.  請求項7に記載の情報処理装置を備えた基板処理装置。
  9.  基板を処理する基板処理装置を管理する基板処理システムであって、
     学習装置と情報処理装置とを備え、
     前記基板処理装置は、時間の経過に伴って変動する変動条件を含む処理条件で、被膜が形成された基板に処理液を供給することにより、基板を処理し、
     前記学習装置は、前記基板処理装置を前記処理条件で駆動した後に基板に形成された被膜の処理前後の膜厚の差を示す処理量を取得する実験データ取得部と、
     前記変動条件を次元数が低減するように変換する第1圧縮器と、
     前記第1圧縮器により前記変動条件が変換された変換結果と前記処理条件に対応する前記処理量とを含む学習用データを機械学習して前記基板処理装置により処理される前の基板に形成された被膜の処理前後の膜厚の差を示す処理量を推測する学習モデルを生成するモデル生成部と、を備え、
     前記情報処理装置は、前記第1圧縮器と同じ第2圧縮器と、
     前記学習装置により生成された前記学習モデルを用いて、前記基板処理装置を駆動するための処理条件を決定する処理条件決定部と、を備え、
     前記処理条件決定部は、前記第2圧縮器により仮の変動条件が変換された変換結果を前記学習モデルに与えて前記学習モデルにより推測される処理量が許容条件を満たす場合に前記仮の変動条件を含む処理条件を、前記基板処理装置を駆動するための処理条件に決定する、基板処理システム。
  10.  被膜が形成された基板に処理液を供給することにより基板を処理する基板処理装置を時間の経過に伴って変動する変動条件を含む処理条件で駆動した後に、基板に形成された被膜の処理前後の膜厚の差を示す処理量を取得する処理と、
     前記変動条件を次元数が低減するように変換する圧縮処理と、
     前記圧縮処理において前記変動条件が変換された変換結果と前記処理条件に対応する前記処理量とを含む学習用データを機械学習して前記基板処理装置により処理される前の基板に形成された被膜の処理前後の膜厚の差を示す処理量を推測する学習モデルを生成する処理と、をコンピューターに実行させる学習方法。
  11.  基板処理装置を管理するコンピューターで実行される処理条件決定方法であって、
     前記基板処理装置は、時間の経過に伴って変動する変動条件を含む処理条件で、被膜が形成された基板に処理液を供給することにより基板を処理し、
     前記変動条件を次元数が低減するように変換する処理と、
     前記基板処理装置により処理される前の基板に形成された被膜の処理前後の膜厚の差を示す処理量を推測する学習モデルを用いて、前記基板処理装置を駆動するための処理条件を決定する処理と、を含み、
     前記学習モデルは、前記変換する処理と同じ処理で、前記基板処理装置が基板を処理した処理条件に含まれる変動条件が変換された変換結果と前記基板処理装置により処理された基板に形成された被膜の処理前後の膜厚の差を示す処理量とを含む学習用データを機械学習した推論モデルであり、
     前記処理条件を決定する処理は、前記変換する処理により仮の変動条件が変換された変換結果を前記学習モデルに与えて前記学習モデルにより推測される処理量が許容条件を満たす場合に前記仮の変動条件を含む処理条件を、前記基板処理装置を駆動するための処理条件に決定する処理を含む、処理条件決定方法。
PCT/JP2022/045709 2022-03-23 2022-12-12 学習装置、情報処理装置、基板処理装置、基板処理システム、学習方法および処理条件決定方法 WO2023181525A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022-047203 2022-03-23
JP2022047203A JP2023141070A (ja) 2022-03-23 2022-03-23 学習装置、情報処理装置、基板処理装置、基板処理システム、学習方法および処理条件決定方法

Publications (1)

Publication Number Publication Date
WO2023181525A1 true WO2023181525A1 (ja) 2023-09-28

Family

ID=88100883

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/045709 WO2023181525A1 (ja) 2022-03-23 2022-12-12 学習装置、情報処理装置、基板処理装置、基板処理システム、学習方法および処理条件決定方法

Country Status (2)

Country Link
JP (1) JP2023141070A (ja)
WO (1) WO2023181525A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018163011A1 (ja) * 2017-03-09 2018-09-13 株式会社半導体エネルギー研究所 半導体装置および放送システム
JP2020053550A (ja) * 2018-09-27 2020-04-02 株式会社荏原製作所 研磨装置、研磨方法、及び機械学習装置
JP2021528861A (ja) * 2018-06-28 2021-10-21 アプライド マテリアルズ インコーポレイテッドApplied Materials,Incorporated 分光画像モニタリングのための機械学習システム向けのトレーニングスペクトルの生成
JP2021174958A (ja) * 2020-04-30 2021-11-01 株式会社Screenホールディングス 基板処理装置、基板処理方法、学習用データの生成方法、学習方法、学習装置、学習済モデルの生成方法、および、学習済モデル

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018163011A1 (ja) * 2017-03-09 2018-09-13 株式会社半導体エネルギー研究所 半導体装置および放送システム
JP2021528861A (ja) * 2018-06-28 2021-10-21 アプライド マテリアルズ インコーポレイテッドApplied Materials,Incorporated 分光画像モニタリングのための機械学習システム向けのトレーニングスペクトルの生成
JP2020053550A (ja) * 2018-09-27 2020-04-02 株式会社荏原製作所 研磨装置、研磨方法、及び機械学習装置
JP2021174958A (ja) * 2020-04-30 2021-11-01 株式会社Screenホールディングス 基板処理装置、基板処理方法、学習用データの生成方法、学習方法、学習装置、学習済モデルの生成方法、および、学習済モデル

Also Published As

Publication number Publication date
JP2023141070A (ja) 2023-10-05
TW202343315A (zh) 2023-11-01

Similar Documents

Publication Publication Date Title
JP7348440B2 (ja) 統合的な半導体処理モジュールを組み込んだ自己認識及び補正異種プラットフォーム及びその使用方法
JP7402399B2 (ja) 統合的な半導体処理モジュールを組み込んだ自己認識及び補正異種プラットフォーム及びその使用方法
US9395408B2 (en) System for wafer quality predictive modeling based on multi-source information with heterogeneous relatedness
CN102016737B (zh) 使用过程数据和产量数据的过程控制
Ammar et al. An automated measure of mdp similarity for transfer in reinforcement learning
JP4472637B2 (ja) 電気的製造制御に対する確率制約最適化
CN113544599A (zh) 执行过程并优化在该过程中使用的控制信号的方法
Liang et al. Search-based task planning with learned skill effect models for lifelong robotic manipulation
CN109212966A (zh) 一种多工况动态基准化的机械设备剩余寿命预测方法
Liu et al. Dual attention-based temporal convolutional network for fault prognosis under time-varying operating conditions
CN116522806A (zh) 抛光工艺参数优化方法、抛光系统、电子设备及存储介质
US11550274B2 (en) Information processing apparatus and information processing method
WO2023181525A1 (ja) 学習装置、情報処理装置、基板処理装置、基板処理システム、学習方法および処理条件決定方法
CN108959787B (zh) 考虑实际工况的宏宏双驱动系统的热变形预测方法及系统
WO2024070390A1 (ja) 学習装置、情報処理装置、基板処理装置、基板処理システム、学習方法および処理条件決定方法
Liu et al. System identification based on generalized orthonormal basis function for unmanned helicopters: A reinforcement learning approach
TW202412946A (zh) 學習裝置、資訊處理裝置、基板處理裝置、基板處理系統、學習方法及處理條件決定方法
WO2024070233A1 (ja) 学習装置、情報処理装置、基板処理装置、基板処理システム、学習方法および処理条件決定方法
TW202414282A (zh) 學習裝置、資訊處理裝置、基板處理裝置、基板處理系統、學習方法及處理條件決定方法
JP2024047496A (ja) 学習装置、情報処理装置、基板処理装置、基板処理システム、学習方法および処理条件決定方法
Liu et al. Online expectation maximization for reinforcement learning in POMDPs
TW202414557A (zh) 學習裝置、資訊處理裝置、基板處理裝置、基板處理系統、學習方法及處理條件決定方法
EP4231107A1 (en) Substrate processing condition setting method, substrate processing method, substrate processing condition setting system, and substrate processing system
Zhao et al. Unleashing the potential of acquisition functions in high-dimensional bayesian optimization
VU et al. Trajectory Planning of a CableBased Parallel Robot using Reinforcement Learning and Soft ActorCritic

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22933654

Country of ref document: EP

Kind code of ref document: A1