WO2024034873A1 - 화학공정의 기저원인 분석 및 이를 이용한 수율 예측 모델링 방법 - Google Patents

화학공정의 기저원인 분석 및 이를 이용한 수율 예측 모델링 방법 Download PDF

Info

Publication number
WO2024034873A1
WO2024034873A1 PCT/KR2023/009714 KR2023009714W WO2024034873A1 WO 2024034873 A1 WO2024034873 A1 WO 2024034873A1 KR 2023009714 W KR2023009714 W KR 2023009714W WO 2024034873 A1 WO2024034873 A1 WO 2024034873A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
yield prediction
yield
cycle
tag
Prior art date
Application number
PCT/KR2023/009714
Other languages
English (en)
French (fr)
Inventor
홍웅기
여성주
공승환
신해빈
박상현
김태협
Original Assignee
에스케이가스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이가스 주식회사 filed Critical 에스케이가스 주식회사
Publication of WO2024034873A1 publication Critical patent/WO2024034873A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
    • G06Q10/06375Prediction of business process outcome or impact based on a proposed change
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0633Workflow analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/10Analysis or design of chemical reactions, syntheses or processes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Definitions

  • the present invention analyzes the underlying causes of chemical processes, and more specifically, relates to a yield prediction system and method that selects key factors contributing to yield changes and applies them to a yield prediction model.
  • Patent Document 1 Korean Patent Publication No. 2018-0131246 (20181210)
  • Patent Document 2 Korean Patent Publication No. 2015-0018681 (20150224)
  • Patent Document 3 Japanese Patent Publication No. 2020-166749 (20201008)
  • Patent Document 4 Korean Patent Publication No. 10-2019-0060547 (20190603)
  • Patent Document 5 Japanese Patent Publication No. 2022-520643 (20220331)
  • Patent Document 6 Korean Patent Publication No. 10-2218287 (20210222)
  • the present invention is intended to solve problems in the analysis technology causing process changes in the prior art. It is a key factor in commercial chemical processes that selects key factors contributing to yield changes and further improves the accuracy of predicting changes in catalyst activity by applying them to a prediction model.
  • the purpose is to provide a system and method for predicting catalyst activity reflecting factors.
  • the present invention enables the product sales plan and catalyst replacement timing to be determined through accurate catalyst activity prediction, thereby enabling efficient management of the time and cost required for product production and catalyst replacement, reflecting key factors in commercial chemical processes.
  • the purpose is to provide a system and method for predicting catalyst activity.
  • a method for analyzing and predicting the underlying cause of yield changes in a chemical process includes the steps of preprocessing data for yield prediction; And analyzing the base cause using the preprocessed yield prediction data, wherein the base cause analysis step includes extracting process key factors and analyzing the process impact of the extracted key factors.
  • a base cause analysis and yield prediction method comprising:
  • a computer-readable recording medium on which a computer program for executing the base cause analysis and yield prediction method is recorded is disclosed.
  • XAI using XAI, not only can key factors be extracted and the contribution of each key factor shown, but the influence of each key factor can be analyzed more specifically and in-depth.
  • the user can check the contribution of key factors by tag on the user interface (UI) screen and check the tags that affect the target for a specific date in order of contribution.
  • XAI analysis is performed by outputting actual observation data for this date. The contribution results of key factors can be verified and the reliability of XAI analysis can be increased.
  • the accuracy of predicting changes in catalyst activity can be increased by selecting key factors according to process operating conditions and applying them to the prediction model, and it is possible to determine product sales plans and catalyst exchange times through accurate catalyst activity prediction, thereby improving product production.
  • the time and cost required for catalyst replacement can be efficiently managed, and product production can be increased by improving catalyst activity by identifying changes in catalyst activity according to process operating conditions and optimizing operating conditions.
  • Figure 1 discloses a block diagram of a base cause analysis and yield prediction system according to an embodiment of the present invention.
  • Figure 2 discloses a flowchart showing a method for analyzing underlying causes and predicting yield according to an embodiment.
  • Figure 3 discloses a diagram explaining a data preprocessing method according to an embodiment.
  • Figure 4 discloses a flowchart of a method for visualizing analysis results according to one embodiment.
  • Figures 5 to 9 disclose diagrams showing a user interface (UI) for outputting analysis results according to an embodiment.
  • UI user interface
  • Figure 10 discloses a flowchart explaining a segment analysis method according to an embodiment.
  • Figures 11 to 16 disclose diagrams explaining a segment analysis process according to an embodiment.
  • Figures 17 and 18 disclose diagrams explaining a data realization method according to an embodiment.
  • Figures 19 to 21 disclose diagrams explaining a method of reflecting catalyst aging factors according to an embodiment.
  • Figure 22 discloses a diagram showing yield prediction results according to one embodiment.
  • a method for analyzing and predicting the underlying cause of yield changes in a chemical process includes the steps of preprocessing data for yield prediction; And analyzing the base cause using the preprocessed yield prediction data, wherein the base cause analysis step includes extracting process key factors and analyzing the process impact of the extracted key factors.
  • a base cause analysis and yield prediction method comprising:
  • the term 'software' refers to technology that moves hardware in a computer
  • the term 'hardware' refers to the tangible devices or devices that make up a computer (CPU, memory, input device, output device, peripheral device, etc.)
  • the term 'step' refers to a series of processes or operations connected in time series to achieve a predetermined goal
  • the term 'computer program', 'program', or 'algorithm' refers to a set of instructions suitable for processing by a computer.
  • the term 'program recording medium' refers to a computer-readable recording medium that records a program used to install, execute, or distribute a program.
  • 'processing unit', 'computer', 'computing device', 'server device', and 'server' refer to operating systems such as Windows, Mac, or Linux, computer processors, memory, applications, and storage devices (e.g. For example, it can be implemented as a system equipped with HDD, SSD).
  • the computer may be a device such as a desktop computer, a laptop, or a mobile terminal, but these are examples and are not limited thereto.
  • the mobile terminal may be one of mobile wireless communication devices such as a smartphone, tablet PC, or PDA.
  • FIG. 1 is a block diagram briefly showing a base cause analysis and yield prediction system according to an embodiment of the present invention.
  • the base cause analysis and yield prediction system (hereinafter simply referred to as “yield prediction system”) according to the present invention is applied to the olefin production process.
  • the yield prediction system of the present invention can be applied to the PDH (Propane DeHydration) process of making propylene from propane, and by this process, hydrogen can be extracted from propane to produce propylene, a type of olefin. .
  • the yield prediction system may predict the yield of the second cycle period based on process operation data collected during the first cycle period.
  • the first and second cycles may be periods of the same time length or may be periods of different time lengths, and can be set to 4 years, for example.
  • one cycle may be related to the life of the catalyst used in the chemical process, for example, if the life of the catalyst is 4 years, one cycle may be set to 4 years.
  • the yield prediction system 100 may include a data preprocessor 110, a root cause analysis unit 120, and a yield prediction unit 130, Each of these components 110 to 140 may be implemented as software executable on a computer device, and, if necessary, may be implemented in partial combination with firmware and hardware.
  • the yield prediction system 100 of the present invention may further include a segment analysis unit 140, a data realization processing unit 150, and an aging factor analysis unit 160.
  • the data preprocessing unit 110 is a functional unit that collects and extracts data from the data storage unit 200 and preprocesses it. The operation of the data pre-processing unit 110 will be described later with reference to FIG. 3.
  • the base cause analysis unit 120 extracts process key factors using the data pre-processed in the data pre-processing unit 110 and selects the influence of the key factors selected according to the user's needs on a daily basis to target (yield, selectivity) , and conversion rate, etc.), you can perform a base cause analysis to analyze in more depth the impact.
  • the underlying cause analysis unit 120 may include a machine learning algorithm to extract key factors using preprocessed data. Exemplary operations of the root cause analysis unit 120 will be described later with reference to FIGS. 4 to 9 .
  • the yield prediction unit 130 is a functional unit that predicts the yield of the process using preprocessed data and extracted key factors.
  • the yield prediction unit 130 includes a machine learning-based learning algorithm, trains one or more yield prediction models using preprocessed data and key factors, and produces yield prediction results using the learned yield prediction model. Can be printed.
  • the segment analysis unit 140 may divide one cycle into a plurality of segments based on preprocessed data. For example, for one cycle (e.g., 4 years), one cycle is divided into a plurality of periods based on the amount of change in predetermined factors such as process temperature and yield according to the lifespan (aging) of the catalyst used in the process. Exemplary operations of the segment analysis unit 140 will be described later with reference to FIGS. 10 to 16.
  • the data realization processing unit 150 is a functional unit for generating and actualizing data used for yield prediction in a form suitable for input into a yield prediction model.
  • the yield prediction simulation system according to the present invention uses data from one past cycle (first cycle) to predict one future cycle (second cycle), and at this time, data from the second cycle is based on the data from the first cycle. can be created and input into the yield prediction model. Exemplary operations of the data realization processing unit 130 will be described later with reference to FIGS. 17 and 18.
  • the aging element analysis unit 160 is a functional unit to reflect the aging of the catalyst used in the process in order to more accurately predict the process yield.
  • catalysts have different lifespans depending on the type, and aging trends within the lifespan can vary. In particular, if the catalyst ages rapidly in the later stages, it may be difficult to accurately reflect this in the yield prediction model. Therefore, in one embodiment of the present invention, the aging factor of the catalyst is additionally considered. For example, the aging factor of the catalyst over time can be calculated and this value can be reflected as a weight in the process data input into the yield prediction model, thereby improving yield prediction performance. Exemplary operations of the aging element analysis unit 160 will be described later with reference to FIGS. 19 to 21.
  • Figure 2 is an exemplary flowchart for analyzing underlying causes and predicting yield using the yield prediction system 100 described above.
  • the basic cause analysis and yield prediction method includes the step of preprocessing the yield prediction data (S10), and the step of analyzing the base cause using the preprocessed yield prediction data (S20). , and a step (S30) of learning a yield prediction model based on the preprocessed yield prediction data and extracted key factors.
  • the step of analyzing the underlying cause (S20) may include a step of extracting process key factors (S21) and a step of analyzing the process impact of the extracted key factors (S22).
  • the influence of a certain tag selected by user input can be visualized and output through a user interface (UI).
  • the yield prediction system 100 performs a segment analysis step (S40) of dividing one cycle into a plurality of segments based on preprocessed data, It may further include a data realization step (S50) of generating and realizing two-cycle data, and an aging factor analysis step (S60) of calculating the aging factor of the catalyst used in the process.
  • S40 segment analysis step
  • S50 data realization step
  • S60 aging factor analysis step
  • step S10 the data for yield prediction is preprocessed.
  • Figure 3 shows a data preprocessing method according to an embodiment.
  • the data preprocessing step (S10) includes preprocessing data for yield prediction in minutes (S110), selecting tags to be analyzed (S120), and selecting the selected tag among the data preprocessed in minutes. It may include extracting time and daily data from the tag data (S130), and performing outlier processing and missing value interpolation on the daily data (S140).
  • the data storage unit 200 may be implemented as a database, for example, but the data format is not particularly limited.
  • the yield prediction data extracted from the data storage unit 200 includes (i) process operation data of an olefin production plant, (ii) laboratory data including LIMS data, and (iii) time when the plant is not operating normally. and (iv) historical yield, conversion, and selectivity data regarding olefin production.
  • Process operation data of an olefin production plant may be sensor data collected from sensors installed in various facilities of the plant (eg, reactor, flow path, etc.). Each sensor may be a sensor that measures variables that can observe process operation conditions, such as temperature, pressure, flow rate, and composition, and data can be collected from each sensor on a minute-by-minute basis.
  • Process operation data may be classified by section, unit, and tag and stored in the data storage unit 200.
  • the unit is a mid-size set of tags within the factory, and the section is a large-size set of units, and several sections come together to form the entire PDH factory.
  • a tag can function as an identifier that identifies each sensor installed in a factory. That is, each sensor is assigned a unique tag, and in one embodiment, there may be over 9000 tags in a PDH plant.
  • the data output from the sensor corresponding to each tag is also referred to as 'tag' or 'tag data'.
  • Laboratory data may include Laboratory Information Management System (LIMS) data.
  • LIMS Laboratory Information Management System
  • laboratory data as well as actual observation data (tag data) can be used to accurately predict yield.
  • Laboratory data can also be used to process and interpolate when outliers or missing values occur in tag data.
  • laboratory data may be omitted.
  • Factory event data may include, for example, data about times when the plant was not operated normally (shut-down history), large integers/small integers, etc., and can be used when analyzing and processing outliers or missing values of tag data.
  • Historical yield values include historical yield data for olefin production.
  • conversion and selectivity values may be included in addition to past yield.
  • yield i.e., yield, conversion rate, and selectivity
  • the data stored in the data storage unit 200 is continuously accumulated at a predetermined period and may be data for the past 5 years from the current point.
  • the setting cycle unit may be in seconds or minutes.
  • data may be collected in units of 30 seconds and then converted to minutes and/or hours for analysis and stored.
  • this setting cycle unit is illustrative and not limited to a specific cycle, and the data accumulation period may also be set to a period other than 5 years.
  • the yield prediction data extracted from the data storage unit 200 is preprocessed as minute-by-minute data in step S110. For example, when second-level data is received from the data storage unit 200, it is converted to minute-level data, and when outliers or missing values occur, outlier processing and missing value interpolation are performed.
  • a tag to be analyzed is selected in step S120.
  • key factor analysis and yield prediction which will be described later, may be performed using all tag data collected from all sensors installed in the factory, but preferably, some tag data is selected from the total tag data and the selected tag data is selected.
  • Tag data can be used to perform subsequent hour/day data extraction, key factor analysis, and yield prediction (for example, after step S130), and in this case, the tag to be analyzed is selected in step S120.
  • tags recognized as useful for analysis can be selected based on past research and the knowledge and experience of field engineers.
  • this analysis target tag selection step (S120) may be performed in advance before the minute-by-minute data preprocessing step (S110).
  • the minute-by-minute data preprocessing (S110) is performed only for the tags selected as analysis targets. It might be possible to do it.
  • step S120 hourly data is extracted in step S130 and processed again to extract daily data.
  • data integration can be done using process data (tag data) and LIMS data.
  • the step of selecting an analysis target tag (S120) may be performed after extracting the time unit data. In this case, after extracting the time unit data for all process data, the daily unit data is collected only for the analysis target tag. It can also be extracted with .
  • data preprocessing is performed in step S140.
  • data preprocessing includes handling outliers and interpolating missing values.
  • outlier processing outliers are selected and excluded or corrected, and only the refined values are used as valid input values.
  • missing value interpolation is performed on sections that have been selected and removed as outliers or sections where there is no process data due to plant shutdown. Missing value interpolation can be done by generating new data, for example, through linear regression and distribution-based random number generation.
  • the yield prediction data preprocessed through the above steps can be organized and converted into a data format to be used in a machine learning learning model and then stored in the data storage unit 200 or any other storage unit.
  • root cause analysis is performed in step S20 using the preprocessed data as above.
  • the basic cause analysis includes extracting process key factors (S21) and analyzing the process impact of the extracted key factors (S22).
  • key factors can be extracted by applying the preprocessed yield prediction data to a machine learning algorithm.
  • the process key factors are extracted by applying the explainable artificial intelligence (XAI) algorithm.
  • the SHAP algorithm is used to extract key factors for the target values, such as yield, conversion rate, and selectivity, and the key factors extracted in this way are quantified in step (S22).
  • the influence (contribution) can be analyzed, visualized, and output.
  • the SHAP (SHapley Additive exPlanations) algorithm uses the Shapley Value.
  • the basic idea of the Shapley value is the value obtained when all combinations of variables related to a specific variable are entered to determine how much a specific variable contributes to predictive power. This is a method of calculating the contribution of the relevant variable by comparing it with the result.
  • the Shapley value of each process tag can be extracted by applying the SHAP algorithm to the preprocessed data, and based on this, key factors can be extracted and the contribution of each key factor can be analyzed.
  • step S22 the influence (contribution) of certain key factors selected by user input among the key factors extracted in step S21 is analyzed and visualized through a user interface (UI) (e.g., computer screen). and outputs this, which will be described in detail with reference to FIGS. 4 to 9.
  • UI user interface
  • Figure 4 is a flowchart of a method for visualizing analysis results according to an embodiment
  • Figures 5 to 9 show an example configuration of a user interface (UI) that outputs analysis data according to the flowchart of Figure 4.
  • UI user interface
  • the user can set a specific period and request XAI analysis results for that period (S210).
  • the yield prediction system of the present invention receives this request, processes the XAI analysis results for the corresponding period, and outputs the primary analysis results through a user interface (UI) on the computer screen (S220).
  • UI user interface
  • Figure 5 is an output screen displayed on a display such as a computer screen, and may include, for example, an overall contribution display area 310, a contribution display area for each tag 320, and a daily contribution display area 330.
  • the total contribution display area 310 is an area that displays the contribution of extracted key factors (tags) as a bar graph in order of greatest contribution.
  • the tag-specific contribution display area 320 is an area that shows the influence of the selected tag over time when the user selects a specific tag.
  • the daily contribution display area 330 is an area that displays, when a user selects a specific date in the tag-specific contribution display area 320, the contribution of each key factor for the selected date as a bar graph or cumulative graph.
  • the first analysis result output (S220) only the overall contribution display area 310 is output on the screen, or only the overall contribution display area 310 and the tag-specific contribution display area 320 are output so that the user can select the main key points. Allows factors to be checked and analyzed quickly and easily.
  • Figure 6 shows an enlarged view of the overall contribution display area 310, where the key factors are sorted in the order in which they most influenced the target (yield, conversion rate, and/or selectivity) within a set period, and the influence of each key factor ( Contribution) can be easily seen at a glance.
  • the vertical axis represents major key factors (tags), and the horizontal axis represents the contribution of each key factor in numbers.
  • tag (T) at the top of the vertical axis is a flow rate-related tag, which means flow rate data measured in a flow path installed at a specific location in the factory, and this flow rate value has the greatest contribution to the target value for the corresponding setting period.
  • the user can select a specific tag among the tags displayed on the screen in Figure 6 (for example, by placing the mouse cursor on the graph of the tag and clicking), and when a specific tag is selected, the contribution of this selected tag is The contribution for each tag is displayed in the display area 320. For example, if the user selects the top tag (T) in Figure 6, the contribution for that tag (T) is output as shown in Figure 7.
  • the contribution display area 320 for each tag can output an individual factor analysis graph and an integrated factor analysis graph.
  • the individual factor analysis graph shows the contribution to the target of the tag (T) selected by the user in Figure 6 according to time on the horizontal axis
  • the integrated factor analysis graph accumulates other key factors to show the respective contributions of several key factors. Shows the total combined contribution over time.
  • red represents the positive influence that influenced the target value to increase
  • blue represents the negative influence that influenced the target value to decrease.
  • the yield prediction system provides a function that allows the user to select a specific date within the UI screen of FIG. 7. For example, when the user selects the date indicated by the arrow 30 in Figure 7 (e.g., by placing the mouse cursor on the corresponding graph or horizontal axis and clicking) (S230 in Figure 4), the daily contribution display area ( 330) is created and output. At this time, the daily contribution display area 330 can be created and output in the lower area of the tag-specific contribution display area 320 on the existing screen, and the user can view the entire area 310 to 330 by scrolling on the screen.
  • Figure 8 shows an enlarged view of the daily contribution display area 330 for the selected date.
  • the left graph shows the contribution of each tag in the order of the tags that most influenced the target value for the selected specific date, with the vertical axis representing the main key factor tags and the horizontal axis representing the contribution of the tags.
  • the graph on the right of Figure 8 shows the cumulative contribution of each tag as a line graph. For example, referring to the graph in Figure 8, it can be seen that among the 10 key factors, the tag (T) had the greatest influence on the decline in target (indicated as conversion rate in Figure 8) as the single factor.
  • the system according to the present invention includes a function to display actual measurement data so that one can immediately check whether the analysis by XAI is accurate or reliable.
  • the contribution display area 320 for each tag may include a 'Cause Analysis Details' selection button 10 and an 'Actual Data' selection button 20.
  • the screen in Figure 7 is The ‘Cause Analysis Details’ screen appears. That is, in one embodiment, the 'Cause Analysis Details' screen may be output as a default, and in this case, if the user wants to check actual data, he or she can do so by clicking the 'Actual Data' selection button (20).
  • step S250 in Figure 4 when the user clicks the 'Actual Data' selection button (20), the user system outputs a screen where the user can set the confirmation target period, tag, and target, and on this screen, the user You can select tags and targets.
  • This screen may be displayed in addition to the current screen, for example, or may be displayed as a pop-up screen. If the user selects and sets a period, one or more tags, and a target in step S250, actual observation data for the corresponding period is output in step S260. For example, the system outputs data as shown in Figure 9, where each graph represents observation values of tags and targets over time.
  • the black graph (Gc) represents the target (conversion rate) value and the orange graph (G T ) represents the observed value of the tag (T) that was found to have the greatest contribution in Figures 6 to 8.
  • the black graph (Gc) represents the target (conversion rate) value
  • the orange graph (G T ) represents the observed value of the tag (T) that was found to have the greatest contribution in Figures 6 to 8.
  • the present invention using XAI, not only can key factors be extracted and the contribution of each key factor shown, but the influence of each key factor can be analyzed more specifically and in-depth. For example, in the contribution display area 320 for each tag in Figure 7, if the target value is very low on a specific date, when the user selects the date (e.g., the date indicated by the arrow 30 in Figure 7) on the UI screen, the A daily contribution display area 330 of 8 is output, and the user can check the factors that influenced the target change on that day in order of contribution and analyze which factors caused the target value to decrease.
  • the date e.g., the date indicated by the arrow 30 in Figure 7
  • the key factors calculated by the basic cause analysis in step (S20) can be used in the subsequent yield prediction step (S30).
  • the yield prediction model may be an existing statistical-based model or a prediction model based on machine learning or deep learning.
  • the yield prediction model of the present invention may use a time series prediction model.
  • time series prediction models include traditional time series models such as Exponential Smoothing (ETS) and AutoRegressive Integrated Moving Average (ARIMA), Support Vector Machine (SVM), Random Forest, You can use one or more of machine learning-based models such as LightGBM, and deep learning-based models such as RNN (Recurrent Neural Network), LSTM (Long Short Term Memory), and GRU.
  • a yield prediction model with high predictive power can be used by ensemble of bagging algorithms such as random forest and boosting algorithms such as XGBoost and LightGBM.
  • Bagging series algorithms are a method of repeating random sampling in parallel and aggregating multiple times, and have the characteristic of increasing learning data. Therefore, even if there is not enough learning data, it has the effect of preventing underfitting and overfitting by providing sufficient learning effect.
  • Boosting-based algorithms also perform random sampling multiple times, but they are performed sequentially rather than in parallel, and have the characteristic of proceeding with learning by adjusting the weight of the next learning data based on the previous learning results. In other words, a high weight is given to incorrect answers, which has the effect of achieving high accuracy.
  • the LightGBM model a widely used random forest algorithm among the bagging algorithms that prevents overfitting and underfitting, or the LightGBM model among the boosting algorithms that increase accuracy by learning errors.
  • this yield prediction model is illustrative, and of course, known appropriate machine learning methods can be used depending on the specific embodiment of the invention.
  • the yield prediction method does not directly use preprocessed data for base cause analysis and yield prediction, but includes segment analysis (S40), data realization (S50), and aging factor analysis ( After performing at least one more step of S60), it is used for underlying cause analysis and yield prediction.
  • FIGS. 10 to 16 are diagrams illustrating an exemplary method of the segment analysis step (S40) according to an embodiment.
  • FIG. 10 is a flowchart illustrating an exemplary method of the segment analysis step
  • FIGS. 11 to 16 is a diagram illustrating a segment analysis process according to an embodiment.
  • one cycle is divided into a plurality of segments based on the preprocessed data.
  • the segments can be divided into sections showing similar yield increase/decrease trends during the process operation period of one cycle, and the subsequent key factors for each segment Yield prediction accuracy can be improved by using it for various modeling such as extraction, yield prediction, and yield prediction simulation.
  • the segment analysis step (S40) may include a step of selecting key factors required for segment analysis (S410) and a step of first determining the segment by selecting the inflection point of the key factors (S420). You can. Additionally, in one embodiment, after step S420, a step S430 of secondly determining the segments by integrating or separating the segments through volatility analysis may be further included. Additionally, in one embodiment, after step S430, a step of thirdly determining the segment based on the catalyst design (S440) may be further included.
  • the first step (S410) selects key factors required for segment analysis.
  • key factors can be selected, including at least one of the target values of yield, conversion rate, and selectivity, and key tags that affect these target values.
  • Figure 11 exemplarily shows the eight main factors selected in step S410.
  • the inflection points of the main factors are found and analyzed to initially determine the segments.
  • the segment can be determined by selecting the inflection point that becomes the boundary of the middle segment.
  • the inflection point can be calculated using a known method such as, for example, Plateau Detection.
  • Figure 12 shows the results of detecting an inflection point using a modified plateau detection method.
  • the graph is a graph of the air temperature (Regen Air temperature) during catalyst regeneration, where the
  • the inflection points are clustered in step (ii) above.
  • Figure 13 shows clustering of inflection points using the DBSCAN (Density-Based Spatial Clustering of Applications with Noise) method, which clusters using the degree of data density (density).
  • DBSCAN is one of the known clustering methods, and of course, the present invention is not limited to this method.
  • the segment is initially determined by selecting an inflection point that becomes the boundary of the segment among the inflection points clustered in step (iii).
  • Figure 8 shows the result of determining the first segment divided into four segments by step (iii).
  • step S430 of secondarily determining the segment by integrating or separating the segments may be further included.
  • step S430 for example, the average and deviation for each segment may be calculated for each of the firstly determined segments, and the firstly determined segments may be integrated or separated based on the calculated average and deviation to determine the segments secondarily.
  • Figure 9 shows the segment division results secondarily determined by this step (S430).
  • the dotted line shows the result of the first segment division in step S420
  • the solid blue line shows the result of the second segment division in step S430.
  • the second step determined above may be used to proceed to the next step (e.g., the underlying cause analysis step (S20) of FIG. 2, etc.), or alternatively, after the step (S430), based on the catalyst design.
  • a step of thirdly determining the segment (S440) may be further included.
  • the segment division is finalized by comparing similarity with the catalyst design, taking into account the quantity of catalyst inputted in the process (e.g., 600,000 tons, 1.8 million tons, 2.4 million tons, etc.).
  • Figure 16 shows the segment division result finally determined in this step (S440).
  • the catalyst lifespan is one cycle (e.g., 4 years)
  • one cycle is divided into four segments (SG1 to SG4).
  • the red graph represents the air temperature during catalyst regeneration (Regen Air temperature)
  • the gray graph represents the yield
  • the light green graph represents the selectivity.
  • the first segment (SG1) is a period in which the regen air temperature gradually increases toward stabilization by introducing the catalyst
  • the second segment (SG2) is a period in which the regen air temperature is maintained stably and the yield and selectivity are stable. It can be seen that this is a stabilization period.
  • the third segment (SG3) it can be seen that the yield gradually decreases as the catalyst ages. In other words, even if the regen air temperature is increased, the yield is not maintained or increased but gradually decreases due to catalyst aging.
  • the fourth segment (SG4) is a stage in which the yield decreases more rapidly, and is a period in which the yield and selectivity no longer increase but decrease sharply even if the regen air temperature is further increased.
  • yield prediction accuracy can be increased by performing modeling for each segment in the (S20) and yield prediction steps (S30) and then deriving analysis/prediction results throughout one cycle.
  • the data realization step (S50) generates and realizes data for the remaining period of the second cycle based on the first cycle data and the first half data of the second cycle.
  • the yield prediction step (S30) according to the present invention predicts one future cycle (second cycle) using data from one past cycle (first cycle). More specifically, the yield prediction step (S30) uses data from one cycle in the past (first cycle) to predict one cycle in the future (second cycle). After generating two cycles of data, the yield of the second cycle is predicted by inputting the second cycle data into the yield prediction model.
  • the data realization step (S50) utilizes the data for the first half of the second cycle to provide data for the remaining period of the second cycle. creates .
  • the data storage unit 200 stores the process operation data of the first cycle and the first half of the second cycle (i.e., from January 2021 to July 2022). .
  • the data realization processing unit 150 generates data for the remaining period of the second cycle (i.e., from August 2022 to December 2024) based on the process operation data of the first cycle and the first half data of the second cycle. do.
  • the data realization processing unit 150 may generate data for the remaining period of the second cycle by considering characteristics such as trends and averages of the data of the first cycle and characteristics of the data of the first half of the second cycle.
  • the process operation data (e.g., each tag data) of the first cycle and the second cycle tend to have different trends or values of the two cycles due to differences in catalyst input amount, initial operating conditions, etc., and therefore, the process operation data of the first cycle
  • the data of the first cycle is corrected to suit the trend of the second cycle to generate the data of the second cycle.
  • a method of realizing each tag data may include at least an average difference reflection method and a random number generation method.
  • the average difference reflection method can be applied when there is an average difference between the first cycle and the second cycle.
  • the average point of the first cycle data is moved to generate the second cycle data.
  • Figure 17 shows example tag data to which the average difference reflection method can be applied.
  • the X-axis is the axis corresponding to the time of one cycle
  • the Y-axis represents the data value of the corresponding tag.
  • the black graph is the data (CY1) of the first cycle of the corresponding tag
  • the red graph is the data (CY21) of the first half of the second cycle. It will be understood that the end of the first half of the second cycle data (CY2) is the current point.
  • the trends of the two data are similar, but the average value of the second cycle data is larger. Therefore, in this case, by applying the average difference reflection method, data for the corresponding period of the first cycle can be increased by the average difference to generate data for the remaining period of the second cycle.
  • the data of the corresponding period of the first cycle may be used as is with the average raised, or alternatively, the data may be modified for at least some sections by a method such as random number generation to generate second data. It may be possible.
  • the random number generation method can be applied when data for a certain period is incomplete or outliers exist. In one embodiment, if there is incomplete data in the first cycle, random numbers are generated to generate data in the second cycle.
  • Figure 18 shows example tag data to which a random number generation method can be applied.
  • the X-axis is the axis corresponding to the time of one cycle
  • the Y-axis represents the data value of the corresponding tag.
  • the black graph is the data (CY1) of the first cycle of the corresponding tag
  • the orange graph is the data (CY21) of the first half of the second cycle.
  • the end of the first half of the second cycle data (CY2) refers to the current time.
  • first cycle data CY1 was generated after a certain point in time.
  • the corresponding tag data may mean that the sensor was not installed or the sensor did not operate before the specific point in time.
  • the first half data (CY21) exists, and the second half data (CY22) is generated by generating random numbers based on the data of the first cycle.
  • the average and variance of a certain period of time e.g., the past 30 days (D30) from the current time
  • D30 past 30 days
  • the aging factor analysis step (S60) may be performed to reflect the aging of the catalyst used in the process in order to more accurately predict the process yield.
  • the aging factor analysis step (S60) may be performed to reflect the aging of the catalyst used in the process in order to more accurately predict the process yield.
  • the life of the catalyst decreases, causing the yield of the catalyst to drop sharply in the latter half of the process.
  • the yield decrease due to catalyst life is used in yield prediction.
  • the aging factor of the catalyst can be indexed by dividing the daily propylene production by the amount of heat applied to the catalyst, as shown in the formula below, to reflect the decrease in yield.
  • AF(Aging Factor) (Daily propylene production) / (Heat applied to catalyst)
  • the amount of heat applied to the catalyst can be calculated, for example, by multiplying the tag data value indicating the Regen Air temperature and the flow rate.
  • the yellow graph represents the yield (Y1) of the first cycle over time in one cycle and the red graph represents the aging factor (AF1) of the first cycle, and the aging factor (AF1) represents the yield ( It can be seen that there is an increase and decrease in a trend similar to Y1).
  • the fourth segment the yield decreases no matter how much the temperature is raised. At this time, the yield decreases relatively linearly up to the third segment, but in the fourth segment, the yield decrease is non-linear. can be seen.
  • the green graph represents the yield (Y2) up to the current point in the second cycle
  • the blue graph represents the aging factor (AF2) up to the local point in the second cycle
  • the yield (Y2) and aging in the first cycle respectively. It is progressing in a similar trend to the factor (AF1), and therefore it can be assumed that the yield (Y2) will also decrease non-linearly for the fourth segment period. To predict this more accurately, the aging factor (AF) for the second cycle
  • the yield is calculated by reflecting the .
  • the average value (AF1m) is first calculated for each segment, and the calculated average value of each segment is applied as a weight to each segment of the second cycle. can do.
  • the yield prediction model predicts the yield relatively accurately even without applying the aging factor (AF) to the first and second segments, so the aging factor is not applied to the first and second segments and the third and fourth segments. Aging factor (AF) can be applied to the segment section.
  • the yield of the third segment decreases relatively linearly, so the yield prediction model can predict it with some accuracy, so the aging factor (AF) can be applied only to the fourth segment.
  • Figure 21 exemplarily shows the trend of predicted yield when the aging factor (AF) is not applied to the first and second segment sections but is applied only to the third and fourth segments. If the aging factor (AF) is not applied to the third and fourth segments, the yield is predicted as shown in the blue graph in Figure 21, and in the first and second segments, the predicted yield (blue solid line) and the actual yield (black dotted line) Although this does not show a large difference, there is a large error in the third and fourth segment sections. However, if the aging factor (AF) is applied to the third and fourth segments as in the present invention, the yield is predicted as shown in the red dotted line, and a prediction relatively close to the actual yield is possible.
  • Figure 2 shows the results of the aging factor analysis step (S60) according to the result of performing the yield prediction step (S30) for the second cycle.
  • Figure 16 shows the predicted yield (Y) according to the result of performing the yield prediction step (S30) for the second cycle. As described above, one cycle is divided into four segments, data is realized for each segment, and The results of yield prediction performed by reflecting aging factors for the 3rd and 4th segments are shown.
  • the system and method for predicting catalytic activity reflecting key factors in the chemical process according to the present invention described above is designed to increase the accuracy of predicting changes in catalytic activity by selecting key factors according to process operating conditions and applying them to the prediction model. .
  • Base cause analysis and yield prediction system 110 Data preprocessing unit
  • the present invention analyzes the underlying causes of chemical processes, and more specifically, relates to a yield prediction system and method that selects key factors contributing to yield changes and applies them to a yield prediction model.

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Educational Administration (AREA)
  • Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Game Theory and Decision Science (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Analytical Chemistry (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명의 일 실시예에 따르면, 화학 공정의 수율 변화의 기저원인 분석 및 수율 예측 방법으로서, 수율 예측용 데이터를 전처리하는 단계; 및 상기 전처리된 수율 예측용 데이터를 이용하여 기저원인을 분석하는 단계;를 포함하고, 상기 기저원인 분석 단계는, 공정 핵심인자를 추출하는 단계와 추출된 핵심인자의 공정 영향도를 분석하는 단계를 포함하는 것을 특징으로 하는, 기저원인 분석 및 수율 예측 방법을 개시한다. 또한, 본 발명의 일 실시예에 따르면, 상기 기저원인 분석 및 수율 예측 방법을 실행시키기 위한 컴퓨터 프로그램이 기록된 컴퓨터 판독가능 기록매체를 개시한다.

Description

화학공정의 기저원인 분석 및 이를 이용한 수율 예측 모델링 방법
본 발명은 화학공정의 화학 공정의 기저 원인을 분석하는 것으로, 보다 구체적으로는, 수율 변화에 기여하는 핵심인자를 선별하고 수율 예측 모델에 적용하는 수율 예측 시스템 및 방법에 관한 것이다.
다수의 단계로 구성된 일련의 공정을 수행하는 경우, 각각의 공정마다 유기적인 연결에 따른 무결성 보장과 신뢰도가 매우 중요하다. 이러한 무결성을 달성하기 위해 공정에서는 주요설비의 입력값부터 각 공정의 이상 유무 판정 및 원인 진단이 파악 가능한 효율적인 공정관리 시스템의 개발이 필요하다.
일반적으로 산업공정에서 발생하는 과거의 데이터들은 대부분 적은 수의 변수(variable)와 선형의 데이터 구조를 갖는 경우가 많았기 때문에 기존의 알고리즘으로도 충분한 예측/분류 결과를 획득할 수 있었다. 그러나 ICT 및 센서 기술의 발달로 인하여 제조공정 분야에서는 수백 수천에 달하는 변수를 가진 데이터들이 생성되기 시작하였다. 특히, 화학 및 제조공정, 발전소와 같은 현대 산업 공정은 안전, 보건 및 환경 관련 규제를 충족함과 동시에, 비용을 절감하고 이윤을 극대화하기 위한 다양한 노력들로 인해서, 갈수록 데이터의 규모가 커지고, 복잡해지고 있다.
따라서 이와 같은 복잡하고 거대한 양의 데이터 중 이익 창출에 큰 영향을 주는 데이터를 선별하여 관리하는 것이 매우 중요하다. 예를 들어, 상업 화학 공정에서 공정 운전 조건은 단기적/장기적으로 촉매 활성에 영향을 주며, 촉매 활성은 제품 생산량과 직결되기 때문에 단기적/장기적 관점에서 촉매 활성을 예측하는 것은 매우 중요하다.
단기적인 관점에서 보면, 공정 운전 조건에 따른 촉매 활성 변화를 파악하여 운전 조건 최적화를 통해 촉매 활성을 향상시켜 제품 생산량을 증가시키는 것이 필요하다. 장기적 관점에서 보면 촉매를 사용하는 상업 화학 공정에서 촉매는 공정이 운전될수록 비활성화가 진행되어 활성이 감소하고, 이로 인해 일정 기간 후 교체가 필요하다. 이와 같은 촉매 교체에는 많은 시간과 돈이 소비되기 때문에, 미래 촉매 활성을 예측하여 촉매 수명/교체 시기를 판단하는 것이 중요하다.
따라서, 촉매 활성에 많은 영향을 끼치는 공정 운전 조건(핵심인자)을 파악하고, 이를 반영하여 촉매 반응 활성의 예측 정확도를 높일 수 있도록 하는 새로운 기술의 개발이 요구되고 있다.
(특허문헌 1) 한국 공개특허공보 제2018-0131246호 (20181210)
(특허문헌 2) 한국 공개특허공보 제2015-0018681호 (20150224)
(특허문헌 3) 일본 공개특허공보 특개2020-166749호(20201008)
(특허문헌 4) 한국 공개특허공보 제10-2019-0060547호(20190603)
(특허문헌 5) 일본 공개특허공보 특개2022-520643호(20220331)
(특허문헌 6) 한국 등록특허공보 제10-2218287호(20210222)
본 발명은 종래 기술의 공정 변화 원인 분석기술의 문제점을 해결하기 위한 것으로, 수율 변화에 기여하는 핵심 인자를 선별하고, 더 나아가 예측 모델에 적용하여 촉매 활성 변화의 예측 정확도를 높인 상업 화학 공정에서 핵심 인자를 반영한 촉매 활성 예측을 위한 시스템 및 방법을 제공하는데 그 목적이 있다.
본 발명은 정확한 촉매 활성 예측을 통해 제품 판매 계획 및 촉매 교체 시기를 판단 가능하도록 하여 제품 생산 및 촉매 교체에 소요되는 시간 및 비용을 효율적으로 관리할 수 있도록 한 것으로서, 상업 화학 공정에서 핵심 인자를 반영한 촉매 활성 예측을 위한 시스템 및 방법을 제공하는데 그 목적이 있다.
본 발명의 다른 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
본 발명의 일 실시예에 따르면, 화학 공정의 수율 변화의 기저원인 분석 및 수율 예측 방법으로서, 수율 예측용 데이터를 전처리하는 단계; 및 상기 전처리된 수율 예측용 데이터를 이용하여 기저원인을 분석하는 단계;를 포함하고, 상기 기저원인 분석 단계는, 공정 핵심인자를 추출하는 단계와 추출된 핵심인자의 공정 영향도를 분석하는 단계를 포함하는 것을 특징으로 하는, 기저원인 분석 및 수율 예측 방법을 개시한다.
본 발명의 일 실시예에 따르면, 상기 기저원인 분석 및 수율 예측 방법을 실행시키기 위한 컴퓨터 프로그램이 기록된 컴퓨터 판독가능 기록매체를 개시한다.
본 발명에 따르면 XAI를 사용하여 핵심인자를 추출하고 각 핵심인자의 기여도를 보여줄 뿐만 아니라 각 핵심인자의 영향도를 더 구체적이고 심층적으로 분석할 수 있다. 즉 사용자가 사용자 인터페이스(UI) 화면 상에서 핵심인자의 태그별 기여도를 확인하고 특정 날짜에 대해 타겟에 영향을 주는 태그를 기여도 순서로 확인할 수도 있으며, 또한 이 날짜에 대한 실제 관측 데이터를 출력함으로써 XAI 분석에 따른 핵심인자 기여도 결과를 검증할 수 있고 XAI 분석의 신뢰성을 높일 수 있다.
또한 본 발명에 따르면 공정 운전 조건에 따른 핵심인자를 선별하여 예측 모델에 적용하여 촉매 활성 변화의 예측 정확도를 높일 수 있고, 정확한 촉매 활성 예측을 통한 제품 판매 계획 및 촉매 교제 시기 판단 가능하도록 하여 제품 생산 및 촉매 교체에 소요되는 시간, 비용을 효율적으로 관리할 수 있으며, 공정 운전 조건에 따른 촉매 활성 변화를 파악하여 운전 조건 최적화를 통해 촉매 활성을 향상시켜 제품 생산량을 증가시킬 수 있다.
도 1은 본 발명의 일 실시예에 따른 기저원인 분석 및 수율 예측 시스템의 블록도를 개시한 것이다.
도 2는 일 실시예에 따른 기저원인 분석 및 수율 예측 방법을 나타내는 흐름도를 개시한 것이다.
도 3은 일 실시예에 따른 데이터 전처리 방법을 설명하는 도면을 개시한 것이다.,
도 4는 일 실시예에 따라 분석결과를 시각화하는 방법의 흐름도를 개시한 것이다.
도 5 내지 도 9는 일 실시예에 따라 분석 결과를 출력하는 사용자 인터페이스(UI)를 보여주는 도면을 개시한 것이다.
도 10은 일 실시예에 따른 세그먼트 분석 방법을 설명하는 흐름도를 개시한 것이다.
도 11 내지 도 16은 일 실시예에 따른 세그먼트 분석 과정을 설명하는 도면을 개시한 것이다.
도 17 및 도 18은 일 실시예에 따른 데이터 현실화 방법을 설명하는 도면을 개시한 것이다.
도 19 내지 도 21은 일 실시예에 따른 촉매 노화요소를 반영하는 방법을 설명하는 도면을 개시한 것이다.
도 22는 일 실시예에 따른 수율 예측 결과를 나타내는 도면을 개시한 것이다.
본 발명의 일 실시예에 따르면, 화학 공정의 수율 변화의 기저원인 분석 및 수율 예측 방법으로서, 수율 예측용 데이터를 전처리하는 단계; 및 상기 전처리된 수율 예측용 데이터를 이용하여 기저원인을 분석하는 단계;를 포함하고, 상기 기저원인 분석 단계는, 공정 핵심인자를 추출하는 단계와 추출된 핵심인자의 공정 영향도를 분석하는 단계를 포함하는 것을 특징으로 하는, 기저원인 분석 및 수율 예측 방법을 개시한다.
이상의 본 발명의 목적들, 다른 목적들, 특징들 및 이점들은 첨부된 도면과 관련된 이하의 바람직한 실시예들을 통해서 쉽게 이해될 것이다. 그러나 본 발명은 여기서 설명되는 실시예들에 한정되지 않고 다른 형태로 구체화될 수도 있다. 오히려, 여기서 소개되는 실시예들은 개시된 내용이 철저하고 완전해질 수 있도록 그리고 당업자에게 본 발명의 사상이 충분히 전달될 수 있도록 하기 위해 제공되는 것이다.
본 명세서에서 제1, 제2 등의 용어가 구성요소들을 기술하기 위해서 사용된 경우, 이들 구성요소들이 이 같은 용어들에 의해서 한정되어서는 안된다. 이들 용어들은 단지 어느 구성요소를 다른 구성요소와 구별시키기 위해서 사용되었을 뿐이다. 여기에 설명되고 예시되는 실시예들은 그것의 상보적인 실시예들도 포함한다.
본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 '~를 포함한다', ‘~로 구성된다', 및 ‘~으로 이루어진다’라는 표현은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다.
본 명세서에서 용어 '소프트웨어'는 컴퓨터에서 하드웨어를 움직이는 기술을 의미하고, 용어 '하드웨어'는 컴퓨터를 구성하는 유형의 장치나 기기(CPU, 메모리, 입력 장치, 출력 장치, 주변 장치 등)를 의미하고, 용어 '단계'는 소정의 목을 달성하기 위해 시계열로 연결된 일련의 처리 또는 조작을 의미하고, 용어 '컴퓨터 프로그램', '프로그램‘, 또는 '알고리즘'은 컴퓨터로 처리하기에 적합한 명령의 집합을 의미하고, 용어 '프로그램 기록 매체'는 프로그램을 설치하고 실행하거나 유통하기 위해 사용되는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 의미한다.
본 명세서에서 발명의 구성요소를 지칭하기 위해 사용된 ‘~부’, ‘~모듈’, ‘~유닛’, ‘~블록’, ‘~보드’ 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 물리적, 기능적, 또는 논리적 단위를 의미할 수 있고 이는 하나 이상의 하드웨어나 소프트웨어 또는 펌웨어로 구현되거나 또는 하나 이상의 하드웨어, 소프트웨어, 및/또는 펌웨어의 결합으로 구현될 수 있다.
본 명세서에서 '처리장치', ‘컴퓨터’, ‘컴퓨팅 장치’, '서버 장치', '서버'는 윈도우, 맥, 또는 리눅스와 같은 운영체제, 컴퓨터 프로세서, 메모리, 응용프로그램들, 기억장치(예를 들면, HDD, SSD)를 구비한 시스템으로 구현될 수 있다. 컴퓨터는 예를 들면, 데스크톱 컴퓨터나 노트북, 모바일 단말기 등과 같은 장치일 수 있으나 이들은 예시적인 것이며 이에 한정되는 것은 아니다. 모바일 단말기는 스마트폰, 태블릿 PC, 또는 PDA와 같은 모바일 무선통신기기 중 하나일 수 있다.
이하 도면을 참조하여 본 발명을 상세히 설명하도록 한다. 아래의 특정 실시예들을 기술하는데 있어서 여러 가지의 특정적인 내용들은 발명을 더 구체적으로 설명하고 이해를 돕기 위해 작성되었다. 하지만 본 발명을 이해할 수 있을 정도로 이 분야의 지식을 갖고 있는 독자는 이러한 여러 가지의 특정적인 내용들이 없어도 사용될 수 있다는 것을 인지할 수 있다. 또한 발명을 기술하는 데 있어서 공지 또는 주지관용 기술이면서 발명과 크게 관련 없는 부분들은 본 발명을 설명하는 데 있어 혼돈을 막기 위해 기술하지 않음을 미리 언급해 둔다.
도1은 본 발명의 일 실시예에 따른 기저원인 분석 및 수율 예측 시스템을 간략히 나타낸 블록도이다. 이하의 본 명세서의 설명에서 본 발명에 따른 기저원인 분석 및 수율 예측 시스템(이하 간단히 “수율 예측 시스템”이라고도 함)이 올레핀 생산 공정에 적용되는 것으로 가정하여 설명한다. 예를 들어, 본 발명의 수율 예측 시스템은 프로판을 원료로 프로필렌을 만드는 PDH(Propane DeHydration) 공정에 적용될 수 있으며, 이 공정에 의해 프로판에서 수소를 추출하여 올레핀의 한 종류인 프로필렌을 생성할 수 있다.
본 발명의 일 실시예에서 수율 예측 시스템은 제1 사이클 기간 동안 수집된 공정 운전 데이터에 기초하여 제2 사이클 기간의 수율을 예측할 수 있다. 이 때 제1 및 제2 사이클은 동일한 시간 길이의 기간일 수도 있고 상이한 시간 길이의 기간일 수도 있으며, 예를 들어 4년으로 설정할 수 있다. 바람직하게는 한 사이클은 화학 공정에 사용되는 촉매의 수명과 관련될 수 있고, 예를 들어 촉매의 수명이 4년인 경우 한 사이클이 4년으로 설정될 수 있다.
도1을 참조하면, 일 실시예에 따른 수율 예측 시스템(100)은 데이터 전처리부(110), 기저원인(root cause) 분석부(120), 및 수율 예측부(130)를 포함할 수 있고, 이러한 각 구성요소(110 내지 140)는 컴퓨터 장치에서 실행 가능하게 프로그램되는 소프트웨어로 구현될 수 있고, 필요에 따라 펌웨어, 하드웨어와 일부 결합하여 구현될 수도 있다. 대안적 실시예에서 본 발명의 수율 예측 시스템(100)은 세그먼트 분석부(140), 데이터 현실화 처리부(150), 및 노화요소 분석부(160)를 추가로 더 포함할 수 있다.
데이터 전처리부(110)는 데이터 저장부(200)로부터 데이터를 수집 및 추출하여 전처리하는 기능부이다. 데이터 전처리부(110)의 동작에 대해서는 도3을 참조하여 후술하기로 한다.
기저원인 분석부(120)는 데이터 전처리부(110)에서 전처리된 데이터를 이용하여 공정 핵심인자를 추출하고 사용자의 필요에 따라 선택된 주요 핵심인자의 영향도를 일별로 선택하여 타겟(수율, 선택도, 및 전환율 등)에 미치는 영향을 보다 심층적으로 분석하는 기저원인 분석을 수행할 수 있다. 기저원인 분석부(120)는 전처리된 데이터를 이용하여 핵심인자를 추출하기 위해 머신러닝 알고리즘을 포함할 수 있다. 기저원인 분석부(120)의 예시적 동작에 대해서는 도4 내지 도9를 참조하여 후술하기로 한다.
수율 예측부(130)는 전처리된 데이터 및 추출된 핵심인자를 이용하여 공정의 수율을 예측하는 기능부이다. 일 실시예에서 수율 예측부(130)는 머신러닝 기반의 학습 알고리즘을 포함하며, 전처리된 데이터 및 핵심인자를 이용하여 하나 이상의 수율 예측모형을 학습시키고 학습된 수율 예측 모형을 이용하여 수율 예측 결과를 출력할 수 있다.
세그먼트 분석부(140)는 전처리된 데이터에 기초하여 한 사이클을 복수개의 세그먼트로 분할할 수 있다. 예를 들어 한 사이클(예컨대 4년)에 대해 공정에 사용된 촉매의 수명(노화)에 따른 공정 온도, 수율 등 소정 인자의 변화량에 기초하여 한 사이클을 복수개의 기간으로 분할한다. 세그먼트 분석부(140)의 예시적 동작에 대해서는 도10 내지 도16을 참조하여 후술하기로 한다.
데이터 현실화 처리부(150)는 수율 예측에 사용되는 데이터를 수율 예측 모형에 입력하기에 적합한 형태로 현실화하여 생성하기 위한 기능부이다. 본 발명에 따른 수율 예측 시뮬레이션 시스템은 과거 한 사이클(제1 사이클)의 데이터를 활용하여 앞으로의 한 사이클(제2 사이클)을 예측하며, 이 때 제1 사이클의 데이터에 기초하여 제2 사이클의 데이터를 생성하여 수율 예측 모형에 입력할 수 있다. 데이터 현실화 처리부(130)의 예시적 동작에 대해서는 도17 및 도18을 참조하여 후술하기로 한다.
노화요소 분석부(160)는 공정 수율을 보다 정확히 예측하기 위해 공정에 사용되는 촉매의 노화를 반영하기 위한 기능부이다. 일반적으로 촉매는 종류에 따라 수명도 다르고 수명 기간 내에서 노화의 추세도 다양할 수 있다. 특히 촉매가 후반기로 갈수록 노화가 급격히 진행되는 경우 수율 예측 모형에 이를 정확히 반영하는 것이 어려울 수 있다. 따라서 본 발명의 일 실시예에서 촉매의 노화 요소(aging factor)를 추가로 고려한다. 예를 들어 시간에 따른 촉매의 노화 요소를 산출하고 이 값을 수율 예측 모형에 입력하는 공정 데이터에 가중치로 반영할 수 있으며 이를 통해 수율 예측 성능을 높일 수 있다. 노화요소 분석부(160)의 예시적 동작에 대해서는 도19 내지 도21을 참조하여 후술하기로 한다.
도2는 상술한 수율 예측 시스템(100)을 이용하여 기저원인 분석 및 수율을 예측하는 예시적인 흐름도이다.
도2를 참조하면, 일 실시예에 따른 기저원인 분석 및 수율 예측 방법은 수율 예측용 데이터를 전처리하는 단계(S10), 상기 전처리된 수율 예측용 데이터를 이용하여 기저원인을 분석하는 단계(S20), 및 전처리된 수율 예측용 데이터 및 추출된 핵심인자에 기초하여 수율 예측모형을 학습하는 단계(S30)를 포함할 수 있다. 이 때 상기 기저원인을 분석하는 단계(S20)는 공정 핵심인자를 추출하는 단계(S21)와 추출된 핵심인자의 공정 영향도를 분석하는 단계(S22)를 포함할 수 있으며, 이 때 공정 영향도 분석 단계(S22)에서는 사용자 입력에 의해 선택된 소정 태그의 영향도를 사용자 인터페이스(UI)를 통해 시각화하여 출력할 수 있다.
또한 대안적 실시예에서 수율 예측 시스템(100)은 전처리된 데이터에 기초하여 한 사이클을 복수개의 세그먼트로 분할하는 세그먼트 분석 단계(S40), 제1 사이클 데이터 및 제2 사이클의 전반부 데이터에 기초하여 제2 사이클의 데이터를 생성 및 현실화하는 데이터 현실화 단계(S50), 및 공정에 사용된 촉매의 노화 요소를 산출하는 노화요소 분석 단계(S60)를 더 포함할 수 있다.
각 단계에 대해 보다 구체적으로 살펴보면, 우선 단계(S10)에서 수율 예측용 데이터를 전처리한다. 이와 관련하여 도3은 일 실시예에 따른 데이터 전처리 방법을 나타내었다. 도3을 참조하면, 데이터전처리 단계(S10)는 수율 예측용 데이터를 분 단위로 전처리하는 단계(S110), 분석대상 태그를 선정하는 단계(S120), 상기 분 단위로 전처리된 데이터 중 상기 선정된 태그의 데이터에 대해, 시간 및 일 단위 데이터를 추출하는 단계(S130), 및 상기 일 단위 데이터에 대한 이상치 처리 및 결측치 보간을 수행하는 단계(S140)를 포함할 수 있다.
단계(S110)에서 데이터를 전처리하기 위해, 데이터 저장부(200)에서 필요 데이터를 수집 및 추출하여 가져온다. 이 때 데이터 저장부(200)는 예를 들어 데이터베이스로 구현될 수 있으나 데이터 형식은 특별히 제한되지 않는다. 일 실시예에서 데이터 저장부(200)로부터 추출되는 수율 예측용 데이터는 (i) 올레핀 생산 공장의 공정 운전 데이터, (ii) LIMS 데이터를 포함하는 실험실 데이터, (iii) 공장이 정상적으로 운전되지 않은 시간에 관한 데이터를 포함한 공장 이벤트 데이터, 및 (iv) 올레핀 생산에 관한 과거 수율, 전환율, 및 선택도 데이터를 포함할 수 있다.
올레핀 생산 공장(PDH 공장)의 공정 운전 데이터는 공장의 각종 설비(예컨대 반응기, 유로 등)에 설치된 센서들로부터 수집되는 센서 데이터일 수 있다. 각 센서들은 예컨대 온도, 압력, 유량, 조성 등 공정 운전 상황을 관측할 수 있는 변수를 측정하는 센서일 수 있고, 각 센서들로부터 분 단위로 데이터를 수집할 수 있다.
공정 운전 데이터는 섹션별, 유닛별, 및 태그별로 분류되어 데이터 저장부(200)에 저장될 수 있다. 이 때 유닛은 공장 내에서 태그(tag)가 모여있는 중간-사이즈(mid-size) 집합이고, 섹션은 유닛이 모여 있는 대규모(large-size) 집합이며, 여러 섹션이 모여서 PDH 공장 전체를 구성하고 있다. 한편, 태그(tag)는 공장에 설치된 각각의 센서를 식별하는 식별자로서 기능할 수 있다. 즉, 각 센서마다 고유의 태그가 할당되어 있으며 일 실시예에서 PDH 공장에 9000개가 넘는 태그가 존재할 수 있다. 이하 본 명세서에서는 특별히 혼동의 염려가 없는 한 각 태그에 대응하는 센서에서 출력되는 데이터에 대해서도 '태그' 또는 '태그 데이터'라 칭하기도 한다.
실험실 데이터는 LIMS(Laboratory Information Management System) 데이터를 포함할 수 있다. 일 실시예에서 정확한 수율 예측을 위해 실제 관측 데이터(태그 데이터) 뿐만 아니라 실험실 데이터도 활용할 수 있다. 또한 실험실 데이터는 태그 데이터의 이상치나 결측치 발생시 이를 처리하고 보간하는데 사용될 수도 있다. 대안적 실시예에서 실험실 데이터가 생략될 수도 있다.
공장 이벤트 데이터는 예를 들어 정상적으로 운전되지 않은 시간에 관한 데이터(Shut-down 이력), 대정수/소정수 등 데이터를 포함할 수 있으며, 태그 데이터의 이상치나 결측치 분석과 처리시 사용될 수 있다. 과거 수율값은 올레핀 생산에 관한 과거 수율 데이터를 포함한다. 또한 이 때 과거 수율 외에 전환율(conversion) 및 선택도(selectivity) 값을 더 포함할 수 있다. 이하 본 명세서에서는 혼동의 염려가 없는 한 수율, 전환율, 및 선택도를 '수율'이라 통칭하기도 하며 또한 머신러닝 관점에서 수율(즉, 수율, 전환율, 선택도)을 '타겟'이라 칭하기도 한다.
이와 같이 데이터 저장부(200)에 저장되는 데이터는 소정 설정 주기 단위로 지속적으로 축적된 것으로 현시점으로부터 과거 5년치 데이터일 수 있다. 이 때 설정 주기 단위는 초 단위 또는 분 단위일 수 있고, 예를 들어 30초 단위로 데이터를 수집한 후 분석을 위해 분 단위 및/또는 시간 단위로 변환하여 저장할 수도 있다. 그러나 이러한 설정 주기 단위는 예시적인 것이고 특정한 주기로 제한되지 않으며, 데이터 축적 기간도 5년이 아니라 다른 기간으로 설정될 수도 있다.
데이터 저장부(200)에서 추출된 수율 예측용 데이터는 단계(S110)에서 분 단위 데이터로서 전처리된다. 예를 들어 데이터 저장부(200)로부터 초 단위 데이터를 수신한 경우 분 단위로 변환하고, 이상치나 결측치가 발생한 경우 이상치 처리 및 결측치 보간 작업을 수행한다.
다음으로, 단계(S120)에서 분석대상 태그를 선정한다. 예를 들어, 공장에 설치된 모든 센서로부터 수집된 모든 태그 데이터를 이용하여 후술하는 핵심인자 분석 및 수율 예측 등을 수행할 수도 있지만, 바람직하게는, 전체 태그 데이터 중 일부 태그 데이터를 선별하고 이 선별된 태그 데이터를 이용하여 이후의(예컨대 S130 단계 이후의) 시간/일 단위 데이터 추출, 핵심인자 분석 및 수율 예측을 수행할 수도 있으며, 이 경우 단계(S120)에서 분석대상 태그를 선정한다. 태그 선정은, 예컨대 지난 연구 및 현장 엔지니어의 지식과 경험을 바탕으로 분석에 유용하다고 인정된 태그를 선정할 수 있다.
일 실시예에서 이러한 분석대상 태그 선정 단계(S120)는 분단위 데이터를 전처리하는 단계(S110) 이전에 미리 수행될 수도 있고, 이 경우 분석대상으로 선정된 태그에 대해서만 분단위 데이터 전처리(S110)를 수행할 수도 있을 것이다.
단계(S120)에서 분석대상 태그가 선정되면 그 후 단계(S130)에서 시간단위 데이터를 추출하고 이를 다시 처리하여 일(day) 단위 데이터로 추출한다. 이 때 데이터 통합을 위해 공정 데이터(태그 데이터)와 LIMS 데이터를 활용하여 데이터 통합을 할 수도 있다. 또한 대안적 실시예에서, 분석대상 태그를 선정하는 단계(S120)가 시간 단위 데이터를 추출한 이후 수행될 수도 있고, 이 경우 모든 공정 데이터에 대해 시간단위 데이터를 추출한 후 분석대상 태그에 대해서만 일단위 데이터로 추출할 수도 있다.
단계(S130)에서 일단위 데이터로 추출한 후 단계(S140)에서 데이터 전처리를 수행한다. 예를 들어 데이터 전처리는 이상치 처리 및 결측치 보간을 포함한다. 이상치 처리의 경우, 이상값(outlier)을 선별하여 제외 혹은 보정한 후 정제된 값들만 유효한 입력 값으로 활용한다. 또한 이상치로 선별되어 제거된 구간 또는 공장의 가동 중단에 의해 공정 데이터가 없는 구간에 대해 결측치 보간을 수행한다. 결측치 보간은 예컨대 선형 회귀 및 분포기반 난수 생성을 통해 새로운 데이터를 생성하여 보간할 수 있다.
이상과 같은 단계를 거쳐 전처리된 수율 예측 데이터는 머신러닝 학습 모형에 사용될 데이터 형태로 정리 및 변환된 후 데이터 저장부(200) 또는 다른 임의의 저장부에 저장될 수 있다.
다시 도2를 참조하면, 위와 같이 전치리된 데이터를 이용하여 단계(S20)에서 기저원인 분석(root cause analysis)을 수행한다. 일 실시예에서 기저원인 분석은 공정 핵심인자를 추출하는 단계(S21)와 추출된 핵심인자의 공정 영향도를 분석하는 단계(S22)를 포함한다. 이 때 핵심인자를 추출하는 단계(S21)에서, 전처리된 수율 예측 데이터를 머신러닝 알고리즘에 적용하여 핵심인자를 추출할 수 있다.
바람직하게는, 이 단계(S21)에서 설명가능 인공지능(XAI) 알고리즘에 적용하여 공정 핵심인자를 추출한다. 일 실시예에서 핵심인자 추출 단계(S21)에서 SHAP 알고리즘을 활용하여 타겟 값인 수율, 전환율, 및 선택도에 대한 핵심인자를 추출하고, 이렇게 추출된 핵심인자에 대해 단계(S22)에서 핵심인자의 정량적인 영향도(기여도)를 분석하고 시각화하여 출력할 수 있다.
SHAP(SHapley Additive exPlanations) 알고리즘은 섀플리 값(Shapley Value)을 이용하는 것으로, 섀플리 값의 기본적인 아이디어는 특정 변수가 예측력에 얼마나 기여하는지 파악하기 위해 이 특정 변수와 관련된 모든 변수 조합들을 입력시켰을 때 나온 결과값과 비교를 하면서 해당 변수의 기여도를 계산하는 방식이다. 본 발명의 일 실시예에서, 전처리된 데이터를 SHAP 알고리즘에 적용하여 각 공정 태그의 섀플리 값을 추출하고 이에 기초하여 핵심인자를 추출하고 핵심인자별 기여도를 분석할 수 있다.
공정 영향도를 분석하는 단계(S22)에서는 단계(S21)에서 추출된 핵심인자 중 사용자 입력으로 선택된 소정 핵심인자의 영향도(기여도)를 분석하여 사용자 인터페이스(UI)(예컨대 컴퓨터 화면)를 통해 시각화하고 이를 출력하며, 이에 대해서는 도4 내지 도9를 참조하여 구체적으로 설명하기로 한다.
도4는 일 실시예에 따라 분석결과를 시각화하는 방법의 흐름도이고, 도5 내지 도9는 도4의 흐름도에 따른 분석 데이터를 출력하는 사용자 인터페이스(UI)의 예시적 구성을 나타내었다.
도4를 참조하면, 사용자가 특정 기간을 설정해서 해당 기간에 대한 XAI 분석 결과를 요청할 수 있다(S210). 본 발명의 수율 예측 시스템은 이 요청을 수신하여 해당 기간에 대한 XAI 분석 결과를 처리하여 1차 분석 결과를 컴퓨터 화면의 사용자 인터페이스(UI)를 통해 출력한다(S220). 예를 들어 사용자가 어느 특정 기간을 설정하여 시스템에 입력하면 도5와 같은 화면 결과를 얻는다. 도5는 컴퓨터 화면과 같은 디스플레이에 출력되는 출력화면으로서, 예를 들어 전체 기여도 표시 영역(310), 태그별 기여도 표시 영역(320), 및 일별 기여도 표시 영역(330)을 포함할 수 있다.
전체 기여도 표시 영역(310)은 추출된 핵심인자(태그)의 기여도를 기여도가 큰 순서대로 바(bar) 그래프로서 나타내는 영역이다. 태그별 기여도 표시 영역(320)은, 사용자가 특정 태그를 선택했을 때 이 선택된 태그의 시간에 따른 영향도를 보여주는 영역이다. 일별 기여도 표시 영역(330)은, 사용자가 태그별 기여도 표시 영역(320)에서 어느 특정 날짜를 선택했을 때 이 선택된 날짜의 각 핵심인자별 기여도를 바 그래프 및 누적 그래프로서 나타내는 영역이다.
일 실시예에서, 1차 분석결과 출력(S220)에서는 전체 기여도 표시 영역(310)만 화면에 출력하거나 또는 전체 기여도 표시 영역(310) 및 태그별 기여도 표시 영역(320)만 출력하여 사용자가 주요 핵심인자를 쉽고 빨리 확인하고 분석할 수 있도록 한다. 도6은 전체 기여도 표시 영역(310)을 확대하여 나타낸 것으로, 설정된 기간 내 타겟(수율, 전환율, 및/또는 선택도)에 영향을 많이 준 순서대로 핵심인자를 정렬하여 각 핵심인자의 영향도(기여도)를 한눈에 쉽게 파악할 수 있다.
도6의 그래프에서 세로축은 주요 핵심인자(태그)를 나타내고 가로축은 각 핵심인자의 기여도를 수치로 표현한 것이다. 예를 들어 세로축에서 가장 위쪽의 태그(T)는 유량 관련 태그인데 이것은 공장 내 어느 특정 위치에 설치된 유로에서 측정한 유량 데이터를 의미하며, 이 유량 값이 해당 설정 기간의 타겟 값에 가장 기여도가 크다는 것을 알 수 있다.
사용자가 도6의 화면에 출력되는 태그들 중 어느 특정 태그를 (예컨대 마우스 커서를 해당 태그의 그래프에 올려놓고 클릭하는 등의 방법으로) 선택할 수 있고, 특정 태그를 선택하면 이 선택된 태그의 기여도가 태그별 기여도 표시 영역(320)에 출력된다. 예를 들어 사용자가 도6에서 가장 위의 태그(T)를 선택한 경우 도7과 같이 해당 태그(T)에 대한 기여도가 출력된다.
도7을 참조하면, 태그별 기여도 표시 영역(320)은 개별인자분석 그래프와 통합인자분석 그래프를 출력할 수 있다. 개별인자분석 그래프는, 도6에서 사용자에 의해 선택된 태그(T)의 타겟에 대한 기여도를 가로축의 시간에 따라 보여주고, 통합인자분석 그래프는 다른 핵심인자들까지 누적하여 여러 핵심인자들의 각각의 기여도가 합쳐진 전체 기여도를 시간에 따라 보여준다. 그래프에서 빨간색은 타겟 값이 증가하는데 영향을 준 플러스 영향을 나타내고, 파란색은 타겟 값이 감소하는데 영향을 준 마이너스 영향을 나타낸다.
일 실시예에서 본 발명에 따른 수율 예측 시스템은 도7의 UI 화면 내에서 사용자가 특정 날짜를 선택할 수 있는 기능을 제공한다. 예를 들어 사용자가 도7에 화살표(30)로 표시한 날짜를 (예컨대 마우스 커서를 해당 그래프나 가로축에 올려놓고 클릭하는 등의 방법으로) 선택하면(도4의 S230), 일별 기여도 표시 영역(330)이 생성되어 출력된다. 이 때 일별 기여도 표시 영역(330)은 기존 화면상에서 태그별 기여도 표시 영역(320)의 아래쪽 영역에 생성되어 출력될 수 있고 사용자가 화면상에서 스크롤하며 전체 영역(310 내지 330)을 볼 수 있다.
도8은 선택된 날짜에 대한 일별 기여도 표시 영역(330)을 확대하여 도시한 것이다. 일별 기여도 표시 영역(330)에서는 왼쪽 그래프는 선택된 특정 날짜에 대해 타겟 값에 영향을 많이 준 태그 순서로 각 태그의 기여도를 보여주는 것으로, 세로축은 주요 핵심인자 태그를 나타내고 가로축은 태그의 기여도를 나타낸다. 도8의 오른쪽 그래프는 각 태그의 기여도를 누적하여 선 그래프로 표시한 것이다. 예를 들어 도8의 그래프를 참조하면, 10의 핵심인자들 중 단일 인자로서는 태그(T)가 타겟(도8에서는 전환율로 표시) 하락에 가장 큰 영향을 끼쳤음을 알 수 있다.
한편, 이러한 XAI에 의한 분석이 정확한 것인지, 신뢰성 있는 것인지 바로 확인할 수 있도록 본 발명에 따른 시스템은 실제 측정 데이터(actual data)를 보여주는 기능을 포함한다. 예를 들어, 도7에 도시한 것처럼 태그별 기여도 표시 영역(320)은 '원인분석상세' 선택 버튼(10)과 'Actual Data' 선택 버튼(20)을 포함할 수 있는데, 도7의 화면은 '원인분석상세' 화면을 나타낸다. 즉 일 실시예에서 '원인분석상세' 화면이 기본 디폴트로서 출력될 수 있고, 이 경우 사용자가 실제 데이터를 확인하고자 하면 'Actual Data' 선택 버튼(20)을 클릭하여 확인할 수 있다.
도4에서 단계(S250)로 나타낸 것처럼, 사용자가 'Actual Data' 선택 버튼(20)을 클릭하면 사용자 시스템은 확인대상 기간, 태그 및 타겟을 사용자가 설정할 수 있는 화면을 출력하고, 이 화면에서 사용자가 태그 및 타겟을 선정할 수 있다. 이 화면은 예컨대 현재의 화면상에 추가로 보여질 수도 있고 팝업 화면으로 보여질 수도 있다. 단계(S250)에서 사용자가 기간, 하나 이상의 태그 및 타겟을 선택하여 설정하면, 단계(S260)에서 해당 기간의 실제 관측 데이터를 출력한다. 예를 들어 시스템은 도9에 도시한 것과 같은 데이터를 출력하며, 여기서 각 그래프들은 태그 및 타겟의 시간에 따른 관측 값을 나타낸다. 예를 들어 도9에서 검은색 그래프(Gc)는 타겟(전환율) 값을 나타내고 주황색 그래프(GT)는 (도6 내지 도8에서 가장 기여도가 큰 것으로 나타났던 태그(T)의 관측 값을 나타내며, 도9를 통해 태그(T)와 전환율의 실제 증감 트렌드가 유사하다는 것을 확인할 수 있다.
이상과 같이 본 발명에 따르면 XAI를 사용하여 핵심인자를 추출하고 각 핵심인자의 기여도를 보여줄 뿐만 아니라 각 핵심인자의 영향도를 더 구체적이고 심층적으로 분석할 수 있다. 예를 들어 도7의 태그별 기여도 표시 영역(320)에서, 특정 날짜에 타겟 값이 매우 낮은 경우 해당 날짜(예컨대 도7에서 화살표(30)로 표시한 날짜)를 UI 화면상에서 사용자가 선택하면 도8의 일별 기여도 표시 영역(330)을 출력하며, 사용자는 그 날에 타겟 변화에 영향을 준 인자들을 기여도 순서로 확인할 수 있고 어떤 인자에 의해 타겟 값이 저하되었는지 분석할 수 있다. 또한 사용자가 도7의 화면에서 'Actual Data' 선택 버튼(20)을 선택한 경우 시스템이 도9의 실제 관측 데이터를 바로 출력해줌으로써 XAI 분석에 따른 핵심인자 기여도 결과를 검증할 수 있고 XAI 분석의 신뢰성을 높일 수 있다.
다시 도2를 참조하면, 상술한 것과 같이 단계(S20)의 기저원인 분석에 의해 산출된 핵심인자는 이후의 수율 예측 단계(S30)에 활용될 수 있다 예를 들어 이 단계(S30)에서 공장의 전체 9000여 개의 태그 중에서 100여 개의 핵심인자를 선정하면, 이후의 수율 예측 단계(S30)에서는 상기 선정된 100여 개의 핵심인자의 태그 데이터 값에 기초하여 수율 예측을 수행할 수 있다.
수율 예측을 위해 공지의 머신러닝 기법을 이용한 수율 예측 모형을 학습할 수 있다. 이 때 수율 예측모형은 기존의 통계기반 모형일 수도 있고 머신러닝 또는 딥러닝 기반의 예측모형일 수도 있다
일 실시예에서 본 발명의 수율 예측모형은 시계열 예측 모형을 사용할 수 있다. 예를 들어 시계열 예측 모형으로 지수평활 모형(ETS: Exponential Smoothing), ARIMA 모형(AutoRegressive Integrated Moving Average) 등의 전통적 시계열 모형, 서포트 벡터 머신(SVM: Support Vector Machine), 랜덤 포레스트(Random Forest) XGBoost, LightGBM 등의 머신러닝 기반 모형, 그리고 RNN(Recurrent Neural Network), LSTM(Long Short Term Memory), GRU 등의 딥러닝 기반 모형 중 하나 이상을 사용할 수 있다. 예를 들어 바람직하게는, 랜덤포레스트 등 배깅(Bagging) 계열 알고리즘과 XGBoost, LightGBM 등 부스팅(Boosting) 계열 알고리즘을 앙상블하여 높은 예측력을 지닌 수율 예측 모형을 사용할 수 있다.
배깅 계열 알고리즘은 병렬적으로 랜덤 샘플링(Random sampling)을 여러 번 반복하여 집계하는 방법으로, 학습 데이터를 늘릴 수 있는 특성을 가진다. 따라서 학습 데이터가 충분하지 않더라고 충분한 학습 효과를 주어 과소적합(Underfitting)과 과적합(Overfitting)을 방지하는 효과가 있다.
부스팅(Boosting) 계열 알고리즘 또한 랜덤 샘플링을 여러 번 수행하지만, 병렬적으로 수행하지 않고 순차적으로 진행되어 이전 학습 결과를 바탕으로 다음 학습 데이터의 가중치를 조절해 학습을 진행하는 특성을 갖는다. 즉, 오답에 대해 높은 가중치를 부여하므로 높은 정확도를 얻을 수 있는 효과가 있다.
이와 같은 모형들 중에서 과적합과 과소 적합을 방지하는 배깅 계열 알고리즘 중 널리 사용되는 랜덤 포레스트 알고리즘 또는 오차를 학습하여 정확도를 높이는 부스팅 계열 알고리즘 중 LightGBM 모형을 적용하여 모델링하는 것이 바람직할 수 있다. 그러나 이러한 수율 예측 모형은 예시적인 것이며 발명의 구체적 실시 형태에 따라 공지의 적절한 머신러닝 방법을 사용할 수 있음은 물론이다.
이제 본 발명의 대안적 실시예에 대해 설명하기로 한다.
도2를 참조하면, 본 발명의 대안적 실시예에서 수율 예측 방법은 전처리된 데이터를 기저원인 분석 및 수율 예측에 곧바로 사용하지 않고 세그먼트 분석(S40), 데이터 현실화(S50), 및 노화요소 분석(S60) 중 적어도 하나의 단계를 더 수행한 후 기저원인 분석과 수율 예측에 활용한다. 이와 관련하여 도10 내지 도16은 일 실시예에 따른 세그먼트 분석 단계(S40)의 예시적 방법을 설명하는 도면으로, 도10은 세그먼트 분석 단계의 예시적 방법을 설명하는 흐름도이고 도11 내지 도16은 일 실시예에 따른 세그먼트 분석 과정을 설명하는 도면이다.
세그먼트 분석 단계(S40)에서는 전처리된 데이터에 기초하여 한 사이클을 복수개의 세그먼트로 분할한다. 일 실시예에서 수율 트렌드가 급변하는 변곡점 지점, 수율 변동 정도를 고려하여 세그먼트를 나눔으로써 한 사이클의 공정 운전 기간 중 비슷한 수율 증감 트렌드를 나타내는 구간으로 세그먼트가 분할될 수 있고, 세그먼트별로 이후의 핵심인자 추출, 수율 예측, 수율 예측 시뮬레이션 등 각종 모델링에 활용함으로써 수율 예측 정확성을 높일 수 있다.
도10을 참조하면 일 실시예에서 세그먼트 분석 단계(S40)는 세그먼트 분석에 필요한 주요인자를 선정하는 단계(S410), 주요인자의 변곡점을 선정하여 세그먼트를 1차 결정하는 단계(S420)를 포함할 수 있다. 또한 일 실시예에서, 단계(S420) 이후, 변동성 분석에 의해 세그먼트를 통합 또는 분리하여 세그먼트를 2차 결정하는 단계(S430)를 더 포함할 수 있다. 또한 일 실시예에서 단계(S430) 이후, 촉매 디자인에 기초하여 세그먼트를 3차 결정하는 단계(S440)를 더 포함할 수 있다.
각 단계를 간단히 설명하면, 우선 단계(S410)에서 세그먼트 분석에 필요한 주요인자를 선정한다. 예를 들어 타겟 값인 수율, 전환율, 선택도 중 적어도 하나, 그리고 이러한 타겟 값에 영향을 주는 주요 태그를 포함하여 주요 인자를 선정할 수 있다. 이와 관련하여 도11은 단계(S410)에서 선정한 8개의 주요 인자를 예시적으로 나타낸다.
다음으로, 세그먼트로 분할하는 단계(S40)에서 주요 인자의 변곡점을 찾아내고 분석하여 세그먼트를 1차 결정한다. 변곡점을 분석하여 세그먼트를 찾는 구체적 방법으로서, (i) 한 사이클 내에서 세그먼트 선정에 필요한 하나 이상의 인자에 대한 변곡점을 산출하고, (ii) 산출된 변곡점을 군집화하고, 그리고 (iii) 군집화된 변곡점들 중 세그먼트의 경계가 되는 변곡점을 선정하여 세그먼트를 결정할 수 있다.
보다 구체적으로, 상기 (i)의 단계에서는 예를 들어 플라토 검출법(Plateau Detection) 등 공지의 방법을 이용하여 변곡점을 산출할 수 있다. 일 예로서 도12는 변형 플라토 검출법을 사용하여 변곡점을 검출한 결과를 나타낸다. 도6에서 그래프는 촉매 재생시 공기 온도(Regen Air 온도) 그래프이고 이 때 X축은 한 사이클 내의 시간(또는 ‘누적 생산량’ 등 시간에 대응하는 변수)을 나타내고 Y축은 온도를 나타낸다.
그 후 상기 (ii)의 단계에서 변곡점을 군집화한다. 예를 들어 도13은 데이터가 밀집한 정도(밀도)를 이용하여 군집화하는 DBSCAN(Density-Based Spatial Clustering of Applications with Noise) 방법을 이용하여 변곡점을 군집화한 것을 나타낸다. DBSCAN은 공지의 군집화 방법 중 하나이며 본 발명이 이 방법에 제한되지 않음은 물론이다.
다음으로 상기 단계 (iii)에서 군집화된 변곡점들 중 세그먼트의 경계가 되는 변곡점을 선정하여 세그먼트를 1차 결정한다. 예를 들어 도8은 상기 단계 (iii)에 의해 4개의 세그먼트로 분할한 1차 세그먼트 결정 결과를 나타낸다.
일 실시예에서 위와 같은 1차 결정된 세그먼트 분할 결과를 이용하여 다음 단계(예컨대 도2의 기저원인 분석 단계(S20) 등)로 진행할 수 있고, 대안적 실시예에서, 단계(S420) 이후, 변동성 분석에 의해 세그먼트를 통합 또는 분리하여 세그먼트를 2차 결정하는 단계(S430)를 더 포함할 수 있다. 단계(S430)에서는, 예를 들어 상기 1차 결정된 세그먼트별로 세그먼트별 평균 및 편차를 산출하고, 산출된 평균 및 편차에 기초하여 상기 1차 결정된 세그먼트를 통합 또는 분리하여 세그먼트를 2차로 결정할 수 있다. 도9는 이러한 단계(S430)에 의해 2차 결정된 세그먼트 분할 결과를 나타낸다. 도15에서 점선은 단계(S420)에 의한 1차 세그먼트 분할 결과이고 파란색 실선은 단계(S430)에 의한 2차 세그먼트 분할 결과를 예시적으로 보여준다.
일 실시예에서 위와 같은 2차 결정된 세그먼트 분할 결과를 이용하여 다음 단계(예컨대 도2의 기저원인 분석 단계(S20) 등)로 진행할 수 있고, 대안적으로, 단계(S430) 이후, 촉매 디자인에 기초하여 세그먼트를 3차 결정하는 단계(S440)를 더 포함할 수 있다. 단계(S440)에서는 예컨대 공정에 투입되는 촉매의 수량(예컨대, 60만톤, 180만톤, 240만톤 등)을 고려하여 촉매 디자인과의 유사성 비교를 통해 세그먼트 분할을 최종 확정한다.
예를 들어 도16은 이 단계(S440)에 의해 최종적으로 확정된 세그먼트 분할 결과를 나타낸다. 도16에서 결론적으로 촉매 수명을 한 사이클(예컨대 4년)로 하였을 때 한 사이클을 4개의 세그먼트(SG1 내지 SG4)로 나누었다. 도16에서 빨간색 그래프는 촉매 재생시 공기 온도(Regen Air 온도)이고, 회색 그래프는 수율, 그리고 연두색 그래프는 선택도를 각각 나타낸다.
도16에서 제1 세그먼트(SG1)는 촉매를 투입하여 Regen Air 온도가 점점 증가하여 안정화를 향해 가는 기간이고, 제2 세그먼트(SG2)는 Regen Air 온도가 안정적으로 유지되고 수율 및 선택도가 안정적으로 나오는 안정화 기간임을 알 수 있다. 제3 세그먼트(SG3)에서는 촉매의 노화에 따라 수율이 점점 떨어지는 것을 알 수 있다. 즉 Regen Air 온도를 높여도 촉매 노화로 인해 수율이 유지 또는 증가하지 않고 점차 감소하는 단계이다. 제4 세그먼트(SG4)는 수율이 더 급격하게 감소하는 단계로서, Regen Air 온도를 더 높여도 수율과 선택도가 더 이상 증가하지 않고 급격히 감소하는 기간이다.
이와 같이 본 발명에서는 한 사이클 기간 내에서 촉매 수명에 따른 수율의 증감 트렌드를 고려하여 유사한 트렌드를 나타내는 구간으로 세그먼트로 구분할 수 있고, 구분된 각 세그먼트별로 이후의 단계(예컨대 도2의 기저원인 분석 단계(S20) 및 수율 예측 단계(S30) 등에서 각 세그먼트별로 각각 모델링을 수행하고 한 사이클 전체로 이어서 분석/예측 결과를 도출함으로써 수율 예측 정확성을 높일 수 있다.
이제 도17과 도18을 참조하여 데이터 현실화 단계(도2의 S50)의 예시적 방법을 설명하기로 한다. 데이터 현실화 단계(S50)는 제1 사이클 데이터 및 제2 사이클의 전반부 데이터에 기초하여 제2 사이클의 나머지 기간의 데이터를 생성 및 현실화한다. 본 발명에 따른 수율 예측 단계(S30)는 과거 한 사이클(제1 사이클)의 데이터를 활용하여 앞으로의 한 사이클(제2 사이클)을 예측하는데, 보다 구체적으로, 제1 사이클의 데이터에 기초하여 제2 사이클의 데이터를 생성한 후 제2 사이클 데이터를 수율 예측 모형에 입력함으로써 제2 사이클의 수율을 예측한다. 이 때 제2 사이클의 일부 기간(이하에서 ‘제2 사이클의 전반부’라고도 함) 데이터가 있는 경우, 데이터 현실화 단계(S50)는 제2 사이클의 전반부 데이터를 활용하여 제2 사이클의 나머지 기간의 데이터를 생성한다.
예를 들어 한 사이클 기간이 4년이고 제1 사이클이 2017년 1월부터 2020년 12월까지 이고 제2 사이클이 2021년 1월부터 2024년 12월까지라고 전제한다. 현 시점이 2022년 8월이라고 가정하면, 데이터 저장부(200)는 제1 사이클의 공정 운전 데이터 및 제2 사이클의 전반부(즉, 2021년 1월부터 2022년 7월까지) 데이터를 저장하고 있다.
이 경우, 데이터 현실화 처리부(150)는 제1 사이클의 공정 운전 데이터 및 제2 사이클의 전반부 데이터에 기초하여 제2 사이클의 나머지 기간(즉, 2022년 8월부터 2024년 12월)의 데이터를 생성한다. 이 때 데이터 현실화 처리부(150)는 제1 사이클의 데이터의 추세나 평균 등의 특성 및 제2 사이클 전반부 데이터의 특성을 고려하여 제2 사이클의 나머지 기간의 데이터를 생성할 수 있다.
그런데 제1 사이클과 제2 사이클의 공정 운전 데이터(예컨대 각각의 태그 데이터)는 촉매 투입량, 초기 운전 조건 등의 차이에 의해 두 사이클의 추세나 값이 달라지는 경향이 발생하며, 따라서 제1 사이클의 운전 조건 데이터를 그대로 적용하여 제2 사이클의 데이터를 생성하기 어려운 문제가 있다. 따라서 본 발명에서 데이터 현실화 단계(S50)에서는 제2 사이클의 추세에 적합하게 제1 사이클의 데이터를 보정하여 제2 사이클의 데이터를 생성한다.
일 실시예에서 각 태그 데이터를 현실화하는 방법은 적어도 평균 차이 반영법 및 난수 생성법을 포함할 수 있다.
평균 차이 반영법은 제1 사이클과 제2 사이클 사이에 평균 차이가 존재하는 경우 적용될 수 있다. 일 실시예에서, 제1 사이클과 제2 사이클의 소정 기간 내의 데이터가 변동 트렌드가 유사하나 평균 값이 다른 경우 제1 사이클 데이터의 평균점을 이동시켜 제2 사이클의 데이터를 생성한다. 예를 들어 도17은 평균 차이 반영법이 적용될 수 있는 예시적인 태그 데이터를 나타낸다. 도17에서 X축은 한 사이클의 시간에 대응하는 축이고 Y축은 해당 태그의 데이터 값을 나타낸다. 그리고 검정색 그래프는 해당 태그의 제1 사이클의 데이터(CY1)이고 빨간색 그래프는 제2 사이클의 전반부 데이터(CY21)이다. 제2 사이클의 전반부 데이터(CY2)가 끝나는 시점이 현재 시점임을 이해할 것이다.
제1 사이클 데이터(CY1)와 제2 사이클의 전반부 데이터(CY21)를 비교하면 두 데이터의 트렌드가 유사하되 제2 사이클 데이터의 평균값이 더 큰 것으로 나타난다. 따라서 이 경우 평균 차이 반영법을 적용하여, 제1 사이클의 대응 기간의 데이터를 평균 차이만큼 올려서 제2 사이클의 나머지 기간의 데이터를 생성할 수 있다. 이 때 일 실시예에서 제1 사이클의 해당 대응하는 기간의 데이터를 평균을 올린 채 그대로 사용할 수도 있고, 대안적으로 적어도 일부 구간에 대해서는 난수 생성 등의 방법으로 데이터를 수정하여 제2 데이터를 생성할 수도 있다.
난수 생성법은 소정 기간의 데이터가 불완전하거나 이상치가 존재하는 경우 적용될 수 있다. 일 실시예에서 제1 사이클에 불완전한 데이터가 있는 경우 난수를 발생시켜 제2 사이클의 데이터를 생성한다. 예를 들어 도18은 난수 생성법이 적용될 수 있는 예시적인 태그 데이터를 나타낸다.
도18에서 X축은 한 사이클의 시간에 대응하는 축이고 Y축은 해당 태그의 데이터 값을 나타낸다. 검정색 그래프는 해당 태그의 제1 사이클의 데이터(CY1)이고 주황색 그래프는 제2 사이클의 전반부 데이터(CY21)이다. 제2 사이클의 전반부 데이터(CY2)가 끝나는 시점이 현재 시점을 의미한다.
도18을 참조하면, 제1 사이클 데이터(CY1)가 어느 특정 시점 이후부터 생성되었다. 즉 해당 태그 데이터는 상기 특정 시점 이전에 센서가 설치되지 않았거나 센서가 작동하지 않았음을 의미할 수 있다. 그런데 제2 사이클에 대해서는 전반부 데이터(CY21)가 존재하며, 나머지 구간의 데이터(CY22)는 제1 사이클의 데이터에 기초해서 난수를 생성하여 후반부 데이터(CY22)를 생성한다. 이 경우, 예를 들어 현 시점에서 과거 소정 구간(예컨대 현 시점에서 과거 30일(D30))의 평균과 분산을 산출하고 이 평균과 분산을 유지하면서 개별 시각의 데이터를 난수 생성하는 방법으로 후반부 데이터(CY22)를 생성할 수 있다.
이제 도19 내지 도21을 참조하여 노화요소 분석 단계(도2의 S60)의 예시적 방법을 설명하기로 한다. 노화요소 분석 단계(S60)는 공정 수율을 보다 정확히 예측하기 위해 공정에 사용되는 촉매의 노화를 반영하기 위한 수행될 수 있다. 프로필렌을 생산하는 PDH 공정에서 프로필렌 누적 생산량이 증가함에 따라 촉매 수명이 줄어들어 공정 후반에는 촉매의 수율이 급격하게 하락하게 되는데, 공정 조건 변화에 따른 수율 변화 뿐만 아니라 촉매 수명에 따른 수율 감소를 수율 예측에 정확히 반영하기 위해 촉매의 노화요소를 적용하여 수율 예측을 수행하는 것이 바람직할 수 있다.
일 실시예에서 촉매의 노화요소(Aging Factor)는 아래 수식과 같이 일일 프로필렌 생산량을 촉매에 가해진 열량으로 나눈 값으로 인덱스화 하여 수율 감소치를 반영할 수 있다.
AF(Aging Factor) = (일일 프로필렌 생산량) / (촉매에 가해진 열량)
위 식에서 “촉매에 가해진 열량”은 예를 들어 Regen Air 온도를 의미하는 태그 데이터 값과 유량을 곱하여 산출할 수 있다.
예를 들어 도19를 참조하면, 노란색 그래프는 한 사이클에서 시간에 따른 제1 사이클의 수율(Y1)이고 빨간 그래프는 제1 사이클의 노화요소(AF1)를 나타내며, 노화요소(AF1)가 수율(Y1)과 유사한 트렌드로 증감함을 알 수 있다. 그리고 도16을 참조하여 설명하였듯이 사이클의 마지막 구간인 제4 세그먼트에서는 아무리 온도를 올려도 수율이 감소하는데 이 때 제3 세그먼트까지는 수율이 비교적 선형적으로 감소하지만 제4 세그먼트에서는 수율 감소가 비선형적으로 이루어짐을 알 수 있다.
한편 도19에서 초록색 그래프는 제2 사이클의 현재 시점까지의 수율(Y2)이고 파란색 그래프는 제2 사이클의 현지 시점까지의 노화요소(AF2)를 나타내며, 각각 제1 사이클의 수율(Y2)과 노화요소(AF1)와 유사한 트렌드로 진행되고 있으며 따라서 제4 세그먼트 기간에 대해서 수율(Y2)이 역시 비선형적으로 감소하게 됨을 추정할 수 있고 이를 보다 정확히 예측하기 위해 제2 사이클에 대해 노화요소(AF)를 반영하여 수율을 산출한다.
예를 들어 도20에 도시한 것처럼 제1 사이클의 노화요소(AF1)에 대해 우선 각 세그먼트별로 평균값(AF1m)을 산출하고, 산출된 각 세그먼트의 평균 값을 제2 사이클의 각 세그먼트에 가중치로서 적용할 수 있다. 일 실시예에서 제1 및 제2 세그먼트에 대해서는 노화요소(AF)를 적용하지 않아도 수율 예측 모형이 비교적 정확히 수율을 예측하기 때문에 제1 및 제2 세그먼트에는 노화요소를 적용하지 않고 제3 및 제4 세그먼트 구간에 노화요소(AF)를 적용할 수 있다. 또 다른 실시예에서, 제3 세그먼트는 수율이 비교적 선형적으로 감소하므로 수율 예측 모형이 어느 정도 정확히 에측할 수 있으므로 제4 세그먼트에 대해서만 노화요소(AF)를 적용할 수 있다.
도21은 제1 및 제2 세그먼트 구간에는 노화요소(AF)를 적용하지 않고 제3 및 제4 세그먼트에만 적용한 경우 예측 수율의 경향을 예시적으로 나타내었다. 만일 제3 및 제4 세그먼트에도 노화요소(AF)를 적용하지 않았다면 도21에서 파란색 그래프와 같이 수율이 예측되며, 제1 및 제2 세그먼트에서는 예측 수율(파란색 실선)과 실제 수율(검은색 점선)이 큰 차이를 보이지 않지만 제3 및 제4 세그먼트 구간에서는 큰 오차를 나타낸다. 그러나 본 발명에서와 같이 제3 및 제4 세그먼트에 노화요소(AF)를 적용하면 빨간색 점선과 같이 수율 예측이 되며 비교적 실제 수율에 근접한 예측이 가능하게 된다.
한편 도2에 도시한 것처럼 노화요소 분석 단계(S60)의 수행 결과는 수율 예측 시뮬레이션(80)을 수행할 때 적용될 수 있다. 그리고, 도16은 제2 사이클에 대한 수율 예측 단계(S30)의 수행 결과에 따른 예측 수율(Y)을 나타낸 것으로, 상술한 바와 같이 한 사이클을 4개의 세그먼트로 나누고 각 세그먼트별로 데이터 현실화를 하고 제3 및 제4 세그먼트에 대한 노화요소를 반영하여 수율 예측을 수행한 결과를 나타낸다.
이상에서 설명한 본 발명에 따른 화학 공정에서 핵심인자를 반영한 촉매 활성 예측을 위한 시스템 및 방법은 공정 운전 조건에 따른 핵심인자를 선별하여 예측 모델에 적용하여 촉매 활성 변화의 예측 정확도를 높일 수 있도록 한 것이다.
이를 통하여 정확한 촉매 활성 예측을 통한 제품 판매 계획 및 촉매 교제 시기 판단 가능하도록 하여 제품 생산 및 촉매 교체에 소요되는 시간, 비용을 효율적으로 관리할 수 있도록 하고, 공정 운전 조건에 따른 촉매 활성 변화를 파악하여, 운전 조건 최적화를 통해 촉매 활성을 향상시켜 제품 생산량을 증가시킬 수 있도록 한다.
이상과 같이 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 명세서의 기재로부터 다양한 수정 및 변형이 가능함을 이해할 수 있다. 그러므로 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니되며 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
(부호의 설명)
100: 기저원인 분석 및 수율 예측 시스템 110: 데이터 전처리부
120: 기저원인 분석부 130: 수율 예측부
140: 세그먼트 분석부 150: 데이터 현실화 처리부
160: 노화요소 분석부 200: 데이터 저장부
본 발명은 화학공정의 화학 공정의 기저 원인을 분석하는 것으로, 보다 구체적으로는, 수율 변화에 기여하는 핵심인자를 선별하고 수율 예측 모델에 적용하는 수율 예측 시스템 및 방법에 관한 것이다.

Claims (8)

  1. 화학 공정의 수율 예측 시스템을 이용한 기저원인 분석 및 수율 예측 방법으로서,
    수율 예측용 데이터를 전처리하는 단계(S10); 및
    상기 전처리된 수율 예측용 데이터를 이용하여 기저원인을 분석하는 단계(S20);를 포함하고,
    상기 기저원인 분석 단계(S20)는, 공정 핵심인자를 추출하는 단계(S21)와 추출된 핵심인자의 공정 영향도를 분석하는 단계(S22)를 포함하는 것을 특징으로 하는, 기저원인 분석 및 수율 예측 방법.
  2. 제 1 항에 있어서,
    상기 핵심인자의 공정 영향도를 분석하는 단계(S22)가, 사용자 입력에 의해 선택된 소정 태그의 영향도를 사용자 인터페이스(UI)를 통해 시각화하는 단계를 더 포함하는, 기저원인 분석 및 수율 예측 방법.
  3. 제 1 항에 있어서,
    상기 전처리된 수율 예측용 데이터 및 상기 추출된 핵심인자에 기초하여 수율 예측모형을 학습하는 단계(S30)를 더 포함하는, 기저원인 분석 및 수율 예측 방법.
  4. 제 1 항에 있어서, 상기 데이터 전처리 단계(S10)가,
    수율 예측용 데이터를 분 단위로 전처리하는 단계(S110);
    분석대상 태그를 선정하는 단계(S120);
    상기 분 단위로 전처리된 데이터 중 상기 선정된 태그의 데이터에 대해, 시간 및 일 단위 데이터를 추출하는 단계(S130); 및
    상기 일 단위 데이터에 대한 이상치 처리 및 결측치 보간을 수행하는 단계(S140);를 포함하는, 기저원인 분석 및 수율 예측 방법.
  5. 제 4 항에 있어서,
    상기 수율 예측용 데이터가, 올레핀 생산 공장의 공정 운전 데이터; LIMS 데이터를 포함하는 실험실 데이터; 공장이 정상적으로 운전되지 않은 시간에 관한 데이터를 포함한 공장 이벤트 데이터; 및 올레핀 생산에 관한 과거 수율, 전환율, 및 선택도 데이터;를 포함하는, 기저원인 분석 및 수율 예측 방법.
  6. 제 3 항에 있어서,
    상기 수율 예측모형 학습 단계에서 학습된 수율 예측모형을 이용하여 수율 예측을 수행하고 수율 예측결과를 출력하는 수율 예측 수행 단계(S40); 및
    수율 예측결과를 이용하여 수율 예측모형의 성능을 평가하고 최적 예측모형을 선별하는 성능 평가 및 최적 모델 선별 단계(S50);를 더 포함하는, 기저원인 분석 및 수율 예측 방법.
  7. 제 4 항에 있어서,
    상기 기저원인 분석 단계(S20)에서, 상기 전처리된 수율 예측 데이터를 설명가능 인공지능(XAI) 알고리즘에 적용하여 상기 공정 핵심인자를 추출하는 것인, 기저원인 분석 및 수율 예측 방법.
  8. 제1항 내지 제7항 중 어느 한 항에 따른 기저원인 분석 및 수율 예측 방법을 실행시키기 위한 컴퓨터 프로그램이 기록된 컴퓨터 판독가능 기록매체.
PCT/KR2023/009714 2022-08-10 2023-07-09 화학공정의 기저원인 분석 및 이를 이용한 수율 예측 모델링 방법 WO2024034873A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020220100252A KR102647438B1 (ko) 2022-08-10 2022-08-10 화학공정의 기저원인 분석 및 이를 이용한 수율 예측 모델링 방법
KR10-2022-0100252 2022-08-10

Publications (1)

Publication Number Publication Date
WO2024034873A1 true WO2024034873A1 (ko) 2024-02-15

Family

ID=89851943

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2023/009714 WO2024034873A1 (ko) 2022-08-10 2023-07-09 화학공정의 기저원인 분석 및 이를 이용한 수율 예측 모델링 방법

Country Status (2)

Country Link
KR (1) KR102647438B1 (ko)
WO (1) WO2024034873A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118011990A (zh) * 2024-04-10 2024-05-10 中国标准化研究院 基于人工智能的工业数据品质监控与提升系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180061769A (ko) * 2016-11-30 2018-06-08 에스케이 주식회사 머신 러닝 기반 반도체 제조 수율 예측 시스템 및 방법
KR20190060547A (ko) * 2017-11-24 2019-06-03 한국생산기술연구원 데이터 불균형 환경에서 머신러닝 모델을 통해 공정 불량 원인을 도출하고 시각화하는 방법
JP2020166749A (ja) * 2019-03-29 2020-10-08 株式会社カネカ 製造システム、情報処理方法、および製造方法
KR102218287B1 (ko) * 2020-01-21 2021-02-22 (주) 아톤모빌리티 머신 러닝을 통한 중고차 시세 예측 방법 및 시스템
JP2022520643A (ja) * 2019-02-15 2022-03-31 ビーエーエスエフ ソシエタス・ヨーロピア 化学生産プラントにおける運転条件を決定するシステム、方法及びコンピュータプログラム製品

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101508641B1 (ko) 2013-08-08 2015-04-08 국립대학법인 울산과학기술대학교 산학협력단 생산 공정에서 데이터마이닝을 이용하여 제품 상태를 예측하는 장치 및 방법
KR20180131246A (ko) 2017-05-31 2018-12-10 주식회사 지오네트 빅데이터 분석을 통한 공정 관리 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180061769A (ko) * 2016-11-30 2018-06-08 에스케이 주식회사 머신 러닝 기반 반도체 제조 수율 예측 시스템 및 방법
KR20190060547A (ko) * 2017-11-24 2019-06-03 한국생산기술연구원 데이터 불균형 환경에서 머신러닝 모델을 통해 공정 불량 원인을 도출하고 시각화하는 방법
JP2022520643A (ja) * 2019-02-15 2022-03-31 ビーエーエスエフ ソシエタス・ヨーロピア 化学生産プラントにおける運転条件を決定するシステム、方法及びコンピュータプログラム製品
JP2020166749A (ja) * 2019-03-29 2020-10-08 株式会社カネカ 製造システム、情報処理方法、および製造方法
KR102218287B1 (ko) * 2020-01-21 2021-02-22 (주) 아톤모빌리티 머신 러닝을 통한 중고차 시세 예측 방법 및 시스템

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118011990A (zh) * 2024-04-10 2024-05-10 中国标准化研究院 基于人工智能的工业数据品质监控与提升系统

Also Published As

Publication number Publication date
KR102647438B1 (ko) 2024-03-12
KR20240021641A (ko) 2024-02-19

Similar Documents

Publication Publication Date Title
CN111552609B (zh) 一种异常状态检测方法、系统、存储介质、程序、服务器
CN110321371B (zh) 日志数据异常检测方法、装置、终端及介质
JP6875179B2 (ja) システム分析装置、及びシステム分析方法
JP5444673B2 (ja) ログ管理方法、ログ管理装置、ログ管理装置を備えた情報処理装置、及びプログラム
US20120290497A1 (en) Failure diagnosis system, failure diagnosis device and failure diagnosis program
CN111459700A (zh) 设备故障的诊断方法、诊断装置、诊断设备及存储介质
CN112132400A (zh) 一种工序时间规划方法、存储介质及系统
WO2024034873A1 (ko) 화학공정의 기저원인 분석 및 이를 이용한 수율 예측 모델링 방법
US20240142922A1 (en) Analysis method, analysis program and information processing device
CN110757510A (zh) 一种机器人剩余寿命预测方法及系统
US6453265B1 (en) Accurately predicting system behavior of a managed system using genetic programming
CN113486571A (zh) 一种机加工设备剩余使用寿命预测方法
CN118016268A (zh) 一种基于人工智能的智慧医疗系统
CN113672506B (zh) 基于机器学习的动态比例测试用例排序选择方法及系统
WO2022231283A1 (ko) 상업 화학 공정에서 핵심인자를 반영한 공정 변화 예측을 위한 시스템 및 방법
CN115118580A (zh) 告警分析方法以及装置
WO2024034967A1 (ko) 화학공정의 수율 예측 시뮬레이션 시스템 및 방법
CN114610613A (zh) 一种面向在线实时的微服务调用链异常检测方法
CN118311914A (zh) 一种智能化车间的生产线数据采集控制方法及系统
CN112149880A (zh) 用户规模预测方法、装置、电子设备及存储介质
CN116720983A (zh) 一种基于大数据分析的供电设备异常检测方法及系统
CN117952456A (zh) 基于涉企合同的综合智能评估方法及系统
Wang et al. Identifying execution anomalies for data intensive workflows using lightweight ML techniques
WO2022231282A1 (ko) 상업 화학 공정에서의 공정 핵심 인자 선별을 위한 시스템 및 방법
EP4030251B1 (en) Method for managing plant, plant design device, and plant management device

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23852758

Country of ref document: EP

Kind code of ref document: A1