WO2012177108A2 - 순수한 화합물의 물리화학적 및 열역학적 성질을 예측,프로세스 및 온라인 서비스하는 모델,방법 및 시스템 - Google Patents

순수한 화합물의 물리화학적 및 열역학적 성질을 예측,프로세스 및 온라인 서비스하는 모델,방법 및 시스템 Download PDF

Info

Publication number
WO2012177108A2
WO2012177108A2 PCT/KR2012/007999 KR2012007999W WO2012177108A2 WO 2012177108 A2 WO2012177108 A2 WO 2012177108A2 KR 2012007999 W KR2012007999 W KR 2012007999W WO 2012177108 A2 WO2012177108 A2 WO 2012177108A2
Authority
WO
WIPO (PCT)
Prior art keywords
model
qspr
boiling point
neural network
normal boiling
Prior art date
Application number
PCT/KR2012/007999
Other languages
English (en)
French (fr)
Other versions
WO2012177108A3 (ko
Inventor
성애리
권오형
권윤경
김양수
전정재
정원천
조준혁
박태윤
Original Assignee
주식회사 켐에쎈
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020110100800A external-priority patent/KR101267418B1/ko
Priority claimed from KR1020110100799A external-priority patent/KR101267385B1/ko
Priority claimed from KR1020110100796A external-priority patent/KR101325097B1/ko
Priority claimed from KR1020110100795A external-priority patent/KR101267376B1/ko
Priority claimed from KR1020110100797A external-priority patent/KR101267356B1/ko
Priority claimed from KR1020110100798A external-priority patent/KR101267381B1/ko
Priority claimed from KR1020110101062A external-priority patent/KR101295865B1/ko
Priority claimed from KR1020110101064A external-priority patent/KR101267386B1/ko
Priority claimed from KR1020110101067A external-priority patent/KR101267373B1/ko
Priority claimed from KR1020110101066A external-priority patent/KR101267391B1/ko
Priority claimed from KR1020110101468A external-priority patent/KR101302460B1/ko
Priority claimed from KR1020110101472A external-priority patent/KR101295861B1/ko
Priority claimed from KR1020110101474A external-priority patent/KR101300629B1/ko
Priority claimed from KR1020110101068A external-priority patent/KR101267408B1/ko
Priority claimed from KR1020110101061A external-priority patent/KR101289322B1/ko
Priority claimed from KR1020110101063A external-priority patent/KR101267372B1/ko
Priority claimed from KR1020110101471A external-priority patent/KR101300628B1/ko
Priority claimed from KR1020110101469A external-priority patent/KR101295859B1/ko
Priority claimed from KR1020110101475A external-priority patent/KR101258859B1/ko
Priority claimed from KR1020110101065A external-priority patent/KR101267369B1/ko
Priority claimed from KR1020110101473A external-priority patent/KR101313037B1/ko
Priority claimed from KR1020110102044A external-priority patent/KR101313030B1/ko
Priority claimed from KR1020110102074A external-priority patent/KR101325103B1/ko
Priority claimed from KR1020110102050A external-priority patent/KR101262045B1/ko
Priority claimed from KR1020110102043A external-priority patent/KR101313021B1/ko
Priority claimed from KR1020110102077A external-priority patent/KR101325112B1/ko
Priority claimed from KR1020110102079A external-priority patent/KR101297211B1/ko
Priority claimed from KR1020110102047A external-priority patent/KR101313035B1/ko
Priority claimed from KR1020110102048A external-priority patent/KR101313036B1/ko
Priority claimed from KR1020110102045A external-priority patent/KR101313031B1/ko
Priority claimed from KR1020110102081A external-priority patent/KR101325124B1/ko
Priority claimed from KR1020110102046A external-priority patent/KR101258863B1/ko
Priority claimed from KR1020110102049A external-priority patent/KR101300633B1/ko
Priority claimed from KR1020110102073A external-priority patent/KR101325101B1/ko
Priority claimed from KR1020110102042A external-priority patent/KR101313026B1/ko
Priority claimed from KR1020110102083A external-priority patent/KR101325120B1/ko
Priority claimed from KR1020110102075A external-priority patent/KR101325107B1/ko
Priority claimed from KR1020110102078A external-priority patent/KR101289323B1/ko
Priority claimed from KR1020110102082A external-priority patent/KR101325125B1/ko
Priority claimed from KR1020110102080A external-priority patent/KR101325117B1/ko
Priority claimed from KR1020110110691A external-priority patent/KR101375672B1/ko
Application filed by 주식회사 켐에쎈 filed Critical 주식회사 켐에쎈
Publication of WO2012177108A2 publication Critical patent/WO2012177108A2/ko
Publication of WO2012177108A3 publication Critical patent/WO2012177108A3/ko

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures

Definitions

  • Models, methods and systems for predicting, processing and online service of physicochemical and thermodynamic properties of pure compounds are known.
  • the present invention belongs to the fusion of physical chemistry, computational chemistry, and information chemistry called physical property prediction and informatization of organic compounds, a method of predicting various properties of a compound with high accuracy, a mathematical model thereof, an organic compound information processing system, and It is about constructing property information and its online service.
  • Knowing the exact value of the various properties of an organic compound specifically involves reviewing the feasibility of the use of the substance or designing the synthesis and refining processes and setting up the methods and conditions for storage, transport, use and disposal. It is an important issue, both industrially and academically, because it is crucial for all decision making.
  • the general method of obtaining the desired physical properties of the organic compound of interest is the traditional method of direct measurement, but there are various methods such as high purity refining difficulty, compound instability and hazard, and difficulty in building equipment and manpower for accurate measurement. It is true that it is quite costly and time consuming in some respects and in some cases may not be possible. Therefore, as an alternative, many researchers have long tried to predict the exact value of various physical properties of organic compounds. Like this, property prediction has a long history New prediction methods are constantly appearing, and many prediction models coexist with different properties and accuracy.
  • One of the important technical problems to be achieved by the present invention is within five kinds of more reliable, hydrogen (H), carbon (C), nitrogen (N), oxygen (0), sulfur (S) based on more experimental data It provides a mathematical model for the various physical properties of a compound consisting of molecules consisting of elements with the number of atoms except hydrogen and 25 or less.
  • the neural network has the advantage of reflecting the nonlinear functional relationship between independent and dependent variables, which cannot be reflected by the multiple linear regression QSPR model, thus enabling the implementation of a model with higher predictive performance.
  • the neural network has a disadvantage in that its stability is lower than that of the multiple linear regression QSPR model because of its high degree of freedom in rule setting.
  • the predicted value of the neural network QSPR model and the predicted value of the multiple linear regression QSPR model are By adopting the predictive value of the multiple linear regression QSPR model when the difference is more than a certain standard, it establishes an excellent prediction model utilizing only the advantages of the multiple linear regression QSPR model and the neural network QSPR model in terms of prediction performance and stability. It was.
  • the reason for limiting the range of organic compounds to which the predictive model can be applied is to limit the number of elements within 5 kinds. In some cases, this is due to the fact that the current level of technology causes difficulties in terms of the possibility of inaccurate accuracy and excessive quantum mechanical calculation time. However, even within the above limitations, since there are a great many compounds and industrially significant compounds are included, it is considered that the present invention can greatly benefit human society.
  • the 41 embodiments are largely divided into four embodiments (Examples 1 to 4), and each embodiment can share specific configurations with each other.
  • Examples 1 to 4 specific configurations to be described in the embodiment 1-1 can be applied to the embodiments 1-2 to 1-29 or embodiments 2-1 to 2-11, and specific configurations to be described in the embodiment 2-1 are implemented.
  • Examples 2-2 to 2-11 can be applied.
  • Example 1-1 Multiple Linear Regression Predicting Normal Boiling Point of Pure Organic Compound Artificial Neural Network QSPR Model
  • a first step of inputting hydrocarbon-based experimental data among organic compounds collected due to the presence of experimental values (hereinafter referred to as "sample organic compound").
  • Molecules for physical properties (normal boiling point) of the hydrocarbon-based organic compounds of sample organic compounds Preparing a presenter value; Extracting optimal molecular descriptors;
  • the optimal molecular descriptor is an independent molecular descriptor whose values are not the same for all the sample compounds. How to get a normal boiling point.
  • the training set and the test set are divided into ratios of 5: 5 to 8: 2 to obtain the normal boiling point of the hydrocarbon-based organic compound through the multiple linear regression-artificial neural network common QSPR model. Way.
  • the multiple linear regression QSPR model searches for a multiple linear regression QSPR model by applying a genetic algorithm to the training set. How to find the normal boiling point of hydrocarbon organic compounds through QSPR model.
  • the genetic algorithm consists of a plurality of multiple linear regression QSPR models created by randomly extracting a certain number of molecular representations from a pool of molecular representations. creating a population; Encoding each individual by combining the numbers of the extracted molecular presenters; From the created population, we select two parent chromosomes by using the Roulette Wheel method and then single point generating offspring by a crossover method; Mutating a portion of the chromosome of the generated offspring with a certain probability and then replacing a portion of the existing population with them to create a new population. How to find the normal boiling point of organic compounds.
  • the fifth step of paragraph 1 is a method for obtaining normal boiling point of hydrocarbon-based organic compounds through multiple linear regression-artificial neural network QSPR model, which includes determining the predictive performance by the coefficient of determination or the mean absolute error of the regression model. .
  • the multiple linear regression QSPR model is determined, and the predicted performance of the test set differs from the predicted performance of the training set. After that, multiple linear regression-artificial neural network common QSPR model to reclassify the training set and the test set to find the normal boiling point of the hydrocarbon-based organic compound.
  • the search range by the artificial neural network has one hidden layer between the input layer and the output layer and is connected only in a feed forward.
  • activation function of the hidden layer is Method for obtaining normal boiling point of hydrocarbon-based organic compounds through multiple linear regression-neural network QSPR model, characterized by using sigmoid function.
  • the normal boiling point prediction value obtained by the optimal multilinear regression QSPR model satisfying the performance test in the eighth step and the normal boiling point obtained by the optimal artificial neural network model found in the step 9 A tenth step of comparing the absolute value of the predicted value difference with a preset overfit prevention reference value; If the difference is greater than the overfit reference value, the normal boiling point predicted by the multiple linear regression QSPR model obtained in step 8 is adopted as the normal boiling point value.
  • a method of obtaining the normal boiling point of a non-hydrocarbon organic compound through a multiple linear regression-artificial neural network common QSPR model including an eleventh step of adopting a normal boiling point predicted value by a model as a normal boiling point value.
  • the optimal molecular descriptors are non-hydrocarbon-based organic compounds through a multiple linear regression-artificial neural network common QSPR model, characterized in that the independent molecular descriptors are not the same for all the sample compounds. To get the normal boiling point.
  • the training set and the test set are divided by the ratio of 5: 5 to 8: 2, and the normal boiling of the non-hydrocarbon-based organic compound through the multiple linear regression-artificial neural network QSPR model How to obtain.
  • step 5 of 12 the multilinear regression QSPR model searches for a multilinear regression QSPR model by applying a genetic algorithm to the training set.
  • the genetic algorithm of clause 15 is a plurality of randomly selected numbers of molecular presenters from the pool of molecular presenters. Creating a population of multiple linear regression QSPR models; Encoding each individual by combining the numbers of the extracted molecular presenters; Selecting two parent chromosomes from the created population by the Roulette Wheel method and generating offspring by a single point crossover method; Multi-linear regression-artificial neural network common QSPR model characterized in that it comprises the step of mutating a portion of the chromosome of the generated progeny (mutation) and then replacing a part of the existing population with them to create a new population. How to find the normal boiling point of hydrocarbon-based organic compounds.
  • the fifth step of Paragraph 12 includes multiple linear regression-artificial neural network shaking, which includes determining the predictive performance by the coefficient of determination or the mean absolute error of the regression model.
  • the multiple linear regression QSPR model is determined, and the predictive performance of the test set differs from the predicted performance of the training set. .
  • multiple linear regression-artificial neural network common QSPR models to reclassify the training set and the test set to obtain the normal boiling point of the normal state of the non-hydrocarbon organic compounds.
  • the search range by the artificial neural network has one concealment between the input layer and the output layer and is connected only in a feed forward. Normal boiling point of non-hydrocarbon-based organic compounds by neural network QSPR model.
  • overfit prevention reference values referred to in the tenth step of paragraph 12 are described in Table 3 of Example 1-1 in the 'Form for Implementation of the Invention', and characterized by the multiple linear regression-artificial characteristics. Normal boiling point of hydrocarbon-based organic compounds using neural network QSPR model.
  • a method for determining the normal boiling point of hydrocarbon-based organic compounds by multiple linear regression and artificial neural network QSPR model A method of determining the normal boiling point of a hydrocarbon-based organic compound through a multiple linear regression-artificial neural network common QSPR model, comprising the molecular descriptors described in Table 2 of Example 1-1 in the form.
  • a method for obtaining the normal boiling point of the non-hydrocarbon organic compound according to any one of 12 to 22 and 24 to 26, is recorded as a program for executing on a computer and Storage media.
  • Example 1-2 Multiple Linear Regression-Artificial Neural Network QSPR Model Predicting Absolute Entropy of Abnormal Gases in Pure Organic Compounds
  • the technical solution of the present embodiment is to change the physical properties (normal boiling point) to the 'eccentric factor' in the content of the embodiment 1-1, and duplicated description is omitted.
  • the technical solution of the present embodiment is to change the physical properties (normal boiling point) to the "critical pressure" in the content of the embodiment 1-1, duplicate description is omitted.
  • the technical solution of the present embodiment is to change the physical properties (normal boiling point) to the "critical temperature” in the content of the embodiment 1-1, and overlapping description is omitted.
  • Example 1-1 Changing the physical properties (normal boiling point) to the "critical volume" in the content of Example 1-1 is a technical solution of the present embodiment, and duplicate descriptions are omitted.
  • Example 1-1 the physical properties (normal boiling point) is changed to the 'generation energy of the body of the body' is a technical solution of the present embodiment, the description is not repeated.
  • the non-overlapping part is the same as Haga.
  • a method of obtaining the generated energy of an ideal gas of a hydrocarbon organic compound through a multiple linear regression QSPR model including a ninth step of obtaining a generated energy value of an ideal gas through a QSPR model, and the first method of claim 1-1.
  • a method for obtaining ideal gas and generated energy of non-hydrocarbon organic compounds using multiple linear regression-artificial neural network common QSPR model including steps 11 through 11.
  • Example 1-8 Multiple Linear Regression-Artificial Neural Network QSPR Model Predicting Heat of Fusion of Pure Organic Compound
  • the technical solution of the present embodiment is to change the physical properties (normal boiling point) to 'heat of fusion' in the content of the embodiment ii, and duplicate descriptions are omitted.
  • Example 1-1 Changing the physical properties (normal boiling point) to 'saturated liquid density at 298.15K' in the content of Example 1-1 is a technical solution of the present embodiment, and overlapping description is omitted.
  • Example 1-1 Changing the physical properties (normal boiling point) to the standard state absolute ' entropy' in the content of Example 1-1 is a technical solution of the present embodiment, overlapping Description is omitted.
  • the non-overlapping part is as follows.
  • the second step of the first step of Example 1-1 is' molecular expression value of the absolute state entropy of the table state absolute entropy of the liquid hydrocarbon-based organic compound from the experimental data input from the first step of the first step of the first embodiment It may include a second step to prepare.
  • the technical solution of the present embodiment is to change the physical properties (normal boiling point) to the 'ionization energy' in the content of the embodiment 1-1, and the repeated description is omitted.
  • the non-overlapping part is as follows.
  • the technical solution of the present embodiment is to change the physical properties (normal boiling point) to 'electron affinity' in the content of the embodiment 1-1, and duplicate descriptions are omitted.
  • the non-overlapping part is as follows.
  • the electron affinity value is obtained from the multilinear regression QSPR model searched for the experimental data set of the organic compounds, and in the case of the compound containing carbon,
  • a method for obtaining electron affinity of an organic compound through a multiple linear regression QSPR model comprising a ninth step of obtaining an electron affinity value through the multiple linear regression QSPR model that satisfies the performance test.
  • Example 1-1 the physical properties (normal boiling point) in paragraphs 1 to 11, and 23 and 25 are changed to 'paracorre' of all the corresponding organic compounds without distinguishing between hydrocarbons and non-hydrocarbons. This is a technical solution of the present embodiment, and overlapping description is omitted.
  • Example 1-1 Changing the physical properties (normal boiling point) to the 'flash point' in the content of Example 1-1 is a technical solution of the present embodiment, and overlapping description is omitted.
  • the technical solution of the present embodiment is to change the physical properties (normal boiling point) to the 'lowering limit temperature' in the content of the embodiment 1-1, and overlapping description is omitted.
  • Example 1-21 Predicting Lower Flammability Volume Percent of Pure Organic Compound Multiple Linear Regression-Artificial Neural Network QSPR Model
  • the technical solution of this embodiment is to change the physical properties (normal boiling point) in the content of the above Example 1-1 to 'lower volume limit of ignition', and overlapping description is omitted.
  • the technical solution of the present embodiment is to change the physical properties (normal boiling point) to the 'ignition limit temperature' in the content of the embodiment 1-1, and overlapping description is omitted.
  • the technical solution of the present embodiment is to change the physical properties (normal boiling point) to the 'upper burn volume percentage' in the content of Example 1- 1, and duplicate descriptions are omitted.
  • the technical solution of the present embodiment is to change the physical properties (normal boiling point) in the content of the above Example 1-1 to 'heat of vaporization at 298.15K', overlapping description Omit.
  • Example 1-26 Multiple Linear Regression-Artificial Neural Network QSPR Model Predicting Heat of Vaporization at Normal Boiling Point of Pure Organic Compound
  • the physical properties (normal boiling point) of 'vaporization heat at normal boiling point' The above is a technical solution of the present embodiment, and overlapping description is omitted.
  • Example 1-27 Multiple Linear Regression-Artificial Neural Network QSPR Model Predicting Octane-Water Partition Coefficient of Pure Organic Compounds
  • the physical properties (normal boiling point) in the content of Example 1-1 were 'octanol-water distribution. It is the technical solution of the present embodiment that is changed to 'coefficient', and overlapping description is omitted.
  • Example 1-28 Multiple Linear Regression-Artificial Neural Network QSPR Model Predicting Water Solubility of Pure Organic Compound In this Example 1-1, the physical properties (normal boiling point) were changed to water solubility. The technical solution of the embodiment, and overlapping description is omitted.
  • Example 2-1 QSPR-SVRC Model Predicting Heat of Vaporization of Pure Organic Compound
  • Step 4-0 Extracting optimal molecular presenters (step 4-0), separating the experimental data into a training set and a test set (step 4-1), and searching for an optimal multiple linear regression QSPR model for the training set;
  • Step 4-3 Examining the validity of the selected model: If there is no validity in step 4-3, repeat steps 4-2 and 4-3, and if valid, predict the model with respect to the test set Step 4-4 of testing the performance; if the performance does not meet the criteria in the 4-4 test for the test set, repeating steps 4-2 to 4-4, and if the performance satisfies the criteria, 4-5 steps after separating the sample into three sets; Step 4-6 of dividing the entire sample into three sets and searching for an optimal artificial neural network QSPR model; The vaporization heat prediction value at a temperature of 0.55 times the normal boiling point obtained by the optimal linear regression model satisfying the performance test in steps 4-5, and the optimal neural network QSPR model found in steps 4-6.
  • the heat of vaporization at the temperature of 0.55 times the normal boiling point is adopted as the estimated heat of vaporization at the temperature of 5 to 5 times the normal boiling point by the multiple linear regression QSPR model obtained in the above steps 4-5.
  • a lower than the reference value for preventing overfitting employing the predicted evaporation heat at the temperature of 0.55 times the normal boiling point by the artificial neural network QSPR model detected in the above steps 4-6 as the evaporation heat value at the temperature 0.55 times the normal boiling point.
  • a method for obtaining a QSPR model for step 4-0 including step -8 includes: performance in steps 4-1 through 4-4 and in step 4-4 testing the test set. If the criteria are not satisfied, steps 4-2 to 4-4 are repeated, and if the performance satisfies the criteria, steps 4-5-1 to determine an optimal multiregressive regression QSPR model; Hydrocarbon-based organic compounds according to the QSPR-SVRC model including the steps 4-6-1 and all the steps to obtain a c value through the multiple linear regression QSPR model that satisfies the performance test in the step 4-5-1 A method of obtaining the heat of vaporization of a compound. 3.
  • the optimal molecular expression is A method for obtaining the heat of vaporization of a hydrocarbon-based organic compound by the QSPR-SVRC model, characterized in that the sample compound is an independent molecular presenter whose value is not the same.
  • the multilinear regression QSPR model searches for a multilinear regression QSPR model by applying a genetic algorithm to the training set. "how to obtain the heat of vaporization of the hydrocarbon-based organic compound by-QSPR SVRC model.
  • the genetic algorithm comprises a plurality of populations of multiple linear regression QSPR models created by randomly drawing a certain number of molecular representations from a pool of molecular representations. creating a population; Encoding each individual by combining the numbers of the extracted molecular presenters; Selecting two parent chromosomes from the created population by the Roulette Wheel method and generating offspring by a single point crossover method; The chromosomal part of the resulting offspring after which mutation (mutation) has a chance to replace a portion of the existing population thereof, the hydrocarbon-based organic compound by QSPR-SVRC model comprising the step of creating a new population How to get the heat of vaporization.
  • step 4-2 comprises the determination coefficient of the regression model or A method of obtaining the heat of vaporization of a hydrocarbon-based organic compound by a QSPR-SVRC model including determining predictive performance by means of an average absolute error.
  • step 4-3 the heat of vaporization of the hydrocarbon-based organic compound is obtained by the QSPR-SVRC model whose validity is determined by a statistical t-test value.
  • step 4-5 if the predictive performance of the test set is similar to the predicted performance of the training set, the multiple linear regression QSPR model is determined, and the predicted performance of the test set is the training set.
  • Example 12 The table of Example 2-1, wherein the anti-fitting reference value for the heat of vaporization at a temperature of 0.55 times the normal boiling point in steps 4-7 is in the form of the invention.
  • the heat of vaporization of hydrocarbon-based organic compounds is calculated by QSPR-SWC model, which is characterized by the value Way .
  • a computer-readable storage medium having recorded thereon a computer program for executing a method for obtaining vaporization heat of a hydrocarbon-based organic compound according to any one of items 1 to 13 above.
  • the fourth step to obtain the QSPR model for the heat of vaporization of from .0.55 times the temperature of the normal boiling point is: the heat of vaporization, respectively, (x c at 0.55 times the normal boiling point temperature of the Steps 4-0 to extract the optimal molecular representations for the experiment; Steps 4 to 1 separating the experimental data into the training set and the test set; Steps 4 and 2 to search for the optimal multilinear regression QSPR model for the training set.
  • Step 4-3 of reviewing the validity of the selected model if there is no validity in step 4-3, repeat steps 4-2 and 4-3, and if valid, 4 th step 4 of testing the predictive performance; if the performance does not meet the criteria in the above 4-4 test of the test set, repeat steps 4-2 to 4-4, and the performance satisfies the criteria.
  • Sample standardization A fourth step of separating the three sets into four sets, and then dividing the entire sample into three sets, and then searching for an optimal neural network QSPR model;
  • the vaporization heat prediction value at the temperature of 0.55 times the normal boiling point by the artificial neural network QSPR model found in the above 4-6 step is adopted as the vaporization heat value in the silver which is 0.55 times the normal boiling point. Including 8 steps,
  • the method of obtaining the QSPR model for x c in step 4-0 is as follows: If the performance does not meet the criteria in the step 4-4 through step 4-4 and the test of the step 4-4 for the test set, Repeating steps 4-2 to 4-4, and determining the optimal multilinear regression QSPR model if the performance satisfies the criteria; Inorganic hydrocarbon-based organic phase by the QSPR-SVRC model including all the steps 4-6-1 to obtain a c value through the multi-linear regression model that satisfies the performance test in step 4—5-1 How to find the heat of vaporization of a compound
  • the optimal molecular presenter is Method for obtaining the heat of vaporization of a non-hydrocarbon organic compound by a QSPR-SVRC model, characterized in that the sample compound is an independent molecular descriptor having a different value.
  • the genetic algorithm comprises a plurality of populations of multiple linear regression QSPR models created by randomly drawing a certain number of molecular representations from a pool of molecular representations. creating a population; Encoding each individual by combining the numbers of the extracted molecular presenters; Selecting two parent chromosomes from the created population by the Roulette Wheel method and generating offspring by a single point crossover method; The generation of the non-hydrocarbon-based organic compounds by the QSPR-SVRC model, comprising the step of mutating a portion of the chromosome of the generated offspring with a certain probability and then replacing a part of the existing population with them to generate a new population. How to get the heat of vaporization. ' 21. The vaporization heat of the non-hydrocarbon-based organic compound according to the above 16, wherein the step 4-2 is determined by the QSPR-SVRC model including determining the predictive performance by the regression model's crystal coefficient or the mean absolute error. Way .
  • step 4-5 if the predictive performance of the test set is similar to the predicted performance of the training set, a multilinear regression QSPR model is determined, and the predicted performance of the test set is the training set. After the test set and the training set different from the predicted performance for.
  • Example 2-1 wherein the anti-fitting reference value for the heat of vaporization at a temperature of 0.55 times the normal boiling point in steps 4-7 is in the form of the invention.
  • 73 characterized by its value Method to find vaporization heat of non-hydrocarbon organic compounds by QSPR-SVRC model.
  • T is the temperature
  • T c is the critical temperature in a 0.55 times of the normal boiling point temperature (T 0. 55b)
  • is the heat of vaporization, ⁇ 0 . 551) is 0.55 times that of the normal boiling point temperature (T 0. In the evaporation heat of 55b), c is a scaling factor, T is the temperature, T c is the critical temperature;
  • the molecular descriptors extracted for the heat of vaporization at a temperature of 0.55 times the normal boiling point are described in Table 73 of Example 2-1 in 'Form for Implementing the Invention' and include the molecular descriptors, the a c
  • the molecular descriptors extracted for the non-hydrocarbon-based organic compounds according to the QSPR-SVRC model, which are described in Table 74 of Example 2-1 in 'Forms for the Invention,' are included. How to get the heat of vaporization from.
  • Example 2-2 Multiple Linear Regression Artificial Neural Network QSPR Mopel Predicting Heat Capacity of Abnormal Gas of Pure Compound
  • the technical solution of the present embodiment is to change the physical properties (heat of vaporization) to 'heat capacity of the secondary body' in the content of the embodiment 2-1, and the description of the doubling is omitted.
  • the non-overlapping part is as follows.
  • a first step of inputting hydrocarbon-based experimental data among collected sample organic compounds A second step of preparing a molecular presenter value for the heat capacity of the ideal gas of the hydrocarbon-based organic compound input in step 1; Extracting optimal molecular descriptors; A fourth step of calculating a harmonic oscillator for each compound with respect to the heat capacity of the ideal gas, an independant rotor for each molecule, and an effect of the shape of the molecules caused by the rotation of the single bond by quantum mechanical calculation;
  • the harmonic oscillator for each compound, the non-free rotor for each molecule, and the shape of the molecule are dependent on the rotation of the single bond with respect to the heat capacity of the optimum molecular descriptor obtained in the third step and the ideal gas obtained in the fourth step.
  • Step 5-1 Step 5-2 of searching for an optimal multilinear regression QSPR model for the training set; Step 5-3 reviewing the validity of the selected model;
  • step 3 If there is no validity in step 3, repeat steps 5-2 and 5-3, and if valid, test the predictive performance of the model against the test set.
  • step 5-4 If at step 5-4 the first test for the test set 3 ⁇ 4 not satisfy the performance criteria to repeat the steps 5-4 from Step 5-2, and when the performance is satisfactory for the reference sample and then normalized "separated into three sets The fifth step 5 step; Full samples
  • the heat capacity of the ideal gas is the sum of the effects of the harmonic oscillator for each compound, the non-rotating rotor for each molecule, and the effect of the shape of the molecules due to the rotation of the single bond on the heat capacity of the ideal gas obtained in step 4.
  • a method for obtaining the heat capacity of the ideal gas of the hydrocarbon-based organic compound comprising the above step 5-8 and all the above steps.
  • the physical properties (heat of vaporization) in the items 1 to 14 of the contents of Example 2-1 The technical solution of the present embodiment is to change the 'heat capacity of the liquid' of all the corresponding organic compounds without distinguishing between hydrocarbons and non-hydrocarbons, and redundant descriptions are omitted.
  • the non-overlapping part is as follows.
  • step 4-1 4-0 step of extracting the optimal molecular descriptors for the heat capacity of the liquid; Separating the experimental data into the training set and the test set in step 4-1; Step 4-2 of searching for an optimal multiple linear regression QSPR model for the training set; Step 4-3 reviewing the validity of the selected model; Step 4-3, if not valid, repeat steps 4-2 and 4-3, and if valid, test the predictive performance of the model against the test set; If the performance does not meet the criteria in the above 4-4 test step for the test set, repeat steps 4 to 2 to 4-4, and if the performance satisfies the criteria, after separating the sample into three sets after standardizing 4 ⁇ 5 steps; A fourth step 6 of searching for an optimal artificial neural network QSPR model after dividing the entire sample into three sets; The predicted heat capacity of the liquid at a temperature of 0.55 times the normal boiling point and the normal boiling point obtained by the optimal linear regression model satisfying the performance test in the fourth to fifth stages, and the optimal artificial searched in the fourth step Heat capacity of liquid at a temperature of
  • the heat capacity predicted value of the liquid at the raised point by the multiregressive linear regression QSPR model obtained in step 4-5 is adopted as the heat capacity value of the liquid at the elevated temperature. If it belongs to 85% to 115% of the overfit prevention reference value, the heat capacity predicted value of the liquid at the temperature treated by the artificial neural network QSPR model found in step 4-6 is calculated as the heat capacity value of the liquid at the treated temperature.
  • the method for obtaining a QSPR model for a c in the fourth step includes: adopting steps 4-8, wherein: If the performance does not meet the criteria in the above 4-4 test for the test set, repeat steps 4-2 through 4-4, and if the performance satisfies the criteria, the optimal multilinear regression QSPR model is determined. Steps 4-5- 1; In step 4-5-1, the QSPR-SV C model including all the steps and the 4-6-1 step of obtaining the value of Q through the multiple linear regression QSPR model satisfying the performance test are performed. How to find the heat capacity of a liquid.
  • Example 2-4 QSPR-SVRC Model Predicting Saturated Liquid Density of Pure Organic Compound
  • the technical solution of this embodiment is to change the physical property (heat of vaporization) to 'saturated liquid density' in the content of Example 2-1. And duplicate descriptions are omitted.
  • Non-redundant The part is as follows.
  • the method of obtaining the QSPR model for 55b includes: step 4-0 to extract the optimal molecular presenters; Step 4-1 separating the experimental data into the training set and the test set; Step 4-2 of searching for an optimal multiple linear regression QSPR model for the training set; Step 4-3 reviewing the validity of the selected model; Step 4-4, if the validity is not obtained in step 4-3, repeating steps 4-2 and 4-3, and if valid, testing the predictive performance of the model against a test set; If the performance does not meet the criteria in the above 4-4 step test for the test set, repeat steps 4-2 through 4-4, and if the performance satisfies the criteria, the optimal multilinear regression QSPR model is determined.
  • Step 4-5 Wherein the 4-step 5 to meet the performance test saturated liquid density at a temperature of 0.55 times the normal boiling point through the dajeung QSPR linear regression model, a C) a 0 Step 4-6 to obtain the value and the all .55b Method for obtaining the saturated liquid density of the non-hydrocarbon organic compounds by the QSPR-SVRC model comprising the step. ⁇
  • the technical solution of the present embodiment is to change the physical properties (heat of vaporization) to 'surface tension' of all the corresponding organic compounds without distinguishing hydrocarbons and non-hydrocarbons from the contents of the above Examples 2-1.
  • the description will be omitted.
  • the non-overlapping part is as follows.
  • a fourth step of separating the experimental data into a training set and a test set Step 4-2 of searching for an optimal multiple linear regression QSPR model for the training set; Step 4-3 reviewing the validity of the selected model; Validity in the above 4-3 step If not, repeat steps 4-2 and 4-3, and if valid, step 4-4 of testing the predictive performance of the model against the test set; If the performance does not meet the criteria in the above-mentioned 4-4 test for the test set, repeat steps 4-4 through 4-4, and if the performance satisfies the criteria, separate the sample into three sets after standardizing the sample.
  • Step 4-6 of dividing the entire sample into three sets and searching for an optimal artificial neural network QSPR model; ' Prediction of surface tension at a temperature of 0.55 times normal boiling point and normal boiling point obtained by the optimal linear regression model satisfying the performance test in steps 4-5, and the optimal artificial searched in steps 4-6.
  • the normal boiling point and the normal boiling point by the artificial neural network QSPR model found in the above 4-6 steps:
  • the normal boiling point at the temperature of 0.55 times the normal boiling point Method for obtaining surface tension of organic compounds by QSPR model including steps 4-8 and all the above steps, which are adopted as surface tension values at a temperature of 0.55 times normal boiling point.
  • step 4-0 Optimal molecule expressed on the surface tension ((j b, o 0. 55b) at 0.55 times the temperature of the normal boiling point person by QSPR model, characterized in that design independent molecule expression is not the same value for all samples compound Method for obtaining surface tension of organic compound.
  • Example 2-1 the physical solution (heat of vaporization) is changed to 'liquid thermal conductivity', which is a technical solution of the present embodiment.
  • the non-overlapping part is as follows.
  • Step 4-1 separating the experimental data into the training set and the test set;
  • Step 4-2 of searching for an optimal multiple linear regression QSPR model for the training set; Reviewing the validity of the selected model; If not valid in the step 4-3, repeating steps 4-2 and step 4-3, and if valid, testing the predictive performance of the model against the test set; If the performance does not meet the criteria in the above 4-4 step test for the test set, repeat steps 4-2 through 4-4, and if the performance satisfies the criteria, separate the sample into three sets after standardizing the sample.
  • Step 4-6 of dividing the entire sample into three sets and searching for an optimal artificial neural network QSPR model; Liquid thermal conductivity at normal boiling point, liquid thermal conductivity at a temperature of 0.65 times normal boiling point, ⁇ predicted value and the 4-th step obtained by the optimal linear regression model satisfying the performance test in steps 4-5.
  • the liquid thermal conductivity at normal boiling point, the liquid thermal conductivity at a temperature of 0.65 times normal boiling point, and the absolute value of the difference between the ⁇ predicted values obtained by the optimal neural network QSPR model found in step 6 are compared with a preset overfit prevention reference value.
  • the technical solution of the present embodiment is to change the physical property (heat of vaporization) to 'gas thermal conductivity' in the content of the embodiment 2-1, and overlapping description is omitted.
  • the non-overlapping part is as follows.
  • is the gas thermal conductivity, ⁇ 3 ( gas thermal conductivity at temperature T 3b three times the normal eye boiling point, A b is the gas thermal conductivity at normal boiling point T b , and ⁇ is the scaling index);
  • Step 4-6 of dividing the entire sample into three sets and searching for an optimal artificial neural network QSPR model;
  • Steps 4-8 which are adopted as gas thermal conductivity values at a temperature that is three times, and in the fourth step, a QSPR model for The method is obtained by: repeating steps 4-1 to 4-4 and steps 4-2 to 4-4 if the performance does not meet the criteria in the fourth to fourth test on the test set. And 4-5-1, if the performance satisfies the criteria, determines the optimal multiple linear regression QSPR model; In step 4-5-1, the QSPR ⁇ SV C model including all the steps and the 4-6-step of obtaining an ⁇ value through the multiple linear regression QSPR model satisfying the performance test are performed. How to find the gas thermal conductivity.
  • Example 2-8 QSPR-SVRC Model Predicting Liquid Vapor Pressure of Pure Compound
  • the technical solution of the present embodiment is to change the physical property (heat of vaporization) to 'liquid vapor pressure' in the content of Example 2-1. The description will be omitted.
  • the non-overlapping part is as follows.
  • liquid vapor pressure
  • & critical pressure
  • scaling index
  • is a at a critical point
  • is ⁇ at normal boiling point
  • 7 is temperature
  • T c critical temperature
  • 3 ⁇ 4 is normal boiling point
  • the method for obtaining a QSPR model for ⁇ at the critical point and the normal boiling point in the fourth step comprises: step 4-0 of extracting optimal molecular descriptors; Training set and test set 4-1 step of separating the experimental data; Step 4-2 of searching for an optimal multiple linear regression QSPR model for the training set; A fourth step 3 reviewing the validity of the selected model; Step 4-3, if it is not valid, repeats steps 4-2 and 4-3, and if it is valid, steps 4-4 for testing the predictive performance of the model against a test set; If the performance does not meet the criteria in the above 4-4 test for the test set, repeat steps 4-2 through 4-4, and if the performance satisfies the criteria, the optimal multilinear regression QSPR model is determined.
  • Step 4-5 Organic compounding by QSPR-SVRC model including steps 4-6 and all the steps of obtaining ⁇ value at critical point and normal boiling point through the multiple linear regression QSPR model satisfying the performance test in steps 4-5 ' How to find the liquid vapor pressure of water.
  • Example 2-9 QSPR-SVRC Model Predicting Liquid Viscosity of Pure Organic Compound
  • a change in physical properties (heat of vaporization) to 'liquid viscosity' is a technical solution of the present embodiment.
  • Duplicate explanations are omitted.
  • the non-overlapping part is as follows. '
  • is the viscosity
  • temperature is the liquid viscosity of the hydrocarbon at lOcP
  • is the scaling index
  • cc c ct t is the ⁇ value at the temperature at the critical point and the liquid viscosity is lOcP
  • T c is the critical degree
  • is the temperature
  • Step 5 of testing the predictive performance with the experimental data; QSPR- including the sixth step and all the above steps including adopting the liquid viscosity predicted value by the searched model as the liquid viscosity value if the test of the fifth step is satisfied, and repeating the fourth and fifth steps if not satisfied.
  • the QSPR model for ⁇ at the temperature when the liquid viscosity of the hydrocarbon is lOcP in the fourth step, the temperature at the critical point and the temperature at which the liquid viscosity is lOcP is: 4-0 step of extracting optimal molecular descriptors for ⁇ at the temperature when the liquid viscosity is lOcP, the critical point and the temperature when the liquid viscosity is lOcP; Training set and test set Step 4-1 separating the experimental data; Step 4-2 of searching for an optimal multiple linear regression QSPR model for the training set; Reviewing the validity of the selected model; Step 4-4, if the validity is not obtained in step 4-3, repeating steps 4-2 and step 4-3; if valid, testing the predictive performance of the model against a test set; If the performance does not meet the criterion in the 4-4 test on the test set, repeat steps 4-2 to 4-4, and if the performance satisfies the criterion, separate the sample into
  • the critical point and liquid viscosity is lOcP prevent the absolute value of a prediction value difference in temperature must effectively pre-set when the reference value and Comparing steps 4-7; If the difference is greater than the reference value for preventing overfitting, the predicted cc value at the liquid viscosity of lOcP, the critical point and the temperature of the liquid viscosity of lOcP according to the multiple linear regression QSPR model obtained in the above steps 4 to 5 are obtained. If the viscosity is lOcP, the critical point and the liquid viscosity is ⁇ at the temperature of lOcP.
  • the liquid viscosity of the artificial neural network QSPR model found in step 4-6 is Is the temperature at lOcP and the cc predicted value at the temperature at lOcP Liquid Viscosity of Hydrocarbon Organic Compounds by QSPR-SVRC Model Including Steps 4-8 and All of the Steps Adopting ⁇ Value at Temperature when Liquid Viscosity is lOcP, Critical Point and Liquid Viscosity at lOcP 14. Obtaining experimental data of hydrocarbon organic compound which is liquid at 298.15K among collected sample organic compounds; Of sample compounds
  • viscosity
  • % 9315 ⁇ is the liquid viscosity of hydrocarbon at 293.15K
  • ⁇ scaling index and a c , cc t are ⁇ value at critical point and 293.15K
  • T c critical temperature ⁇ is temperature, respectively;
  • a method of obtaining the liquid viscosity of a hydrocarbon organic compound that is liquid at 298.15 K by the QSPR-SVRC model including the sixth step of repeating the fourth and fifth steps and adopting the liquid viscosity value and not satisfied. . 15.
  • Step 4-6 of dividing the entire sample into three sets and searching for an optimal artificial neural network QSPR model; Liquid viscosity of hydrocarbon at 293.15K, ⁇ predicted value at 293.15K, and the optimal artificial searched at steps 4-6 obtained by the optimal linear regression model satisfying the performance test in steps 4-5.
  • Step 4-7 comparing the absolute value of the difference between the ⁇ predicted values at 293.15K and the liquid viscosity of the hydrocarbon at 293.15K determined by the neural network QSPR model; If the difference is greater than the overfit reference value Liquid viscosity of hydrocarbons at 293.15K by the multiple linear regression QSPR model obtained in steps 4-5., The ⁇ predicted value at 293.15K is adopted as the liquid viscosity of hydrocarbons at 293.15K, and ⁇ value at 293.15K.
  • a method for obtaining a QSPR model for ⁇ at a critical point in the fourth step comprises: the steps 4-1 to 4-4 and the test set.
  • step 4-5 step 1;
  • the QSPR-SVRC model including the fourth step ⁇ 6 ⁇ step 1 and all the steps to obtain the ft value at the critical point through the multi-line 1 ⁇ 2 regression QSPR model that satisfies the performance test in step 4-5-1 Determination of Liquid Viscosity of Hydrocarbon Organic Compounds at 298.15K.
  • Example 2-10 QSPR-SVRC Model Predicting Gas Viscosity of Pure Compound
  • the technical solution of the present embodiment is to change the physical property (heat of vaporization) to 'gas viscosity' in the content of Example 2-1. The description will be omitted.
  • the non-overlapping part is as follows.
  • the method of obtaining a QSPR model for gas viscosity at the critical point in the fourth step comprises: selecting the optimal molecular descriptors for the gas viscosity at the critical point of the hydrocarbon-based organic compound.
  • Step 4-3 reviewing the validity of the selected model; If there is no validity in step 4-3, repeat steps 4-2 and 4-3, Step 4-4, if any, testing the predictive performance of the model against the test set; If the performance does not meet the criteria in the above 4-4 test step for the test set, repeat steps 4-2 to 4-4, and if the performance satisfies the criteria, separate the three sets after standardizing the sample 4-5 steps; Step 4-6 of dividing the entire sample into three sets and searching for an optimal artificial neural network QSPR model; The gas viscosity predicted value at the critical point obtained by the optimal linear regression model satisfying the performance test in steps 4-5 and at the critical point obtained by the optimal neural network QSPR model found in steps 4-6.
  • the 4-step 7 to compare the absolute value of the difference between the predicted value and the preset gas viscosity effectively prevent the sum by "value; If the difference is adopted, the gas viscosity, the predicted value of the threshold by the multiple linear regression model obtained in the QSPR effectively the sum is greater than the 4-5 stage as the reference value prevents the gas viscosity value at the critical point and is less than the overload reference value must prevent Hydrocarbons according to the QSPR-SVRC model including steps 4-8 and all of the above steps, which adopt the gas viscosity prediction value at the critical point by the artificial neural network QSPR model found in the above 4-6 steps.
  • a method for obtaining the gas viscosity of a series organic compound If the difference is adopted, the gas viscosity, the predicted value of the threshold by the multiple linear regression model obtained in the QSPR effectively the sum is greater than the 4-5 stage as the reference value prevents the gas viscosity value at the critical point and is less than the overload reference value must prevent Hydrocarbons according to the QSPR-SV
  • the technical solution of this embodiment is to change the physical properties (heat of vaporization) to 'secondary vial coefficients' of all the corresponding organic compounds without distinguishing between hydrocarbons and non-hydrocarbons in the above items 1 to 14.
  • Duplicate descriptions The non-overlapping part is omitted as follows.
  • First step of inputting experimental data of collected sample organic compounds A second step of preparing a molecular presenter value for the visibleness with respect to the collected experimental data set of the sample organic compounds; A third step of extracting optimal molecular descriptors for each of the collected experimental data sets of the sample organic compounds; A fourth step of separating the experimental data into a training set and a test set; A fifth step of searching for an optimal multiple linear regression QSPR model for the training set; A sixth step of examining the validity of the selected model; A seventh step of repeating the fifth and sixth steps if there is no validity in the sixth step, and testing the predictive performance of the model with respect to a test set if it is valid; An eighth step of repeating steps 4 to 7 if the performance does not meet the criteria in the seventh step test for the test set, and determining the optimum multilinear regression QSPR model if the performance satisfies the criteria; An ninth step of obtaining a temperature to be seen through the multilinear regression QSPR model searched for the experimental data set of the
  • the molecular descriptors are.
  • a fourth step of determining a global minimum structure A fifth step of extracting a molecular presenter from the optimal matching structure obtained in the fourth step; A method for predicting the physical properties of a compound comprising a sixth step and all the above steps for performing automated property prediction using a computer-coded prediction model (computer program) of a mathematical model related to property prediction or a model using QSPR.
  • a computer-coded prediction model computer program
  • the first step of paragraph 1 which enters the molecular formula, the element element and the number thereof of the compound and generates the structural isomers of the compound
  • the second step of paragraph 1 which generates stereoisomers of the compound and filters the optical isomers.
  • a structure generation module comprising a (computer program);
  • Optimizing by quantum mechanical calculation of the fitted structure selected in the third step of the first step and the third step of the first step of selecting a conformation structure and analysis of the shape isomer among the isomers filtered in the second step of the claim 1 A mathematical model related to physical property prediction or a model using QSPR, which extracts a molecular presenter from the best-fit structure obtained in the fourth step of claim 1 and the fourth step of claim 1 to determine the structure Property prediction models comprising the sixth step of claim 1 and the step of performing a property prediction through;
  • the seventh step of claim 4 wherein the predicted value is recorded by a program for executing in a computer and stored in a computer-readable storage medium.
  • the fourth item of claim 4 wherein the evaluation index is obtained by comparing the predicted physical property with the physical property in which the experimental value exists.
  • step 8 the predicted properties obtained in the ninth step of the above paragraph 4 and the sixth step of the first step of obtaining the evaluation index by comparing the predicted properties predicted by the existing models with those of the experimental values
  • the fourth Step 10 of the above paragraph 4 which stores the evaluation indexes obtained in the step 8 of claim 8 and the ninth step of claim 4, the evaluation models including the step, and the property prediction models including the evaluation steps, and all the above steps.
  • Example 4 Method of Predicting Physical Properties of a Compound and System of Predicting Physical Properties of a Compound 1.
  • a method for estimating the properties of a compound comprising the steps of a user logging in to a client that can access a server; A second step of selecting and inputting at least one of a molecular formula and a molecular name molecular structure to search for a compound; A third step of selecting a desired temperature range with respect to physical properties when the second step depends on the temperature of the compound; A fourth step of transmitting, by the client, the information input in the second and third steps to the server; The physical property of the compound input through the information transmitted in the fourth step is received from the molecular information database, file storage having the physical property information, silver dependency calculation models, molecular structure-based search models and returned to the client from the server The fifth step; A sixth step of returning infrared (IR), vibration ional circular dichroism (VCD), and clear magnetic resonance (NMR) spectra information for the compound input in the second and third steps from
  • the molecular structure in the step 2 is the molecular structure of the user and A method of predicting the physical properties of a compound, characterized in that selected from a table having or directly input by a user.
  • a computer readable storage medium having recorded thereon a program for executing on a computer a method for predicting the properties of a compound according to any one of items 1 to 4 above.
  • the user selects and inputs one or more of the molecular formula, molecular name, and molecular structure of the compound to be searched, and returns the physical properties, IR, VCD, and Client software for displaying R spectra information and three-dimensional structure information on a screen;
  • the server includes a web application server, a relational database, a file storage having property information, a calculation module for calculating temperature dependent property information, and a molecular structure based search model.
  • any one or more selected from the number of elements, molecular weight, InChl, and physical properties in the client software can be selected and input.
  • the molecular structure input from the client may be selected from a table having a molecular structure by the user or directly input by the user, and the input molecular structure is the entire structure of the molecular structure. Or a part of the whole structure is inputted.
  • the present invention is based on more experimental data and is composed of five or more elements such as hydrogen (H), carbon (C), nitrogen (N), oxygen (0) and sulfur (S), which are more reliable. It is possible to provide a model for the various physical properties of the compound consisting of molecules having a number of atoms excluded 25 or less.
  • the properties that provide a model in the present invention are essential properties for the operation of commercial programs such as AspenPlus or Pro / II, which are well known as design and optimization programs for chemical plant processes, and are designated by the European Union (REACH).
  • REACH European Union
  • International regulations on the production and consumption of compounds such as and Restrict ion of Chemicals may require that value.
  • the experimental value is known to be only 3-40,000 pieces, and depending on the compound, the work of obtaining data through experiments may be past due to toxicity, instability and difficulty of purification.
  • the present invention which can obtain the properties of a large number of compounds with high accuracy only through the information of the molecule without undergoing experimentation, not only saves the cost and time required for the experiment, but also makes it possible to estimate the value even when the experiment is impossible.
  • it also provides the information that is appropriate to all places that need such values, such as academics and the academic community, to facilitate the activities.
  • 1 to 124 are views of Embodiment 1 of the present invention, and are two surfaces of Embodiments 1 to 1 to Examples 1-28.
  • 129 to 204 are diagrams for Embodiment 2 of the present invention, and are views for Embodiments 2-1 to 2-11.
  • FIGS. 205 to 209 are views of the third embodiment, and FIGS. 210 to 224 are views of the fourth embodiment. It demonstrates in order below.
  • 1 to 8 is a diagram for Example 1-1 of the present invention (multilinear regression-artificial neural network common QSPR model for predicting the normal boiling point of pure organic compounds),
  • Figure 1 is a normal boiling point provided by the present invention The process of constructing a multiple linear regression artificial neural network common QSPR model.
  • Figure 2 is a view showing the structure of the artificial neural network used in the present invention.
  • FIG. 3 is a parity diagram comparing the predicted value of the group contribution-based Joback model, which is one of the existing prediction methods for the normal boiling point, with 1651 experimental data (the X-axis is composed of the predicted value and the y-axis is the experimental value. Data points converge on a 45-degree line).
  • the vertical bar line indicated by each point in FIG. 3 represents an error range of each experimental value, and analyzed by displaying several experimental values overlapped for the same value and applied equally to all parity diagrams below.
  • FIG. 4 is a parity diagram comparing the predicted values of the group contribution model-based Gani model, which is one of the existing prediction methods for the normal boiling point, with 1651 experimental data.
  • FIG. 5 is a parity diagram comparing the predicted values of the multiple linear regression-artificial neural network common QSPR model for the normal boiling point provided by the present invention with 1786 experimental data.
  • FIG. 6 is a histogram diagram showing statistical analysis by comparing a predicted value of a Joback model with 1651 experimental data.
  • FIG. 7 is a histogram diagram showing statistical analysis by comparing the predicted values of the Gani model with 1557 experimental data.
  • FIG. 8 is a multi-linear regression artificial neural network common QSPR model provided by the present invention A histogram plot showing statistical analysis by comparing the predicted values with 1786 experimental data.
  • FIGS. 9 to 12 are diagrams for Examples 1-2 of the present invention (multilinear regression-artificial neural network common QSPR model for predicting absolute gas entropy of abnormal state of pure organic compounds)
  • FIG. 9 is a parity diagram comparing the predicted value of the density ' functional theory, which is a quantum mechanical calculation model of the absolute gas entropy of a standard state, with 1233 experimental data.
  • FIG. 10 is a parity diagram comparing the predicted values of the multiple linear regression-artificial neural network common QSPR model for the absolute gas absolute entropy of the standard state provided by the present invention with 1233 experimental data.
  • FIG. 11 is a histogram diagram showing statistical analysis by comparing a predicted value by density functional theory, a quantum mechanical calculation model, with 1233 experimental data.
  • 12 is a histogram diagram showing statistical analysis by comparing the predicted values of the multiple linear regression artificial neural network common QSPR model provided by the present invention with 1786 experimental data.
  • FIG. 13 to 18 are drawings of Examples 1-3 (Multilinear Regression-Artificial Neural Network Common QSPR Model Predicting Eccentric Factors of Organic Compounds) of the present invention, and FIG. 13 is Gani, a group contribution model of eccentric factors. Parity diagram comparing the predicted value of the model with 1423 experimental data.
  • FIG. 14 is a parity diagram comparing predicted values of Chen model, which is a relational model of eccentric factors, with 1825 experimental data.
  • FIG. 15 is a parity diagram comparing prediction values of a QSPR model of an eccentric factor provided by the present invention with 1840 experimental data.
  • FIG. 16 is a histogram diagram showing statistical analysis by comparing prediction values of a Gani model with 1423 experimental data.
  • FIG. 17 is a histogram diagram showing statistical analysis by comparing predicted values of Chen model with 1825 experimental data.
  • FIG. 18 is a histogram diagram showing statistical analysis by comparing the predicted values of the multiple linear regression artificial neural network common QSPR model provided by the present invention with 1840 experimental data.
  • FIG. 19 to 24 are drawings of Example 1-4 (Multilinear Regression—Artificial Neural Network Common QSPR Model for Predicting Critical Pressure of Organic Compound), and FIG. 19 is a Joback as a Group Contribution Model for Critical Pressure.
  • a parity diagram comparing the predicted value of the model with 1642 experimental data.
  • Figure 20 is a "parity diagram comparing the predicted values of the model group Gani attribution model for critical pressure and 1541 of the experimental data. .
  • 21 shows multiple linear regression-artificial neural network shake for critical pressure provided by the present invention.
  • FIG. 22 is a histogram diagram showing statistical analysis by comparing a predicted value of a Joback model with 1642 experimental data.
  • FIG. 23 is a histogram diagram showing statistical analysis by comparing the predicted values of the Gani model with 1541 experimental data.
  • FIG. 24 is a histogram diagram showing statistical analysis by comparing the predicted values of the multiple linear regression-artificial neural network common QSPR model with 1737 experimental data.
  • Example 1-5 Multilinear Regression-Artificial Neural Network Variance QSPR Model Predicting Critical Temperature of Organic Compound
  • FIG. 25 is a Joback as a Group Contribution Model for Critical Temperature.
  • a parity diagram comparing the predicted value of the model with 1460 experimental data.
  • FIG. 26 is a parity diagram comparing a predicted value of a Gani model, which is a group contribution model for a critical temperature, with 1375 experimental data.
  • FIG. 27 is a parity diagram comparing the predicted values of the multiple linear regression-artificial neural network common QSPR model with respect to the critical temperature provided by the present invention with 1558 experimental data.
  • FIG. 28 is a histogram diagram showing statistical analysis by comparing a predicted value of a Joback model with 1460 experimental data.
  • FIG. 29 is a histogram diagram showing statistical analysis by comparing a predicted value of a Gani model with 1375 experimental data.
  • FIG. 30 is a histogram plot showing statistical analysis by comparing the predicted values of the multiple linear regression-artificial neural network QSPR model of the present invention with 1558 experimental data.
  • FIG. 31 to 36 are diagrams of Examples 1-6 (multilinear rare-artificial neural network common QSPR model for predicting the critical volume of pure organic compounds) of the present invention.
  • FIG. 31 is a parity diagram comparing prediction values of a Joback model, which is a group contribution model for a critical volume, with 1141 experimental data.
  • 32 is a parity diagram comparing the predicted values of the Gani model, which is a group contribution model for the critical volume, with 1078 experimental data.
  • FIG. 33 is a parity diagram comparing the predicted values of the multiple linear regression-artificial neural network common QSPR model for the critical volume provided by the present invention with 1202 sample data.
  • FIG. 34 is a histogram diagram showing statistical analysis by comparing a predicted value of a Joback model with 1141 test data.
  • FIG. 35 is a histogram diagram showing statistical analysis of the Gani model in comparison with 1078 experimental data.
  • FIG. 36 is a histogram diagram showing statistical analysis by comparing the predicted values of the multiple linear regression-artificial neural network common QSPR model provided with the 1202 experimental data.
  • Examples 1 to 7 of the present invention multilinear regression-artificial neural network common QSPR model predicting generation energy of abnormal gas of pure organic compound.
  • A0MG types that a pure compound used in the multiple linear regression-synthetic neural network QSPR model for generating energy of an ideal gas provided by the present invention.
  • FIG. 38 shows that the pure compounds used in the multiple linear regression-neural network QSPR model for generating energy of an ideal gas provided by the present invention may have A0MG types by covalent bonds.
  • FIG. 39 is a parity diagram comparing a predicted value of a Joback ' model, which is a group contribution model for generated energy of an ideal gas, with 1407 experimental data.
  • FIG. 40 is a parity diagram comparing the predicted value of the Gani model, which is a group contribution model for generation energy of an ideal gas, with 1318 experimental data.
  • FIG. 41 is a parity diagram comparing the predicted values of the multiple linear regression-neural network common QSPR model for the generated energy of an ideal gas provided by the present invention with 1536 experimental data.
  • FIG. 42 is a histogram diagram showing statistical analysis by comparing a predicted value of a Joback model with 1407 experimental data.
  • FIG. 43 is a histogram diagram showing statistical analysis by comparing the predicted values of the Gani model with 1318 experimental data.
  • FIG. 44 is a histogram plot showing statistical analysis comparing the predicted values of a multiple linear regression-artificial neural network QSPR model with 1535 experimental data.
  • Fig. 45 is a parity diagram comparing the predicted values of the multiple linear regression-neural network common QSPR model for the energy of generation of the ideal gas of the radical compound provided by the present invention with 294 experimental data. .
  • 46 is a radical. Histogram plot showing statistical analysis by comparing the predicted values of the compound's multiple linear regression-artificial neural network common QSPR model with 294 experimental data.
  • FIG. 47 to 50 show the heat of fusion of Example 1-8 (pure organic compounds) of the present invention.
  • FIG. 47 is a parity diagram comparing the predicted values of Joback model, which is a group contribution model of the heat of fusion, with 1093 experimental data.
  • FIG. 47 is a parity diagram comparing the predicted values of Joback model, which is a group contribution model of the heat of fusion, with 1093 experimental data.
  • FIG. 48 is a parity diagram comparing 1189 experimental data with predicted values of a multilinear regression-artificial neural network common QSPR model of a heat of fusion provided by the present invention.
  • FIG. 49 is a histogram diagram showing statistical analysis by comparing a predicted value of a Joback model with 1093 experimental data.
  • FIG. 50 is a histogram diagram showing statistical analysis comparing the predicted values of the multiple linear regression-artificial neural network common QSPR model with 1189 experimental data.
  • FIG. 51 is a parity diagram comparing the predicted values of the Gani model, which is a group contribution model for the liquid molar volume at 298.15K, with 1028 experimental data.
  • FIG. 52 is a parity diagram comparing the predicted value of the multiple linear regression-artificial neural network common QSPR model for the liquid molar volume at 298.15K provided by the present invention with 1152 experimental data.
  • FIG. 53 is a histogram diagram showing statistical analysis by comparing predicted values of the Gani model with 1028 experimental data.
  • FIG. 54 shows a multiple linear regression artificial neural network common QSPR model provided by the present invention.
  • a histogram plot showing statistical analysis by comparing the predicted values with 1152 experimental data.
  • FIG. 55 and 56 are drawings for Examples 1-10 (Multilinear Regression—Artificial Neural Network Common QSPR Model Predicting Refractive Index of Pure Organic Compounds) of the Invention, and FIG. 55 is a multilinear representation of the refraction provided by the present invention.
  • Regression-Artificial Neural Networks A parity plot comparing the predicted values of a QSPR model with 890 experimental data.
  • FIG. 56 is a histogram diagram showing statistical analysis by comparing 890 predictions of the multiple linear rare-artificial neural network common QSPR model provided with the experimental data.
  • FIG. 57 to 60 are diagrams of Examples 1 to 11 (multilinear regression-artificial neural network common QSPR models for predicting the dissolution index of organic compounds), and FIG. 57 is a Hilderbrand equation for the dissolution index. A parity diagram comparing the calculated prediction value with 1192 experimental data.
  • FIG. 58 is a parity diagram comparing prediction values of a multiple linear regression-artificial neural network common QSPR model with a dissolution index provided by the present invention with 1192 experimental data.
  • FIG. FIG. 59 is a histogram diagram showing statistical analysis by comparing a predicted value of a model using a Hilderbrand equation with 1192 experimental data.
  • FIG. 60 is a histogram diagram showing statistical analysis by comparing the predicted values of the multiple linear regression-artificial neural network common QSPR model provided by the present invention with 1192 experimental data.
  • Example 1 eu 12 pure organic compounds A diagram of multiple linear regression-artificial neural network common QSPR model for predicting normal state absolute entropy.
  • Fig. 61 is a parity diagram comparing the predicted values of the Domalski liquid model, which is a group contribution model of standard state absolute entropy, with five experimental data.
  • Fig. 62 is a parity diagram comparing the predicted values of the Domalski solid model, which is a group contribution model of standard state absolute entropy, with 53 experimental data.
  • FIG. 63 is a parity diagram comparing the predicted values of a multilinear regression-neural network shake liquid model of standard state absolute entropy provided by the present invention with 704 experimental data.
  • Figure 64 is the normal state of the multiple linear regression absolute entropy provided by the present invention a parity diagram comparing the predicted values of the artificial neural network model and 96 heunseong solid experimental data.
  • FIG. 65 is a histogram diagram showing statistical analysis by comparing the predicted values of the Domalski liquid model with five experimental data.
  • FIG. 66 is a histogram plot showing statistical analysis comparing the predicted values of a Domalski solid model with 53 experimental data.
  • FIG. 67 is a histogram plot showing statistical analysis by comparing the predicted values of a multiple linear regression-artificial neural network shake liquid model with 704 experimental data.
  • FIG. 68 is a histogram plot showing statistical analysis by comparing the predicted values of a multiple linear regression-artificial neural network common solid model with 96 experimental data.
  • 69 to 72 show Examples 1 13 of the present invention (pure of pure organic compounds). QSPR model for predicting standard state generated energy)
  • 69 is a parity diagram comparing the predicted value of the QSPR liquid model of the standard state generated energy provided by the present invention with 768 experimental data.
  • 70 is a parity diagram comparing the predicted value of the QSPR solid model of the standard state generated energy provided by the present invention with 468 experimental data.
  • FIG. 9 is a histogram diagram showing statistical analysis by comparing the predicted values of the QSPR liquid model of the present invention with 768 experimental data.
  • FIG. 72 is a histogram plot showing statistical analysis by comparing the predicted values of the QSPR solid model of the present invention with 468 experimental data.
  • Examples 1-14 multilinear regression-artificial neural network common QSPR model predicting magnetic susceptibility of pure organic compounds.
  • 73 is a parity diagram comparing the predicted value by the density functional theory, which is a quantum mechanical calculation of magnetic susceptibility, with 320 experimental data.
  • FIG. 74 is a parity diagram comparing the predicted values of the multiple linear regression-artificial neural network common QSPR model with respect to the magnetic susceptibility provided by the present invention with 320 experimental data.
  • FIG. 75 is a histogram diagram showing statistical analysis by comparing a predicted value by a density functional theory with 320 experimental data.
  • FIG. 76 is a histogram diagram showing statistical analysis by comparing the predicted values of the multiple linear rare-artificial neural network QSPR model with 320 experimental data. 77 through 80 show Examples 1-15 of the present invention. A diagram of multiple linear regression-artificial neural network common QSPR model for predicting polarization degree.
  • FIG. 77 is a parity diagram comparing a predicted value of a model (Quantum model) through polarization degree with 200 experimental data.
  • FIG. 77 is a parity diagram comparing a predicted value of a model (Quantum model) through polarization degree with 200 experimental data.
  • 78 is a parity diagram comparing the predicted values of the multiple linear regression-artificial neural network common QSPR model of the polarization diagram provided by the present invention with 200 experimental data.
  • FIG. 79 is a histogram diagram showing statistical analysis by comparing prediction values of a model through quantum mechanics (Quantum model) with 20 experimental data.
  • 80 is a histogram diagram showing statistical analysis by comparing the predicted values of the multiple linear regression-artificial neural network common QSPR model provided with the present invention with 200 experimental data.
  • Examples 1-16 multilinear regression-artificial neural network common QSPR models for predicting the nitration energy of pure organic compounds
  • Fig. 81 is a parity diagram comparing the predicted value of the Quantum model of ionization energy with 542 experimental data.
  • FIG. 82 is a parity diagram comparing 567 experimental data with predicted values of a multi-regression regression artificial neural network common QSPR model of ionization energy provided by the present invention.
  • FIG. 82 is a parity diagram comparing 567 experimental data with predicted values of a multi-regression regression artificial neural network common QSPR model of ionization energy provided by the present invention.
  • FIG. 83 is a histogram diagram showing statistical analysis by comparing a predicted value of a Quantum model with 542 experimental data.
  • FIG. 84 is a diagram of a multiple linear regression-artificial neural network common QSPR model provided by the present invention. Histogram plot showing statistical analysis by comparing the predicted values with 567 experimental data.
  • FIG. 85 to 88 are drawings of Example 1_17 (Multilinear Regression QSPR Model for Predicting Electron Affinity of Pure Organic Compound).
  • FIG. 85 is a graph showing 146 experimental data for predicting the Quantum model of electron affinity. Parity diagram compared with.
  • 86 is a parity diagram comparing the predicted value of the QSPR model of electron affinity provided by the present invention with 146 experimental data.
  • FIG. 87 is a histogram diagram showing statistical analysis by comparing a predicted value of a Quantum model with 146 experimental data.
  • 88 is a histogram diagram showing statistical analysis by comparing the predicted value of the QSPR model of the present invention with 146 experimental data.
  • 89 to 92 are diagrams for Examples 1-18 of the present invention (multilinear regression—artificial neural network common QSPR model predicting para-correlation of pure organic compounds).
  • FIG. 89 is a parity diagram comparing the predicted values of parachor group contribution-knotts model, which is a QSPR model, with 603 experimental data.
  • FIG. 90 is a parity diagram comparing the predicted values of the paracortic multiple linear regression-artificial neural network common QSPR model provided with the present invention with 673 experimental data.
  • FIG. 91 is a histogram diagram showing statistical analysis by comparing a predicted value of a Knotts model with 603 experimental data.
  • FIG. 92 is a histogram diagram showing statistical analysis by comparing the predicted values of the multiple linear regression-artificial neural network common QSPR model provided by the present invention with 673 experimental data.
  • Examples 1-19 multilinear regression-artificial neural network common QSPR models predicting flash points of pure organic compounds
  • 93 is a parity diagram comparing the predicted values of the multiple linear regression-artificial neural network common QSPR model of the flash point provided with the present invention with 1280 experimental data.
  • 94 is a multiple linear regression provided by the present invention is a histogram diagram illustrating a statistical "analysis by comparing the predicted values of the artificial neural network model with heunseong QSPR 1280 experimental data.
  • FIG. 95 is a parity diagram comparing the predicted values of the multiple linear regression-artificial neural network common QSPR model of the lower flammability temperature provided by the present invention with 1248 experimental data.
  • FIG. 96 is a histogram diagram showing statistical analysis by comparing the predicted values of the multiple linear regression-artificial neural network common QSPR model provided by the present invention with 1248 experimental data.
  • Example 1-21 Multilinear Regression-Artificial Neural Network Common QSPR Model Predicting Lower Flammability Limit Volume Percent of Pure Organic Compound.
  • FIG. 97 is a parity diagram comparing the predicted value of the lower limit volume percent QSPR model provided by the present invention with 1139 experimental data.
  • FIG. 98 is a histogram diagram showing statistical analysis by comparing a predicted value of a QSPR model with 1139 experimental data.
  • 99 to 100 are diagrams of Examples 1-22 (multiple linear regression-artificial neural network common QSPR models predicting the flammable upper limit temperature of pure organic compounds) of the present invention.
  • FIG. 99 is a parity diagram comparing the predicted value of the multiple linear regression-artificial neural network common QSPR model of the upper flammability temperature provided by the present invention with 1240 experimental data.
  • FIG. 100 is a histogram diagram showing statistical analysis by comparing the predicted values of the multiple linear regression-neural network common QSPR model with 1240 experimental data.
  • 101 to 104 are diagrams of Examples 1-23 (Multilinear Regression-Artificial Neural Network Common QSPR Model Predicting Upper Flammability Upper Limit of Pure Organic Compound).
  • FIG. 101 is a parity diagram comparing 457 experimental data with predicted values of a high / resorter model, which is a group contribution model for upper flammable volume percentage.
  • FIG. 102 is a parity diagram comparing the predicted value of the multilinear regression II artificial neural network QSPR model of the upper flammable volume percentage provided by the present invention with 1020 experimental data.
  • FIG. 104 is a histogram plot showing statistical analysis by comparing the predicted values of a multiple linear regression-artificial neural network QSPR model with 1020 experimental data.
  • 105 to 108 are diagrams of Examples 1 to 24 of the present invention (multilinear regression-artificial neural network common QSPR model for measuring the liquid density at the normal boiling point of pure organic compounds).
  • 105 is a parity diagram comparing the predicted values of the Sastri model, which is a group contribution model for liquid density at normal boiling point, with 898 experimental data.
  • FIG. 106 is a parity diagram comparing the predicted values of the multiple linear regression-neural network common QSPR model for the liquid density at the normal boiling point provided by the present invention with 899 experimental data.
  • 107 is a histogram diagram showing statistical analysis by comparing the predicted values of the Sastri model with 898 experimental data.
  • 108 is a histogram plot showing statistical analysis by comparing the predicted values of a multiple linear regression-artificial neural network QSPR model with 899 experimental data.
  • 109 to 112 are diagrams of Examples 1-25 of the present invention (multilinear regression-neutral neural network common QSPR model predicting heat of vaporization at 298.15K of pure organic compounds).
  • FIG. 109 is a parity diagram comparing the predicted value of the Gani model, which is a group contribution model for vaporization heat at 298.15K, with 873 experimental data.
  • 111 is a histogram plot showing statistical analysis compared to 873 experimental data for the Gani model.
  • FIG. 112 is a histogram plot showing statistical analysis compared to 1044 experimental data for a multiple linear regression-artificial neural network common QSPR model.
  • 113 to 116 are diagrams of Examples 1-26 (Multilinear Regression-Artificial Neural Network Common QSPR Model Predicting Heat of Vaporization at Normal Boiling Point of Pure Organic Compound).
  • FIG. 113 is a parity diagram comparing the predicted values of the Joback model, which is a group contribution model for the heat of vaporization measured at the normal boiling point, with 832 experimental data.
  • 114 is a parity diagram comparing 895 experimental data with predicted values of a multiple linear regression-artificial neural network common QSPR model for a heat of vaporization measured at a normal boiling point provided by the present invention.
  • FIG. 115 is a histogram diagram showing statistical analysis by comparing a predicted value of a Joback model with 832 experimental data.
  • FIG. 116 is a histogram plot showing statistical analysis by comparing the predicted values of a multiple linear regression-artificial neural network QSPR model with 895 experimental data.
  • 117 to 120 are diagrams of Examples 1-27 (Multilinear Regression—Artificial Neural Network Common QSPR Model Predicting Octanol Water Distribution Coefficient of Pure Organic Compounds).
  • 117 is a parity diagram comparing 808 experimental data with predicted values of a model using UNIFAC, which is a group contribution model for octane water distribution coefficient.
  • FIG. 118 is a parity plot comparing the predicted values of a multiple linear regression-artificial neural network common QSPR model for octanol sediment distribution coefficients with 1240 experimental data.
  • FIG. 119 is a histogram diagram showing statistical analysis by comparing prediction values of a model using UNIFAC with 808 experimental data.
  • FIG. 120 is a histogram plot showing statistical analysis comparing the predicted values of a multiple linear regression-artificial neural network QSPR model with 1240 experimental data.
  • 121 to 124 are diagrams of Examples 1 to 28 (multilinear regression-artificial neural network common QSPR models predicting water solubility of pure organic compounds) of the present invention.
  • FIG. 121 is a parity diagram comparing the predicted values of the Kuhne model, which is a group contribution model for water solubility, with 625 experimental data.
  • Fig. 122 is a parity diagram comparing the predicted values of the multi-regression-neutral neural network common QSPR model for water solubility with 783 experimental data.
  • FIG. 123 is a histogram diagram showing statistical analysis by comparing the predicted values of the Kuhne model with 625 experimental data.
  • 124 is a histogram plot showing statistical analysis by comparing the predicted values of a multiple linear regression-artificial neural network QSPR model with 783 experimental data.
  • 125 to 134 are diagrams for Example 2-1 (QSPR-SVRC model for predicting heat of vaporization of pure organic compounds).
  • 125 is a flowchart illustrating a process of building an SVRC prediction model for vaporization heat provided by the present invention.
  • 126 is a flowchart illustrating a process of constructing a multilinear regression QSPR model for among parameters required for a QSPR-SVRC model.
  • 127 is a flowchart illustrating a process of constructing a multilinear rare-artificial neural network common QSPR model for ⁇ 3 ⁇ 4 of parameters required for the QSPR-SV C model.
  • 128 is a view showing the structure of the artificial neural network used in the present invention.
  • 129 to 132 are diagrams comparing, for example, the predictive performance of a Watson model and a predictive model provided by the present invention among several existing predictive methods for some compounds.
  • 133 is a histogram diagram showing statistical analysis by comparing the predicted values of the Watson model with 28932 experimental data.
  • 144 is a histogram diagram showing statistical analysis by comparing the predicted values of the QSPR-SVRC model with 29073 experimental data.
  • Example 135 to 142 are diagrams of Example 2-2 (multilinear regression-artificial neural network common QSPR model predicting heat capacity of an ideal gas of a pure compound) of the present invention
  • 135 is a flowchart illustrating a process of building a QSPR prediction model for heat capacity of an ideal gas provided by the present invention.
  • FIG. 136 is a flowchart illustrating a process of constructing a multiple linear regression-artificial neural network common QSPR model used in the present invention.
  • Figures 137-140 are examples of some of the existing prediction methods for some compounds. The figures compare the predictive performance of the Joback model and the predictive model provided by the present invention.
  • 141 is a histogram diagram showing statistical analysis by comparing the predicted value of the Joback model with 14305 experimental data.
  • 142 is a histogram diagram showing statistical analysis by comparing the predicted values of the QSPR model with 17211 experimental data.
  • Example 2-3 QSPR-SVRC model for predicting heat capacity of liquid of pure organic compound.
  • 143 through 146 are examples of comparing the predictive performance of the predictive model provided by the present invention with the Bondi model among the existing prediction methods for some compounds.
  • 147 is a histogram diagram showing statistical analysis by comparing the predicted values of the Bondi model with 10053 experimental data.
  • 148 is a histogram diagram showing statistical analysis by comparing the predicted value of the SVRC model with 13223 experimental data.
  • 149 to 156 are diagrams for Examples 2-4 (QSPR-SVRC models for predicting saturated liquid density of pure organic compounds) of the present invention.
  • FIG. 154 is a histogram plot showing statistical analysis by comparing the predicted values of the Rackett model with 12449 experimental data.
  • FIG. 155 is a histogram diagram showing statistical analysis by comparing a predicted value of a Yamada-Gunn model with 12443 experimental data.
  • 156 is a histogram diagram showing statistical analysis by comparing the predicted values of the QSPR-SVRC model with 12449 experimental data.
  • Example 2-5 QSPR model for predicting the surface tension of a pure organic compound.
  • 157 is a flowchart illustrating a process of building a QSPR prediction model for surface tension provided by the present invention.
  • 158 to 161 are diagrams comparing the predictive performance of the Brock-Bird model, the Miller model, and the predictive model provided by the present invention, for some compounds, among the existing prediction methods.
  • 162 is a histogram diagram showing statistical analysis by comparing the predicted value of the Brock-Bird model with 7224 experimental data.
  • 163 is a histogram diagram showing statistical analysis by comparing the predicted value of the Miller model with 7224 experimental data.
  • 164 is a histogram diagram showing statistical analysis by comparing the predicted value of the QSPR model with 7224 experimental data.
  • 165 to 170 are views for Examples 2-6 (QSPR-SVRC model for predicting liquid thermal conductivity of pure organic compounds).
  • 165 through 168 are for example Satb— of existing prediction methods for some compounds.
  • FIG. 169 is a histogram plot showing statistical analysis by comparing the predicted values of the Sato-Riedel model with 11040 experimental data.
  • 170 is a histogram diagram showing statistical analysis by comparing the predicted values of the QSPR-SVRC model with 11040 experimental data.
  • Example 1 to 177 is a diagram of Example 2-7 (QSPR-SVRC model for predicting the gas thermal conductivity of pure organic compounds) of the present invention
  • 1 to 174 is a view comparing the prediction performance of the Misic-Thodos model, the modified Eucken model, the prediction model provided by the present invention of some of the existing prediction methods for some compounds.
  • 175 is a histogram diagram showing statistical analysis by comparing the predicted values of the Misic-Thodos model with 6090 experimental data.
  • 176 is a histogram diagram showing statistical analysis by comparing the predicted values of the modified Eucken model with 6090 experimental data.
  • 177 is a histogram diagram showing statistical analysis by comparing the predicted values of the QSPR-SVRC model with 6090 experimental data.
  • Examples 2-8 QSPR-SVRC models for predicting liquid vapor pressure of pure compounds
  • 178 to 181 are diagrams comparing, for example, the predictive performance of the Reidel model and the predictive model provided by the present invention.
  • 182 compares the predicted value of the Reidel model with 15,760 experimental data. Histogram plot showing statistical analysis.
  • FIG. 183 is a histogram diagram showing statistical analysis by comparing the predicted values of the QSPR-SVRC model with 15,760 experimental data.
  • Examples 2-9 are diagrams for Examples 2-9 (QSPR-SVRC models for predicting liquid viscosity of pure organic compounds).
  • 184 to 187 are diagrams comparing, for example, the predictive performance of the model among the existing prediction methods and the prediction model provided by the present invention for some compounds.
  • FIG. 188 is a histogram diagram showing statistical analysis by comparing a predicted value of a Letsou-Stiel model with 13541 experimental data. ,
  • 189 is a histogram diagram of 9499 experimental data for predicting a Joback model.
  • 190 is a histogram diagram of 10647 experimental data for predicting an Orrick-Erbar model.
  • 191 is a histogram diagram showing statistical analysis by comparing the predicted values of the QSPR-SVRC model with 13541 experimental data.
  • 192 to 196 are drawings for Examples 2-10 (QSPR-SVRC model for predicting gas viscosity of pure compounds) of the present invention.
  • 192 to 194 are examples of comparing the predictive performance of Reichenberg and the predictive model provided by the present invention, among existing prediction methods, for some compounds.
  • 195 is a histogram plot showing statistical analysis by comparing the predicted values of the Reichenberg model with 9010 experimental data.
  • 196 is a histogram diagram showing statistical analysis by comparing the predicted values of the QSPR-SVRC model with 9817 experimental data.
  • Examples 2-11 of the present invention are diagrams for Examples 2-11 of the present invention (a mathematical model for predicting second order virtual coefficients of pure organic compounds through prediction of boiling temperature).
  • 197 is a flowchart illustrating a process of constructing a mathematical model for second-order virtual reality coefficients provided by the present invention.
  • 198 to 202 are examples of comparing the predictive performance of the McCann model and the predictive model provided by the present invention with respect to several compounds for example.
  • FIG. 203 is a histogram plot showing statistical analysis by comparing the predicted value of the McCann model with 6047 experimental data.
  • 204 is a histogram diagram showing statistical analysis by comparing the predicted values of the model provided by the present invention with 7866 experimental data.
  • Embodiment 3 of the present invention a method and system for automating batch processing using a quantum mechanical calculation program and property information prediction models.
  • 205 is an embodiment flow diagram for a system that automates batch processing using a quantum mechanical calculation program and property information prediction models. '
  • 206 is a schematic structural diagram of a physical property prediction system according to an embodiment of the present invention. 207 shows in the molecular input and structural isomer generation step Structural isomers for "C4H100".
  • FIG. 209 shows a predicted value of surface tension with temperature using a constant value of a result file stored in the course of the present invention for Example 1-butanol.
  • FIG. 4 is a diagram illustrating Example 4 (a method of predicting the physical properties of a compound and a system of predicting the physical properties of the compound).
  • 210 is a flowchart of a method or system for predicting physical properties of a compound provided by the present invention.
  • 211 is a block diagram of a server / client system of the present invention.
  • Figure 212 is an example of entering the molecular formula in the search window of the system for predicting the properties of the compound.
  • FIG. 213 is a search result of a compound including a molecular formula input to a system for predicting physical properties of the compound.
  • 214 illustrates an example of inputting a molecular structure in a search box of a system for predicting physical properties of a compound.
  • FIG. 215 is a search result of a compound including a molecular structure input to a system for predicting physical properties of the compound.
  • 216 illustrates an example in which the number of atoms, molecular weight, InChl, and physical properties are input in a search box of a system for predicting the physical properties of a compound.
  • 217 shows the specifics for the conditions entered into the system for predicting the properties of the compounds. Physical properties of the compound.
  • Figure 218 is the result of the molecular presenter value of a specific compound for the conditions entered into the system for predicting the properties of the compound.
  • FIG. 220 shows the results of pharmaceutical properties of certain compounds with respect to conditions entered into a system for predicting the properties of the compounds.
  • FIG. 221 shows the results of physical properties of specific compounds with respect to temperature range conditions entered into a system for predicting the physical properties of compounds.
  • 222 shows the results of three-dimensional measurement information of a feature compound for a condition input to a system for predicting the properties of the compound.
  • 224 is a three-dimensional orbital result of a specific compound against the conditions entered into the system for predicting the physical properties of the compound.
  • the present invention includes 41 examples, which are largely divided into Examples 1 to 4.
  • Example 1 is an invention for a model for predicting the constant physical properties of the compound, including Examples 1-1 to 1-28,
  • Example 2 includes from 2 ⁇ 1 to 2- 11, depending on the silver The invention is about a model for predicting a property.
  • Example 3 is an invention of a system and method for automating a predictive model.
  • 4 is an invention for a system for predicting the physical properties of a compound.
  • Example 1-1 Multiple Linear Regression-Artificial Neural Network QSPR Model Predicting Normal Boiling Point of Pure Organic Compound
  • the normal boiling point refers to the temperature at which a pure substance boils under 1 atmosphere, that is, the phase at which a phase changes from liquid to gas.
  • the results of previous studies on the prediction of normal boiling point are described in Polling B. E., Prausnitz J. M., 0 'Conne 11 J. P., The Properties of Gases and Li quids (5 ed, New York, McGraw Hill, (2000).).
  • the well-known and widely used models for predicting normal boiling point are mainly group contributions ( Table 1 shows the major group contribution models for the normal boiling points that have been proposed in chronological order.
  • Y a 0 + ⁇ ajrij
  • Another way to create a QSPR model is to use an artificial neural network.
  • Artificial neural network technique is one of the long-time research results of human beings who are trying to make artificial intelligence machines by modeling human nerve cells with intelligence.
  • the neural network has an input layer that accepts input data, an output layer that produces output data, and a hidden layer located between them, each of which contains one or more nodes. ) Consists of. Each node of the hidden layer is connected to nodes of the input layer and the output layer, and each connection is given a quantity Wij, w'ij called weight. Each of the hidden and output layers . Nodes receive input through these connections from the nodes in the previous stages and then process them to produce output values, in which the function fi, f 2 , called the activation function, is applied.
  • the neural network is trained by using a sample set that combines various input values and output values that are applied to the input values. This means optimizing the weight of each connection using a back propagation algorithm to minimize the difference.
  • the neural network that has undergone such training does not provide the necessary rules or knowledge to solve the problem, but it establishes general rules through learning and gives valid output for unknown inputs. It is widely used as a very useful means in the field.
  • Figure 1 is a simplified representation of the process of building a multiple linear regression-artificial neural network common QSPR model for the normal boiling point.
  • the first thing to do when building the model is to collect and review the experimental data as specified in step 1.
  • all literatures, books, internet sites, etc. As a result of extensive investigation of the data, the data of normal boiling point for 2332 compounds meeting the conditions of the present invention were collected.
  • the collected data were examined in a variety of ways to determine if they were truly valid values that could be used to build the model.They were not experimental values, errors in data notation, or values for the same compound. After carefully analyzing data such as unreliably distant values or values for molecular descriptors that are difficult to prepare immediately, the data were modified or deleted to finally select data for a total of 2179 compounds. .
  • 'organic compound' or 'compound' is composed of five elements such as hydrogen 00, carbon (C), nitrogen (N), oxygen (0), sulfur (S), and the number of atoms excluding hydrogen Refers to a substance consisting of up to 25 molecules.
  • the next step is to prepare the values of the molecular descriptors for these compounds.
  • the values for various molecular descriptors totaling up to 1978 are computed in batches using a computer from files containing information on the molecules of each compound.
  • the Schrodinger equation is solved to solve the electron energy, but in the case of a system with many electrons, the Hart ree-Fock (HF) method using the approximation method that ignores electron correlation is used. Roothan, Rev. Mod. Phys. 23, 69 (1951)].
  • This approximation introduces a fundamental error in the calculated results and adds a multidimensional theoretical perturbation method to the Post Hart ree-Fock method [C. Mo Her and MS Plesset, Phys. Rev. 46, 618 (1934)], to obtain a more accurate solution, but require a relatively large amount of computation. In this way, it is too costly or time-consuming to calculate large molecules.
  • the Gaussian method that combines Hartley-Fork and Post Hartley-Fork [L. A. Curtiss,. Raghavachar i, G. W. Trucks, and J. A. Pople, J. Chem. Phys. 94, 7221 (1991); L. ⁇ . Curtiss, K. Raghavachar i, P. C. edfern, V. Rassolov, and J. A. Pople, J. Chem. Phys. 109, 7764 (1998) show very little error in energy prediction, but more calculations are required because they perform energy calculations for several post-Hartley-Ponch methods.
  • Density functional theory is used to find the ground state using the function of the total energy using the electron density function instead of the wave function with the multidimensional perturbation term in order to consider the correlation between the electrons for the molecules of many electrons. ). Seeger and JA Pople, J. Chem. Phys. 66, 3045 (1977). The advantage of density functional theory is that only electron density needs to be considered. More accurate results can be obtained with computations comparable to the Hartree-Fock method. The combination of exchange functions and correlation functions for calculating the exchange-correlation energy of the electrons is used to obtain more improved results without increasing the calculation amount.
  • the Hartley-Fork method the various Post Hartley-Fork method, Gaussian (G2, G3) method, density functional theory of various combinations of functions mentioned above. Among them, one method of density functional theory, which is the best among calculations, was selected. ⁇
  • the optimization of the molecular structure and the frequency calculation are performed by applying the calculation method of the specified density functional theory using a commercial quantum mechanical calculation program.
  • molecular descriptors can be obtained not only with the above information and property information but also with various numerical values that reflect the characteristics of the molecules.
  • Some molecular presenters can express the features of two-dimensional structures, while others present the features of three-dimensional structures. Divided into 24 categories, including detailed presenters in each category.
  • After calculating the molecular descriptor values we picked out those that were not suitable, that is, the values were the same for all sample compounds and could not be independent variables in the model. This prevents extraneous molecular expressions from being included in the predictive model, increasing the reliability of the model and thus reducing the number of molecular expressions. This can reduce the computation time required to find the model.
  • step 4 the sample compounds are divided into two parts: the training set used to explore the predictive model, and the test set used to test the predicted performance of the determined model.
  • Sample hydrocarbons and non-hydrocarbons were divided between 5: 5 and 8: 2, preferably 6 to 4, taking care not to distribute similar molecules in only one portion.
  • Each individual, called a chromosome is coded by combining the numbers of extracted molecular descriptors.
  • the chromosome of the multiple linear regression QSPR model formed by the 45th, 167, 684, 1033, and 1502th molecular descriptors among 1700 molecular descriptors can be expressed as (45, 167, 684, 1033, 1502).
  • Two parent chromosomes are selected from the populations thus generated and crossed over to generate children.
  • the Roulette Wheel method is adopted as a selection method for selecting the parent chromosomes.
  • the Roulette Wheel method is the most commonly used selection algorithm, which assigns a region of a lettlet to the chromosome in proportion to the fitness of each chromosome, and then rotates the lelette to select the chromosomes of the region. Therefore, in this method, the higher the fit, the more likely it is to be selected.
  • the coefficient of determination (R 2 ) or average absolute error (ME) of the regression model was used to calculate the fitness of each chromosome to determine the selection probability. In other words, the larger the coefficient of determination or the smaller the mean absolute error, the higher the probability of selection.
  • the single point crossover method is adopted as the breeding method.
  • the most common breeding method is to select a single crossing point from the parent chromosome and exchange the chromosomal parts before and after the point to create a child. Say that. For example, if the parent chromosome is given as (24, 262, 343, 789, 1290), (38, 454, 554, 1322, 1449) and there is a crossing point between the third and fourth elements (24, 262, 343, 1322, 1449), (38 454, 554, 789, 1290).
  • the next step is to validate the model. If a problem is found that the statistical t-test of the molecular descriptors included in the model is not good, go back and look for another model. For example, if the number of sample compounds is 1005 and the selected model consists of five molecular descriptors, then the statistical t-test for one of the molecular descriptors is 3.3 or higher, which is the probability that the molecular descriptor is irrelevant to its properties. Means less than 0.1%. In the present invention, if there is a molecular presenter having a statistical t-test less than about 3, the selected model is discarded. Found a model.
  • Step 7 assess the predictive performance of the found model using test sets that did not participate in model formation. If a problem is found in the training set that results in much lower predictive performance or samples that are significantly off predicted, go to step 4 and readjust the training and test sets before proceeding. If the difference between the training set and the test set does not exceed 20% of the absolute mean error (AAE) obtained for the training set, it is judged that the predictive performance is satisfied.
  • AAE absolute mean error
  • the range was limited to a neural network having a hidden layer between the input layer and the output layer, as shown in FIG. 2, with the three layers connected only in the direction of feed forward, that is, from the input to the output.
  • the input layer consisted of the same number of nodes with mip-forced values of the molecular representations included in the already established multilinear Hash QSPR model, and the output layer consisted of one node outputting the critical volume.
  • a weight set T, w ij (generated by using random number generation functions, w ' i j) of various initial values (typically less than 1000 sets) is prepared and initialized to each set using a training set.
  • w ij generated by using random number generation functions, w ' i j
  • initial values typically less than 1000 sets
  • the mean square error It shall be minimum. Normally this will occur within 3000 to 5000 repetitions.
  • the optimized neural network model for each set of initial values thus obtained is applied to the training set, the test set, and the test set, respectively, to collect only those whose mean square errors are smaller than those of the multiple linear regression QSPR model. If there are several of these, choose the best model based on the coefficient of determination or the mean absolute error.
  • the Gani model calculates the predicted value for only 1557 units and has a coefficient of determination of 0.939073 and an average absolute error of 26.31419 K.
  • the QSPR of the present invention calculates the predicted value for all 1786, and the coefficient of determination of 0.953283 and 8.946833 K The average absolute error value was found to be superior to the other two models.
  • the gray vertical line (I) represents the experimental error range, which is the same in other embodiments.
  • Entropy Standard State Absolute Entropy of Ideal Gas
  • 298.15K absolute temperature
  • lbar absolute temperature
  • Previous studies on the prediction of absolute gas entropy in a standard state have been described by Polling BE, Prausnitz JM, 0 'Connell JP The Properties of Gases and Liquids, (5 ed.). New York: McGraw Hill. (2000).].
  • Quantum mechanics calculations are more accurate when performing high-level calculations, but it is difficult to perform high-dimensional calculations because they require a lot of time and resources. Therefore, low-level quantum mechanical calculations are used a lot. Low-level quantum mechanical calculations can save time and resources required for the calculation, but have low accuracy.
  • Table 4 shows, in chronological order, the major group contribution models for the proposed normal gas absolute entropy prediction methods.
  • Example 1-1 The group contribution model and the QSPR model described in Example 1-1 have also been used in the abnormal gas absolute entropy prediction method in the standard state, and the problems of the prior art described in Example 1-1 are the same for the present embodiment. have. Collecting and reviewing the experimental data as specified in step 1 of FIG. 1 also applies to the present embodiment, but differs only in the type of physical properties and data values. Absolute gas in standard state for a total of 2540 compounds Entropy data was collected. Finally, data on 1312 compounds were selected. Furthermore, the descriptions of FIGS. 1 and 2, and Embodiment 1-1 related thereto also apply to the present embodiment, and overlapping descriptions are omitted. However, the 'overfit prevention criteria' described in step 10 of FIG. 1 becomes (5 caZ / (moZ * 0) in this embodiment. Through such a process, the QSPR model for the absolute gas entropy of the ideal gas is established. The results are briefly shown in Table 5. Table 5
  • FIGS 11 and 12 are parity diagrams showing the predictive performance of each model, and it can be seen from these figures that the ' multilinear regression-neural network common QSPR model has better performance than the existing model.
  • the mean error of the experimental data increase of the experimental data for 1233 compounds is about 3 cal / (mol * K) and the error between the experimental value and the predicted value centered on the value of 1.5 caZ / (moZ * / 0)
  • Figures 11 and 12 are plotted on the histogram as shown in Figures 11 and 12.
  • the quantum mechanics model has a probability of 44.28% and the multiple linear regression and artificial neural network QSPR model with 95.78% probability. It demonstrates that the absolute entropy value of the ideal gas in the standard state is predicted within the range of the mean experimental error, demonstrating that the multiple linear regression-artificial neural network QSPR model is more accurate than the existing model.
  • the acentric factor is defined in terms of the equivalent saturated steam pressure value corresponding to the conversion temperature value of 0.7. That is, given by the following equation, it is often used to predict other physical properties. .
  • Example 1-1 The group contribution model and the QSPR model described in Example 1-1 have also been used for the eccentricity factor, except for the QSPR prediction model. Richon and his colleagues proposed models incorporating artificial neural networks into group-contributed models, which showed results of crystal coefficients of 0.987 and 0.992 for 1709 and 1691 compounds, respectively. However, since it is based on the group contribution model, it retains the limitations of the group contribution model. As described in Example 1-1 The problems of the prior art exist in the same way for this embodiment. Collecting and reviewing the experimental data as specified in step 1 of FIG.
  • P 7 electron diffraction-based 3-D molecular structure represented eu order 9 / atomic weight weighted (3D-MoRSE - signal 09 1 weighted by atomic masses)
  • P 8 Yellow index (Lipinski Alert index) of Lipinski
  • the QSPR model calculates the predicted value for all 1840 and found that it is superior to other models with a coefficient of determination of 0.92936 and an average absolute error of 0.046518.
  • the gray vertical line (I) indicates the experimental error range.
  • 13, 14, and 15 are parity diagrams showing the predictive performance of each model, and it can be seen from these figures that the QSPR model of the present invention has superior performance to the other two models.
  • 16, 17, and 18 show the histogram of the error between the experimental value and the predicted value, centering on the value of the average absolute percent error of 1.5% among the experimental data for the 1840 compounds mentioned.
  • the histogram is a statistical analysis of the degree of agreement, with the middle bar representing the proportion of molecules with predictions that fall within the experimental error range. In the center of the bar Percentages generally refer to the level of prediction accuracy.
  • Critical pressure refers to the pressure at a critical point where a pure substance is a singular point in the critical state, namely the phase transition phenomenon of gas phase, liquid phase and solid phase.
  • the results of previous studies on critical pressure prediction are briefly introduced in Polling BE, Prausnitz JM, 0 'Connell JP, The Properties of Gases and Li quids (5 ed.), New York, McGraw Hill, (2000). It is.
  • the well-known and widely used models for predicting critical pressures today are mainly those using group contribution methods. Table 9 shows the major group contribution models for the critical pressures proposed in chronological order.
  • Example 1-1 The group contribution model and the QSPR model described in Example 1-1 have also been used in the critical pressure prediction method.
  • QSPR prediction models for the critical pressure.
  • the disadvantage is that the subject is limited to certain kinds of compounds. Srinivasa S. Godavarthy, Robert L. Robinson Jr., Khaled AM Gasem, Improved structure-property relat ionship mode 1 s for predict ion of critical properties, Fluid Phase Equilibria 264 (2008) 2? — ⁇ ] 1230 compounds
  • a model using 10 molecular descriptors with an absolute mean error of 1.24 bar and a coefficient of determinat ion of 0.951 is reported using the data for.
  • the problems of the prior art described in Example 1-1 also exist in this embodiment.
  • Joback model [Joback KG, Re id RC, Estimation of pure-component properties from group 'contributions, Chem. Eng. Comm. , 57: 233 (1987).]
  • Gani model [Const ant inou, L., Gani R., New Group Contribution Method for Estimating Properties of Pure Compounds, AIChE J., 40: 1697 (1994).].
  • the Joback model calculates the predicted value for 1642 only, and has a coefficient of determination of 0.95318 and an average absolute error of 1.55386bar.
  • the Gani model calculates predictions for only 1541, and has a coefficient of determination of 0.946661 and an average absolute error of 1.81649 bar.
  • the QSPR model of the present invention calculates the predicted value for all 1737 and found that it is superior to the other two models with a coefficient of determination of 0.98935 and an average absolute error value of 0.826127bar.
  • 19, 20, and 21 are parity diagrams showing the predictive performance of each model, and it can be seen from these figures that the QSPR model of the present invention has superior performance than the other two models.
  • the average absolute percentage error of the experimental data of the 1737 compounds mentioned above is about 7.8%, and the error between the experimental value and the predicted value is plotted as a histogram based on a smaller value of 1.5%. 23 , 2.
  • the Joback model is 77.16%
  • the Gani model is 70.99%
  • the QSPR model of the present invention has a 94.41% probability that the critical pressure and value are predicted within the range of the mean experimental error. Prove that it is more accurate than the model.
  • the critical pressures of this embodiment 1-4 are important properties that provide a reference point when trying to predict the values of different properties through correlation based on the principle of correlation states. It provides the effect of obtaining the value of the critical pressure with high accuracy.
  • Critical temperature refers to the temperature at a critical point where a pure substance is a singular point in the critical state, that is, the phase transition phenomenon of gas phase, liquid phase and solid phase.
  • Table 12 shows the main group contribution models for the proposed critical temperatures in chronological order.
  • Example 1-1 The group contribution model and the QSPR model described in Example 1-1 have also been used in the critical temperature prediction method.
  • QSPR prediction models for the critical temperature there are not many proposed QSPR prediction models for the critical temperature, and the proposed ones do not have a large number of sample compounds or are subject to application.
  • the problems of the prior art described in Example 1-1 also exist in this embodiment.
  • Joback model Joback K. G., Re id RC, Estimation of pure-component properties from group-
  • the QSPR model of the present invention calculates the predicted value for all 1558, and it is found that it is superior to the other two models with a coefficient of determination of 0.985536 and an average absolute error of 9.22645 K.
  • 25, 26 and 27 are parity diagrams showing the predictive performance of each model, and it can be seen from these figures that the QSPR model of the present invention has superior performance than the other two models.
  • the average absolute percentage error of the experimental data of the 1558 compounds mentioned is about 3.6%, and the error between the experimental value and the predicted value is plotted as a histogram centered on the smaller value of 1.5%. 29, 30.
  • the critical temperature of this embodiment 1-5 is an important physical property that provides a reference when trying to predict "the value of the different physical properties from the correlation, based on the principle of a corresponding state (corresponding states principle), the present embodiment The effect of obtaining this critical temperature value with high accuracy is provided.
  • Critical V is the volume per unit mass when a pure substance is in the critical state, i.e., the critical temperature and the critical pressure.
  • Table 15 shows the major group contribution models for the proposed critical volumes in chronological order.
  • Example 1-1 Using data for 108 compounds, a model using four molecular descriptors with a standard error of 0.00001180 m 3 / m and a coefficient of determinat ion value of 0.9942 has been reported.
  • the problems of the prior art described in Example 1-1 also exist in this embodiment.
  • test data as is also specified in the step 1 of the first reviewing classified work and the type and the data value only i differences in physical properties but the same applies to the embodiment, the threshold volume of data has been collected for a total of 1414 different compounds to It became. Finally, data for 1257 compounds were selected. The model was also categorized into 631 hydrocarbons and 626 non-hydrocarbons.
  • the Joback model Joback. G., Reid RC, Estimation of pure-component properties from group-contributions, Chew. Eng. Co ⁇ . , 57: 233 (1987).
  • the Gani model Constant inou, L., Gani. , New Group Contribution Method for Estimating Properties of Pure Compounds, AIChE J., 40: 1697 (1994).
  • the Joback model calculates the predicted value only for 1141, and has a coefficient of determination of 0.994977 and an average absolute error of 11.97672 n 3 / m.
  • Gani's model calculates the predicted value only for 1078 pieces and has a coefficient of determination of 0.98648 and an average absolute error of 19.38119 cm 3 / m.
  • the QSPR model calculates the predicted values for all 1202 models, and it is superior to the other two models with a crystal coefficient of 0.997486 and an average absolute error value of 8.722653 cm 3 / m.
  • 31, 32, and 33 are parity diagrams showing the predictive performance of each model. From these figures, the QSPR model shows better performance than the other two models. It can be seen visually.
  • the average absolute percent error of the experimental data of the 1202 compounds with known experimental error is about 5.8%, and the error between the experimental value and the predicted value is drawn as a histogram centering on the smaller value of 1.5%. 36.
  • the Joback model is 93.16%
  • the Gani model is 83.02%
  • the QSPR model is 95.34%, which shows that the critical volume values are predicted within the range of the mean experimental error. Prove it.
  • the critical volume of Examples 1-6 is an important property that provides a reference point when trying to predict the values of different properties through correlation based on the corresponding states principle. It provides the effect of obtaining critical volume and value with high accuracy.
  • the hydrogen (H), carbon (C), nitrogen (N), 'oxygen (O), sulfur (S), etc. made up of elements of less than 5 kinds and the molecular number is less than or equal to 25 of atoms other than hydrogen
  • It provides a mathematical model for predicting with high accuracy the energy of formation of the ideal gas of pure organic compounds (Enthalpy of Formation for Ideal Gas at 298.15K).
  • the above model obtains the generated energy of the ideal gas from the quantum mechanical calculations for a plurality of organic compounds satisfying the above-mentioned conditions where the experimental value of the generated energy of the ideal gas is known, and then divides the types of the common orbital atoms by atom.
  • the energy of ideal gas (Enthalpy of Formation for Ideal Gas at 298.15K) refers to the energy of ideal gas formation when pure material is at 298.15K (absolute temperature).
  • Energy generation prediction of an ideal gas whilst the research on the literature [Poling BE, Prausnitz JM, 0 'Connell JP The Properties of Gases and Li quids,. 5 ed. ). New York: McGraw Hill. (2000).].
  • the well-known and widely used models for predicting the energy of generation of ideal gases are mainly using group contribution method and quantum mechanical calculation. Table 18 shows, in chronological order, the major group contribution models for predicting the energy generation of ideal gases that have been proposed.
  • the group contribution model described in Example 1-1 has also been used in the method for predicting abnormal gas generation energy, and one of the other methods that may be an alternative to the group contribution method
  • a quantum mechanical calculation method has a big disadvantage in that it takes too much calculation time instead of calculating an accurate prediction value when a high dimensional calculation is performed. Therefore, after the appropriate level of quantum mechanical calculation, we selected a method to correct the error of the predicted value caused by the low level of quantum mechanical calculation.
  • a quantitative structure-property relationship (QSPR) method was used as a method of correcting the error of quantum mechanical calculation.
  • the use of the common orbital type in the atom as a molecular presenter is a modification of the idea obtained from the atomic orbital molecular graph (A0MG), and the energy contributing to the energy generated by the ideal gas varies according to the type of the common orbital by atom. I applied the idea that. A detailed description of the A0MG pattern will be given later.
  • Collecting and reviewing the experimental data as specified in step 1 of FIG. 1 also applies to the present embodiment, but differs only in the types of physical properties and data values, and generates energy data of an ideal gas for a total of 4887 compounds.
  • data on 2041 compounds were selected.
  • the property prediction model it was possible to classify the sample compounds into pure molecules and molecules including radicals, and to build a model separately in the light of previous experiences in terms of predictive performance. In the light of our previous experience, it was better to model separately by classifying carbon and hydrogen-only hydrocarbons and non-hydrocarbons. So they decided to model them by classifying them into molecules containing 524 radicals, 663 hydrocarbons, and 854 non-hydrocarbons.
  • the 'organic compound' or 'compound' is composed of five elements such as hydrogen (H), carbon (C), nitrogen (N), oxygen (0), and sulfur (S), except for hydrogen It refers to a substance composed of molecules having a number of 25 or less.
  • the preparation of the prediction values by the quantum mechanical calculation for these compounds is the same as in Example 1-1.
  • the calculation method of the specified density functional theory is applied by using a commercial quantum mechanical calculation program. Optimization of the molecular structure and frequency calculation will be performed.
  • the next step is to prepare A0M to compensate for errors in quantum mechanical calculations.
  • the patterns in FIG. 38 are patterns included in covalent bonds of carbon, nitrogen, and oxygen atoms in a molecule.
  • the presence or absence of covalent bonds has a special stabilization of the overall energy of the molecule, which is also a separation pattern in which each atom in the molecule contributes to energy.
  • 17 A0MG patterns can be defined for all molecules consisting of C, H, N, 0, and S only. These 17 A0MG patterns apply to all pure molecular compounds, and molecular compounds with radical centers apply 15 A0MG patterns, including only the C5 pattern, among the A0MG patterns that may appear in the covalent bonds shown in FIG. 38.
  • the predictive performance of the results so far, of the pure molecule, hydrocarbons that appeared to be a fairly good performance of the process did not proceed after. And the predictive performance of non-hydrocarbons, molecules with no interaction between radical center and resonance structure, was not satisfactory, but showed good predictive performance. Therefore, rather than adding molecular markers, we use a neural network Considering the nonlinearity between molecular descriptors and predictive properties, we proceeded to increase the predictive performance.
  • the next step is to prepare the values of molecular descriptors for the compounds that have resonance structures and interactions with the radical centers.
  • This document prepares the values of the molecular presenters, which are collectively referred to as the quantum mechanical calculation and the calculation of the values for the A0MG pattern.
  • a total of 1978 values for various molecular descriptors were collectively calculated by computer from files containing information about the molecules of each compound, which was then unsuitable, i.e. for all sample compounds. This same thing has been picked out that can't be a model independent variable. This is because reducing the number of molecular descriptors can reduce the computation time required to find the optimal model.
  • step 4 the sample is divided into two parts: the training set used to explore the predictive model and the test set used to test the predicted performance of the determined model.
  • the set of sample compounds to be used in this model was divided roughly into pure non-hydrocarbon molecules with radical centers and without radical centers. And molecules with radical centers are divided into structures with and without resonance centers.
  • Each of the three sample compound sets were divided into 5: 5 to 8: 2, preferably 6 to 4, training groups and test sets, taking care not to distribute similar molecules on one side.
  • the genetic algorithm is then based on a training set for molecules with interactions between radical centers and resonance structures in the training set [Judson, "Genet ic Algorithms and Their Uses, in Chemistry", Reviews in Comput at i ona.
  • the main content of QSPR prediction model for the energy of ideal gas of molecule is the interaction between resonance structure and radical center.
  • the Joback model calculates the predicted value for only 1407, and has a coefficient of determination of 0.985271 and an average absolute error of 3.767342 fccaZ / moZ.
  • Gani's model calculates predicted values for 1318 only, and has a coefficient of determination of 0.991044 and an average absolute error of 2.625788 kcal / m.
  • the multiple linear regression-artificial neural network common QSPR model calculates the predictions for all 1535 and has a superior coefficient of determination of 0.996184 and an average absolute error of 1.892175 kcal / m. It became. 39, 40, and 41 are parity diagrams showing the predictive performance of each model.
  • the multilinear regression-artificial neural network common QSPR model has better performance than the other two models.
  • the average error of the known experimental error of the experimental data for 1535 compounds is about, and the error between the experimental value and the predicted value is drawn as a histogram of this value as the stiffness is 42, 43, 44.
  • the Joback model is 78.53%
  • the Gani model is 90.2
  • the multiple linear regression-artificial neural network QSPR model has a 94.39% probability that it predicts the generated energy of the ideal gas within the range of the mean experimental error.
  • Regression-The artificial neural network common QSPR model proves to be more accurate than the other two models.
  • the experimental values are shown in FIG.
  • the Joback model and the Gani model do not calculate the radical compounds, but the multiple linear regression-artificial neural network common QSPR model for all 294.
  • the multilinear regression-artificial neural network common QSPR model of the radical compound in FIG. 46 shows a 87.75% probability of predicting the generated energy value of the ideal gas within the range of the mean experimental error. This proves to be more accurate than the other two models.
  • Example 1-8 Multiple Linear Regression-Artificial Neural Network QSPR Model Predicting Heat of Fusion of Pure Organic Compound
  • enthalpy of fusion at melting point refers to the energy required when a pure substance melts under one atmosphere, that is, the energy required to phase change from solid to liquid.
  • Table 23 shows the major group contribution models for the proposed heat of fusion in chronological order.
  • Example 1-1 The group contribution model and the QSPR model described in Example 1-1 have also been used in the heat of fusion prediction method, and the problems of the prior art described in Example 1-1 also exist in this embodiment.
  • step 1 of FIG. 1 the collection and review and classification of the experimental data are equally applied to the present embodiment, but differ only in the type of physical properties and the data values, and data on the heat of fusion for a total of 1267 compounds is collected. It became. Finally, data on 1265 compounds were selected. The model was then categorized into 458 hydrocarbons and 807 non-hydrocarbons.
  • the established QSPR model and the existing group contribution model widely used namely Joback model [Joback KG, Re id RC, Estimation of pure-component properties from group ⁇ contr i but ions Chew. Eng. Comm. , 57: 233 (1987).]
  • Joback model has a coefficient of determination of 0.85962 and an average absolute error of 0.889623 kcal / nl for 1093 compounds.
  • the QSPR model of the present invention was found to be superior to the Joback model with a crystal coefficient value of 0.96352 and an average absolute error value of 0.50397 kcal / mol for 1189 compounds.
  • Parity diagrams show the predictive performance of each model, and it can be seen from these figures that the QSPR model of the present invention has superior performance to the Joback model.
  • the mean absolute error of the experimental data of the 1189 compounds mentioned is about 1.5 kcal / mol and the error between the experimental value and the predicted value is plotted on the basis of the smaller value of lkcal / mol. 49, 50.
  • These figures show that the Joback model predicts the heat of fusion within the range of the mean experimental error with a probability of 86.27% and the QSPR model of the present invention 96.55), proving that the model of the present invention is more accurate than the existing model.
  • Saturated liquid density refers to the amount of liquid per unit volume when a pure substance is in a saturated state, that is, when gas and liquid coexist in equilibrium in a closed container.
  • Well known models for predicting saturated liquid density at 298.15 K are described in Constant inou L., Gani R., 0 'Connell JP, Fluid Phase Equil. , 103: 11 (1995).
  • This model predicts the liquid molar volume at 298.15K, which is the inverse of the saturation liquid density at 298.15K. It is based on experimental data on 312 compounds and uses a group contribution method. It is built.
  • the group contribution model and the QSPR model described in Example 1-1 were also used in the saturation liquid density prediction method at 298.15K, and the problems of the prior art described in Example 1-1 are the same for this embodiment. Doing.
  • the predicted performance of the widely used existing group contribution model that is, the Gani model [Constant inou, L., Gani R., New Group Contribution Method for Estimating Properties of Pure Compounds, AIChEJ., 40: 1697 (1994).] Comparison was made using experimental data for the compounds. Since the Gani model is for the liquid molar volume at 298.15K, the inverse of the values obtained through the QSPR model was taken and compared. As a result, the Gani model only calculates predictions for 1028 It was found that the crystal coefficient value was 0.9955 and the average absolute error value was 2.97418 cm 3 / m.
  • the present invention and the QSPR model calculate the predicted values for all 1152 compounds, and found that they are superior to the Gani model with a coefficient of determination of 0.996726 and an average absolute error of 2.13636 cm 3 / m.
  • 51 and 52 are parity diagrams showing the predictive performance of each model, and it can be seen from these figures that the QSPR model of the present invention has superior performance than the conventional predictive model.
  • the average absolute percent error of the experimental data for the 1152 compounds mentioned is about 3.5%, and the error between the experimental value and the predicted value is plotted as a histogram around the value of 1.5% which is smaller than that shown in FIG. 53. 54.
  • These figures show that the Gani model is 87.93% and the QSPR model of the present invention is 96.87%, which predicts the liquid molar volume value at 298.15K within the range of average experimental error. Prove it is correct.
  • the refractive index is the degree to which the light incident on a medium in a vacuum bends, which is equal to the speed of light in the vacuum divided by the speed of light in the medium. It is usually based on the refractive index of yellow light of sodium with a wavelength of 589.6 nm. See Katritzky AR, Si Id S., Karelson M., J. Chan. Inf. Comput. Sci.
  • Example 1-1 For 125 organic compounds Based on the data, five molecular descriptors are used to build a QSPR model that shows a coefficient of determinat ion of 0.945 and a standard error of 0.0155.
  • the group contribution model and the QSPR model described in Example 1-1 have also been used in the prediction method of refraction, and the problems of the prior art described in Example 1-1 also exist in this embodiment.
  • step 1 of FIG. 1 Collecting and reviewing the experimental data as specified in step 1 of FIG. 1 is equally applicable to the present embodiment, but differs only in the type of physical properties and data values, and data of refractions for a total of 1367 compounds were collected. . Finally, data on 1017 compounds were selected. The model was also categorized into 367 hydrocarbons and 650 non-hydrocarbons.
  • FIG. 1 and described in Figure 2, and embodiment example 1-1 also related description are equally applicable, and duplicate "in the present embodiment will be omitted.
  • the 'overfit prevention criteria' described in step 10 of FIG. 1 is 0.025 for hydrocarbons and 0.03 for non-hydrocarbons.
  • Tables 28 and 29 The results for the model finally established through this process are summarized in Tables 28 and 29. In this case, the value of 1, the first factor, is used for the polarizability of the compound and the saturated liquid density at 298.15K, or by the calculation method based on the QSPR model. .
  • Broto-Moreau's phase structure autocorrelation weighting (Broto-Moreau autocorrelation of a topological structure-lag 2 / Weighted by atomic olarizabi 1 ities)
  • the QSPR model of the present invention calculates the predicted value for 890, and it is found that it has a coefficient of determination of 0.991066 and an average absolute error of 0.003823. Fig. 55,
  • FIG. 56 is a graphical representation of the predictive performance of the 890 compounds of this established QSPR model.
  • FIG. 55 is a parity diagram showing the predictive performance of the model, and it can be seen that the comparative data with the experimental values are concentrated on the diagonal and thus have excellent performance.
  • the average absolute error of the experimental data of the 890 compounds mentioned is about 0.008 and the error between the experimental value and the predicted value is drawn as a histogram centering on the smaller 0.005.
  • This figure shows that the QSPR model of the present invention predicts the value of the refractive index within the range of the average experimental error with a probability of 95.5%, demonstrating that the model of the present invention is very accurate.
  • the refractive index is a very useful property for analyzing a material, and is also a property that is referred to for selecting materials of components that are included in an optical device or an electronic device. This embodiment provides an effect of obtaining a high accuracy of the refractive index values of many compounds.
  • the solubility parameter in order for the solute to dissolve in a solvent, the attraction force between the solute molecules and the attraction force between the solvent molecules must be comparable to the attraction force between the solute and the solvent. And the attraction between the solvent molecules can be expressed as the energy required to separate one molecule from each molecular group. This energy is cohesive energy.
  • the coherent energy per unit volume is called the cohesive energy density (CED), and the square root of the coherent energy density is called the solubility parameter ( ⁇ ).
  • CED cohesive energy density
  • solubility parameter
  • Cohesive energy (U coh ) for low molecular weight compounds is usually obtained from the heat of vaporization (AH ,, ap ).
  • R is the ideal gas constant. Heat of vaporization.
  • LMV is the liquid molar volume.
  • QSPR and T 298.15K.
  • the group contribution ' model and QSPR model described in Example 1-1 have also been used in the dissolution index prediction method, and the QSPR prediction model for the dissolution index has some proposals, but the number of sample compounds is limited or limited to a specific series of compounds. Most of them are. James E. Code, Andrew J. Holder and J. David Eick, Direct and Indirect Quantum Mechanical '' QSPR Hidebrand Solubility Parameter Models, QSAR Comb. Sci. 27, 2008, No.
  • Example 1-1 a model using four molecular descriptors with a standard error of 0.69 (J / cm 3 ) 1/2 and a coefficient of determinat ion of 0.97 using data for 56 compounds. Is reported.
  • the problems of the prior art described in Example 1-1 also exist in this embodiment. This example is composed of five or less elements such as hydrogen (H), carbon (0, nitrogen (N), oxygen (0), and sulfur (S)).
  • a QSPR model for the dissolution index of a pure organic compound, which is a liquid, is similarly applied to this embodiment, but the collection and review of experimental data as specified in step 1 of FIG. Data of the dissolution index for a total of 1658 compounds were collected, and finally, data for 1200 compounds were selected and further described in FIGS. 1 and 2 and related Examples 1-1. The same applies to the present embodiment, and overlapping description is omitted, except that the 'overfit prevention criteria' described in step 10 of FIG.
  • P 6 Molecular profile no. 13
  • P 7 Representation of 3D molecular structure based on electron diffraction-Order 13 / atomic weighting (3D— MoRSE-signal 13 1 weighted by atomic masses)
  • the predictive performance of the widely used Hilderbrand mathematical model was compared using data from 1192 compounds with known experimental values.
  • the liquid dissolution index is obtained indirectly by adding the heat of vaporization and the liquid molar volume at 298.15K, which are obtained from known values of the Hilderbrand equation or by a calculation method based on the QSPR model.
  • the Hilderbrand equation had a coefficient of determination of 0.924974 and an average absolute error of 236.4067 (cal / m 3 ) (1/2) .
  • the QSPR model of the present invention has a coefficient of determination of 0.9709 and an average absolute error value of 185.2331 (cal / m 3 ) (1/2) . I found it superior to the method.
  • 57 and 58 are parity diagrams showing the predictive performance of each model, and it can be seen from these figures that the QSPR model of the present invention has superior performance than the existing model.
  • the average percent error of the experimental data for the 1192 compounds mentioned is about 6% and the histogram plots the error between the experimental value and the predicted value around 1.5%, which is smaller than this. to be.
  • the concept of the dissolution index according to this embodiment is of great value in expressing the intermolecular relationships in other complex materials such as asphalt and crude oil, and is used to predict the solubility of the mixtures without experimentation.
  • Standard State Absolute Entropy refers to absolute entropy when a pure substance is in standard state, ie 298.15K (absolute temperature) and lbar.
  • Previous studies on standard-state absolute entropy predictions are described in Polling BE, Prausnitz JM, 0 'Connell JP The-Properties of Gases and Liquids, (5 ed.). New York: McGraw Hill. (2000).].
  • the current well-known and widely used models for predicting standard state absolute entropy are mainly those using group contribution methods and quantum mechanical calculations.
  • Quantum mechanics calculations are more accurate when performing high-level calculations, but it is difficult to perform high-dimensional calculations because they require a lot of time and resources. Therefore, there is used a lot of low-dimensional quantum mechanical calculations of the low "quantum calculations of the level has to save the resources required for the calculation time and calculation accuracy, but the disadvantage is low.
  • Table 32 shows the major models of standard state absolute entropies that have been proposed in chronological order.
  • the group contribution model and the QSPR model described in Example 1-1 have also been used in the standard state absolute entropy prediction method.
  • QSPR models for predicting standard state absolute entropy using neural networks, but most of them are limited to a small number of sample compounds or only to compounds in a particular state (secondary body).
  • A. Fazel i et al. Prediction of absolute entropy of ideal gas at 298 K of pure chemicals through GAMLR and FFNN. Energy Conversion and Management 52 (2011) 630—634] provides data on 1700 compounds.
  • a model using three molecular descriptors having a coefficient of determinat ion value of 0.9885 has been reported.
  • a feed forward neural network (FFNN) was carried out to report a network layer [3-10-1] having a coefficient of determinat ion of 0.9909.
  • Example 1 to 11 the 'overfit prevention criteria' described in step 10 of FIG. 1 is approximately an average error of the experimental data. Through this process, the final established model The results are summarized in Table 33, 34. 35.
  • Domalski Established Multiple Linear Regression-Artificial Neural Network Hybrid QSPR Model and Existing Group Contribution Model Widely Used, ie Domalski [Domalski ES, Hearing ED, Estimation of Thermodynamic Properties of C_H_N ⁇ 0—S ⁇ Ha 1 ogen Compounds at 298.15 K , J. Phys. Chem. Ref. Data, 1993.22.805].
  • the predictive performance of the model was compared using data of 800 compounds with known experimental values. As a result, the Domalski model calculates the predicted value for 624 pieces, and the liquid has a coefficient of determination of 0.981356 and an average absolute error of 2.029146caZ / (moZ * Ar).
  • the solid had a coefficient of determination of 0.943614 and an average absolute error of 4.89782 cal / (mol * K).
  • the multiple linear regression-artificial neural network hybrid QSPR model calculates the predicted values for all 800, and has a coefficient of determination of 0.981693 and an average absolute error of 2.355187caZ / (moZ * i ⁇ :) for liquids.
  • 61, 62, 63, and 64 are parity diagrams showing the predictive performance of each model, and it can be seen from these figures that the multilinear regression-artificial neural network common QSPR model has better performance than the conventional model.
  • the average error of things, the experimental error of the test data known about the 800 compound is a liquid between about 3 cal / (mol * K), and the solid is about 4.78 cal / (mol * K) greater 5 cal / imol than Figures 65, 66, 67, and 68 plot the histogram of the error between the experimental value and the predicted value centering on the value of * K).
  • Example 1-1 The group contribution model and the QSPR model described in Example 1-1 have also been used in the standard state generation energy prediction method, and the problems of the prior art described in Example 1-1 exist in the same manner as in the present embodiment.
  • step 1 of FIG. 1 Collecting and reviewing the experimental data as specified in step 1 of FIG. 1 is the same as in the present embodiment, but differs only in the type of physical properties and data values, and data of refractive indices for a total of 1583 compounds were collected. . Finally, data on 1395 compounds were selected.
  • liquid and solid is because consider Hung high heat (heat of fusion) caused by the phase change nanueotgo in liquid and solid samples, liquid compounds with hydrocarbon (hydrocarbon) consisting of only carbon and hydrogen Modeling them separately as nonhydrocarbons
  • hydrocarbon hydrocarbon
  • the 'overfit prevention criteria' described in step 10 of FIG. 1 is set to 0.0 kcal / mol for the liquid hydrocarbon, so that all the predicted values are adopted by the multi-linear regression QSPR model. In the case of solids, 7 kcal / mol and 13 kcal / nl, respectively, do not exceed the set reference value.
  • the crystal coefficient value was 0.998338 and the average absolute error value was 1.31632kcal / mol
  • the solid value was 0.998364 and the average absolute error value was 2.973558 kcal / mol.
  • 69 and 70 are parity diagrams showing the predictive performance of each model, and it can be seen that the comparative data with the experimental values are concentrated on a diagonal line and thus have excellent performance.
  • the average absolute error of the experimental data of the 1236 compounds with known experimental errors is about 3 kcal / mol, and the error between the experimental value and the predicted value is drawn as a histogram based on these values. In these figures, it is proved to be fairly accurate by showing that the predicted final energy values within the range of average experimental errors are probable 97.26% for liquids and 85.89% for solids in our final model.
  • Magnetic susceptibility is the ratio of magnetization to the strength of a magnetic field by pure matter. Things are mostly those calculated using quantum mechanics methods are 'well-known as a model to predict the magnetic susceptibility widely used. Quantum mechanics calculations are more accurate when performing high-level calculations, but it is difficult to perform high-dimensional calculations because they require a lot of time and resources. Therefore, low-dimensional quantum mechanical calculations are frequently used. Low-dimensional quantum mechanical calculations can save computation time and resources required for calculation, but have low accuracy. .
  • step 1 of FIG. 1 Collecting and reviewing the experimental data as specified in step 1 of FIG. 1 is equally applicable to the present embodiment, but differs only in the type of physical properties and data values, and data of refractive indices for a total of 322 compounds were collected. . 1 and 2, and the description in Embodiment 1-1 related thereto, the same applies to the embodiment, and overlapping descriptions are omitted. However, the 'overfit prevention criteria' described in step 10 of FIG. 1 becomes 3 ppm in this embodiment.
  • the invention thus established to show the superiority than conventional techniques
  • the quantum mechanical model calculates the predicted value for only 320, and it has a coefficient of determination of 0.988927 and an average absolute error of 1.90168ppm.
  • the multiple linear regression-neural neural network QSPR model calculates the predicted values for all 320 and shows superiority over the previous model with a coefficient of determination of 0.991011 and an average absolute error of 1.397392 ppm.
  • 73 and 74 are parity diagrams showing the predictive performance of each model, and it can be seen from these figures that the multilinear regression-neural network common QSPR model has better performance than other models.
  • the mean error of the experimental data increase of the experimental data for the 320 compounds known is about 3%, and the error between the experimental value and the predicted value is plotted as a histogram with respect to this value.
  • the quantum mechanical calculation model 88.43%, the multiple linear regression-artificial neural network QSPR model of the present invention predicts the susceptibility values within the range of the mean experimental error with a probability of 91.25%.
  • the common QSPR model proves to be more accurate than the existing model.
  • the magnetic susceptibility is an important property that exclusively requires values for each material in analytical chemistry, geological research, and new material research.
  • the present embodiment provides an effect of obtaining the magnetic susceptibility values of many compounds with high accuracy.
  • Polarizability refers to the extent to which electrons in atoms or molecules are easily localized.
  • the group contribution model and the QSPR model described in Example 1-1 have also been used in the polarization prediction method, and the prediction model uses the QSPR method to predict the correlation with physical properties using molecular descriptors.
  • the prediction model uses the QSPR method to predict the correlation with physical properties using molecular descriptors.
  • Hammond J.. , J. Chem. Phys. , 2007, 127, 144105] covered six polyaromatic hydrocarbons (PAHs) and discussed only comparisons through various quantum mechanical methods. See Martin D., Sild S., Maran U., Karelson M., J. Phys. Chem.
  • Example 1-1 Collecting and reviewing the experimental data as specified in step 1 of FIG. 1 is also applied to the same example, but the difference is only in the type of physical properties and data values, the data of the refraction for a total of 231 compounds were collected Finally, data for 231 compounds were selected. It is classified into 79 hydrocarbons and 152 non-hydrocarbons, but since the number of actual values is small, a model has been established for the whole.
  • Ionization potential refers to the average energy lost to ionizing radiation in order for a pure substance to produce a pair of ionic pairs.
  • Example 1-1 The group contribution model and the QSPR model described in Example 1-1 have also been used in the ionization energy prediction method, and another of the models for predicting the ionization energy is optimized with a molecule in a neutral state and only one electron is contained therein ( +) There is a way to calculate the energy of the structure made in the state of charge and compare them with each other.
  • the problems of the prior art described in Example 1-1 also exist in this embodiment.
  • step 1 of FIG. 1 Collecting and reviewing the experimental data as specified in step 1 of FIG. 1 is equally applicable to the present embodiment, but differs only in the type of physical properties and data values, and data of refractive indices for a total of 627 compounds were collected. ⁇ Finally, data for 573 compounds were selected.
  • the model was classified into 190 hydrocarbons and 383 non-hydrocarbons. 1 and 2, and the description in Embodiment 1-1 related thereto also apply to this embodiment in the same manner, and overlapping descriptions are omitted. However, the 'overfit prevention criteria' described in step 10 of FIG. 1 becomes (5.6 kcal / niol) in the case of a hydrocarbon in this embodiment.
  • highest level occupied orbital energy (HOMO energy)
  • pZ highest eigenvalue n. 2 of Burden matrix / weighted by atomic van der Waals volumes
  • pl 1st component accessibility directional WHIM index 1 weighted by atomic electrotopological states
  • pio Aver age Bonding Information content (order 0)
  • 81 and 82 are parity diagrams showing the predictive performance of each model, and it can be seen from these figures that the QSPR model of the present invention has superior performance to the Quantum model.
  • the mentioned one of the experimental data for 567 compounds ⁇ experimental error is the mean absolute percentage error of what is known is drawn the error between about 3 kcal / iTOl
  • These figures show that the Quantum model predicts the value of ionization energy with 69.74% and 95.41% of the present invention, proving that the model of the present invention is more accurate than other models.
  • Electron affinity refers to the energy released when 1 mo i of gaseous atom becomes 1 mole of electrons and becomes gaseous anion.
  • Predictive model 1 shows better performance in predicting hydrocarbons
  • predictive model 2 shows better performance in predicting non-hydrocarbons. Furthermore, the description in Embodiment 1-1 related to FIG. 1 also applies to this embodiment, and the description thereof is omitted. The final results of this process are summarized in Tables 43 and 44.
  • the predicted performance of the model using LUMO Energy (hereinafter referred to as the Quantum model) was compared using the data of 146 compounds with known experimental values through the QSPR model and the quantum mechanical calculation thus established.
  • the Quantum model has a crystal coefficient of 0.566661 and an average absolute error of 30.87959 kcal / irol for all 146 compounds.
  • QSPR model of the present invention bring the coefficient of determination value and the mean absolute error value of 3.287933 kcal / irol of 0.972465 with respect to the total 146 compound it has been found to better than 'Quantum models.
  • Example 1-1 is the surface tension
  • is the mass
  • Pl is the liquid and gas density, respectively.
  • the group contribution model and the QSPR model described in Example 1-1 were also used in the para-correlation method.
  • the problems of the prior art described in Example 1-1 also exist in this embodiment.
  • the collection and review classification of the experimental data is equally applicable to this embodiment. There are only differences in physical properties and data values, and the data of electron affinity for a total of 829 compounds were collected. Finally, data for 674 compounds were selected.
  • the description in the embodiment 1-1 related to FIGS. 1 and 2 also applies to the embodiment, and the repeated description is omitted.
  • the "overfit prevention criterion" described in step 10 of FIG. 1 becomes 0.0Q6 in this embodiment.
  • Table 45 The final results of this process are summarized in Table 45.
  • the QSPR model of the present invention calculates the predicted value for all 673, and it is found that it is superior to the existing model with a coefficient of determination of 0.995382 and an average absolute error value of 4.701904cm 3 .
  • 89 and 90 are parity diagrams showing the predictive performance of each model, and it can be seen from these figures that the QSPR model of the present invention has superior performance than the existing Modell.
  • the average absolute percentage error of the experimental data of which the experimental error is known is about
  • 91 and 92 show the histogram of the error between the experimental value and the predicted value, centering on a value of 0.39% and a larger value of 6%.
  • the histogram is a statistical analysis of the degree of agreement.
  • the middle bar represents the proportion of molecules whose predictions fall within a given margin of error.
  • the percentage of centered bar usually indicates the level of prediction accuracy.
  • the flash point is the minimum degree of ignition that can occur when an ignition source is present in a flammable liquid or solid.
  • the first type of prediction model adopts a prediction method that uses correlation with physical properties such as boiling point, density, vapor pressure, critical properties, heat of evaporation, etc., and the accuracy of correlation is directly related to the accuracy of the required physical property or method.
  • the property is not fully equipped, which makes it difficult to perform calculations for prediction. Patil's proposed method for normal boiling point The following relation was used, showing a result of MD of 19.7K for 102 alkanes, showing poor prediction performance. Patil, GS Fire Mat. 1988, 12, 127]
  • the second type of prediction models are those using the QSPR method.
  • Example 1-1 The group contribution model and the QSPR model described in Example 1-1 have also been used in the flash point prediction method.
  • the problems of the prior art described in Example 1-1 also exist in this embodiment. This model is expected to overcome the shortcomings of the models built by the group contribution method as mentioned above and to show wider and more accurate prediction performance.
  • step 1 of FIG. 1 Collecting and reviewing the experimental data as specified in step 1 of FIG. 1 is equally applicable to the present embodiment, but differs only in the type of physical properties and data values, and the data of electron affinity for a total of 1321 compounds are Were collected and finally data for 1309 compounds were selected. In addition, the respective model was established by separating them into a 409 "hydrocarbon and non-hydrocarbon 900.

Landscapes

  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Testing Resistance To Weather, Investigating Materials By Mechanical Methods (AREA)
  • Investigating Or Analyzing Materials Using Thermal Means (AREA)

Abstract

본 발명은 수소 (H), 탄소 (C), 질소 (N), 산소 (O),황 (S) 등 5가지 이내의 원소로 구성되고 수소를 제외한 원자의 개수가 25개 이하인 분자로 이루어진 순수한 유기화합물의 물리화학적 및 열역학적 물성을 높은 정확도로 예측하는 수학적 모델 및 방법과 대량의 분자를 자동 프로세스하고 온라인 서비스하는 모델, 방법 및 시스템에 관한 것이다. 본 발명은 실험값이 알려지지 않은 수많은 상기 조건의 유기화합물에 대해서도 신뢰할만한 물리화학적 및 열역학적 성질의 값을 예측할 수 있는 모델 및 방법,시스템을 제공함으로써 실험에 드는 비용과 시간을 절약하게 해주어,관련 산업계의 생산성 향상 및 연구개발 활동을 용이하게 하는데 기여한다.

Description

【명세서】
【발명의 명칭]
순수한 화합물의 물리화학적 및 열역학적 성질을 예측, 프로세스 및 온라인 서비스하는 모델, 방법 및 시스템 .
【기술분야]
본 발명은 유기화합물의 물성예측 및 이의 정보화라는 물리화학, 계산화학 및 정보화학의 융합분야에 속하는 것으로, 화합물의 여러 물성을 높은 정확도로 예측하는 방법, 이의 수학적 모델, 유기화합물 정보 처리 프로세스 시스템 및 물성 정보의 구축과 이의 온라인 서비스에 관한 것이다.
[배경기술】
유기화합물의 여러 물성의 정확한 값올 구체적으로 아는 것은 그 물질의 용도의 타당성을 검토하거나 합성 및 정제 과정을 설계하고 보관, 운반, 사용, 폐기의 방법과 조건을 설정하는 둥, 생산과 소비의 전 과정에 걸친 제반 의사결정 사항들에 결정적이기 때문에 산업적으로나 학문적으로 매우 중요한 문제이다. 관심 있는 유기화합물의 원하는 물성값을 얻을 수 있는 일반적 방법은 실험을 통해 직접 측정하는 전통적인 방법이겠으나, 순도높은 정제의 여려움, 화합물의 불안정성 및 유해성, 그리고 정확한 측정을 위한 장비 및 인력 구축의 어려움 등 여러 가지 측면에서 상당한 비용과 시간이 드는 것이 사실이며, 경우에 따라서는 불가능할 수도 있다. 따라서, 그 대안으로 오래 전부터 많은 연구자들이 유기화합물의 여러 물성의 정확한 값을 예측하고자 노력을 기울여 왔다. 이처럼 물성 예측은 오랜 역사를 가지며 끊임 없이 새로운 예측 방법들이 등장하여 현재는 물성 별로 정확도와 적용범위 등이 서로 다른 여러 예측모델들이 공존하고 있는 상황이다.
【발명의 내용】
[기술적 과제】
본 발명이 이루고자 하는 중요한 기술적 과제 중 하나는 보다 많은 실험데이터를 바탕으로 보다 신뢰성 있는, 수소 (H), 탄소 (C), 질소 (N), 산소 (0), 황 (S) 등 5가지 이내의 원소로 구성되고, 수소를 제외한 원자의 개수가 25개 이하인 분자로 이루어진 화합물의 여러 가지 물성에 대한 수학적 모델을 제공하는 이다.
우리는 실존하는 대량의 실험데이터와 양자역학적 계산 및 분자열역학적 분석을 기반으로, 2,000 여가지가 넘는 분자표현자들을 이용한 다중선형회귀 -인공신경망 흔성 QSPR (Quantitative Structure-Property Relationships) 모델과 온도에 따라 변하는 물성의 경우 QSPR 모델에 추가로 SVRC (Scaled Variable Reduced Coordinates) 모델을 구축함으로써 이 목표를 달성하였다. 특히 인공신경망은 다중선형회귀 QSPR 모델이 반영할 수 없는 독립변수와 종속변수의 비선형적인 함수관계를 반영할 수 있다는 장점이 있어 보다 높은 예측성능을 가진 모델을 구현할 수 있게 해준다. 그러나 인공신경망은 내부적으로 규칙수립의 자유도가 높아 안정성이 다중선형회귀 QSPR 모델보다 떨어지는 단점이 있다. 본 발명에서는 인공신경망 QSPR 모델의 예측값과 다중선형회귀 QSPR 모델의 예측값이 일정기준 이상의 차이를 보일 때 다중선형회귀 QSPR 모델의 예측값을 채택하는 방법으로 이러한 단점을 보완하여 예측성능과 안정성의 측면에서 다중선형회귀 QSPR 모델과 인공신경망 QSPR 모델의 장점만을 살린 우수한 예측모델을 확립하였다.
예측모델을 적용할 수 있는 유기화합물의 범위에 위에 언급한 바와 같이 5가지 이내의 원소로 제한을 두는 이유는, 주로 사용된 분자표현자들 중 그 값을 구하기 위해서는 양자역학적 계산이 필요한 것들이 존재하는 경우가 있으며, 현재의 기술수준으로 일반적으로 검증된 범위를 넘어설 수도 있는 화합물에 대해서 정확도가 떨어 질 수 있을 가능성과 양자역학 계산시간이 과대하다는 측면에서 곤란한 문제가 발생한다는 사실에 기인하고 있다. 그러나 상기의 제한범위 내라 할지라도 대단히 많은 화합물들이 존재하며 산업적으로 증요한 화합물들이 상당부분 포함되므로 본 발명이 인류사회에 큰 유익을 끼칠 수 있을 것으로 판단된다.
【기술적 해결방안】
후술할 본 발명의 총 41개의 실시예에 따르는 기술적 해결받법을 이하에서 차례로 설명한다. 41개의 실시예들은 크게 네 개의 실시예로 구분되고 (실시예 1부터 4까지) ,'각 실시예는 서로 구체적인 구성들을 공유할 수 있다. 예컨대 실시예 1-1에서 설명할 구체적인 구성들은 실시예 · 1-2부터 1-29까지 혹은 실시예 2-1부터 2-11까지 적용 가능하고, 실시예 2-1에서 설명할 구체적인 구성들은 실시예 2-2부터 2-11까지 적용이 가능하다.
[실시예 1-1] 순수한 유기화합물의 정상 끓는점을 예측하는 다중선형회귀- 인공신경망흔성 QSPR모델
1. 실험값이 존재하여 수집된 유기화합물 (이하 "샘플 유기화합물" )들 중 탄화수소 계열 실험데이터를 입력하는 제 1 단계;.샘플 유기화합물들의 상기 탄화수소 계열 유기화합물의 물성 (정상끓는점)에 대한 분자표현자값 준비하는 제 2 단계; 최적의 분자표현자들을 추출하는 제 3 단계; 훈련집합과 시험집합으로 실험데이터를 분리하는 제 4 단계; 훈련집합에 대하여 최적의 다중선형회귀 QSPR 모델 탐색하는 제 5 단계; 선택된 모델의 타당성을 검토하는 제 6 단계 ; 상기 제 6 단계에서 타당성이 없으면, 상기 제 5 단계, 제 6 단계를 반복하고, 타당성이 있으면 시험집합에 대하여 모델의 예측성능을 테스트하는 제 7 단계; 시험집합에 대한 상기 제 7 단계 테스트에서 성능이 기준을 만족하지 못하면 제 4 단계부터 제 7 단계까지 반복하고, 기준을 만족하면 샘플 유기화합물 표준화 후 3 개 집합으로 분리하는 체 8단계; 전체 샘플 유기화합물을 3개 집합으로 나눈 후에 최적의 인공신경망 QSPR 모델올 탐색하는 제 9 단계; 상기 제 8 단계에서 성능 테스트를 만족하는 상기 최적의 다중선형회귀 QSPR 모델로 구한 정상끓는점 예측값과 상기 제 9 단계에서 탐색된 상기 최적의 인공신경망 QSPR-모델로 구한 정상끓는점 예측값 차이의 절대값을 미리 설정된 과적합 방지 기준값과 비교하는 제 10 단계 ; 상기 차이가 상기 과적합 방지 기준값 보다 크면 상기 제 8 단계에서 얻은 다중선형회귀 QSPR 모델에 의한 정상끓는점 예측값을 정상끓는점 값으로 채택하고 상기 과적합 방지 기준값 보다 작으면 상기 제 9 단계에서 탐색된 인공신경망 QSPR 모델 에 의한 정상끓는점 예측값을 정상끓는점 값으로 채택하는 제 11 단계를 포함하는 다중선형회귀 -인공신경망 흔성 QSPR 모델을 통하여 탄화수소 계열 유기화합물의 정상끓는점을 구하는 방법.
2. 상기 제 1 항의 제 3 단계에서 최적의 분자표현자는 모든 샘플 화합물에 대해 값이 동일하지 않은 독립적인 분자표현자인 것을 특징으로 하는 다증선형회귀 -인공신경망 흔성 QSPR 모델을 통하여 탄화수소 계열 유기화합물의 정상끓는점을 구하는 방법.
3. 상기 제 1항의 제 4단계에서 훈련집합과 시험집합은 5:5 ~ 8:2의 비율로 나누는 것을 특징으로 하는 다중선형회귀 -인공신경망 흔성 QSPR 모델을 통하여 탄화수소 계열 유기화합물의 정상끓는점을 구하는 방법.
4. 상기 제 1 항의 제 5 단계에서 상기 다중선형회귀 QSPR 모델은 상기 훈련집합에 대하여 유전적 알고리즘 (genetic algorithm) 적용하여 다중선형회귀 QSPR 모델을 탐색하는 것을 특징으로 하는 다중선형회귀- 인공신경망 흔성 QSPR 모델을 통하여 탄화수소 계열 유기화합물의 정상끓는점을 구하는 방법 .
5. 상기 제 4 항에 있어세 상기 유전적 알고리즘 (genetic algorithm)은 분자표현자들의 풀 (pool)에서 일정한 개수의 분자표현자들을 무작위로 뽑아 만든 다수의 다중선형회귀 QSPR 모델들로 구성된 개체군 (population)을 생성하는 단계; 각 개체 (individual)들은 뽑힌 분자표현자들의 번호들을 조합하여 부호화하는 단계; 생성된 개체군으로부터 를렛휠 (Roulette Wheel) 방법에 의해서 두 개의 부모 염색체를 선택한 뒤 단순교배 (single point crossover)법에 의하여 자손들을 생성하는 단계; 생성된 자손들의 염색체 일부를 일정 확률로 돌연변이 (mutation) 시킨 뒤 기존 개체군의 일부를 이들로 교체하여 새 개체군을 생성하는 단계를 포함하는 것을 특징으로 하는 다중선형회귀ᅳ인공신경망 흔성 QSPR 모델을 통하여 탄화수소 계열 유기화합물의 정상끓는점을 구하는 방법.
6. 상기 제 1 항의 제 5 단계는 회귀모델의 결정계수 또는 평균절대오차에 의해서 예측성능을 판단하는 것을 포함하는 다중선형회귀 -인공신경망 흔성 QSPR모델을 통하여 탄화수소 계열 유기화합물의 정상끓는점올 구하는 방법.
7. 상기 제 1 항의 제 6 단계에서 타당성은 통계학적 t 검정값에 의해서 타당성을 결정하는 다중선형회귀 -인공신경망 흔성 QSPR 모델을 통하여 탄화수소 계열 유기화합물의 정상끓는점을 구하는 방법.
8. 상기 게 1 항의 제 8 단계에서 시험집합에 대한 예측성능이 훈련집합에 대한 예측성능과 유사하면 다중선형회귀 QSPR 모델이 결정되고, 시험집합에 대한 예측성능이 훈련집합에 대한 예측성능과 차이 나면 훈련집합과 시험집합을 다시 분류하는 다중선형회귀 -인공신경망 흔성 QSPR 모델을 통하여 탄화수소 계열 유기화합물의 표준상태의 정상끓는점을 구하는 방법.
9. 상기 제 1 항의 제 9 단계에서 상기 인공신경망에 의한 탐색범위는 입력층과 출력층 사이에 하나의 은닉층을 가지며 전방향 (feed forward)으로 만 연결되어 있는 것을 특징으로 하는 다중선형회귀 -인공신경망 흔성 QSPR 모델을 통하여 탄화수소 계열 유기화합물와정상끓는점을 구하는 방법 .
10. 상기 제 9 항에 있어서, 상기 은닉층의 활성화 함수로는 시그모이드 (Sigmoid) 함수를 사용하는 것을 특징으로 하는 다중선형회귀- 인공신경망 흔성 QSPR 모 ¾을 통하여 탄화수소 계열 유기화합물의 정상끓는점을 구하는 방법 .
11. 상기 제 1 항의 제 10 단계에서 언급한 과적합 방지 기준값은 '발명의 실시를 위한 형태' 에 있는 실시예 1ᅳ 1 의 표 2 에 기술하였으며, 그 값을 특징으로 하는 다중선형회귀 -인공신경망 흔성 QSPR 모델을 통하여 탄화수소 계열 유기화합물의 정상끓는점을 구하는 방법.
12. 수집된 샘플 유기화합물들 중의 비탄화수소 계열 실험데이터를 입력하는 제 1단계; 샘풀 유기화합물들의 상기 비탄화수소 계열 유기화합물의 정상끓는점에 대한 분자표현자값 준비하는 제 2단계; 최적의 분자표현자들을 추출하는 제 3단계; 훈련집합과 시험집합으로 실험데이터를 분리하는 제 4단계; 훈련집합에 대하여 최적의 다중선형회귀 QSPR 모델 탐색하는 제 5단계; 선택된 모델의 타당성을 검토하는 제 6단계; 상기 제 6단계에서 타당성이 없으면, 상기 제 5단계, 제 6단계를 반복하고, 타당성이 있으면 시험집합에 대하여 모델의 예측성능을 .테스트하는 제 7단계; 시험집합에 대한 상기 제 7단계 테스트에서 성능이 기준을 만족하지 못하면 제 4단계부터 제 7단계까지 반복하고, 기준을 만족하면 샘플 표준화 후 3개 집합으로、 분리하는 제 8단계; 전체 샘플을 3개 집합으로 나눈 후에 최적의 인공신경망모델 탐색하는 제 9단계; 상기 제 8단계에서 성능 테스트를 만족하는 상기 최적의 다중선형회귀 QSPR 모델로 구한 정상끓는점 예측값과 상기 게 9단계에서 탐색된 상기 최적의 인공신경망모델로 구한 정상끓는점 예측값 차이의 절대값을 미리 설정된 과적합 방지 기준값과 비교하는 제 10단계; 상기 차이가 상기 과적합 방지 기준값 보다 크면 상기 제 8단계에서 얻은 다중선형회귀 QSPR 모델에 의한 정상끓는점 예측값을 정상끓는점 값으로 채택하고 상기 과적합 방지 기준값 보다 작으면 상기 제 9단계에서 탐색된 인공신경망모델에 의한 정상끓는점 예측값을 정상끓는점 값으로 채택하는 제 11단계를 포함하는 다중선형회귀 -인공신경망 흔성 QSPR 모델을 통하여 비탄화수소 계열 유기화합물의 정상끓는점을 구하는 방법.
13. 상기 제 12항의 제 3단계에서 최적의 분자표현자는 모든 샘플 화합물에 대해 값이 동일하지 않은 독립적인 분자표현자인 것을 특징으로 하는 다중선형회귀 -인공신경망 흔성 QSPR 모델을 통하여 비탄화수소 계열 유기화합물의 정상끓는점을 구하는 방법.
14. 상기 제 12항의 제 4단계에서 훈련집합과 시험집합은 5:5 ~ 8:2의 비율로 나누는 것을 특징으로 하는 다중선형회귀 -인공신경망 흔성 QSPR 모델을 통하여 비탄화수소 계열 유기화합물의 정상끓는 을 구하는 방법.
15. 상기 제 12항의 제 5단계에서 상기 다중선형회귀 QSPR 모델은 상기 훈련집합에 ,대하여 유전적 알고리즘 (genetic algorithm) 적용하여 다중선형회귀 QSPR 모델을 탐색하는 것을 특징으로 하는 다증선형회귀- 인공신경망 흔성 QSPR 모델을 통하여 비탄화수소 계열 유기화합물의 정상끓는점을 구하는 방법 .
16. 상기 제 15항의 유전적 알고리즘 (genetic algorithm)은 분자표현자들의 풀 (pool)에서 일정한 개수의 분자표현자들을 무작위로 뽑아 만든 다수의 다중선형회귀 QSPR 모델들로 구성된 개체군 (population)을 생성하는 단계; 각 개체 (individual)들은 뽑힌 분자표현자들의 번호들을 조합하여 부호화하는 단계; 생성된 개체군으로부터 를렛휠 (Roulette Wheel) 방법에 의해서 두 개의 부모 염색체를 선택한 뒤 단순교배 (single point crossover)법에 의하여 자손들을 생성하는 단계; 생성된 자손들의 염색체 일부를 일정 확률로 돌연변이 (mutation) 시킨 뒤 기존 개체군의 일부를 이들로 교체하여 새 개체군을 생성하는 단계를 포함하는 것을 특징으로 하는 다중선형회귀 -인공신경망 흔성 QSPR 모델을 통하여 비탄화수소 계열 유기화합물의 정상끓는점을 구하는 방법.
17. 상기 제 12항의 제 5단계는 회귀모델의 결정계수 또는 평균절대오차에 의해서 예측성능을 판단하는 것을 포함하는 다중선형회귀 -인공신경망 흔성
QSPR 모델을 통하여 비탄화수소 계열 유기화합물의 정상끓는점을 구하는 방법 .
18. 상기 제 12항의 게 6단계에서 타당성은 통계학적 t검정값에 의해서 타당성을 결정하는 다중선형회귀 -인공신경망 흔성 QSPR 모델을 통하여 비탄화수소 계열 유기화합물의 정상끓는점을 구하는 방법.
19. 상기 제 12항의 제 8단계에서 시험집합에 대한 예측성능이 훈련집합에 대한 예측성능과 유사하면 다중선형회귀 QSPR 모델이 결정되고, 시험집합에 대한 예측성능이 훈련집합에 대한 예측성능과 차이 . 나면 훈련집합과 시험집합을 다시 분류하는 다중선형회귀 -인공신경망 흔성 QSPR 모델을 통하여 비탄화수소 계열 유기화합물의 표준상태의 정상끓는점을 구하는 방법. 20. 상기 제 12항의 제 9단계에서 상기 인공신경망에 의한 탐색범위는 입력층과 출력층 사이에 하나의 은닉충을 가지며 전방향 (feed forward)으로 만 연결되어 있는 것을 특징으로 하는 다중선형회귀ᅳ인공신경망 흔성 QSPR 모델을 통하여 비탄화수소 계열 유기화합물의 정상끓는점을 구하는 방법 . ― 21. 상기 제 20항의 은닉층의 활성화 함수로는 시그모이드 (Sigmoid) 함수를 사용하는 것을 특징으로 하는 다중선형회귀 -인공신경망 흔성 QSPR 모델을 통하여 비탄화수소 계열 유기화합물의 정상끓는점을 구하는 방법.
22. 상기 제 12 항의 제 10 단계에서 언급한 과적합 방지 기준값은 '발명의 실시를 위한 형태' 에 있는 실시예 1-1 의 표 3 에 기술하였으며, 그 값을 특징으로 하는 다중선형회귀 -인공신경망 흔성 QSPR 모델을 통하여 탄화수소 계열 유기화합물의 정상끓는점을 구하는 방법.
23. 상기 제 1항의 제 3단계에서 추출된 최적의 분자표현자들은 '발명의 실시를 위한 형태' 에 있는 실시예 1-1의 표 2에 기술하였으며, 이 분자표현자들을 포함하는 다중선형회귀—인공신경망 흔성 QSPR 모델을 통하여 탄화수소 계열 유기화합물의 정상끓는점을 구하는 방법.
24. 상기 제 12항의 제 3단계에서 추출된 최적의 분자표현자들은 '발명의 실시를 위한 형태' 에 있는 실시예 1-1의 표 3에 기술하였으며, 이 분자표현자들을 포함하는 다중선형회귀 -인공신경망 흔성 QSPR 모델을 통하여 비탄화수소 계열 유기화합물의 정상끓는점을 구하는 방법.
25. 다중선형회귀ᅳ인공신경망 흔성 QSPR 모델을 통하여 탄화수소 계열 유기화합물의 정상끓는점을 구하는 방법에 있어서, '발명의 실시를 위한 형태' 에 있는 실시예 1-1의 표 2에 기술된 분자표현자들이 포함되어있는 것을 특징으로 하는 다중선형회귀 -인공신경망 흔성 QSPR 모델을 통하여 탄화수소 계열 유기화합물의 정상끓는점을 구하는 방법.
26. 다중선형회귀 -인공신경망 흔성 QSPR 모델을 통하여 비탄화수소 계열 유기화합물의 정상끓는점을 구하는 방법에 있어서, '발명의 실시를 위한 형태' 에 있는 실시예 1-1의 표 3에 기술된 분자표현자들이 포함되어있는 것을 특징으로 하는 다중선형회귀 -인공신경망 흔성 QSPR 모델을 통하여 비탄화수소 계열 유기화합물의 정상끓는점을 구하는 방법.
27. 상기 제 1 항 부터 제 11 항까지 및 제 23 항, 제 25 항 중 어느 한 항에 의한 탄화수소 계열 유기화합물의 정상끓는점을 구하는 방법을 컴퓨터에서 실행시키기 위한 프로그램으로 기록하고 컴퓨터로 읽을 수 있는 저장 매체.
28. 상기 제 12항 부터 제 22항까지 및 제 24항, 제 26항 중 어느 한 항에 의한 비탄화수소 계열 유기화합물의 정상끓는점을 구하는 방법을 컴퓨터에서 실행시키기 위한 프로그램으로 기록하고 컴퓨터로 앍을 수 있는 저장 매체. [실시예 1-2] 순수한 유기화합물의 표준상태의 이상기체 절대 엔트로피를 예측하는다중선형회귀 -인공신경망흔성 QSPR모델
상기 실시예 1-1 의 내용 중 제 1 항 부터 11 항까지 및 제 23 항, 제 25 항 에서 물성 (정상끓는점)을 탄화수소와 비탄화수소의 구분없이 모든 해당 유기화합물의 '표준상태의 이상기체 절대 엔트로피' 로 변경한 것이 본 실시예의 기술적 해결방안이며, 중복되는 설명은 생략한다.
[실시예 1-3] 순수한 유기화합물의 이심인자를 예측하는 다중선형회귀- 인공신경망흔성 QSPR모델
상기 실시예 1ᅳ 1 의 내용에서 물성 (정상끓는점)을 '이심인자' 로 변경한 것이 본 실시예의 기술적 해결방안이며, 중복되는 설명은 생략한다.
[실시예 1-4] 유기화합물의 임계압력을 예측하는 다중선형회귀 -인공신경망 흔성 QSPR모델
상기 실시예 1-1 의 내용에서 물성 (정상끓는점)을 '임계압력' 으로 변경한 것이 본 실시예의 기술적 해결방안이며, 중복되는 설명은 생략한다.
[실시예 1-5] - 유기화합물의 임계은도를 예측하는 다중선형회귀- 인공신경망흔성 QSPR모델
상기 실시예 1-1 의 내용에서 물성 (정상끓는점)을 '임계온도' 로 변경한 것이 본 실시예의 기술적 해결방안이며, 중복되는 설명은 생략한다.
[실시예 1-6] 순수한 유기화합물의 임계부피를 예측하는 다중선형회귀- 인공신경망흔성 QSPR모델
상기 실시예 1-1 의 내용에서 물성 (정상끓는점)을 '임계부피' 로 변경한 것이 본 실시예의 기술적 해결방안이며, 중복되는 설명은 생략한다.
[실시예 1-7] 순수한 유기화합물의 이상기체의 생성 에너지를 예측하는 다중선형회귀 -인공신경망흔성 QSPR모델
상기 실시예 1-1의 내용에서 물성 (정상끓는점)을 '이상기체의 생성 에너지' 로 변경한 것이 본 실시예의 기술적 해결방안이며, 증복되는 설명은 생략한다. 비중복 부분은 하가와 같다.
1. 상기 실시예 1-1 의 제 1 항의 제 1 단계부터 제 8 단계까지와 상기 수집된 샘플 유기화합물들의 실험데이터 집합에 대하여 탐색된 다중선형회귀
QSPR 모델을 통하여 이상기체의 생성에너지값을 구하는 제 9 단계를 포함하는 다중선형회귀 QSPR 모델을 통하여 탄화수소 유기화합물의 이상기체의 생성에너지를 구하는 방법 및 상기 실시예 1-1 의 제 1항의 제 1 단계부터 제 11 단계까지를 포함하는 다중선형회귀 -인공신경망 흔성 QSPR 모델을 통하여 비탄화수소 유기화합물의 이상기체와 생성에너지를 구하는 방법 .
26. 공명구조와 라디칼 센터 간에 상호작용을 가지는 라디칼 분자의 경우, 상기 제 1 항에 있어서, 수집된 샘플 유기화합물들 증 해당 라디칼 분자의 실험데이터를 입력하는 제 1 단계; 상기 제 1 단계에서 입력된 실험데이터를 통하여 해당 라디칼 분자의 이상기체의 생성에너지에 대한 분자표현자값을 준비하는 제 2단계 .
27. 상기 제 1 항에 기술된, 실시예 1-1 의 제 1 항의 제 3 단계에서 최적의 분자표현자는 모든 샘플 화합물에 대해 값이 동일하지 않은 독립적인 분자표현자인 것을 특징으로 하는 다중선형회귀 QSPR 모델을 통하여 공명구조와 라디칼 센터 간에 상호작용을 가지는 라디칼 분자의 이상기체의 생성에너지를 구하는 방법.
34. 수집된 샘플 유기화합물들 중 공명구조와 라디칼 센터 간에 상호작용을 가지지 않는 라디칼 분자의 실험데이터를 입력하는 제 1단계.
[실시예 1-8] 순수한 유기화합물의 융해열을 예측하는 다중선형회귀- 인공신경망흔성 QSPR모델 상기 실시예 i-i 의 내용에서 물성 (정상끓는점)을 '융해열' 로 변경한 것이 본 실시예의 기술적 해결방안이며, 중복되는 설명은 생략한다.
[실시예 1-9] 순수한 유기화합물의 298.15K에서의 포화액체밀도를 예측하는 다중선형회귀 -인공신경망흔성 QSPR모델
상기 실시예 1-1 의 내용에서 물성 (정상끓는점)을 '298.15K 에서의 포화액체밀도' 로 변경한 것이 본 실시예의 기술적 해결방안이며, 중복되는 설명은 생략한다.
[실시예 1-10] 순수한 유기화합물의 굴절률을 예측하는 다중선형회귀- 인공신경망흔성 QSPR모델
상기 실시예 1-1 의 내용에서 물성 (정상끓는점)을 '굴절률' 로 변경한 것이 본 실시예의 기술적 해결방안이며, 중복되는 설명은 생략한다.
[실시예 1-11] 유기화합물의 용해지수를 예측하는 다중선형회귀 -인공신경망 흔성 QSPR모델
상기 실시예 1—1 의 내용 중 제 1 항 부터 11 항까지 및 제 23 항, 제 25 항 에서 물성 (정상끓는점 )올 탄화수소와 비탄화수소의 구분없이 모든 해당 유기화합물의 '용해지수' 로 변경한 것이 본 실시예의 기술적 해결방안이며: 중복되는 설명은 생략한다.
[실시예 1-12] 순수한 유기화합물의 표준상태 절대 엔트로피를 예측하는 다중선형회귀 -인공신경망흔성 QSPR모델
상기 실시예 1-1 의 내용에서 물성 (정상끓는점)을 '표준상태 절대 '엔트로피' 로 변경한 것이 본 실시예의 기술적 해결방안이며, 중복되는 설명은 생략한다. 비중복 부분은 하기와 같다.
1..상기 실시예 1-1 의 제 1 항의 제 2 단계는, '상기 실시예 1-1 의 제 1 항의 제 1 단계로부터 입력된 실험데이터로부터 액체 탄화수소 계열 유기화합물의 표 상태 절대 엔트로피에 대한 분자표현자값을 준비하는 제 2단계' 를 포함할 수 있다.
[실시예 1-13] 순수한 유기화합물의 표준상태 생성에너지를 예측하는 흔성 QSPR모델
상기 실시예 1-1의 내용에서 물성 (정상끓는점)을 '표준상태 생성에너지' 로 변경한 것이 본 실시예의 기술적 해결방안이며, 증복되는 설명은 생략한다. [실시예 1-14] 순수한 유기화합물의 자기 감수율을 예측하는 다중선형회귀- 인공신경망흔성 QSPR모델
상기 실시예 1-1 의 내용 중 제 1 항 부터 11 항까지 및 제 23 항, 제 25항 에서 물성 (정상끓는점)을 탄화수소와 비탄화수소의 구분없이 모든 해당 유기화합물의 '자기 감수율' 로 변경한 것이 본 실시예의 기술적 해결방안이며, 중복되는 설명은 생략한다.
[실시예 1-15] 순수한 유기화합물의 편극도를 예측하는 다중선형회귀- 인공신경망흔성 QSPR모델
상기 실시예 1ᅳ1 의 내용 중 제 1 항 부터 11 항까지 및 제 23 항, 제 25 항 쎄서 물성 (정상끓는점)을 탄화수소와 비탄화수소의 구분없이 모든 해당 유기화합물의 '편극도' 로 변경한 것이 본 실시예의 기술적 해결방안이며, 중복되는 설명은 생략한다. [실시예 1-16] 순수한 유기화합물의 이온화에너지를 예측하는 다중선형회귀ᅳ 인공신경망흔성 QSPR모델
상기 실시예 1ᅳ1의 내용에서 물성 (정상끓는점)을 '이온화에너지' 로 변경한 것이 본 실시예의 기술적 해결방안이며, 증복되는 설명은 생략한다. 비중복 부분은 하기와 같다.
15. 최적의 다중선형회귀 QSPR 모델로 결정하는 제 8 단계; 상기 실시예 1- 1 의 제 1 항의 제 8 단계에서 성능 테스트를 만족하는 상기 최적의 다중선형회귀 QSPR 모델에 의해서, 상기 수집된 샘플 유기화합물들의 실험데이터 집합에 대하여 탐색된 다중선형회귀 QSPR 모델을 통하여 이온화 에너지 값을 구하는 제 9 단계를 포함하는 다중선형회귀 QSPR 모델을 통하여 비탄화수소 유기화합물의 이온화 에너지를 구하는 방법 .
[실시예 1-17] 순수한 유기화합물의 전자친화도를 예측하는 다중선형회귀 QSPR모델
상기 실시예 1ᅳ1 의 내용에서 물성 (정상끓는점)을 '전자친화도' 로 변경한 것이 본 실시예의 기술적 해결방안이며, 중복되는 설명은 생략한다. 비중복 부분은 하기와 같다.
1. 수집된 샘플 유기화합물들의 실험데이터를 입력하고, 수집된 샘플 유기화합물들의 실험데이터 집합과 상기 수집된 샘플 유기화합물들의 실험데이터 집합 중에서 탄소가 반드시 포함되는 화합물의 집합으로 분류하는 제 1 단계; 상기 수집된 샘플 유기화합물들의 실험데이터 집합과 상기 탄소가 반드시 포함되는 화합물의 집합 각각에 대하여 유기화합물의 전자 친화도에 대한 분자표현자값을 준비하는 제 2 단계; 상기 수집된 샘플 유기화합물들의 실험데이터 집합과 상기 탄소가 반드시 포함되는 화합물의 집합에 대하여 각각 최적의 분자표현자들을 추출하는 제 3 단계; 훈련집합과 시험집합으로 실험데이터를 분리하는 제 4 단계; 상기 수집된 샘플 유기화합물들의 실험데이터 집합과 상기 탄소가 반드시 포함되는 화합물의 집합을 각각 훈련집합에 대하여 최적의 다중선형회귀 QSPR 모델을 탐색하는 제 5단계; 상기 수집된 샘플 유기화합물들의 실험데이터 집합과 상기 탄소가 반드시 포함되는 화합물의 집합에 대하여 각각 선택된 모델의 타당성을 검토하는 제 6 단계 ; 상기 제 6 단계에서 타당성이 없으면, 상기 제 5 단계, 제 6 단계를 반복하고, 타당성이 있으면 시험집합에 대하여 모델의 예측성능을 테스트하는 제 7 단계; 상기 수집된 샘플 유기화합물들의 실험데이터 집합과 상기 탄소가 반드시 포함되는 화합물의 집합에 대하여 각각 독립적으로 상기 제 6 단계에서 타당성이 없으면, 상기 제 5 단계, - 제 6 단계를 반복하고, 타당성이 있으면 시험집합에 대하여 모델의 예측성능을 테스트하는 제 7 단계;상기 수집된 샘플 유기화합물들의 실험데이터 집합과 상기 탄소가 반드시 포함되는 화합물의 집합에 대하여 각각 독립적으로 시험집합에 대한 상기 제 7 단계 테스트에서 성능이 가준을 만족하지 못하면 제 4 단계부터 제 7 단계까지 반복하고, 기준을 만족하면 최적의 다중선형회귀 QSPR 모델로 결정하는 제 8 단계; 상기 제 8 단계에서 성능 테스트를 만족하는 상기 최적의 다중선형회귀 QSPR 모델에 의해서, 탄소가 포함되어 있지 않은 화합물인 경우에는 상기 수집된 샘플 유기화합물들의 실험데이터 집합에 대하여 탐색된 다중선형회귀 QSPR 모델을 통하여 전자 친화도 값을 구하고, 탄소가 포함되어 있는 화합물인 경우에는 탄소가 반드시 포함되는 화합물의 집합에 대하여 탐색된 상기 제 8 단계에서 성능 테스트를 만족하는 상기 다중선형회귀 QSPR 모델을 통하여 전자 친화도 값을 구하는 제 9 단계를 포함하는 다중선형회귀 QSPR 모델을 통하여 유기화합물의 전자 친화도를 구하는 방법.
[실시예 1-18] 순수한 유기화합물의 파라코르를 예측하는 다중선형회귀 QSPR 모델
상기 실시예 1-1 의 내용 중 제 1 항 부터 11 항까지 및 제 23 항, 제 25 항 에서 물성 (정상끓는점)을 탄화수소와 비탄화수소의 구분없이 모든 해당 유기화합물의 '파라코르 로 변경한 것이 본 실시예의 기술적 해결방안이며, 중복되는 설명은 생략한다.
[실시예 1-19] 순수한 유기화합물의 인화점을 예측하는 다중선형회귀- 인공신경망흔성 QSPR모델
상기 실시예 1-1 의 내용에서 물성 (정상끓는점)을 '인화점' 으로 변경한 것이 본 실시예의 기술적 해결방안이며, 중복되는 설명은 생략한다.
[실시예 1-20] 순수한 유기화합물의 인화하한은도올 예측하는 다중선형회귀- 인공신경망흔성 QSPR모델
상기 실시예 1-1의 내용에서 물성 (정상끓는점)을 '인화하한온도' 로 변경한 것이 본 실시예의 기술적 해결방안이며, 중복되는 설명은 생략한다.
[실시예 1-21] 순수한 유기화합물의 인화하한부피퍼센트를 예측하는 다중선형회귀 -인공신경망흔성 QSPR모델
상기 실시예 1-1 의 내용에서 물성 (정상끓는점)을 '인화하한부피퍼센트' 로 변경한 것이 본 실시예의 기술적 해결방안이며, 중복되는 설명은 생략한다.
[실시예 1-22] 순수한 유기화합물의 인화상한은도를 예측하는 다중선형회귀- 인공신경망흔성 QSPR모델
상기 실시예 1-1의 내용에서 물성 (정상끓는점)을 '인화상한온도' 로 변경한 것이 본 실시예의 기술적 해결방안이며, 중복되는 설명은 생략한다.
[실시예 1-23] 순수한 유기화합물의 인화상한부피퍼센트를 예측하는 다중선형회귀 -인공신경망흔성 QSPR모델
상기 실시예 1ᅳ1 의 내용에서 물성 (정상끓는점)을 '인화상한부피퍼센트' 로 변경한 것이 본 실시예의 기술적 해결방안이며, 중복되는 설명은 생략한다.
[실시예 1-24] 순수한 유기화합물의 정상끓는점에서의 액체밀도를 예측하는 다중선형회귀 -인공신경망흔성 QSPR모델
상기 실시예 1-1 의 내용 중 제 1 항 부터 11 항까지 및 제 23 항, 제 25 항 에서 물성 (정상끓는점)을 탄화수소와 비탄화수소의 구분없이 모든 해당 유기화합물의 '정상끓는점에서의 액체밀도' 로 변경한 것이 본 실시예의 기술적 해결방안이며, 중복되는 설명은 생략한다.
[실시예 1-25] 순수한 유기화합물의 298.15K에서의 기화열을 예측하는 다중선형회귀 -인공신경망흔성 QSPR모델
상기 실시예 1-1 의 내용에서 물성 (정상끓는점)을 '298.15K 에서의 기화열' 로 변경한 것이 본 실시예의 기술적 해결방안이며, 중복되는 설명은 생략한다.
[실시예 1-26] 순수한 유기화합물의 정상끓는점에서의 기화열을 예측하는 다중선형회귀 -인공신경망흔성 QSPR모델 상기 실시예 1ᅳ1 의 내용에서 물성 (정상끓는점)을 '정상끓는점에서의 기화열' 로 변경한 것이 본 실시예의 기술적 해결방안이며, 중복되는 설명은 생략한다.
[실시예 1-27] 순수한 유기화합물의 옥탄을-물 분배계수를 예측하는 다중선형회귀 -인공신경망흔성 QSPR모델 상기 실시예 1-1 의 내용에서 물성 (정상끓는점)을 '옥탄올-물 분배계수' 로 변경한 것이 본 실시예의 기술적 해결방안이며, 중복되는 설명은 생략한다. [실시예 1-28] 순수한 유기화합물의 수용해도를 예측하는 다중선형회귀- 인공신경망흔성 QSPR모델 상기 실시예 1-1 의 내용에서 물성 (정상끓는점 )을 ·'수용해도' 로 변경한 것이 본 실시예의 기술적 해결방안이며, 중복되는 설명은 생략한다. [실시예 2-1] 순수한유기화합물의 기화열를 예측하는 QSPR-SVRC모델
1. 수집된 샘플 유기화합물들 중 탄화수소 계열의 실험데이터를 입력하는 제 1 단계; 샘플 화합물들의 탄화수소 계열 유기화합물의 기화열에 대한 분자표현자값을 준비하는 제 2 단계; 하기 식 (2-1-1)에 기재되어 있는 SVRC 수식에 필요한 매개변수를 구하는 제 3단계
Figure imgf000022_0001
_ 1 - 1.07068ε°325
θ(ε) = ( 1- 1.07068 } α = ac
ε= ( Tc"T ) 식 (2-
1-1)
[여기서 ΔΗ는 기화열, ΔΗ0.55(3는 정상끓는점의 0.55배인 온도 (T0.55b)에서의 기화열, ^는 스케일링 지수, T는 온도, Tc는 임계온도].
상기 제 3단계에서 얻은 상기 매개변수 정상끓는점의 0.55배인 온도에서의 기화열, 에 대한 QSPR 모델올 구축하는 제 4단계; 상기 실험 데이터로 예측성능을 테스트하는 제 5단계; 상기 제 5단계의 테스트를 만족하면 탐색된 모델에 의한 기화열 예측값을 기화열 값으로 채택하^, 만족하지 못하면 거 단계, 게 5단계를 반복하는 제 6단계 및 상기 모든 단계를 포함하는 QSPR- SVRC모델에 의해서 탄화수소 계열 유기화합물의 기화열을 구하는 방법.
2. 상기 게 1 항에 있어서, 상기 제 4 단계에서 상기 정상끓는점의 0.55 배인 온도에서의 기화열에 대한 QSPR 모델을 구하는 방법은: 상기 정상끓는점의 0.55 배인 온도에서의 기화열, (xc 각각에 대한 최적의 분자표현자들을 추출하는 제 4-0단계; 훈련집합과 시험집합으로 실험데이터를 분리하는 제 4- 1단계; 훈련집합에 대하여 최적의 다중선형회귀 QSPR모델을 탐색하는 제 4- 2단계; 선택된 모델의 타당성을 검토하는 제 4-3단계; 상기 제 4-3단계에서 타당성이 없으면, 상기 제 4-2 단계, 제 4-3 단계를 반복하고, 타당성이 있으면 시험집합에 대하여 모델의 예측성능을 테스트하는 제 4-4 단계; 시험집합에 대한 상기 제 4-4 단계 테스트에서 성능이 기준을 만족하지 못하면 제 4-2 단계부터 제 4-4 단계까지 반복하고, 성능이 기준을 만족하면 샘플 표준화 후 3 개 집합으로 분리하는 제 4-5 단계; 전체 샘플을 3 개 집합으로 나눈 후에 최적의 인공신경망 QSPR 모델 을 탐색하는 제 4-6 단계; 상기 제 4-5 단계에서 성능 테스트를 만족하는 상기 최적의 선형회귀모델에 의해서 구한 정상끓는점의 0.55 배인 온도에서의 기화열 예측값과 상기 제 4- 6 단계에서 탐색된 상기 최적의 인공신경망 QSPR 모델 에 의해서 구한 정상끓는점의 으 55 배인 온도에서의 기화열 예측값 차이의 절대값을 미리 설정된 과적합 방지 기준값과 비교하는 제 4-7 단계; 상기 차이가 상기 과적합 방지 기준값 보다 크 상기 제 4-5단계에서 얻은 다중선형회귀 QSPR 모델에 의한 정상끓는점의 으 55 배인 온도에서의 기화열 예측값을 정상끓는점의 0.55 배인 온도에서의 기화열 값으로 채택하고 상기 과적합 방지 기준값 보다 작으면 상기 제 4-6 단계에서 탐색된 인공신경망 QSPR모델 에 의한 정상끓는점의 0.55 배인 온도에서의 기화열 예측값을 정상끓는점의 0.55 배인 온도에서의 기화열 값으로 채택하는 제 4-8단계를 포함하고, 상기 제 4-0단계에서 에 대한 QSPR모델을 구하는 방법은: 상기 제 4-1단계부터 제 4-4 단계까지와 시험집합에 대한 상기 제 4-4 단계 테스트에서 성능이 기준을 만족하지 못하면 제 4-2 단계부터 제 4-4 단계까지 반복하고, 성능이 기준을 만족하면 최적의 다증선형회귀 QSPR 모델로 결정하는 제 4-5-1 단계; 상기 제 4-5-1 단계에서 성능 테스트를 만족하는 상기 다중선형회귀 QSPR 모델을 통하여 ac 값을 구하는 제 4-6-1 단계 및 상기 모든 단계를 포함하는 QSPR-SVRC 모델에 의해서 탄화수소 계열 유기화합물의 기화열을 구하는 방법. 3. 상기 제 2 항에 있어서, 상기 제 4ᅳ 0 단계에서 최적의 분자표현자는 모든 샘플 화합물에 대해 값이 동일하지 않은 독립적인 분자표현자인 것을 특징으로 하는 QSPR-SVRC 모델에 의해서 탄화수소 계열 유기화합물의 기화열을 구하는 방법 .
4. 상기 제 2 항에 있어서, 상기 제 4Γ1 단계에서 훈련집합과 시험집합은 5:5 - 8:2 의 비율로 나누는 것을 특징으로 하는 QSPR-SVRC 모델에 의해서 탄화수소 계열 유기화합물의 기화열을 구하는 방법 .
5. 상기 제 2 항에 있어서, 상기 제 4-2 단계에서 상기 다중선형회귀 QSPR 모델은 상기 훈련집합에 대하여 유전적 알고리즘 (genetic algorithm)을 적용하여 다중선형회귀 QSPR 모델을 탐색하는 것을 특징으로 하는 QSPR-SVRC 모델에 의해서 탄화수소 계열 유기화합물의 기화열을 구하는 '방법.
6. 상기 제 5 항에 있어서, 상기 유전적 알고리즘 (genetic algorithm)은 분자표현자들의 풀 (pool)에서 일정한 개수의 분자표현자들을 무작위로 뽑아 만든 다수의 다중선형회귀 QSPR 모델들로 구성된 개체군 (population)을 생성하는 단계; 각 개체 (individual)들은 뽑힌 분자표현자들의 번호들을 조합하여 부호화하는 단계; 생성된 개체군으로부터 를렛휠 (Roulette Wheel) 방법에 의해서 두 개의 부모 염색체를 선택한 뒤 단순교배 (single point crossover)법에 의하여 자손들을 생성하는 단계; 생성된 자손들의 염색체 일부를 일정 확률로 돌연변이 (mutation) 시킨 뒤 기존 개체군의 일부를 이들로 교체하여 '새 개체군을 생성하는 단계를 포함하는 것을 특징으로 하는 QSPR-SVRC 모델에 의해서 탄화수소 계열 유기화합물의 기화열을 구하는 방법 .
7. 상기 제 2 항에 있어서, 상기 제 4-2 단계는 회귀모델의 결정계수 또는 평균절대오차에 의해서 예측성능을 판단하는 것을 포함하는 QSPR-SVRC 모델에 의해서 탄화수소 계열 유기화합물의 기화열을 구하는 방법.
8. 상기 제 2 항에 있어서, 상기 제 4-3 단계에서 타당성은 통계학적 t 검정값에 의해서 타당성을 결정하는 QSPR-SVRC 모델에 의해서 탄화수소 계열 유기화합물의 기화열을 구하는 방법.
9. 상기 제 2항에 있어서, 상기 제 4-5단계에서 시험집합에 대한 예측성능이 훈련집합에 대한 예측성능과 유사하면 다중선형회귀 QSPR 모델이 결정되고, 시험집합에 대한 예측성능이 훈련집합에 대한 예측성능과 차이 나면 훈련집합과 시험집합올 다시 분류하는 QSPR-SVRC 모델에 의해서 탄화수소 계열 유기화합물의 기화열을 구하는 방법.
10. 상기 제 2 항에 있어서, 상기 제 4-6 단계에서 상기 인공신경망에 의한 탐색범위는 입력층과 출력층 사이에 하나의 은닉층을 가지며 전방향 (feed forward)으로 만 연결되어 있는 것을 특징으로 하는 QSPR-SVRC 모델에 의해서 탄화수소 계열 유기화합물의 기화열을 구하는 방법.
11. 상기 제 10 항에 있어세 상기 은닉층의 활성화 함수로는 시그모이드 (Sigmoid) 함수를 사용하는 것을 특징으로 하는 QSPR-SVRC 모델에 의해서 탄화수소 계열 유기화합물의 기화열을 구하는 방법.
12. 상기 제 2 항에 있어서, 상기 제 4-7 단계에서 정상끓는점의 0.55 배인 온도에서의 기화열 에 대한 상기 과적합 방지 기준값은 '발명의 실시를 위한 형태' 에 있는 실시예 2-1 의 표 70에 기술하였으며, 그 값을 특징으로 하는 QSPR-SWC 모형에 의해서 탄화수소 계열 유기화합물의 기화열을 구하는 방법 .
13. 상기 제 2 항에 있어서, 상기 제 4-0 단계에서 상기 정상끓는점의 0.55 배인 온도에서의 기화열 에 대하여 추출된 분자표현자들은 '발명의 실시를 위한 형태' 에 있는 실시예 2-1 의 표 70 에 기술하였으며 그 분자표현자들을 포함하고, 상기 ac 에 대하여 추출된 분자표현자들은 발명의 실시를 위한 형태' 에 있는 실시예 2-1 의 표 기 에 기술하였으며 그 분자표현자들을 포함하는 것을 특징으로 하는 QSPRᅳ SVRC 모형에 의해서 탄화수소 계열 유기화합물의 기화열을 구하는 방법.
14. 상기 제 1 항부터 제 13 항 증 어느 한 항에 의해 탄화수소 계열 유기화합물의 기화열올 구하는 방법을 컴퓨터에서 실행시키기 위한 프로그램으로 기록하고 컴퓨터로 읽을 수 있는 저장 매체.
15. 수집된 샘플 유기화합물들 중의 비탄화수소 계열 실험데이터를 입력하는 제 1 단계; 상기 입력된 샘플 화합물들의 기화열에 대한 분자표현자 값을 준비하는 제 2 단계; 하기 식 (2-1-2)에 기재되어 있는 SVRC 수식에 필요한 매개변수를 구하는 제 3단계
ΔΗ = ( i0 a 55be)(1/«)
1 - 1.07068ε°325
θ(ε) = r )
、 ^ 1 - 1.07068 }
ct = αΓ 식 (2ᅳ
Figure imgf000027_0001
1-2) [여기서 ΔΗ는 기화열, ΔΗ0.55ΐ3 는 정상끓는점의 0.55 배인 온도 ( T0.55b) 에서의 기화열, ac는 스케일링 지수, T는 온도ᅳ, Tc 는 임계온도] ;
상기 제 3 단계에서 얻은 상기 매개변수 정상끓는점의 0.55 배인 온도에서의 기화열, 에 대한 QSPR 모형을 구축하는 제 4 단계; 상기 실험 데이터로 예측성능을 테스트하는 제 5 단계; 상기 제 5 단계의 테스트를 만족하면 탐색된 모형에 의한 기화열 예측값을 기화열 값으로 채택하고, 만족하지 못하면 제 4 단계, 제 5 단계를 반복하는 제 6 단계 및 상기 모든 단계를 포함하는 QSPR-SVRC 모형에 의해서 비탄화수소 계열 유기화합물의 기화열을 구하는 방법 ·
16. 상기 제 15항에 있어서, 상기 제 4단계에서 상기 정상끓는점의 .0.55배인 온도에서의 기화열에 대한 QSPR 모형을 구하는 방법은 : 상기 정상끓는점의 0.55 배인 온도에서의 기화열, (xc 각각에 대한 최적의 분자표현자들을 추출하는 제 4-0단계 ; 훈련집합과 시험집합으로 실험데이터를 분리하는 제 4- 1 단계; 훈련집합에 대하여 최적의 다중선형회귀 QSPR모델을 탐색하는 제 4- 2단계 ; 선택된 모형의 타당성을 검토하는 제 4-3단계; 상기 제 4-3단계에서 타당성이 없으면, 상기 제 4-2 단계, 제 4-3 단계를 반복하고, 타당성이 있으면 시험집합에 대하여 모형의 예측성능을 테스트하는 제 4ᅳ 4 단계; 시험집합에 대한 상기 제 4-4 단계 테스트에서 성능이 기준을 만족하지 못하면 제 4-2 단계부터 제 4-4 단계까지 반복하고, 성능이 기준을 만족하면 샘플 표준화 후 3 개 집합으로 분리하는 제 4-5 단계; 전체 샘플을 3 개 집합으로 나눈 후에 최적의 인공신경망 QSPR 모델을 탐색하는 제 4-6 단계; 상기 제 4-5 단계에서 성능 테스트를 만족하는 상기 최적의 선형회귀모형에 의해서 구한 정상끓는점의 0.55 배인 온도에서의 기화열 예측값과 상기 제 4ᅳ 6 단계에서 탐색된 상기 최적의 인공신경망 QSPR 모델에 의해서 구한 정상끓는점의 0.55 배인 온도에서의 기화열 예측값 차이의 절대값을 미리 설정된 과적합 방지 기준값과 비교하는 제 4-7 단계;. 상기 차이가 상기 과적합 방지 기준값 보다 크면 상기 제 4-5단계에서 얻은 다중선형회귀 QSPR 모델에 의한 정상끓는점의 0.55 배인 온도에서의 기화열 예축값을 정상끓는점의 0.55 배인 온도에서의 기화열 값으로 채택하고 상기 과적합 방지 기준값 보다 작으면 상기 제 4-6 단계에서 탐색된 인공신경망 QSPR 모델에 의한 정상끓는점의 0.55 배인 온도에서의 기화열 예측값을 정상끓는점의 0.55 배인 은도에서의 기화열 값으로 채택하는 제 4-8 단계를 포함하고,
상기 제 4-0 단계에서 xc 에 대한 QSPR 모형을 구하는 방법은 : 상기 제 4- 1 단계부터 제 4ᅳ 4 단계와 시험집합에 대한 상기 제 4-4 단계 테스트에서 성능이 기준을 만족하지 못하면 제 4-2 단계부터 제 4-4 단계까지 반복하고, 성능이 기준을 만족하면 최적의 다중선형회귀 QSPR 모델로 결정하는 제 4-5- 1 단계 ; 상기 제 4—5-1 단계에서 성능 테스트를 만족하는 상기 다중선형회귀 모형을 통하여 ac 값을 구하는 제 4-6-1 단계 및 상기 모든 단계를 포함하는 QSPR-SVRC 모형에 의해서 비탄화수소 계열 유기화합물의 기화열을 구하는 방법
17. 상기 제 16항에 있어서, 상기 제 4-0단계에서 최적의 분자표현자는 모든 샘플 화합물에 대해 ,값이 동일하지 않은 독립적인 분자표현자인 것을 특징으로 하는 QSPR-SVRC 모형에 의해서 비탄화수소 계열 유기화합물의 기화열을 구하는 방법
18. 상기 제 16 항에 있어서, 상기 제 4-1 단계에서 훈련집합과 시험집합은 5:5 ~ 8:2 의 비율로 나누는 것을,특징으로 하는 QSPR-SVRC 모형에 의해서 비탄화수소 계열 유기화합물의 기화열을 구하는 방법. .
19. 상기 제 16항에 있어서, 상기 제 4-2단계에서 상기 다중선형회귀 모형은 상기 훈련집합에 대하여 유전적 알고리즘 (genetic algorithm)을 적용하여 다중선형회귀 QSPR 모델을 탐색하는 것을 특징으로 하는 QSPR-SVRC 모형에 의해서 비탄화수소 계열 유기화합물의 기화열을 구하는 방법 .
20. 상기 제 19 항에 있어서, 상기 유전적 알고리즘 (genetic algorithm)은 분자표현자들의 풀 (pool)에서 일정한 개수의 분자표현자들을 무작위로 뽑아 만든 다수의 다중선형회귀 QSPR 모델들로 구성된 개체군 (population)을 생성하는 단계; 각 개체 (individual)들은 뽑힌 분자표현자들의 번호들을 조합하여 부호화하는 단계; 생성된 개체군으로부터 를렛휠 (Roulette Wheel) 방법에 의해서 두 개의 부모 염색체를 선택한 뒤 단순교배 (single point crossover)법에 의하여 자손들을 생성하는 단계; 생성된 자손들의 염색체 일부를 일정 확률로 돌연변이 (mutation) 시킨 뒤 기존 개체군의 일부를 이들로 교체하여 새 개체군을 생성하는 단계를 포함하는 것을 특징으로 하는 QSPR-SVRC 모형에 의해서 비탄화수소 계열 유기화합물의 기화열을 구하는 방법 . ' 21. 상기 제 16 항에 있어서, 상기 제 4-2 단계는 회귀모형의 결정계수 또는 평균절대오차에 의해서 예측성능을 판단하는 것을 포함하는 QSPR-SVRC 모형에 의해서 비탄화수소 계열 유기화합물의 기화열을 구하는 방법 .
22. 상기 게 ' 16 항에 있어서, 상기 제 4-3 단계에서 타당성은 통계학적 t 검정값에 의해서 타당성을 결정하는 QSPR-SVRC 모형에 의해서 비탄화수소 계열 유기화합물의 기화열을 구하는 방법.
23. 상기 제 16 항에 있어서, 상기 제 4-5 단계에서 시험집합에 대한 예측성능이 훈련집합에 대한 예측성능과 유사하면 다증선형회귀 QSPR 모델이 결정되고, 시험집합에 대한 예측성능이 훈련집합에 대한 예측성능과 차이 나면 훈련집합과 시험집합을. 다시 분류하는 QSPR-SVRC 모형에 의해서 비탄화수소 계열 유기화합물의 기화열을 구하는 방법.
24. 상기 제 16 항에 있어서, 상기 제 4-6 단계에서 상기 인공신경망에 의한 탐색범위는 입력층과 출력층 사이에 하나의 은닉층을 가지며 전방향 (feed forward)으로 만 연결되어 있는 것을 특징으로 하는 QSPR-SVRC 모형에 의해서 비탄화수소 계열 유기화합물의 기화열을 구하는 방법 .
25. 상기 제 24 항에 있어서, 상기 은닉층의 활성화 함수로는 시그모이드 (Sigmoid) 함수를 사용하는 것을 특징으로 하는 QSPR-SVRC 모형에 의해서 비탄화수소 계열 유기화합물의 기화열을구하는 방법.
26. 상기 제 16 항에 있어서, 상기 제 4-7 단계에서 정상끓는점의 0.55 배인 온도에서의 기화열에 대한 상기 과적합 방지 기준값은 '발명의 실시를 위한 형태' 에 있는 실시예 2-1 의 표 73 에 기술하였으며, 그 값을 특징으로 하는 QSPR-SVRC 모형에 의해서 비탄화수소 계열 유기화합물의 기화열을 구하는 방법.
27. 상기 제 16 항에 있어서, 상기 정상끓는점의 0.55 배인 온도 에서의 기화열에 대하여 추출된 분자표현자들은 '발명의 실시를 위한 형태' 에 있는 실시예 2-1 의 표 73 에 기술하였으며 그 분자표현자들을 포함하고, 상기 ac 에 대하여 추출된 분자표현자들은 '발명의 실시를 위한 형태' 에 있는 실시예 2-1 의 표 74에 기술하였으며 그 분자표현자들을 포함하는 것을 특징으로 하는 QSPR-SVRC 모형에 의해서 비탄화수소 계열 유기화합물의 기화열을 구하는 방법 .
28. 상기 제 15 항부터 제 27 항 증 어느 한 항에 의해 비탄화수소 계열 유기화합물의 기화열을 구하는 방법올 컴퓨터에서 실행시키기 위한 프로그램으로 기톡하고 컴퓨터로 읽을 수 있는 저장 매체.
29. 하기 식 (2-1-3)에 기재되어 있는 SVRC모형에 대하여
- 1.07068εΟ:Ι
θ(ε) = (-
- 1.07068 α = αΓ 식 (2ᅳ lC-lQ.55\
[여기서 ΔΗ 는 기화열, ΔΗ0.55ΐ3 는 정상끓는점의 0.55 배인 온도 ( T0.55b) 에서의 기화열, 는 스케일링 지수, T는 온도, Tc 는 임계온도]
상기 정상끓는점의 0.55 배인 온도에서의 기화열에 대하여 추출된 분자표현자들은 는 '발명의 실시를 위한 형태' 에. 있는 실시예 2-1 의 표 70 에 기술하였으며 그 분자표현자들을 포함하고, 상기 ccc 에 대하여 추출된 분자표현자들은 '발명의 실시를 위한 형태' 에 있는 실시예 2-1 의 표 기 에 기술하였으며 그 분자표현자들을 포함하는 것을 특징으로 하는 QSPR-SVRC 모형에 의해서 탄화수소 계열 유기화합물의 기화열을 구하는 방법. 30. 하기 식 (2ᅳ 1-4)에 기재되어 있는 SVRC 모형에 대하여
ΔΗ = (ΔΗ0«55ί3θ)(1/«)
Figure imgf000033_0001
α = αΓ 식 (2-
Figure imgf000033_0002
1-4)
[여기서 ΔΗ 는 기화열, ΔΗ0.551) 는 정상끓는점의 0.55 배인 온도 ( T0.55b) 에서의 기화열, ac는 스케일링 지수, T는 온도, Tc 는 임계온도]
상기 정상끓는점의 0.55 배인 온도 에서의 기화열에 대하여 추출된 분자표현자들은 '발명의 실시를 위한 형태' 에 있는 실시예 2-1 의 표 73에 기술하였으며 그 분자표현자들을 포함하고, 상기 ac 에 대하여 추출된 분자표현자는 '발명의 실시를 위한 형태' 에 있는 실시예 2-1 의 표 74 에 기술하였으며 그 분자표현자들을 포함하는 것을 특징으로 하는 QSPR-SVRC 모형에 의해서 비탄화수소 계열 유기화합물의 기화열을 구하는 방법 .
[실시예 2-2] 순수한 화합물의 이상기체의 열용량을 예측하는 다중선형회귀 인공신경망흔성 QSPR모펠 상기 실시예 2-1 의 내용에서 물성 (기화열)을 '이상기체의 열용량' 으로 변경한 것이 본 실시예의 기술적 해결방안이며, 증복되는 설명은 생략한다. 비중복 부분은 하기와 같다.
1. 수집된 샘플 유기화합물들 중의 탄화수소 계열 실험데이터를 입력하는 제 1 단계; 상기 게 1 단계에서 입력된 상기 탄화수소 계열 유기화합물의 이상기체의 열용량에 대한 분자표현자값을 준비하는 제 2 단계; 최적의 분자표현자들을 추출하는 제 3 단계; 양자역학 계산에 의해서 이상기체의 열용량에 대한 각 화합물에 대한 조화진동자, 각 분자에 대한 부자유 회전자, 분자의 형태가 단일결합의 회전에 의한 회전체로 인하여 발생하는 효과를 계산하는 제 4 단계; 상기 제 3 단계에서 얻은 상기 최적의 분자표현자 및 상기 제 4 단계에서 얻은 상기 이상기체의 열용량에 대한 각 화합물에 대한 조화진동자, 각 분자에 대한 부자유 회전자, 분자의 형태가 단일결합의 회전에 의한 회전체로 인하여 발생하는 효과를 통하여 이상기체의 열용량에 대한 QSPR 모델을 구축하는 제 5 단계; 상기 실험 데이터로 예측성능을 테스트하는 제 6 단계; 상기 제 6 단계의 테스트를 만족하면 탐색된 모델에 의한 이상기체의 열용량 예측값을 이상기체의 열용량 값으로 채택하고, 만족하지 못하면 제 5 단계 , 제 6 단계를 반복하는 제 7 단계 및 상기 모든 단계를 포함하는 탄화수소 계열 유기화합물의 이상기체의 열용량을 구하는 방법ᅳ
2. 상기 제 1 항에 있어서, 상기 제 5 단계에서 상기 이상기체의 열용량에 대한 QSPR 모델을 구하는 방법은: 훈련집합과 시험집합으로 실험데이터를 분리하는 제
5-1 단계; 훈련집합에 대하여 최적의 다중선형회귀 QSPR 모델을 탐색하는 제 5-2 단계; 선택된 모델의 타당성을 검토하는 제 5-3 단계; 상기 제 5-
3 단계에서 타당성이 없으면, 상기 제 5-2 단계, 제 5-3 단계를 반복하고, 타당성이 있으면 시험집합에 대하여 모델의 예측성능올 테스트하는 제 5-
4 단계; 시험집합에 대한 상기 제 5-4 단계 테스트에서 성능이 기준을 만족하지 ¾하면 제 5—2 단계부터 제 5-4 단계까지 반복하고, 성능이 기준을 만족하면 샘플 표준화 후 '3 개 집합으로 분리하는 제 5ᅳ 5 단계; 전체 샘플을
3 개 집합으로 나눈 후에 최적의 안공신경망 QSPR 모델 을 탐색하는 제 5- 6 단계; 상기 제 5-6 단계에서 탐색된 상기 최적의 인공신경망 QSPR 모델 에 의해서 구한 이상기체의 열용량 예측값을 계산하는 제 5-7 단계; 상기 제 5- 7 단계에서 계산한 상기 이상기체의 열용량 예측값이 음수가 아니면 이를 이상기체의 열용량값으로 채택하고, 상기 제 5-7 단계에서 계산한 상기 이상기체의 열용량 예측값이 음수이면, 상기 제 4 단계에서 얻은 이상기체의 열용량에 대한 각 화합물에 대한 조화진동자, 각 분자에 대한 부자유 회전자, 분자의 형태가 단일결합의 회전에 의한 회전체로 인하여 발생하는 효과의 합을 이상기체의 열용량값으로 채택하는 제 5-8 및 상기 모든 단계를 포함하는 탄화수소 계열 유기화합물의 이상기체의 열용량을 구하는 방법. [실시예 2-3] 순수한 유기화합물의 액체의 열용량을 예측하는 QSPR-SVRC 모델
상기 실시예 2-1 의 내용 중 제 1 항 부터 14 항에서 물성 (기화열)을 탄화수소와 비탄화수소의 구분없이 모든 해당 유기화합물의 '액체의 열용량' 으로 변경한 것이 본 실시예의 기술적 해결방안이며, 중복되는 설명은 생략한다. 비중복 부분은 하기와 같다.
1. 수집된 샘플 유기화합물들의 실험데이터를 입력하는 제 1 단계; 샘플 화합물들와 유기화합물의 액체의 열용량에 대한 분자표현자값을 준비하는 제 2 단계; 하기 식 (2-3-1)에 기재되어 있는 SVRC 수식에 필요한 매개변수를 구하는 제 3단계;
! _ΑεΒ
Θ(ε) = (Ί^Τ) α = ac
Tb -T
ε = (- ~· )
~ 10.55b
- CpL = (CpL(Tb)a - (CpL(Tb)«ᅳ CpL( o. b WlM 식 (2-
3-1) [여기서 A, B는 각 물성에 고유하게 주어지는 보편상수들 (universal constants)로서 액체의 열용량의 경우 그 값은 각각 1.33, 1 이며, CpL(Tb)은 정상끓는점에서의 액체의 열용량이고, CpL(T0.55b)는 정상끓는점의 0.55배인 온도 (T0.55b) 에서의 액체의 열용량, a 는 스케일링 지수이며 cxc 는 임계점에서의 스케일링 지수]; 상기 제 3단계에서 얻은 상기 매개변수 정상끓는점과 정상끓는점의 0.55배인 온도에서의 액체의 열용량, 에 대한 QSPR 모델을 구축하는 제 4단계; 상기 실험 데이터로 예측성능을 테스트하는 제 5단계; 상기 게 5단계의 테스트를 만족하면 탐색된 모델에 의한'액체의 열용량 예측값을 액체의 열용량 값으로 채택하고, 만족하지 못하면 제 4단계, 제 5단계를 반복하는 제 6단계를 포함하는 QSPR-SV C 모델에 의해서 유기화합물의 액체의 열용량을 구하는 방법 .
2. 상기 제 1 항에 있어서, 상기 제 4 단계에서 상기 정상끓는점과 정상끓는점의 0.55 배인 온도에서의 액체의 열용량에 대한 QSPR 모델을 구하는 방법은 : 상기 정상끓는점과 정상끓는점의 0.55 배인 온도에서의 액체의 열용량, 에 대한 최적의 분자표현자들을 추출하는 제 4-0 단계; 훈련집합과 시험집합으로 실험데이터를 분리 는 제 4-1 단계; 훈련집합에 대하여 최적의 다중선형회귀 QSPR 모델을 탐색하는 제 4-2 단계; 선택된 모델의 타당성을 검토하는 제 4-3 단계; 상기 제 4-3 단계에서 타당성이 없으면, 상기 제 4-2 단계, 제 4—3 단계를 반복하고, 타당성이 있으면 시험집합에 대하여 모델의 예측성능을 테스트하는 제 4-4 단계; 시험집합에 대한 상기 제 4-4 단계 테스트에서 성능이 기준을 만족하지 못하면 제 4- 2 단계부터 제 4-4 단계까지 반복하고, 성능이 기준을 만족하면 샘플 표준화 후 3 개 집합으로 분리하는 제 4ᅳ 5 단계; 전체 샘플을 3 개 집합으로 나눈 후에 최적의 인공신경망 QSPR 모델 을 탐색하는 제 4ᅳ 6 단계; 상기 제 4- 5단계에서 성능 테스트를 만족하는 상기 최적의 선형회귀모델에 의해서 구한 정상끓는점과 정상끓는점의 0.55 배인 온도에서의 액체의 열용량 예측값과 상기 제 4ᅳ6 단계에서 탐색된 상기 최적의 인공신경망 QSPR 모델 에 의해서 구한 정상끓는점과 정상끓는점의 0.55 배인 온도에서의 액체의 열용량 예측값을 미리 설정된 과적합 방지 기준과 각각 비교하는 제 4-7 단계; 상기 제 4-7 단계에서 정상끓는점과 정상끓는점의 0.55 배인 온도점에서의 액체의 열용량 각각의 경우, 인공신경망 모델에 의해서 얻어진 대웅되는 온도점에서의 액체의 열용량 예측값이 각각의 경우에 해당하는 상기 과적합 방지 기준값의 85% 내지 115%를 벗어나면 상기 제 4-5 단계에서 얻은 다증선형회귀 QSPR 모델에 의한 대웅되는 은도점에서의 액체의 열용량 예측값을 대웅되는 온도에서의 액체의 열용량 값으로 채택하고 상기 과적합 방지 기준값의 85% 내지 115%에 속하면 상기 제 4-6 단계에서 탐색된 인공신경망 QSPR 모델 에 의한 대웅되는 온도에서의 액체의 열용량 예측값을 대웅되는 온도에서의 액체의 열용량 값으로 채택하는 제 4-8단계를 포함하고, 상기 제 4단계에서 ac에 대한 QSPR 모델을 구하는 방법은 : 상기 제 4- 1단계부터 제 4-4단계까지와 시험집합에 대한 상기 제 4-4단계 테스트에서 성능이 기준을 만족하지 못하면 제 4-2단계부터 제 4-4단계까지 반복하고, 성능이 기준을 만족하면 최적의 다중선형회귀 QSPR 모델로 결정하는 제 4-5- 1단계; 상기 제 4-5-1단계에서 성능 테스트를 만족하는 상기 다중선형회귀 QSPR 모델을 통하여 ᅳ 값을 구하는 제 4-6-1단계 및 상기 모든 단계를 포함하는 QSPR-SV C 모델에 의해서 유기화합물의 액체의 열용량을 구하는 방법 .
[실시예 2-4] 순수한유기화합물의 포화액체밀도를 예측하는 QSPR-SVRC모델 상기 실시예 2-1 의 내용에서 물성 (기화열)을 '포화액체밀도' 로 변경한 것이 본 실시예의 기술적 해결방안이며, 중복되는 설명은 생략한다. 비중복 부분은 하기와 같다.
1. 수집된 샘플 유기화합물들의 중 비탄화수소 계열 만을 실험데이터로 입력하는 제 1 단계; 샘플 화합물들의 유기화합물의 포화액체'밀도에 대한 분자표현자값을 준비하는 제 2 단계; 하기 식 (2-4-1)에 기재되어 있는 SVRC 수식에 필요한 매개변수를 구하는 제 3단계 .
Ρ = (Ρ?- (P? - Poa.s5b)e)(1/a)
Figure imgf000039_0001
a = ac - (ac - α0.551)
식 (2- ic—l 0.55b
4-1) 、
[여기서 pc는 임계온도 ( Tc )에서의 포화액체밀도, p0.55b는 정상끓는점의 0.55배인 온도 ( T0.S5b) 에서의 포화액체밀도, T는 온도, a는 스케일링 지수이며 ac, 010.551)는 각각 임계점과 정상끓는점의 0.55배인 온도에서의 a값]; 상기 게 3단계에서 얻은 상기 매개변수인 정상 끓는점의 0.55배인 온도에서의 포화액체밀도, ac, a0.5Sb 각각에 대한 QSPR 모델을 구축하는 제 4단계; 상기 실험 데이터로 예측성능을 테스트하는 제 5단계; 상기 제 5단계의 테스트를 만족하면 탐색된 모델에 의한 포화액체밀도 예측값을 포화액체밀도 값으로 채택하고, 만족하지 못하면 제 4단계, 게 5단계를 반복하는 제 6단계 및 상기 모든 단계를 포함하는 QSPR-SVRC 모델에 의해서 비탄화수소 계열 유기화합물의 포화액체밀도를 구하는 방법.
2. 상기 제 1 항께 있어서, 상기 제 4 단계에서 상기 임계온도에서의 포화액체밀도, 정상' 끓는점의 0.55 배인 온도에서의 포화액체밀도, ac , a0.55b에 대한 QSPR 모델을 구하는 방법은 : 최적의 분자표현자들을 추출하는 제 4-0 단계; 훈련집합과 시험집합으로 실험데이터를 분리하는 제 4-1 단계; 훈련집합에 대하여 최적의 다중선형회귀 QSPR 모델을 탐색하는 제 4-2 단계; 선택된 모델의 타당성을 검토하는 제 4-3 단계; 상기 제 4-3 단계에서 타당성이 없으면, 상기 제 4-2 단계, 제 4-3 단계를 반복하고, 타당성이 있으면 시험집합에 대하여 모델의 예측성능을 테스트하는 제 4-4 단계; 시험집합에 대한 상기 제 4-4 단계 테스트에서 성능이 기준을 만족하지 못하면 제 4-2 단계부터 제 4-4 단계까지 반복하고, 성능이 기준을 만족하면 최적의 다중선형회귀 QSPR 모델로 결정하는 제 4-5 단계; 상기 제 4- 5 단계에서 성능 테스트를 만족하는 상기 다증선형회귀 QSPR 모델을 통하여 정상 끓는점의 0.55 배인 온도에서의 포화액체밀도, aC ) a0.55b 값을 구하는 제 4-6 단계 및 상기 모든 단계를 포함하는 QSPR-SVRC 모델에 의해서 비탄화수소 계열 유기화합물의 포화액체밀도를 구하는 방법.
[실시예 2-5] 순수한유기화합물의 표면장력을 예측하는 QSPR모델
상기 실시예 2-1 의 내용 중 제 1 항 부터 14 항에서 물성 (기화열)을 탄화수소와 비탄화수소의 구분없이 모든 해당 유기화합물의 '표면장력' 으로 변경한 것이 본 실시예의 기술적 해결방안이며, 중복되는 설명은 생략한다. 비중복 부분은 하기와 같다.
1. 수집된 샘플 '유기화합물들의 실험데이터를 입력하는 제 1 단계; 샘플 화합물들의 유기화합물들의 표면장력에 대한 분자표현자값을 준비하는 제 2 단계; 하기 식 (2-5-1)에 기재되어 있는 수식에 필요한 매개변수를 구하는 제 3단계
σ = ^ * (1ᅳ rr)N 식 (2-
5-1)
[여기서 σ 은 표면장력, A N은 각 분자에 의존하는 상수값, 7는 온도, Tc 는 임계온도, Tr = ^은 환산온도]; 상기 게 3단계에서 얻은 매개변수 정상끓는점과 정상끓는점의 0.55배인 온도에서의 표면장력 ( (jb,cT0.ssb )에 대한 QSPR 모델을 구축하고 이로부터 계산된 cjb,cr0.S5b를 상기 식 (2-5-1)에 대입하여 얻은 상수값 A N으로 상기 표면장력을 구하는 제 4단계; 상기 실험 데이터로 예측성능을 테스트하는 제 5단계; 상기 제 5단계의 테스트를 만족하면 탐색된 모델에 의한 표면장력 예측값을 표면장력 값으로 채택하고, 만족하지 못하면 제 4단계, 제 5단계를 반복하는 제 6단계 및 상기 모든 단계를 포함하는 QSPR모델에 의해서 유기화합물의 표면장력을 구하는 방법.
2. 상기 제 1 항에 있어서, 상기 제 4 단계에서 상기 정상끓는점과 정상끓는점의 0.55 배인 온도에서의 표면장력에 대한 QSPR 모델을 구하는 방법은 : 상기 정상끓는점과 정상끓는점의 0.55 배인 온도에서의 표면장력 (crb,cT0.55b )에 대한 최적의 분자표현자들을 추출하는 제 4-0 단계; 훈련집합과 시험집합으로 실험데이터를 분리하는 제 4ᅳ1 단계; 훈련집합에 대하여 최적의 다중선형회귀 QSPR 모델을 탐색하는 제 4-2 단계; 선택된 모델의 타당성을 검토하는 제 4-3 단계; 상기 제 4-3 단계에서 타당성이 없으면, 상기 제 4-2 단계, 제 4-3 단계를 반복하고 타당성이 있으면 시험집합에 대하여 모델의 예측성능을 테스트하는 제 4-4 단계; 시험집합에 대한 상기 제 4-4 단계 테스트에서 성능이 기준을 만족하지 못하면 제 4ᅳ 2 단계부터 제 4-4 단계까지 반복하고, 성능이 기준을 만족하면 샘플 표준화 후 3 개 집합으로 분리하는 제 4-5 단계; 전체 샘플을 3 개 집합으로 나눈 후에 최적의 인공신경망 QSPR 모델 을 탐색하는 제 4-6 단계; 상기 '제 4- 5단계에서 성능 테스트를 만족하는 상기 최적의 선형회귀모델에 의해서 구한 정상끓는점과 정상끓는점의 0.55 배인 온도에서의 표면장력 예측값과 상기 제 4-6 단계에서 탐색된 상기 최적의 인공신경망 QSPR 모델 에 의해서 구한 정상끓는점과 정상끓는점의 0.55 배인 온도에서의 표면장력 예측값 차이의 절대값을 미리 설정된 과적합 방지 기준값과 비교하는 제 4-7 단계; 상기 차이가 상기 과적합 방지 기준값 보다 크면 상기 제 4-5 단계에서 얻은 다중선형회귀 QSPR 모델에 의한 정상끓는점과 정상끓는점의 0.55 배인 온도점에서의 표면장력 예측값을 정상끓는점과 정상끓는점의 0.55 배인 온도에서의 표면장력 값으로 채택하고 상기 과작합 방지 기준값 보다 작으면 상기 제 4-6 단계에서 탐색된 인공신경망 QSPR 모델 에 의한 정상끓는점과 정:상끓는점의 0.55 배인 온도에서의 표면장력 예측값을 정상끓는점과 정상끓는점의 0.55배인 온도에서의 표면장력 값으로 채택하는 제 4-8단계 및 상기 모든 단계를 포함하는 QSPR 모델에 의해서 유기화합물의 표면장력을 구하는 방법 .
3. 상기 제 2 항에 있어서, 상기 제 4-0 단계에서 상기 정상끓는점과 정상끓는점의 0.55 배인 온도에서의 표면장력 ( (jb,o0.55b )에 대한 최적의 분자표현자는 모든 샘플 화합물에 대해 값이 동일하지 않은 독립적인 분자표현자인 것을 특징으로 하는 QSPR 모델에 의해서 유기화합물의 표면장력을 구하는 방법 .
[실시예 2-6] 순수한 유기화합물의 액체 열전도율을 예측하는 QSPR-SVRC 모델
상기 실시예 2-1 의 내용에서 물성 (기화열)을 '액체 열전도율' 로 변경한 것이 본 실시예의 기술적 해결방안이며, 증복되는 설명은 생략한다. 비중복 부분은 하기와같다.
1. 수집된 샘플 유기화합물들 중 탄화수소 계열의 실험데이터를 입력하는 제 1 단계; 샘플 화합물들의 탄화수소 계열 유기화합물의 액체 열전도율에 대한 분자표현자값을 준비하는 제 2 단계; 하기 식 (2ᅳ 6-1)에 기재되어 있는 SVRC 수식에 필요한 매개변수를 구하는 제 3단계
θ(ε) = 1 _ L
- 1.33
ε = ~ 스 z_ ᅳ T0.65b
6-1) -
[여기서 는 정상끓는점 (Tb)에서의 액체 열전도율, 0.6Sb 정상끓는점의
0.65배인 온도 (Ta65b) 에서의 액체 열전도율, a는 스케일링 지수];
상기 제 3단계에서 얻은 상기 매개변수 정상끓는점과 정상끓는점의 0.65배인 온도 에서의 액체 열전도율, a에 대한 QSPR 모델을 구축하는 제 4단계 ; 상기 실험 데이터로 예측성능을 테스트하는 제 5단계; 상기 제 5단계의 테스트를 만족하면 탑색된 모델에 의한 액체 열전도율 예측값을 액체 열전도율 값으로 채택하고, 만족하지 못하면 제 4단계, 제 5단계를 반복하는 제 6단계 및 상기 모든 단계를 포함하는 QSPR-SWC 모델에 의해서 탄화수소 계열 유기화합물의 액체 열전도율을 구하는 방법 .
2. 상기 제 1 항에 있어서, 상기 제 4 단계에서 상기 정상끓는점에서의 액체 열전도율, 정상끓는점의 0.65 배인 온도에서의 액체 열전도율, α 에 대한 QSPR 모델을 구하는 방법은 : 상기 정상끓는점에서의 액체 열전도율, 정상끓는점의 0.65 배인 온도에서의 액체 열전도율, α 각각에 대한 최적의 분자표현자들을 추출하는 제 .4-0 단계; 훈련집합과 시험집합으로 실험데이터를 분리하는 제 4-1 단계; 훈련집합에 대하여 최적의 다중선형회귀 QSPR 모델을 탐색하는 제 4-2 단계; 선택된 모델의 타당성을 검토하는 제 4- 3 단계; 상기 제 4-3 단계에서 타당성이 없으면, 상기 제 4-2 단계, 제 4- 3 단계를 반복하고, 타당성이 있으면 시험집합에 대하여 모델의 예측성능을 테스트하는 제 4ᅳ4 단계; 시험집합에 대한 상기 제 4-4 단계 테스트에서 성능이 기준을 만족하지 못하면 제 4-2 단계부터 제 4-4 단계까지 반복하고ᅳ 성능이 기준을 만족하면 샘플 표준화 후 3개 집합으로 분리하는 제 4—5단계 ; 전체 샘플을 3 개 집합으로 나눈 후에 최적의 인공신경망 QSPR 모델 을 탐색하는 제 4-6 단계; 상기 제 4-5 단계에서 성능 테스트를 만족하는 상기 최적의 선형회귀모델에 의해서 구한 정상끓는점에서의 액체 열전도율, 정상끓는점의 0.65 배인 온도에서의 액체 열전도율, α 예측값과 상기 제 4- 6 단계에서 탐색된 상기 최적의 인공신경망 QSPR 모델 에 의해서 구한 정상끓는점에서의 액체 열전도율, 정상끓는점의 0.65 배인 온도에서의 액체 열전도율, α 예측값 차이의 절대값을 미리 설정된 과적합 방지 기준값과 비교하는 제 4ᅳ 7단계 ; 상기 차이가 상기 과적합 방지 기준값 보다 크면 상기 제 4-5단계에서 ¾은 다중선형회귀 QSPR모델에 의한 정상끓는점에서의 액체 열전도율, 정상끓는점의 으 65 배인 온도에서의 액체 열전도율, α 예측값을 정상끓는점에서의 액체 열전도율, 정상끓는점의 0.65 배인 온도에서의 액체 열전도율, α 값으로 채택하 i 상기 과적합 방지 기준값 보다 작으면 상기 제 4-6 단계에서 탐색된 인공신경망 QSPR 모델 에 의한 정상끓는점에서의 액체 열전도율, 정상끓는점의 0.65 배인 온도에서의 액체 열전도율, α 예측값을 정상끓는점에서의 액체 열전도율, 정상끓는점의 0.65 배인 온도에서의 액체 열전도율, α 값으로 채택하는 제 4-8 단계 및 상기 모든 단계를 포함하는 QSPR-SVRC 모델에 의해서 탄화수소 계열 유기화합물의 액체. 열전도율을 구하는 방법 .
[실시예 2-7] 순수한 유기화합물의 기체 열전도율을 예측하는 QSPR-SVRC 모델
상기 실시예 2-1 의 내용에서 물성 (기화열)을 '기체 열전도율' 로 변경한 것이 본 실시예의 기술적 해결방안이며, 중복되는 설명은 생략한다. 비중복 부분은 하기와 같다.
1. 수집된 샘플 유기화합물들의 실험데이터를 입력하는 제 1 단계; 샘플 화합물들의 유기화합물의 기체 열전도율에 대한 분자표현자값을 준비하는 제 2 단계; 하기 식 (2-7— 1)에 기재되어 있는 SVRC 수식에 필요한 매개변수를 구하는 제 3단계
λ = ¾ - ¾ - ^)θ)(1)
,、 1-1.33ε\ ε= ( 식 -
7-1)
[여기서 λ 는 기체 열전도율, λ3(3 눈 정상끓는점의 3배인 온도 (T3b)에서의 기체 열전도율, Ab 는 정상끓는점 (Tb)에서의 기체 열전도율, α는 스케일링 지수];
상기 제 3단계에서 얻은 상기 매개변수 정상끓는점의 3배인 은도에서의 기체 열전도율, 정상끓는점에서의 기체 열전도율, α에 대한 QSPR모델을 구축하는 제 4단계; 상기 실험 데이터로 예측성능을 테스트하는 제 5단계; 상기 제 5단계의 테스트를 만족하면 탐색된 모델에 의한 기체 열전도율 예측값을 기체 열전도율 값으로 채택하고, 만족하지 못하면 제 4단계, 제 5단계를 반복하는 제 6단계 및 상기 모든 단계를 포함하는 QSPR-SVRC 모델에 의해서 유기화합물의 기체 열전도율을 구하는 방법.
2. 상기 제 1 항에 있어서, 상기 제 4 단계에서 상기 정상끓는점의 3 배인 은도에서의 기체 열전도율, 정상끓는점에서의 기체 열전도율에 대한 QSPR 모델을 구하는 방법은: 상기 정상끓는점의 3배인 온도에서의 기체 열전도율, 정상끓는점에서의 기체 열전도율, α에 대한 최적의 분자표현자들을 추출하는 제 4-0 단계; 훈련집합과 시험집합으로 실험데이터를 분리하는 제 4-1 단계; 훈련집합에 대하여 최적의 다중선형회귀 QSPR 모델을 탐색하는 제 4-2 단계; 선택된 모델의 타당성을 검토하는 제 4-3 단계; 상기 제 4-3 단계에서 타당성이 없으면, 상기 제 4-2 단계, 제 4-3 단계를 반복하고, 타당성이 있으면 시험집합에 대하여 모델의 예측성능을 테스트하는 제 4-4 단계; 시험집합에 대한 상기 제 4-4 단계 테스트에서 성능이 기준을 만족하지 못하면 제 4-2 단계부터 제 4-4 단계까지 반복하고, 성능이 기준을 만족하면 샘플 표준화 후 3 개 집합으로 분리하는 제 4-5 단계; 전체 샘플을 3 개 집합으로 나눈 후에 최적의 인공신경망 QSPR 모델 을 탐색하는 제 4-6 단계; 상기 제 4-5 단계에서 성능 테스트를 만족하는 상기 최적의 선형회귀모델에 의해서 구한 정상끓는점과 정상끓는점의 3 배인 온도에서의 기체 열전도율 예측값과 상기 제 4-6 단계에서 탐색된 상기. 최적의 인공신경망 QSPR모델 에 의해서 구한 정상끓는점과 정상끓는점의 3 배인 온도에서의 기체 열전도율 예측값 차이의 절대값을 미리 설정된 과적합 방지. 기준값과 비교하는 제 4- 7 단계; 상기 차이가 상기 과적합 방지 기준값 보다 크면 상기 제 4— 5 단계에서 얻은 다중선형희귀 QSPR 모델에 의한 정상끓는점과 정상끓는점의 3 배인 은도에서의 기체 열전도율 예측값을 정상끓는점과 정상끓는점와 3 배인 온도에서의 기체 열전도율 값으로 채택하고 상기 과적합 방지 기준값 보다 작으면 상기 제 4-6 단계에서 탐색된 인공신경망 QSPR 모델 에 의한 정상끓는점과 정상끓는점의 3 배인 온도에서의 기체 열전도율 예측값을 정상끓는점과 정상끓는점의 3 배인 온도에서의 기체 열전도율 값으로 채택하는 제 4-8 단계를 포함하고, 상기 제 4단계에서 α에 대한 QSPR 모델을 구하는 방법은 : 상기 제 4-1 단계부터 제 4-4 단계까지와 시험집합에 대한 상기 제 4ᅳ4단계 테스트에서 성능이 기준을 만족하지 못하면 제 4-2단계부터 제 4-4 단계까지 반복하고, 성능이 기준을 만족하면 최적의 다중선형회귀 QSPR모델로 결정하는 제 4-5-1 단계 ; 상기 제 4-5-1 단계에서 성능 테스트를 만족하는 상기 다중선형회귀 QSPR 모델을 통하여 α 값을 구하는 제 4-6- 1단계 및 상기 모든 단계를 포함하는 QSPRᅳ SV C 모델에 의해서 유기화합물의 기체 열전도율을 구하는 방법 .
3. 상기 제 2 항에 있어서, 상기 제 4-0 단계에서 상기 정상끓는점의 3 배인 온도에서의 기체 열전도율, 정상끓는점에서의 기체 열전도율, α에 대한 최적의 분자표현자는 모든 샘플 화합물에 대해 값이 동일하지 않은 독립적인 분자표현자인 것을 특징으로 하는 QSPR-SVRC 모델에 의해서 유기화합물의 기체 열전도율을 구하는 방법 .
[실시예 2-8] 순수한화합물의 액체 증기압을 예측하는 QSPR-SVRC모델 상기 실시예 2-1 의 내용에서 물성 (기화열)을 '액체 증기압' 으로 변경한 것이 본 실시예의 기술적 해결방안이며, 중복되는 설명은 생략한다. 비중복 부분은 하기와 같다.
1. 수집된 샘플 유기화합물들 실험데이터를 입력하는 제 1 단계; 샘플 화합물들의 유기화합물의 액체 증기압에 대한 분자표현자값을 준비하는 제 2 단계; 하기 식 (2-8-1)에 기재되어 있는 SVRC 수식에 필요한 매개변수를 구하는 제 3단계
Figure imgf000049_0001
ε(1 + -ε)
a = α -Δα
4
1 +
Α =α^ -α,
Tc
ε - 식 (2- 8-1)
[여기서 Ρ 는 액체 증기압, &는 임계압력, α는 스케일링 지수, ^는 임계점에서의 a , ^는 정상끓는점에서의 α , 7는 온도, Tc 는 임계온도, ¾는 정상끓는점];
상기 제 3단계에서 얻은 상기 매개변수 임계점 및 정상끓는점에서의 α에 대한 QSPR 모델을 구축하는 제 4단계; 상기 실험 데이터로 예측성능을 테스트하는 제 5단계; 상기 제 5단계의 테스트를 만족하면 탐색된 모델에 의한 액체 증기압 예측값을 액체 증기압 값으로 채택하고, 만족하지 못하면 제 4단계, 제 5단계를 반복하는 제 6단계 및 상기 모든 단계를 포함하는 QSPR- SVRC모델에 의해서 유기화합물의 액체 증기압을 구하는 방법. 2. 상기 제 1 항에 있어서, 상기 제 4 단계에서 상기 임계점 및 정상끓는점에서의 α 에 대한 QSPR 모델을 구하는 방법은 : 최적의 분자표현자들을 추출하는 제 4-0 단계; 훈련집합과 시험집합으로 실험데이터를 분리하는 제 4-1 단계; 훈련집합에 대하여 최적의 다중선형회귀 QSPR 모델을 탐색하는 제 4-2 단계; 선택된 모델의 타당성을 검토하는 제 4ᅳ 3 단계; 상기 게 4-3 단계에서 타당성이 없으면, 상기 제 4-2 단계, 제 4- 3 단계를 반복하고, 타당성이 있으면 시험집합에 대하여 모델의 예측성능을 테스트하는 제 4-4 단계; 시험집합에 대한 상기 제 4-4 단계 테스트에서 성능이 기준을 만족하지 못하면 제 4-2 단계부터 제 4-4 단계까지 반복하고, 성능이 기준을 만족하면 최적의 다중선형회귀 QSPR 모델로 결정하는 제 4- 5 단계 ; 상기 제 4-5 단계에서 성능 테스트를 만족하는 상기 다중선형회귀 QSPR 모델을 통하여 임계점 및 정상끓는점에서의 α값을 구하는 제 4-6 단계 및 상기 모든 단계를 포함하는 QSPR-SVRC 모델에 의해서 유기화합'물의 액체 증기압을 구하는 방법 .
[실시예 2-9] 순수한유기화합물의 액체 점성도를 예측하는 QSPR-SVRC모델 상기 실시예 2-1의 내용에서 물성 (기화열)을 '액체 점성도' 로 변경한 것이 본 실시예의 기술적 해결방안이며, 중복되는 설명은 생략한다. 비중복 부분은 하기와 같다. '
1. 수집된 샘플 유기화합물들 중 탄화수소 유기화합물의 실험데이터를 입력하는 제 1 단계;.샘플 화합물들의 탄화수소 유기화합물의 액체 점성도에 대한 분자표현자값을 준비하는 제 2 단계; 하기 식 (2-9-1)에 기재되어 있는 SVRC 수식에 필요한 매개변수를 구하는 제 3단계 η=(1ΤΘ)υα 1-75.8^
θ(ε) =
1-75.8 -ac -Ααε, Aa=(ac-at) -T
ε = 식 (2-
T -T
9-1) [여기서 η는 점성도, 교 는 탄화수소의 액체점성도가 lOcP일 때의 온도, α는 스케일링 지수이며 ccc, ctt는 각각 임계점과 액체점성도가 lOcP일 때의 온도에서의 α 값, Tc 는 임계은도, Γ는온도];
상기 제 3단계에서 얻은 상기 매개변수인 탄화수소의 액체점성도가 lOcP일 때의 온도, 임계점과 액체점성도가 lOcP일 때의 온도에서의 α값에 대한 QSPR 모델을 구축하는 게 4단계; 상기 실험 데이터로 예측성능을 테스트하는 게 5단계; 상기 제 5단계의 테스트를 만족하면 탐색된 모델에 의한 액체 점성도 예측값을 액체 점성도 값으로 채택하고, 만족하지 못하면 제 4단계, 제 5단계를 반복하는 제 6단계 및 상기 모든 단계를 포함하는 QSPR-SVRC 모델에 의해서 탄화수소 유기화합물의 액체 점성도를 구하는 방법. 2. 상기 게 1 항에 있어서, 상기 제 4 단계에서 탄화수소의 액체점성도가 lOcP 일 때의 온도, 임계점과 액체점성도가 lOcP 일 때의 온도에서의 α에 대한 QSPR 모델을 구하는 방법은 : 상기 탄화수소의 액체점성도가 lOcP 일 때의 온도, 임계점과 액체점성도가 lOcP일 때의 온도에서의 α에 대한 최적의 분자표현자들을 추출하는 제 4-0 단계; 훈련집합과 시험집합으로 실험데이터를 분리하는 제 4-1단계; 훈련집합에 대하여 최적의 다중선형회귀 QSPR모델을 탐색하는 제 4-2 단계; 선택된 모델의 타당성을 검토하는 제 4- 3 단계; 상기 제 4-3 단계에서 타당성이 없으면, 상기 제 4-2 단계, 제 4- 3 단계를 반복하고, 타당성이 있으면 시험집합에 대하여 모델의 예측성능을 테스트하는 제 4-4 단계; 시험집합에 대한 상기 제 4-4 단계 테스트에서 성능이 기준을 만족하지 못하면 제 4-2 단계부터 제 4-4 단계까지 반복하고, 성능이 기준을 만족하면 샘플 표준화 후 3개 집합으로 분리하는 제 4-5단계 ; 전체 샘플을 3 개 집합으로 나눈 후에 최적의 인공신경망 QSPR 모델 을 탐색하는 제 4-6 단계; 상기 제 4-5 단계에서 성능 테스트를 만족하는 상기 최적의 선형회귀모델에 의해서 구한 액체점성도가 lOcP 일 때의 온도, 임계점과 액체점성도가 lOcP 일 때의 온도에서의 α 예측값과 상기 제 4- 6 단계에서 탐색된 상기 최적의 인공신경망 QSPR 모델 에 의해서 구한 액체점성도가 lOcP 일 때의 온도,' 임계점과 액체점성도가 lOcP 일 때의 온도에서의 a 예측값 차이의 절대값을 미리 설정된 과적합 방지 기준값과 비교하는 제 4-7단계 ; 상기 차이가 상기 과적합 방지 기준값 보다 크면 상기 제 4—5 단계에서 얻은 다중선형회귀 QSPR모델에 의한 액체점성도가 lOcP 일 때의 온도, 임계점과 액체점성도가 lOcP 일 때의 온도에서의 cc 예측값을 액체점성도가 lOcP 일 때의 온도, 임계점과 액체점성도가 lOcP 일 때의 온도에서의 α 값으로 채택하고 상기 과적합 방지 기준값 보다 작으면 상기 제 4-6단계에서 탐색된 인공신경망 QSPR모델 에 의한 액체점성도가 lOcP 일 때의 온도, 임계점과 액체점성도가 lOcP 일 때의 온도에서의 cc 예측값을 액체점성도가 lOcP 일 때의 온도, 임계점과 액체점성도가 lOcP 일 때의 온도에서의 α 값으로 채택하는 제 4-8 단계 및 상기 모든 단계를 포함하는 QSPR-SVRC 모델에 의해서 탄화수소 유기화합물의 액체 점성도를 구하는 방법 14. 수집된 샘플 유기화합물들 중 298.15K 에서 액체인 탄화수소 유기화합물의 실험데이터를 입력하는 제 단계; 샘플 화합물들의
298.15K 에서 액체인 탄화수소 유기화합물의 액체 점성도에 대한 분자표현자값을 준비하는 제 2 단계 ; 하기 식 (2-9— 2)에 기재되어 있는 SVRC 수식에 필요한 매개변수를 구하는 제 3단계
Ma
1 - 22.2ε
θ(ε)
1ᅳ 22.: = α„ -Ααε . =\a-at
Τ -Τ
식 (2-
Τ -293.15
9-2)
[여기서 η는 점성도, %9315Κ는 293.15K에서의 탄화수소의 액체점성도, α 스케일링 지수이며 ac, cct는 각각 임계점과 293.15K에서의 α값, Tc 임계온도 Γ는온도];
상기 제 3단계에서 얻은 상기 매개변수인 293.15K에서의 탄화수소의 액체점성도, 임계점과 293.15K에서의 α 에 대한 QSPR 모델을 구축하 제 4단계; 상기 실험 데이터로 예측성능을 테스트하는 제 5단계; 상기 제 5단계의 테스트를 만족하면 탐색된 모델에 의한 액체 점성도 예측값을 액체 점성도 값으로 채택하고, 만족하지 못하면 제 4단계, 제 5단계를 반복하는 제 6단계 및 상기 모든 단계를 포함하는 QSPR-SVRC 모델에 의해서 298.15K에서 액체인 탄화수소 유기화합물의 액체 점성도를 구하는 방법. 15. 상기 제 14항에 있어서, 상기 제 4 단계에서 293 Λ5Κ에서의 탄화수소의 액체점성도, 293.15K 에서의 α에 대한 QSPR 모델을 구하는 방법은 : 상기 탄화수소의 액체점성도, 임계점과 293.15K 에서의 α 에 대한 최적의 분자표현자들을 추출하는 제 4-0 단계; 훈련집합과 ᅳ 시험집합으로 실험데이터를 분리하는 제 4-1 단계; 훈련집합에 대하여 최적의 다중선형회귀 QSPR 모델을 탐색하는 제 4-2 단계; 선택된 모델의 타당성을 검토하는 제 4- 3 단계 ; 상기 제 4-3 단계에서 타당성이 없으면, 상기 제 4-2 단계, 쎄 '4- 3 단계를 반복하고, 타당성이 있으면 시험집합에 대하여 모델의 예측성능을 테스트하는 제 4ᅳ4 단계; 시험집합에 대한 상기 게 4-4 단계 테스트에서 성능이 기준을 만족하지 못하면 제 4-2 단계부터 제 4-4 단계까지 반복하고, 성능이 기준을 만족하면 샘플 표준화 후 3개 집합으로 분리하는 제 4-5단겨 1; 전체 샘플을 3 개 집합으로 나눈 후에 최적의 인공신경망 QSPR 모델 을 탐색하는 제 4-6 단계; 상기 제 4-5 단계에서 성능 테스트를 만족하는 상기 최적의 선형회귀모델에 의해서 구한 293.15K 에서의 탄화수소의 액체점성도, 293.15K 에서의 α 예측값과 상기 게 4-6 단계에서 탐색된 상기 최적의 인공신경망 QSPR모델 에 의해서 구한 293.15K에서의 탄화수소의 액체점성도 293.15K에서의 α 예측값 차이의 절대값을 미리 설정된 과적합 방지 기준값과 비교하는 제 4-7단계 ; 상기 차이가 상기 과적합 방지 기준값 보다 크면 상기 제 4-5 단계에서 얻은 다중선형회귀 QSPR 모델에 의한 293.15K 에서의 탄화수소의 액체점성도., 293.15K 에서의 α 예측값을 293.15K 에서의 탄화수소의 액체점성도, 293.15K에서의 α 값으로 채택하고 상기 과적합 방지 기준값 보다 작으면 상기 제 4-6 단계에서 탐색된 인공신경망 QSPR 모델 에 의한 293.15K 에서의 탄화수소의 액체점성도, 293.15K 에서의 α 예측값을 293.15K 에서의 탄화수소의 액체점성도, 293.15K 에서의 α 값으로 채택하는 제 4-8 단계를 포함하고, 상기 제 4 단계에서 임계점에서의 α에 대한 QSPR 모델을 구하는 방법은 : 상기 제 4ᅳ 1 단계부터 제 4-4 단계까지와 시험집합에 대한 상기 제 4-4 단계 테스트에서 성능이 기준을 만족하지 못하면 제 4- 2 단계부터 제 4-4 단계까지 반복하고, 성능이 기준을 만족하면 최적의 다중선형회귀 QSPR 모델로 결정하는 제 4-5—1 단계; 상기 제 4-5-1 단계에서 성능 테스트를 만족하는 상기 다중선 ½회귀 QSPR 모델을 통하여 임계점에서의 ft 값을 구하는 제 4ᅳ6ᅳ 1 단계 및 상기 모든 단계를 포함하는 QSPR-SVRC 모델에 의해서 298.15K 에서 액체인 탄화수소 유기화합물의 액체 점성도를 구하는 방법 .
[실시예 2-10] 순수한화합물의 기체 점성도를 예측하는 QSPR-SVRC모델 상기 실시예 2-1의 내용에서 물성 (기화열)을 '기체 점성도' 로 변경한 것이 본 실시예의 기술적 해결방안이며, 중복되는 설명은 생략한다. 비중복 부분은 하기와 같다.
1. 수집된 셈플 유기화합물들 중 탄화수소 계열 의 '실험데이터를 입력하는 제 1 단계; 샘플 화합물들의 상기 탄화수소 계열 유기화합물의 기체 점성도에 대한 분자표현자값을 준비하는 제 2 단계; 하기 식 (2-10-1)에 기재되어 있. SVRC 수식에 필요한 매개변수를 구하는 제 3단계
Τ -Τ
ε = ^τ~ 식 (2-10-1)
[여기서 n는 점성도, J 는 임계점에서의 기체점성도, TC 는 임계은도,
Γ는온도];
상기 제 3단계에서 얻은 상기 매개변수인 임계점에서의 기체점성도 값에 대한 QSPR 모델을 구축하는 제 4단계; 상기 실험 데이터로 예측성능을 테스트하는 제 5단계; 상기 제 5단계의 테스트를 만족하면 탐색된 모델에 의한 기체 점성도 예측값을 기체 점성도 값으로 채택하고, 만족하지 하면 제 4단계, 제 5단계를 반복하는 제 6단계 및 상기 모든 단계를 포함하는 QSPRᅳ SVRC 모델에 의해서 탄화수소 계열 유기화합물의 기체 점성도를 구하는 방법. 2. 상기 제 1 항에 있어서, 상기 제 4 단계에서 상기 임계점에서의 기체점성도에 대한 QSPR 모델을 구하는 방법은: 상기 탄화수소 계열의 유기화합물의 상기 임계점에서의 기체점성도에 대한 최적의 분자표현자들을 추출하는 제 4-0단계; 훈련집합과 시험집합으로 실험데이터를 분리하는 제 4ᅳ
1 단계; 훈련집합에 대하여 최적의 다중선형회귀 QSPR모델을 탐색하는 제 4ᅳ
2단계 ; 선택된 모델의 타당성을 검토하는 제 4-3단계 ; 상기 제 4-3단계에서 타당성이 없으면, 상기 제 4-2 단계, 제 4-3 단계를 반복하고, 타당성이 있으면 시험집합에 대하여 모델의 예측성능을 테스트하는 제 4-4 단계; 시험집합에 대한 상기 제 4-4 단계 테스트에서 성능이 기준을 만족하지 못하면 제 4-2 단계부터 제 4-4 단계까지 반복하고, 성능이 기준을 만족하면 샘플 표준화 후 3 개 집합으로 분리하는 제 4-5 단계; 전체 샘플을 3 개 집합으로 나눈 후에 최적의 인공신경망 QSPR 모델 을 탐색하는 제 4-6 단계; 상기 제 4-5 단계에서 성능 테스트를 만족하는 상기 최적의 선형회귀모델에 의해서 구한 임계점에서의 기체점성도 예측값과 상기 제 4-6단계에서 탐색된 상기 최적의 인공신경망 QSPR 모델 에 의해서 구한 임계점에서의 기체점성도 예측값 차이의 절대값을 미리 설정된 과적합 방지 기준'값과 비교하는 제 4- 7 단계; 상기 차이가 상기 과적합 방지 기준값 보다 크면 상기 제 4- 5 단계에서 얻은 다중선형회귀 QSPR 모델에 의한 임계점에서의' 기체점성도 예측값을 임계점에서의 기체점성도 값으로 채택하고 상기 과적합 방지 기준값 보다 작으면 상기 제 4-6 단계에서 탐색된 인공신경망 QSPR 모델 에 의한 임계점에서의 기체점성도 예측값을 임계점에서의 기체점성도 값으로 채택하는 제 4-8 단계 및 상기 모든 단계를 포함하는 QSPR-SVRC 모델에 의해서 탄화수소 계열 유기화합물의 기체 점성도를 구하는 방법.
[실시예 2-11] 보일 온도 예측을 통해 순수한 유기화합물의 2차 비리얼 계수를 예측하는 QSPR기반수학적 모델
상기 실시예 2-1 의 내용 중 제 1 항 부터 14 항에서 물성 (기화열)을 탄화수소와 비탄화수소의 구분없이 모든 해당 유기화합물의 '2 차 비리얼 계수' 로 변경한 것이 본 실시예의 기술적 해결방안이며, 중복되는.설명은 생략한다ᅳ 비중복 부분은 하기와 같다.
1. 수집된 샘플 유기화합물들의 실험데이터를 입력하는 제 1 단계; 상기 수집된 샘플 유기화합물들의 실험데이터 집합에 대하여 보일은도에 대한 분자표현자값을 준비하는 제 2 단계; 상기 수집된 샘플 유기화합물들의 실험데이터 집합에 대하여 각각 최적의 분자표현자들을 추출하는 제 3 단계; 훈련집합과 시험집합으로 실험데이터를 분리하는 제 4 단계; 훈련집합에 대하여 최적의 다중선형회귀 QSPR모델을 탐색하는 제 5 단계; 선택된 모델의 타당성을 검토하는 제 6 단계; 상기 제 6 단계에서 타당성이 없으면, 상기 제 5단계, 제 6단계를 반복하고, 타당성이 있으면 시험집합에 대하여 모델의 예측성능을 테스트하는 제 7 단계; 시험집합에 대한 상기 제 7 단계 테스트에서 성능이 기준을 만족하지 못하면 제 4 단계부터 제 7 단계까지 반복하고, 성능이 기준을 만족하면 최적의 다중선형회귀 QSPR 모델로 결정하는 제 8단계; 상기 제 8단계에서 성능 테스트를 만족하는 상기 최적의 다중선형회귀 QSPR 모델에 의해서, 상기 수집된 샘플 유기화합물들의 실험데이터 집합에 대하여 탐색된 다중선형회귀 QSPR 모델을 통하여 보일온도 값을 구하는 제 9단계 및 상기 모든 단계를 포함하는 다중선형회귀 QSPR모펠을 통하여 유기화합물의 보일온도를 구하는 방법.
2. 상기 실시예 1-1 의 내용 중 제 2 항부터 8 항 에서 물성 (정상끓는점 )을 탄화수소와 비탄화수소의 구분없이 모든 해당 유기화합물의 '보일온도' 로 변경한 것이 본 실시예의 기술적 해결방안이며, 중복되는 설명은 생략한다. 9. 상기 제 1 항에 있어서, 상기 제 3 단계에서 추출된 상기 최적의 분자표현자들은 '발명의 설시를 위한 형태' 에 있는 실시예 2-11 의 표 130 에 기술하였으며, 이 분자표현자들을 포함하는 다중선형회귀 모형을 통하여 유기화합물의 보일온도를 구하는 방법.
10. 다중선형회귀 QSPR 모델을 통하여 유기화합물의 i보일온도를 구하는 방법에 있어서, 분자표현자들은 . '발명의 실시를 위한 형태' 에 있는 실시예 2-11 의 표 130 에 기술하였으며, 이 분자표현자들을 포함하는 다중선형회귀 QSPR모델을 통하여 유기화합물의 보일온도를 구하는 방법.
12. 상기 제 1 항부터 제 10 항까지 중 어느 한 항에 의해서 구한 상기 유기화합물의 보일온도 (TB)와 Vc, Tc, ω, μΓ를 하기 식 (2-11-1) 에 대입하는 제 10-1단계;
Figure imgf000059_0001
Bc = VC(C5 + ί:6ω + (:7μΓ)
n = C8 + C9oi 식 (2-11-1)
[여기서 B는 2차 비리얼 계수, T는 온도, b0, Bc, n는 2 차 비리얼 계수의 계산에 필요한 특성 매개변수, Vc 이계부피 ω ― 이심인자, 환산쌍극자모멘트 (reduced dipole moment ) μΓ = 10V2PC/TC 2, Pc는 임계압력; 7^는 임계온도, μ는 쌍극자모멘트, Q - C9 은 계수]'
최소제곱법에 의하여 입력된 실험 테이터에 의해서 계수들을 최적화시키 제 1으2 단계; 최적화된 계수로 상기 식 (2-11-1)로부터 2 차 비리얼 계수를 구하는 제 10-3 단계 및 상기 모든 단계를 포함하는 보일 온도 예측을 통해 유기화합물의 2차 비리얼 계수를 구하는 방법 .
[실시예 3] 양자역학 계산 프로그램과 물성정보 예측모듈을 이용하여 일괄처리를 자동화한방법 및 그 시스템
1. 화합물의 분자식, 구성원소 및 그 각각의 개수를 입력하고 상기 화합물의 구조이성질체를 생성하는 제 1 단계; 상기 화합물의 입체이성질체를 생성하고 광학이성질체를 필터링하는 제 2단계; 상기 제 2단계에서 필터링된 이성질체 증 형상이성질체의 분석 및 적합 구조를 선택하는 제 3 단계; 상기 제 3 단계에서 선택된 적합 구조에 대한 양자역학 계산에 의해서. 최적합 구조 (global minimum)를 결정하는 제 4단계; 상기 제 4단계에서 얻은 최적합 구조에 대하여 분자표현자를 추출하는 제 5 단계; 물성예측에 관련된 수학적 모델 또는 QSPR 을 이용한 모델을 컴퓨터 코딩한 예측 모들 (컴퓨터 프로그램)을 사용하여 자동화된 물성예측을 수행하는 제 6단계 및 상기 모든 단계를 포함하는 화합물의 물성을 예측하는 방법.
2. 상기 제 1 항에 있어서, 상기 제 3 단계에서 적합 구조는 상기 제 2 단계에서 필터링된 이성질체 구조 중에서 분자역학 계산에 의한 퍼텐셜 에너지가 가장 낮은 것을 특징으로 하는 화합물의 물성을 예측하는 방법.
3. 상기 제 1 항에 있어서, 상기 제 4 단계에서 최적합 구조는 상기 제 3단계에서 얻은 구조 중에서 양자역학 계산에 의한 퍼텐셜 에너지가 가장 낮은 것을 특징으로 하는 화합물의 물성을 예측하는 방법. 4. 상기 제 1 항의 제 1 단계부터 제 6 단계까지에 관한 모든 이력 및 물성 예측값을 컴퓨터에서 실행시키기 위한 프로그램으로 기록하고 컴퓨터로 읽을 수 있는 저장 매체에 저장하는 제 7 단계; 상기 물성 예측값과 실험값이 존재하는 물성치를 비교하여 평가지수를 구하는 제 8 단계; 이미 존재하는 모델에 의해서 예측이 가능한 물성 예측값과 상기 제 1 항의 게 6 단계에서 얻은 물성 예측값을 비교하여 평가지수를 구하는 제 9 단계; 상기 제 1 항의 제 6단계에서 얻은 물성 예측값, 상기 제 8단계 및 상기 제 9단계에서 얻은 평가지수를 저장하는 제 10 단계 및 상기 모든 단계 를 포함하는 화합물의 물성을 예측하는 방법 .
5. 화합물의 분자식, 구성원소 및 그 개수를 입력하고 상기 화합물의 구조이성질체를 생성하는 상기 제 1 항의 제 1 단계, 상기 화합물의 입체이성질체를 생성하고 광학이성질체를 필터링하는 상기 제 1 항의 제 2 단계를 포함하는 구조생성 모들 (컴퓨터 프로그램);
상기 제 1 항의 제 2 단계에서 필터링된 이성질체 중 형상이성질체의 분석 및 적합 구조를 선택하는 상기 제 1항의 제 3단계 , 상기 제 1항의 제 3단계에서 선택된 적합 구조에 대한 양자역학 계산에 의해서 최적합 구조를 결정하는 상기 제 1항의 제 4단계, 상기 제 1항의 제 4단계에서 얻은 최적합 구조에 대하여 분자표현자를 추출하는 상기 제 1 항의 제 5 단계, 물성예측에 관련된 수학적 모델 또는 QSPR 을 이용한 모델을 통하여 물성예측을 수행하는 상기 제 1항의 제 6단계 및 이 단계를 포함하는 물성예측 모들;
상기 제 1 항의 제 1 단계부터 제 6 단계까지에 관한 모든 이력 및 물성 예측값을 컴퓨터에서 실행시키기 위한 프로그램으로 기록하고 컴퓨터로 읽을 수 있는 저장 매체에 저장하는 상기 제 4항의 제 7단계, 상기 물성 예측값과 실험값이 존재하는 물성치를 비교하여 평가지수를 구하는 상기 제 4 항의 제 8 단계, 이미 존재하는 모델에 의해서 예측이 가능한 물성 예측값과 실험값이 존재하는 물성치를 비교하여 평가지수를 구하는 상기 제 4 항의 제 9 단계, 상기 제 1 항의 제 6 단계에서 얻은 물성 예측값, 상기 제 4 항의 제 8 단계 및 상기 제 4 항의 제 9 단계에서 얻은 평가지수를 저장하는 상기 제 4 항의 제 10 단계와 이 단계를 포함하는 평가모들 및 이 평가모들을 포함하는 물성예측 모들과 상기 모든 단계를 포함하는 화합물의 물성 예측시스템.
6. 상기 제 5 항에 있어서, 상기 구조생성모듈은 구조생성서버에서 처리되고 생성된 화합물의 구조를 작업관리서버로 전송하는 것을 특징으로 하는 화합물의 물성 예측시스템.
7. 상기 제 6 항에 있어서, 상기 물성예측모듈은 상기 구조생성서버에서 작업관리서버로 전송된 화합물의 구조를 다수의 클라이언트에서 계산하고 계산결과를 계산결과파일서버와 백업서버에 저장하는 것을 특징으로 하는 화합물의 물성 예측시스템 .
8. 상기 제 5항에 있어서, 상기 평가모듈은 상용처리서버에서 수행되는 것을 특징으로 하는 화합물의 물성 예측시스템 .
[실시예 4] 화합물의 물성을 예측하는 방법 및 화합물의 물성을 예측하는 시스템 1. 화합물의 물성을 예측하는 방법에 있어서, 서버에 접근할 수 있는 클라이언트에 사용자가 로그인하는 게 1단계; 검색하고자 하는 화합물을 분자식 , 분자명 분자구조 중 어느 하나 이상을 선택하여 입력하는 제 2단계 ; 상기 제 2단계에서 상기 화합물의 온도에 의존하는 경우의 물성에 대하여 원하는 온도 범위를 선택하는 제 3단계; 상기 제 2단계 및 상기 제 3단계에서 입력된 정보를 클라이언트가 서버로 전송하는 제 4단계; 상기 제 4단계에서 전송된 정보를 통하여 입력된 상기 화합물에 대한 물성을 분자 정보 데이터베이스, 물성정보를 가지고 있는 파일스토리지, 은도의존물성 계산 모들, 분자구조기반 검색 모들로부터 전송 받아 서버에서 클라이언트로 반환하는 제 5단계; 상기 제 2단계 및 상기 제 3단계에서 입력된 상기 화합물에 대한 IR (Infrared) , VCD (Vibrat ional Circular Dichroism) , NMR (Nuclear Magnetic Resonance) 스펙트라 정보를 서버에서 클라이언트로 반환하는 제 6단계; 상기 제 2단계 및 상기 제 3단계에서 입력된 상기 화합물에 대한 3차원 구조정보를 서버에서 클라이언트로 반환하는 제 7단계; 상기 제 5단계부터 게 7단계까지에서 클라이언트로 전송된 상기 물성, 스펙트라 정보, 3차원 구조정보를 클라이언트가 화면에 디스플레이 하는 게 8단계 및 상기 모든 단계를 포함하는 화합물의 물성을 예측하는 방법 .
2. 상기 제 1항에 '있어서, 상기 게 2단계에서 원소의 개수, 분자량, InChl (International Chemical Identifier), 물성범위에서 선택되는 어느 하나 이상을 선택할 수 있는 것을 포함하는 화합물의 물성을 예측하는 방법 .
3. 상기 제 1항에 '있어서, 상기 제 2단계에서 분자구조는 사용자가 분자구조를 가지고 있는 테이블에서 선택되거나 사용자에 의해서 직접 입력될 수 있으쪄, 입력되는 상기 분자구조는 분자구조의 전체 구조 또는 전체 구조 중의 일부분이 입력되는 것을 특징으로 하는 화합물의 물성을 예측하는 방법.
4. 상기 제 1항에 있어서, 상기 제 7단계에서 3차원 구조정보는 화합물 분자 내의 원자간의 거리, 인접 원자간의 각도, 분자의 비를림 정도, 분자 진동수, 오비탈을 포함하는 것을 특징으로 하는 화합물의 물성을 예측하는 방법.
5. 상기 제 1항부터 제 4항까지 증 어느 한 항에 의한 화합물의 물성을 예측하는 방법을 컴퓨터에서 실행시키기 위한 프로그램으로 기록하고 컴퓨터로 읽을 수 있는 저장 매체.
6. 화합물의 물성을 예측하는 시스템에 있어서, 사용자가 검색하고자 하는 화합물의 분자식, 분자명, 분자구조 중 어느 하나 이상을 선택하여 입력하고, 접근이 가능한 서버에서 반환되는 물성, IR, VCD, 應 R스펙트라 정보, 3차원 구조정보를 화면에 디스플레이하는 클라이언트 소프트웨어; 상기 클라이언트 소프트웨어에서 입력된 화합물의 물성, IR, VCD, 應 R 스펙트라 정보, 3차원 구조정보를 계산하고 검색하는 서버 ; 상기 서버는 웹어폴리케이션 서버, 관계형데이터베이스, 물성 정보를 가지고 있는 파일스토리지, 온도의존물성정보를 계산하기 위한 계산 모듈, 분자구조기반 검색모들을 포함하는 화합물의 물성을 예측하는 시스템.
7..상기 제 6항에 있어서, 상기 클라이언트 소프트웨어에서 원소의 개수, 분자량, InChl, 물성범위에서 선택되는 어느 하나 이상이 선택되어 입력될 수 있는 것을 포함하는 화합물의 물성을 예측하는 시스템. 8. 상기 제 6항에 있어서, 상기 클라이언트에서 입력되는 상기 분자구조는 사용자에 의해서 분자구조를 가지고 있는 테이블에서 선택되거나 사용자에 의해서 직접 입력될 수 있으며, 입력되는 상기 분자구조는 분자구조의 전체 구조 또는 전체 구조 중의 일부분이 입력되는 것을 특징으로 하는 화합물의 물성을 예측하는 시스템. '
9. 상기 제 6항에 있어서, 상기 서버에서 상기 클라이언트 소프트웨어로 전송하는 상기 3차원 구조정보는 화합물 분자 내의 원자간의 거리, 인접 원자간의 각도, 분자의 비를림 정도, 분자 진동수, 오비탈을 포함하는 것을 특징으로 하는 화합물의 물성을 예측하는 시스템.
【유리한 효과】
본 발명은 보다 많은 실험데이터를 바탕으로 보다 신뢰성 있는, 수소 (H), 탄소 (C), 질소 (N), 산소 (0), 황 (S) 등 5가지 이내의 원소로 구성되고, 수소를 제외한 원자의 개수가 25개 이하인 분자로 이루머진 화합물의 여러 가지 물성에 대한 모델을 제공할 수 있다.
오늘날 인류는 플라스틱, 섬유, 고무, 도료, 비료, 의약품, 연료 등, 방대한 종류의 ^기화합물에 의존하여 살아가고 있으며 이러한 경향은 더욱 심화될 것으로 예상된다. 미국 화학회 (ACS)에 따르면 2012년 4월 기준으로 등록된 전체 화합물의 수는 66 ,000,000개를 넘는다고 한다. 이에 비해 물성값이 한가지라도 실험적으로 알려져 있는 화합물의 수는 3 ~ 4 만개에 지나지 않는다. 화합물의 물성값은 신물질과 신약의 개발, 화학플랜트 프로세스의 설계 및 최적화, 기존 설비의 생산성 향상, 자원의 개발과 절약, 안전성 확보, 환경보호 등 인류의 보다 나은 물질생활에 필수적인 요소이다. 특히 본 발명에서 모델을 제공하는 물성들은 화학플랜트 프로세스의 설계 및 최적화 프로그램으로 잘 알려진 AspenPlus 나 Pro/ II 와 같은 상용 프로그램의 구동에 필수적인 물성이며 유럽연합에서 지정한 REACH (Registration, Evaluation, Author i sat ion and Restrict ion of Chemicals) 와 같은 화합물의 생산과 소비에 관한 국제적인 규정들이 그 값을 요구하기도 한다. 그러나 현재 그 실험값이 알려진 화할물의 개수는 3 - 4 만개에 불과하며, 화합물에 따라서는 독성, 불안정성, 정제의 어려움 등으로 실험을 통하여 데이터를 얻는 작업이 지난한 경우도 있다. 이런 관점에서 실험을 거치지 않고도 분자에 대한 정보만으로 수많은 화합물의 물성들을 높은 정확도로 얻게 해주는 본 발명은 실험에 드는 비용과 시간을 절감해줄 뿐만이 아니라 실험이 불가능한 경우에도 그 값을 짐작하게 해주어 관련 산업의 연구개발활동을 용이하게 함은 물론 더 나아가 학계와 관 (官)계 등 그 값을 필요로 하는 모든 곳에 합당한 정보를 제공하여 그 활동을 보다 원활히 수행할 수 있게 해주는 효과를 낳는다.
【도면의 간단한 설명】
도 1부터 도 124까지는 본 발명의 실시예 1에 대한 도면으로, 실시예 1一 1부터 실시예 1-28까지에 대한 두면들이다. 도 129부터 도 204까지는 본 발명의 실시예 2에 대한 도면으로, 실시예 2-1부터 2-11까지에 대한 도면들이다. 도 205부터 209까지는 실시예 3에 대한 도면, 도 210부터 도 224까지는 실시예 4에 대한 도면이다. 이하 차례로 설명한다. 도 1부터 도 8까지는 본 발명의 실시예 1—1 (순수한 유기화합물의 정상 끓는점을 예측하는 다중선형회귀 -인공신경망 흔성 QSPR 모델)에 대한 도면으로, 도 1은 본 발명이 제공하는 정상끓는점에 대한 다중선형회귀ᅳ 인공신경망 흔성 QSPR모델을 구축하는 과정을 흐름도로 나타낸 도면이다. 도 2는 본 발명에 사용된 인공신경망의 구조를 나타낸 도면이다.
도 3은 정상끓는점에 대한 기존의 예측방법 증 하나인 그룹기여 기반 Joback 모델의 예측값을 1651개의 실험데이터와 비교한 패리티 도면 (X축은 예측값, y축은 실험값으로 구성되는 도면으로서 예측값이 실험값에 근접할 수록 데이터 포인트가 45도 선상에 수렴한다) 이다. 도 3 에 각 포인트별로 표시된 세로방향 바 라인은 각 실험값의 에러범위를 나타내며 동일 값에 대해 중복수집된 여러 실험값을 분석하여 나타내었으며 이하 모든 패리티 도면에 동알하게 적용하였다.
도 4는 정상끓는점에 대한 기존의 예측방법 중 하나인 그룹기여 모델 기반 Gani 모델의 예측값을 1651개의 실험데이터와 비교한 패리티 도면이다.
도 5는 본 발명이 제공하는 정상끓는점에 대한 다중선형회귀—인공신경망 흔성 QSPR모델의 예측값을 1786개의 실험데이터와 비교한 패리티 도면이다.
도 6는 Joback 모델의 예측값을 1651개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 7은 Gani 모델의 예측값을 1557개의 실험데이터 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 8은 본 발명이 제공하는 다중선형회귀ᅳ인공신경망 흔성 QSPR 모델의 예측값을 1786개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 9. 부터 도 12까지는 본 발명의 실시예 1-2(순수한 유기화합물의 표준상태의 이상기체 절대 엔트로피를 예측하는 다중선형회귀 -인공신경망 흔성 QSPR모델)에 대한 도면으로,
도 9는 표준상태의 이상기체 절대 엔트로피의 양자역학 계산 모델인 밀도 '범함수이론에 의한 예측값을 1233개 실험데이터와 비교한 패리티 도면이다. 도 10은 본 발명이 제공하는 표준상태의 이상기체 절대 엔트로피에 대한 다중선형회귀 -인공신경망 흔성 QSPR 모델의 예측값을 1233개의 실험데이터와 비교한 패리티 도면이다.
도 11은 양자역학 계산 모델인 밀도 범함수이론에 의한 예측값을 1233개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다. 도 12는 본 발명이 제공하는 다중선형회귀ᅳ인공신경망 흔성 QSPR 모델의 예측값을 1786개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다. '
도 13부터 도 18까지는 본 발명의 실시예 1-3(유기화합물의 이심인자를 예측하는 다중선형회귀 -인공신경망 흔성 QSPR모델)에 대한 도면으로, 도 13은 이심인자의 .그룹기여 모델인 Gani 모델의 예측값을 1423개의 실험데이터와 비교한 패리티 도면이다.
도 14는 이심인자의 관계식 모델인 Chen 모델의 예측값을 1825개의 실험데이터와 비교한 패리티 도면이다. 도 15는 본 발명이 제공하는 이심인자의 QSPR 모델의 예측값을 1840개의 실험데이터와 비교한 패리티 도면이다.
도 16은 Gani 모델의 예측값을 1423개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 17은 Chen 모델의 예측값을 1825개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 18은 본 발명아 제공하는 다중선형회귀ᅳ인공신경망 흔성 QSPR 모델의 예측값을 1840개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 19부터 도 24까지는 본 발명의 실시예 1ᅳ4(유기화합물의 임계압력을 예측하는 다중선형회귀—인공신경망 흔성 QSPR모델)에 대한 도면으로, 도 19는 임계압력에 대한 그룹기여 모델인 Joback 모델의 예측값을 1642개의 실험데이터와 비교한 패리티 도면이다.
도 20은 임계압력에 대한 그룹기여 모델인 Gani 모델의 예측값을 1541개의 실험데이터와 비교한 '패리티 도면이다. .
도 21은 본 발명이 제공하는 임계압력에 대한 다중선형회귀 -인공신경망 흔성
QSPR모델의 예측값을 1737개의 실험데이 와 비교한 패리티 도면이다.
도 22는 Joback 모델의 예측값을 1642개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 23은 Gani 모델의 예측값을 1541개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다. 도 24는 본 발명의 다중선형회귀 -인공신경망 흔성 QSPR 모델의 예측값을 1737개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 25부터 도 30까지는 본 발명의 실시예 1ᅳ5(유기화합물의 임계온도를 예측하는 다중선형회귀 -인공신경망 흔성 QSPR모델)에 대한도면으로, 도 25는 임계온도에 대한 그룹기여 모델인 Joback 모델의 예측값을 1460개의 실험데이터와 비교한 패리티 도면이다.
도 26은 임계온도에 대한 그룹기여 모델인 Gani 모델의 예측값을 1375개의 실험데이터와 비교한 패리티 도면이다.
도 27은 본 발명이 제공하는 임계온도에 대한 다중선형회귀 -인공신경망 흔성 QSPR모델의 예측값을 1558개의 실험데이터와 비교한 패리티 도면이다.
도 28은 Joback 모델의 예측값을 1460개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 29는 Gani 모델의 예측값을 1375개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 30은 본 발명의 다중선형회귀—인공신경망 흔성 QSPR 모델의 예측값을 1558개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 31부터 도 36까지는 본 발명의 실시예 1-6(순수한 유기화합물의 임계부피를 예측하는 다중선형희귀—인공신경망 흔성 QSPR 모델)에 대한 도면으로, 도 31은 임계부피에 대한 그룹기여 모델인 Joback 모델의 예측값을 1141개의 실험데이터와 비교한 패리티 도면이다.
도 32는 임계부피에 대한 그룹기여 모델인 Gani 모델의 예측값을 1078개의 실험데이터와 비교한 패리티 도면이다.
도 33은 본 발명이 제공하는 임계부피에 대한 다중선형회귀 -인공신경망 흔성 QSPR모델의 예측값을 1202개의 ^험데이터와 비교한 패리티 도면이다.
도 34는 Joback 모델의 예측값을 1141개의 질험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 35는 Gani 모델의 예측값올 1078개의 실험데이터와 비교하여 통계학작 분석을 보여주는 히스토그램 도면이다.
도 36은 본 발명이 제공하는 다중선형회귀—인공신경망 흔성 QSPR 모델의 예측값을 1202개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 37부터 도 46까지는 본 발명의 실시예 1— 7(순수한 유기화합물의 이상기체의 생성 에너지를 예측하는 다중선형회귀 -인공신경망 흔성 QSPR 모델)에 대한 도면으로,
도 37은 본 발명이 제공하는 이상기체의 생성 에너지에 대한 다중선형회귀- 인공신경망 흔성 QSPR 모델에 쓰이는 순수 화합물이 가질 수 있는 A0MG 유형들이다.
도 38은 본 발명이 제공하는 이상기체의 생성 에너지에 대한 다중선형회귀- 인공신경망 흔성 QSPR 모델에 쓰이는 순수 화합물이 가질 수 있는 공유결합에 의한 A0MG유형들이다.
도 39는 이상기체의 생성 에너지에 대한 그룹기여 모델인 Joback '모델의 예측값을 1407개의 실험데이터와 비교한 패리티 도면이다.
도 40은 이상기체의 생성 에너지에 대한 그룹기여 모델인 Gani 모델의 예측값을 1318개의 실험데이터와 비교한 패리티 도면이다.
도 41은 본 발명이 제공하는 이상기체의 생성 에너지에 대한 다중선형회귀- 인공신경망 흔성 QSPR 모델의 예측값을 1536개의 실험데이터와 비교한 패리티 도면이다.
도 42는 Joback 모델의 예측값을 1407개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 43은 Gani 모델의 예측값을 1318개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 44는 다중선형회귀 -인공신경망 흔성 QSPR 모델의 예측값을 1535개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다. 도 45는 본 발명이 제공하는 라디칼 화합물의 이상기체의 생성 에너지에 대한 다중선형회귀ᅳ인공신경망 흔성 QSPR 모델의 예측값을 294개의 실험데이터와 비교한 패리티 도면이다. .
도 46은 라디칼. 화합물의 다중선형회귀 -인공신경망 흔성 QSPR 모델의 예측값을 294개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 47부터 도 50까지는 본 발명의 실시예 1_8(순수한 유기화합물의 융해열을 예측하는 다중선형회귀 -인공신경망 흔성 QSPR 모델)에 대한 도면으로, 도 47은 융해열의 그룹기여 모델인 Joback 모델의 예측값을 1093개의 실험데이터와 비교한 패리티 도면이다.
도 48은 본 발명이 제공하는 융해열의 다중선형회귀 -인공신경망 흔성 QSPR 모델의 예측값을 1189개의 실험데이터와 비교한 패리티 도면이다.
도 49는 Joback 모델의 예측값을 1093개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 50은 본 발명의 다중선형회귀 -인공신경망 흔성 QSPR 모델의 예측값을 1189개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 51부터 도 54까지는 본 발명의 실시예 1ᅳ9(순수한 유기화합물의
298.15K에서의 포화액체밀도을 예측하는 다중선형희귀 -인공신경망 혼성 QSPR 모델)에 대한 도면으로,
도 51은 298.15K에서의 액체몰부피에 대한 그룹기여 모델인 Gani 모델의 예측값을 1028개의 실험데이터와 비교한 패리티 도면이다.
도 52는 본 발명이 제공하는 298.15K에서의 액체몰부피에 대한 다중선형회귀 -인공신경망 흔성 QSPR 모델의 예측값을 1152개의 실험데이터와 비교한 패리티 도면이다.
도 53은 Gani 모델의 예측값을 1028개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 54는 본 발명이 제공하는 다중선형회귀ᅳ인공신경망 흔성 QSPR 모델의 예측값을 1152개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 55 및 56은 본 발명의 실시예 1-10(순수한 유기화합물의 굴절율을 예측하는 다중선형회귀—인공신경망 흔성 QSPR 모델)에 대한도면으로, 도 55은 본 발명이 제공하는 굴절를에 대한 다중선형회귀 -인공신경망 흔성 QSPR모델의 예측값을 890개의 실험데이터와 비교한 패리티 도면이다.
도 56은 본 발명이 제공하는 다중선형희귀-인공신경망 흔성 QSPR 모델의 890개의 예측값을 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 57부터 도 60까지는 본 발명의 실시예 1— 11(유기화합물의 용해지수를 예측하는 다중선형회귀 -인공신경망 흔성 QSPR모델)에 대한 도면으로, 도 57은 용해지수에 대한 힐더브랜드 수식을 이용해 계산된 예측값을 1192개의 실험데이터와 비교한 패리티 도면이다.
도 58은 본 발명이 제공하는 용해지수에 대한 다중선형회귀 -인공신경망 흔성 QSPR모델의 예측값을 1192개의 실험데이터와 비교한 패리티 도면이다. 도 59는 힐더브랜드 수식을 이용한 모델의 예측값을 1192개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 60은 본 발명이 제공하는 다중선형회귀 -인공신경망 흔성 QSPR 모델의 예측값을 1192개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 61부터 도' 68까지는 본 발명의 실시예 1ᅳ 12(순수한 유기화합물의 표준상태 절대 엔트로피를 예측하는 다중선형회귀 -인공신경망 흔성 QSPR 모델)에 대한 도면으로,
도 61은 표준상태 절대 엔트로피의 그룹기여 모델인 Domalski 액체 모델의 예측값을 5기개의 실험데이터와 비교한 패리티 도면이다.
도 62는 표준상태 절대 엔트로피의 그룹기여 모델인 Domalski 고체 모델의 예측값을 53개의 실험데이터와 비교한 패리티 도면이다.
도 63은 본 발명이 제공하는 표준상태 절대 엔트로피의 다중선형회귀- 인공신경망 흔성 액체 모델의 예측값을 704개의 실험데이터와 비교한 패리티 도면이다. ' 도 64는 본 발명이 제공하는 표준상태 절대 엔트로피의 다중선형회귀- 인공신경망 흔성 고체 모델의 예측값을 96개의 실험데이터와 비교한 패리티 도면이다.
도 65는 Domalski 액체 모델의 예측값을 5기개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 66은 Domalski 고체 모델의 예측값을 53개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 67은 다중선형회귀 -인공신경망 흔성 액체 모델의 예측값을 704개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다. 도 68은 다중선형회귀 -인공신경망 흔성 고체 모델의 예측값을 96개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다. 도 69부터 도 72까지는 본 발명의 실시예 1ᅳ13(순수한 유기화합물의 표준상태 생성에너지를 예측하는 QSPR모델)에 대한 도면으로,
도 69는 본 발명이 제공하는 표준상태 생성에너지의 QSPR 액체모델의 예측값을 768개의 실험데이터와 비교한 패리티 도면이다.
도 70은 본 발명이 제공하는 표준상태 생성에너지의 QSPR 고체모델의 예측값을 468개의 실험데이터와 비교한 패리티 도면이다.
도 기은 본 발명의 QSPR 액체모델의 예측값을 768개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 72는 본 발명의 QSPR 고체모델의 예측값을 468개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 73부터 도 76까지는 본 발명의 실시예 1-14(순수한 유기화합물의 자기 감수율을 예측하는 다중선형회귀 -인공신경망 흔성 QSPR 모델)에 대한 도면으로,
도 73은 자기 감수율에 대한 양자역학 계산인 밀도 범함수 이론에 의한 예측값을 320개 실험데이터와 비교한 패리티 도면이다.
도 74는 본 발명이 제공하는 자기 감수율에 대한 다중선형회귀 -인공신경망 흔성 QSPR모델의 예측값을 320개의 실험데이터와 비교한 패리티 도면이다. 도 75는 밀도 범함수 이론에 의한 예측값을 320개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 76은 다중선형희귀 -인공신경망 흔성 QSPR 모델의 예측값을 320개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다. 도 77부터 도 80까지는 본 발명의 실시예 1-15(순수한 유기화합물의 편극도를 예측하는 다중선형회귀 -인공신경망 흔성 QSPR 모델)에 대한 도면으로,
도 77은 편극도에 대한 양자역학을 통한 모델 (Quantum 모델)의 예측값을 200개의 실험데이터와 비교한 패리티 도면이다.
도 78은 본 발명이 제공하는 편극도의 다중선형회귀 -인공신경망 흔성 QSPR 모델의 예측값을 200개의 실험데이터와 비교한 패리티 도면이다.
도 79는 양자역학을 통한 모델 (Quantum 모델)의 예측값을 20 개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다. 도 80은 본 발명이 제공하는 다중선형회귀 -인공신경망 흔성 QSPR 모델의 예측값을 200개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 81부터 도 84까지는 본 발명의 실시예 1-16(순수한 유기화합물의 이은화에너지를 예측하는 다중선형회귀 -인공신경망 흔성 QSPR 모델)에 대한 도면으로,
도 81은 이온화 에너지의 Quantum 모델의 예측값을 542개의 실험떼이터와 비교한 패리티 도면이다.
도 82는 본 발명이 제공하는 이온화 에너지의 다증선형회귀ᅳ인공신경망 흔성 QSPR모델의 예측값을 567개의 실험데이터와 비교한 패리티 도면이다.
도 83은 Quantum 모델의 예측값을 542개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 84는 본 발명이 제공하는 다중선형회귀 -인공신경망 흔성 QSPR 모델의 예측값을 567개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 85부터 도 88까지는 본 발명의 실시예 1_17(순수한 유기화합물의 전자친화도를 예측하는 다중선형회귀 QSPR모델)에 대한 도면으로, 도 85는 전자 친화도의 Quantum 모델의 예측값을 146개의 실험데이터와 비교한 패리티 도면이다.
도 86은 본 발명이 제공하는 전자 친화도의 QSPR 모델의 예측값을 146개의 실험데이터와 비교한 패리티 도면이다.
도 87은 Quantum 모델의 예측값을 146개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 88은 본 발명의 QSPR 모델의 예측값을 146개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 89부터 도 92까지는 본 발명의 실시예 1-18(순수한 유기화합물의 파라코르를 예측하는 다중선형회귀—인공신경망 흔성 QSPR 모델)에 대한 도면으로,
도 89는 파라코르의 그룹기여 -QSPR 모델인 knotts 모델의 예측값을 603개의 실험데이터와 비교한 패리티 도면이다. ·
도 90은 본 발명이 제공하는 파라코르의 다중선형회귀 -인공신경망 흔성 QSPR 모델의 예측값을 673개의 실험데이터와 비교한 패리티 도면이다.
도 91은 Knotts 모델의 예측값을 603개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다. 도 92는 본 발명이 제공하는 다중선형회귀 -인공신경망 흔성 QSPR 모¾의 예측값을 673개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 93부터 도 94까지는 본 발명의 실시예 1-19(순수한 유기화합물의 인화점을 예측하는 다중선형회귀 -인공신경망 흔성 QSPR 모델)에 대한 도면으로,
도 93은 본 발명이 제공하는 인화점의 다중선형회귀 -인공신경망 흔성 QSPR 모델의 예측값을 1280개의 실험데이터와 비교한 패리티 도면이다.
도 94는 본 발명이 제공하는 다중선형회귀 -인공신경망 흔성 QSPR 모델의 예측값을 1280개의 실험데이터와 비교하여 통계학적' 분석을 보여주는 히스토그램 도면이다.
도 95부터 도 96까지는 본 발명의 실시예 1-20(순수한 유기화합물의 인화하한온도을 예측하는 다중선형회귀 -인공신경망 흔성 QSPR 모델)에 대한
'' . .
도면으로,
도 95는 본 발명이 제공하는 인화 하한 온도의 다중선형회귀 -인공신경망 흔성 QSPR모델의 예측값을 1248개의 실험데이터와 비교한 패리티 도면이다. 도 96은 본 발명이 제공하는 다중선형회귀 -인공신경망 흔성 QSPR 모델의 예측값을 1248개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 97부터 도 98까지는 본 발명의 실시예 1ᅳ 21(순수한 유기화합물의 인화하한부피퍼센트를 예측하는 다중선형회귀 -인공신경망 흔성 QSPR 모델)에 대한 도면으로,
도 97은 본 발명이 제공하는 인화 하한 부피 퍼센트의 QSPR 모델의 예측값을 1139개의 실험데이터와 비교한 패리티 도면이다.
도 98은 QSPR 모델의 예측값을 1139개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 99부터 도 100까지는 본 발명의 실시예 1-22(순수한 유기화합물의 인화상한온도를 예측하는 다증선형회귀 -인공신경망 흔성 QSPR 모델)에 대한 도면으로,
도 99는 본 발명이 제공하는 인화 상한 온도의 다중선형회귀 -인공신경망 흔성 QSPR모델의 예측값을 1240개의 실험데이터와 비교한 패리티 도면이다. 도 100은 다중선형회귀ᅳ인공신경망 흔성 QSPR 모델의 예측값을 1240개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다. 도 101부터 도 104까지는 본 발명의 실시예 1-23(순수한 유기화합물의 인화상한부피퍼센트를 예측하는 다중선형회귀 -인공신경망 흔성 QSPR 모델)에 대한 도면으로,
도 101은 인화 상한 부피 퍼센트에 대한 그룹기여 모델인 High/Danner 모델의 예측값을 457개의 실험데이터와 비교한 패리티 도면이다.
도 102는 본 발명이 제공하는 인화 상한 부피 퍼센트의 다중선형회귀二 인공신경망 흔성 QSPR 모델의 예측값을 1020개의 실험데이터와 비교한 패리티 도면이다.
도 103은 High/Danner 모델의 예측값을 457개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 104는 다중선형회귀 -인공신경망 흔성 QSPR 모델의 예측값을 1020개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다. 도 105부터 도 108까지는 본 발명의 실시예 1ᅳ24(순수한 유기화합물의 정상끓는점에서의 액체밀도를 쎄측하는 다중선형회귀 -인공신경망 흔성 QSPR 모델)에 대한 도면으로
도 105는 정상끓는점에서의 액체밀도에 대한 그룹기여 모델인 Sastri 모델의 예측값을 898개의 실험데이터와 비교한 패리티 도면이다.
도 .106는 본 발명이 제공하는 정상끓는점에서의 액체밀도에 대한 다중선형회귀ᅳ인공신경망 흔성 QSPR 모델의 예측값을 899개의 실험데이터와 비교한 패리티 도면이다.
도 107는 Sastri 모델의 예측값을 898개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 108은 다중선형회귀 -인공신경망 흔성 QSPR 모델의 예측값을 899개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다. 도 109부터 도 112까지는 본 발명의 실시예 1-25(순수한 유기화합물의 298.15K에서의 기화열을 예측하는 다중선형회귀ᅳ인공신경망 흔성 QSPR 모델)에 대한 도면으로,
도 109는 298.15K에서의 기화열에 대한 그룹기여 모델인 Gani 모델의 예측값을 873개의 실험데이터와 비교한 패리티 도면이다.
도 110은 본 발명이 제공하는 298.15K에서의 기화열에 대한 다중선형회귀- 인공신경망 흔성 QSPR 모델의 예측값을 1044개의 실험데이터와 비교한 패리티 도면이다.
도 111은 Gani 모델에 대한 873개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 112는 다중선형회귀 -인공신경망 흔성 QSPR 모델에 대한 1044개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다. 도 113부터 도 116까지는 본 발명의 실시예 1-26(순수한 유기화합물의 정상끓는점에서의 기화열을 예측하는 다중선형회귀 -인공신경망 흔성 QSPR 모델)에 대한 도면으로,
도 113는 정상끓는점에서 측정된 기화열에 대한 그룹기여 모델인 Joback 모델의 예측값을 832개의 실험데이터와 비교한 패리티 도면이다.
도 114는 본 발명이 제공하는 정상끓는점에서 측정된 기화열에 대한 다중선형회귀 -인공신경망 흔성 QSPR 모델의 예측값을 895개의 실험데이터와 비교한 패리티 도면이다..
도 115는 Joback 모델의 예측값을 832개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 116은 다중선형회귀 -인공신경망 흔성 QSPR 모델의 예측값을 895개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다. 도 117부터 도 120까지는 본 발명의 실시예 1-27(순수한 유기화합물의 옥탄올ᅳ물 분배계수를 예측하는 다중선형회귀—인공신경망 흔성 QSPR 모델)에 대한 도면으로, 도 117은 옥탄을ᅳ물 분배계수에 대한 그룹기여 모델인 UNIFAC을 이용한 모델의 예측값을 808개의 실험데이터와 비교한 패리티 도면이다.
도 118는 옥탄올ᅳ물 분배계수에 대한 다중선형회귀 -인공신경망 흔성 QSPR 모델의 예측값을 1240개의 실험데이터와 비교한 패리티 도면이다.
도 119는 UNIFAC을 이용한 모델의 예측값을 808개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 120은 다중선형회귀 -인공신경망 흔성 QSPR 모델의 예측값을 1240개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다. 도 121부터 도 124까지는 본 발명의 실시예 1ᅳ28(순수한 유기화합물의 수용해도를 예측하는 다중선형회귀 -인공신경망 흔성 QSPR 모델)에 대한 도면으로,
도 121은 수용해도에 대한 그룹기여 모델인 Kuhne 모델의 예측값을 625개의 실험데이터와 비교한 패리티 도면이다.
도 122는 수용해도에 대한 다충선형회귀ᅳ인공신경망 흔성 QSPR 모델의 예측값을 783개의 실험데이터와 비교한 패리티 도면이다.
도 123는 Kuhne 모델의 예측값올 625개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 124은 다중선형회귀 -인공신경망 흔성 QSPR 모델의 예측값을 783개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다. 도 125부터 도 134까지는 본 발명의 실시예 2-1(순수한 유기화합물의 기화열를 예측하는 QSPR-SVRC모델)에 대한 도면으로, 도 125는 본 발명이 제공하는 기화열에 대한 SVRC 예측모델을 구축하는 과정을 흐름도로 나타낸 도면이다.
도 126은 QSPR-SVRC 모델에 필요한 매개변수들 중 에 대한 다중선형회귀 QSPR모델을 구축하는 과정을 흐름도로 나타낸 도면이다.
도 127은 QSPR-SV C 모델에 필요한 매개변수들 중 Δ¾에 대한 다중선형희귀- 인공신경망 흔성 QSPR모델을 구축하는 과정을 흐름도로 나타낸 도면이다. 도 128은 본 발명에 사용된 인공신경망의 구조를 나타낸 도면이다.
도 129부터 132까지는 예로 몇몇 화합물에 대해 기존의 예측방법들 중 Watson모델과 본 발명이 제공하는 예측모델의 예측성능을 비교한 도면들이다. 도 133은 Watson 모델의 예측값을 28932개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 144는 QSPR-SVRC 모델의 예측값을 29073개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 135부터 도 142까지는 본 발명의 실시예 2-2(순수한 화합물의 이상기체의 열용량을 예측하는 다중선형회귀 -인공신경망 흔성 QSPR 모델)에 대한 도면으로,
도 135는 본 발명이 제공하는 이상기체의 열용량에 대한 QSPR 예측모델을 구축하는 과정을 흐름도로 나타낸 도면이다.
도 136은 본 발명에 사용된 다중선형회귀—인공신경망 흔성 QSPR 모델을 구축하는 과정을 흐름도로 나타낸 도면이다.
도 137부터 140까지는 예로 몇몇 화합물에 '대해 기존의 예측방법들 중 Joback 모델과 본 발명이 제공하는 예측모델의 예측성능을 비교한 도면들이다.
도 141은 Joback 모델의 예측값을 14305개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 142는 QSPR 모델의 예측값을 17211개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 143부터 도 148까지는 본 발명의 실시예 2-3(순수한 유기화합물의 액체의 열용량을 예측하는 QSPR-SVRC 모델)에 대한 도면으로, ᅳ
도 143부터 146까지는 예로 몇몇 화합물에 대해 기존의 예측방법들 중 Bondi모델과 본 발명이 제공하는 예측모델의 예측성능을 비교한 도면들이다. 도 147은 Bondi 모델의 예측값을 10053개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 148은 SVRC 모델의 예측값을 13223개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 149부터 도 156까지는 본 발명의 실시예 2-4(순수한 유기화합물의 포화액체밀도를 예측하는 QSPR-SVRC모델)에 대한 도면으로,
도 149부터 153까지는 예로 몇몇 화합물에 대해 기존의 예측방법들 중
Racket t 모델 및 Yamada-Gunn 모델과 본 발명이 제공하는 예측모델의 예측성능을 비교한 도면이다.
도 154는 Rackett 모델의 예측값을 12449개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다. 도 155는 Yamada-Gunn 모델의 예측값을 12443개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 156은 QSPR-SVRC 모델의 예측값을 12449개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 157부터 도 164까지는 본 발명의 실시예 2-5(순수한 유기화합물의 표면장력을 예측하는 QSPR모델)에 대한 도면으로,
도 157은 본 발명이 제공하는 표면장력에 대한 QSPR 예측모델을 구축하는 과정을 흐름도로 나타낸 도면이다.
도 158부터 161까지는 예로 몇몇 화합물에 대해 기존의 예측방법들 중 Brock-Bird모델과 Miller모델, 본 발명이 제공하는 예측모델의 예측성능을 비교한 도면들이다. 、- 도 162는 Brock-Bird 모델의 예측값을 7224개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 163은 Miller 모델의 예측값을 7224개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 164는 QSPR 모델의 예측값을 7224개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다. ' 도 165부터 도 170까지는 본 발명의 실시예 2-6(순수한 유기화합물의 액체 열전도율을 예측하는 QSPR-SVRC 모델)에 대한 도면으로,
도 165부터 168까지는 예로 몇몇 화합물에 대해 기존의 예측방법들 중 Satb—
Riedel 모델과 본 발명이 제공하는 예측모델의 예측성능을 비교한 도면들이다.
도 169는 Sato-Riedel 모델의 예측값을 11040개의 실험데이터와- 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 170은 QSPR-SVRC 모델의 예측값을 11040개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 1기부터 도 177까지는 본 발명의 실시예 2-7(순수한 유기화합물의 기체 열전도율을 예측하는 QSPR-SVRC 모델)에 대한 도면으로,
도 1기부터 174까지는 예로 몇몇 화합물에 대해 기존의 예측방법들 중 Misic-Thodos 모델과 변형된 Eucken모델, 본 발명이 제공하는 예측모델의 예측성능을 비교한 도면들이다.
도 175는 Misic-Thodos 모델의 예측값을 6090개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 176는 변형된 Eucken 모델의 예측값을 6090개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 177은 QSPR-SVRC 모델의 예측값을 6090개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 178부터 도 183까지는 본 발명의 실시예 2-8(순수한 화합물의 액체증기압을 예측하는 QSPR-SVRC 모델)에 대한 도면으로,
도 178부터 181까지는 예로 몇몇 화합물에 대해 기존의 예측방법들 중 Reidel모델과 본 발명이 제공하는 예측모델의 예측성능을 비교한 도면들이다. 도 182는 Reidel모델의 예측값을 15,760개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 183은 QSPR-SVRC 모델의 예측값을 15, 760개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 184부터 도 191까지는 본 발명의 실시예 2-9(순수한 유기화합물의 액체점성도를 예측하는 QSPR-SVRC 모델)에 대한 도면으로,
도 184부터 187까지는 예로 몇몇 화합물에 대해 기존의 예측방법들 중 모델과 본 발명이 제공하는 예측모델의 예측성능을 비교한 도면들이다.
도 188는 Letsou-Stiel 모델의 예측값을 13541개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다. ,
도 189은 Joback 모델의 예측값을 9499개의 실험데이터에 대한 히스토그램 도면이다.
도 190은 Orrick-Erbar 모델의 예측값을 10647개의 실험데이터에 대한 히스토그램 도면이다.
도 191는 QSPR-SVRC 모델의 예측값을 13541개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 192부터 도 196까지는 본 발명의 실시예 2-10(순수한 화합물의 기체점성도를 예측하는 QSPR-SVRC모델)에 대한 도면으로,
도 192부터 194까지는 예로 몇몇 화합물에 대해 기존의 예측방법들 중 Reichenberg과 본 발명이 제공하는 예측모델의 예측성능을 비교한 도면이다. 도 195는 Reichenberg 모델의 예측값을 9010개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다. 도 196은 QSPR-SVRC 모델의 예측값을 9817개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 197부터 도 204까지는 본 발명의 실시예 2-11(보일 온도 예측을 통해 순수한 유기화합물의 2차 비리얼 계수를 예측하는 수학적 모델)에 대한 도면으로,
도 197은 본 발명이 제공하는 2차 비리얼 계수에 대한 수학적 모델을 구축하는 과정을 흐름도로 나타낸 도면이다.
도 198부터 202까지는 예로 몇몇 화합물에 대해 기존의 예측방법들 중 McCann 모델과 본 발명이 제공하는 예측모델의 예측성능을 비교한 도면들이다.
도 203은 McCann 모델의 예측값을 6047개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 204는 본 발명이 제공하는 모델의 예측값을 7866개의 실험데이터와 비교하여 통계학적 분석을 보여주는 히스토그램 도면이다.
도 205부터 도 209까지는 본 발명의 실시예 3(양자역학 계산 프로그램과 물성정보 예측모들을 이용하여 일괄처리를 자동화한 방법 및 그 시스템)에 대한 도면으로,
도 205은 양자역학 계산 프로그램과 물성정보 예측모들을 이용하여 일괄처리를 자동화한 시스템에 대한 실시예 흐름도이다. '
도 206는 본 발명의 실시예에 따른 물성 예측 시스템의 개략적인 구성도이다. 도 207는 분자식 입력 및 구조이성질체 생성 단계에서 얻어지는 "C4H100" 에 대한 구조이성질체들이다.
도 208은 입체이성질체 생성 단계에서 얻어지는 "C4H100" 에 대한 입체이성질체들이다.
도 209는 실시예인 1-부탄올에 대한 본 발명의 과정으로 저장된 결과파일의 상수값을 이용하여 온도에 따른 표면장력의 예측값을 도시한 것이다.
도 210부터 도 224까.지는 본 발명의 실시예 4(화합물의 물성을 예측하는 방법 및 화합물의 물성을 예측하는 시^템)에 대한 도면으로,
도 210은 본 발명이 제공하는 화합물의 물성을 예측하는 방법 또는 시스템의 흐름도이다.
도 211는 본 발명의 서버 /클라이언트 시스템의 구성도이다.
도 212은 화합물의 물성을 예측하는 시스템의 검색창에서 분자식을 입력한 예이다.
도 213는 화합물의 물성을 예측하는 시스템에 입력된 분자식을 포함하고 있는 화합물의 검색결과이다.
도 214는 화합물의 물성을 예측하는 시스템의 검색창에서 분자구조를 입력한 예이다.
도 215는 화합물의 물성을 예측하는 시스템에 입력된 분자구조를 포함하고 있는 화합물의 검색결과이다.
도 216은 화합물의 물성을 예측하는 시스템의 검색창에서 원자수, 분자량, InChl , 물성의 범위를 입력한 예이다.
도 217는 화합물의 물성을 예측하는 시스템에 입력된 조건에 대한 특정 화합물의 물성 결과이다.
도 218는 화합물의 물성을 예측하는 시스템에 입력된 조건에 대한 특정 화합물의 분자표현자 값 결과이다..
도 219는 화합물의 물성을 예측하는 시스템에 입력된 조건에 대한 특정 화합물의 양자역학 계산값 결과이다.
도 220는 화합물의 물성을 예측하는 시스템에 입력된 조건에 대한 특정 화합물의 제약물성 결과이다.
도 221는 화합물의 물성을 예측하는 시스템에 입력된 온도범위 조건에 대한 특정 화합물의 물성 결과이다.
도 222은 화합물의 물성을 예측하는 시스템에 입력된 조건에 대한 특점 화합물의 3차원 측정정보 결과이다.
도 223는 화합물의 물성을 예측하는 시스템에 입력된 조건에 대한 특정 화합물의 3차원 분자진동 결과이다.
도 224는 화합물의 물성을 예측하는 시스템에 입력된 조건에 대한 특정 화합물의 3차원 오비탈 결과이다.
【발명의 실시를 위한 형태】
본 발명은 41개의 실시예를 포함하며, 이들은 크게 실시예 1부터 4까지로 구분된다. 이 중 실시예 1은 실시예 1-1부터 1-28까지를 포함하며 화합물의 상수값 물성을 예측하는 모델에 대한 발명이고, 실시예 2는 2ᅳ 1부터 2- 11까지 포함하며 은도에 의존한 물성을 예측하는 모델에 대한 발명이다. 실시예 3은 예측모델을 자동화한 시스템 및 방법에 대한 발명이고, 실시예: 4는 화합물의 물성을 예측하는 시스템에 대한 발명이다. 이 실시예들은 모두 본 발명의 범위에 속하며, 각 실시예에서 설명하는 구체적인 구성들은 다른 실시예에도 적용될 수 있음은 물론이다. 이하에서는 각 실시예들을 차례로 설명한다. ,
[실시예 1-1] 순수한 유기화합물의 정상 끓^점을 예측하는 다중선형회귀- 인공신경망흔성 QSPR모델
본 실시예 1-1의 관심 물성인 정상끓는점에 대해서도 현재까지 여러 예측모델들이 제안되었다. 정상끓는점 (normal boiling point)라 함은 순수한 물질이 1기압하에서 끓는 온도, 즉 액체에서 기체로 상전이 되는 온도를 말한다. 정상끓는점 예측에 대한 그간의 연구결과들은 문헌 [Poling B. E., Prausnitz J. M. , 0' Conne 11 J . · P. , The Properties of Gases and Li quids (5 ed , New York, McGraw Hill, (2000).]에 간략히 소개되어 있다. 현재 정상끓는점을 예측하는 모델로 잘 알려지고 널리 쓰이는 것들은 주로 그룹기여 (group contribution) 방법을 이용한 것들이다. 표 1은 그 동안 제안되었던 정상끓는점에 대한 주요한 그룹기여 모델들을 연도순으로 보여 주고 있다.
【표 1】
Figure imgf000092_0001
1994 Stein & Brown
1999 Marrero-Morejon & Pardillo-Fontdevilla
1999 Iwai & Yamanaga & Arai
2002 Cordes & Rarey
2008 Nannoolal & Rarey & Ramjugemath
그룹기여 모델의 전형적인 형태는 아래와 같은 식으로 주어 진다.
Y = a0 + ^ ajrij 물성값 Y를 구하기 위해서는 먼저 값올 알고자 하는 화합물의 분자를 미리 정해진 다수의 조각형식들에 맞추어 갠 다음 각 조각형식들의 개수 를 구한다. 이를 다시 그 형식에 할당된 계수 ai와 곱한 것을 합산한 것이 예측값 Y가 된다. 계수 a0,ai들은 실험값이 존재하는 화합물들로부터 모델이 최선의 성능을 갖도록 통계적인 방법을 통해 결정된다. 이러한 그룹기여 방법은 그 동안 어느 정도 성공을 거둔 것이 사실이나 이론적 근거가 부족하고 때때로 조각형식에 맞추어 a개는 방식이 유일하지 않거나 심지어 존재하지 않는 경우가 발생하여 값의 계산이 불가능해 지기도 한다. 또한 예측성능을 높이기 위해 모델을 개선해 나갈수록 점점 더 복잡해지고 취급이 어려워지는 양상을 보인다. ' 예측모델을 구축하는데 있어서 그룹기여 방법의 대안이 될 수 있는 다른 방법들의 하나는 QSPR(quant itat ive structure-property relationship) 방법이다. 이 방법은 기본적으로 화합물의 물성은 그 분자의 구조적 특성들의 함수라는 가정에서부터 출발하고 있으며 서로 다른 여러 구조적 특성들을 반영하는 다양한 분자표현자 (molecular descriptor)들을 이용한다. 현재까지 제안된 분자표현자들의 종류는 수천에 이르며 한 분자내의 탄소나 수소의 개수와 같은 단순한 것들로부터 분자의 모양이나 연결상태, 전기화학적 특성과 같은 복잡한 것들에 이르기까지 수많은 종류의 분자표현자들에 대한 계산법들이 개발되어 있다 [Todeschini R. , V. Consonni V. , Molecular Descriptors for Chemo informatics■ ' Second, Revised and Enlarged Edition: Volume I/II, Wiley-VCH, 2009] . QSPR 예측모델은 이러한 분자표현자들" 그리고 때로는 이에 더하여 화합물의 다른 물리화학적 물성들 (이들 역시 구조적 특성들의 함수이다) 중 일부를 독립변수로 포함하는 함수의 형태로 제시된다.
이때 이러한 함수의 꼴로 가장 빈번이 채택되는 것은 아래와 같은 표현자 Xi들의 선형 결합 함수이며 각 계수 c0,q들은 추로 다중선형회귀분석을 통해 실험데이터로부터 결정된다. '
Y = Co+^CiXi
QSPR 모델을 만드는 또 다른 방법은 인공신경망을 이용하는 것이다. 인공신경망 기법은 지능을 가진 인간의 신경세포를 모델링하여 인공적으로 지능을 가진 기계를 만들어 보고자 하는 인류의 오랜 연구결과의 하나로서,
20세기 중반에 처음 등장하여 현재 다방면으로 응용되고 있는 정보처리기술이다. 도 2는 인공신경망의 전형적인 한 예를 보여주고 있다. 여기서 볼 수 있듯이, 인공신경망에는 입력 데이터를 수용하는 입력층 (input layer)과 출력데이터를 만드는 출력층 (output layer), 이들 사이에 위치한 은닉층 (hidden layer)이 존재하며 각 층은 하나 이상의 노드 (node)들로 구성되어 있다. 은닉층의 각 노드들은 입력층과 출력층의 노드들과 연결되어 있으며 각 연결들에는 가중치 (weight)라 불리는 양 Wij, w'ij이 부여되어 있다. 은닉층과 출력층의 각. 노드들은 전 단계의 노드들로부터 이러한 연결들을 통해 입력을 받은 뒤 이를 가공하여 출력값을 만드는데 이때 활성화 함수 (activation function)라 불리는 함수 fi,f2 를 적용한다. 이러한 인공신경망을 실제로 활용하려면 먼저, 다양한 입력값과 그 입력값에 대웅하는 출력값을 함께 묶어 놓은 샘플집합을 이용하여 인공신경망을 훈련시키는 과정이 필요한데 이는 주어진 입력에 대한 인공신경망의 출력과 원하는 출력의 차이가 최소가 되도록 역전파 (back propagation) 알고리즘을 사용하여 각 연결의 가중치를 최적화 하는 것을 말한다. 이러한 훈련을 거친 인공신경망은 문제해결에 필요한 규칙이나 지식을 따로 제공하지 않아도 학습을 통해서 스스로 일반적인 규칙을 수립하여 미지의 입력에 대해서도 타당성 있는 출력을 내주므로 화합물의 물성예측과 같이 기반 이론이 결여되어 있는 분야에 매우 유용한 수단으로 널리 이용되고 있다.
정상끓는점에 대한 QSPR 예측모델은 몇몇 제안된 것들이 있으나 아직 널리 이용되고 있는 것은 없다. Yalkowsky와 그의 동료들은 그룹기여 방법에 QSPR적인 요소를 결부시킨 모델을 제안하였으나 [Yalkowsky S. H., Dannenfelser R . -M . , Myrdal P. , Simamora P., Chemosphere, 28: 1657 (1994); Krzyzaniak J. F. , Myrdal P. B. , Simamora P., Yalkowsky S. H. , IEC Res. , 34: 2530 (1995); Zhao L. , Yalkowsky S. H. , I EC Res., 38: 3581 (1999).], 예측성능은 최신의 그룹기.여 모델보다 떨어지는 것으로 알려졌다. Jurs 등은 보다 세련되게 분자표현자들을 선정하는 방식을 도입하여 633개 물질에 대해 보다 향상된 결과를 보여주고 있다 [Wessel M. D., Jurs P. C, J. Chem. Inf. Comput. Sci. , 35: 68, 841 (1995).]. 또한 Katritzky 등은 8개의 분자표현자를 이용한 모델로 거의 900개에 달하는 화합물들에 대한 결과를 제시하였다 [Katritzky A. R. , Mu L., Lobanov V. S. , Karelson M., J. Phys. Chem. , 100: 10400 (1996); Katritzky A. R. , Lobanov V. S. , Karelson M. , J. Chem. Inf. Comput . Sci. , 38: 28 (1998); Katritzky A. R. , Tamm T. , Wang Y. , Si Id S., Karelson M. , J. Chem. Inf. Comput . Sci . , 39: 684 (1999).].
인공신경망을 이용하여 정상끓는점을 예측하는 QSPR 모델은 몇몇 제안된 것이 있으나 샘플화합물의 수가 적거나 특정 계열의 화합물들에만 ^한된 것들이 대부분이다. 그들 중 일부는 문헌 [Cherqaoui D., Villemin D., Mesbah A., Cense J . -M . , vasniccka V. , J. Chem. Soc. , Faraday Trans. , 1994, 90, 2015-2019; Balaban A. T. , Basak S. C. , Col burn T.; Grunwald G. D. , J. Chem. Inf. Comput. Sci. , 1994, 34(5), 1118-1121]에 그 모델과 결과들이 제시되어 있다.
도 1은 정상끓는점에 대한 다중선형회귀 -인공신경망 흔성 QSPR 모델을 구축하는 과정을 흐름도로 간략히 표현한 것이다.
모델을 구축하는데 있어서 가장 먼저 해야 할 일은 단계 1에 지정된 바와 같이 실험데이터를 수집하고 검토 분류하는 일이다. 본 발명을 위해 각종 논문과 단행본, 인터넷 사이트 등을 망라하여 참고할 수 있는 모든 문헌과 자료에 대한 광범위한 조사를 벌인 결과, 총 2332개의 본 발명의 조건에 맞는 화합물들에 대한 정상끓는점의 데이터가 수집되었다. 이렇게 수집된 데이터가 모델을 구축하는데 쓰일 수 있는 진정 타당한 값인지 다방면으로 검토하였는데 실험값이 아니거나 데이터 표기에 오류가 있었거나 동일 화합물에 대한 값들임에도 불구하고 차이가 많이 나거나 가까운 다른 화합물들의 값에 비해 신뢰하기 어려울 정도로 동떨어진 값이거나 분자표현자들에 대한 값들이 당장 준비되기 어려운 화합물에 대한 데이터인 경우 등에 대해 면밀한 분석을 거쳐 데이터를 수정 또는 삭제하여 최종적으로 총 2179개의 화합물들에 대한 데이터를 선정하였다. 또한 물성예측≤:델을 구축할 때, 샘플 화합물들을 탄소와 수소만으로 이루어진 탄화수소 (hydrocarbon)들과 그렇지 않은 비탄화수소 (nonhydrocarbon)들로 분류하여 따로따로 모델을 세우는 것이 예측성능의 측면에서 더 나았던 그간의 경험에 비추어 이를을 833개의 탄화수소들과 1346개의 비탄화수소들로 분류하여 각각 모델을 확립하였다. 본 발명에서 '유기화합물' 또는 '화합물' 은 수소 00, 탄소 (C), 질소 (N), 산소 (0), 황 (S) 등 5가지 이내의 원소로 구성되고, 수소를 제외한 원자의 개수가 25개 이하인 분자로 이루어진 물질을 지칭한다.
그 다음 단계는 이들 화합물들에 대한 분자표현자들의 값들을 준비하는 단계이다. 총 1978개에 달하는 다양한 분자표현자들에 대한 값들을 각 화합물들의 분자에 대한 정보를 담은 파일들로부터 컴퓨터를 이용하여 일괄적으로 계산한다. 분자의 전자구조 계산을 하기 위해서는 보통 순이론인 방법으로 슈뢰딩거 (Schrodinger) 방정식을 풀어 전자에너지에 대한 해를 구하게 되지만 전자가 많은 계의 경우 전자상관관계 (electron correlation)를 무시한 근사법을 적용한 하트리 -포크 (Hart ree-Fock, HF) 방법 [C.C. J. Roothan, Rev. Mod. Phys. 23, 69 (1951)]을 사용하여 해를 풀게 된다. 이런 근사법으로 인해 계산된 결과에서 근본적인 오차가 유발되어 다차원의 이론적인 섭동항을 추가한 포스트 하트리 -포크 (Post Hart ree-Fock) 방법 [C. Mo Her and M. S. Plesset, Phys. Rev. 46, 618 (1934)]을 사용하여 더 정확한 해를 구하긴 하지만 상대적으로 엄청나게 많은 계산량이 요구된다. 이런 방식으로는 큰 분자를 계산하기에는 비용이나 시간의 측면에서 무리가 있는 상황이다.
또한 하트리-포크와 포스트 하트리-포크를 조합한 가우시안 방법 [L. A. Curtiss, . Raghavachar i , G. W. Trucks , and J. A. Pople, J. Chem. Phys. 94, 7221 (1991); L. Ά. Curtiss, K. Raghavachar i , P. C. edfern, V. Rassolov, and J. A. Pople, J. Chem. Phys. 109, 7764 (1998)]은 에너지 예측에 있어 아주 적은 오차를 보이지만 여러 포스트 하트리ᅳ포크 방법에 대한 에너지 계산을 수행하기 때문에 더 많은 계산량이 요구된다.
많은 전자로 이루어진 분자에 대한 전자들간의 상관관계를 고려하기 위해 다차원의 섭동항이 추가된 파동함수 대신 전자 밀도함수를 써서 총에너지의 범함수를 이용해서 바닥상태를 구하는 밀도 범함수 이론 (density functional theory) [ . Seeger and J. A. Pople, J. Chem. Phys. 66, 3045 (1977)]을 적용하여 계산했다. 밀도 범함수 이론의 장점은 전자밀도만 고려하면 되므로 하트리 -포크 (Hartree— Fock) 방법과 비슷한 수준의 계산량으로 더 정확한 결과를 얻어낼 수 있다. 전자들의 교환-상관에너지를 계산을 위해 교환 범함수들과 상관 범함수들의 조합을 사용하여 계산량을 늘이지 않고도 더 향상된 결과를 얻고 있다.
최적의 양자역학 계산방법을 선발하기 위해 선행하여 시도하였던 계산이론은
'상기에 언급된 하트리 -포크 방법, 다양한 포스트 하트리 -포크 방법, 가우시안 (G2, G3) 방법, 다양한 범함수 조합의 밀도 범함수 이론 등이다. 이 중에서 계산사간 대비 가장 성능이 우수한 밀도 범함수 이론의 한가지 방법을 선발하였다. ·
따라서 본 발명에서는 상용 양자역학 계산 프로그램을 이용하여 지정된 밀도 범함수 이론의 계산방법을 적용하여 분자구조에 대한 최적화 및 진동수 계산을 수행하게 된다.
최적화된 구조에서는 상기와 물성정보뿐 만 아니라 분자의 특성을 반영하는 여러 의口ᅵ있는 수치로 나타내는 분자 표현자 (molecular descriptor)들을 얻을 수 있다. 2차원 구조의 특징을 표현할 수 있는 분자 표현자들도 있고 3차원 구조의 특징을 표현하는 분자 표현자들도 있다. 크게 나누어 총 24개의 범주로 나누고 각 범주에 상세한 표현자들을 포함한다. 분자 표현자 값을 계산한 후에 이들 중 적합하지 않은 것, 즉 모든 샘플 화합물에 대해 값이 동일하게 나와 모델의 독립변수가 될 수 없는 것들을 추려 내었다. 이는 관련 없는 분자표현자가 예측모델에 포함되는 것을 막아 모델의 신뢰도를 높이는 동시에 이렇게 분자표현자의 개수를 줄임으로써 최적 모델을 찾는 데 드는 계산 시간을 줄일 수 있기 때문이다.
단계 4에서는 샘플 화합물들을 예측모델을 탐색하는데 사용할 훈련집합 (training set)과 결정된 모델의 예측성능을 시험하는데 사용할 시험집합 (test set), 이렇게 두 부분으로 나누는 작업을 진행한다. 유사한 분자들이 한쪽 부분에만 치우쳐 분포하지 않도록 주의하면서 샘플 탄화수소들과 비탄화수소들을 5:5 ~ 8:2, 바람직하게는 6 대 4의 비율로 각각 나누었다.
이후 훈련집합을 토대로 최선의 다중선형회귀 QSPR 모델 (multiple linear regression QSPR model)을 찾는다. 여기서 '최선' 이라 함은 상대적인 의미로서 비교적 짧은 시간 내에 구할 수 있으면서 절대적인 의미에서의 최적 해에 매우 근접한 성능을 갖는다는 의미로 쓰여진 것이다. 최적 해를 직접 구하지 않는 이유는 긴 계산시간 때문인데 예를 들어 1978개의 분자표현자들 중 적합한 분자표현자들의 개수가 1700개일 때, 이 중에서 5개를 뽑아 만들 수 있는 서로 다른 다중선형회귀 QSPR 모델들의 총 개수는 (17 5 00) = ¾이며 이들을 다조사하는 것은 현실적으로 불가능하다.
한정된 시간 내에 유용한 결과를 얻기 위해 본 '발명에서는 유전적 알고리즘 (genetic algorithm) [Judson, "Genet ic Algorithms and Their Uses in Chemistry" , Reviews in Computational Chemistry, Li kowitz & Boyd, Eds. , Vol.10, pp.1-73 (VCH Publishers, NY, 1997)]을 채택하였으며 그 상세한 방법은 다음과 같다. 먼저 분자표현자들의 풀 (pool)에서 일정한 개수의 분자표현자들을 무작위로 뽑아 만든 다수의 다중선형회귀 QSPR 모델들로 구성된 개체군 (population)을 생성한다. 예를 들어 1700개의 적합한 분자표현자들 중 5개를 무작위로 뽑아 만든 1000개의 서로 다른 다중선형회귀 QSPR모델들로 개체군을 만들었다고 하자.
이때 염색체 (chromosome)라 불리는 각 개체 (individual )들은 뽑힌 분자표현자들의 번호들을 조합하여 부호화한다. 예를 들어 1700개의 분자표현자중 45, 167, 684, 1033, 1502번째의 분자표현자들로 형성한 다중선형회귀 QSPR 모델의 염색체는 (45, 167, 684, 1033, 1502)와 같이 표현할 수 있다. 이렇게 생성된 개체군으로부터 두 개의 부모 염색체를 선택한 뒤 교배 (crossover)하여 자식들을 만들어 내는데 본 발명에서는 부모 염색체를 선택하는 선택기법으로 Roulette Wheel 방법을 채택하였다.
Roulette Wheel 방법은 일반적으로 가장 많이 사용하는 선택 알고리즘으로 각 염색체의 적합도 (fitness)에 비례하는 만큼 를렛의 영역을 그 염색체에 할당한 다음, 를렛을 돌려 해당된 영역의 염색체를 선택하는 방법이다. 따라서 이 방법에서는 적합도가 높은 개체일수록 선택될 확률이 높다. 선택확률을 결정짓는 각 염색체의 적합도 계산에는 회귀모델의 결정계수 (coefficient of determination: R2 ) 또는 평균절대오차 (average absolute error: ME)를 활용하였다. 즉 결정계수값이 크거나 평균절대오차값이 작은 것이 선택확률이 높도록 하였다.
교배방법으로는 단순교배 (single point crossover )법을 채택하였는데 이는 가장 일반적인 교배 방법으로서 부모 염색체에서 임의로 1개의 교배점을 선택하여 그 지점 전후의 염색체부분을 서로 교환함으로써 자식을 생성하는 것을 말한다. 예를 들어 부모 염색체가 각각 (24, 262, 343, 789, 1290), (38, 454, 554, 1322, 1449)와 같이 주어지고 3번째와 4번째 요소 사이에 교배점이 놓이게 되면 자식 염색체는 각각 (24, 262, 343, 1322, 1449) , (38 454, 554, 789, 1290)와 같이 된다.
이렇게 자식들이 생성되면 이들의 염색체 일부를 일정 확률로 돌연변이 (mutation) 시키는 과정을 거치는데 이는 임의로 몇 개의 요소를 전혀 새로운 값으로 바꾸는 것으로 현재 집단에 존재하지 않는 새로운 정보로 초기 유전자 조합 이외의 공간을 탐색할 수 있게 해주어 초기 집합의 조, 내에 적절한 해가 없을 경우를 보완해주는 과정이다.
이 ·같은 방법으로 새로이 구해진 개체들로 기존 개체군의 일부 또는 전부를 교체하여 새 세대의 개체군을 생성한다. 이 과정을 반복하여 그 세대수가 미리 정한 값 (보통 10~1000사이에서 선택)에 이르면 가장 적합도가 큰 개체, 즉 예측성능이 가장 좋은 회귀모델을 선택하고 끝낸다.
일단 이렇게 최선의 다중선형회귀 QSPR 모델이 선정되면 다음 단계로 이 모델의 타당성을 검토한다. 만일 모델에 포함된 분자표현자의 통계학적 t검정값이 좋지 않다든지 하는 문제점이 발견되면 이전 단계로 돌아가 다른 모델을 찾는다. 예를 돌어 샘플 화합물의 수가 1005이고 선정된 모델이 5개의 분자표현자로 구성되어 있을 경우 그 중 한 분자표현자에 대한 통계학적 t검정값이 3.3이상이면 이는 이 분자표현자가 해당 물성과 무관할 확률이 0.1%이하임을 뜻한다. 본 발명에서는 대략 3미만의 통계학적 t검정값을 갖는 분자표현자가 존재할 경우 선정된 모델을 버리고 다른 모델을 찾았다. 또한 샘플 화합물들에 대한 한 분자표현자의 값들이 소수의 몇몇 화합물들을 제외하고는 모두 동일한 경우도 신뢰성 있는 모델이라고 볼 수 없어 마찬가지로 조처하였다. 일반적으로 모델에 포함되는 분자표현자의 개수를 늘리면 예측성능은 높아지지만 이와 같은 문제들이 발생하게 되므로 보통 최종 모델은 이 단계들을 분자표현자의 개수를 바꿔가며 여러 번의 시행착오를 거쳐 반복 수행함으로써 얻어진다. 선정된 모델에 더 이상 문제가 나타나지 않으면 다음 단계로 넘어간다 .
그 다음인 단계 7에서는 모델을 형성하는데 참여하지 않았던 시험집합을 이용하여 찾아낸 모델의 예측성능을 평가한다. 만일 훈련집합에서 보다 예측성능이 많이 떨어지거나 예측이 크게 벗어나는 샘플들이 보이는 등의 문제점이 발견되면 단계 4로 가서 훈련집합과 시험집합을 재조정한 뒤 이후 단계를 진행한다. 여기서 훈련집합과 시험집합의 차이가 훈련집합에 대해서 얻은 절대평균오차 (AAE)의 20%를 넘지 않으면 예측성능이 만족되는 것으로 판단한다.
이렇게 하여 정상끓는점에 대한 다중선형회귀 QSPR 모델이 일단 확립되면 인공신경망 QSPR 모델 을 확립하기 위해 먼저 분자표현자들의 데이터와 정상끓는점의 실험값 데이터를 표준화하는 작업, 즉 각 값에서 해당 데이터의 평균을 뺀 뒤 표준편차로 나누는 작업을 진행한다. 이렇게 준비된 전체 샘플을 대략 6:2:2의 비율로 훈련집합 (training set), 검증집합 (validation set), 시험집합 (test set)으로 나눈다.
이후 이들을 사용하여 최선의 인공신경망 QSPR 모델 을 탐색한다. 이때 탐색 범위는 도 2에서처럼 입력층과 출력층 사이에 한 개의 은닉층을 가지면서 이 3개 층이 전방향으로 (feed forward) , 즉 입력에서 출력으로 향하는 방향으로만 연결되어 있는 구조를 갖는 신경망으로 제한하였다. 입력층은 이미 확립되어 있는 다증선형회쉬 QSPR 모델에 포함된 각 분자표현자들의 값을 밉력 받는, 같은 개수만큼의 노드들로 구성하였으며 출력층은 임계부피를 출력하는 한 개의 노드로 구성하였다. 또한 은닉층의 활성화 함수로는 Sigmoid 함수 즉 f^x) = (1 + eᅳ X)-1을, 출력층의 활성화 함수로는 선형함수 즉 f x) = x를ᅳ채택하였다. 따라서 입력층의 각 노드들이 받는 입력값들을 1^12 ,.·., 1卜라 할 때 은닉층의 j번째 노드의 출력값은 Hj = (1 + exp
Figure imgf000104_0001
와 같이 주어지며 은닉층이 m 개의 노드로 이루어져 있을 때 출력층 출력노드의 최종 출력값은 0 = Τ +∑ί^νν' ijHi와 같이 주어진다. 여기서 T는 문턱 가중치 (threshold weight)를 의미한다. 탐색은 은닉노드의 수가 1개인 것부터 차례로 개수를 늘려가며 진행하는데 보통 입력노드 개수의 2배가 될 때까지 진행하지만 만족스러운 모델이 나오지 않을 경우 더 진행하여 탐색한다. 자세한 절차는 다음과 같다. 먼저 은닉노드의 각 개수 별로, 난수 발생 함수를 써서 생성한 가중치 T,wij(w' ij 들의 다양한 초기값세트 (보통 1000세트이내)를 마련하고, 훈련집합을 사용하여 각 세트로 초기화된 신경망을 역전파 알고리즘을 통해 반복 훈련함으로써 가중치 Τ,ν^, ν' 들의 최적화된 값을 찾는다. 최적화에 대한 판단은 매 훈련 후 경신된 가중치들의 값으로 정해지는 모델을 검증집합에 적용하였責 때 그 평균제곱오차 (mean square error)의 값이 최소가 되는 것으로 한다. 보통은 3000~5000번의 반복훈련 내에 이러한 시점이 나오게 된다. 이렇게 얻어진 각 초기값세트에 대웅하는 최적화된 신경망모델을 훈련집합, 검증집합, 시험집합에 각각 적용하여 그 평균제곱오차들이 모두 다중선형회귀 QSPR 모델의 그것들보다 작은 것만을 모은다. 이러한 것이 여러 개 있을 경우, 결정계수나 평균절대오차 등을 기준으로가장 우수한 모델을 선택한다.
이렇게 인공신경망 QSPR 모델 이 선정되면 마지막으로 과적합 (overfitting) 방지기준을 설정한다. 이는 과도한 훈련의 결과로 인공신경망이 미지의 입력에 대해 엉뚱한 답을 내놓는 불안정성을 개선하기 위한 조처로, 한 기준값 (탄화수소의 경우 10K, 비탄화수소의 경우 2510을 정하여 인공신경망 QSPR 모델 과 다중선형회귀 QSPR 모델의 예측값들 차이의 절대값이 기준값올 넘을 경우 다중선형회귀 QSPR 모델의 예측값을 채택하고 이보다 작을 경우 인공신경망 QSPR모델의 값을 채택하게 하는 것을 말한다.
이러한 과정을 거쳐 최종적으로 확립된 모델에 대한 결과는 표 2, 3에 간략히 나와 있다.
【표 2]
Figure imgf000105_0001
Figure imgf000106_0001
비탄화수소의 정상끓는점에 대한 QSPR 예측모델의 주요 내용
샘플화합물들의 개수 1346
분자표현자들의 개수 12
P1 : 거리행렬 평균 고유백터계수 합 (eigenvector coefficient sum from distance matrix)
P2: 황 원자의 수 (number of Sulfur atoms)
P3: Ar-NH2 / X-NH2 기능기 수 (Ar-NH2 / X-NH2)
분자표현자들의 이름 P4 : 수소결합의존적 수소결합 기부체 원자의 면적가중 표면전하 분율 (HA dependent HDCA-2/TMSA)
P5: 전기음성도 가중거리행렬 Balaban 타입 지수 (Balaban- type index from electronegativity weighted distance matrix)
Figure imgf000107_0001
널리 사용되는 기존의 두 그룹기여 모델 즉 Joback 모델 [Joback K. G. Reid R.C. , Estimation of pure-component properties from gr oup-cont r i but i ons , Chew. Eng. Comm. , 57 233 (1987).]과 Gani 모델 [Constant inou, L. , Gani R. , New Group Contr ibut ion Method for Estimating Properties of Pure Compounds , AIChE J., 40 1697 (1994).]의 예측성능을 실험값이 알려진 1786개의 화합물들의 데이터를 사용하여 비교하였다. 그 결과 Joback 모델은 1651개에 대해서만 예측값을 계산해주며 0.886368의 결정계수값과 49.96934 K의 평균절대오차값을 갖음을 알게 되었다. 또한 Gani 모델은 1557개에 대해서만 예측값을 계산해주며 0.939073의 결정계수값과 26.31419 K의 평균절대오차값을 갖음을 알게 되었다. 반면 본 발명의 QSPR은 1786개 전부에 대해 예측값을 계산해주며 0.953283의 결정계수값과 8.946833 K의 평균절대오차값을 가져 다른 두 모델보다 우수함을 알게 되었다. 패리티 도면은 기준이 되는 y=x 선에 예측값 (X축)에 대한 실험값 (Y축)을 표시한 것으로 만약 예측값과 실험값이 동일하다면 점은 y=x 선 위에 놓일 것이다. 회색의 세로줄 (I)은 실험 에러범위를 나타내며, 이는 다른 실시예에서도 마찬가지이다. 도 3, 4, 5는 각 모델의 예측성능을 보여주는 패리티 (parity) 도면들이며 이 도면들로부터 본 발명의 QSPR 모델이 다른 두 모델보다 우수한 성능을 가짐을' 눈으로 확인할 수 있다. 한편 언급한 1786개 화합물들에 대한 실험데이터 、 중 실험오차가 알려진 것들의 평균절대퍼센트오차는 약 4.5%이며 이보다 작은 1.5%의 값을 중심으로 실험값과 예측값 사이의 오차를 히스토그램으로 그린 것이 도 6, 7, 8이다. 히스토그램은 일치하는 정도를 나타내는 통계분석의 방법으로 중앙의 막대는 실험 오차 범위 내에 들어가는 예측값을 가진 분자의 비율올 나타내고, 증앙에 위치한 막대의 백분율은 일반적으로 예측정확도의 수준을 가리키며, 이 점 역시 다른 실시예에서도 마찬가지이다. 이 도면들은, Joback 모델은 64.68%, Gani 모델은 79.19%, 본 발명의 QSPR 모델은 93.95%의 확률로 평균 실험오차의 범위 이내로 정상끓는점의 값을 예측하고 있음을 보여주어 본 발명의 모델이 다른 두 모델보다 정확함을 증명해준다.
[실시예 1-2] 순수한 유기화합물의 표준상태의 이상기체 절대 엔트로피를 예측하는다중선형회귀 -인공신경망흔성 QSPR모델
본 실시예의 관심 물성인 표준상태의 이상기체 절대 엔트로피에 대해서도 현재까지 여러 예측모델들이 제안되었다. 표준상태의 이상기체 절대 엔트로피 (Standard State Absolute Entropy of Ideal Gas)라 함은 순수한 물질이 표준상태, 즉 298.15K (절대온도)와 lbar에 있을 때 이상기체 절대 엔트로피를 말한다. 표준상태의 이상기체 절대 엔트로피 예측에 대한 그간의 연구결과들은 문헌 [Poling B. E. , Prausnitz J. M. , 0' Connell J. P. The Properties of Gases and Liquids, (5 ed. ) . New York: McGraw Hill. (2000).]에 간략히 소개되어 있다. 현재 표준상태의 이상기체 절대 엔트로피를 예측하는 모델로 잘 알려지고 널리 쓰이는 것들은 주로 양자역학 계산이나 그룹기여 (group contribution) 방법을 이용한 것들이다. 양자역학 계산은 높은 차원의 계산을 수행할 경우, 정확도가 좋아지지만 계산에 많은 시간과 자원들이 필요하기 때문에 높은 차원의 계산을 수행하기 힘들다. 따라서 낮은 차원의 양자역학 계산을 많이 사용하게 되는데 낮은 차원의 양자역학 계산은 계산에 필요한 시간과 자원들을 절약할 수 있지만 정확도가 낮은 단점이 있다.
예측모델을 구축하는쩨 있어서 양자역학 계산의 대안이 될 수 있는 다른 방법들의 하나는 그룹기여 방법이다. 표 4는 그 동안 제안되었던 표준상태의 이상기체 절대 엔트로피 예측 방법들에 대한 주요한 그룹기여 모델들을 연도순으로 보여 주고 있다.
【표 4】
연도 제안자
1968 Benson
1969 Benson & Buss
1971 Thinh, T.-P. & Τ. Κ. Trong
1984 Joback
1994 Constant inou & Gani 1994 Domalski
1998 Benson
실시예 1-1에서 설명한 그룹기여 모델 및 QSPR 모델도 표준상태의 이상기체 절대 엔트로피 예측방법에 사용된 바 있으며, 실시예 1-1에서 설명한 종래기술의 문제점은 본 실시예에 대해서도 동일하게 존재하고 있다. 도 1의 단계 1에 지정된 바와 같이 실험데이터를 수집하고 검토 분류하는 일도 본 실시예에 동일하게 적용되나 물성의 종류 및 데이터 수치에만 차이가 있으며, 총 2540개의 화합물들에 대한 표준상태의 이상기체 절대 엔트로피의 데이터가 수집되었다. 최종적으로는 1312개의 화합물에 대한 데이터를 선정하였다. 나아가 도 1 및 도 2, 그리고 이와 관련된 실시예 1-1에서의 설명 역시 본 실시예에도 동일하게 적용되며 중복되는 설명은 생략한다. 다만 도 1의 단계 10에 기재된 '과적합 방지기준' 이 본 실시예에서는 (5 caZ/(moZ* 0 )가 된다. 이 같은 과정을 거쳐 표준상태의 이상기체 절대 엔트로피에 대한 QSPR 모델을 확립한 결과는 표 5에 간략히 나와 있다. 【표 5】
Figure imgf000110_0001
Figure imgf000111_0001
다중선형회귀 -인공신경망 흔성 QSPR 모델과 널리 사용되는 기존의 양자역학 계산 모델, 즉 밀도 범함수이론에 의한 예측성능을 실험값이 알려진 1233개의 화합물들의 데이터를 사용하여 비교하였다. 그 결과 양자역학 계산 . 모델은 0.987438의 결정계수값과 8.907853caZ/(moZ* C)의 평균절대오차값을 가짐을 알게 되었다. 반면 다중선형회귀 -인공신경망 흔성 QSPR 모델은 0.995693의 결정계수값과 1.73034 caZ/(mo * ΛΓ)의 평균절대오차값을 가져 기존 모델보다 우수함을 알게 되었다. 도 9, 10은 각 모델의 예측성능을 보여주는 패리티 (parity) 도면들이며 이 도면들로부터 '다중선형회귀- 인공신경망 흔성 QSPR 모델이 기존 모델보다 우수한 성능을 가짐을 눈으로 확인할 수 있다. 한편 1233개 화합물들에 대한 실험데이터 증 실험오차가 알려진 것들의 평균 오차는 약 3 cal/(mol * K) 이며 이보다 작은 1.5 caZ/(moZ*/0 의 값을 중심으로 실험값과 예측값 사이의 오차를 히스토그램으로 그린 것이 도 11, 12이다. 이 도면들은 양자역학 계산 모델은 44.28%, 다중선형회귀ᅳ인공신경망 흔성 QSPR 모델은 95.78%의 확률로 평균 실험오차의 범위 이내로 표준상태의 이상기체 절대 엔트로피값을 예측하고 있음을 보여주어 다중선형회귀 -인공신경망 흔성 QSPR 모델이 기존 모델보다 정확함을 증명해준다.
[실시예 1-3] 유기화합물의 이심인자를 예측하는 다중선형회귀 -인공신경망 흔성 QSPR모델
본 실시예의 관심 물성인 이심인자에 대해서도 현재까지 여러 예측모델들이 제안되었다. 이심인자 (acentric factor)라 함은 환산온도 값이 0.7에 해당하는 환산포화증기압력 값에서 정의되며, 즉, 다음과 같은 식으로 주어지고, 다른 물성의 예측에 자주 이용된다. .
Figure imgf000112_0001
이심인자의 예측에 대한 그간의 연구결과들은 문헌 [Poling B. E., Prausnitz J. M., 0' Conne 11 J. P., The Properties of Gases and Li quids (5 ed. J, New York, McGraw Hill, (2000).]에 간략히 소개되어 있다. 현재 이심인자를 예측하는 모델로 잘 알려지고 널리 쓰이는 것들은 주로 다른 물성 값들을 이용하는 관계식 모델이거나 그룹기여 (group contribution) 방법을 이용한 것들이다. 표 6은 그 동안 제안되었던 이심인자에 대한 주요한 예측 모델들을 연도순으로 보여 주고 있다.
【표 6】
연도 제안자
1973 Passut & Danner
1975 Leeᅳ Kesler
1984 Lin & Chao 1985 Watanasir i
1986 Edmister
1993 Chen
1993 Han & Peng
1995 Constant inou & Gani
1999 Homer & Genera lis & Robson
2008 Pazuki
2011 Ghar gheizi & Eslamimanesh & Moha画 adi
관계식 모델 중 Antoine 증기압 식을 이용한 Chen 모델 [Daniel H. Chen, Murty V. Dinivahi , Chang-Yuan Jeng, New Acentric Factor Correlation Based on the Antoine Equation, Ind. Eng. Chem. Res . , 1993, 32, 241- 244]은 이전에 제시된 Edmister 모델 [Edmister, W. C. Applied Hydrocarbon Thermodynamics, Part 4: Compress ibi 1 i ty Factors and Equations of State. Pet. Refin. 1938, 37, 173·]이나 Lee & Kesler 모델 [Kesler, M.; Lee, B. I.; Sandler , S. I. A Third Parameter for Use in General i zed Thermodynamic Correlations. Ind. Eng. Chem. Fundam . 1979, 18 (1) ,4 9.]을 발전시킨 모델로서 임계온도 Tc와 정상끓는점 Tb , 임계압력 을 이용해서 다음과 같은 식으로 이심인자를 예측했다.
_ 0.3(0.2803 + 0.4789 Tb/Tc) log Pc
ω = (1 - Tb/Tc) (0.9803 - 0.5211 Tb/Tc) 실시예 1-1에서 설명한 그룹기여 모델 및 QSPR 모델도 이심인자에 사용된 바 있으며, 다만 QSPR 예측모델에 대하여 특히 Richon과 그의 동료들은 그룹기여 모델에 인공신경망을 결부시킨 모델들을 제안하였는데 이 모델들은 각각 1709개, 1691개의 화합물을 대상으로 결정계수 0.987, 0.992 정도의 결과를 제시 하였다. 다만 그룹기여 모델을 기반으로 만들어져 있기 때문에 그룹기여 모델의 한계점을 그대로 가지고 있다. 실시예 1-1에서 설명한 종래기술의 문제점은 본 실시예에 대해서도 동일하게 존재하고 있다. 도 1의 단계 1에 지정된 바와 같이 실험데이터를 수집하고 검토 분류하는 일도 본 실시예에 동일하게 적용되나 물성의 종류 및 데이터 수치에만 차이가 있으며, 총 1862개의 화합물들에 대한 이심인자 데이터가 수집되었다. 최종적으로는 1859개의 화합물에 대한 데이터를 선정하였다. 또한 이를 737개의 탄화수소들과 1122개의 비탄화수소들로 분류하여 각각 모델을 확립하였다. 나아가 도 1 및 도 2, 그리고 이와 관련된 실시예 1-1에서의 설명 역시 본 실시예에도 동일하게 적용되며 중복되는 설명은 생략한다. 다만 도 1의 단계 10에 기재된 '과적합 방지기준' 이 본 실시예에서는 탄화수소의 경우 0.15, 비탄화수소의 경우 0.35가 된다. 이러한 과정을 거쳐 최종적으로 확립된 모델에 대한 결과는 표 7, 8에 간략히 나와 있다.
【표 7] 탄화수소의 이심인자에 대한 QSPR 예측모델의 주요 내용
샘폴화합물들의 개수 737
분자표현자들의 개수 10
Px: 수소원자의 평균 결합차수 (Average bond order of a H atom)
P2: 삼중결합의 수 (Number of triple bonds)
P3: 위상학적 전하 지수 차수 7 (topological charge index of order 7)
P4: 첫번째 Mohar지수 Til (first Mohar index Til)
P5 : Ghose-Crippen의 옥탄올ᅳ물 분배계수 (logP) (Ghose- 분자표현자들의 이름
Cr ippen octanol -water part it ion coefficient (l.ogP))
P6: 고리형 2차 sp3 탄소의 수 (number of ring secondary
C(sp3))
P7: 전자회절기반 3차원 분자구조 표현ᅳ차수 9/원자량 가중 (3D-MoRSE - signal 09 1 weighted by atomic masses) P8: Lipinski의 경고 지수 (Lipinski Alert index)
P9: 반데르발스 가중 거리 행렬 선두 고유값 (Leading
Figure imgf000115_0001
[표 8】
Figure imgf000115_0002
다중선형회귀 -인공신경망 흔성 QSPR 모델과 널리 사용되는 기존의 그룹기여 모델 즉 Gani 모델 [Constant inou, ᄂ. , Gani R., New Group Contribution Method for Estimating Properties of Pure Compounds , AIChE J., 40: 1697 (1994).]과 관계식 모델 Chen 모델의 예측성능을 실험값이 알려진 1840개의 화합물들의 데이터를 사용하여 비교하였다. 그 결과 Gani 모델은 1423개에 대해서만 예측값을 계산해주며 0.894366의 결정계수값과 0.05998의 평균절대오차값을 가지며 Chen 모델은 1825개에 대해서만 예측값을 계산해주며 0.409894의 결정계수값과 0.127998의 평균절대오차값을 갖음을 알게 되었다. 반면 본 발명의 다중선형회귀 -인공신경망 흔성 . QSPR 모델은 1840개 전부에 대해 예측값을 계산해주며 0.92936의 결정계수값과 0.046518의 평균절대오차값을 가져 다른 모델보다 우수함을 알게 되었다. 패리티 도면은 기준이 되는 y=x 선에 예측값 (X축)에 대한 실험값 (Y축)을 표시한 것으로 만약 예측값과 실험값이 동일하다면 점은 y=x 선 위에 놓일 것이다. 회색의 세로줄 (I)은 실험 에러범위를 나타낸다. 도 13, 14, 15는 각 모델의 예측성능을 보여주는 꽤리티 (parity) 도면들이며 이 도면들로부터 본 발명의 QSPR 모델이 다른 두 모델보다 우수한 성능을 가짐을 눈으로 확인할 수 있다. 한편 언급한 1840개 화합물들에 대한 실험데이터 중 평균절대퍼센트오차 1.5%의 값을 중심으로 실험값과 예측값 사이의— 오차를 히스토그램으로 그린 것이 도 16, 17, 18이다. 히스토그램은 일치하는 정도를 나타내는 통계분석의 방법으로 중앙의 막대는 실험 오차 범위 내에 들어가는 예측값을 가진 분자의 비율을 나타낸다. 중앙에 위치한 막대의 백분율은 일반적으로 예측정확도의 수준을 가리킨다. 이 도면들은, Gani 모델은 88.96%, Chen 모델은 77.58%, 본 발명의 QSPR 모델은 93.6«의 확를로 본 발명의 모델이 다른 두 모델보다 정확함을 증명해준다.
[실시예 1-4] 유기화합물의 임계압력을 예측하는 다중선형회귀 -인공신경망 흔성 QSPR모델
본 실시예의 관심 물성인 임계압력에 대해서도 현재까지 여러 예측모델들이 제안되었다. 임계압력 (Critical Pressure)이라 함은 순수한 물질이 임계상태, 즉 기체상과 액체상, 고체상의 상전이 현상에서 나타나는 특이점인 임계점에서의 압력을 말한다. 임계압력 예측에 대한 그간의 연구결과들은 문헌 [Poling B. E. , Prausnitz J. M. , 0' Connell J. P., The Properties of Gases and Li quids (5 ed.), New York, McGraw Hill , (2000).]에 간략히 소개되어 있다. 현재 임계압력을 예측하는 모델로 잘 알려지고 널리 쓰이는 것들은 주로 그룹기여 (group contribution) 방법을 이용한 것들이다. 표 9은 그 동안 제안되었던 임계압력에 대한 주요한 그룹기여 모델들을 연도순으로 보여 주고 있다.
【표 9】
Figure imgf000117_0001
1987 Joback & Re id
1994 Constant inou & Gani
1995 Tu
1996 Wi lson & Jasperson
1999 Marrero-Morejon & Pardi Π으 Fontdevi 1 la
2001 Marrer으 Morejon & Gani
2001 Wen & Quiang .
실시예 1-1에서 설명한 그룹기여 모델 및 QSPR 모델도 임계압력 예측방법에 사용된 바 씼으며 다만, 임계압력에 대한 QSPR 예측모델은 그다지 많이 제안되어 있지 않으며 제안된 것들도 샘플 화합물의 수가 많지 않거나 적용 대상이 특정 종류의 화합물에 제한되어 있는 단점이 있다. 문헌 [Srinivasa S. Godavarthy, Robert L. Robinson Jr., Khaled A.M. Gasem , Improved structure-property relat ionship mode 1 s for predict ion of critical properties, Fluid Phase Equilibria 264 (2008) 2?— Λ ]에는 1230개의 화합물에 대한 데이터를 이용하여 1.24bar의 절대평균오차, 0.951의 결정계수 (coefficient of determinat ion)값을 갖는 10개의 분자표현자를 사용한 모델이 보고되어 있다. 실시예 1-1에서 설명한 종래기술의 문제점은 본 실시예에 대해서도 동일하게 존재하고 있다. 도 1의 단계 1에 지정된 바와 같이 실험데이터를 수집하고 검토 분류하는 일도 본 실시예에 동일하게 적용되나 물성의 종류 및 데이터 수치에만 차이가 있으며, 총 1967개의 화합물들에 대한 임계압력 데이터가 수집되었다. 최종적으로는 1966개의 화합물에 대한 데이터를 선정하였다. 또한 이를 802개의 탄화수소들과 1164개의 비탄화수소들로 분류하여 각각 모델을 확립하였다. 나아가 도 1 및 도 2, 그리고 이와 관련된 실시예 1-1에서의 설명 역시 본 실시예에도 동일하게 적용되며 중복되는 설명은 생략한다. 이러한 과정을 거쳐 최종적으로 확립된 모델에 대한 결과는 표 10, 11에 간략히 나와 있다.
【표 10】
Figure imgf000119_0001
과적합 방지기준 40%
【표 11】
Figure imgf000120_0001
모델과 널리 사용되는 기존의 두 그룹기여 모델 즉 Joback 모델 [Joback K. G., Re id R.C. , Estimation of pure-component properties from groupᅳ contributions, Chem. Eng. Comm. , 57: 233 (1987).]과 Gani 모델 [Const ant inou, L. , Gani R. , New Group Contribution Method for Estimating Properties of Pure Compounds , AIChE J. , 40: 1697 (1994).]의 예측성능을 실험값이 알려진 1737개의 화합물들의 데이터를 사용하여 비교하였다. 그 결과 Joback 모델은 1642개에 대해서만 예측값을 계산해주며 0.95318 의 결정계수값과 1.55386bar의 평균절대오차값을 가짐을 알게 되었다. 또한 Gani 모델은 1541개에 대해서만 예측값을 계산해주며 0.946661의 결정계수값과 1.81649bar의 평균절대오차값을 가짐을 알게 되었다. 반면 본 발명의 QSPR 모델은 1737개 전부에 대해 예측값을 계산해주며 0.98935의 결정계수값과 0.826127bar의 평균절대오차값을 가져 다른 두 모델보다 우수함을 알게 되었다. 도 19, 20, 21은 각 모델의 예측성능을 보여주는 패리티 (parity) 도면들이며 이 도면들로부터 본 발명의 QSPR 모델이 다른 두 모델보다 우수한 성능을 가짐을 눈으로 확인할 수 있다. 한편 언급한 1737개 화합물들에 대한 실험데이터 중 실험오차가 알려진 것들의 평균절대퍼센트오차는 약 7.8%이며 이보다 작은 1.5%의 값을 중심으로 실험값과 예측값 사이의 오차를 히스토그램으로 그린 것이 도 22, 23, 2 이다. 이 도면들은, Joback 모델은 77.16%, Gani 모델은 70.99%, 본 발명의 QSPR 모델은 94.41%의 확률로 평균 실험오차의 범위 이내로 임계압력와 값을 예측하고 있음을 보여주어 본 발명의 모델이 다른 두 모델보다 정확함을 증명해준다 .
본 실시예 1-4의 임계압력은 대웅상태의 원리 (corresponding states principle)를 기반으로 상관관계를 통해 여러 다른 물성들의 값을 예측하고자 할 때 참조점을 제공해주는 중요한 물성이며, 본 실시예는 이 임계압력의 값을 높은 정확도로 얻는 효과를 제공한다.
[실시예 1-5] 유기화합물의 임계온도를 예측하는 다중선형회귀 -인공신경망 흔성 QSPR모델
본 실시예의 관심 물성인 임계온도에 대해서도 현재까지 여러 예측모델들이 제안되었다. 임계온도 (Critical Temperature)라 함은 순수한 물질이 임계상태, 즉 기체상과 액체상, 고체상의 상전이 현상에서 나타나는 특이점인 임계점에서의 온도를 말한다. 표 12는 그 동안 제안되었던 임계온도에 대한 주요한 그룹기여 모델들을 연도순으로 보여 주고 있다. 【표 12】
Figure imgf000122_0001
2001 Wen & Quiang
실시예 1-1에서 설명한 그룹기여 모델 및 QSPR 모델도 임계온도 예측방법에 사용된 바 있으며 다만, 임계온도에 대한 QSPR 예측모델은 그다지 많이 제안되어 있지 않으며 제안된 것들도 샘플 화합물의 수가 많지 않거나 적용 대상이 특정 종류의 화합물에 제한되어 있는 단점이 있다. 문헌 [Srinivasa S. Godavarthy, Robert L. Robinson Jr., Khaled A.M. Gasem, Improved structure-property relationship models for predict ion of critical properties, Fluid Phase Equilibria 264 (2008) 스 Z 6]에는 1230개의 화합물에 대한 데이터를 이용하여 16.1K의 절대평균오차, 0.913와 결정계수 (coefficient of determinat ion)값을 갖는 12개의 분자표현자를 사용한 모델이 보고되어 있다. 실시예 1-1에서 설명한 종래기술의 문제점은 본 실시예에 대해서도 동일하게 존재하고 있다.
도 1의 단계 1에 지정된 바와 같이 실험데이터를 수집하고 검토 분류하는 일도 본 실시예에 동일하게 적용되나 물성의 종류 및 데이터 수치에만 차이가 있으며, 총 2301개의 화합물들에 대한 임계압력 데이터가 수집되었다. 최종적으로는 1697개의 화합물에 대한 데이터를 선정하였다. 또한 이를 8이개의 탄화수소들과 896개의 비탄화수소들로 분류하여 각각 모델을 확립하였다.
나아가 도 1 및 도 2, 그리고 이와 관련된 실시예 1-1에서의 설명 역시 본 실시예에도 동일하게 적용되며 중복되는 설명은 '생략한다. 다만 도 1의 단계 10에 기재된 '과적합 방지기준' 이 본 실시예에서는 탄화수소의 경우 0K, 비탄화수소의 경우 70K가 된다. 이러한 과정을 거쳐 최종적으로 확립된 모델에 대한 결과는 표 13, 14에 간략히 나와 있다.
【표 13]
Figure imgf000124_0001
Figure imgf000125_0001
모델과 널리 사용되는 기존의 두 그룹기여 모델 즉 Joback 모델 [Joback K. G. , Re id R.C. , Estimation of pure-component properties from group- ■
contributions, Chew. Eng: Comm. , 57: 233 (1987).]과 Gani 모델 [Constant inou, ᄂ., Gani R., New Group Contribution Method for Estimating Properties of Pure Compounds , AIChE J. , 40: 1697 (1994).]의 예측성능을 실험값이 알려진 1558개의 화합물들의 데이터를 사용하여 비교하였다. 그 결과 Joback 모델은 1460개에 대해서맡 예측값을 계산해주며 0.439864의 결정계수값과 42.2932 K의 평균절대오차값을 가짐을 알게 되었다. 또한 Gani 모델은 1375개에 대해서만 예측값을 계산해주며 0.927955의 결정계수값과 16.9491 K의 평균절대오차값을 가짐을 알게 되었다. 반면 본 발명의 QSPR 모델은 1558개 전부에 대해 예측값을 계산해주며 0.985536의 결정계수값과 9.22645 K의 평균절대오차값을 가져 다른 두 모델보다 우수함을 알게 되었다. 도 25, 26, 27은 각 모델의 예측성능을 보여주는 패리티 (parity) 도면들이며 이 도면들로부터 본 발명의 QSPR 모델이 다른 두 모델보다 우수한 성능을 가짐을 눈으로 확인할 수 있다. 한편 언급한 1558개 화합물들에 대한 실험데이터 중 실험오차가 알려진 것들의 평균절대퍼센트오차는 약 3.6%이며 이보다 작은 1.5%의 값을 중심으로 실험값과 예측값 사이의 오차를 히스토그램으로 그린 것이 도 28, 29, 30이다. 이 도면들은, Joback 모델은 65.61%, Gani 모델은 86.25%, 본 발명의 QSPR 모델은 95.18%의 확률로 평균 실험오차의 범위 이내로 임계은도의 값을 예측하고 있음을 보여주어 본 발명의 모델이 다른 두 모델보다 정확함을 증명해준다. 본 실시예 1-5의 임계온도는 대응상태의 원리 (corresponding states principle)를 기반으로 상관관계를 통해 여러 다른 물성들의' 값을 예측하고자 할 때 참조점을 제공해주는 중요한 물성이며, 본 실시예는 이 임계온도의 값을 높은 정확도로 얻는 효과를 제공한다.
[실시예 1-6] 순수한 유기화합물의 임계부피를 예측하는 다중선형회귀- 인공신경망.흔성 QSPR모델
본 실시예의 관심 물성인 임계부피에 대해서도 현재까지 여러 예측모델들이 제안되었다. 임계부피 (critical V 飄 e)라 함은 순수한 물질이 임계상태, 즉 임계온도와 임계압력상태에 있을 때의 단위 질량당 부피를 말한다. 표 15는 그 동안 제안되었던 임계부피들에 대한 주요한 그룹기여 모델들을 연도순으로 보여 주고 있다.
【표 15】
Figure imgf000127_0001
실시예 1-1에서 설명한 그룹기여 모델 및 QSPR 모델도 임계부피 예측방법에 사용된 바 있으며 다만, 현재까지 임계부피에 대한 QSPR 예측모델은 그다지 많이 제안되어 있지 않으며 제안된 것들도 샘플 화합물의 수가 많지 않거나 적용 대상이 특정 종류의 화합물에 제한되어 있는 단점이 있다. 문헌 [Li S., Que H. , QSPR of Critical Volumes for Organic Compounds , http://en.cnki .com.cn/Article_en/CJFDT0TAL-HXGY200702 009.htm]에는
108개의 화합물에 대한 데이터를 이용하여 0.00001180 m3/m 의 표준오차, 0.9942의 결정계수 (coefficient of determinat ion)값을 갖는 4개의 분자표현자를 사용한 모델이 보고되어 있다. 실시예 1-1에서 설명한 종래기술의 문제점은 본 실시예에 대해서도 동일하게 존재하고 있다.
도 1의 단계 1에 지정된 바와 같이 실험데이터를 수집하고 검토 분류하는 일도 본 실시예에 동일하게 적용되나 물성의 종류 및 데이터 수치에만 차이가 있으며, 총 1414개의 화합물들에 대한 임계부피 데이터가 수집되었다. 최종적으로는 1257개의 화합물에 대한 데이터를 선정하였다. 또한 이를 631개의 탄화수소들과 626개의 비탄화수소들로 분류하여 각각 모델을 확립하였다.
나아가ᅳ도 1 및 도 2, 그리고 이와 관련된 실시예 1—1에서의 설명 역시 본 실시예에도 동일하게 적용되며 중복되는 설명은 생략한다. 다만 도 1의 단계 10에 기재된 '과적합 방지기준' 이 본 실시예에서는 탄화수소의 경우 100cm3/mol , 비탄화수소의 경우 50cm3/mol 가 된다. 이러한 과정을 거쳐 최종적으로 확랍된 모델에 대한 결과는 표 16, 17에 간략히 나와 있다.
【표 16】
Figure imgf000129_0001
【표 17】 . . 비탄화수소의 임계부피에 대한 QSPR 예측모델의 주요 내용
샘플 화합물들의 개수 626
분자표현자들의 개수 10
Pi: 원자 편극도의 합 (탄소원자로 조정) (sum of atomic polarizabi 1 ities (scaled on Carbon atom))
P2: 동경 분포 함수 -14.0/원자 반데르발스 부피 가중 (Radial Distribution Function - 14.0 / weighted by atomic van der Waals volumes)
P3: 위상거리 3 C-S 결합의 빈도 (frequency of C - S at topological distance 03)
P4: Broto-Moreau 의 위상구조 자기상관 -차수 5/원자 분자표현자들의 이름 Sanderson t 전기음성도 가중 (Broto—Moreau autocorrelation of a topological structure ᅳ lag 5 1 Weighted by atomic Sanderson electronegativities) P5: 신장 트리 개수 (로그값) (spanning tree number (log))
P6: Geary 의 자기상관ᅳ차수 2/원자 Sanderson 전기음성도 가중 (Geary autocorrelation 一 lag 2 / Weighted by atomic Sanderson electronegativities)
P7: V 총 크기 지수 /원자 전자위상 상태 가중 (V total
Figure imgf000130_0001
널리 사용되는 기존의 두 그룹기여 모델 즉 Joback 모델 [Joback . G., Reid R.C. , Estimation of pure-component properties from group-contributions, Chew. Eng. Co誦. , 57: 233 (1987).]과 Gani 모델 [Constant inou, L. , Gani . , New Group Contribution Method for Estimating Properties of Pure Compounds, AIChE J. , 40: 1697 (1994).]의 예측성능을 실험값이 알려진 1202개의 화합물들의 데이터를 사용하여 비교하였다. 그 결과 Joback 모델은 1141개에 대해서만 예측값을 계산해주며 0.994977의 결정계수값과 11.97672 n3/m 의 평균절대오차값을 가짐을 알게 되었다. 또한 Gani 모델은 1078개에 대해서만 예측값을 계산해주며 0.98648의 결정계수값과 19.38119cm3/m 의 평균절대오차값을 가짐을 알게 되었다. 반면 QSPR모델은 1202개 전부에 대해 예측값을 계산해주며 0.997486의 결정계수찼과 8.722653cm3/m 의 평균절대오차값을 가져 다른 두 모델보다 우수함을 알게 되었다. 도 31, 32, 33은 각 모델의 예측성능을 보여주는 패리티 (parity) 도면들이며 이 도면들로부터 QSPR 모델이 다른 두 모델보다 우수한 성능을 가짐을 눈으로 확인할 수 있다. 한편 1202개 화합물들에 대한 실험데이터 중 실험오차가 알려진 것들의 평균절대퍼센트오차는 약 5.8%이며 이보다 작은 1.5%의 값을 중심으로 실험값과 예측값 사이의 오차를 히스토그램으로 그린 것이 도 34, 35, 36이다. 이 도면들은, Joback 모델은 93.16%, Gani 모델은 83.02%, QSPR 모델은 95.34%의 확를로 평균 실험오차의 범위 이내로 임계부피 값을 예측하고 있음을 보여주어 본 발명의 모델이 다른 두 모델보다 정확함을 증명해준다.
본 실시예 1-6의 임계부피는 대응상태의 원리 (corresponding states principle)를 기반으로 상관관계를 통해 여러 다른 물성들의 값을 예측하고자 할 때 참조점을 제공해주는 중요한 물성이며, 본 실시예는 이 임계부피와값을 높은 정확도로 얻는 효과를 제공한다.
[실시예 1-7] 순수한 유기화합물의 이상기체의 생성 에너지를 예측하는 다중선형회귀 -인공신경망흔성 QSPR모델
본 실시예、는 수소 (H), 탄소 (C), 질소 (N), '산소 (0), 황 (S) 등 5 가지 이내의 원소로 구성되고 수소를 제외한 원자의 개수가 25개 이하인 분자로 이루어진 순수한 유기화합물의 이상기체의 생성 에너지 (Enthalpy of Formation for Ideal Gas at 298.15K)를 높은 정확도로 예측하는 수학적 모델을 제공한다. 위 모델은, 이상기체의 생성 에너지의 실험값이 알려져 있는 상기 조건을 만족하는 다수의 유기화합물들에 대해, 양자역학 계산에서 이상기체의 생성 에너지를 얻고 그 이후에 원자 별 흔성 오비탈의 종류를 나누고 각 오비탈 종류에 해당 개수와 그' 오비탈 종류에 할당된 계수의 곱으로 이상기체의 생성 에너지를 계산하는 것으로서, 양자역학 계산값을 다중선형회귀 QSPR 모델, 인공신경망 등으로 보정하는 방법이다.
본 발명의 관심 물성인 이상기체의 생성 에너지에 대해서도 현재까지 여러 예측모델들이 제안되었다. 이상기체의 생성 에너지 (Enthalpy of Formation for Ideal Gas at 298.15K)라 함은 순수한 물질이 298.15K (절대온도)에 있을 때의 이상기체 생성 에너지를 말한다. 이상기체의 생성 에너지 예측 '에 대한 그간의 연구결과들은 문헌 [Poling B. E. , Prausnitz J. M., 0' Connell J. P. The Properties of Gases and Li quids, . 5 ed . ) . New York: McGraw Hill. (2000).]에 간략히 소개되어 있다. 현재 이상기체의 생성 에너지를 예측하는 모델로 잘 알려지고 널리 쓰이는 것들은 주로 그룹기여 (group contribution) 방법과 양자역학 계산을 이용한 것들이다. 표 18은 그 동안 제안되었던 이상기체의 생성 에너지 예측 방법들에 대한 주요한 그룹기여 모델들을 연도순으로 보여 주고 있다.
【표 18】
Figure imgf000132_0001
실시예 1-1에서 설명한 그룹기여 모델도 이상기체 생성에너지 예측방법에 사용된 바 있으며 그룹기여 방법의 대안이 될 수 있는 다른 방법들의 하나는 양자역학 계산방법이 있다. 하지만 양자역학 계산방법은 높은 차원의 계산을 행하는 경우, 정확한 예측값을 계산해주는 대신 계산 시간이 너무 많이 걸리는 큰 단점이 있다. 따라서 적절한 수준의 양자역학 계산방법을 시행한 후에 높지 않은 수준의 양자역학 계산으로 인해 발생하는 예측값의 오차를 보정하는 방법을 선택하였다. 양자역학 계산의 오차를 보정하는 방법은 QSPR(quantitative structure-property relationship) 방법을 사용했다. 원자 내에 흔성 오비탈 종류를 분자표현자로 사용하게 된 것은 A0MG(Atomic Orbital Molecular Graph) 분자표현자에서 얻은 아이디어를 변형한 방식으로 원자 별 흔성 오비탈의 종류에 따라 이상기체의 생성 에너지에 기여하는 에너지가 달라질 것이라는 발상을 적용했다. A0MG패턴에 대한 자세한 설명은 후술하겠다.
이상기체의 생성 에너지에 대한 A0MG 분자표현자를 이용한 QSPR 예측모델은 많이 제안되어 있지 않으며 제안된 것들도 샘플 화합물의 수가 많지 않거나 적융 대상이 특정 계열의 화합물에 제한되어 있는 단점이 있다. 문헌 [Andres Mercader , Eduardo A. Castro, Andrey A. Toropov QSPR modeling of the enthalpy of formation from elements by means of correlat ion weighting of local invariants of atomic orbital molecular graphs. Chemical Physics Letters 330 (2000) 612-623]에는 65개의 화합물에 대한 데이터를 이용하여 0.99102의 결정계수 (coefficient of determination)값을 갖는 모델이 보고되어 있다. 실시예 1-1에서 설명한 종래기술의 문제점은 본 실시예에 대해서도 동일하게 존재하고 있다. 우리는 이상기체의 생성 에너지에 대한 양자역학적 계산의 토대 위에 보다 많은 실험데이터를 바탕으로 보다 다양한 분자표현자들을 고려한 다중선형회귀 QSPR모델을 구축함으로써 이 목표를 달성하였다. '
도 1의 단계 1에 지정된 바와 같이 실험데이터를 수집하고 검토 분류하는 일도 본 실시예에 동일하게 적용되나 물성의 종류 및 데이터 수치에만 차이가 있으며, 총 4887개의 화합물들에 대한 이상기체의 생성 에너지 데이터가 수집되었다. 최종적으로는 2041개의 화합물에 대한 데이터를 선정하였다. 또한 물성예측모델을 구축할 때, 샘플 화합물들을 순수한 분자와 라디칼을 포함한 분자로 분류하여 따로따로 모델을 세우는 것이 예측성능의 측면에서 더 나았던 그간의 경험에 비추어 진행했다. 그리고 탄소와 수소만으로 이루어진 탄화수소 (hydrocarbon)들과 그렇지 않은 비탄화수소 (nonhydrocarbon)들로 분류하여 따로따로 모델을 세우는 것이 예측성능의 측면에서 더 나았던 그간의 경험에 비추어 진행했다. 그래서 이들을 524개의 라디칼을 포함한 분자들과 663개의 탄화수소들, 854개의 비탄화수소들로 분류하여 모델을 확립하기로 하였다. 또한 라디칼 센터가 포함된 분자들 중에서 공명구조와 라디칼 센터간의 상호작용이 ,있는 분자와 단순히 라디칼 센터가 포함된 분자로 분류해서 따로 모델을 세우는 것이 예측의 정확도를 높일 수 있어서 두 그룹으로 분류하여 진행했다. 본 발명에서 '유기화합물' 또는 '화합물' 은 수소 (H), 탄소 (C), 질소 (N), 산소 (0), 황 (S) 등 5가지 이내의 원소로 구성되고, 수소를 제외한 원자의 개수가 25개 이하인 분자로 아루어진 물질을 지칭한다. 그 다음은 이들 화합물들에 대한 양자역학 계산으로 예측값들을 준비하는 단계는 실시예 1-1 과 동일하며, 본 실시예에서는 상용 양자역학 계산 프로그램을 이용하여 지정된 밀도 범함수 이론의 계산방법을 적용하여 분자구조에 대한 최적화 및 진동수 계산을 수행하게 된다.
다음으로는 양자역학 계산의 오차를 보정할 A0M 을 준비하는 단계이다. 우선 순수한 분자로 구성된 화합물들의 흔성 오비탈의 종류를 나누는 작업부터> 설명하겠다. 우리가 다루고 있는 대상 분자들은 C, H, N, 0, S 로만 구성되어 있으므로 일반적인 유기화합물의 구성 원자와 결합 형태의 조합은 도 37, 38에 나와있는 것과 같다. 도 38의 패턴은 분자 내 탄소, 질소, 산소 원자의 공유 결합 내에 포함된 패턴들이다. 공유결합의 유무는 분자의 전체 에너지에 특별한 안정화를 가져음으로 이 또한 분자 내 원자 각각이 에너지에 기여하는 분리 패턴이다. 따라서 C, H, N, 0, S 만으로 구성된 분자들 모두에 대해서 17종의 A0MG 패턴을 정의할 수 있다. 이 17개의 A0MG 패턴은 순수한 분자 화합물 모두에 적용되며, 라디칼 센터를 가지는 분자 화합물은 도 38에 나와있는 공유 결합 내에서 나타날 수 있는 A0MG패턴 중 C5 패턴만 포함한 15개의 A0MG 패턴을 적용한다. 여기까지의 예측 성능을 본 결과, 순수한 분자 '중 탄화수소들은 상당히 좋은 성능을 내는 것으로 나타나서 이후의 과정은 진행하지 않았다. 그리고 비탄화수소들과 라디칼 센터와 공명구조의 상호작용이 없는 분자들에 대한 예측 성능은 만족할 수준은 아니지만 좋은 예측 성능을 보였다. 따라서 분자표현자들을 추가하는 것보다 인공신경망 (neural network)을 이용하여 분자표현자들과 예측 물성 간의 비선형성을 고려하여 예측 성능을 높이는 방향으로 진행했다 .
그 다음 단계는 공명구조와 라디칼 센터와의 상호작용이 있는 화합물들에 대한 분자표현자들의 값들을 준비하는 단계이다. 이 문서는 앞 단계인 양자역학 계산하는 부분과 A0MG 패턴에 대한 값들을 계산하는 부분을 통칭해서 분자표현자들의 값을 준비하는 단계로 한다. 총 1978개에 달하는 다양한 분자표현자들에 대한 값들을 각 화합물들의 분자에 대한 정보를 담은 파일들로부터 컴퓨터를 이용하여 일괄적으로 계산하였으며 이어서 이들 중 적합하지 않은 것, 즉 모든 샘플 화합물에 대해 값이 동일하게 나와 모델의 독립변수가 될 수 없는 것들을 추려 내었다. 이는 이렇게 분자표현자의 개수를 줄임으로써 최적 모델을 찾는 데 드는 계산 시간을 줄일 수 있기 때문이다. 단계 4에서는 샘풀 화합물들을 예측모델을 탐색하는데 사용할 훈련집합 (training set)과 결정된 모델의 예측성능을 시험하는데 사용할 시험집합 (test set), 이렇게 두 부분으로 나누는 작업올 진행한다. 이 모델에서 사용할 샘플 화합물의 집합은 크게 나누면 라디칼 센터를 가진 것과 라디칼 센터가 없는 순수한 비탄화수소 분자로 나눴다. 그리고 라디칼 센터를 가지는 분자들은 라디칼 센터와 공명구조 상호작용이 있는 구조와 없는 구조로 나누었다. 위 3가지 샘플 화합물 집합을 각각 유사한 분자들이 한쪽 부분에만 치우쳐 분포하지 않도록 주의하면서 훈련집합과 시험집합을 5:5 ~ 8:2, 바람직하게는 6 대 4의 비율로 나누었다. 이후 훈련집합 중 라디칼 센터와 공명구조 간의 상호작용을 가지는 분자들에 대한 훈련집합을 토대로 유전적 알고리즘 (genetic algorithm) [Judson, "Genet ic Algorithms and Their Uses, in Chemistry" , Reviews in Comput at i ona 1 Chemistry, Lipkowitz & Boyd, Eds., Vol .10, p .1-73 (VCH Publishers, NY, 1997)]을 통하여 최선의 다증선형회귀 QSPR 모델 (multiple linear regression QSPR model)을' 찾는다. 이후 단계 7까지는 실시예 1-1과 동일하게 진행되고, 표준생성 에너지에 대한 3가지 샘플 화합물 집합 (공명구조와 라디칼 센터 상호작용이 있는 그룹, 공명구조와 라디칼 센터 상호작용이 없는 그룹, 비탄화수소 그룹)의 다중선형회귀 QSPR 모델이 일단 확립되면 인공신경망 QSPR 모델 을 확립하기 위해 먼저 분자표현자들의 데이터와 표준생성 에너지의 실험값 데이터를 표준화하는 작업, 즉 각 값에서 해당 데이터의 평균을 뺀 뒤 표준편차로 나누는 작업을 진행한다. 이렇게 준비된 전체 샘플을 대략 6:2:2의 비율로 훈련집합 (training set), 검증집합 (val idat ion set), 시험집합 (test set)으로 나눈다. 이후 최선의 인공신경망 QSPR 모델 을 탐색하는 단계 역시 실시예 1ᅳ1과 동일하게 진행된다. 이 같은 과정을 거쳐 최종적으로 확립된 모델에 대한 결과는 표 19, 20, 21, 22에 간략히 나와 있다. 【표 19】 탄화수소의 이상기체의 생성 에너지에 대한 QSPR 예측모델의 주요 내용
샘플 화합물들의 개수 663
Figure imgf000138_0001
β g아 g g_ ^분분분분분분분분분
【표 20] 자자자자자자자자자 비탄화수소의 이상기체의 생성 에너지에 대한 QSPR 예측모델의 주요 내용 샘플 화합물들의 개수 854
분자표현자들의 개수 12
P1 : 양자역학 이상기체의 생성 에너지 (Enthalpy of Format ion for Ideal Gas at 298.15K from quantum mechanics)
P2 : 원자 궤도함수 그래프 (Atomic Orbital Molecular Graph) 패턴
P3 : 원자 궤도함수 그래프 (Atomic Orbital Molecular Graph) 패턴
P4 : 원자 궤도함수 그래프 (Atomic Orbital Molecular Gr ph) 패턴
P5 : 원자 궤도함수 그래프 (Atomic Orbital 분자표현자들의 이름
Molecular Graph) 패턴 - P6 : 원자 궤도함수 그래프 (Atomic Orbital Molecular Graph) 패턴 - P7 : 원자 궤도함수 그래프 (Atomic Orbital Molecular Graph)패턴 - P8 : 원자 궤도함수 그래프 (Atomic Orbital Molecular Graph) 패턴
P9 : 원자 궤도함수 그래프 (Atomic Orbital Molecular Graph) 패턴
P10 : 원자 궤도함수 그래프 (Atomic Orbital
Figure imgf000139_0001
공명구조와 라디칼 센터간의 상호작용을 가지 않는 분자의 이상기체의 생성 에너지에 대한 QSPR 예측모델의 주요 내용
샘플 화합물들의 개수 358
분자표현자들의 개수 15
P1 : 양자역학 이상기체의 생성 에너지 (Enthalpy of Format ion for Ideal Gas at 298.15 from quantum mechanics)
P2 : 원자 궤도함수 분자 그래프 (Atomic Orbital Molecular Graph) 패턴 HI
P3 : 원자 궤도함수 분자 그래프 (Atomic Orbital Molecular Graph) 패턴 C2
P4 : 원자 궤도함수 분자 그래프 (Atomic Orbital Molecular Graph) 패턴 C3
P5 : 원자 궤도함수 분자 그래프 (Atomic Orbital Molecular Graph) 패턴 C4
분자표현자들의 이름
P6 : 원자 궤도함수 분자 그래프 (Atomic Orbital Molecular Graph) 패턴 C5
P7 : 원자 궤도함수 분자 그래프 (Atomic Orbital Molecular Graph) 패턴 Nl
P8 : 원자 궤도함수 분자 그래프 (Atomic Orbital Molecular Graph) 패턴 N2
P9 : 원자 궤도함수 분자 그래프 (Atomic Orbital Molecular Graph) 패턴 N3
P10 : 원자 궤도함수 분자 그래프 (Atomic Orbital Molecular Graph) 패턴 01
Pn : 원자 궤도함수 분자 그래프 (Atomic Orbital
Figure imgf000140_0001
공명구조와 라디칼 센터간의 상호작용을 분자의 이상기체의 에너지에 대한 QSPR 예측모델의 주요 내용
샘플 화합물들의 개수 524
분자표현자들의 개수 16
?1 : 양자역학 이상기체의 생성 에너지 (Enthalpy of Format ion for Ideal Gas at 298.15K from quantum mechanics)
P2 : 원자 궤도함수 분자 그래프 (Atomic Orbital
Molecular Graph) 패턴 C2
P3 : 원자 궤도함수 분자 그래프 (Atomic Orbital Molecular Graph) 패턴 C3
P4 : 원자 궤도함수 분자 그래프 (Atomic Orbital Molecular Graph) 패턴 C4
분자표현자들의 이름 P5 : 원자 궤도함수 분자 그래프 (Atomic Orbital
Molecular Graph) 패턴 C5
P6 : 원자 궤도함수 분자 그래프 (Atomic Orbital Molecular Graph) 패턴 N2
P7 : 원자 궤도함수 분자 그래프 (Atomic Orbital Molecular Graph) 패턴 N3
P8 : 원자 궤도함수 분자 그래프 (Atomic Orbital Molecular Graph) 패턴 01
P9 : 원자 궤도함수 분자 그래프 (Atomic Orbital Molecular Graph) 패턴 02
Figure imgf000141_0001
다중선형회귀 -인공신경망 흔성 QSPR 모델과 널리 사용되는 기존의 그룹기여 모델 즉 Joback[Joback K. G., Re id R.C. , Estimation of pure-component properties from group—contributions, Chem. Eng. Comm. , 57: 233 (1987).]과 Gani [Constant inou, ᄂ., Gani R. , New Group Contr ibut ion Method for Estimating Properties of Pure Compounds , AIChE J. , 40: 1697 (1994).]의 예측성능을 실험값이 알려진 1535개의 화합물들의 데이터를 사용하여 비교하였다. 그 결과 Joback 모델은 1407개에 대해서만 예측값을 계산해주며 0.985271의 결정계수값과 3.767342 fccaZ/moZ의 평균절대오차값을 가짐을 알게 되었다. 또한 Gani 모델은 1318개에 대해서만 예측값을 계산해주며 0.991044의 결정계수값과 2.625788 kcal/m 의 평균절대오차값을 가짐을 알게 되었다. 반면 다증선형회귀 -인공신경망 흔성 QSPR 모델은 1535개 전부에 대해 예측값을 계산해주며 0.996184의 결정계수값과 1.892175kcal/m 의 평균절대오차값을 가져 다른 두 모델보다 우수함을 알게 되었다. 도 39, 40, 41은 각 모델의 예측성능을 보여주는 패리티 (parity) 도면들이며 이 도면들로부터 다중선형회귀 -인공신경망 흔성 QSPR 모델이 다른 두 모델보다 우수한 성능을 가짐을 눈으로 확인할 수 있다. 한편 1535개 화합물들에 대한 실험데이터 중 실험오차가 알려진 것들의 평균 오차는 약 이며 이 값을 증심으로 실험값과 예측값 사이의 오차를 히스토그램으로 그린 것이 도 42, 43, 44이다. 이 도면들은 Joback 모델은 78.53%, Gani 모델은 90.2 , 다중선형회귀 -인공신경망 흔성 QSPR 모델은 94.39%의 확률로 평균 실험오차의 범위 이내로 이상기체의 생성 에너지값을 예측하고 있음을 보여주어 다중선형회귀 -인공신경망 흔성 QSPR 모델이 다른 두 모델보다 정확함올 증명해준다. 또한 실험값이 알려진 294개의 라디칼 화합물들의 데이터를 사용하여 도 45에 비교하여 보여주었고 그 결과 Joback모델과 Gani 모델은 라디칼 화합물에 대해서는 계산해주지 못하지만 다중선형회귀 -인공신경망 흔성 QSPR 모델은 294개 전부에 대해 예측값을 계산해주며 0.991216의 결정계수값과 2.5950625 kcal/m 의 평균절대오차값을 가져 다른 두 모델보다 우수함을 알게 됨을 알게 되었다. 그리고 도 46에서 라디칼 화합물의 다중선형회귀 -인공신경망 흔성 QSPR 모델은 87.75%의 확률로 평균 실험오차의 범위 이내로 이상기체의 생성 에너지값을 예측하고 있음을 보여주어 다중선형회귀 -인공신경망 흔성 QSPR 모델이 다른 두 모델보다 정확함을 증명해준다.
[실시예 1-8] 순수한 유기화합물의 융해열을 예측하는 다중선형회귀- 인공신경망흔성 QSPR모델 본 실시예의 관심 물성인 융해열에 대해서도 현재까지 여러 예측모델들이 제안되었다. 융해열 (enthalpy of fusion at melting point)이라 함은 순수한 물질이 1기압하에서 녹을 때 필요한 에너지, 즉 고체에서 액체로 상전이 될 때 필요한 에너지를 말한다. 표 23은 그 동안 제안되었던 융해열에 대한 주요한 그룹기여 모델들을 연도순으로 보여 주고 있다.
[표 23】
Figure imgf000143_0001
실시예 1-1에서 설명한 그룹기여 모델 및 QSPR 모델도 융해열 예측방법에 사용된 바 있으며, 실시예 1-1에서 설명한 종래기술의 문제점은 본 실시예에 대해서도 동일하게 존재하고 있다.
도 1의 단계 1에 지정된 바와 같이 ,실험데이터를 수집하고 검토 분류하는 일도 본 실시예에 동일하게 적용되나 물성의 종류 및 데이터 수치에만 차이가 있으며, 총 1267개의 화합물들에 대한 융해열의 데이터가 수집되었다. 최종적으로는 1265개의 화합물에 대한 데이터를 선정하였다. 또한 이를 458개의 탄화수소들과ᅳ 807개의 비탄화수소들로 분류하여 각각 모델을 확립하였다.
나아가 도 1 및 도 2, 그리고 이와 관련된 실시예 1-1에서의 설명 역시 본 실시예에도 동일하게 적용되며 중복되는 설명은 생략한다. 다만 도 1의 단계 10에 기재된 '과적합 방지기준' 이 본 실시예에서는 탄화수소의 경우 1.7 비탄화수소의 경우 5.6 kcal/mol 가 된다. 이 한 과정을 거쳐 최종적으로 확립된 모델에 대한 결과는 표 24, 25에 간략히 나와 있다. 【표 24】 、
Figure imgf000144_0001
Figure imgf000144_0002
Sanderson 전기음성도 가중 (3D-MoRSE - signal 06 / weighted by atomic Sanderson electronegativities)
P3 0..0간 위상학적 거리의 합 (sum of topological distances between 0..0)
P4: 알코올의 수 (alcohol)
P5: A1-NH2 기능기의 수 (A1-NH2)
P6 Kier의 개선된 알파기반 두 경로 형상지수 (2-path Kier al ha-modi f ied shape index)
P7 Burden 행렬의 최저 고유값 7/원자 Sanderson 전기음성도 가중 (lowest eigenvalue n. 7 of Burden matrix 1 weighted by atomic Sanderson electronegativities)
P8: Lipinski의 경고지수 (Lipinski Alert index)
P9: 분자 내 수소결합의 수 (number of intramolecular H- bonds )
P10 : 쌍극자모멘트 가중 모서리 인접행렬 고유값 7 (Eigenv lue 07 from edge adjacency matrix weighted by di ole moments)
회귀모델 결정계수 0.8753
회귀모델 ME 0.73118 kcal/mol
회귀모델 융해열 = c0 +∑ CiPi
인공신경망 결정계수 0.9247
인공신경망 AAE 0.584678 kcal/mol
인공신경망 QSPR
ᄆ cfl 융해열 = T + w (l + exp (-T -∑^ WijPi))"1
과적합 방지기준 5.6 kcal/mol
본 발명이 기존 기술보다 우월함을 보이기 위해 이렇게 확립된 QSPR 모델과 널리 사용되는 기존의 그룹기여 모델 즉 Joback 모델 [Joback K. G. , Re id R.C. , Estimation of pure-component properties from groupᅳ contr i but ions Chew. Eng. Comm. , 57: 233 (1987).]의 예측성능을 실험값이 알려진 1189개의 화합물들의 데이터를 사용하여 비교하였다. 그 결과 Joback 모델은 1093개의 화합물에 대해서 0.85962의 결정계수값과 0.889623 kcal/n l의 평균절대오차값을 가짐을' 알게 되었다. 반면 본 발명의 QSPR 모델은 1189개의 화합물에 대해서 0.96352의 결정계수값과 0.50397 kcal/mol의 평균절대오차값을 가져 Joback 모델보다 우수함을 알게 되었다. 도 47, 48은 각 모델의 예측성능을 보여주는 패리티 (parity) 도면들이며 이 도면들로부터 본 발명의 QSPR 모델이 Joback 모델보다 우수한 성능을 가짐을 눈으로 확인할 수 .있다. 한편 언급한 1189개 화합물들에 대한 실험데이터 중 실험오차가 알려진 것들의 평균절대오차는 약 1.5 kcal/mol 이며 이보다 작은 lkcal/mol의 값을 중심으로 실험값과 예측값 사이의 오차를 히스토그램으로 그린 것이 도 49, 50이다. 이 도면들은, Joback 모델은 86.27%, 본 발명의 QSPR 모델은 96.55)의 확률로 평균 실험오차의 범위 이내로 융해열의 값을 예측하고 있음을 보여주어 본 발명의 모델이 기존 모델보다 정확함을 증명해준다.
[실시예 1-9] 순수한 유기화합물의 298.15K에서의 포화액체밀도을 예측하는 다중선형회귀 -인공신경망흔성 QSPR모델
본 실시예의 관심 물성인 298.15K에서의 포화액체밀도에 대해 현재까지 제안된 예측모델은 그다지 많지 않다. 포화액체밀도 (saturated liquid density)라 함은 순수한 물질이 포화상태, 즉 밀폐된 용기 속에서 기체상태와 액체상태가 평형을 이루며 공존하는 상태에 있을 때 단위 부피당 액체의 양을 말한다. 298.15K에서의 포화액체밀도를 예측하는 잘 알려진 모델은 문헌 [Constant inou L. , Gani R. , 0' Connell J. P., Fluid Phase Equil. , 103: 11 (1995).]에 소개되어 있다. 이 모델은 298.15K에서의 포화액체밀도의 역수인 298.15K에서의 액체몰부피 (liquid molar volume)를 예측하는 모델로 312개의 화합물에 대한 실험데이터를 바탕으로 그룹기여 (group contribution) 방법을 이용하여 구축된 것이다. 실시예 1-1에서 설명한 그룹기여 모델 및 QSPR 모델도 298.15K에서의 포화액체밀도 예측방법에 사용된 바 있으며, 실시예 1-1,에서 설명한 종래기술의 문제점은 본 실시예에 대해서도 동일하게 존재하고 있다.
도 1의 단계 1에 지정된 바와 같이 실험데이터를 수집하고 검토 분류하는 일도 본 실시예에 동일하게 적용되나 물성의 종류 및 데이터 수치에만 차이가 있으며, 총 2732개의 화합물들에 대한 298.15K에서의 포화액체밀도의 데이터가 수집되었다. 최종적으로는 1243개의 화합물에 대한 데이터를 선정하였다. 또한 이를 449개의 탄화수소들과 794개의 비탄화수소들로 분류하여 각각 모델을 확립하였다.
나아가 도 1 및 도 2, 그리고 이와 관련된 실시예 1-1에서의 설명 역시 본 실시예에도 동일하게 적용되며 중복되는 설명은 생략한다. 다만 도 1의 단계 10에 기재된 '과적합 방지기준' 이 본 실시예에서는 탄화수소의 경우 500mol/m3 , 비탄화수소의 경우 3000mol/m3 가 된다. 이러한 과정을 거쳐 최종적으로 확립된 모델에 대한 결과는 표 26, 27에 간략히 나와 있다.
[표 26】
Figure imgf000147_0001
Figure imgf000148_0001
【표 27】 비탄화수소의 298.15K에서의 포화액체밀도에 대한 QSPR 예측모델의 주요 내용 샘플화합물들의 개수 794
분자표현자들의 개수 15 -
I : 지렛대 가증 자기상관 차수 1/원자 반데르발스 부피 가중 ( lever age一 weighted autocorrelation of lag 1 1 Weighted by atomic van der Waals volumes)
P2 : 상대적 양전하 표면적 (RPCS Relative . positive charged SA (SAMP0S*RPCG))
P3 : 거리행렬 평균 고유백터계수 합 (average eigenvector 분자표현자들의 이름
coefficient sum from distance matr ix_
P4 : 지렛대 가중 자기상관 차수 1/원자 Sanderson 전기음성도 가중 ( leverage— weighted autocorrelation of lag 1 1 Weighted by atomic Sanderson electronegativit ies)
P5: 황 원자의 수 (Number of S atoms)
Figure imgf000149_0001
널리 사용되는 기존의 그룹기여 모델 즉 Gani 모델 [Constant inou, L. , Gani R., New Group Contribution Method for Estimating Properties of Pure Compounds , AIChEJ., 40: 1697 (1994) .]의 예측성능을 1152개 화합물에 대한 실험데이터를 사용하여 비교하였다. Gani 모델은 298.15K에서의 액체몰부피에 대한 모델이므로 QSPR 모델을 통해 나온 값의 역수를 취하여 비교하였다. 그 결과 Gani 모델은 1028개에 대해서만 예측값을 계산해주며 0.9955의 결정계수값과 2.97418 cm3/m이의 평균절대오차값을 가짐을 알게 되었다. 반면 본 발명와 QSPR 모델은 1152개 화합물 전부에 대해 예측값을 계산해주며 0.996726의 결정계수값과 2.13636 cm3/m 의 평균절대오차값을 가져 Gani 모델보다 우수함을 알게 되었다. 도 51, 52는 각 모델의 예측성능을 보여주는 패리티 (parity) 도면들이며 이 도면들로부터 본 발명의 QSPR 모델이 기존예측 모델보다 우수한 성능을 가짐을 눈으로 확인할 수 있다. 한편 언급된 1152개 화합물들에 대한 실험데이터 중 실험오차가 알려진 것들의 평균절대퍼센트오차는 약 3.5%이며 이보다 작은 1.5%의 값을 중심으로 실험값과 예측값 사이의 오차를 히스토그램으로 그린 것이 도 53, 54이다. 이 도면들은, Gani 모델은 87.93%, 본 발명의 QSPR 모델은 96.87%의 확를로 평균 실험오차의 범위 이내로 298.15K에서의 액체몰부피값을 예측하고 있음을 보여주어 본 발명의 모델아 Gani 모델 보다 정확함을 증명해준다.
[실시예 1-10] 순수한 유기화합물의 굴절율을 예측하는 다중선형회귀- 인공신경망흔성 QSPR모델
본 실시예의 관심 물성인 굴절를에 대해서도 현재까지 여러 예측모델들이 제안되었다. 굴절률 (refractive index)이라 함은 진공에서 한 매질로 입사한 빛이 휘는 정도를 말하여 진공에서의 빛의 속도를 매질에서의 빛의 속도로 나눈 것과 같다. 보통은 589.6nm의 파장을 갖는 나트륨의 노란빛에 대한 굴절률을 기준으로 한다. 문헌 [Katritzky A. R., Si Id S., Karelson M. , J. Chan. Inf. Comput . Sci. , 38: 840 (1998).]에는 125개 유기화합물에 대한 데이터를 토대로 5개의 분자표현자를 사용하여 0.945의 결정계수 (coefficient of determinat ion)값과 0.0155의 표준오차 (standard error)값을 보여주는 QSPR 모델을 구축한 사례가 나와있다. 실시예 1-1에서 설명한 그룹기여 모델 및 QSPR 모델도 굴절를 예측방법에 사용된 바 있으며, 실시예 1ᅳ1에서 설명한 종래기술의 문제점은 본 실시예에 대해서도 동일하게 존재하고 있다.
도 1의 단계 1에 지정된 바와 같이 실험데이터를 수집하고 검토 분류하는 일도 본 실시예에 동일하게 적용되나 물성의 종류 및 데이터 수치에만 차이가 있으며, 총 1367개의 화합물들에 대한 굴절를의 데이터가 수집되었다. 최종적으로는 1017개의 화합물에 대한 데이터를 선정하였다. 또한 이를 367개의 탄화수소들과 650개의 비탄화수소들로 분류하여 각각 모델을 확립하였다.
나아가 도 1 및 도 2, 그리고 이와 관련된 실시예 1-1에서의 설명 역시 본 실시예에도 동일하게 적용되며' 중복되는 설명은 생략한다. 다만 도 1의 단계 10에 기재된 '과적합 방지기준' 이 본 실시예에서는 탄화수소의 경우 0.025, 비탄화수소의 경우 0.03가 된다. 이러한 과정을 거쳐 최종적으로 확립된 모델에 대한 결과는 표 28, 29에 간략히 나와 있다. 여기서 첫 번째 인자인 1 의 값은 해당 화합물에 대한 편극률 (polarizability)과 298.15K에서의 포화액체밀도 (saturated liquid density)은 이미 알려져 있는 값 또는 QSPR 모델에 근거한 계산 방법에 의해서 구한 값을 활용하였다.
【표 28]
Figure imgf000152_0001
【표 29] 비탄화수소의 굴절률에 대한 QSPR 예측모델의 주요 내용
샘플화합물들의 개수 650
분자표현자들의 개수 10
p1 : 편극도 (Polar izability) x 298.15K 에서의 액체밀도) Liquid density at 298.15K
p2: CH3R 1 CH4 기능기 수 (CH3R / CH4)
p3 : 최고준위 점유 분자궤도 ᅳ 1 에너지 (H0M0-1 energy)
분자표현자들의 이름 pA : 수소원자 자기상관 차수 0/원자 편극도 가중 (H autocorrelation of lag 0 / Weighted by atomic polar izabi 1 it ies) . p5: 친수성 인자 (hydrophilic factor)
p6 : Broto-Moreau 의 위상구조 자기상관 -차수 2/원자 편극도 가중 (Broto-Moreau autocorrelation of a topological structure - lag 2 / Weighted by atomic olarizabi 1 ities)
p7: A1-NH2 기능기 수 (A1-NH2)
p8 : 위상거리 2 0-0 결합와 존재여부 (presence/absence of 0 - 0 at topological distance 02)
p9 : 반데르발스가중거리행렬 Balaban 타입 지수 (Balaban-type index from van der aals weighted distance matrix)
¾o: 방향족 결합의 수 (Number of aromatic bonds) 회귀모델 결정계수 0.9661
회귀모델 AAE 0.00751
회귀모델 굴절률 = c0+∑ qPi
본발명의 QSPR모델은 890개에 대해 예측값을 계산해주며 0.991066의 결정계수값과 0.003823의 평균절대오차값을 가짐을 알게 되었다. 도 55,
J
56은 이렇게 확립된 QSPR 모델의 890개의 화합물에 대한 예측성능을 도면으로 표현한 것이다. 도 55는 모델의 예측성능을 보여주는 패리티 (parity) 도면이며 실험값과의 비교 데이터가 대각선 상에 밀집되어 있어서 우수한 성능을 가짐을 눈으로 확인할 수 있다. 한편 언급한 890개 화합물들에 대한 실험데이터 중 실험오차가 알려진 것들의 평균절대오차는 약 0.008이며 이보다 작은 0.005를 중심으로 실험값과 예측값 사이의 오차를 히스토그램으로 그린 것이 도 56이다. 이 도면은 본 발명의 QSPR 모델이 95.5%의 확률로 평균 실험오차의 범위 이내로 굴절률의 값을 예측하고 있음을 보여주어 본 발명의 모델이 매우 정확함을 증명해준다. 굴절률은 물질을 분석하는데 매우 유용한 물성이며 광학기기나 전자기기에 들어가는 부품의 재료를 선정하는데 참고하기도 하는 물성으로, 본 실시예는 수많은 화합물의 굴절률의 값을 높은 정확도로 얻는 효과를 제공한다.
[실시예 1-11] 유기화합물의 용해지수를 예측하는 다중선형회귀 -인공신경망 흔성 QSPR모델
본 실시예의 관심 대상인 용해지수에 대해서도 현재까지 여러 예측모델들이 제안되었다. 용해지수 (Solubility parameter)에 대해 설명하자면 용질이 용매에 녹기 위해서는 용질분자 상호간의 인력이나 용매분자 상호간의 인력에 대등한 정도의 용질-용매간의 인력이 작용하지 않으면 안 되는데 이와 같은 용질분자 상호간의 인력 및 용매분자 상호간의 인력은 각각의 분자집단으로부터 1개의 분자를 분리시키는 데 요구되는 에너지로써 나타낼 수 있다. 이 에너지가 웅집에너지 (cohesive energy)이다. 단위체적당의 웅집에너지를 웅집에너지밀도 (cohesive energy density, CED)라고 하며, 웅집에너지 밀도의 평방근을 용해지수 (solubility parameter, δ )라고 한다. 비슷한 용해지수를 가진 두 물질들은 흔화될만큼 충분한 상호 분산에 대한 에너지를 가진다. 반면에 다른 용해지수를 가지는 두 물질은 흔화함으로써 가지는것보다 분산하기 위해 더 많은 에너지를 요구한다. 그래서 흔화할 수 없는 결과를 가진다. 표 30은 그 동안 제안되밌던 용해지수들에 대한 주요한 모델들을 연도순으로 보여 주고 있다.
【표 30】
Figure imgf000154_0001
1987 Joback & Re id
1994 Constant inou & Gani
1995 Tu
1996 Wi lson & Jasperson
1999 Marrero-Morejon & Pardi 1 lo一 Fontdevi 1 la
2001 Marrer으 Morejon & Gani
2001 Wen & .Quiang
낮은 분자량을 가진 화합물에 대한 웅집에너지 (cohesive energy, Ucoh)는 보통 기화열 (AH,, ap)로부터 얻는다.
Ucoh(T,Psat) = AHmp(T)-RT
Solubility parameter, g =
Figure imgf000155_0001
R은 이상기체상수. 는 기화열. LMV는 액체몰부피이다. 간접적으로 용해지수를 계산하는 방법으로 수식의 기화열과 액체몰부피는 QSPR로 모델링한 계산값이며, T=298.15K이다. 실시예 1-1에서 설명한 그룹기여'모델 및 QSPR 모델도 용해지수 예측방법에 사용된 바 있으며, 용해지수에 대한 QSPR 예측모델은 몇몇 제안된 것이 있으나 샘플 화합물의 수가 적거나 특정 계열의 화합물에만 국한된 것들이 대부분이다. 문헌 [James E. Code, Andrew J . Holder and J. David Eick, Direct and Indirect Quantum Mechanical ' QSPR Hi ldebrand Solubility Parameter Models, QSAR Comb. Sci. 27, 2008, No. 7, 841 - 849]에는 56개의 화합물에 대한 데이터를 이용하여 0.69(J/cm3)1/2의 표준오차, 0.97의 결정계수 (coefficient of determinat ion)값을 갖는 4개의 분자표현자를 사용한 모델이 보고되어 있다. 실시예 1-1에서 설명한 종래기술의 문제점은 본 실시예에 대해서도 동일하게 존재하고 있다. 본 실시예는 수소 (H), 탄소 (0, 질소 (N), 산소 (0), 황 (S) 등 5가지 이내의 원소로 구성되고, 수소를 제외한 원자의 개수가 25개 이하인 분자 중 .액체인 순수한 유기화합물의 용해지수에 대한 QSPR 모델을 구축하는 것이다. 도 1의 단계 1에 지정된 바와 같이 실험데이터를 수집하고 검토 분류하는 일도 본 실시예에 동일하게 적용되나 물성의 종류 및 데이터 수치에만 차이가 있으며, 총 1658개의 화합물들에 대한 용해지수의 데이터가 수집되었다. 최종적으로는 1200개의 화합물에 대한 데이터를 선정하였다. 나아가 도 1 및 도 2, 그리고 이와 관련된 실시예 1-1에서의 설명 역시 본 실시예에도 동일하게 적용되며 중복되는 설명은 생략한다. 다만 도 1의 단계 10에 기재된 '과적합 방지기준' 이 실시예 1-11에서는
(1222.21(cal/m3)(1/2))가 된다. 이러한 과정을 거쳐 최종적으로 확립된 모델에 대한 결과는 표 31에 간략히 나와 있다.
【표 31] 용해지수에 대한 QSPR 예측모델의 주요 내용
샘플 화합물들의 개수 1200 ,
분자표현자들의 개수 15
I 모서리도 가중 모서리 인접행렬 고유값 7 (Eigenvalue 07 from edge adjacency matrix weighted by edge degrees)
?2'- Pogliani의 지수 (Pogl iani index)
P3: Moran 의 자기상관 차수 7/원자 Sanderson 전기음성도 가중
P4: X— CH..X 기능기 수 (X— CH..X)
분자표현자들의 이름
P5: 평균 분자량 (average molecular weight )
P6: 분자 프로필 차수 13 (molecular profile no. 13) P7: 전자회절기반 3 차원 분자구조 표현- 차수 13/원자량 가중 (3D— MoRSE - signal 13 1 weighted by atomic masses)
P8: 수소결합수용체 표면적 분율 (FHASA Fractional HASA (HASA/TMSA))
Figure imgf000157_0002
Figure imgf000157_0001
널리 사용되는 힐더브랜드 수식모델의 예측성능을 실험값이 알려진 1192개의 화합물들의 데이터를 사용하여 비교하였다. 힐더브랜드 식에 이미 알려져 있는 값 또는 QSPR 모델에 근거한 계산 방법에 의해서 구한 298.15K에서의 기화열 (Heat of vaporization)과 액체몰부피 (liquid molar volume)을 넣어 간접적으로 액체의 용해지수를 구한다. 그 결과 힐더브랜드 수식에 의한 모델은 0.924974의 결정계수값과 236.4067(cal/m3)(1/2)의 평균절대오차값을 가짐을 알게 되었다. 반면 본 발명의 QSPR 모델은 0.9709기의 결정계수값과 185.2331(cal/m3)(1/2) 평균절대오차값을 가져 수식을 이용한 간접적인 방법보다 우수함을 알게 되었다. 도 57, 58은 각 모델의 예측성능을 보여주는 패리티 (parity) 도면들이며 이 도면들로부터 본 발명의 QSPR 모델이 기존 모델보다 우수한 성능을 가짐을 눈으로 확인할 수 있다. 한편 언급한 1192개 화합물들에 대한 실험데이터 중 실험오차가 알려진 것들의 평균 퍼센트 오차는 약 6%이며 이보다 작은 1.5%의 값을 중심으로 실험값과 예측값 사이의 오차를 히스토그램으로 그린 것이 도 59, 60이다. 이 도면들은 힐더브랜드 수식에 의한 모델은 94.88%, QSPR 모델은 98.15%의 확를로 평균 실험오차의 범위 이내로 용해지수를 예측하고 있음을 보여주어 QSPR모델이 기존 모델보다 정확함을 증명해준다.
특히 본 실시예에 따르는 용해지수의 개념은 아스팔트, 원유같은 다른 복잡한 물질들 내의 분자간 관계를 표현하는데 중요한 가치를 가지며 이를 통해 실험을 통하지 않고 섞일 수 있는지에 대한 용해성을 예측하기 위해 사용된다.
[실시예 1-12] 순수한 유기화합물의 표준상태 절대 엔트로피를 예측하는 다중선형회귀 -인공신경망흔성 QSPR모델
본 실시예의 관심 물성인 표준상태 절대 엔트로피에 대해서도 현재까지 여러 예측모델들이 제안되었다. 표준상태 절대 엔트로피 (Standard State Absolute Entropy)라 함은 순수한 물질이 표준상태, 즉 298.15K (절대온도)와 lbar에 있을 때의 절대 엔트로피를 말한다. 표준상태 절대 엔트로피 예측에 대한 그간의 연구결과들은 문헌 [Poling B. E. , Prausnitz J. M. , 0' Connell J. P. The- Properties of Gases and Liquids, (5 ed. ) . New York: McGraw Hill. (2000)·]에 간략히 소개되어 있다. 현재 표준상태 절대 엔트로피를 예측하는 모델로 잘 알려지고 널리 쓰이는 것들은 주로 그룹기여 (group contribution) 방법과 양자역학 계산을 이용한 것들이다. 양자역학 계산은 높은 차원의 계산을 수행할 경우, 정확도가 좋아지지만 많은 시간과 계산에 필요한 자원들이 많이 필요하기 때문에 높은 차원의 계산을 수행하기 힘들다. 따라서 낮은 차원의 양자역학 계산을 많이 사용하게 되는데 낮은'차원의 양자역학 계산값은 계산 시간과 계산에 필요한 자원들을 절약할 수 있지만 정확도가 낮은 단점이 있다. 표 32는 그 동안 제안되었던 표준상태 절대 엔트로피들에 대한 주요한 모델들을 연도순으로 보여 주고 있다.
【표 32】
Figure imgf000159_0001
실시예 1-1에서 설명한 그룹기여 모델 및 QSPR 모델도 표준상태 절대 엔트로피 예측방법에 사용된 바 있다. 인공신경망을 이용하여 표준상태 절대 엔트로피를 예측하는 QSPR 모델은 몇몇 제안된 것이 있으나 샘플 화합물의 수가 적거나 특정 상태 (이상기체)의 화합물에만 국한된 것들이 대부분이다. 문헌 [A. Fazel i et al . Prediction of absolute entropy of ideal gas at 298 K of pure chemicals through GAMLR and FFNN. Energy Conversion and Management 52 (2011) 630—634]에는 1700개의 화합물에 대한 데이터를 이용하여 0.9885의 결정계수 (coefficient of determinat ion)값을 갖는 3개의 분자표현자를 사용한 모델이 보고되어 있다. 이후에 피드퍼워드 인공신경망 (feed forward neural network, FFNN)을 진행하여 0.9909의 결정계수 (coef f icient of determinat ion)값을 -갖는 Network Layer [3-10- 1]가 보고되어 있다.
도 1의 단계 1에 지정된 하와 같이 실험데이터를 수집하고 검토 분류하는 일도 본 실시예에 동일하게 적용되나 물성의 종류 및 데이터 수치에^ 차이가 있으며, 총 1564개의 화합물들에 대한 용해지수의 데이터가 수집되었다. 최종적으로는 937개의 화합물에 대한 데이터를 선정하였다. 또한 물성예측모델을 구축할 때, 샘플 화합물들을 액체와 고체, 기체로 분류하여 따로따로 모델을 세우는 것이 예측성능의 측면에서 더 나았던 그간의 경험에 비추어 진행했다. 그리고 액체는 탄소와 수소만으로 이루어진 탄화수소 (hydrocarbon)들과 그렇지 않은 비탄화수소 (nonhydrocarbon)들로 분류하여 따로따로 모델을 세우는 것이 예측성능의 측면에서 더 나았던 그간의 경험에 비추어 이들을 액체 중에서 299개의 탄화수소들과 484개의 비탄화수소들로 분류하고, 고체 154개로, 기체 1312개로 각각 분류하여 모델을 확립하였다.
나아가 도 1 및 도 2, 그리고 이와 관련된 실시예 1-1에서의 설명 역시 본 실시예에도 동일하게 적용되며 중복되는 설명은 생략한다. 다만 도 1의 단계 10에 기재된 '과적합 방지기준' 이 실시예 1ᅳ 11에서는 대략 실험데이터의 평균적 오차가 된다. 이러한 과정을 거쳐 최종적으로 확립된 모델에 대한 결과는 표 33, 34. 35 에 간략히 나와 있다.
【표 33]
Figure imgf000161_0001
액체 비탄화수소의 표준상태 절대 엔트로피에 대한 QSPR 예측모델의 주요 내용 샘플 화합물들의 개수 484
분자표현자들의 개수 9
ΡΊ : 이소옥사졸의 수 (number of Isoxazoles)
분자표현자들의 이름
p2 : Kier 의 형태 지수 (차수 l)(Kier shape index
Figure imgf000162_0001
【표 35] 고체의 표준상태 절대 엔트로피에 대한 QSPR 예측모델의 주요 내용
샘플 화합물들의 개수 154
분자표현자들의 개수 9
: 공명적분 가중 모서리 인접행렬 고유값 2 (Eigenvalue 02 from edge adjacency matrix weightedby resonance integrals)
p2 : 탄소원자의 최소 1—전자 반응 지수 (Minimum 1- electron reactivity index for a C atom)
분자표현자들의 이름
F3 : 분자 크기상의 정보 지수 (information index on molecular size)
p4 : 위상거리 7 C-S 결합의 존재여부 (presence/absence of C - S at topological distance 07)
p5 : 수소결합의존적 수소결합기부체 하전 표면적 (HA
Figure imgf000163_0001
확립된 다중선형회귀 -인공신경망 혼성 QSPR 모델과 널리 사용되는 기존의 그룹기여 모델 즉 Domalski [Domalski E.S. , Hearing E.D., Est i mat ion of Thermodynamic Properties of C_H_Nᅳ 0—S~Ha 1 ogen Compounds at 298.15 K, J.Phys.Chem.Ref .Data, 1993.22.805] 모델의 예측성능을 실험값이 알려진 800개의 화합물들의 데이터를 사용하여 비교하였다. 그 결과 Domalski 모델은 624개에 대해서만 예측값을 계산해주며, 액체의 경우 0.981356의 결정계수값과 2.029146caZ/(moZ*Ar)의 평균절대오차값을 가짐을 알게 되었다. 또한 고체의 경우 0.943614의 결정계수값과 4.89782 cal/(mol * K) 의 평균절대오차값을 가짐을 알게 되었다. 반면 다중선형회귀 -인공신경망 혼성 QSPR 모델은 800개 전부에 대해 예측값을 계산해주며 액체의 경우 0.981693의 결정계수값과 2.355187caZ/(moZ *i<:)의 평균절대오차값을 가지고, 고체의 경우 0.972872의 결정계수값과 4.745821 cal/(mol * K) 의 평균절대오차값을 가져 기존 모델보다 우수함을 알게 되었다. 도 61, 62, 63, 64는 각 모델의 예측성능을 보여주는 패리티 (parity) 도면들이며 이 도면들로부터 다중선형회귀 -인공신경망 흔성 QSPR 모델이 기존 모델보다 우수한 성능을 가짐을 눈으로 확인할 수 있다. 한편 800개 화합물들에 대한 ' 실험데이터 중 실험오차가 알려진 것들의 평균 오차는 액체는 약 3 cal/(mol * K) 이며 고체는 약 4.78 cal/(mol * K) 이다 이보다 큰 5 cal/imol * K) 의 값을 중심으로 실험값과 예측값 사이의 오차를 히스토그램으로 그린 것이 도 65, 66, 67, 68이다. 이 도면들은 Doma'lski 모델 중 액체는 5기개에 ' 대해 계산되며 96.32%, 고체는 53개에 대해 계산되며 92.45%의 확률로 평균 실험오차의 범위 이내로 표준상태 절대 엔트로피값을 예측하고 있음올 보여준다. 반면에 다중선형회귀 -인공신경망 흔성 QSPR 모델 모델에서 액체는 704개에 대해 계산되며 96.02¾>, 고체는 96개에 대해 계산되며 88.54%의 확률로 평균 실험오차의 범위 이내로 표준상태 절대 엔트로피값을 예측하고 있음을 보여준다. 히스토그램의 수치만으로 볼 때 오차범위 안에 들어가는 비율에서 Donialski 모델이 다소 높아 보이지만 각각의 모델에서 물성값이 예측되어 오차범위 안에 들어가는 분자수를 보면 액체에서 Donialski 모델은 550개, 다중선형회귀ᅳ인공신경망 흔성 QSPR 모델은 676개이며 고체에서 Donialski'모델은 49개, 다중선형회귀- 인공신경망 흔성 QSPR 모델은 85개이다. 이것으로 다중선형회귀 -인공신경망 흔성 QSPR 모델이 기존 모델보다 더 많은 분자에 대한 정확한 예측이 가능하여 더 성능이 우수함을 증명해준다.
기체의 경우 표준상태의 이상기체 절대 엔트로피 (Standard State Absolute Entropy of Ideal Gas)를 예측하는 모델에서 계산되는 값으로 대체한다.
[실시예 1-13] 순수한 유기화합물의 표준상태 생성에너지를 예측하는 QSPR 모델
본 실시예의 관심 물성인 표준상태 생성에너지에 대해서도 현재까지 여러 예측모델들이 제안되었다. 표준 온도와 압력 상태 (298.15K, 1 기압)에서 분자를 구성하는 각 원소의 흩원소물질로부터 화합물 1몰을 만들 때 흡수하거나 방출하는 열량을 표준상태 생성에너지 (standard state enthalpy of format ion)이라 한다.
실시예 1-1에서 설명한 그룹기여 모델 및 QSPR 모델도 표준상태 생성에너지 예측방법에 사용된 바 있으며, 실시예 1-1에서 설명한 종래기술의 문제점은 본 실시예에 대해서도 동일하게 존재하고 있다.
도 1의 단계 1에 지정된 바와 같이 실험데이터를 수집하고 검토 분류하는 일도 본 실시예에 동일하게 적용되나 물성의 종류 및 데이터 수치에만 차이가 있으며, 총 1583개의 화합물들에 대한 굴절률의 데이터가 수집되었다. 최종적으로는 1395개의 화합물에 대한 데이터를 선정하였다. 또한 물성예측모델을 구축할 때', 액체와 고체는 상변화로 인해 발생하는 웅고열 (융해열)을 고려해야 하기 때문에 액체와 고체 샘플로 나누었고, 액체 화합물들은 탄소와 수소만으로 이루어진 탄화수소 (hydrocarbon)들과 그렇지 않은 비탄화수소 (nonhydrocarbon)들로 분류하여 따로따로 모델을 세우는 것이 예측성능의 측면에서 더 나았던 그간의 경험에 비추어 이들을 315개의 탄화수소들과 479개의 비탄화수소들로 분류하여 각각 모델을 확립하기로 하였고 고체 샘플은 여러 참고문헌 조사를 통해 얻은 실험값 자료를 모두 수집하여 최종 6이개의 샘플을 확보하고 예측 모델을 확립하였다.
나아가 도 1 및 도 2, 그리고 이와 관련된 실시예 1-1에서의 설명 역시 본 실시예에도동일하게 적용되며 중복되는 설명은 생략한다. 다만 도 1의 단계 10에 기재된 '과적합 방지기준' 이 본 실시예에서는 액체 탄화수소의 경우는 그 기준값을 0.0 kcal/mol로 설정하여 모든 예측값이 다중선형회귀 QSPR 모델올 채택하게되고 액체 비탄화수소와 고체의 경우는 각각 7 kcal/mol와 13 kcal/n l로 설정하여 설정된 기준값을 넘지 않으면 인공신경망 QSPR S델 을 채택해서 예측된 값을 얻게 된다.
이러한 과정을 거쳐 최종적으로 확립된 모델에 대한 결과는 표 36, 37, 38에 간략히 나와 있다.
【표 36]
Figure imgf000166_0001
회귀모델 결정계수 0.999089
회귀모델 AAE 0.641408kcal/mol '
회귀모델 표준상태 생성에너지
Figure imgf000167_0001
인공신경망 결정계수 0.999418
인공신경망 ME 0.621789kcal/mol
표준상태 생성에너지 (kca 1 /mo 1 )
인공신경망 QSPR모델
= r +∑ l + exp(-: -∑ ) Γ' (/=5, //F9) 과적합 방지기준 O.Okcal/mol
【표 37】 액체 비탄화수소의 표준상태 생성에너지에 대한 QSPR 예측모델의 주요 내용 샘플 화합물들의 개수 479
분자표현자들의 개수 6
Pi: 이상기체의 생성에너지 (enthalpy of formation for ideal . gas)
P2: 거리 /우회 고리 지수 차수 12(di stance/detour ring index of order 12)
P3: 수소원자의 최소 결합차수 (>0.1) (Min (>0.1) bond order of a H atom)
분자표현자들의 이름
P4: 원자가 연결 지수 차수 3(valence connectivity index chiᅳ 3)
P5: 원자전하 가중 부분음전하 표면적 분율 가중치 (WNSA- 3 Weighted PNSA (PNSA3*TMSA/1000))
P6: 위상거리 3 N-0 결합의 빈도 (frequency of N - 0 at topological distance 03 )
회귀모델 결정계수 0.997001
회귀모델 ME 2.219496kcal/mol
회귀모델 표준상태 생성에너지 (K) = (77=6)
인공신경망 결정계수 0.99944 ,
인공신경망 ME 1.97370 lkcal /mo 1
표준상태 생성에너지 (kca 1 /mo 1 ) = 인공신경망 QSPR모델 τ
Figure imgf000167_0002
과적합 방지기준 7.0kcal/mol
【표 38】 고체의 표준상태 생성에너지에 대한 QSPR 예측모델의 주요 내용
샘플 화합물들의 개수 601
분자표현자들의 개수 6
fV 이상기체의 생성에너지 (enthalpy of formation for 분자표현자들의 이름 ideal gas)
?2 Balaban 중심지수 (Balaban centric index)
Figure imgf000168_0001
경우 0.998338의 결정계수값과 1.31632kcal/mol의 평균절대오차값을 가지고 고체의 경우 0.998364의 결정계수값과 2.973558kcal/mol의 평균절대오차값을 가져 우수함을 알게 되었다. 도 69, 70은 각 모델의 예측성능을 보여주는 패리티 (parity) 도면들이며 실험값과의 비교 데이터가 대각선 상에 밀집되어 있어서 우수한 성능을 가짐을 눈으로 확인할 수 있다. 한편 1236개 화합물들에 대한 실험데이터 중 실험오차가 알려진 것들의 평균 절대오차는 약 3kcal/mol이며 이 값을 중심으로 실험값과 예측값 사이의 오차를 히스토그램으로 그린 것이 도 71, 72이다. 이 도면들에서 우리 예측 최종 모델 중 액체는 97.26%, 고체는 85.89%의 확률로 평균 실험오차의 범위 이내로 표준상태 생성에너지 값을 예측하고 있음을 보여주어 상당히 정확함을 증명해준다.
[실시예 1-14] 순수한 유기화합물의 자기 감수율을 예측하는 다중선형회귀- 인공신경망흔성 QSPR모델
본 실시예의 관심 물성인 자기 감수율에 대해서도 현재까지 여러 예측모델들이 제안되었다. 자기 감수율 (Magnetic Susceptibi lity)라 함은 순수한 물질이 자기장의 세기에 대한 자화의 비를 말한다. 현재 ' 자기 감수율을 예측하는 모델로 잘 알려지고 널리 쓰이는 것들은 주로 양자역학 계산방법을 이용한 것들이다. 양자역학 계산은 높은 차원의 계산을 수행할 경우, 정확도가 좋아지지만 많은 시간과 계산에 필요한 자원들이 많이 필요하기 때문에 높은 차원의 계산을 수행하기 힘들다. 따라서 낮은 차원의 양자역학 계산을 많이 사용하게 되는데 낮은 차원의 양자역학 계산값은 계산 시간과 계산에 필요한 자원들을 절약할 수 있지만 정확도가 낮은 단점이 있다. .
인공신경망을 이용하여 자기 감수율을 예측하는 QSPR 모델은 그다지 많이 제안되어 있지 않으며 제안된 것들도 샘플 화합물의 수가 많지 않거나 적용 대상이 특정 계열 화합물에 제한되어 있는 단점이 있다. 문헌 [N. I. Zhokhova, I. I. Baskin, V. A. Palyulin, A. N. Zefirov, and N. S. Zefirov. FRAGMENT DESCRIPTORS IN QSPR : APPLICATION TO MAGNETIC SUSCEPTIBILITY CALCULATIONS. Journal of Structural Chemistry, Vol. 45, No. 4, pp. 626-635, 2004]에는 420개의 화합물에 대한 데이터를 대상으로 몇 개의 분자표현자를 사용한 후에 인공신경망을 진행하여 0.9827의 결정계수 (coefficient of determinat ion)값을 갖는 모델이 보고되어 있다. 실시예 1-1에서 설명한 그룹기여 모델 및 QSPR 모델도 자기 감수율 예측방법에 사용된 바 있으며, 실시예 1-1에서 설명한 종래기술의 문제점은 본 실시예에 대해서도 동일하게 존재하고 있다.
도 1의 단계 1에 지정된 바와 같이 실험데이터를 수집하고 검토 분류하는 일도 본 실시예에 동일하게 적용되나 물성의 종류 및 데이터 수치에만 차이가 있으며, 총 322개의 화합물들에 대한 굴절률의 데어터가 수집되었다. 나아가 도 1 및 도 2, 그리고 이와 관련된 실시예 1-1에서의 설명 역시 본 실시예에도 동일하게 적용되며 중복되는 설명은 생략한다. 다만 도 1의 단계 10에 기재된 '과적합 방지기준' 이 본 실시예에서는 3ppm이 된다.
이러한 과정을 거쳐 최종적으로 확립한 결과는 표 39에 간략히 나와 있다.
【표 39】
Figure imgf000170_0001
발명이 기존 기술보다 우월함을 보이기 위해 '이렇게 확립된 다중선형회귀 -인공신경망 흔성 QSPR 모델과 널리 사용되는 기존의 양자역학 계산 모델 즉 밀도 범함수 이론의 예측성능을 실험값이 알려진 320개의 화합물들의 데이터를 사용하여 비교하였다. 그 결과 양자역학 계산모델은 320개에 대해서만 예측값을 계산해주며 0.988927의 결정계수값과 1.90168ppm의 평균절대오차값을 가짐을 알게 되었다. 반면 다중선형회귀- 인공신경망 흔성 QSPR 모델은 320개 전부에 대해 예측값을 계산해주며 0.991011의 결정계수값과 1. 397392 ppm의 평균절대오차값을 가져 기존 모델보다 우수함을 알게 되었다. 도 73, 74는 각 모델의 예측성능을 보여주는 패리티 (parity) 도면들이며 이 도면들로부터 다중선형회귀- 인공신경망 흔성 QSPR 모델이 다른 모델보다 우수한 성능을 가짐을 눈으로 확인할 수 있다. 한편 320개 화합물들에 대한 실험데이터 증 실험오차가 알려진 것들의 평균 오차는 약 3%이며 이 값을 중심으로 실험값과 예측값 사이의 오차를 히스토그램으로 그린 것이 도 75, 76이다. 이 도면들은 양자역학 계산모델 88.43%, 본 발명의 다중선형회귀 -인공신경망 흔성 QSPR 모델은 91.25%의 확률로 평균 실험오차의 범위 이내로 자기 감수율값을 예측하고 있음을 보여주어 다중선형희귀 -인공신경망 흔성 QSPR 모델이 기존 모델보다 정확함을 증명해준다.
특히 자기 감수율은 화학물질을 분석하는 분석화학과 지질연구, 신소재 연구에서 각 물질들에 대한 값을 절실히 요청하는 중요한 물성으로, 본 실시예는 수많은 화합물의 자기 감수율값을 높은 정확도로 얻는 효과를 제공한다. [실시예 1-15] 순수한 유기화합물의 편극도를 예측하는 다중선형회귀- 인공신경망흔성 QSPR모델
본 실시예의 관심 물성인 편극도에 대해서도 현재까지 여러 예측모델들이 제안되었다. 편극도 (polarizability)라 함은 원자나 분자 내의 전자들이 편재되기 쉬운 정도를 말한다.
편극도 예측에 대한 그간의 연구결과들은 몇몇 문헌에 언급되었으나 전통적인 방법인 그룹기여에 대한 문헌은 거의 없었다. 현재까지 편극도에 대한 예축모델은 몇몇 문헌상에 보고 되었다.
실시예 1-1에서 설명한 그룹기여 모델 및 QSPR 모델도 편극도 예측방법에 사용된 바 있으며, 이 예측모델은 QSPR 방법을 사용하는 것으로 분자표현자를 이용하여 물성과의 상관성을 예측하는 것이다. 기존 문헌에도 이와 같은 방법을 사용한 예측모델에 대한 언급은 많이 있었으나 샘플 화합물의 수가 많지 않거나. 적용 대상이 특정 종류의 화합물에 제한되어 있는 단점이 있다. 문헌 [Hammond J. . , J. Chem. Phys. , 2007, 127, 144105]에 6개의 다환방향족탄화수소 (polyaromatic hydrocarbons, PAHs)를 다루었고 다양한 양자역학 방법을 통한 비교에 대해서만 논의하였다. 문헌 [Martin D. , Sild S. , Maran U., Karelson M. , J. Phys. Chem. C, 2008, 122 4785]에는 12 개의 다환방향족탄화수소와 28개의 풀러렌 (ful lerenes)을 다루었고 양자역학 방법을 통한 계산값과 분자표현자를 사용하여 예측을 수행하였고 예측성능은 결정계수가 0.9863 정도이다. 실시예 1-1에서 설명한 종래기술의 문제점은 본 실시예에 대해서도 동일하게 존재하고 있다. 도 1의 단계 1에 지정된 바와 같이 실험데이터를 수집하고 검토 분류하는 일도 본 실시예에 동일하게 적용되나 물성의 종류 및 데이터 수치에만 차이가 있으며, 총 231개의 화합물들에 대한 굴절를의 데이터가 수집되었고, 최종적으로도 231개의 화합물에 대한 데이터를 선정하였다. 이는 79개의 탄화수소들과 152개의 비탄화수소들로 분류되나, 실함값의 수가 적어 전체를 대상으로 모델을 확립하였다.
나아가 도 1 및 도 2, 그리고 이와 관련된 실시예 1-1에서의 설명 역시 본 실시예에도 동일하게 적용되며 중복되는 설명은 생략한다. 다만 도 1의 단계 10에 기재된 '과적합 방지기준' 이 본 실시예에서는 (0.5A3)이 된다. 이러한 과정을 거쳐 최종적으로 확립한 결과는 표 40에 간략히 나와 있다.
【표 40】
Figure imgf000173_0001
본 발명이 기존 기술보다 우월함을 보이기 위해 이렇게 확립된 QSPR 모델과 순수하게 양자역학. 기반으로 계산한 값의 예측성능을 실험값이 확실한
200개의 화합물들의 데이터를 사용하여 비교하였다. 그 결과 순수하게 양자역학 기반으로 계산된 결과는 0.990228의 결정계수값과 2.124895 A3의 평균절대오차값을 가졌다. 반면 QSPR 모델은 0.992449의 결정계수값과 0.274076 A3의 평균절대오차값을 가져 순수하게 양자역학 기반으로 계산된 결과보다 더 우수한 것을 알게 되었다. 도 77, 78는 각 모델의 예측성능을 보여주는 패리티 (parity) 도면들이며 이 도면들로부터 QSPR 모델이 양자역학 계산보다 우수한 성능을 가짐을 눈으로 확인할 수 있다. 한편 200개 화합물들에 대한 실험데이터 중 실험오차가 알려진 것들의 평균 퍼센트 오차는 약 4.11%이며 5%의 값을 중심으로 예측값과 실험값 사이의 오차를 히스토그램으로 그린 것이 도 79, 80이다. 이 도면들은 실험평균 퍼센트오차 내에 순수한 양자역학 기반의 예측값은 2.5%ᅳ QSPR 모델은 96.5%의 확률로 평균 실험오차의 범위 이내로 편 도값을 예측하고 있음을 보여주고 있는데 순수한 양자역학 기반의 예측값은 패리티 도면에서 보이는 것처럼 실험값보다 작게 예측이 되어서 히스토그램 도면에서 (-) 부호 방향에 치우쳐 있는 것을 볼 수 있다. 현재 순수한 양자역학 기반으로 계산된 값이 실험값과 어느 정도 경향을 맞춰주고 있으므로 그 성분을 독립변수로 사용하는 QSPR 모델을 시도하였다. 그 결과 적은 개수의 독립변수를 사용하여 아주 좋은 성능을 내는 모델을 완성하였다.
[실시예 1-16] 순수한 유기화합물의 이온화에너지를 예측하는 다중선형회귀- 인공신경망흔성 QSPR모델 본 실시예의 관심 물성인 이온화 에너지에 대해서도 현재까지 여러 예측모델들이 제안되었다. 이은화 에너지 (ionization potential)라 함은 순수한 물질이 한 쌍의 이온짝을 생기게 하기 위하여 전리방사선이 잃는 평균에너지를 말한다.
실시예 1-1에서 설명한 그룹기여 모델 및 QSPR 모델도 이온화에너지 예측방법에 사용된 바 있으며, 기존 이온화 에너지를 예측하는 모델 중 또 다른 하나는 중성상태의 분자로 최적화를 하고 그 안에서 전자 하나만 뗀 (+) 전하상태로 만든 구조의 에너지를 구해서 서로의 에너지흩 비교해서 계산하는 방법이 있다. 실시예 1-1에서 설명한 종래기술의 문제점은 본 실시예에 대해서도 동일하게 존재하고 있다.
도 1의 단계 1에 지정된 바와 같이 실험데이터를 수집하고 검토 분류하는 일도 본 실시예에 동일하게 적용되나 물성의 종류 및 데이터 수치에만 차이가 있으며, 총 627개의 화합물들에 대한 굴절률의 데이터가 수집되었고ᅳ 최종적으로도 573개의 화합물에 대한 데이터를 선정하였다. 이를 190개의 탄화수소들과 383개의 비탄화수소들로 분류하여 각각 모델을 확립하였다. 나아가 도 1 및 도 2, 그리고 이와 관련된 실시예 1-1에서의 설명 역시 본 실시예에도 동일하게 적용되며 중복되는 설명은 생략한다. 다만 도 1의 단계 10에 기재된 '과적합 방지기준' 이 본 실시예에서 탄화수소의 경우 (5.6kcal/niol)이 된다. 한편 비탄화수소의 경우 예측 결과가 다중선형회귀 QSPR 모델보다 좋은 인공신경망 QSPR 모델 이 찾아지지 않아 그대로 다중선형회귀 QSPR 모델의 예측 값을 택한다. 이러한 과정을 거쳐 최종적으로 확립한 결과는 표 41, 42에 간략히 나와 있다.
【표 41] 탄화수소의 이온화 에너지에 대한 QSPR 예측모델의 주요 내용
샘플화합물들의 개수 190
분자표현자들의 개수 12
ρλ : 최고준위 점유 분자궤도 에너지 (HOMO energy) pZ : Burden 행렬의 최고 고유값 2/원자 반데르발스 부피 가중 (highest eigenvalue n. 2 of Burden matrix / weighted by atomic van der Waals volumes)
p3: 수소원자의 최대 원자가 (Max valency of a H atom)
PA: R 자기상관 차수 4/비가중 (R autocorrelation of lag
41 Unweighted)
p5: 최대 파이ᅳ파이 결합차수 (Max PI-PI bond order) p6 : 탄소원자의 최소 친핵성 반웅 지수 (Min nucleophi lie reactivity index for a C atom)
pl : 1차 성분접근지향적 가중 포괄불변분자 지수 /원자 분자표현자들의 이름 전자위상 상태 가중 (1st component accessibility directional WHIM index 1 weighted by atomic electrotopological states)
p8: 가지치기 중심 지수 (Lopping centric index)
p3 : 공명적분 가증 모서리 인접행렬 스펙트럼 모멘트 7 (Spectral moment 07 from edge adjacency matrix weighted by resonance integrals)
pio : 평균 결합정보 내용 (차수 0)( Aver age Bonding Information content (order 0))
pii : 상대적 양전하 표면적 (RPCS Relative positive charged SA (SAMP0S*RPCG) )
¾2 : 탄소원자의 평균 친전자 반웅지수 (ave age electrophi lie reactivity index for a C atom)
회귀모델 결정계수 0.9840
회귀모델 ME 2.062791 kcal/mol
회귀모델 이은화 에너지 = + P;
인공신경망 결정계수 0.9867
인공신경망 ME 1.444844 kcal/mol
인공신경망 QSPR
ϋ c-tl 이은화 에너지 = T + = w Cl + exp (-T - WijP )-1 上 a
과적합 방지기준 5.6 kcal/mol
『표 42】 비탄화수소의 이은화 에너지에 대한 QSPR 예측모델의 주요 내용
Figure imgf000177_0001
널리 사용되는 성상태의 분자로 최 적화를 하고 그 안에서 전자 하나만 뗀 (+) 전하상태로 만든 구조의 에너지를 구해서 서로의 에너지를 비교해서 계산하는 예측모델 (이하 Quantum 모델)의 이온화 에 너지 의 예측성 능을 실험값아 알려진 567개의 화합물들의 데이터를 사용하여 비교하였다. 그 결과 Quantum 모델은 542개에 대해서만 예측값을 계산해주며 0.933773의 결정계수값과 6.280927 cal/mol의 평균절대오차값을 가짐을 알게 되었다. 반면 본 발명의 QSPR 모델은 567개 전부에 대해 예측값을 계산해주며 0.978891의 결정계수값과 2.644966kcal/m 값을 가져 Quantum 모델보다 우수함을 알게 되었다. 도 81, 82는 각 모델의 예측성능을 보여주는 패리티 (parity) 도면들이며 이 도면들로부터 본 발명의 QSPR 모델이 Quantum 모델보다 우수한 성능을 가짐을 눈으로 확인할 수 있다. 한편 언급한 567개 화합물들에 대한 실험데이터 중 실험오차가 알려진 것들의 평균절대퍼센트오차는 약 3 kcal/iTOl이며 이보다 큰 5kcal/mol의 값을 중심으로 실험값과 예측값 사이의 오차를 히스토그램으로 그린 것이 도 83, 84이다. 이 도면들은, Quantum 모델은 69.74%, 본 발명의 QSPR 모델은 95.41%의 확를로 이온화 에너지의 값을 예측하고 있음을 보여주어 본 발명의 모델이 다른 모델보다 정확함을 증명해준다.
[실시예 1-17] 순수한 유기화합물의 전자친화도를 예측하는 다중선형회귀 QSPR모델
' 실시예의 관심 물성인 전자 친화도에 대해서도 현재까지 여러 예측모델들이 제안되었다. 전자 친화도 (electron affinity)라 함은 기체상태의 원자 1 moi이 전자 1 mol을 얻어 기체상태의 음이온이 될 때 방출하는 에너지를 말한다.
실시예 1ᅳ 1에서 설명한 그룹기여 모델 및 QSPR 모델도 전자친화도 예측방법에 사용된 바 있으며ᅳ 전자 친화도를 예측하는 모델 중 또 다른 하나는 양자역학 계산을 통해서 구해낸 LUMO Energy를 이용하는 방법이 있다. 실시예 1ᅳ1에서 설명한 종래기술의 문제점은 본 실시예에 대해서도 동일하게 존재하고 있다. 도 1의 단계 1에 지정된 바와 같이 실험데이터를 수집하고 검토 분류하는 일도 본 실시예에 동일하게 적용되나 물성의 종류 및 데이터 수치에만 차이가 있으며, 총 169개의 화합물들에 대한 전자친화도의 데이터가 수집되었고, 최종적으로 146개와 화합물에 대한 데이터를 선정하였다. 이 데이터를 바탕으로 물성예측모델을 구축할 때 보다 정확한 예측을 위하여 탄소가 반 시 포함되어 있는 91개 화합물의 데이터만을 활용한 모델 (예측모델 1)과 146개 천체 데이터를 활용한 모델 (예측모델 2) 등 두 가지의 모델을 구축하였다. 예측모델 1은 탄화수소류에 대한 예측에, 예측모델 2는 비탄화수소류에 대한 예측에 더 탁월한 성능을 보여 각각 그러한 용도로 사용하기로 하였다. 나아가 도 1과 관련된 실시예 1-1에서의 설명 역시 본 실시예에도 동일하게 적용되며 충복되는 설명은 생략한다. 이러한 과정을 거쳐 최종적으로 확립한 결과는 표 43, 44에 간략히 나와 있다.
【표 43] 탄소를 포함하는 화합물의 전자 친화도에 대한 QSPR 예측모델 1의 주요 내용 샘플화합물들의 개수 '91
분자표현자들의 개수 6
p1 : 최저준위 비점유 분자궤도 에너지 (LUMO energy)
분자표현자들의 이름 PZ : 상대적 음전하 표면적 (RNCS Relative negative charged
SA (SAMNEG*RNCG))
Figure imgf000180_0001
전체 화합물의 전자 친화도에 대한 QSPR 예측모델 2의 주요 내용
샘플화합물들의 개수 146
분자표현자들의 개수 12
p1 : 최저준위 비점유 분자궤도 에너지 (LUMO energy)
p2 : 황원자의 평균 단전자 반웅지수 (Average 1-electron reactivity index for a S atom)
p3 : 위상학적 전자 표현자 (topological electronic descriptor)
ΡΛ: 히드톡실기의 수 (number of hydroxy 1 groups)
p5: CH2RX 기능기 수 (CH2 X)
p6: 비말단 sp 탄소의 수 (number of non-terminal C(sp)) pl : 인접행렬 평균 고유백터계수 합 (average eigenvector coefficient sum from adjacency matrix)
p8: 국부 쌍극자 지수 (local dipole index)
분자표현자들의 이름
p9 : 지렛대 가중 자기상관 차수 2/원자 편극도 가중
(leverage—weighted autocorrelat ion of lag 2 / Weighted by atomic polar izabi 1 it ies)
PlO : 수소원자 자기상관 차수 1/원자 Sanderson 전기음성도 가중 (H autocorrelation of lag 1 1 Weighted by atomic Sanderson electronegat ivi t ies)
pll : Ghose-Viswanadhan-Wendoloski의 최면성 지수 (50> 차지) (Ghoseᅳ Viswanadhan一 Wendoloski hypnoticᅳ like index at 50%)
z : 공명적분 가중 모서리 인접행렬 ,스펙트럼 모멘트 12 (Spectral moment 12 from edge adjacency matrix weighted by resonance integrals)
회귀모델 결정계수 0.96750754
회귀모델 AAE 3.75258997 kcal/mol 회귀모델 I전자 친화도 = c0 +∑,¾ CjPj
본 발명이 기존 기술보다 우월함을 보이기 위해 이렇게 확립된 QSPR 모델과 양자역학 계산을 통해서 LUMO Energy를 이용하는 모델 (이하 Quantum 모델)의 예측성능을 실험값이 알려진 146개의 화합물들의 데이터를 사용하여 비교하였다. 그 결과 Quantum 모델은 전체 146개의 화합물에 대해서 0.566661의 결정계수값과 30.87959 kcal/irol의 평균절대오차값을 가짐을 알게 되었다. 반면 본 발명의 QSPR 모델은 전체 146개의 화합물에 대해서 0.972465의 결정계수값과 3.287933 kcal/irol의 평균절대오차값을 가져 ' Quantum 모델보다 우수함을 알게 되었다. 도 85, 86은 각 모델의 예측성능올 보여주는 패리티 (parity) 도면들이며 이 도면들로부터 본 발명의 QSPR 모델이 Quantuin 모델보다 우수한 성능을 가짐을 눈으로 확인할 수 있다. 한편 언급한 146개 화합물들에 대한 실험데이터 중 실험오차가 알려진 것들의 평균절대오차는 2.5kcal/irol이며 이보다 큰 5kcal/irol의 값을 중심으로 실험값과 예측값 사이의 오차를 히스토그램으로 그린 것이 도 87, 88이다. 이 도면들은, Quantum 모델은 0.68%, 본 발명의 QSPR 모델은 90.41%의 확률로 평균 실험오차의 범위 이내로 전자 친화도의 값을 예측하고 있음을 보여주어 본 발명의 모델이 Quantum 모델보다 정확함을 증명해준다. [실시예 1-18] 순수한 유기화합물의 파라코르를 예측하는 다증선형회귀- 인공신경망흔성 QSPR모델
본 실시예의 관심 물성인 파라코르에 대해서 기존에 예측된 모델은 많지가 않다. 파라코르 (parachor)함은 다음과 같은 공식에 의해 정의되는 물성이다. p =
(Pi - Pv) 여기서 σ는 표면장력, Μ은 질량, Pl, 는 각각 액체밀도와 기체밀도를 의미한다 . 실시예 1ᅳ 1에서 설명한 그룹기여 모델 및 QSPR 모델도 파라코르 예측방법에 사용된 바 있다. 실시예 1-1에서 설명한 종래기술의 문제점은 본 실시예에 대해서도 동일하게 존재하고 있다. 도 1의 단계 1에 지정된 바와 같이 실험데이터를 수집하고 검토 분류하는 일도 본 실시예에 동일하게 적용되나. 물성의 종류 및 데이터 수치에만 차이가 있으며, 총 829개의 화합물들에 대한 전자친화도의 데이터가 수집되었고, 최종적으로 674개의 화합물에 대한 데이터를 선정하였다. 나아가 도 1 및 도 2와 관련된 실시예 1-1에서의 설명 역시 본 실시예에도 동일하게 적용되며 증복되는 설명은 생략한다. 다만 도 1의 단계 · 10에 기재된 '과적합 방지기준' 이 본 실시예에서는 0.0Q6이 된다. 이러한 과정을 거쳐 최종적으로 확립한 결과는 표 45에 간략히 나와 있다.
【표 45] 파라코르에 대한 QSPR 예측모델의 주요 내용
샘플화합물들의 개수 674
분자표현자들의 개수 8
ρ1 : 수소원자의 최대 부분전하 (Max partial charge for a H atom)
PZ: 원자 편극도의 합 (탄소원자로 조정) (sum of atomic polar izabi 1 it ies (scaled on Carbon atom))
분자표현자들의 이름
F3 : (지방족) 알데히드의 수 (number of aldehydes (al iphat ic))
p4 : R 자기상관 차수 8/비가중 (R autocorrelation of lag 81 Unweighted)
Figure imgf000183_0001
널리 사용되는 기존의 그룹기여 -QSPR을 흔합한 모델 knotts 모델 [Thomas A. Knotts , W. Vincent Wilding, John L. Oscar son, and Richard L. Rowley, Use of the DIPPR Database for Development of QSPR Correlations: Surface Tension, J. Chen]. Eng. Data. , 46: 1007-1012(2001) .]의 예측성능을 실험값이 알려진 673개의 화합물들의 데이터를 사용하여 비교하였다. 그 결과 Knotts 모델은 603개에 대해서만 예측값을 계산해주며 0.9939의 결정계수값과 4.717828cm3의 평균절대오차값을 가짐을 알게 되었다. 반면 본 발명의 QSPR 모델은 673개 전부에 대해 예측값을 계산해주며 0.995382의 결정계수값과 4.701904cm3의 평균절대오차값을 가져 기존 모델보다 우수함을 알게 되었다. 도 89, 90은 각 모델의 예측성능을 보여주는 패리티 (parity) 도면들이며 이 도면들로부터 본 발명의 QSPR 모델이 기존 무델보다 우수한 성능을 가짐을 눈으로 확인할 수 있다. 한편 언급한 673개 화합물들에 대한 실험데이터 중 실험오차가 알려진 것들의 평균절대퍼센트오차는 약
0.39%이며 이보다 큰 6%의 값을 중심으로 실험값과 예측값 사이의 오차를 히스토그램으로 그린 것이 도 91, 92이다. 히스토그램은 일치하는 정도를 나타내는 통계분석의 방법으로 중앙의 막대는 주어진 오차 범위 내에 들어가는 예측값을 가진 분자의 비율을 나타낸다. 중앙에 위치한 막대의 백분율은 일반적으로 예측정확도의 수준을 가리킨다. 이 도면들은, Knott s 모델은 97.84¾>, 본 발명의 QSPR 모델은 98.06%의 확률로 파라코르의 값을 예측하고 있음을 보여주어 본 발명의 모델이 Knotts 모델보다 정확함을 증명해준다. '
[실시예 1-19] 순수한 유기화합물의 인화점을 예측하는 다중선형회귀一 인공신경망흔성 QSPR모델
본 발명의 관심 물성인 인화점에 대해서도 현재까지 여러 예측모델들이 r
제안되었다. 인화점 (flash point)이라 함은 가연성의 액체나 고체에 점화원이 존재할 때 발화가 일어날 수 있는 최저은도를 말한다.
현재까지 문헌상에 보고된 인화점에 대한 예측모델들을 분류하여 살펴보면 다음과 같다.
첫번째 유형의 예측모델들은 끓는점, 밀도, 증기압, 임계성질, 증발열 등과 같은 물리적 성질과의 상관성을 이용한 예측 방법을 채택하였는데 상관성의 정확도가 요구되는 물리적 성질이나 방법의 정확도와 직접 연관이 되고 요구되는 물리적 성질은 완벽히 갖춰 있지 않아서 예측을 위한 계산을 수행하는데 많은 어려움이 있다. Patil이 제안한 방법은 정상끓는점에 관한 다음 관계식을 사용하였는데 알칸류 102개에 대해 MD가 19.7K인 결과를 보여주어 그다지 좋지 못한 예측 성능을 나타냈다. [Patil, G. S. Fire Mat. 1988, 12, 127]
FP = a + b TB + c TB 2
두번째 유형의 예측모델들은 QSPR 방법을 사용하는 것들이다.
문헌 [Suhani J. Pat el, Dedy Ng, and M. Sam Mannan , Ind. Eng. Chew. Res. 2010, 49, 8282]에는 236개의 화합물을 5종류의 작용기 군으로 분류하고 핵심이 되는 한두개의 분자표현자를 이용하여 인화점을 예측한 모델이 제안되어 있는데 예측성능은 단일 수산화 알콜류 (monohydric alcohols)의 경우 0.855의 결정계수값을 보여 가장 높고, 다중 수산화 알콜류 (polyhydric alcohols)의 경우 0.370로 그다지 만족스럽지 못한 결과를 보이고 있다.
- 그 외 기타 모델로 그룹기여 방법과 인공신경망을 접합한 형태를 사용하여 예측한 것이 있다 [Gharagheizi, F. , Alamdari , R. F. , Angaj i M. T. , Energy & Fuels 2008, 22,.1628]. 모델에 사용된 화합물이 1378개로 상당히 다양한 분자를 대상으로 다루었으며 결정계수가 0.9757이고 AAE가 8.101K으로 어느 정도 좋은 성능을 보여주고 있으나 인공신경망의 입력층으로 사용하는 인자들이 그룹기여 방법에 사용되는 조각형식이어서 그룹기여 방법에서 우려했던 문제들이 발생할 우려가 있다. 또다른 모델로 novel 방법을 사용하여 예측한 것이 있는데 [Carrol, F. A. , Lin, C.-Y. , Quina, F. H. , Energy & Fuels 2010, 24, 392] 102개의 선형과 가지 알칸류에 대해 결정계수가 0.985이고 AAE가 3.38K인 결과를 주었으나 예측가능한 대상이 비고리형 알칸류로 한정되어 있다 .
실시예 1-1에서 설명한 그룹기여 모델 및 QSPR 모델도 인화점 예측방법에 사용된 바 있다. 실시예 1-1에서 설명한 종래기술의 문제점은 본 실시예에 대해서도 동일하게 존재하고 있다. 이 모델은 위에서 언급한 바와 같은 그룹기여 방법으로 구축된 모델들의 단점들을 극복하고 보다 폭넓고 보다 정확한 예측성능을 보여줄 것으로 기대된다.
도 1의 단계 1에 지정된 바와 같이 실험데이터를 수집하고 검토 분류하는 일도 본 실시예에 동일하게 적용되나 물성의 종류 및 데이터 수치에만 차이가 있으며, 총 1321개의 화합물들에 대한 전자친화도의 데이터가' 수집되었고, 최종적으로 1309개의 화합물에 대한 데이터를 선정하였다. 또한 이를 409개의 '탄화수소들과 900개의 비탄화수소들로 분류하여 각각 모델을 확립하였다.
나아가 도 1 및 도 2와 관련된 실시예 1-1에서의 설명 역시 본 실시예에도 동일하게 적용되며 증복되는 설명은 생략한다. 다만 도 1의 단계 10에 기재된 '과적합 방지기준' 과 관련하여, 개발된 모델의 경우는 인공신경망 QSPR 모델 이 다중선형회귀 QSPR 모델에 비해 월등히 뛰어나며 인공신경망 QSPR 모델 이 안정적이어서 다중선형회귀 QSPR 모델과의 차이가 과도하여도 모두 인공신경망 QSPR 모델의 예측값을 채택하기로 하여 1000K 정도의 큰 기준값을 적용한다. 이러한 과정을 거쳐 최종적으로 확립한 결과는 표 46, 47에 간략히 나와 있다.
[표 46】 탄화수소의 인화점에 대한 QSPR 예측모델의 주요 내용
샘플 화합물들의 개수 409
분자표현자들의 개수 10
Pi: 동경 분포 함수 -3.5/원자량 가중 (Radial Distribution Function - 3.5 1 weighted by atomic masses)
?2 - 결합정보내용 (주변대칭 차수 O bond information content (neighborhood symmetry of 0-order))
P3: 전자회절기반 3 차원 분자구조 표현 -차수 26/원자 반데르발스 부피 가중 (3D-MoRSE - signal 261 weighted by atomic van der Waals volumes)
P4: 전자회절기반 3 차원 분자구조 표현 -차수 16/원자량 가중 (3D-MoRSE 一 signal 16 / weighted by atomic masses)
p5: 중력지수 세제곱근 (모든 결합) (Cubic root of 분자표현자들의 이름 Gravitation index (all bonds))
P6: 위상거리 3 C-C 결합의 빈도 (frequency of C - C at topological distance 03)
P7: 전체전하 가중 부분양전하 표면적 분율 가중치 (WPSA- 2 Weighted PPSA (PPSA2*TMSA/1000))
P8: Moran 의 자기상관 차수 2/원자ᅳ편극도 가중 (Moran autocorrelat ion - lag 2 / Weighted by atomic polarizabi 1 ities)
P9: 동경 분포 함수 -4.5/원자량 가중 (Radial Distribution Function - 4.5 1 weighted by atomic masses)
P10: 자기회귀 걸음 합계 차수 8(self-returning walk count of order 08)
회귀모델 결정계수 0.9892
회귀모델 ME 5.480389K
회귀모델 인화점 (K) = Co+∑=1c^ ?=10)
인공신경망 결정계수 0.9933
인공신경망 ME 4.4007 IK
인화점 00 = + X^d + expi- -^w^.))-1 (7=10, 인공신경망 QSPR모델
Figure imgf000187_0001
과적합 방지기준 1000K
[표 47】 비탄화수소의 인화점에 대한 QSPR 예측모델의 주요 내용
샘플 화합물들의 개수 900
분자표현자들의 개수 15
분자표현자들의 이름 Pi: R 자기상관 차수 5/원자량 가중 (R autocorrelation of lag 51 Weighted by atomic masses)
P2: RC0-N< 1 >N-X=X 기능기 수 (RC0-N< 1 >N-X=X)
P3: 헤테로원자 결합수소 (H attached to heteroatom)
P4: 삼중결합의 수 (Number of triple bonds)
P5: 방향족 결합의 상대적인 수 (Number of aromatic bonds)
P6: 경로 /걸음 2 - Randic 의 형태 지수 (path/walk 2 - Randic shape index)
P7: (지방족) 카르복실산의 수 (number of carboxylic acids (aliphatic))
P8: 탄소원자의 최대 부분전하 (Max partial charge for a C atom)
P9: 원자전하 가중 부분음전하 표면적 분율 (FNSA-3 Fractional PNSA (PNSA-3/TMSA) )
Ριο: 거리 /우회 고리 지수 차수 8(di stance/detour ring index of order 8)
Pu: Lipinski의 경고 지수 (Lipinski Alert index)
Pi2: 중력자수 세제곱근 (모든 결합) (Cubic root of
Gravitation index (all bonds))
P13: R 최대 자기상관 차수 5/원자량 가중 (R maximal autocorrelation of lag 5 / Weighted by atomic masses) PM: 수소결합의존적 수소결합기부체 하전 표면적 분율 (HA dependent HDCA-1/TMSA)
P15: Onsager- irkwood 의 용매화 에너지 이미지 (Image of the Onsager-Ki rkwood sol vat ion energy)
회귀모델 결정계수 0.9457
회귀모델 ME 12.71535K
회귀모델 인화점 00 = c0 +∑=]C,^ (^15)
인공신경망 결정계수 0.9713
인공신경망 ME 9.168068K
인화점 (K) =
인공신경망 QSPR모델 과적합 방지기준 1000K
본 발명이 우월함을 보이기 위해 실험값이 알려진 1280개 화합물들의 인화점을 본 발명의 ^ 1공신경망 QSPR 모델 을 통해 예측한 결과 0.82793의 결정계수값과 7.2076051 (의 평균절대오차값을 얻어 예측성능이 우수함을 알게 되었다. 도 93은 인공신경망 QSPR 모델의 예측성능을 보여주는 패리티 (parity) 도면이며 실험값과의 비교 데이터가 대각선 상에 밀집되어 있어서 우수한 성능을 가짐을 눈으로 확인할 수 있다. 한편 1280개 화합물들에 대한 실험데이터 중 - 실험오차가 알려진 것들의 평균 퍼센트 오차는 약 7.03%이며 이보다 작은 3%의 값을 증심으로 실험값과 예측값 사이의 오차를 히스토그램으로 그린 것이 도 94이다. 이 도면에서 인공신경망 QSPR 모델 은 95.23%의 확률로 오차의 범위 이내로 인화점값을 예측하고 있음을 보여주어 예측성능이 높다는 것을 증명해준다.
휘발성이 있는 물질의 경우 부주의하게 다루다보면 폭발이나 화재를 유발시키는 위험성이 존재하는데 이를 방지하기 위한 법정 기준치도 제정되고 시험방방법에 의해 최저 인화점이 정해졌다. 인화점은 휘발성 액체에서 발생하는 증기가 공기와 흔합되면서 가연성 기체가 되기 때문에 휘발성이 있는 물질을 안전하게 저장, 취급, 수송하는데 필요한 유용한 정보를 제공한다.
[실시예 1-20] 순수한 유기화합물의 인화하한온도을 예측하는 다중선형회귀一 인공신경망흔성 QSPR모델
본 실시예의 관심 물성인 인화 하한 온도에 대해서도 현재까지 여러 예측모델들이 제안되었다. 인화범위는 인화하한과 인화상한으로 구분되는데 이는 가연성 가스가 공기와 흔합해 있을 때 점화원에 의하여 계속적으로 인화할 수 있는 가스를 발생하는 최저점에서의 온도를 인화 하한 온도 (lower f lammabi 1 i ty limit temperature)라 한다.
실시예 1-1에서 설명한 그룹기여 모델 및 QSPR 모델도 인화하한온도 예측방법에 사용된 바 았다. 실시예 1-1에서 설명한 종래기술의 문제점은 본 실시예에 대해서도 동일하게 존재하고 있다. 인화 하한 온도에 대한 QSPR 예측모델은 몇몇 제안된 것들이 있으나 아직 널리 이용되고 있는 것은 없다. Gharagheizi는 분자표현자를 이용한 유전자 알고리즘-다중선형회귀모델을 제시하였으나 [Gharagheizi F. , J. Hazard. Mater. , 169, 217 (2009)], 예측성능은 그다지 좋지 못했다. 이후 여기에 그룹기여 방법에 인공신경망 기법을 적용하여 새로운 모델 [Gharagheizi F., Ind. Eng. Chem. Res., 48, 7406 (2009)]을 제안하였고 1429개의 대상으로 하여 화합물의 다양성을 넓혔고 좀 더 향상된 결과를 얻을 수 있었지만 125개에 달하는 조각형식이 사용되었으며 그룹기여 방법이 가지는 문제점이 계속 남아 있다. 이 모델은 위에서 언급한 바와 같은 그룹기여 방법으로 구축된 모델들의 단점들을 극복하고 보다 폭넓고 보다 정확한 예측성능을 보여줄 것으로 기대된다.
도 1의 단계 1에 지정된 바와 같이 실험데이터를 수집하고 검토 분류하는 일도 본 실시예에 동일하게 적용되나 물성의 종류 및 데이터 수치에만
'、
차이가 있으며, 총 1270개의 화합물들에 대한 인화하한온도의 데이터가 수집되었고, 최종적으로 1264개의 화합물에 대한 데이터를 선정하였다. 또한 이를 400개의 탄화수소들과 864개의 비탄화수소들로 분류하여 각각 모델을 확립하였다. '
나아가 도 1 및 도 2와 관련된 실시예 1ᅳ 1에서의 설명 역시 본 실시예에도 동일하게 적용되며 중복되는 설명은 생략한다. 다만 도 1의 단계 10에 기재된 '과적합 방지기준' 과 관련하여, 20K 정도의 기준값을 적용한다. 이러한 과정을 거쳐 최종적으로 확립한 결과는 표 48, 49에 간략히 나와 【표 48]
Figure imgf000191_0001
(QMNEG/QTMI US))
P7: 수소원자 자기상관 차수 5/원자 Sanderson 전기음성도 가중 (H autocorrelation of lag 5 / Weighted by atomic Sanderson electronegativities)
회귀모델 결정계수 0.980594
회귀모델 ME 7.979472K
회귀모델 인화 하한 온도 (K) =
Figure imgf000192_0001
인공신경망 결정계수 0.981328
인공신경망 ME 7.835536Κ
인화 하한 온도 (Κ) =
인공신경망 QSPR모델 과적합 방지기준 20Κ
발명의 QSPR은 1248개에 대해 예측값을 계산해주며 0.978753의 결정계수값과 6.807722K의 평균절대오차값을 가진다. 도 95는 각 모델의 예측성능을 보여주는 패리티 (parity) 도면이며 실험값과의 비교 데이터가 대각선 상에 밀집되어 있어서 우수한 성능을 가짐을 눈으로 확인할 수 있다. 한편 1248개 화합물들에 대한 실험데이터 중 실험오차가 알려진 것들의 평균 절대오차는 약 23K이며 이보다 작은 1K의 값을 중심으로 실험값과 예측값 사이의 오차를 히스토그램으로 그린 것이 도 96이다. 이 도면에서 QSPR 모델은 96.47%의 확률로 오차의 범위 이내로 인화 하한 온도값을 예측하고 있음을 보여주어 QSPR모델이 정확함을 증명해준다. [실시예 1-21] 순수한 유기화합물의 인화하한부피퍼센트를 예측하는 다중선형회귀 -인공신경망흔성 QSPR모델 본 실시예의 관심 물성인 인화 하한 부피 퍼센트에 대해서도 현재까지 여러 예측모델들이 제안되었다. 인화범위는 인화하한과 인화상한으로 구분되는데 이는 가연성 가스가 공기와 흔합해 있을 때 점화원에 의하여 계속적으로 인화할 수 있는 가스를 발생하는 최저점에서의 농도를 인화 '하한 부피 퍼센트 (lower f lammabi 1 ity limit volume percent)라 한다.
현재까지 인화 하한 부피 퍼센트에 대한 그룹기여 예측모델은 보고된 것이 없었고 대안이 될 수 있는 다른 방법들의 하나는 QSPR 방법이다.
실시예 1-1에서 설명한 그룹기여 모델 및 QSPR 모델도 인화하한부피퍼센트 예측방법에 사용된 바 있다. 인화 하한 부피 퍼센트에 대한 QSPR 예측모델은 몇몇 제안된 것들이 있으나 아직 널리 이용되고 있는 것은 없다. Gharagheizi는 분자표현자를 이용한 유전자 알고리즘-다중선형회귀모델을 제시하였으나 [Gharagheizi F. , Energy & Fuels, 22, 5, (2008)], 예측성능은 그다지 좋지 못했다. 이후 여기에 그룹기여 방법에 인공신경망 기법을 적용하여 새로운 모델 [Gharagheizi F. , J. Hazard. Mater. , 170, 595 (2009)]을 제안하였고 1057개의 대상으로 하였고 이전보다 좀 더 향상된 결과를 얻을 수 있었지만 105개에 달하는 조각형식이 사용되었으며 그룹기여 방법이 가지는 문제점이 계속 남아 있다. .
Pan과 그의 동료들은 순수한 탄화수소에 대해 QSPR 예측모델 [Pan Y. , Jiang J., Ding X., Wang R. , Jiang J., AIChE J. , 56, 3 (2010)]을 제안하였으나 대상도 284개로 다양성이 적고 예측성능도 좋지 않았다. 이 모델은 위에서 언급한 바와 같은 그룹기여 방법으로 구축된 모델들의 단점들을 극복하고 보다 폭넓고 보다 정확한 예측성능을 보여줄 것으로 기대된다.
도 1의 단계 1에 지정된 바와 같이 실험데이터를 수집하고 검토 분류하는 일도 본 실시예에 동일하게 적용되나 물성의 종류 및 데이터 수치에만 차이가 있으며, 총 1200개의 화합물들에 대한 인화하한부피퍼센트의 데이터가 수집되었고, 최종적으로 1190개의 화합물에 대한 데이터를 선정하였다. 또한 이를 356개의 탄화수소들과 834개의 비탄화수소들로 분류하여 각각 모델을 확립하였다. 나아가 도 1 및 도 2와 관련된 실시예 1-1에서의 설명 역시 본 실시예에도 동일하게 적용되며 중복되는 설명은 생략한다. 다만 도 1의 단계 10에 기재된 '과적합 방지기준' 과 관련하여, 다만 도 1의 단계 10에 기재된 '과적합 방지기준' 이 본 실시예에서는 탄화수소의 경우 0.4vol¾>, 비탄화수소의 경우 1·5νο1 >이 된다. 이러한 과정을 거쳐 최종적으로 확립한 결과는 표 50, 51에 간략하 나와 있다.
【표 50] 탄화수소의 인화 하한 부피 퍼센트에 대한 QSPR 예측모델의 주요 내용
샘플 화합물들의 개수 356
분자표현자들의 개수 10
Pi: 수소원자 자기상관 차수 3/원자 Sanderson 전기음성도 가중 (H autocorrelation of lag 3 1 Weighted by atomic Sanderson electronegativities)
P2: 상대적 양전하 (RPCG Relative positive charge (QMP0S/QTPLUS))
P3: 3차원 Balaban지수 (3D_Balaban index)
P4: 관성 모멘트 C(Moment of inertia C)
P5: 거리행렬 평균'고유백터계수 합 (average eigenvector coefficient sum from distance matrix)
분자표현자들의 이름
P6: 이중결합의 상대적인 수 (Relative number of double bonds )
P7: 수소원자의 평균 결합차수 (Average bond order of a H atom)
P8: 탄소원자의 최소 결합차수 O0.1) (Min (>0.1) bond order of a C atom)
P9: Balaban X지수 (Balaban X index)
P10: 결합정보내용 (주변대칭 차수 O bond information content (neighborhood symmetry of 0-order ) )
회귀모델 결정계수 0.982895
회귀모델 ΑΑΕ 0.041137vol% 회귀모델 인화 하한 부피 퍼센트 =
Figure imgf000195_0001
인공신경망 결정계수 0.991641
인공신경망 ME 0.029814vol%
인화 하한 부피 퍼센트 (vol¾
인공신경망 QSPR모델
= ^+Σ^^^+^'^-Σ^^))"1 U=l0' ίη=20) 과적합 방지기준 0.4vol
【표 51】 비탄화수소의 인화 하한 부피 퍼센트에 대한 QSPR 예측모델의 주요 내용 샘플 화합물들의 개수 834
분자표현자들의 개수 15
PI: 1 1 분자량 (1 1 molecular weight)
P2: 성분접근지향적 가중 포괄불변분자 지수 /원자 전자위상 상태 가중 (3rd component accessibility direct ional WHIM index 1 weighted by atomic electrotopological states)
P3: 위상거리 2 C-C 결합의 존재여부 (presence/absence of C - C at topological distance 02)
P4: 성분접근지향적 가중 포괄불변분자 지수 /원자량 가중 (3rd' component accessibility direct ional WHIM index 1 weighted by atomic masses)
P5: 산소원자의 수 (number of Oxygen atoms)
P6: 수소원자의 평균 원자가 (Average valency of a H atom)
P7: 회전가능 결합 비율 (rotatable bond fraction) 분자표현자들의 이름 P8: 삼중결합의 상대적인 수 (Relative number of triple bonds )
P9: 중력 지수 (모든 결합) (Gravitation index (all bonds))
P10: R자기상관 차수 1/비가중 (R autocorrelation of lag 1 1 Unweighted)
Pll: 산소원자의 상대적인 수 (Relative number of 0 atoms)
P12: 고리의 상대적인 수 (Relative number of rings) P13: 탄소원자의 최소 부분전하 (Min partial charge for a C atom)
P14: Narumi의 기하 위상학적 지수 (Narumi geometric topological index)
P15: 평균 결합정보 내용 (차수 0) (Average Bonding Information content (order 0) )
회귀모델 결정계수 0.945949
회귀모델 ME 0.180697vol 회귀모델 인화 하한 부피 퍼센트 (vol¾)
Figure imgf000196_0001
인공신경망 결정계수 0.973789
인공신경망 ME 0.121171vol%
인화 하한 부피 퍼센트 (vol%)
인공신경망 QSPR모델 과적합 방지기준 1.5vol%
본 발명의 QSPR모델을 통해 실험값이 알려진 1139개 화합물들을 예측한에 대결과 0.987453의 결정계수값과 0.075078wl¾의 평균절대오차값을 가진다. 도 97은 각 모델의 예측성능을 보여주는 패리티 (parity) 도면이며 실험값과의 비교 데이터가 대각선 상에 밀집되어 있어서 우수한 성능을 가짐을 눈으로 확인할 수 있다. 한편 1139개 화합물들에 대한 실험데이터 중 실험오차가 알려진 것들의 평균 절대오차는 약 0.25 vol%이며 이보다 작은 0.15vol%의 값을 중심으로 실험값과 예측값 사이의 오차를 히스토그램으로 그린 것이 도 98이다. 이 도면에서 QSPR 모델은 95.17%의 확를로 평균 실험오차의 범위 이내로 인화 하한 부괴 퍼센트값을 예측하고 있음을 보여주어 QSPR모델이 정확함을 증명해준다.
[실시예 1-22] 순수한 유기화합물의 인화상한은도를 예측하는 다중선형회귀- 인공신경망흔성 QSPR모델 본 발명의 관심 물성인 인화 상한 온도에 대해서 제안된 예측모델은 전무한 상태이다. 인화범위는 인화하한과 인화상한으로 구분되는데 이는 가연성 가스가 공기와 흔합해 있을 때 점화원에 의하여 계속적으로 인화할 수 있는 가스를 발생하는 최고점에서의 온도를 인화 상한 온도 (upper f la隱 ability limit temperature)라 한다. 현재까지 인화 상한 온도에 대한 예측모델은 보고된 것이 거의 없다. 이는 단지 인화 상한 부피 퍼센트를 통해서 유추하는 방법이 소개되어 있다. 인화 상한 부피 퍼센트는 실험이나 예측을 통해서 제공되고 있는데 이 값을 이용하여 화합물의 부분압력을 구한 후 해당 화합물의 증기압 곡선에서 부분압력에 해당하는 온도를 유추하여 계산한다. 이는 인화 상한 부피 퍼센트의 정확도와 증기압 곡선에 정확도에 의존하게 되는데 정확한 실험값을 토대로. 얻어진 정보가 아니라면 큰 오차를 유발하게 되는 문제점이 있다. 실시예 1-1에서 설명한 그룹기여 모델 및 QSPR 모델도 인화상한온도 예측방법에 사용된 바 있다. 도 1의 단계 1에 지정된 바와 같이 실험데이터를 수집하고 검토 분류하는 일도 본 실시예에 동일하게 적용되나 물성의 종류 및 데이터 수치에만 차이가 있으며, 총 1269개의 화합물돌에 대한 인화상한온도의 데이터가 수집되었고, 최종적으로 1247개의 화합물에 대한 데이터를 선정하였다. 또한 이를 408개의 탄화수소들과 839개의 비탄화수소들로 분류하여 각각 모델을 확립하였다. 나아가 도 1 및 도 2와 관련된 실시예 1-1에서의 설명 역시 본 실시예에도 동일하게 적용되며 중복되는 설명은 생략한다. 다만 도 1의 단계 10에 기재된 '과적합 방지기준' 과 관련하여, 탄화수소의 . 경우 25K, 비탄화수소의 경우 35K의 기준값을 적용한다. 이러한 과정을 거쳐 최종적으로 확립한 결과는 표 52, 53에 간략히 나와 있다. 【표 52】 탄화수소의 인화 상한 온도에 대한 QSPR 예측모델의 주요 내용
샘플 화합물들의 개수 408 분자표현자들의 개수 5
P1: 인화 하한 온도 (Lower f lammability limit temperature)
P2: 삼증결합의 상대적인 수 (Relative number of triple bonds)
P3: 전자회절기반 3차원 분자구조 표현 -차수 32/원자량 분자표현자들의 이름 가중 (3D-MoRSE - signal 32 / weighted by atomic masses)
P4: #CR 1 R=C=R 기능기 수 (#CR 1 R=C=R)
P5: 동경 분포 함수 -3.0/원자량 가중 (Radial
Distribution Function - 3.0 1 weighted )by atomic masses
회귀모델 결정계수 0.995184
회귀모델 ME 4.229604Kᅳ
회귀모델 인화 상한 온도 (K) =
Figure imgf000198_0001
인공신경망 결정계수 0.99642
인공신경망 ME 3.73585K
인화 상한 온도 (K)
인공신경망 QSPR모델 과적합 방지기준 25K
【표 53] 비탄화수소의 인화 상한 온도에 대한 QSPR 예측모델의 주요 내용
샘플 화합물들의 개수 839
분자표현자들의 개수 7
PI: 인화 하한 온도 (Lower flammability limit temperature)
P2: 동경 분포 함수 -2.0/원자 Sanderson 전기음성도 가중 (Radial Distribut ion Function - 2.0 / weighted by atomic Sanderson electronegativities)
P3: CR3X 기능기 수 (CR3X)
P4: 평균 원자 편극도 (탄소원자로 조정) (mean atomic polarizabi 1 ity (scaled on Carbon atom))
분자표현자들의 이름
P5: Geary의 자기상관 -차수 2/원자 Sanderson 전기음성도 가중 (Geary autocorrelation 一 lag 2 / Weighted by atomic Sanderson electronegativities)
P6: 방향족 히드록실기의 수 (n围 ber of aromatic hydroxy Is)
P7: 전자회절기반 3 차원 분자구조 표현 -차수 30/원자 Sanderson 전기음성도 가증 (3D-MoRSE - signal 30 1 weighted by atomic Sanderson electronegativities) 회귀모델 결정계수 0.978855
Figure imgf000199_0001
인화점을 본 발명의 다중선형회귀 -인공신경망 흔성 QSPR 모델을 통해 예측한 결과 0.979809의 결정계수값과 7.067609K의 평균절대오차값을 얻어 예측성능이 우수함을 알게 되었다. 도 99는 인공신경망, QSPR 모델의 예측성능을 보여주는 패리티 (parity) 도면이며 실험값과의 비교 데이터가 대각선 상에 밀집되어 있어서 우수한 성능을 가짐을 눈으로 확인할 수 있다. 한편 124071] 화합물들에 대한 실험데이터 증 실험오차가 알려진 것들의 평균 절대오차는 약 15K이며 이보다 작은 5K의 값을 증심으로 실험값과 예측값 사이의 오차를 히스토그램으로 그린 것이 도 100이다. 이 도면들에서 QSPR 모델은 94.27¾)의 확를로 평균 실험오차의 범위 이내로 인화 상한 온도값을 예측하고 있음을 보여주어 QSPR모델이 정확함을 증명해준다.
[실시예 1-23] 순수한 유기화합물의 인화상한부피퍼센트를 예측하는 다중선형회귀 -인공신경망흔성 QSPR모델
본 실시예의 관심 물성인 인화 상한 부피 퍼센트에 대해서도 현재까지 여러 예측모델들이 제안되었다. 인화범위는 인화하한과 인화상한으로 구분되는데 이는 가연성 가스가 공기와 흔합해 있을 때 가연성 가스가 일정 농도 이상일 경우 인화가 되지 않는 최고점의 농도를 인화 상한 부피 퍼센트 (upper f lammabi 1 ity 1 imit volume percent)라 한다.
인화 상한 부피 퍼센트 예측에 대한 그간의 연구결과들은 문헌 [High M. S., Danner R. P., Ind. Eng. Chew. Res., 1987, 26, 1395]에 간략히 소개되어 있다. 현재 인화 상한 부피 퍼센트를 예측하는 모델로,잘 알려지고 널리 쓰이는 것들은 주로 그룹기여 (group contribution) 방법을 이용한 것들이다. Nuzdha (1979), Zabetakis (1965), Shebeko (1983), Dauber t/Danner (1985), High/Danner (1987) 등:이 그룹기여 모델을 이용한 인화 상한 부피 퍼센트 예측에 대해서 보고하였다.
실시예 1-1에서 설명한 그룹기여 모델 및 QSPR 모델도 인화상한부피퍼센트 예측방법에 사용된 바 있다. 인화 상한 부피 퍼센트에 대한 QSPR 예측모델은 몇몇 제안된 것들이 있으나 아직 널리 이용되고 있는 것은 없다. Pan은 분자표현자를 이용한 유전자 알고리즘-다중선형회귀모델을 제시하였으나 [Pan Y. , Jiang J., Wang R. , Cao H. , Cui Y. , Ind. Eng. Chem. Res. , 48, 5064 (2009)], 예측성능은 만족할만한 수준이 아니었다. Gharagheizi는 보다 확장된 865개 대상으로 유전자 알고리즘 -다중선형회귀모델 [Gharagheizi F. , J: Hazard. Mater. , 167, 507 (2009)]을 제시하여 좀 더 향상된 결과를 보여주었다. 그리고 그룹기여 방법에 인공신경망 기법을 적용하여 새로운 모델 [Gharagheizi F. , Energy Fuels, 24, 3867 (2010)]을 제안하였다. 867개의 대상으로 하였고 이전보다 좀 더 향상된 결과를 얻을 수 있었지만 113개에 달하는 조각형식이 사용되었으며 그룹기여 방법이 가지는 문제점이 계속 남아 있다. 도 1의 단계 1에 지정된 바와 같이 실험데이터를 수집하고 검토 분류하는 일도 본 실시예에 동일하게 적용되나 물성의 종류 및 데이터 수치에만 차이가 있으며, 총 1139개의 화합물들에 대한 인화상한부피퍼센트의 데이터가 수집되었고, 최종적으로 1047개의 화합물에 대한 데이터를 선정하였다. 또한 이를 339개의 탄화수소들과 708개의 비탄화수소들로 분류하여 각각 모델을 '확립하였다. 나아가 도 1 및 도 2와 관련된 실시예 1-1에서의 설명 역시 본 실시예에도 동일하게 적용되며 중복되는 설명은 생략한다. 다만 도 1의 단계 10에 기재된 '과적합 방지기준' 과 관련하여, 탄화수소의 경우 6.0vol%, 비탄화수소의 경우 8.0vol%) 기준값을 적용한다. 이러한 과정을 거쳐 최종적으로 확립한 결과는 표 54, 55에 간략히 나와 있다.
【표 54] 탄화수소의 인화 상한 부피 퍼센트에 대한 QSPR 예측모델의 주요 내용
샘플 화합물들의
339
개수
분자표현자들의 개수 10
Pi: 쌍극자모멘트 가중 모서리 인접행렬 스펙트럼 모멘트 8(Spectral moment 08 from edge adjacency matrix weighted by dipole moment s )
P2: 삼중결합의 상대적인 수 (Relative number of triple bonds )
P3: 관성 모멘트 A (Moment of inertia A)
P4: 탄소원자의 최대 원자가 (Max valency of a C 분자표현자들의 이름 atom)
P5: 보완정보내용 (주변대칭 차수 1)( complementary information content (neighborhood symmetry of 1_ order))
P6: Burden 행렬의 최고 고유값 3/원자 Sanderson 전기음성도 가중 (highest ei envalue no. 5 of Burden matrix / weighted by atomic Sanderson electronegat ivit ies) Ρ7: 쌍극자모멘트 가중 모서리 인접행렬 고유값 Eigenvalue 04 from edge adjacency matrix weighted by dipole moment s )
P8: 지렛대 가중 자기상관 차수 1/원자 Sanderson 전기음성도 가중 (lever age一 weighted autocorrelation of lag 1 1 Weighted by atomic Sanderson electronegativities)
P9: 수소원자의 평균 결합차수 (Average bond order of a H atom)
P10: 탄소원자의 평균 친전자 반웅지수 (Average electrophi lie react ion index for a C atom) 회귀모델 결정계수 0.973705
회귀모델 ME 0.674884vol%
회귀모델 인화 상한 부피 퍼센트 (vol¾ = c0+ ;=1c,. (^10) 인공신경망 결정계수 0.990744
인공신경망 ME 0.423904vol%
인공신경망 QSPR 인화 상한 부피 퍼센트 (vo )
ᄆ νΛ) - ^ +∑ =1^,(l + exp(-r-∑ .^.))-' (/=10, //F8) 과적합 방지기준 6.0vol
【표 55】 비탄화수소의 인화 상한 부피 퍼센트에 대한 QSPR 예측모델의 주요 내용 샘플 화합물들의
708
개수
분자표현자들의 개수 15
Pi: Burden 행렬의 최저 고유값 2/원자 Sanderson 전기음성도 가중 (lowest eigenvalue no. 2 of Burden matrix 1 weighted by atomic Sanderson electronegativities)
P2: R 최대"자기상관 차수 1/원자량 가중
(R maximal autocorrelat ion of lag 1 1 Weighted by atomic masses)
P3: Burden 행렬의 최저 고유값 1/원자 Sanderson 전기음성도 가중 (lowest eigenvalue no. 1 of Burden 분자표현자들의 이름
matrix / weighted by atomic Sanderson e 1 ectronegat ivities)
P4: 탄소원자의 최소 순원자전하 (Min net atomic charge for a C atom)
P5: 탄소원자의 최소 1-전자 반응 지수 (Min 1- electron react ion index for a C atom)
P6: 탄소원자의 최대 순원자전하 (Max net atomic charge for a C atom)
P7: Al-0-Ar 1 Ar-Q-Ar 1 R..0..R 1 R-0-C=X 기능기 수 (Al-0-Ar 1 Ar-0-Ar 1 R..0..R 1 R-0-OX)
P8: =CHX 기능기 수 (=CHX)
P9: 산소원자의 최대 친핵성 반웅 지수 (Max nucleophi lie react ion index for a 0. atom)
P10: 모서리도 가중 모서리 인접행렬 고유값 7(Eigenvalue 07 from edge adjacency matrix weighted by edge degrees)
Pll: 최고준위 점유 분자궤도 - 1 에너지 (H0M0-1 energy)
P12: 지¾대 가중 자기상관 차수 0/원자 반데르발스 부피 가중 ( leverage— weighted autocorrelation of lag 01 Weighted by atomic van der Waals volumes) P13: 탄소원자의 최소 부분전하 (Min partial charge for a C atom)
P14: 평균 결합정보 내용 (차수 2)(Average Bonding Information content (order 2))
P15: 지렛대 가중 자기상관 차수 2/원자 Sanderson 전기음성도 가중 ( lever age一 weighted autocorrelation of lag 2 1 Weighted by atomic Sanderson electronegativities )6
회귀모델 결정계수 0.880997
회귀모델 AAE 1.088283vol%
회귀모델 인화 상한 부피 퍼센트 (vo ) = c0+∑=ic,^. (Λ=15) 인공신경망 결정계수 0.926066
인공신경망 ME 0.90808 lvol
인공신경망 QSPR 인화 상한 부피 퍼센트 (vol%)
ᄆ o Ξil = ^ + Z^^ + exp - -^ w..^))-' (/=15' //尸 19) 과적합 방지기준 8.0vol%
본 발명이 기존 기술보다 우월함을 보이기 위해 이렇게 확립된 QSPR 모델과 기존의 그룹기여 모델인 High/Danner 모델 [High M. S. , Danner R. P. , Ind. Eng. Chem. Res., 1987 26, 1395]의 예측성능을 실험값이 알려진 화합물들의 데이터 1020개를 사용하여 비교하였다. 그 결과 High/Danner 모델은 457개에 대해서만 예측값을 계산해주며 0.11347의 결정계수값과 1.8573 vol%의 평균절대오차값을 가짐을 알게 되었다. 반면 본 발명의 QSPR 모델은 1020개 전부에 대해 예측값을 계산해주며 0.967073의 결정계수값과 0.686357 vol%의 평균절대오차값을 가져 High/Danner 모델보다 월등히 우수함을 알게 되었다. 도 101, 102는 각 모델의 예측성능을 보여주는 패리티 (parity) 도면들이며 이 도면들로부터 QSPR 모델이 기존 모델보다 우수한 성능을 가짐을 눈으로 확인할 수 있다. 한편 1020개 화합물들에 대한 실험데이터 중 실험오차가 알려진 것들의 평균 절대오차는 약 1.50 wl¾이며 이 값을 중심으로 실험값과 예측값 사이의 오차를 히스토그램으로 그린 것이 도 103, 104이다. 이 도면들에서 High/Danner 모델은 93.21%, QSPR 모델은 97.84%의 확률로 평균 실험오차의 범위 이내로 인화 상한 부피 퍼센트값을 예측하고 있음을 보여주아 QSPR모델이 기존 모델보다 정확함을 증명해준다. 인화 상한 부피 퍼센트는 인화성 화합물과 관련된 공정의 설계에서 아주 중요한 인자로 사용되기 때문에 모의시험에 사용할 수 있는 예측값을 제공함으로써 공정 반웅시 발생할 수 있는 위험요소를 사전에 파악 및 인지하여 최적화된 설계를 할 수 있다.
[실시예 1-24] 순수한 유기화합물의 정상끓는점에서의 액체밀도를 예측하는 다중선형회귀 -인공신경망흔성 QSPR모델
본 실시예의 관심 물성인 정상끓는점에서의 액체밀도에 대해서도 현재까지 여러 예측모젤들이 제안되었다. 정상끓는점에서의 액체밀도 예측에 대한 그간의 연구결과들은 문헌 [Poling B. E. , Prausnitz J. M., 0, Connell J. P., The Properties of Gases and Li quids (5 ed. ), New York, McGraw Hill, (2000).] 에 간략히 소개되어 있다. 표 56은 그 동안 제안되었던 정상끓는점에서의 액체밀도들에 대한 주요한 모델들을 연도순으로 보여 주고 제안자
1949 Schroeder
1970 Racket t
1975 Tyn M.T. , Calus W.F.,
1987 LeBas
1991 Elbro, et al
1996 Sastri S.R.S. , Mohanty S. , Rao K.
1997 Dauert , et al .
현재 정상끓는점에서의 액체밀도를 예측하는 데는 정상끓는점에서의 액체 몰부피를 구하고 역수를 취하는 방법이 있다. Schroeder (Partington, 1949)는 정상끓는점에서의 몰부피를 측정하는 간단한 덧셈으로 구하는 방법을 제안하였다. 그의 규칙은 탄소, 수소, 산소, 질소의 원자 수를 세는것이고 이중결합, 삼중결합 등을 더하는 것이다. Schroeder이 제안한 초기식에는 할로겐, 황, 삼중결합의 개수도 포함되었다. 이 규칙은 3~4%의 오차를 가지며 여러가지 작용기가 복합적으로 존재할 때 정확한 예측이 ' 어려워진다.
Vb =7(NC +NH + N0 +NN+ NDB + 2ΝΝτΒ ) + 31.5N Br + 24.5NC/ +10.5Nf +38.5N, +21N5 -7
DB, TB는 이중결합, 삼중결합을 뜻하며 *는 만약 분자가 하나나 그 이상의 링을 형성할 때 쓴다. Tyn과 Calus 방법 (1975)은 3~4%의 평균오차를 가지며 이 방법의 경우는 임계부피 ( c)가 있어야 계산할 수 있다.
Vb = 0.285 c 1048 정상끓는점에서의 액체밀도 값을 예측하는 방법 중 하나는 그룹기여 (group contribution) 방법을 이용한 것들이다. 그룹기여모델로 예측된 모델은 sastri에 의해 제안되었다. [Sastri S.R.S. , Mohanty S. , Rao Κ. , "Liquid Volume at Normal Boiling Point" , Can . J . Chem . Eng . , 74, 17으 172, 1996] 실시예 1-1에서 설명한 그룹기여 모델 및 QSPR 모델도 정상 끓는점에서의 액체밀도 예측방법에 사용된 바 있다. 도 1의 단계 1에 지정된 바와 같이 실험데이터를 수집하고 검토 분류하는 일도 본 실시예에 동일하게 적용되나 물성의 종류 및 데이터 수치에만 차이가 있으며, 총 1002개의 화합물들에 대한 정상 끓는점에서의 액체밀도 데이터가 수집되었고, 최종적으로 987개의 화합물에 대한 데이터를 선정하였다.
나아가 도 1 및 도 2와"관련된 실시예 1-1에서의 설명 역시 본 실시예에도 동일하게 적용되며 중복되는 설명은 생략한다/ 다만 도 1의 단계 10에 기재된 '과적합 방지기준' 으로 본 실시예에서는 (3000mol/in3)의 기준값을 적용한다. 이러한 과정을 거쳐 최종적으로 확립한 결과는 표 57에 간략히 나와 있다.
【표 57】
Figure imgf000206_0001
atomic polarizabilities)
P7: Ghose-Crippen 의 옥탄을-물 분배계수 ( logP)(Ghose-Crippen octanol -water partition coefficient (logP))
P8: 자기상관 차수 2/원자 편극도 가중 (R autocorrelat ion of lag 2 / Weighted by atomic polarizabilities)
P9: 그래프 거리 복잡도 지수 (로그값) (graph distance complexity index (log))
Pio: 지렛대 가중 자기상관 차수 1/원자 편극도 가증 ( leverage一 weighted autocorrelat ion of lag 1 I Weighted by atomic polarizabilities)
Pll: Balaban V지수 (Balaban V index)
Pi2: 지렛대 가중 자기상관 차수 1/원자 Sanderson 전기음성도 가중 ( lever age一 weighted autocorrelat ion of lag 1 I Weighted by atomic Sanderson electronegat ivit ies)
Pis'- 지렛대 가증 자기상관 차수 4/원자 Sanderson 전기음성도ᅵ 가중 ( leverage— weighted autocorrelat ion of lag 4 I Weighted by atomic Sanderson e 1 ect ronegat ivities)
P14: R 자기상관 차수 1/원자 Sanderson 전기음성도 가중 (R autocorrelat ion of lag 1 / Weighted by atomic Sanderson elect ronegat ivities)
Pis: 평균 원자가 결합지수 차수 0( aver age valence connectivity index chi-0)
회귀모델 결정계수 0.9958
회귀모델 ME 247.985 mo 1/m'
회귀모델 끓는점에서의 액체밀도 (mol/m3) =
인공신경망 결정계수 0.997
인공신경망 ME 124.43mol/m'
끓는점에서의 액체밀도 =
인공신경망 QSPR
모델
과적합 방지기준 3000mol/m'
본 발명이 기존 기술보다 우월함을 보이기 위해 이렇게 확립된 QSPR 모델과 널리 사용되는 기존의 그룹기여 모델 즉 Sastri 모델 [Sastri S.R.S., Mohanty S. , Rao Κ." Liquid Volume at Normal Boiling Point" , Can.
J.Chem.Eng. , 74,170-172, 1996]의 예측성능을 실험값이 알려진 899개의 화합물들의 데이터를 사용하여 비교하였다. 그 결과 Sastri 모델은 898개에 대해서만 예측값을 계산해주며 0.952226의 결정계수값과 282.7894mol/m3의 평균절대오차값을 가짐을 알게 되었다. 반면 QSPR 모델은 899개 전부에 대해 예측값을 계산해주며 0.997995의 결정계수값과 107.945mol/m3의 평균절대오차값을 가져 기존 모델보다 우수함을 알게 되었다. 도 105, 106은 각 모델의 예측성능을 보여주는 패리티 (parity) 도면들이며 이 도면들로부터 QSPR 모델이 기존 모델보다 우수한 성능을 가짐을 눈으로 확인할 수 있다. 한편 899개 화합물들에 대한 실험데이터 중 실험오차가 알려진 것들의 평균 퍼센트 오차는 약 3%이며 이보다 큰 5%의 값을 중심으로 실험값과 예측값 사이의 오차를 히스토그램으로 그린 것이 도 107, 108이다. 이 도면들은 Sastri 모델은 79.06%, QSPR 모델은 95.66%의 확를로 오차의 범위 이내로 끓는점에서의 액체밀도값을 예측하고 있음을 보여주어 QSPR 모델이 기존 두 모델보다 정확함을 증명해준다.
본 실시예의 액체밀도는 화학플랜트의 최적설계 프로그램으로 잘 알려진 AspenPlus 나 Pro/II 와 같은 상용 프로그램이 그 정확한 값을 절실히 요청하는 물성이며 대웅상태원리 (corresponding states principle)를 기반으로 상관관계를 통해 여러 다른 물성들의 값을 예측하고자 할 때 참조점을 제공해주는 중요한 물성이다. 이 끓는점에서의 액체밀도는 종종 물성 상관관계에서 순수화합물의 상수로 사용된다.
[실시예 1-25] 순수한 유기화합물의 298.15K에서의 기화열을 예측하는 다중선형회귀 -인공신경망흔성 QSPR모델 실시예 1-1에서 설명한 그룹기여 모델 및 QSPR 모델도 표준상태의 298.15K에서의 기화열 예측방법에 사용된 바 '있으며, 표 58은 그 동안 제안되었던 기화열에 대한 주요한 모델들을 연도순으로 보여 주고 있다. 【표 58】
Figure imgf000209_0001
실시예 1-1에서 설명한 종래기술의 문제점은 본 실시예에 대해서도 동일하게 존재하고 있다.
도 1의 단계 1에 지정된 바와 같이 실험데이터를 수집하고 검토 분류하는 일도 본 실시예에 동일하게 적용되나 물성의 종류 및 데이터 수치에만 차이가 있으며, 총 1635개의 화합물들에 대한 298.15K에서의 기화열와 데이터가 수집되었다. 최종적으로는 1392개의 화합물에 대한 데이터를 선정하였다. 그리고 이를 560개의 탄화수소 1:과 832개의 비탄화수소로 분류하여 각각 모델을 확립하였다.
나아가 도 1 및 도 2, 그리고 이와 관련된 실시예 1-1에서의 설명 역시 본 실시예에도 동일하게 적용되며 중복되는 설명은 생략한다. 다만 도 1의 단계 10에 기재된 '과적합 방지기준' 이 본 실시예에서는 (탄화수소의 경우 2.868kcal/mol, 비탄화수소의 경우 5.258kcal/mol )가 된다. 이 같은 과정을 거쳐 최종적으로 확립된 모델에 대한 결과는 결과는 표 59, 60에 간략히 나와 있다.
【표 59】 ' 탄화수소의 298.15K에서의 기화열에 대한 QSPR 예측모델의 주요 내용 샘플화합물들의 개수 560
분자표현자들의 개수 10
Pi: 수정된 Randic 연결 지수 (modified Randic connectivity index)
F 전자회절기반 3 차원 분자구조 표현 -차수 10/원자 편극도 가중 (3D-MoRSE - signal 10 / weighted by atomic polarizabilities)
P3: 수소원자의 최소 부분전하 (Min partial charge for a H atom)
P4: 회전가능 결합의 수 (number of rot at able bonds) P5: 전자회절기반 3 차원 분자구조 표현 -차수 25/원자량 가증 (3D~MoRSE - signal 25 / weighted by atomic masses) 분자표현자들의 이름
Pe: 결합정보내용 (차수 lKBonding Information content (order 1))
P7: 비.치환된 벤젠 Sp2 탄소의 수 (number of unsubst i tuted benzene C(sp2))
Pe: 8각형 고리의 수 (number of 8 -member ed rings)
P9: Ghose-Viswanadhan-Wendoloski 의 최면성 지수 (80% 차지) (Ghose—Viswanadhan—Wendoloski hypnotic— like index at 80%)
Pio: 원자가 연결 지수 차수 4(valence connectivity index chi -4)
회귀모델 결정계수 0.99179
회귀모델 ME 0.523kcal/mol
회귀모델 298.15K에서의 기화열 (kcal/mol) = cn + Y10 c R
인공신경망 결정계수 0.996
인공신경망 ME 0.2071kcal/mol . ᅳ
인공신경망 QSPR
U해 298.15K에서의 기화열 =Γ + w'y, (1 + exp(-r―∑^ Ξ 녜1 과적합 방지기준 2.868kcal/mol
【표 60】 비탄화수소의 298.15K에서의 기화열에 대한 QSPR 예측모델의 주요 내용
샘플화합물들의 개수 832
분자표현자들의 개수 15
Pi: 산소원자의 최소 친전자성 반응 지수 (Min electrophi lie reactivity index for a 0 atom)
?2- 위상학적 전하 지수 차수 3( topological charge index 분자표현자들의 이름 of order 3)
P3: 분자 걸음 합계 차수 Kmolecular walk count of order 01 (number of nonᅳ H bonds , nBO)
P4: 전체전하 가중 부분음전하 표면적 분율 (FNSA-2 Fractional PNSA (PNSA-2/TMSA))
P5: Geary 의 자기상관 -차수 1/원자 반데르발스 부피 가중 ( Geary autocorrelation - lag 1 1 Weighted by atomic van der Waals volumes)
P6: 수소결합의존적 수소제공체 표면적 분율 (HA dependent HDSA-1/TMSA)
P7: Onsager-Kirkwood 의 용매화 에너지 이미지 (Image of the Onsager-Ki rkwood sol vat ion energy)
P8: 산소원자의 상대적인 수 (Relative number of 0 atoms P9: (방향족) 카르복실산의 수 (number of carboxylic acids (aromat ic) )
P10: 수소결합의존적 수소결합 기부체 원자의 면적가증 표면전하 (HA dependent HDCA-2)
P11: 전자회절기반 3 차원 분자구조 표현 -차수 17/원자 Sanderson 전기음상도 가중 (3D-MoRSE - signal 17 / weighted by atomic Sanderson electronegativities) Pi2: 구아니딘 유도체의 수 (number of guanidine der ivat ives)
P13:. (지방족) 1 차 아미드의 수 (number of primary amides (al iphat ic) )
Pi4: 위상거리 5 N-N 결합의 존재여부 (presence/absence of
N - N at topological distance 05)
P15: 황원자 수 (number of Sulfur atoms)
회귀모델 결정계수 0.9616
회귀모델 ME 1.4246kcal/mol
회귀모델 298.15K에서의 기화열 (kcal/mol)= α,+^α^
인공신경망 결정계수 0.984
인공신경망 ME 0.5866kcal/mol
인공신경망 QSPR
ᄆ cfl , 298.15K에서의 기화열 = T + Χ'6 νν',, (l + exp(-r -∑^ w,/^ ))"' Ξ
과적합 방지기준 5.2581kcal/mol
본 발명이 기존 기술보다 우월함을 보이기 위해 이렇게 확립된 QSPR 모델과 널리 사용되는 기존의 그룹기여 모델 즉 Gani 모델 [Const antinou, L. , Gani R. , New Group Contribution Method for Estimating Properties of Pure Compounds, AIChE J. , 40: 1697 (1994).]의 예측성능을 실험값이 알려진 1,044개의 화합물들의 데이터를 사용하여 비교하였다. 그 결과 Gani 모델은 873개에 대해서만 예측값을 계산해주며 0.94508의 결정계수값과 0.807359kcal/m 의 평균절대오차값을 가짐을 알게 되었다. 반면 QSPR 모델은 1,044개 전부에 대해 예측값을 계산해주며 0.995373의 결정계수값과 0.269799kcal/m 의 평균절대오차값을 가져 기존 모델보다 우수함을 알게 되었다. 도 109, 110은 각 모델의 예측성능을 보여주는 패리티 (parity) 도면들이며 이 도면들로부터 QSPR 모델이 기존 모델보다 우수한 성능을 가짐을 눈으로 확인할 수 있다. 한편 1,044개 화합물들에 대한 실험데이터 중 실험오차가 알려진 것들의 평균 퍼센트 오차는 약 3%이며 이 값을 중심으로 실험값과 예측값 사이의 오차를 히스토그램으로 그린 것이 도 111, 112이다. 이 도면들은 Gani 모델은 75.02%, QSPR 모델은 93.96%의 확률로 평균 실험오차의 범위 이내로 298.15K에서의 기화열을 예측하고 있음을 보여주어 QSPR모델이 기존 모델보다 정확함을 증명해준다.
[실시예 1-26] 순수한 유기화합물의 정상끓는점에서의 기화열을 예측하는 다중선형회귀 -인공신경망 흔성 QSPR모델
본 실시예의 관심 물성인 정상끓는점에서의 기화열에 대해서도 현재까지 여러 예측모델들이 제안되었다. 정상끓는점에서의 기화열 예측에 대한 그간의 연구결과들은 문헌 [Poling B. E. , Prausnitz J. M., 0' Connell J. P., The Properties of Gases and Li quids (5 ed. ), New York, McGraw Hill, (2000).]에 간략히 소개되어 있다.
기화열을 예측하는 방법 중에는 많이 이용되는것이 주로 대웅상태의 원리에 기반하여 개발된 수식들 중 증기압 관계식으로부터 구하는 것이다. 이때 정상끓는점에서의 기화열은 T=Tb로 P=1.01325bar로 넣으면 된다. 이 수식은 정상끓는점에서의 기화열을 빨리 예측하는데 널리 이용되고 있다. 보통 이 경우 ᅀ^ ώ는 1이다. 이 형식을 Giacalone Equat ion(Giacalone, 1951)이라고 부른다. ~ 1br
Kisticakowsky rule(Majer, et al . , 1989)은 다른 간단한 식으로 정상끓는점에서의 기화열 (Δ^^을 측정하는데 사용한다.
AHvb = 6A + R\nTb)T
Riedel(1954)은 Ciacalone 방법을 수정하여 다음 식을 제안하였다.
InP -1.013
AHvi = 1.093RTcTt
0.930-7;
Chen은 증기압과 관련된 Pitzer에 의해 제안된 식을 사용하여 이심인자를 제거하여 ΔΗν, Pvpr, Tr사이의 관계식을 얻었다. 이를 정상끓는점에 의 기화열에 응용했을 경우 다음과 같은 수식이 된다.
3.9787;.. -3.958 + 1.5551η P
Vetere 방법 (1979, 1995)은 Chen에 의해 제안된것과 비슷한 식을 제안하였는데 이를 정상끓는점에서의 기화열에 웅용하면 다음과 같은 수식이 된다.
AH -RT ^ -T»r)°3&(^pc -0.513 + 0.5066/( ^))
Vb ' b \-Tbr^F{\~{\-T M)\nTbr
F는 탄소 2개 이상을 가진 알콜과 S03, NO, N02 같은 중핵분자에 대해
1.05이고 그 외의 다른 분자들은 1이다. Tc와 Pc를 이용할 수 없을 때는 다음 수식을 사용한다
A + B\nTb + b 이 식에서 상수 A B, 는 몇몇 화합물의 종류에 따라 다르게 주어진다. 는 분자량이다. 위와 같이 증기압 관계식으로부터 정상끓는점에서의 기화열을 예측하는 것은 계산시간이 빠르고 간편하나 정확도가 떨어진다는 단점이 있다.
정상끓는점에서의 기화열을 예측하는 모델들 중 그룹기여 (group contribution) 방법을 이용한 것들도 있다.
Hoshino와 그의 동료들이 그룹기여 방법으로 계산하는 정상끓는점에서의 기화열을 예측하는 모델을 제안하였다 .[Hoshino D. , Nagahama K. , Hirata Μ. "Predict ion of the Entropy of Vapor izat ion at the Normal Boiling Point by the Group Contr ibut ion Method" , Ind.Eng.Chem. Fundam . , 22(4) ,430- 433, 1983] . 이 방법에서 제안하는 수식은 다음과 같다. Δ¾는 정상 끓는점에서의 기화엔트로피이며 는 조각형식의 증분이다.
ASvb =AHvb/Tb ^ASi
이 모델은 탄화수소 411개와 비탄화수소 157개로 이루어진 568개의 화합물로 예측하였다. 평균오차는 1.5%였으며 sulfur chloride와 1,1ᅳ difluoroethane에 대해서는 최대오차 5.1%를 가진다. 이 그룹기여방법은
1978년의 Trouton' s rule에 기초한다 이 모델은 작용기가 많은 분자의 경우 정확한 예측이 어렵다. 실시예 1-1에서 설명한 그룹기여 모델 및 QSPR 모델도 정상끓는점에서의 기화열 예측방법에 사용된 바 있으며, 표 61은 그 동안 제안되었던 정상끓는점에서의 기화열에 대한 주요한 모델들을 연도순으로 보여 주고 있다.
【표 61]
Figure imgf000215_0001
도 1의 단계 1에 지정된 바와 같이 실험데이터를 수집하고 검토 분류하는 일도 본 실시예에 동일하게 적용되나 물성의 종류 및 데이터 수치에만 차이가 있다. 조사 결과, 끓는점 ±3K 사이의 온도에서 기화열을 가지는 분자가 840개, 그리고 많은 실험값으로 온도에 관한 그래프를 만들 수 있어 정상끓는점에서의 기화열 값을 유도할 수 있는 경우가 274개로 총 1,104개였다. 최종적으로는 899개의 화합물에 대한 데이터를 선정하였고, 이를 383개의 탄화수소들과 516개의 비탄화수소로 분류하여 각각 모델을 확립하였다.
나아가 도 1 및 도 2, 그리고 이와 관련된 실시예 1-1에서의 설명 역시 본 실시예에도 동일하게 적용되며 중복되는 설명은'생략한다. 다만 도 1의 단계 10에 기재된 '과적합 방지기준' 이 본 실시예에서는 (탄화수소인 경우 0,478011 kcal/mol, 비탄화수소인 경우 0.956023 kcal/mol)가 된다. 이 같은 과정을 거쳐 최종적으로 확립된 모델에 대한 결과는 (표 62, 63에 간략히 나와 있다.
【표 62】 탄화수소의 정상끓는점에서의 기화열에 대한 QSPR 예측모델의 주요 내용 샘플화합물의 개수 383
분자표현자들의
10
개수
Pi: 전자회절기반 3'차원 분자구조 표현 -차수 11/원자 편극도 가중 (3D-MoRSE - signal 11 1 weighted by atomic polarizabi 1 ities)
P2: 전자회절기반 3 차원 분자구조 표현 -차수 10/원자 반데르발스 부피 가중 (3D-MoRSE - signal 10 1 weighted by atomic van der Wa ls volumes)
P3: 동경 분포 함수 -2.0/비가중 (Radial Distribution Function - 2.0 / unweighted)
P4: 동경 ' 분포 함수ᅳ12.5/원자량 가중 (Radial Distr ibut ion Funct ion - 12.5 1 weighted by atomic masses)
분자표현자들의
P5: 탄소원자의 최대 순원자전하 (Max net atomic charge 이름
for a C atom)
P6: Ghose-Vi swanadhan-Wendo loski 의 항우울성 지수
(80% 차지 ) (Ghose-Vi swanadhan-Wendo 1 oski antidepressantᅳ 1 ike index at 80%)
P7: 정상끓는점 X 0.55(Normal boiling point X 0.55)
P8: 최대 전자위상적 음의 편차 (maximal electrotopological negative variation)
P9: 위상학적 전하 지수 차수 6(topological charge index of order 6)
P10: 원자전하 가중 부분양전하 표면적 분율 (FPSA-3 Fractional PPSA (PPSA-3/TMSA))
회귀모델 결정계수ᅳ 0.9953
회귀모델 ME 0.1272kcal/mol
회귀모델 끓는점에서의 기화열 (kcal/mol)= 0+∑ ^.
인공신경망
0.9975
결정계수
인공신경망 ME 0.0909 kcal/mol
인공신경망 QSPR
끓는점에서의 기화열 =
Ξ 과적합 방지기준 0.478011 kcal/mol
【표 63] 비탄화수소의 정상끓는점에서의 기화열에 대한 QSPR 예측모델의 주요 내용 샘플화합물의 개수 516
분자표현자들의 .
15
개수
Pi: 술폭사이드의 수 (number of sulfoxides)
P2: 동경 분포 함수 -14.0/원자량 가중 (Radial
Distribution Function ᅳ 14.0 1 weighted by atomic masses)
P3: 히드록실기의 수 (number of hydroxy 1 groups)
P4: 수소결합의존적 수소결합 기부체 원자의 면적가증 표면전하 대 분자총면적 제곱근의 비 (HA dependent
HDCA-2/SQRTCTMSA))
P5: X-CH--X 기능기 수 (X—CH—X)
P6: '정상끓는점 (n이" mal boiling point)
. 임계은도, Tb :
Figure imgf000217_0001
¬산 느^ )
P8: 방향족 히드록실기의 수 (number of aromatic 분자표현자들의 hydroxyls)
이름 P9: 전자회절기반 3 차원 분자구조 표현 -차수 22/원자
Sanderson 전기음성도 가중 (3D-MoRSE - signal 22 / weighted by atomic Sanderson electronegativities) ?10: 수소결합 수용원자의 수 (number of acceptor atoms for H-bonds (N,0,F))
Pu: number of donor atoms for H-bonds (N and 0)
P12: 전자회절기반 3 차원 분자구조 표현- 차수 4/비가중 (3D-MoRSE - signal 04 / unweighted)
Pis-- 거리 /우회 고리 지수 차수 10(distance/detour ring index of order 10)
Pi4: 분자내 수소결합의 수 (number of intramolecular H- bonds )
Pis-' 공명적분 가중 모서리 인접행렬 고유값 7(Eigenvalue 07 from edge adjacency matrix weighted by resonance integrals)
회귀모델 결정계수 0.9761
회귀모델 ME 0.297443kcal/mol
회귀모델 끓는점에서의 기화열 (kcal/mol)=
인공신경망 0.9868 결정계수
인공신경망 ME 0.217686 kcal/mol
끓는점에서의 기화열 (kcal/mol) =
인공신경망 QSPR 과적합 방지기준 0.956023 kcal/mol '
' , ^ \-AEB R J CTT- NBP Ί
ΡΊ: thetaEb = ,\E = ]
I- A CTT -MPO
A: 1.07068, B: 0.365, CTT: 임계온도, NBP: 정상끓는점, MPO: 녹는점 본 발명이 기존 기술보다 우월함을 보이기 위해 이렇게 확립된 QSPR 모델과 널리 사용되는 기존의 그룹기여 모델 즉 Joback 모델 [Joback K. G., Reid R.C. , Est imat ion of pure-component properties from gr oup-cont r i but i ons , Chem. Eng. Co麵. , 57: 233 (1987).] 의 예측성능을 실험값이 알려진 895화합물들의 데이터를 사용하여 비교하였다. 그 결과 Joback 모델은 832개에 대해서만 예측값을 계산해주며 0.925905의 결정계수값과 0.47235kcal/mol의 평균절대오차값을 가짐을 알게 되었다. 반면 QSPR 모델은 895개 전부에 대해 예측값을 계산해주며 0.991142의 결정계수값과 0.167757kcal/iw)l의 평균절대오차값을 가져 기존 두 모델보다 우수함을 알게 되었다. 도 113, 114은 각 모델의 예측성능을 보여주는 패리티 (parity) 도면들이며 이 도면들로부터 QSPR 모델이 기존 모델보다 우수한 성능을 가짐을 눈으로 확인할 수 있다. 한편 895개의 화합물들에 대한 실험데이터 중 실험오차가 알려진 것들의 평균 퍼센트 오차는 약 5.9 »며 이보다 작은 0.5%의 값을 중심으로 실험값과 예측값 사이의 오차를 히스토그램으로 그린 것이 도 115, 116이다. 이 도면들은 Joback 모델은 75.24%이며 QSPR 모델은
95.75%의 확를로 평균 실험오차의 범위 이내로 끓는점에서의 기화열을 예측하고 있음을 보여주어 QSPR 모델이 Joback 그룹기여 모델보다 정확함을 증명해준다.
기화열은 화학플랜트의 최적설계 프로그램으로 잘 알려진 AspenPlus 나 Pro/I I 와 같은 상용 프로그램이 그 정확한 값을 절실히 요청하는 물성이며, 대웅상태원리 (corresponding states principle)를 기반으로 상관관계를 통해 여러 다른 물성들의 값을 예측하고자 할 때 참조점을 제공해주는 중요한 물성이며 끓는점에서의 기화열은 종종 물성 상관관계에서 순수화합물의 상수로 사용된다. ᅳ
[실시예 1-27] 순수한 유기화합물의 옥탄을-물 분배계수를 예측하는 다중선형회귀 -인공신경망흔성 QSPR모델
본 실시예의 관심 물성인 옥탄올-물 분배계수에 대해서도 현재까지 여러 예측모델들이 제안되었다. 옥탄을ᅳ물 분배계수 (Octanol-Water Partition Coefficient)라 함은 두 흔합되지 않는 물질, 옥탄올과 물에서의 용질의 분포를 나타내는 계수를 말한다. 옥탄올-물 분배계수 예측에 대한 그간의 연구결과들은 문헌 [R. Mannhold, H. Kubinyi, G. Folkers, Molecular Drug Properties : Measurement and Prediction. Wiley-VCH. (2008).]에 소개되어 있다. 현재 옥탄올-물 분배계수를 예측하는 모델로 잘 알려지고 널리 쓰이는 것들은 주로 그룹기여 (group contribution) 방법을 이용한 것들이다. 표 64는 그 동안 제안되었던 옥탄올—물 분재계수에 대한 주요한 그룹기여 모델들을 계산해 주는 프로그램과 제공회사를 보여 주고 있다.
【표 64】
프로그램 제공자
KL0GP MULTICASE Syracuse Research Corporation
' OWWIN .
US EPA
Dayl ight
CLOGP
Biobyte
ACD/LogP Advanced Chemistry Development
AB/LogP Advanced Pharma Algorithms
MOLCAD Tripos
TSAR Accel rys .
PROLOGP Compudrug
AL0GP97 in Cerius Accel rys
XL0GP2.0 Luhua Lai
실시예 1-1에서 설명한 그룹기여 모델 및 QSPR 모델도 옥탄을ᅳ물 분배계수 예측방법에 사용된 바 있다. 인공신경망을 이용하여 옥탄올-물 분배계수를 예측하는 QSPR 모델은 몇몇 제안된 것이 있으나 샘플화합물의 수가 적거나 특정 계열의 화합물들에만 국한된 것들이 대부분이다. 문헌 [Bernd Beck, Andreas Breindl , and Timothy Clark. QM/NN QSPR Models with Error Estimation' Vapor Pressure and LogP. J. Chem. Inf . Comput . Sci . 2000, 40, 1046-1051]에는 1085개의 화합물에 대한 데이터를 이용하여 16개의 분자표현자를 사용한 모델이 보고되어 있다. 이후에 인공신경망을 이용하는 연구를 진행하여 0.74의 결정계수 (coefficient of determination)값을 갖는 Network Layer [16-1으 1]가보고되어 있다. 도 1의 단계 1에 지정된 바와 같이 실험데이터를 수집하고 검토 분류하는 일도 본 실시예에 동일하게 적용되나 물성의 종류 및 데이터 수치에만 차이가 있으며, 총 1724개의 화합물들에 대한 표준상태의 이상기체 절대 엔트로피의 데이터가 수집되었다. 최종적으로는 1320개의 화합물에 대한 데이터를 선정하였다. 그리고 이를 225개의 탄화수소들과 1095개의 비탄화수소로 분류하여 각각 모델을 확립하였다. 나아가 도 1 및 도 2, 그리고 이와 관련된 실시예 1-1에서의 설명 역시 본 실시예에도 동일하게 적용되며 중복되는 설명은 생략한다. 다만 도 1의 단계 10에 기재된 '과적합 방지기준' 이 본 실시예에서는 (탄화수소의 경우 0.3, 비탄화수소의 경우 1)가 된다. 이 같은 과정을 거쳐 최종적으로 확립된 모델에 대한 결과는 표 65, 66에 간략히 나와 있다. 표 65, 66에서 ClogP는 Calculated logP의 축약된 용어로 P는 Partition coefficient의 첫문자를 의미하는 것으로 ClogP 계산 프로그램은 표 64에 있는 ClogP 제공자중에서 Biobyte에서 제공하는 프로그램을 사용하여 계산하였다.
【표 65]
Figure imgf000221_0001
비탄화수소의 옥탄올-물 분배계수에 대한 QSPR 예측모델의 주요 내용
샘플 화합물들의 개수 1095
분자표현자들의 개수 7
P1: 상용 프로그램에 의해 얻은 옥탄올-물 분배계수 (ClogP)
P2: 수소원자 자기상관 차수 7/원자량 가중 (H autocorrelat ion of lag 61 Weighted by atomic masses) P3: 탄소원자의 최소 원자가 (Minimum valency of a C atom)
분자표현자들의 이름 P4: A1-N02 기능기 수 (A1-N02)
P5: V 총 크기 지수 /원자 편극도 가중 (V total size index 1 weighted by atomic polar izabi 1 ity)
P6: (지방족) 니트로기의 수 (number of nitro groups (al iphat ic))
P7: 구아니딘 유도체의 수 (number of guanidine derivatives)
회귀모델 결정계수 0.976299
회귀모델 ME 0.098008
회귀모델 옥탄올-물 분배계수 - Co + lL!CiPj
인공신경망 결정계수 0.978309
인공신경망 ME 0.162711
옥탄을-물 분배계수
인공신경망 QSPR모델
= T +∑=1 w Cl + exp (-T -∑『=1 WijPi))_1
과적합 방지기준 1
발명이 기존 기술보다 우월함을 보이기 위해 이렇게 확 다중선형회귀 -인공신경망 흔성 QSPR 모델과 널리 사용되는 기존의 그룹기여 모델 즉 UNIFAC을 사용한 모델 [Wienke G., Gmehling J. , Prediction of oct ano I -water partition coefficients , Henry coefficients and water solubilities using UNIFAC, Toxicol . Environ. Chem. 1998.65.5 의 예측성능을 실험값이 알려진 1240개의 화합물들의 데이터를 사용하여 비교하였다. 그 결과 UNIFAC을 사용한 모델은 808개에 대해서만 예측값을 계산해주며 0.916196의 결정계수값과 0.483456의 평균절대 i차값을 가짐을 알게 되었다. 반면 다중선형회귀 -인공신경망 흔성 QSPR 모델은 1240개 전부에 대해 예측값을 계산해주며 0.992068의 결정계수값과 0.127709의 평균절대오차값을 가져 기존 모델보다 우수함을 알게 되었다. 도 117, 118은 각 모델의 예측성능을 보여주는 패리티 (parity) 도면들이며 이 도면들로부터 다중선형회귀ᅳ인공신경망 흔성 QSPR 모델이 기존 모델보다 우수한 성능을 가짐을 눈으로 확인할 수 있다. 한편 옥탄올-물 분배계수값의 실험평균오차는 약 0.2이며 이 값을 중심으로 실험값과 예측값 사이의 오차를 히스토그램으로 그린 것이 도 119, 120이다. 이 도면들은 UNIFAC을 사용한 모델은 64.35%, 다중선형회귀 -인공신경망 흔성 QSPR 모델은 96.61%의 확률로 평균 실험오차의 범위 이내로 옥탄을-물 분배계수값을 예측하고 있음을 보여주어 다증선형회귀 -인공신경망 흔성 QSPR 모델이 기존 모델보다 정확함을 증명해준다.
[실시예 1-28] 순수한 유기화합물의 수용해도를 예측하는 다중선형회귀一 인공신경망흔성 QSPR모델
본 실시예의 관심 물성인 수용해도에 대해서도 현재까지 여러 예측모델들이 제안되었다. 수용해도 (Water Solubility)라 함은 물을 용매로 하여 물 100g에 녹일 수 있는 용질의 최대질량을 말한다. 수용해도 예측에 대한 그간의 연구결과들은 문헌 [David J. Livingstonea, MartynG. Fordb, Jarmo J. Huuskonenc & David W. Salt , Simultaneous prediction of aqueous solubi lity and octanol/water partition coefficient based on descriptors derived from molecular structure. Journal of Computerᅳ Aided Molecular Design, 15: 741-752, 2001.]에 소개되어 있다. 현재 수용해도를 예측하는 모델로 잘 알려지고 널리 쓰이는 것들은 주로 그룹기여 (group contribution) 방법을 이용한 것들이다. 표 67은 그 동안 제안되었던 수용해도에 대한 주요한 그룹기여 모델들을 보여 주고 있다.
[표 67】
Figure imgf000224_0001
실시예 1-1에서 설명한 그룹기여 모델 및 QSPR 모델도 수용해도 예측방법에 사용된 바 있다. 수용해도에 대한 QSPR 예측모델은 많이 제안되어 있지 않으며 제안된 것들도 샘플 화합물의 수가 많지 않거나 적용 대상이 특정 계열의 화합물에 제한되어 있는 단점이 있다. 문헌 [Chunsheng Yina, Xinhui Liu, Weimin Guo, Teng Lin, Xiaodong Wang, Liansheng Wang . Prediction and appl icat ion in QSPR of aqueous solubility of sulfur-containing aromatic esters using GAᅳ based MLR with quantum descriptors. Water Research 36 (2002) 2975—2982]에는 기개의 화합물에 대한 데이터를 이용하여 3개의 분자표현자를 사용한 모델이 보고되어 있다.
도 1의 단계 1에 지정된 바와 같이 실험데이터를 수집하고 검토 분류하는 일도 본 실 ᅵ예에 동일하게 적용되나 물성의 종류 및 데이터 수치에만 차이가 있으며, 총 1616개의 화합물들에 대한 수용해도의 데이터가 수집되었다. 최종적으로는 942개의 화합물에 대한 데이터를 선정하였다. 그리고 이를 209개의 탄화수소들과 733개의 비탄화수소로 분류하여 각각 모델을 확립하였다. 나아가 도 1 및 도 2, 그리고 이와 관련된 실시예 1-1에서의 설명 역시 본 실시예에도 동일하게 적용되며 중복되는 설명은 생략한다. 다만 도 1의 단계 10에 기재된 '과적합 방지기준' 이 본 실시예에서는 (탄화수소의 경우 0.5 \og(mol/L) , 비탄화수소의 경우 2.5 log(moZ/L) )가 된다. 이 같은 과정을 거쳐 최종적으로 확립된 모델에 대한 결과는 표 68, 69에 간략히 나와 있다.
【표 68】
Figure imgf000225_0001
Figure imgf000226_0001
다중선형회귀 -인공신경망 흔성 QSPR 모델과 널리 사용되는 기존의 그룹기여 모델 즉 Kuhne모델 [Kuhne R. , Ebert R.U. , Kleint F. , Schmidt G. ,
Schuurmann G. , Group Contribution Methods to Estimate fater Solubility of Organic Chemicals, Chemosphere, 1995.30.2061]의 예측성능을 실험값이 알려진 783개의 화합물들의 데이터를 사용하여 비교하였다. 그 결과 KUHNE 모델은 625개에 대해서만 예측값을 계산해주며 0.660307의 1정계수값과
1.055038 \og{mol/L) 의 평균절대오차값을 가짐을 알게 되었다. 반면 다중선형회귀 -인공신경망 흔성 QSPR 모델은 783개 전부에 대해 예측값을 계산해주며 0.980041의 결정계수값과 0.231351og(moi/L)의 평균절대오차값을 가져 기존 모델보다 우수함을 알게 되었다. 도 121, 122는 각 모델의 예측성능을 보여주는 패리티 (parity) 도면들이며 이 도면들로부터 다중선형회귀 -인공신경망 흔성 QSPR 모델이 기존 모델보다 우수한 성능을 가짐을 눈으로 확인할 수 있다. 한편 수용해도값의 실험평균오차는 약 0.45 log(moi/L) 이며 이 값을 중심으로 실험값과 예측값 사이의 오차를 히스토그램으로 그린 것이 도 123, 124이다. 이 도면들은 KUHNE 모델은 44.96%, 다중선형회귀 -인공신경망 흔성 QSPR 모델은 95.53%의 확를로 평균 실험오차의 범위 이내로 수용해도 값을 예측하고 있음을 보여주어 다중선형회귀 -인공신경망 흔성 QSPR 모델이' 기존 모델보다 정확함을 증명해준다.
[실시예 2-1] 순수한유기화합물의 기화열를 예측하는 QSPR-SVRC모델
본 실시예의 관심 물성인 기화열에 대해서도 현재까지 여러 예측모델들이 제안되었다. 기화열 (heat of vaporization)이라 함은 순수한 물질이 포화상태, 즉 밀폐된 용기 속에서 기체상태와 액체상태가 평형을 이루며 공존하는 상태에 있을 때 액체상태에서 기체상태로 변화하는데 필요한 1몰 당 에너지를 말한다. 기화열의 예측에 대한 그간의 연구결과들은 문헌 [Poling B. E. , Prausnitz J. M. , 0' Connell J. P. , The Properties of Gases and Li quids (5 ed , New York, McGraw Hill, (2000).]에 간략히 소개되어 있다. 현재 기화열을 예측하는 모델로 잘 알려지고 널리 쓰이는 것들은 주로 대웅상태의 원리에 기반하여 개발된 수식 모델들이다. Watson 관계식으로 알려진 다음의 수식은 가장 고전적이면서 널리 이용되는 모델로 [Thek R. E., Stiel L. I.ᅳ AIChE J. , 13: 626 (1967).] 임계온도 (crit ical temperature) Tc와 한 참조 온도 Tref에서의 기화열 AHref을 이용하여 임의의 온도에 대한 기화열을 계산할 수 있게 해준다.
ΔΗ = AHref(T Tc~T )"
lc ^ref 지수 n의 값으로는 흔히 0.375 나 0.38을 택한다. 이 방법은 정상끓는점 이하에서는 정확도가 떨어지는 것으로 알려졌다.
Pitzer —은 임계온도 Tc와 acentric factor ω를 이용하는 또 다른 수식 모델을 제안하였다 [Majer V. , Svoboda V. , Pick J. , Heats of Vaporization of Fluids , Studies in Modern Thermodynamics 9, Elsevier , Amsterdam,
(1989)]. 이 모델은 0.6 < r/Tc <1.0인 영역에서 다음 식으로 근사 시킬 수 있다. '- ΔΗ
― = 7.08(1 - T/Tc)0354 + 10.95ω(1 - T/Tc)0456 RTc 한편 포화증기압 (saturated vapor pressure) P와 기체상태와 액체상태의 압축인자 (compressibility factor)의 차 ΔΖ에 대한 정보를 이용하여 다음과 같은 수식을 통해 기화열을 계산할 수도 있다 [Majer V. , Svoboda V. , Pick J., Heats of Vaporization of Fluids , Studies in Modern Thermodynamics 9 Elsevier, Amsterdam, (1989)] . d(ln(P/Pc))
d(Tc/T)
위의 방법들은 모두 기화열을 예측하기 위해 해당화합물의 다른 물성들에 대한 정보를 필요로 한다는 단점이 있다. 기화열의 예측모델을 구축하는데 있어서 대안이 될 수 있는 다른 방법들 중의 하나는 SVRCXscaled variable reduced coordinates) 방법이다. 이 방법은 대웅상태의 원리를 기반으로 화합물의 포화상태의 물성들을 다루는 통합된 골격으로서 문헌 [Shaver R. D. , Robinson R. L. Jr. , Gas em K. A. M., Fluid Phase Equilibria, 64: 141 (1991).]에서 제안되었으나 이 방법을 기화열예측에 적용한 사례는 아직 없다. 이 방법은 기본적으로 한 화합물의 포화물성 Y가 온도 T의 다음과 같은 함수로 주어진다고 가정한다.
Figure imgf000229_0001
여기서 Θ와 α는 각각 correlating 함수, scaling 지수라고 불리는 양들이며 ε는 일종의 환산온도 (reduced temperature)이다. 아래첨자 c와 t는 각각 임계점과 삼중점 (triple point)을 의미하는 것으로 Tc,Tt는 각각 임계점과 삼중점에서의 온도를, ac,cct는 각각 임계점과 삼중점에서의 (X값을, Yc,Yt는 각각 임계점과 삼중점에서의 물성값을 뜻한다. 또한 A, B, C는 각 물성에 고유하게 주어지는 보편상수들 (universal constants)로서 본 발명에서는 기화열을 예측하기 위해 그 값을 각각 1.07068, 0.325, 0으로 정하였으며 ac = at , 즉 a = ccc라고 가정하였다. 위의 수식을 통해 기화열을 계산하기 위해서는 각 화합물에 대한 이와 같은 매개 변수들의 값을 알아야 하는데 이를 해결하는 한가지 방법은 각 매개 변수에 대한 QSPR 예측모델을 확립하는 것이다. 도 128은 QSPR 예측모델 중 하나인 인공신경망의 전형적인 한 예를 보여주고 있다. 도 125는 기화열에 대한 QSPR-SVRC 모델을 구축하는 과정을 흐름도로 간략히 표현한 것이다.
QSPR-SVRC 모델을 구축하는데 있어서 가장 먼저 해야 할 일은 단계 1에 지정된 바와 같이 실험데이터를 수집하고 검토 분류하는 일이다. 본 발명을 위해 각종 논문과 단행본, 인터넷 사이트 등을 망라하여 참고할 수 있는 모든 문헌과 자료에 대한 광범위한 조사를 벌인 결과 3397개 화합물에 대한 125258개의 데이터가 수집되었다. 이렇게 수집된 데이터가 모델을 구축하는데 쓰일 수 있는 진정 타당한 값인지 다방면으로 검토하였는데 실험값이 아니거나 데이터 표기에 오류가 있었거나 동일 화합물의 비슷한 온도에 대한 값들임에도 불구하고 차이가 많이 나거나 가까운 다른 화합물들의 값에 비해 신뢰하기 어려울 정도로 동떨어진 값이거나 분자표현자들에 대한 값들이 당장 준비되기 어려운 화합물에 대한 데이터인 경우 등에 대해 면밀한 분석을 거쳐 데이터를 수정 또는 삭제하여 최종적으로 총 1106개와 화합물들에 대한 34110개의 데이터를 선정하였다. 또한 물성예측모델을 구축할 때, 샘플 화합물들을 탄소와 수소만으로 이루어진 탄화수소 (hydrocarbon)들과 그렇지 않은 비탄화수소 (nonhydrocarbon)들로 분류하여 따로따로 모델을 세우는 것이 예측성능의 측면에서 더 나았던 그간의 경험에 비추어 전체 데이터를 433개의 탄화수소들에 대한 14463개의 데이터 집합과 673개의 비탄화수소들에 대한 19647개의 데이터 집합으로 나누어 각각 모델을 확립하였다. 또한, 본 발명에서 '유기화합물' 또는 '화합물' 은 수소 (H), 탄소 (C), 질소 (N), 산소 (0), 황 (S) 등 5가지 이내의 원소로 구성되고, 수소를 제외한 원자의 개수가 25개 이하인 분자로 이루어진 물질을 지칭한다. 이후, 분자표현자를의 값을 준비하는 과정은 실시예 1-1과 동일하다.
그 다음인 단계 4는 실험데이터를 토대로 각 매개변수에 대한 QSPR 모델을 확립하는데 필요한 자료를 준비하는 단계이다. SVRC 수식으로 기화열을 계산하기 위해서는 임계점과 삼중점에서의 기화열 AHC, AHt의 값과 의 값이 필요한데 스^는 이론적으로 0으로 놓을 수 있다. 한편 삼중점의 온도를 정확히 예측하는 것은 일반적으로 매우 어려운 일임이 잘 알려져 있으며 따라서 본 발명에서는 삼증점 대신 정상끓는점의 0.55배( T0.55b )를 기화열곡선의 시작 온도로 잡았는데, 샘플 화합물들에 대해 이 지점들의 평균은 삼중점의 평균과 거의 일치한다. 이제 QSPR-SWC 모델을 완성하기 위해서는 나머지 매개변수들인 ac 와 AH0.S5b 에 대한 QSPR 예측모델을 확립하여야 한다. 이러한 QSPR 예측모델을 확립하기 위해서는 각 매개변수별로 여러 화합물들에 대한 해당 값들의 집합을 마련하여야 하는데, ΔΗ0.551)에 대해서는 먼저 기화열의 전형적인 곡선을 각 화합물의 실험데이터에 맞춘 뒤, 그 곡선에서 온도가 T0.55b가 되는 지점의 값을 취하였으며, ^에 대해서는 실험데이터로부터 비선형방정식의 수치해법을 통하여 아래의 식에서 "의 값을 각 온도에 대해 구한 뒤, 이러한 값들이 이루는 선에서 온도가 Tc인 지점와 값을 취하였다.
ΔΗ = (ΔΗ« - (ΔΗ« - AH^55b)Q)^
이렇게 QSPR 예측모델을 확립하기 위한 자료로 쓰기 위해 한 화합물의 실험데이터로부터 각 매개변수들의 값을 구할 수 있으려면 그 화합물의 실험데이터가 비교적 넓은 온도 범위에 걸쳐 고루 분포하면서 데이터에 노이즈 (noise)가 적어야 하는데 상대적으로 이런 조건을 만족하는 실험데이터가 존재하는 화합물들의 개수는 많지 않으므로 실제 각 매개변수의 QSPR 예측모델에 샘플로 참여하는 화합물의 개수는 전체 화합물의 개수보다 상당히 줄어들게 된다.
단계 5는 각 매개변수에 대한 QSPR 모델을 구축하는 단계이다. 본 발명에서는 이러한 QSPR 모델로, ^에 대해서는 다중선형회귀 QSPR 모델을, AH0.55b에 대해서는 다중선형회귀 -인공신경망 흔성 QSPR 모델을 채택하였다. 도 126은 다중선형회귀 QSPR 모델을 구축하는 과정을, 도 127은 다중선형회귀 -인공신경망 흔성 QSPR 모델을 구축하는 과정을 흐름도로 간략히 표현한 것이다. 그 구체적인 세부 단계들은 다음과 같다.
먼저 세부 단계 1에서는 샘플 화합물들을 예측모델을 탐색하는데 사용할 훈련집합 (training set)과 결정된 모델의 예측성능을 시험하는데 사용할 시험집합 (test set), 이렇게 두 부분으로 나누는 작업을 진행한다. 유사한 분자들이 한쪽 부분에만 치우쳐 분포하지 않도록 주의하면서 샘플 탄화수소들과 비탄화수소들을 5:5 ~ 8:2, 바람직하게는 6 대 4의 비율로 각각 나누었다.
이후 훈련집합을 토대로 최선의 다중선형희귀 QSPR 모델 (multiple linear regression QSPR model)을 찾는다. 여기서 '최선' 이라 함은 상대적인 의미로서 비교적 짧은 시간 내에 구할 수 있으면서 절대적인 의미에서의 최적 해에 매우 근접한 성능을 갖는다는 의미로 쓰여진 것이다. 최적 해를 직접 구하지 않는 이유는 긴 계산시간 때문인데 예를 들어 1978개의 분자표현자들 중 적합한 분자표현자들의 개수가 1700개일 때, 이 중에서 5개를 뽑아 만들 수 있는 서로 다른 다중선형회귀 QSPR 모델들의 총 개수는 (17 ς 00)=^이며 이들을 다 조사하는 것은 현실적으로 불가능하다'.
j 1695!5!
최선의 다중선형회귀 QSPR 모델을 선정하고 이 모델이 타당성을 검토하는 단계는 실시예 1-1과 동일하다.
세부 단계 4에서는 모델을 형성하는데 참여하지 않았던 시험집합을 이용하여 찾아낸 모델의 예측성능을 평가한다. 만일 훈련집합에서 보다 예측성능이 많이 떨어지거나 예측이 크게 벗어나는 샘플들이 보이는 등의 문제점이 발견되면 세부 단계 1로 가서 훈련집합과 시험집합을 재조정한 뒤 이후 세부 단계를 진행한다. 여기서 훈련집합과 시험집합의 차이가 훈련집합에 대해서 얻은 절대평균오차 (ME)의 20%를 넘지 않으면 예측성능이 만족되는 것으로 판단한다.
SVRC 수식에 필요한 매개변수들 중 ac h 대해서는 이렇게 구축된 다중선형회귀 QSPR 모델을 최종 예측모델로 채택하였으나, 다중선형회귀- 인공신경망 흔성 QSPR 모델을 최종 예측모델로 채택한 AH0.55b에 대해서는 다음의 과정이 추가된다.
먼저 이미 구축된 다중선형회귀 QSPR 모델로부터 인공신경망 QSPR 모델 을 구축하기 위해 분자표현자들의 데이터와 매개변수의 데이터를 표준화하는 작업, 즉 각 값에서 해당 데이터의 평균을 뺀 뒤 표준편차로 나누는 작업을 진행한다ᅳ 이렇게 ,준비 전체 샘플을 대략 6:2:2의 비율로 훈련집합 (training set), 검증집합 (validation set), 시험집합 (test set)으로 나눈다.
이후 이들을 사용하여 최선의 인공신경망 QSPR 모델 을 탐색한다. 이때 탐색 범위는 도 128에서처럼 입력층과 출력층 사이에 한 개의 은닉층을 가지면서 이 3개 층이 전방향으로 (feed forward), 즉 입력에서 출력으로 향하는 방향으로만 연결되어 있는 구조를 갖는 신경망으로 제한하였다. 입력층은 이미 확립되어 있는 다중선형회귀 QSPR 모델에 포함된 각 분자표현자들의 값을 입력 받는, 같은 개수만큼의 노드들로 구성하였으며 출력층은 임계부피를 출력하는 한 개의 노드로 구성하였다. 또한 은닉층의 활성화 함수로는 Sigmoid 함수 즉 f1(x) = (l + e-x)-1을, 출력층의 활성화 함수로는 선형함수 즉 f2(x) = x를 채택하였다. 따라서 입력층의 각 노드들이 받는 입력값들을 li,I2 라 할 때 은닉층의 j번째 노드의 출력값은 Hj ^ (1 + exp (-T-X wjjli))"1 와 같이 주어지며 은닉층이 m 개의 노드로 이루어져 있을 때 출력층 출력노드의 최종 출력값은 。二了 +!:;^ ^^와 같이 주어진다. 여기서 T는 문턱 가중치 (threshold weight)를 의미한다. 탐색은 은닉노드의 수가 1개인 것부터 차례로 개수를 늘려가며 진행하는데 보통 입력노드 개수의 2배가 될 때까지 진행하지만 만족스러운 모델이 나오지 않을 경우 더 진행하여 탐색한다. 자세한 절차는 다음과 같다. 먼저 은닉노드의 각 개수 별로, 난수 발생 함수를 써서 생성한 가중치 T.w^w'ij 들의 다양한 초기값세트 (보통 1000세트이내)를 마련하고, 훈련집합을 사용하여 각 세트로 초기화된 신경망을 역전파 알고리즘을 통해 반복 훈련함으로써 가증치 Τ,ν^,νν^들의 최적화된 값을 찾는다. 최적화에 대한 판단은 매 훈련 후 경신된 가중치들의 값으로 정해지는 모델을 검증집합에 적용하였을 때 그 평균제곱오차 (mean square error)의 값이 최소가 되는 것으로 한다. 보통은 3000-5000번의 반복훈련 내에 이러한 시점이 나오게 된다. 이렇게 얻어진 각 초기값세트에 대웅하는 최적화된 신경망모델을 훈련집합, 검증집합, 시험집합에 각각 적용하여 그 평균제곱오차들이 모두 다중선형회귀 QSPR 모델의 그것들보다 작은 것만올 모은다. 이러한 것이 여러 개 있을 경우, 결정계수나 평균절대오차 등을 기준으로 가장 우수한 모델을 선택한다.
이렇게 인공신경망 QSPR 모델 이 선정되면 마지막으로 과적합 (overfitting) 방지기준을 설정한다. 이는 과도한 훈련의 결과로 인공신경망이 미지의 입력에 대해 엉뚱한 답을 내놓는 불안정성을 개선하기 위한 조처로, 한 기준값 (정상끊는점 0.55배인 온도에서의 기화열의 경우 탄화수소에 대해서는 0.7167 kcal/mol , 비탄화수소에 대해서는 2.3889 kcal/mol )을 정하여 인공신경망 QSPR 모델 과 다중선형회귀 QSPR 모델의 예측값들 차이의 절대값이 기준값을 넘을 경우 다중선형회귀 QSPR 모델의 예측값을 채택하고 이보다 작을 경우 인공신경망 QSPR모델의 값을 채택하게 하는 것을 말한다. 이 같은 과정을 거쳐 각 매개변수에 대한 QSPR 모델이 구축되면 다음으로 단계 6에서는 기화열에 대한 각 화합물의 실험데이터 전체를 SVRC 수식을 통해 계산된 값과 비교하는 테스트를 진행한다. 이때 SVRC 수식으로 예측값을, 계산하려면 정상끓는점과 임계온도 및 정상끓는점에서의 기화열 AHb의 값 등이 필요한데 이 정보에 대해서는 이미 알려져 있는 값 또는 QSPR 모델에 근거한 계산 방법에 의해서 구한 값을 활용하였다. 만일 실험값과 예측값의 오차가 용인할 수 있는 수준보다 클 경우 (예측오차가 실험평균오차보다 큰 경우가 대략 10%이상일 때), 단계 5로 돌아가 각 매개변수들에 대한 QSPR 모델을 다시 잡는다. 테스트를 통과한 경우 이를 완성된 QSPR-SVRC 모델로 채택한다.
이러한 과정을 거쳐 확립된 QSPR-SVRC 모델에 대한 결과는 표 70~75에 간략히 정리되어 있다. 표 70, 기는 각각 탄화수소에 대한 ΔΗ 55ΐ3 , ^의 값을 예측하는 QSPR 모델을 간단히 기술한 것이며 이들을 바탕으로 탄화수소의 기화열을 예측하는 QSPR-SVRC 모델과 그 성능에 대한 결과는 표 72에 나와 있다. 또한 비탄화수소에 대한 H0.55b, (^의 값을 예측하는 QSPR 모델은 표 73, 74에 각각 기술되어 있다. 이렇게 확립된 비탄화수소의 기화열을 예측하는 QSPR-SVRC 모델과 그 성능에 대한 결과는 표 75에 나와 있다.
【표 70】
Figure imgf000237_0001
【표 71】
Figure imgf000237_0002
like index at 80%)
P4: 지렛대 가중 자기상관 차수 6/원자량 가중 (leverage- weighted autocorrelation of lag 6 1 Weighted by atomic masses)
P5 : Moran의 자기상관 차수 6/원자량 가중 (Moran autocorrelation 一 lag 61 Weighted by atomic masses)
P6: AHb/AH0.55b> Δ¾는 정상끓는점에서의 기화열
Ρ7: 최^ 전 위상적 음의 편차 (number of non-terminal
C(sp))
P8 : Burden 행렬의 최고 고유값 6/원자 Sanderson 전기음성도 가중 (highest eigenvalue n. 6 of Burden matrix / weighted by atomic Sanderson electronegativities)
P9 : R 최대 자기상관 차수 1/원자량 가중 (R maximal autocorrelat ion of lag 11 Weighted by atomic masses) 'P10 : 쌍극자모멘트 가중 모서리 인접행렬 고유값 12(Eigenvalue 12 from edge adjacency matrix weighted by dipole moments);
결정계수 0.2758
평균절대오차 0.04594
ᄆ 1
【표 72】
Figure imgf000238_0001
Figure imgf000239_0001
【표 74] 비탄화수소의 에 대한 QSPR 예측모델의 주요 내용 . 샘플 화합물들의 개수 507
분자표현자들의 개수 15
Figure imgf000240_0001
Figure imgf000241_0001
실험데이터에 대해 본 발명의 QSPR-SVRC 모델과 널리 사용되는 기존 모델의 하나로서 위에 언급되었던 Watson 모델의 예측성능을 비교하였다. 그 결과 Watson모델은 0.96798 의 결정계수값^과 0.32759kcal/m 의 평균절대오차값을 보인 반면, 본 발명의 QSPR-SVRC 모델은 0.98491 의 결정계수값과 0.3216 cal/m 의 평균절대오차값을 보여 현저히 우수함을 알게 되었다. 도 129-132 은 예로 몇몇 화합물에 대해 각 보델의 예측성능을 비교한 도면들이다. 이 도면들로부터 QSPR-SVRC 모델이 기존 모델보다 우수한 성능을 가짐을 눈으로 확인할 수 있다. 한편 실험데이터에 대해 실험값과 예측값 사이의 오차를 히스토그램으로 그린 것이 도 133, 134 이다. 히스토그램은 일치하는 정도를 나타내는 통계분석의 방법으로 중앙의 막대는 실험 오차. 범위 내에 들어가는 예측값을 가진 분자의 비율을 나타낸다. 중앙에 위치한 막대의 백분율은 일반적으로 예측정확도의 수준을 가리킨다. 이 도면들은, Watson 모델은 94.41%, QSPR-SVRC 모델은 94.89%의 확률로 lkcal/m 의 오차 이내로 기화열을 예측하고 있음을 보여주어 QSPR—SV C 모델이 보다 정확함을 증명해준다.
[실시예 2-2] 순수한 화합물의 이상기체의 열용량을 예측하는 다중선형회귀- 인공신경망흔성 QSPR모델
본 실시예 2-2 의 모델은 QSPR( quantitative structure-property relationship) 모델의 일례로서, 이상기체 열용량의 실험값이 알려져 있는 상기 조건을 만족하는 다수의 유기화합물들에 대해, 다양한 분자표현자 (molecular descriptor)들 중 일부를 독립변수로, 이상기체 열용량을 종속변수로 하는 많은 다중선형회귀 QSPR 모델 (multiple linear regression QSPR model)들 중 최선의 것을 유전적 알고리즘 (genetic algorithm)을 사용하여 구한 뒤, 이 모델에 포함된 분자표현자들의 값을 입력 받아 이상기체 열용량을 출력으로 하는 인공신경망 (artificial neural network)을 구성함으로써 예측성능을 더욱 향상시킨 다중선형회귀- 인공신경망 흔성 QSPR모델 (hybrid model)이다.
본 실시예의 '관심 물성인 이상기체의 열용량에 대해서도 현재까지 여러 예측모델들이 제안되었다. 이상기체의 열용량 (heat capacity of ideal gas)이라 함은 순수한 물질 lirol의 온도 1K을 높이는데 필요한 열량을 말한다ᅳ 이상기체의 열용량의 예측에- 대한 그간의 연구결과들은 문헌 [Poling B. E. , Prausnitz J. M. , 0' Conne 11 J. P., The Properties of Gases and Li quids (5 ed.), New York, McGraw Hill, (2000).]에 간략히 소개되어 있다. 현재 이상기체의 열용량을 예측하는 모델로 잘 알려지고 널리 쓰이는 것들은 주로 그룹기여 (group contribution) 방법과 양자역학 계산을 이용한 것들이다. Joback 방법으로 알려진 다음의 수식은 가장 고전적 모델로세 Joback, K. G. , Reid, R. C. , Chew. Eng. Co mun, 57: 233 (1987).], 온도 T, 분자 k에서 각 조각형식에 해당하는 갯수 Nfc , 각 조각형식에 할당된 계수 의 값을 이용하여 임의의 온도에 대한 이상기체의 열용량 Cp 0의 값을 계산해 준다. CP°(T) = T
Figure imgf000243_0001
Benson은 분자 k에서 각 조각형식에 해'당하는 갯수 Nk, 각 조각형식에 할당된 계수 k(T)의 값을 이용하여 다음의 수식을 제안하였다 [Sidney W. Benson, F. R. Cruickshank, D. M. Golden, Gilbert R. Haugen, H. E. O'Neal, A. S. Rodger s, Robert Shaw, R. Walsh, Chew. Rev. , 69: 279 (1998).] .
Figure imgf000243_0002
위 수식에서 사용한 계수 CpAk,(^k들은 실험값이 존재하는 화합물들로부터 모델이 최선의 성능을 갖도록 통계적인 방법을 통해 결정된다.
실시예 2-1 에서 설명한 QSPR 모델도 이상기체의 열용량 예측방법에 사용된 바 있다.
양자역학 계산을 통해 이론적인 근거로 얻어진 이상기체의 열용량 값은 다음의 식을 통해 계산된다. 이상기체는 다른 분자들간의 간섭이 없다고 가정했기 때문에. 한 분자내에 존재하는 전자, 병진, 회전, 진동에 의한 열용량 성분을 합을 얻어내면 정적 열용량 (Cv)가 되고 이에 기체상수 (R)을 더해주면 정압 열용량 (Cp)를 얻게 된다. 더 상세하게 보면 진동에 의한 열용량에서 분자 진동수 (Vi)의 성분을 통해 얻어진다. CP =CV+R = (Celec + ς Cml + vib ) + R v T
0 + -R + -R + RYeVi,T + R
2 2 e-v'/T-\ 대부분의 양자역학 도구를 통해서 분자 진동수 계산을 수행할 경우 해당 화합물의 열용량에 대한 값을 쉽게 얻어낼 수 있으나 실험값과 비교했을 때 상온에서는 대체로 잘 맞으나 온도가 증가함에 따라 그 오차가 점점 증가하는 결과를 얻게 된다. 이는 분자내에서 진동에 의해 발생하는 회전이 조화진동자 (Cp_H0)로 가정하여 고려되었기 때문이다. 이를 위한 보정으로 다양한 방법들이 시도되었다. 양자역학 계산을 통해 나온 결과가 특정 온도에서 낮거나 높게 예측되기 경향을 보이기 때문에 선형스케일링 인자를 사용해서 보정을 하기도 하나 모두 잘 적용되는 것은 아니다. 보다 근본적인 원인은 분자내에 단일결합을 사이에 두고 양쪽 그룹의 회전이 자유로운지 아닌지에 따라 영향을 주고 회전을 하는데 필요한 에너지 장벽의 높이가 단일결합과 주변 그룹의 환경에 따라 다양하기 때문에 가능한 모든 조합이 영향을 준다. 이것을 보정하기 위해 부자유 회전자 (CP_HR) 효과에 해당하는 계산을 하기 위해서는 추가적인 계산시간을 필요로 한다. 좀 더 빠르고 간단한 방법으로 선험적으로 알게된 에너지장벽의 높이나 회전에 인한 에너지의 함수를 도입해서 계산을 했지만 만족할 만한 보정이 되지 않았고 경우에 따라서 분자내의 회전과 관련된 정보를 제대로 인식하지 못하여 부자유 회전자 효과를 정상적으로 얻지 못하는 경우도 발생하였다. 부자유 회전자에 관련된 모든 조합에 대해 엄청나게 많은 시간을 소요하여 양자'역학 계산으로 에너지장벽의 높이와 회전에 따른 에너지 함수를 얻는다 하더라도 그 결과가 실험값에 근접해지긴 하나 온도가 높아질수록 여전히 오차가 커지는 상황이다.
분자가 실제 한가지의 고정된 형태를 가지는 것이 아니라 주어진 온도와 환경에 의해 단일결합을 통해 다양한 회전체가 생기며 각각의 회전체가 가지는 분포와 에너지 상태에 따라 더 다양한 영향을 주게 된다. 이것을 보정하기 위해 섞임 (CP_MIX) 효과를 추가하면 약간 더 실험값에 근접해지면서 개선되긴 하지만 만족할만한 성능은 주지 못하고 있다.
도 135는 이상기체의 열용량에 대한 QSPR 모델을 구축하는 과장을 흐름도로 간략히 표현한 것이다 /도 125의 단계 1에 지정된 바와 같이 실험데이터를 수집하고 검토 분류하는 일도 본 실시예에 동일하게 적용되나 물성의 종류 및 데이터 수치에만 차이가 있으며, 총 1864개의 화합물들에 대한 60717개의 데이터가 수집되었다. 최종적으로는 1100개의 화합물에 대한 16232개의 데이터를 선정하였다. 그리고 이를 427개의 탄화수소들에 대한 7243개의 데이터 집합과 673개의 비탄화수소에 대한 8989개의 데이터 집합으로 분류하여 각각 모델을 확립하였다.
이후 실시예 2-1 에서 설명한 바와 같이 분자표현자 값을 준비하며, 단계 4 는 단계 3 에서 분자표현자 값을 얻기 위한 양자역학 계산으로부터 이상기체 열용량에 관련된 계산값들을 계산하여 QSPR 에서 사용할 변수를 준비하는 단계이다. 이 모델에서 사용할 양자역학 계산값은 조화진동자 (Cp_H0) (Cp Harmonic Oscillate) 과 각 분자에 대한 부자유 회전자 (Cpᅳ HR)(Cp Hindered ?otor), 분자의 형태가 단일결합의 회전으로 여러 회전체가 생기는데 이런 여러 희전체로 인해서 발생하는 효과 (CP_MIX)(CP Mixed f//ect)에 대한 계산값들이다.
단계 5는 양자역학 계산 결과로 얻은 이상기체 열용량에 대한 계산값들과 분자표현자들을 이용하여 탄화수소와 비탄화수소에 대한 QSPR 모델을 구축하는 단계이다. 도 136은 QSPR 모델을 구축하는 과정을 흐름도로 간략히 표현한 것이다. 그 구체적인 세부 단계들은 실시예 2-1에서 설명한 바와 같다.
인공신경망 QSPR 모델 이 선정되면 마지막으로 과적합 (overfitting) 방지기준을 설정한다. 이는 과도한 훈련의 결과로 인공신경망이 미지의 입력에 대해 엉뚱한 답을 내놓는 불안정성을 개선하고 작은 분자들에.대한 예측력을 높이기 위한 조처로, 한 기준값 (비탄화수소의 경우 1600K에서의 열용량값 30.1 cal/(mol * K) )을 정하여 양자역학 계산값들 (조화진동과 부자유 회전자, 여러 회전체로 인해서 발생하는 효과의 계산값)의 합이 이를 넘을 경우 인공신경망 QSPR 모델의 예측값을 채택하고 이보다 작을 경우 양자역학 계산값들의 합을 채택하게 하는 것을 말한다.
이러한 과정을 거쳐 확립된 QSPR 모델에 대한 결과는 표 76, 77에 간략히 정리되어 있다. 표 76, 77은 각각 탄화수소와 비탄화수소의 이상기체 열용량값을 예、측하는 QSPR모델과 그성능에 대한 결과를 기술한 것이다. [표 76】
탄화수소에 대한 QSPR 예측모델의 주요 내용
ᄆ 己 ¾ s 427
Figure imgf000247_0001
【표 77】 비탄화수소에 대한 QSPR 예측모델의 주요 내용
샘플 화합물들의
673
개수
분자표현자들의 개수 8
Pi: 열용량 조화진동자 (Cp Harmonic Osciiiate)
P2: 열용량 섞임효과 (CpMixed£//ect)
P3 : 부분양전하 표면적과 부분음전하 표면적의 차 (DPSA-1 Difference in CPSAs (PPSAl-PNSAD) P4 : 전체전하 가중 부분음전하 표면적 (PNSA-2 Total charge weighted PNSA)
분자표현자들의 이름 P5 Polarity parameter (Qmax-Qmin) (Polarity parameter (Qmax-Qmin) )
P6: 고리의 수 (Number of rings)
P7: 최소 원자 궤도의 전자 집단 (Min atomic orbital electronic populat ion)
P8 : 최대 시그마-시그마 결합차수 (Max SIGMA-SIGMA bond order)
회귀모델 결정계수 0.998159 회귀모델 ME 1.16348 cal/(mol * K)
회귀모델
인공신경망 결정계수 0.998927
인공신경망 ME 0.900828 cal/(mol * K)
인공신경망 QSPR
CP = T +∑f=1 w (l + exp (-T -∑=1 WijP )-1
Ξ
1600K에서의 양자역학 Cp 계산값의 합이 30.1
과적합 방지기준 cal/(mol * K) 보다 큰 경우 인공신경망 모델 결과값
사용.
본 발명이 기존 기술보다 ft 우월함을 보이기 위해 1151개 화합물의 17211개의
II
실험데이터에 대해 본 발명의 + QSPR 모델과 널리 사용되는 기존 모델로¬서¬시 [
위에 언급되었던 Joback 모델의 예측성능을 비교하였다. 그 결과 Joback 모델은 0.09386의 결정계수값과 10.24314 "iZ/(moZ * )의 평균절대오차값을 보이는 반면, 본 발명의 QSPR 모델은 0.99089의 결정계수값과 1.78980 caZ/(moZ*/0의 평균절대오차값을 보여 현저히 우수함을 알게 되었다. 도 137부터 140까지는 예로 몇몇 화합물에 대해 각 모델의 예측성능을 비교한 도면들이다. 이 도면들로부터 QSPR 모델이 기존 모델보다 우수한 성능을 가짐을 눈으로 확인할 수 있다. 한편 실험떼이터에 대해 실험값과 예측값 사이의 오차를 히스토그램으로 그린 것이 도 141 142이다. 히스토그램은 일치하는 정도를 나타내는 통계분석의 방법으로 증앙의 막대는 실험 오차 범위 내에 들어가는 예측값을 가진 분자의 비율을 나타낸다. 중앙에 위치한 막대의 백분율은 일반적으로 예측정확도의 수준을 가리킨다. 이 도면들은,
Joback 모델은 84.8 QSPR 모델은 88.98%의 확률로 3 cai/(moi * ΛΤ)오차 이내로 이상기체의 열용량을 예측하고 있음을 보여주어 QSPR 모델이 보다 정확함을 증명해준다.
[실시예 2-3] 순수한 유기화합물의 액체의 열용량을 예측하는 QSPR-SVRC 모델
본 발명의 관심 물성인 액체의 열용량에 대해서도 현재까지 여러 예측모델들이 제안되었다. 액체의 열용량 (heat capacity of liquid)이라 함은 순수한 액체 화합물의 온도를 1K 을리는데 필요한 열량을 말한다.
현재 액체의 열용량을 예측하는 모델로 잘 알려지고 널리 쓰이는 것들은 주로 대웅상태의 원리에 기반하여 개발된 수식 모델들이다. Bondi 방정식으로 알려진 다음의 수식은 가장 고전적이면서 다른 모델들의 기초가 되었던 모델로세 A. Bondi , J&EC Fundamentals, Vol. 5 No. 4, 442- 449(1966).], 기체의 열용량 (Heat Capacity of Gas) CpG , 임계온도 (Crit ical Temperature) Tc , 이심인자 (Acentric Factor) ω , 기체상수 R값을 이용하여 임의의 은도에 대한 액체의 열용량 (Heat Capacity of Liquid) CpL의 값을 계산해 준다.
( 0.436 ( 4.28(1 -T/Tc) 0.296 \\
CDL(T) = R 2.56 + - ~—— + ω 2.91+—— ' /rp +- ~—―
P \ (1 - T/Tc) \ T/Tc (1 - T/Tc) / j
+ CpG(T) 이 모델은 T< 273K 인 경우 계산된 CpL의 값이 부정확하였고, T값이 임계온도에 가까이 갈수록 상당히 높은 수치로 예측되는 문제점이 발견되었다. 또한 비교적 단순한 형태의 이라한 수식들로 다양한 분자구조를 가진 화합물들 하나하나의 액체의 열용량을 각각 잘 맞추려는 시도는 무리가 있어 보인다.
실시예 2-1에서 설명한 그룹기여 방법도 액체의 열용량 예측방법에 사용된 바 있으며, 이 중 Domalski등은 그룹기여 방법을 통해 액체의 열용량 (: 을 예측하기 위해 온도 τ에 의존하는 다음과 같은 모델을 제안하였다 [V Ruzicka, ES Domalski, J. Phys. Chem. Ref. Data. (1993).].
Figure imgf000250_0001
여기서 는 각 조각형식에 할당된 계수들로서 해당 조각형식이 각각 상수 항, 온도의 일차 항, 온도의 이차 항에 기여하는 정도를 반영하고 있다. 도 135(실시예 2-2) 에 도시된 바와 같이 실험데이터를 수집하고 검토 분류하는 일도 본 실시예에 동일하게 적용되나 물성의 종류 및 데이터 수치에만 차이가 있으며 , 총 1796 개의 화합물들에 대한 32227 개의 데이터가 수집되었다. 최종적으로는 841 개의 화합물에 대한 15525 개의 데이터를 선정하였다.
이후 단계 역시 실시예 2-2와 동일하며, 단계 4는 실험데이터를 토대로 각 매개변수에 대한 QSPR 모델을 확립하는데 필요한 자료를 준비하는 단계이다. SVRC 수식으로 액체의 열용량을 계산하기 위해서는 정상끓는점과 삼중점에서의 액체의 열용량 CpL(Tb),CpL(Tm)의 값과 의 값이 필요하다. 한편 삼중점의 온도를 정확히 예측하는 것은 일반적으로 매우 어려운 일임이 잘 알려져 있으며 따라서 본 발명에서는 삼중점 대신 정상끓는점의 0.55배 ( T0.55b )를 액체의 열용량 곡선의 시작 온도로 잡았는데, '샘플 화합물들에 대해 이 지점들의 평균은 삼중점의 평균과 거의 일치한다. 이제 QSP -SV C 모델을 완성하기 위해서는 매개변수들인 ac, CpL(Tb), CpL(T0.55b)에 대한 QSPR 예측모델을 확립하여야 한다. 이러한 QSPR 예측모델을 확립하기 위해서는 각 매개변수별로 여러 화합물들에 대한 해당 값들의 집합을 마련하여야 하는데, CpL(Tb) , CpL(T0.55b)에 대해서는 먼저 액체의 열용량의 전형적인 곡선을 각 화합물의 실험데이터에 맞춘 뒤, 그 곡선에서 온도가 Tb T0.S5b가 되는 지점의 값을 취하였으며, ctc에 대해서는 비선형방정식의 수치해법을 통하여 아래의 식에서 α의 값을 각 은도에 대해 구한 뒤, 이러한 값들을 평균 내어 취하였다.
1 ΑεΒ
Θ(ε) = α = ac
Tb
ε = (- "~ - ~ )
CpL = (CpL(Tb)a - (CpL(Tb)« - CpL(To.5Sb)a)0)(1) 여기서 Θ와 a는 각각 correlating 함수, scaling 지수라고 불리는 양들이며 ε는 일종의 환산온도 (reduced temperature)이다. 또한 A, B, C 는 각 물성에 고유하게 주어지는 보편상수들 (universal constants)로서 액체의 열용량의 경우 그 값을 각각 1.33, 1, 0 으로 정하였다. 이후 단계는 실시예 2-2 와 동일하다. ' 과적합 방지기준을 설정하는데, 이는 한 기준값 (다중선형회귀 QSPR 모델 값)을 정하여 인공신경망 QSPR 모델의 예측값이 기준값인 다중선형회귀 QSPR 모델에서 얻은 값의 85% 내지 .115% 사이에 존재하면 인공신경망 QSPR 모델의 값을 채택하고 존재하지 않으면 다중선형회귀 QSPR .모델의 예측값을 채택하게 하는 것을 말한다. 이러한 과정을 거쳐 확립된 QSPR— SVRC 모델에 대한 결과는 표 78부터 81까지 간략히 정리되어 있다. 표 78, 79, 80은 CpL(Tb) , CpL(T0.55b) , cxc의 값을 예측하는 QSPR 모델을 간단히 기술한 것이며 이들을 바탕으로 액체의 열용량을 예측하는 QSPR-SVRC 모델과 그 성능에 대한 결과는 표 81에 나와 있다. 액체의 열용량을 예측하는데 있어서 기체의 열용량과의 상관관계가 아주 많은 것으로 알려져 있어서 본 발명에서도 CpL(Tb) , CpL(Ta55b)를 예측하는 QSPR-SVRC 모델에 사용되는 CpG(Tb) , CpG(T0.55b)의 값은 이미 알려져 있는 값 또는 QSPR 모델에 근거한 계산 방법에 의해서 구한 정상끓는점과 정싱끓는점의 0.55배인 두 지점의 값을 이용하여 활용하였다. 【표 78】
Figure imgf000252_0001
Figure imgf000253_0001
¬에 대한 QSPR 예측모델의 주요 내용
샘플 화합물들의 개수 541
분자표현자들의 개수 8
PL: 위상거리 3 N-N 결합의 존재여부 (presence/absence of N - N at topological distance 03)
P2 2차 성분접근지향적 가중 포괄불변분자 지수 /원자 전자위상 상태 가중 (2nd component accessibility directional WHIM index 1 weighted by atomic 분자표현자들의 이름
electrotopological states)
P3 Burden 행렬의 최고 고유값 3/원자 Sanderson '전기음성도 가중 (highest eigenvalue n. 3 of Burden matrix 1 weighted by atomic Sanderson electronegativities)
Figure imgf000254_0001
모델과 널리 사용되는 기존의 모델 즉 Bondi 모델의 예측성능을 실험 값이 알려진 758개의 화합물들의 데이터를 사용하여 비교하였다 . 그 결과 Bondi 모델은 749개 화합물 전체에 대해서 0.98200의 결정 계수값과 2.76064 cal/ mol. K 의 평균절대오차값을 갖음을 알게 되 었다 . 반면 QSPR-SVRC 모델은 758개 화합물 전체에 대해서 0.98632의 결정 계수값과 1.95032 cal/mol. K 의 평균절대오차값을 가져 Bondi 모델보다 우수함을 알게 되 었다 . 도 143부터 146까지는 예로 몇몇 화합물에 대해 각 모델의 예측성능을 비교한 도면들이다 . 이 도면들로부터 본 발명의 모델이 기존 모델보다 우수한 성능을 가짐을 눈으로 확인할 수 있다. 한편 실험데이터에 대해 실험값과 예측값 사이의 오차를 히스토그램으로 그린 것이 도 147, 148이다. 히스토그램은 일치하는 정도를 나타내는 통계분석의 방법으로 중앙의 막대는 실험 오차 범위 내에 들어가는 예측값을 가잔 분자의 비율을 나타낸다. 증양에 위치한 막대의 백분율은 일반적으로 예측정확도의 수준을 가리킨다. 이 도면들은, Bondi 모델은 89.82%, 본 발명의 모델은 96.48%의 확률로 평균확률오차인 10% 의 오차 이내로 액체의 열용량을 예측하고 있음을 보여주어 본 발명의 모델이 보다 정확함을 증명해준다.
액체의 열용량은 REACH 와 같은 화합물의 생산과 소비에 관한 국제적인 규정들이 그 값을 요구하기도 하는 중요한 물성이다.
[실시예 2-4] 순수한유기화합물의 포화액체밀도를 예측하는 QSPR-SVRC모델 본 발명의 관심 물성인 포화액체밀도에 대해서도 현재까지 여러 예측모델들이 제안되었다. 포화액체밀도 (saturated liquid density)라 함은 순수한 물질이 포화상태, 즉 밀폐된 용기 속에서 기체상태와 액체상태가 평형을 이루며 공존하는 상태에 있을 때 단위 부피당 액체의 양을 말한다. 현재 포화액체밀도를 예측하는 모델로 잘 알려지고 널리 쓰이는 것들은 주로 대웅상태의 원리에 기반하여 개발된 수식 모델들이다. Racket t 방정식으로 알려진 다음의 수식은 가장 고전적이면서 다른 모델들의 기초가 되었던 모델로세 Rackett H. G. , J. Chem. Eng. Data, 15: 514 (1970).], 임계점 (critical point)에서의 세 물성, 즉 임계온도 (cr it ical temperature) Tc와 임계부피 (critical volume) Vc, 임계압축인자 (critical compressibility factor) ^의 값을 이용하여 임의의 온도에 대한 포화액체몰부피 (saturated liquid molar volume) V의 값을 계산해 준다.
V = vcz?-T/Tc)27
포화액체밀도의 값은 이의 역수이다. 이 모델은 여러 화합물에 대해 상당히 정확한 결과를 보여주었으나 Zc<0.22 인 경우 계산된 V의 값이 실제보다 낮아지는 문제점이 발견되었다. 이를 보완하여 Yamada와 Gunn은 Zc대신 acentric factor ω를 도입하여 다음의 수식을 제안하였다 [Yamada T., Gunn R. D., J. Chem. Eng. Data, 18: 234 (1973).].
V = Vc(0.29056 - 0.08775ω)(1-τ/τ^2 ? ,
이후 이들 토대로 여러 변형된 형태의 수식들이 제안되었으나 [Spencer C. F. , Danner R. P., J. Chem. Eng. Data, 17: 236 (1972); Spencer C. F. , Adler S. B. , J. Chem. Eng. Data, 23: 82 (1978); Hankinson R. W. , Thomson G. H., AIChE J. , 25: 653 (1979); Thompson G. H. , Brobst K. R., Hankinson R. W. , AIChE J. , 28: 671 (1982); Aalto M., Fluid Phase Equil. , 141: 1 (1997); Nasrifar K. , Moshfeghian M. , Fluid Phase Equil. , 158-160: 437 (1999).] 비교적 단순한 형태의 이러한 수식들로 다양한 분자구조를 가진 화합물들 하나하나의 포화액체밀도를 각각 잘 맞추려는 시도는 무리가 있어 보인다.
또 다른 방법으로는 그룹기여 (group contribution) 방법을 이용한 것이 있다. 순수한 화합물의 (온도나 압력에 따라 변하지 않는) 특정한 한 물성을 예측하는 그룹기여 모델의 전형적인 형태는 아래와 같은 식으로 주어 진다. i 물성값 Y를 구하기 위해서는 먼저 값을 알고자 하는 화합물의 분자를 미리 정해진 다수의 조각형식들에 맞추어 ¾갠 다음 각 조각형식들의 개수 ri를 구한다. 이를 다시 그 형식에 할당된 계수 와 곱한 것을 합산한 것이 예측값 Y가 된다. 계수 a0,ai들은 실험값이 존재하는 화합물들로부터 모델이 최선의 성능을 갖도록 통계적인 방법을 통해 결정된다.
Elbro 등은 그룹기여 방법을 통해 포화액체밀도 V를 예측하기 위해 온도 T에 의존하는 다음과 같은 모델을 제안하였다 [Elbro H. S., Fredenslund A., Rasmussen P. , Ind. Eng. Chem. Res. , 30: 2576 (1991).]. + BjT + QT ri
Figure imgf000257_0001
여기서 Ai,Bi,Ci는 각 조각형식에 할당된 계수들로서 해당 조각형식이 각각 상수 항 온도의 일차 항, 온도의 이차 항에 기여하는 정도를 반영하고 있다. 이러한 그룹기여 방법은 그동안 어느 정도 성공을 거둔 것이 사실이나 이론적 근거가 부족하고 때때로 조각형식에 맞추어 2개는 방식이 유일하지 않거나 심지어 존재하지 않는 경우가 발생하여 값의 계산이 불가능해 지기도 한다ᅳ 또한 예측성능을 높이기 위해 모델을 개선해 나갈수록 점점 더 복잡해지고 취급이 어려워지는 양상을 보인다. 게다가 적용범위에 제한이 가해지기도 하는데 위 모델의 경우 정상끓는점이상의 온도나 사이클로알케인 (cycloalkane)에 대해서는 적용할 수 없다는 단점이 있다. SVRC 모델 역시 기존에 적용된 바 있으며, 문헌 [Shaver R. D., Robinson R. L. Jr. , Gasem . A. M. , , Fluid Phase Equilibria, 64: 141 (1991).] 및 문헌 [Schult C. J., Godavarthy S. S., Robinson R. L. Jr. , Gasem K. A. M. , Heat Transfer Engineering, 24: 55, (2003).]에서는 포화액체밀도의 값을 각각 1.07068, 0.325, 0으로 정하였다. 한편 동일 문헌에서 저자들은 다음 식을 통해 ctc,at의 값들을 산정하였는데 이 값들로 22개 화합물의 포화액체밀도를 계산한 결과 958개의 실험데이터에 대해 평균절대퍼센트오차는 0.3%이었다고 한다. V
Δα = ac - at = Ca + 2(^ ^+c*2^
lc
Figure imgf000258_0001
여기서 Zc,io는 각각 임계압축인자와 acentric factor를 가리키며 (^〜(^은 상관계수들로서, 위 수식은 ac,at를 예측하는 일종의 QSPR 모델이라고 할 수 있다.
예측모델을 구축하는데 있어서 그룹기여 방법의 대안이 될 수 있는 다른 방법들의 하나는 다른 실시예에서 설명한 QSPR(quantitative structure- property relationship) 방법이다.
도 125(실시예 2-1) 에 도시된 바와 같이 실험데이터를 수집하고 검토 분류하는 일도 본 실시예에 동일하게 적용되나 물성의 종류 및 데이터 수치에만 차이가 있으며, 총 9575 개의 화합물들에 대한 115777 개의 데이터가 수집되었다. 최종적으로는 2428 개의 화합물에 대한 81765 개의 데이터를 선정하였다. 나아가 이를 954 개의 탄화수소들에 대한 34165 개의 데이터 집합과 1474 개의 비탄화수소들에 대한 47600 개의 데이터 집합으로 나누어 각각 모델을 확립하였다.
이후, 단계 3.까지도 실시예 2-1 과 동일하게 진행되고, 단계 4 는 실험데이터를 토대로 각 매개변수에 대한 QSPR 모델을 확립하는데 필요한 자료를 준비하는 단계이다. SVRC 수식으로 포화액체밀도를 계산하기 위해서는 임계점과 삼중점에서의 포화액체밀도 pc,pt의 값과 ac,at의 값이 필요하다. ^는 임계부피의 역수에 해당하는데 이 값은 이미 알려져 있는 값 또는 QSPR 모델에 근거한 계산 방법에 의해서 구할 수 있다. 한편 삼중점의 온도를 정확히 예측하는 것은 일반적으로 매우 어려운 일임이 잘 알려져 있으며 따라서 본 발명에서는 삼중점 대신 탄화수소에 대해서는 정상끓는점의 0.5 배( T0.5b ), 비탄화수소에 대해서는 정상끓는점의 0.55 배( T0.55b )를 포화액체밀도곡선의 시작 은도로 잡았는데, '샘폴 화합물들에 대해 이 지점들의 평균은 삼중점의 평균과 거의 일치한다. 이제 QSPR-SVRC 모델을 완성하기 위해서는 나머지 매개변수들인 ac , aa5b (또는 a0.55b), p0.5b (또는 p0.55b)에 대한 QSPR 예측모델을 확립하여야 한다. 이러한 QSPR 예측모델을 확립하기 위해서는 각 매개변수별로 여러 화합물들에 대한 해당 값들의 집합을 마련하여야 하는데, Po.5b (또는 p0.55b)에 대해서는 먼저 포화액체밀도의 전형적인 곡선을 각 화합물의 실험데이터에 맞춘 뒤, 그 곡선에서 온도가 T0.5b (또는 T0.55b )가 되는 지점의 값을 취하였으며, cxc , a0.5b (또는 a 55b )에 대해서는 비선형방정식의 수치해법을 통하여 아래의 식에서 a의 값을 각 온도에 대해 구한 뒤, 이러한 값들이 이루는 직선에서 온도가 Tc, T0.5b (또는 T0.55b)인 지점의 값을 각각 취하였다. p = (P? - (P? - Po.5b)e)(1/H) (또는 p = (p -(p -f) 5b)e)(1/o0) 이후 단계도 실시예 2-1 과 동일하게 진행되고, 단계 6 에서 포화액체밀도에 대한 각 화합물의 실험데이터 전체를 SVRC 수식을 통해 계산된 값과 비교하는 테스트를 진행한다. 이때 SVRC 수식으로 예측값을 계산하려면 정상끓는점과 임계온도의 값이 필요한데 이 정보에 대해서는 이미 알려져
2
있는 값 또는 QSPR 모델에 근거한 계산 5·
8방법에 의해서 구한 값을 활용하였다. 이러한 과정을 거쳐 확립된 QSPR-SVRC 모델에 대한 결과는 표 82부터 ' '89까지 간략히 정리되어 있다. 표 82, 83, 84는 각각 탄화수소에 대한 p0.5b, a0.5b , (½의 값을 예측하는 QSPR 모델을 간단히 기술한 것이며 이들을 바탕으로 탄화수소의 포화액체밀도를 예측하는 QSPR-SVRC 모델과 그 성능에 대한 결과는 표 85에 나와 있다. 또한 비탄화수소에 대한 p0.5Sb, a0.S5b> 의 값을 예측하는 QSPR 모델들은 표 86부터 88까지 각각 기술되어 있다. 이렇게 확립된 비탄화수소의 포화액체밀도를 예측하는 QSPR-SVRC 모델과 그 성능에 대한 결과는 표 89에 나와 있다.
【표 82】 탄화수소의 .513에 대한 QSPR 예측모델의 주요 내용
샘플 화합물들의 개수 342
분자표현자들의 개수 15
Px: 수소원자의 평균 원자가 (Average valency of a H atom)
분자표현자들의 이름 P2: 삼중결합의 수 (Number of triple bonds)
P3: 관성 모멘트 B(Moment of inertia B)
P4 : 상대적 양전하 (RPCG Relative positive charge (QMPOS/QTPLUS))
P5: 이웃 탄소에 추가결합 없는 sp3 탄소 결합 수소 (H attached to C0(sp3) no X attached to next C)
P6 : 구조 정보 내용 (주변대칭 차수 0) (structural informat ion content (neighborhood symmetry of 으 order))
P7: Kier-Hall 의 전자위상적 상태의 합 (sum of Kier- Hal 1 electrotopological states)
P8 : 평균 정보 내용 (차수 1) (Average Information content (order 1))
P9: 형태 프로필 차수 20( shape profile no. 20)
P10: Narumi 의 조화 위상학적 지수 (Narumi harmonic topological index)
ΡΧ1: 꼭지점거리도들 곱의 로그값 (log of product of row sums (PRS))
P12 : 반데르발스가중 거리행렬 평균 고유백터계수 합 (average eigenvector coefficient sum from van der- Wa ls weighted distance matrix)
P13: 평균 위상학적 전하 지수 차수 2P14: Moran 의 자기상관 차수 1/원자 편극도 가중 (Moran autocorrelation - lag 1 1 Weighted by atomic polarizabi lities)
P15 : 평균 전자위상적 상태 (mean electrotopological state)
결정계수 0.999629
평균절대오차 57.09136mol/m3
o 해
丄 Ξ p0.5b(mol/m3) = c0 + qPj
【표 83】 탄화수소의 cc0.5b에 대한 QSPR 예측모델의 주요 내용
샘플 화합물들의 개수 276
분자표현자들의 개수 7
P1 : R 최대 자기상관 차수 반데르발스 부피 가중 (R maximal autocorrelation of lag 4 / Weighted by atomic van der Waals volumes)
P2: 경로 /걸음 2 - Randic 의 형태 지수 (path/walk 2 - Randic shape index)
P3: Burden 행렬의 춰저 고유값 2/원자량 가중 (lowest 분자표현자들의 이름
eigenvalue n. 2 of Burden matrix / weighted by atomic masses)
P4 : 수소원자 자기상관 차수 7/원자 Sanderson 전기음성도 가중 (H autocorrelation of lag 7 / Weighted by atomic Sanderson electronegativities) P5 : 평균 원자 Sanderson 전기음성도 (탄소원자로 조정) (mean atomic Sanderson electronegativity
(scaled on Carbon atom))
P6 : 수소원자 자기상관 차수 2/원자량 가중 (H autocorrelat ion of lag 2 / Weighted by atomic masses)
P7: 지렛대 가중 자기상관 차수 2/원자량 가중 (leverage- weighted autocorrelation of lag 2 / Weighted by atomic masses)
결정계수 . 0:653854
평균절대오차 0.103774
Ξ a0.5b= c0 +∑LiCjPj
【표 84】 탄화수소의 ^에 대한 QSPR 예측모델의 주요 내용
샘플 화합물들의 개수 228
분자표현자들의 개수 5
Px : 쌍극자모멘트 가중 모서리 인접행렬 스펙트럼 모멘트 1 (Spectral moment 01 from edge adjacency matrix weighted by dipole moments)
P2: 관성 모멘트 A(Moment of inertia A)
P3: R— CR—R 기능기 수 (R— C—R)
분자표현자들의 이름
P4: 원자전하 가중 부분양전하 표면적 분율 가중치 (WPSA-
3 Weighted PPSA (PPSA3*TMSA/1000))
P5: R 최대 자기상관 차수 5/원자 편극도 가중 (R maximal autocorrelat ion of l g 5 / Weighted by atomic polarizabilities)
결정계수 0.514547
평균절대오차 0.119611
모 델
【표 85]
Figure imgf000262_0001
【표 86】 비탄화수소의 p0.5sb에 대한 QSPR 예측모델의 주요 내용
샘플 화합물들의 개수 733
분자표현자들의 개수 20
Px: 말단 1차 sp2 탄소의 수 (number of terminal primary C(sp2))
P2 : ᅳ 거리행렬 평균 고유백터계수 합 (average eigenvector coefficient sum from distance matrix) P3 : Balaban 거리연결지수 (Balaban distance connectivity index)
P4: 거리행렬 가중 편극도 가중 거리행렬의 고유값 합 (Eigenvalue sum from polar izabi 1 ity weighted distance matrix)
P5 : 구조 정보 내용 (주변대칭 차수 2) (structural informat ion content (neighborhood symmetry of 2- order))
P6 : 평균 원자가 결합지수 차수 0(average valence connectivity index chi-0)
P7: 최소 부분전하 (Qmin)(Min partial charge (Qmin)) P8: 전체전하 가증 부분양전하 표면적 분율 가증치 (WPSA-
2 Weighted PPSA (PPSA2*TMSA/1000) )
P9: 회전가능 결합 비을 (rotatable bond fraction)
P10 : 산소원자의 상대적인 수 (Relative number of 0 분자표현자들의 이름 atoms)
Pu: 원자 편극도의 합 (탄소원자로 조정) (sum of atomic polar izabi 1 it ies (scaled on Carbon atom))
P12: 탄소원자의 최소 부분전하 (Min partial charge for a C atom)
P13: R자기상관 차수 3/비가중 (R autocorrelation of lag
31 Unweighted)
P14 : 질소원자의 상대적인 수 (Relative number of N atoms)
P15: R 자기상관 차수 4/원자량 가중 (R autocorrelation of lag 41 Weighted by atomic masses)
P16 : 구조 정보 내용 (주변대칭 차수 0) (structural informat ion content (neighborhood symmetry of 0- order))
P17 : 지렛대 가중 자기상관 차수 4/비가중 (leverage- weighted autocorrelat ion of lag 4 / Unweighted) P18: 관성 모멘트 B(Moment of inertia B)
P19: 질소원자의 최대 결합차수 (Max bond order of a N atom)
P20 : 동경 ' 분포 함수 -2.0/원자량 가중 (Radial
Figure imgf000264_0001
【표 87】
Figure imgf000264_0002
【표 88】 비탄화수소의 에 대한 QSPR 예측모델의 주요 내용
샘플 화합물들의 개수 704
분자표현자들의 개수 10
Px : 3 차 성분접근지향적 가중 포괄불변분자 지수 /원자 전자위상 상태 가중 (3rd component accessibility directional WHIM index /weighted by atomic 분자표현자들의 이름 electrotopological states)
P2: R 자기상관 차수 7/원자량 가중 (R autocorrelation of lag 71 Weighted by atomic masses)
P3: R-CH--X 기능기 수 (R—C—X)
Figure imgf000265_0001
【표 89]
Figure imgf000265_0002
실험데이터에 대해 본 발명의 QSPR-SVRC 모델과 널리 사용되는 기존 모델로서 위에 언급되었던 Rackett 및 Yamada— Gunn 모델들과의 예측성능을 비교하였다. 그 결과 Rackett 모델은 0.95363의 결정계수값과 164.500mol/ m3 의 평균절대오차값을 Yamada-Gunn 모델은 0.96826의 결정계수값과 166.377mol/m3의 평균절대오차값을 보인 반면, 본 발명의 QSPR-SVRC 모델은 0.99519의 결정계수값과 112.447 mol/m3 의 평균절대오차값을 보여 보다 우수함을 알게 되었다. 도 149부터 153까지는 예로 몇몇 화합물에 대해 각 모델의 예측성능을 비교한 도면들이다. 이 도면들로부터 QSPR-SVRC 모델이 기존 모델보다 우수한 성능을 가짐을 눈으로 확인할 수 있다. 한편 실험데이터에 대해 실험값과 예측값 사이의 오차를 히스토그램으로 그린 것이 도 154부터 156까지이다. 히스토그램은 일치하는 정도를 나타내는 号계분석의 방법으로 중앙의 막대는 실험 오차 범위 내에 들어가는 예측값을 가진 분자의 비율을 나타낸다. 중앙에 위치한 막대의. 백분율은 일반적으로 예측정확도의 수준을 가리킨다. 이 도면들은, Rackett 모델은 82.45%, Yamada-Gunn 모델은 79.77%, QSPR-SVRC 모델은 86.15%의 확를로 3% 오차 이내로 포화액체밀도를 예측하고 있음을 보여주어 QSPR-SVRC 모델이 보다 정확함을 증명해준다.
[실시예 2-5] 순수한유기화합물의 표면장력을 예측하는 QSPR모델
본 실시예의 관심 물성인 표면장력에 대해서도 현재까지 여러 예측모델들이 제안되었다. 표면장력 (surface: tension)이라 함은 순수한 물질의 액체 표면에서 그 표면적을 작게 하도록 작용하는 힘을 말한다. 표면장력의 예측에 대한 그간의 연구결과들은 문헌 [Poling B. E. , Prausnitz J. Μ·, 0' Conne 11 J. P., The Properties of Gases and Li quids (5 ed. ), New York , McGraw Hill, (2000).]에 간략히 소개되어 있다.
현재 표면장력을 예측하는 모델로 잘 알려지고 널리 쓰이는 것들은 주로 대웅상태의 원리에 기반하여 개발된 수식 모델들이다. Macleod-Sugden 방정식으로 알려진 다음의 수식은 가장 고전적 모델로세 Macleod, D. B., Trans. Faraday Soc, 19: 38 (1923). , Sugden, S., J. Chew. Soc, 32, 1177 (1924)], 액체의 밀도 , 기체의 밀도 f , 파라코르 (온도에 독립적인 변수, [P])의 값을 이용하여 임의의 온도에 대한 표면장력 σ의 값을 계산해 준다. σ1/4 = [Ρ](Ρζ.-Ρ ) 이 후에 Brock-Bird는 임계압력 Pc , 임계온도 Tc , 환산온도 (Vr = , 압축인자 (Zc=^)를 도입한 다음의 수식을 제안하였다 [Brock J. R. , Bird'
R. , B, AIChE J, 1: 174 (1955).]. σ = PC 2/3TC 1/3 (-0.951 + (1 - Tr ^ 위 Brock— Bird 수식에서 압축인자대신 다른 매개변수를 사용하여 Miller는 다음 수식을 제안하였다. [Miller, D. G. , Ind. Eng. Chem. Fundam. , 2: 78 (1963)] 여기서 사용된 환산온도 Tbr = 이다.
, ' b σ = Pc 2/3rc 1/3Q(l - Try"9 rbrln(Pc/1.01325)
Q = 0.1196 + -0.279
1― Tbr 표면장력의 예측모델을 구축하는데 있어서 대안이 될 수 있는 다른 방법들 중의 하나는 표면장력의 그래프 개형을 대변할 수 있는 일반수식을 찾아서 그 수식의 변수들을 계산하는 방법이다. 이 방법에서 사용할 표면장력의 수식은 다음의 함수로 정했다. σ = A * (1 - 7»Ν 여기서 A, N은 각 분자에 고유하게 주어지는 상수들 (constants)로서 QSPR을 사용하여 예측하였다. 도 157은 표면장력에 대한 QSPR 모델을 구축하는 과정을 흐름도로 간략히 표현한 것이다. 다른 실시예에서 설명한 실험데이터를 수집하고 검토 분류하는 일도 본 실시예에 동일하게 적용되나 물성의 종류 및 데이터 수치에만 차이가 있으며 , 총 2181개의 화합물들에 대한 26767개의 데이터가 수집되었다. 최종적으로는 502개의 화합물에 대한 11455개의 데이터를 선정하였다.
이후 분자표현자들의 값을 준비하는 단계는 다른 실시예와 동일하다. 단계 4는 실험데이터를 토대로 각 매개변수에 대한 QSPR 모델을 확립하는데 필요한 자료를 준비하는 단계이다. 표면장력 일반수식 [σ = Α*(1ᅳ ΓΓ)Ν]으로 표면장력을 계산하기 위해서는 그래프의 기울기에 해당하는 A와 온도항에 대한 지수 N 값이 필요하다. 식에서 변수 값이 2개이므로 두 점에서의 표면장력을 알면 각 분자별 A와 N을 구할 수 있다. 이 모델에서는 삼증점과 정상끓는점에서의 표면장력 (^ 의 값을 계산하여 다른 변수를 알아내는 방법을 선택하였다. 삼중점의 온도를 정확히 예측하는 것은 일반적으로 매우 어려운 일임이 잘 알려져 있으며 따라서 본 발명에서는 삼중점 대신 정상끓는점의 0.55배 (T0.S5b)를 표면장력곡선의 시작 온도로 잡았는데, 샘플 화합물들에 대해 이 지점들의 '평균은 삼중점의 평균과 거의 일치한다. QSPR모델을 완성하기 위해서는 매개변수들인 cr0.55b , (jb 에 대한 QSPR 예측모델을 확립하여야 한다. 이러한 QSPR 예측모델을 확립하기 위해서는 각 매개변수 별로 여러 화합물들에 대한 해당 값들의 집합을 마련하여야 하는데, 와 i0.55b에 대해서는 먼저 표면장력의 전형적인 곡선을 각 화합물의 실험데이터에 맞춘 뒤, 그 곡선에서 온도가 Tb와 T0.55b가 되는 지점의 값을 취하였다.
단계 5는 각 매개변수에 대한 QSPR 모델을 구축하는 단계이다. 각 매개변수에 대한 QSPR 모델을 구축하는 과정은 도 136(실시예 2-2) 및 이에 대한 설명과 동일하다.
단계 6에서는 표면장력에 대한 각 화합물의 실험데이터 전체를 표면장력 수식을 통해 계산된 값과 비교하는 테스트를 진행한다. 이때 표면장력 수식으로 예측값을 계산하려면 정상끓는점 값이 필요한데 이 정보에 대해서는 이미 알려져 있는 값 또는 QSPR 모델에 근거한 계산 방법에 의해서 구한 값을 활용하였다.
이러한 과정을 거쳐 확립된 QSPR 모델에 대한 결과는 표 90부터 93까지 간략히 정리되어 있다. 표 90, 91은 각각 σ0.55ΐ3 , cjb의 값을 예측하는 QSPR 모델을 간단히 기술한 것이며 이들을 바탕으로 탄화수소의 표면장력을 예측하는 QSPR 모델과 그 성능에 대한 결과는 표 92에 나와 있다. 또한 비탄화수소의 표면장력을 예측하는 QSPR 모델과 그 성능에 대한 결과는 표 93에 나와 있다.
【표 90】
Figure imgf000269_0001
Figure imgf000270_0001
【표 91】
Figure imgf000270_0002
Figure imgf000271_0001
【표 92]
Figure imgf000271_0002
【표 93] 비탄화수소에 대한 QSPR 예측모델의 주요 내용
샘플 화합물들의
786
개수
실험데이터의 개수 6986
결정계수 0.880922
평균절대오차 0.001914 N/m
ᄆ ᅦ σ = Α*(1- Tr)N
위 식에 앞에서 구한 σ0.55ϋ& 값과 각 값에서의 환산온도 를 ..넣고 분자마다 A와 N을 구한다. 본 발명이 기존 기술보다 우월함을 보이기 위해 911개 화합물의 7224개의 실험데이터에 대해 본 발명의 QSPR 모델과 널리 사용되는 기존 모델로서 위에 언급되었던 Brock-Bird 모델과 Miller 모델의 예측성능을 비교하였다. 그 결과 Brock-Bird 모델은 0.03327의 결정계수값과 0.006343 N/m 의 평균절대오차값을 보이고 Miller 모델은 0.03890의 결정계수값과 0.005901 N/m 의 평균절대오차값을 보일 반면, 본 발명의 QSPR 모델은 0.92335의 결정계수값과 0.001421 N/m 의 평균절대오차값을 보여 현저히 우수함을 알게 되었다. 도 158부터 161까지는 예로 몇몇 화합물에 대해 각 모델의 예측성능을 비교한 도면들이다. 이 도면들로부터 QSPR 모델이 기존 모델보다 우수한 성능을 가짐을 눈으로 확인할 수 있다. 한편 7224개의 실험데이터에 대해 실험값과 예측값 사이의 오차를 히스토그램으로 그린 것이 도 162, 163 164이다. 히스토그램은 일치하는 정도를 나타내는 통계분석의 방법으로 중앙의 막대는 실험 오차 범위 내에 들어가는 예측값을 가진 분자의 비율을 나타낸다. 중앙에 위치한 막대의 백분율은 일반적으로 예측정확도의 수준을 가리킨다. 이 도면들은, Brock-Bird 모델은 64.29¾>, Miller 모델은 66.08%, QSPR 모델은 86.65%의 확률로 1 오차 이내로 표면장력을 예측하고 있음을 보여주어 QSPR모델이 보다 정확함을 증명해준다.
표면장력은 화학플랜트의 최적설계 프로그램으로 잘 알려진 AspenPlus 나 Pro/I I 와 같은 상용 프로그램이 그 정확한 값을 절실히 요청하는 물성이며 REACH 와 같은 화합물의 생산과 소비에 관한 국제적인 규정들이 그 값을 요구하기도 하는 중요한 물성이다.
[실시예 2-6] 순수한 유기화합물의 액체 열전도율을 예측하는 QSPR-SVRC 모델
본 실시예의 관심 물성인 액체 열전도율에 대해서도 현재까지 여러 예측모델들이 제안되었다. 액체 열전도율 (thermal conductivity of liquid)이라 함은 순수한 물체 내부의 등온면의 단위면적을 통과하여 단위 시간에 수직으로 흐르는 열량과 이 방향에서 온도 기을기의 비, 즉 물질 속을 열이 전도하는 정도를 나타낸 수치로서 두께 lm인 판의 양면에 1K의 은도 차가 있을 때 그 판의 1 m2를 통해서 1초동안에 흐르는 열량을 줄 (joule)로 측정한 값을 말한다. 액체 열전도율의 예측에 대한 그간의 연구결과들은 문헌 [Poling B. E., Prausnitz J. M., 으 Connell J. P. , The Properties of Gases and Li quids (5 ed. ), New York, McGraw Hill, (2000).]에 간략히 소개되어 있다.
현재 액체 열전도율을 예측하는 모델로 잘 알려지고 널리 쓰이는 것들은 주로 대웅상태의 원리에 기반하여 개발된 수식 모델들이다. Sato는 정상 끓는점에서의 열전도율을 분자량 M을 이용하여 예측하는 다음의 수삭으로 제안했다. [Maej ima, T., private communication, 1973. Equation . was suggested by Prof . K. Sato, of the Tokyo Institute of Technology. ]
_ 1.11 이 방법은 정상끓는점에서만 액체의 열전도율을 예측할 수 있다.
Riedel은 여러 온도에서의 액체 열전도율 ^을 예측하기 위해 환산온도 7; = (^)]에 의존하는 다음과 같은 식을 제안했다. [Riedel, L., Chem. Ing. Tech. , 1946, 21, 349]
L = β * [3 + 20 * (1 - rr)2/3]
책 The Properties of Gases and Liquids에서는 위 두 방법을 결합해서 만든
Sat으 Riedel 방법은 환산온도들 [7; =쬬 =찌과 분자량을 이용하는 다음과 같은 식을 제안하였다. [R.C. Reid, J.M. Prausnitz, and B.E. Poling The Properties of Gases and Liquids, 4th ed. , New York: McGraw-Hi 11 , 1987]
Figure imgf000274_0001
이 방법은 분자량이 작은 탄화수소나 가지를 가지는 탄화수소에 대해서 좋지 않은 결과를 가지는 것으로 알려져 있다.
그리고 다른 실시예에서 설명한 그룹기여 방법도 이용된 바 있으며, 그룹기여 방법 중 Sastri는 액체 열전도율 λ를 예측하기 위해 온도 Τ에 의존하는 다음과 같은 모델을 제안하였다 [Sastri, S. R. S., personal communication, Regional Research Laboratory, Bhubaneswar , (1998)] .
入 = *^
(1-ΤΛ η
VL lbr)
여기서 111,3, 는 각 조각형식에 할당된 계수들의 합으로서 해당 조각형식이 각각 상수 항, 환산 온도 [7; = ()]항에 기여하는 정도를 반영하고 있다. 그리고 SVRC 에 대한 문헌 (Shaver R. D. et al)의 공식에서 아래첨자 b 와 t 는 각각 끓는점과 삼중점 (triple point)을 의미하는 것으로 Tb,Tt는 각각 끓는점과 삼중점에서의 온도를, ab,cxt는 각각 끓는점과 삼증점에서의 a값을, Yb,Yt는 각각 끓는점과 삼중점에서의 물성값을 뜻한다. A, B, C 는 각 물성에 고유하게 주어지는 보편상수들 (universal constants)로서 본 발명에서는 액체의 열전도율을 예측하기 위해 그 값을 각각 1.33, 1, 0 으로 정하였으며 ac = at, 즉 a = ac라고 가정하였다.
액체 열전도율에 대한 QSPR-SVRC 모델을 구축하는 과정은 도 125(실시예 2- 1)와 동알하고, 실험데이터를 수집하고 검토 분류하는 일도 본 실시예에 동일하게 적용되나 물성의 종류 및 데이터 수치에만 차이가 있으며, 총 1923 개의 화합물들에 대한 31642 개의 데이터가 수집되었다. 최종적으로는 1127 개의 화합물에 대한 23696 개의 데이터를 선정하였다. 나아가 이를 368 개의 탄화수소들에 (대한 7106 개의 데이터 집합과 759 개의 비탄화수소들에 대한 16590 개의 데이터 집합으로 나누어 각각 모델을 확립하였다.
단계 4 는 실험데이터를 토대로 각 매개변수에 대한 QSPR 모델을 확립하는데 필요한 자료를 준비하는 단계이다. SVRC 수식으로 액체 열전도율을 계산하기 위해서는 정상끓는점과 삼중점에서의 액체 열전도율 ,^의 값과 a 의 값이 필요하다. 삼중점의 온도를 정확히 예측하는 것은 일반적으로 매우 어려운 일임이 잘 알려져 있으며 따라서 본 발명에서는 삼중점 대신 정상끓는점의 0.65 배 ( T 65b )를 액체 열전도율곡선의 시작 온도로 잡았는데, 샘플 화합물들에 대해 이 지점들의 평균은 삼중점의 평균과 거의 일치한다. 이제 QSPR-SVRC 모델을 완성하기 위해서는 나머지 매개변수들인 a , A 65b,Ab에 대한 QSPR 예측모델을 확립하여야 한다. 이러한 QSPR 예측모델을 확립하기 위해서는 각 매개변수 별로 .여러 화합물들에 대한 해당 값들의 집합을 마련하여야 하는데, λ 65ΐ3, ; 에 대해서는 먼저 액체 열전도율의 전형적인 곡선을 각 화합물의 실험데이터에 맞춘 뒤, 그 곡선에서 온도가 Ta65b, Tb가 되는 지점의 값을 취하였다.
나아가 도 126 부터 128 까지 그리고 이와 관련된 실시예 2-1 에서의 설명 역시 본 실시예에도 동일하게 적용되며 중복되는 설명은 생략한다. 다만 도 127 의 세부단계 7 에 기재된 '과적합 방지기준' 이 본 실시예에서는 탄화수소의 시작점 액체 열전도율의 경우 1 W/(m*K)가 된다.
이 같은 과정을 거쳐 각 매개변수에 대한 QSPR 모델이 구축되면 다음으로 단계 6에서는 액체 열전도율에 대한 각 화합물의 실험데이터 전체를 SVRC 수식을 통해 계산된 값과 비교하는 테스트를 진행한다. 이때 SVRC 수식으로 예측값을 계산하려면 정상끓는점의 값이 필요한데 이 정보에 대해서는 이미 알려져 있는 값 또는 QSPR 모델에 근거한 계산 방법에 의해서 구한 값을 활용하였다. 만일 실험값과 예측값의 오차가 용인할 수 있는 수준보다 클 경우 (예측오차가 실험평균오차보다 큰 경우가 대략 25%이상일 때), 단계 5로 돌아가 각 매개변수들에 대한 QSPR 모델을 다시 잡는다. 테스트를 통과한 경우 이를 완성된 QSPR-SVRC 모델로 채택한다.
이러한 과정을 거쳐 확립된 QSPR-SVRC 모델에 대한 결과는 표 94 부터 99까지 간략히 정리되어 있다. 탄화수소와 비탄화수소에 대한 λ 65ΐ3 , , α의 값을 예측하는 QSPR 모델은 표 94부터 98까지 간단히 기술되어있다. 이렇게 확립된 액체 열전도율을 예측하는 QSPR-SVRC 모델과 그 성능에 대한 결과는 표 99에 나와있다.
【표 94】
Figure imgf000277_0001
인공신경망 ME 0.00335016»W/(m*K)
A0.65JW/(m*K)] =
인공신경망 QSPR모델
T + ^ w'^Cl + exp (-T - ^ ^ )) 과적합 방지기준 1 W/(m * K)
【표 95】 비탄화수소의 A0.65b에 대한 QSPR 예측모델의 주요 내용
샘플 화합물들의 개수 316
분자표현자들의 개수 15.
Pt: Kier 의 벤젠-가능성 지수 (Kier benzene-1 ikel iness index)
P2 : 동경 분포 함수 -15.0/원자량 가중 (Radial Distribution Funct ion - 15.0 / weighted by atomic masses)
P3: 평균 연결지수 차수 4( average connectivity index chi -4)
P4: Ar-C(=X)-R 기능기 수 (Ar-C(=X)-R)
P5: Broto-Moreau 의 위상구조 자기상관 -차수 2/원자량 가중 (Broto—Moreau autocorrelation of a topological structure lag 2 / Weighted by atomic masses)
P6: Geary의 자기상관 -차수 2/원자 Sanderson 전기음성도 가중 (Geary autocorrelat ion - lag 4 / Weighted by atomic Sanderson electronegativity)
P7 : R 최대 자기상관 차수 2/비가중 (R ma imal autocorrelation of lag 21 Unweighted)
분자표현자들의 이름 P8: Kier 와 Hall 의 지수 (차수 l)(Kier&Hall index
(order 1))
P9: 공명적분 가중 모서리 인접행렬 고유값 14(Eigenvalue 14 from edge adjacency matrix weighted by resonance integrals)
P10 : 지렛대 가중 자기상관 차수 2/비가중 (leverage- weighted autocorrelat ion of lag 2 / Unweighted) Pu: 수소결합 제공원자의 수 (number of donor atoms for H-bonds (N and 0))
P12 : 동경 분포 함수 -8.5/원자 Sanderson 전기음성도 가중 (Radial Distribution Funct ion - 8.5 1 weighted by atomic Sanderson electronegativity)
P13 : (지방족) 케톤의 수 (number , of ketones
(aliphatic))
P14 : 평균 원자 Sanderson 전기음성도 (탄소원자로 조정) (mean atomic Sanderson electronegativity (scaled on Carbon atom))
Figure imgf000279_0001
【표 96】
Figure imgf000279_0002
【표 97】 비탄화수소의 b에 대한 QSPR 예측모델의 주요 내용
샘플 화합물들의
316
개수
분자표현자들의 개수 15
Pi: 산소원자의 최대 원자가 (Maxim雇 valency of a 0 atom)
P2 : 2 차 성분크기지향적 가중 포괄불변분자 지수 /비가중 (2nd component size directional WHIM index 1 unweighted)
P3: 동경 분포 함수 -8.0/비가중 (Radial Distribution Function - 8.0 / unweighted)
P4: Moran 의 자기상관 차수 2/원자 반데르발스 부피 가중 (Moran autocorrelat ion 一 lag 2 / Weighted by atomic van der Waals volumes)
P5: Broto-Moreau의 위상구조 자기상관ᅳ차수 2/원자량 7}^ (Broto-Moreau autocorrelat ion of a topological structure 一 lag 2 / Weighted by atomic masses) P6 : 동경 분포 함수 -11.5/원자량 가중 (Radial Distribution Function - 11.5 1 weighted by atomic masses)
P7: 고리의 상대적인 수 (Relative number of rings) p8 : 최대 시그마-시그마 결합차수 (Max SIGMA-SIGMA bond order) ᅳ
분자표현자들의 이름
P9: 산소원자의 상대적인 수 (Relative number of 0 atoms)
P10: 전자회절기반 3 차원 분자구조 표현—차수 8/원자 편극도 가중 (3D-MoRSE - signal 08 1 weighted by atomic polarizabi 1 ity)
Pn : 전자회절기반 3 차원 분자구조 표현- 차수 2/원자량 가중 (3D-MoRSE - signal 02 / weighted by atomic masses)
P12 : 수소결합 기부체 전하 표면적 (HDCA H-donors charged surface area)
P13: Burden 행렬의 최저 고유값 3/원자량 가증 (lowest eigenvalue no. 3 of Burden matrix / weighted by atomic masses)
P14 : R 최대 자기상관 차수 1/원자 . Sanderson 전기음성도 가중 (R maximal autocorrelation of lag 1 1 Weighted by atomic Sanderson electronegativity) P15: 동경 분포 함수 -14.0/원자 편극도 가증 (Radial Distribution Function - 14.0 / weighted by atomic polarizabi 1 ity)
회귀모델 결정계수 0.839936
회귀모델 ME 0.00605143 W/(m * K)
Figure imgf000281_0001
α에 대한 QSPR 예측모델의 주요 내용
샘플 화합물들의
639
개수
분자표현자들의 개수 18
Px: (방향족) 카르복실산의 수 (number of carboxyl ic acids (aromat ic))
P2: N..0 간 기하학적 거리의 합 (Sum of geometrical distances between N..0)
P3: 분자의 총 쌍극자 (Total dipole of the molecule)
P4 : 1 차 성분대칭지향적 가중 포괄불변분자 지수 /원자 전자위상 상태 가중 (2nd component symmetry direct ional WHIM index 1 weighted by atomic electrotopological states)
P5 : 최소 원자 궤도의 전자 집단 (Minimum ' atomic orbital electronic population)
P6 : 쌍극자모멘트 가중 모서리 인접행렬 스펙트럼 모멘트 7(Spectral moment 07 from edge adjacency matrix weighted by dipole moment s )
P7 : 탄소원자의 최 부분전하 (Maximum partial 분자표현자들의 이름 charge for a C atom)
P8 : Burden 행렬의 최고 고유값 5/원자 편극도 가중 (highest eigenvalue no. 5 of Burden matrix 1 weighted by atomic polarizabi 1 ity)
P9 : 질소원자의 평균 단전자 반응지수 (Aver age 1- electron react ion index for a N atom)
P10 : 위상거리 5 C-N 결합의 존재여부 (presence/absence of C - N at topological distance 05)
P : 평균 연결지수 차수 2 (aver age connectivity index chi-2)
P12: R— CR— R 기능기 수 (R--CR—R)
P13: R 자기상관 차수 2/비가중 (R autocorrelation of lag 2 1 Unwei hted)
P14: 관성 모멘트 A(Moment of inertia A)
P15: (지방족) 1 차 아민의 수 (number of primary
Figure imgf000282_0001
【표 99】
SVRC 예측모델의 주요 내용
샘플 화합물들의
635
개수
실험데이터의 개수 6350
SVRC 결정계수 0.9379
SVRC 평균절대오차 0.00386549 W/(m * )
= <X - (λ^ - ^65b)e)(1/a)
, 1- 1.33ε\
QSPR-SV C 모델 θ(ε) = (ΐ_-τ1.33) h一 Τ(.65ΐ
본 발명이 기존 기술보다 우월함을 보이기 위해 1104 개 화합물의 11040 개의 실험데이터에 대해 본 발명의 QSPR-SVRC 모델과 널리 사용되는 기존 모델의 하나로서 위에 언급되었던 Sat으 Riedel 모펠의 예측성능을 비교하였다. 그 결과 Sato-Riedel 모델은 0.52724 의 결정계수값과 0.01584 W/(m * K)의 평균절대오차값을 보인 반면, 본 발명의 QSPR-SVRC 모델은 0.70012 의 결정계수값과 0.00939 W/(m*K)의 평균절대오차값을 보여 현저히 우수함을 알게 되었다. 도 165 부터 168 까지는 예로 몇몇 화합물에 대해 각 모델의 예측성능을 비교한 도면들이다. 이 도면들로부터 QSPR-SVRC 모델이 기존 모델보다 우수한 성능을 가짐을 눈으로 확인할 수 있다. 한편 11040 개의 실험데이터에 대해 실험값과 예측값 사이의 오차를 히스토그램으로 그린 것이 도 169, 170 이다. 히스토그램은 일치하는 정도를 나타내는 통계분석의 방법으로 중앙의 막대는 실험 오차 범위 내에 들어가는 예측값을 가진 분자의 비율을 나타낸다. 중앙에 위치한 막대의 백분율은 일반적으로 예측정확도의 수준을 가리킨다. 이 도면들은, Sato-Riedel 모델은 66.49%, QSPR-SV C 모델은 86.62%의 확를로 10% 오차 이내로 액체 열전도율을 예측하고 있음을 보여주어 QSPR-SVRC 모델이 보다 정확함을 증명해준다.
[실시예 2-7] 순수한 유기화합물의 기체 열전도율을 예측하는 QSPR-SVRC 모델
본 실시예의 관심 물성인 기체 열전도율에 대해서도 현재까지 여러 예측모델들이 제안되었다. 기체 열전도율 (thermal conductivity of gas)라 함은 순수한 물체 내부의 등온면의 단위면적을 통과하여 단위' 시간에 수직으로 흐르는 열량과 이 방향에서 온도 기울기의 비, 즉 물질 속을 열이 전도하는 정도를 나타낸 수치로서 두께 lm인 판의 양면에 1K의 온도 차가 있을 때 그 판의 lm2를 통해서 1초동안에 흐르는 열량을 줄 (joule)로 측정한 값을 말한다. 기체 열전도율의 예측에 대한 그간의 연구결과들은 문헌 [Poling B. E. , Prausnitz J. M. , 0' Connell J. P. , The Properties of Gases and Li quids (5 ed.J, New York, McGraw Hill , (2000).]에 간략히 소개되어 있다.
현재 기체 열전도율을 예측하는 모델로 잘 알려지고 널리 쓰이는 것들은 주로 대응상태의 원리에 기반하여 개발된 수식 모델들이다. Eucken 관계식으로 알려진 다음의 수식은 가장 고전적이면서 널리 이용되는 모델로 [Poling B. E. , Prausnitz J. M. , 0' Connell J. P., The Properties of Gases and Li quids (5 ed.), New York, McGraw Hill , (2000)] 점도 (viscosity) ϋ와 이상기체의 열용량 Cp, 분자량 을 이용하여 임의의 온도에 대한 기체 열전도율을 계산할 수 있게 해준다.
λ*Μ' 9/4 이 방법은 극성 분자에 대해서는 정확도가 떨어지는 것으로 알려졌다.
이와 비슷하지만 다른 물성들을 사용해서 열전도을을 계산한 방법 중 하나는
Misic-Thodos 법이다 . [Misic, D. , G. Thodos , Atmospheric Thermal Conductivity for Gases of Simple Molecular Structure, J. Chem. Eng.
Data, 8 (1963), 540] 이상기체의 열용량 Cp, 환산온도 (7; = ) , 임계 온도
Tc, 임계 압력 Pc, 분자량 M을 이용하여 임의의 온도에 대한 기체 열전도율을 계산할 수 있게 해준다. λ = 0.000001 * [14.52 * Tr - 4.14]1 * Cp/T
Tc 1/6 * M1'2
Γ =―
ρ2/3 이 방법은 온도가 273K이상이거나 환산온도 (Tr =^)가 0.355이상일 때와 탄화수소 분자들 이외의 상황에서는 대해서는 정확도가 떨어지는 것으로 알려 있다.
SVRC 방법을 기체 열전도율에 적용한 사례는 아직 없다. 이 방법은 기본적으로 한 화합물의 포화물성 Y가 온도 T의 다음과 같은 함수로 주어진다고 가정한다.
Υ= (Υ« - (Υ« - Υ«)θ)^/«)
Figure imgf000285_0001
ε(1 +
α = ac— (ac— ο )
1 + C
ΤΓ -Τ\
vrc— v
여기서 Θ와 α는 각각 correlating 함수, scaling 지수라고 불리는 양들이며 ε는 일종의 환산은도 (reduced temperature)이다. 아래첨자 c와 b는 각각 임계점과 끓는점을 의미하는 것으로 Tc,Tb는 각각 임계점과 끓는점에서의 온도를, ccc,ab는 각각 임계점과 끓는점에서의 α값을, Yc,Yb는 각각 임계점과 끓는점에서의 물성값을 뜻한다. 또한 A, B, C는 각 물성에 고유하게 주어지는 보편상수들 (universal constants)로서 본 발명에서는 기체 열전도율을 예측하기 위해 그 값을 각각 1.07068, 0.325, 0으로 정하였으며 ac = ab , 즉 a = ac라고 가정하였다. 위의 수식을 통해 기체 열전도율을 계산하기 위해서는 각 화합물에 대한 이와 같은 매개 변수들의 값을 알아야 하는데 이를 해결하는 한가지 방법은 각 매개 변수에 대한 QSPR 예측모델을 확립하는 것이다.
도 125부터 도 128(실시예 2-1)까지에 대한 설명은 본 실시예에도 적융되며, 실험데이터를 수집하고 검토 분류하는 일≤· 본 실시예에 동일하게 적용되나 물성의 종류 및 데이터 수치에만 차이가 있으며, 총 910 개의 화합물들에 대한 9730 개의 데이터가 수집되었다. 최종적으로는 693 개의 화합물에 대한 9179개의 데이터를 선정하였다/
이후 분자표현자들의 값을 준비하는 단계는 실시예 2-1과 동일하고, 실험데이터를 토대로 각 매개변수에 대한 QSPR 모델을 확립하는데 필요한 자료를 준바하는 단계 4에서, SVRC 수삭으로 기체 열전도율을 계산하기 위해서는 임계온도와 끓는점에서의 기체 열전도율 Ac,Ab의 값과 α의 값이 필요하다. 끝점인 임계온도에서의 기체 열전도율을 정확히 예측하는 것은 어려운 일이다. 따라서 본 발명에서는 임계은도 대신 정상끓는점의 3배 (T3b)를 기체 열전도율곡선의 끝 온도로 잡았는데, 샘플 화합물들에 대해 실험값 끝점 온도의 평균은 정상끓는점의 3배의 평균과 거의 일치한다. 이제 QSPR-SVRC 모델을 완성하기 위해서는 나머지 매개변수들인 a , A3b , Ab에 대한 QSPR 예측모델을 확립하여야 한다. 이러한 QSPR 예측모델을 확립하기 위해서는 각 매개변수 별로 여러: 화합물들에 대한 해당 값들의 집합을 마련하여야 하는데, Ab,A3b 에 대해서는 먼저 기체 열 도율의 전형적인 곡선을 각 화합물의 실험데이터에 맞춘 뒤, 그 곡선에서 온도가 Tb (또는 T3b )가 되는 지점의 값을 취하였으며, α에 대해서는 비선형방정식의 수치해법을 .통하여 아래의 식에서 α의 값을 각 온도에 대해 구한 뒤, 이러한 값들이 이루는 선에서 온도가 인 지점의 값을 각각 취하였다.
λ= ¾ - (λ¾ -λ¾θ)(1 «)
이후 단계를 통하여 한 매개변수에 대한 다중선형회귀 QSPR 모델이 일단 구축되면 인공신경망 QSPR 모델 을 구축하기 위해 먼저 분자표현자들의 데이터와 매개변수의 데이터를 표준화하는 작업, 즉 각 값에서 해당 데이터의 평균을 뺀 뒤 표준편차로 나누는 작업을 진행한다.
나아가 도 125 부터 128 까지 그리고 이와 관련된 실시예 2-1 에서의 설명 역시 본 실시예에도 동일하게 적용되며 중복되는 설명은 생략한다. 다만 도 127 의 세부단계 7 에 기재된 '과적합 방지기준' 이 본 실시예에서는 일례로 탄화수소의 시작점 기체 열전도율의 경우 0.003 W/(m*K)가 된다.
이 같은 과정을 거쳐 각 매개변수에 대한 QSPR 모델이 구축되면 다음으로 단계 6에서는 기체 열전도율에 대한 각 화합물의 실험데이터 전체를 SVRC 수식을 통해 계산된 값과 비교하는 테스트를 진행한다. 이때 SVRC 수식으로 예측값을 계산하려면 정상끓는점의 값이 필요한데 이 정보에 대해서는 이미 알려져 있는 값 또는 QSPR 모델에 근거한 계산 방법에 의해서 구한 값을 활용하였다. 만일 실험값과 예측값의 오차가 용인할 수 있는 수준보다 클 경우 (예측오차가 실험평균오차보다 큰 경우가 대략 20%이상일 때), 단계 5로 돌아가 각 매개변수들에 대한 QSPR 모델을 다시 잡는다. 테스트를 통과한 경우 이를 완성된 QSPR-SV C모델로 채택한다.
이러한 과정을 거쳐 확립된 QSPR-SVRC 모델에 대한 결과는 표 100부터 103까지 간략히 정리되어 있다. 각각 Ab , A3b , α의 값을 예측하는 QSPR 모델은 표 100부터 102까지 간단히 기술되어 있으며 이들을 바탕으로 가체 열전도율을 예측하는 QSPR-SVRC 모델과 그 성능에 대한 결과는 표 103에 나와 있다.
【표 100]
Figure imgf000288_0001
½b에 대한 QSPR 예측모델의 주요 내용
샘플 화합물들의
489
개수
분자표현자들의 개수 11
Px: 위상학적 전하 지수 차수 9(topologi cal charge 분자표현자들의 이름
index of order 9)
Figure imgf000289_0001
【표 102] α에 대한 QSPR 예측모델의 주요 내용
샘플 화합물들의 개수 489
분자표현자들의 개수 10
P1: 탄소원자의 최대 부분전하 (Max partial charge for a 분자표현자들의 이름 C atom)
P2: Onsager-Kirkwood 의 용매화 에너지 이미지 (Image of
Figure imgf000290_0001
실험데이터에 대해 본 발명의 QSPR-SWC 모델과 널리 사용되는 기존 모델로서 위에 언급되었던 Misic-Thodos 모델과 Eucken의 변형모델의 예측성능을 비교하였다. 그 결과 Misic-Thodos 모델은 0.80743의 결정계수값과 0.010860 W/(m * K) 의 평균절대오차값을 보이고 Eucken 변형모델은 0.83470의 결정계수값과 0.011211 W/(m*K)의 평균절대오차값을 보이는 반면, 본 발명의 QSPR-SVRC 모델은 0.97969의 결정계수값과 0.003665 W/(m* K)의 평균절대오차값을 보여 현저히 우수함을 알게 되었다. 도 1기부터 174까지 예로 몇몇 화합물에 대해 각 모델의 예측성능을 비교한 도면들이다. 이 도면들로부터 QSPR-SVRC 모델이 기존 모델보다 우수한 성능을 가짐을 눈으로 확인할 수 있다. 한편 6090개의 실험데이터에 대해 실험값과 예측값 사이의 오차를 히스토그램으로 그린 것이 도 175, 176, 177이다. 히스토그램은 일치하는 정도를 나타내는 통계분석의 방법으로 중앙의 막대는 실험 오차 범위 내에 들어가는 예측값을 가진 분자의 비율을 나타낸다. 중앙에 위치한 막대의 백분율은 일반적으로 예측정확도의 수준을 가리킨다. 이 도면들은, Misic-Thodos모델은 70.08%, Eucken 변형모델은 62.34%, QSPR-SVRC 모델은 88.40%의 확를로 1OT 오차 이내로 기체의 열전도율을 예측하고 있음을 보여주어 QSPR-SVRC 모델이 보다 정확함을 증명해준다.
[실시예 2-8] 순수한화합물의 액체증기압을 예측하는 QSPR-SVRC모델
본 실시예의 관심 물성인 액체증기압에 대해서도 현재까지 여러 예측모델들이 제안되었다. 액체증기압 (vapor pressure of liquid)이라 함은 액체에서 증발하는 압력으로 증기가 액체와 동적평형상태에 있을 때의 포화증기압을 말한다. 같은 물질이라도 온도가 높아지면 증기압이 높아진다. 액체증기압의 예측에 대한 그간의 연구결과들은 문헌 [Poling B. E., Prausnitz J. M. , 0' Conne 11 J. P., The Properties of Gases and Li quids (5 ed , New York; McGraw Hill, (2000).]에 간략히 소개되어 있다. 현재 액체증기압을 예측하는 모델로 잘 알려지고 널리 쓰이는 것들은 주로 대웅상태의 원리에 기반하여 개발된 수식 모델들이다. Riedel corresponding-states 방법 (1954)으로 알려진 다음의 수식은 가장 널리 이용되는 모델로 정상끊는점 (normal boiling point temperature) , 임계온도 (critical temperature) Tc와 임계압력 (critical pressure) Pc를 이용하여 임의의 은도에 대한 액체증기압을 계산할 수 있게 해준다. 환산온도인 Tbr =TbITc , Tr = T/TC 이다.
1η „ -— + C+lnr +D+T6
A+ = -35Q , 5+ =-36β, C+ =42Q + ac , D+ =-Q, Q = K{ .15 -ac)
_3.758^+ln(^/1.01325)
C Κψ, -\nTbr b =-35 + ^- + 42lnTbr-Tb 6 r
丄 T =―, Tbr =―, K=0.0838
Riedel은 종류에 상관없이 K를 0.0838을 선택했는데 나중에 Vetere(1991)가 alch 과 acid에 대해 더 개선된 예측결과를 나타낼 수 있는 K를 새로이 제안하였다. Acid: K=-0.120+0.025h, alchol: K=0.373-0.030h ,
Figure imgf000293_0001
Γ/은 고압영역에서의 증기압 곡선의 굴절점을 나타낸다. Tr 6 represents a curved point on a vapor pressure curve in the high pressure region. , Pitzer 확장은 두 파라미터의 대웅상태식의 정확성을 더 개선하기 위하여 세 파라미터 형태로 제안된 것 중 하나이고 비록 f(0), f(1), f(2)에 대해 많은 분석적 표현들이 제안되었지만 (brandani, 1993; Schreiber and Pitzer, 1989; Twu, et al., 1994) 그 중 Ambrose and Walton(1989)이 가장 추천할 만 하다.
ln^ =/(0)+^0)+^/,2)
.5
(0) -5.97616r + 1.29874r' 0.60394r25 - -1.06841T5 f
τ,.
Figure imgf000293_0002
-0.64771τ + 2.41539τ' .5 4.26979r25. -3.25259r5
Figure imgf000293_0003
τ=(1-ΤΓ). 이 방법은 Lee and Kesler(975)의 초기 식보다 더 정확하고 직선사슬모양의 포화탄화수소 (normal alkane)의 증기압을 잘 맞춘다. f(2)는 낮은 환산온도에서 그리고 큰 이심인자를 가지는 유체에서만 중요하다. 사실 환산은도 Tr=0.7에서 0이다.
Ambrose-Walon 방법과 Riedel 방법은 높은 온도에서 잘 맞는다. 낮은 온도에서는 Ambrse-Walton방법이 탄화수소, n-tetradecane에서 더 좋은 반면 Riedel방법은 alcohol, 1-octanol에서 더 잘 예측한다. 만약 정상끓는점이 알려져 있지 않다면 Tu(1994)에 의해 보고된 그룹기여예측방법을 사용할 수 있지만 크게 정확하지는 않다. 이 방법은 극성뿐 아니라 비극성유체에도 이용할 수 있다. 액체증기압을 SVRC에 적용한 사례는 문헌 [Fluid Phase Equilibria 246 (2006) 39-51]에서 제안되었다. 이 방법은 기본적으로 한 화합물의 포화물성 Y가 온도 T의 다음과 같은 함수로 주어진다고 가정한다. γ = (Yc a - (γ« - Yt a)e)( /a)
1-ΑεΒ
θ(ε) = ()
ε(1 + 0ε)
a = ac - (ac - at)( 1 + c ) Tc-T
A, B, (: 는 각 물성에 고유하게 주어지는 보편상수들 (universal constants)로서 본 실시예에서는 문헌에서와 같이 각각 2/3, 0.985, 4/3으로 정하였다. 도 125 부터 도 128(실시예 2-1)까지에 대한 설명은 본 실시예에도 적용되며 실험데이터를 수집하고 검토 분류하는 일도 본 실시예에 동일하게 적용되나 물성의 종류 및 데이터 수치에만 차이가 있으며, 총 1127 개의 화합물들에 대한 72775 개의 데이터가 수집되었다. 최종적으로는 803 개의 화합물에 대한 19590 개의 데이터를 선정하였다. 나아가 이 전체 데이터를 362 개의 탄화수소들에 대한 8, 845 개의 데이터 집합과 441 개의 비탄화수소들에 대한 10,745개의 데이터 집합으로 나누어 각각 모델을 확립하였다.
이후 단계 역시 실시예 2-1 과 동일하게 진행되며, 실험데이터를 토대로 각 매개변수에 대한 QSPR 모델을 확립하는데 필요한 자료를 준비하는 단계 4 에서는, SWC 수식으로 액체증기압을 계산하기 위해서 임계점에서의 압력과 온도 그리고 정상 끓는점, ac, at가 필요하다. 정상끓는점에서의 증기압은 이론적으로 lbar로 놓을 수 있다. 이때 임계압력과 임계은도, 정상 끓는점은 이미 알려져 있는 값 또는 QSPR 모델에 근거한 계산 방법에 의해서 구한 값을 활용하였다.
이후 단계 역시 실시예 2-1 과 동일하게 진행되고, 단계 6 에서는 액체증기압에 대한 각 화합물의 실험데이터 전체를 SVRC 수식을 통해 계산된 값과 비교하는 테스트를 진행한다. 이때 SVRC 수식으로 예측값을 계산하려면 정상 끓는점과 임계온도 및 임계압력의 값 등이 필요한데 이 정보에 대해서는 이미 알려져 있는 값 또는 QSPR 모델에 근거한 계산방법에 의해서 구한 값을 활용하였다.
이러한 과정을 거쳐 확립된 QSPR-SVRC 모델에 대한 결과는 표 104부터 113까지 간략히 정리되어 있다. 표 104부터 109까지는 이미 개발된 정상 끓는점, 임계은도, 임계압력을 예측하는 다중선형회귀 -인공신경망 흔성 QSPR 모델을 간단히 기술한 것이며 표 110, 111은 ac, at를 예측하는 다중선형회귀 QSPR 모델이고 표 112, 113은 이들을 바탕으로 탄화수소와 비탄화수소의 액체증기압을 예측하는 QSPR-SVRC 모델과 그 성능에 대한 결과이다. 【표 104]
Figure imgf000296_0001
Figure imgf000297_0001
탄화수소의 임계온도에 대한 QSPR 예측모델의 주요 내용
샘플화합물들의 개수 801
분자표현자들의 개수 10
Px: 위상거리 7 C-C 결합의 빈도 (frequency of C - C kt topological distance 07)
?2 : 동경 분포 함수 -4.5/원자 반데르발스 부피 분자표현자들의 이름 가증 (Radial Distribution Function - 4.5 1 weighted by atomic van der Waals volumes)
P3: 꼭지 정도 등급상의 평균 정보 내용 (mean information content on the vertex degree magnitude)
Figure imgf000298_0001
【표 107] 비탄화수소의 임계온도에 대한 QSPR 예측모델의 주요 내용
샘플화합물들의 개수 896
분자표현자들의 개수 15
Γ : Ar-NH2 / Χ-ΝΗ2 기능기 수 (Ar-NH2 / X-NH2)
P2 : (지방족) 니트릴의 수 (number of nitriles
(aliphatic))
P3: 위상거리 4 C-0 결합의 빈도 (frequency of C - 0 at topological distance 04)
P4 : 모서리도 가중 모서리 인접행렬 스펙.트럼 모멘트 Spectral moment 04 from edge adjacency matrix 분자표현자들의 이름 weighted by edge degrees)
P5: 최고준위 점유 분자궤도 -1 에너지 (H0M0-1 energy)
P6: Z가중 거리행렬 (Barysz 행렬)의 고유값 합 (Eigenvalue sura from Z weighted distance matrix (Barysz matrix)) P7 : R 최대 자기상관 차수 2/원자량 가중 (R maximal autocorrelation of lag 2 1 Weighted by atomic masses) P8 : 수소결합의존적 수소 결합 기부체 하전 표면적 분율 (HA dependent HDCA-1/TMSA P9: 순환기의 수 (number of circuits)
P10 Brol HMoreau의 위상구조 자기상관 -차수 1/원자 반데르발스 부피 가중 (Brot으 Moreau autocorrelation of a topological structure - lag 11 Weighted by atomic van der Waals volumes)
Pii: (지방족) 3차 아미드의 수 (number of tertiary amides (aliphatic))
P12: 수소결합 수용체 하전 표면적 분율 (FHACA Fractional HACA (HACA/TMSA))
P13: 수소원자의 최소 부분전하 (Minimum partial charge for a H atom)
P14 부분 음전하 표면적 분율 (FNSA-1 Fractional PNSA (PNSA-1/TMSA))
P15 Onsager-Kirkwood의 용매화 에너지 이미지 (image of the Onsager-Ki rkwood sol vat ion energy)
회귀모델 결정계수 0.945355
회귀모델 AAE 16.8085 · 회귀모델 임계온도 = c0 +∑ CiPi
인공신경망 결정계수 0.972155
인공신경망 AAE 12.4728 K
인공신경망 QSPR
ᄆ 5fl 임계온도 = T +∑¾ w' (l + exp (-T -∑^ WijPi))"1
Ξ
과적합 방지기준 70 K
[표 108】 탄화수소의 임계압력에 대한 QSPR 예측모델의 주요 내용
샘플화합물들의 개수 802
분자표현자들의 개수 12
Px : 상대적 양전하 (RPCG Relative positive charge (QMP0S/QTPLUS))
P2 : 전체전하 가중 부분양전하 표면적 분율 (FPSA-2 Fractional PPSA (PPSA-2/TMSA))
P3 : 보완정보내용 (주변대칭 차수 0) (complementary information content (neighborhood symmetry of 0- order))
분자표현자들의 이름 P4: 평균 위상학적 전하 지수 차수 2 (mean topological charge index of order2)
P5: 자기회귀 걸음 합계 차수 7(self-returning walk count of order 07)
P6: 질량가중 거리행렬 평균 고유백터계수 합 (average eigenvector coefficient sum from mass weighted distance matrix)
P7 Ghose-Vi swanadhan-Wendo 1 osk i 항우울성 지수 (80%)차지) ( Ghose-V i s wanadhan-Wendo 1 osk i ant idepressant-1 ike index at 80%)
P8 : 동경 중심 정보 지수 (radial centric information index) "
P9: 반데르발스 가중거리 행렬에 근거한 Randic 타입의 평균 고유백터기반 지수 (average Randic-type eigenvector-based index from van der Waals weighted distance matrix) .
P10 : 자기회귀 걸음 합계 차수 10(self-returning walk count of order 10)
Ρ: 모서리 인접행렬 스펙트럼 모멘트 10(Spectral moment 10 from edge adjacency matrix)
P12: C 4 기능기 수 (CR4)
회귀모델 결정계수 0.983436
회귀모델 ME 0.828754 Bar
회귀모델 임계압력 = Pj
인공신경망 결정계수 0.984662
인공신경망 ME 0.792369 Bar
인공신경망 QSPR
t w' (l + exp (-T -∑^ WijP )-1 ->- Ξᅦ 임계압력 = T +
과적합 방지기준 40%
【표 109】 비탄화수소의 임계압력에 대한 QSPR 예측모델의 주요 내용
샘플화합물들의 개수 1164 '
분자표현자들의 개수 15
ί : 고리의 상대적인 수 (Relative number of rings)
P2: 삼중결합의 상대적인 수 (Relative number of triple bonds )
P3 : 수소결합의존적 수소결합 기부체 원자의 면적가중 표면전하 분율 (HA dependent HDCA-2/TMSA)
P4: 수소결합수용체 하전 표면적 분율 (FHACA Fractional HACA (HACA/TMSA))
P5 : 부분양전하 표면적 분율 가중치 (WPSA-1 Weighted 분자표현자들의 이름 PPSA (PPSA1*TMSA/1000))
P6 : 원자전하 가중 부분양전하 표면적 분율 (FPSA-3 Fractional PPSA (PPSA-3/TMSA))
Py : 원자전하 가중 부분양전하 표면적과 부분음전하 표면적의 차 (DPSA-3 Difference in CPSAs (PPSA3-PNSA3)) P8 : 상대적 양전하 표면적 (RPCS Relative positive charged SA (SAMP0S*RPCG))
P9: 보완정보내용 (주변대칭 차수 0)
(com lementary information content (neighborhood
Figure imgf000301_0001
( 에 대한 QSPR 예측모델의 주요 내용 . 샘플화합물들의
1705 - 개수
분자표현자들의
8
개수
P1: 원자전하 가중 부분양전하 표면적 분율 (FPSA-3
Fractional PPSA (PPSA-3/TMSA) )
P2:환산온도 (reduced Temperature(K))
P3: 수소원자의 최소 순원자전하 (min net atomic charge for a H atom)
분자표현자들의 P4: Kier의 유연상지수 (Kier flexibility index)
이름 P5:환산온도에서의 엔트로피 (entropy— Tr(cal/mol/K))
P6: 관성 모멘트 C(moment of inertia C)
P7: 전체전하 가중 부분양전하 표면적과 부분음전하 표면적의 차 (DPSA-2 Difference in CPSAs (PPSA2-
PNSA2))
Ps:정상 끓는점 (normal boi 1 ing point temperature(K)) 결정계수 0.913183
평균절대오차 0.00678
=cQ+∑ l iPi -
【표 111]
«,에 대한 QSPR 예측모델의 주요 내용 샘플 화합물들의
1705
개수
분자표현자들의 개수 8
Pi: 환산온도 (reduced temperature)
P2: 탄소원자의 최대 부분전하 (max partial charge for a
C atom)
P3: 탄소원자의 최대 친핵성 반웅 지수 (max nucleophilic reactivity index for a C atom)
P4: 수소원자의 최대 순원자전하 (max net atomic charge 분자표현자들의 이름
for a H atom)
P5: XY 그림자 1 XY 직사각형 (XY Shadow 1 XY Rectangle)
P6: Randic의 지수 (차수 l)(randic index (order 1))
P7: 관성 모멘트 CCmoment of inertia C)
P8: 최고준위 점유 분자궤도 ᅳ 최저준위 비점유 분자궤도 에너지 차이 (HOMO - LUMO energy gap)
결정계수 0.88887
평균절대오차 0.01047
a oil
s.
【표 112] 탄화수소에 대한 SVRC 예측모델의 주요 내용
샘플 화합물들의
362
개수
실험데이터의 개수 8845
결정.계수 0.994
평균절대오차 0.301bar
Figure imgf000302_0001
1-- 3
Ξ 에 O "
- a -Δ ~
1 + 4
3
Δα = ac -at
Tc -T
ε =—
Τ -Τ
【표 113】 ' 비탄화수소에 대한 SWC 예측모델의 주요 내용
441 ― ― ― — - - 개수
실험데이터의 개수 10745
결정계수 0.984
평균절대오차 0.5589bar
Figure imgf000303_0001
모 델 ε(1 + ~ε)
a - -Δα 3
4
1 +
Δ« = ac -at
T -T 본 발명이 기존 기술보다 우월함을 보이기 위해 647개 화합물의 15, 760개의 실험데이터에 대해 본 발명의 QSPR-SVRC 모델과 널리 사용되는 기존 모델의 하나로서 위에 언급되었던 Riedel 모델의 예측성능을 비교하였다. 그 결과 Riedel 모델은ᅳ 0.98940의 결정계수값과 0.29110bar의 평균절대오차값을 보인 반면, 본 발명의 QSPR-SVRC 모델은 0.98905의 결정계수값과 0.31818bar의 평균절대오차값을 보여 통계상 큰 차이가 없었지만 Riedel 방법의 경우 계산이 되지 않는 분자가 있어 우리 모델이 다소 우위에 있다하겠다. 도 178부터 181까지는 예로 몇몇 화합물에 대해 각 모델의 예측성능을 비교한 도면들이다. 이 도면들로부터 QSPR-SVRC 모델이 기존 모델보다 우수한 성능을 가짐을 눈으로 확인할 수 있다. 한편 실험데이터에 대해 실험값과 예측값 사이의 오차를 히스토그램으로 그린 것이 도 182, 183이다. 히스토그램은 일치하는 정도를 나타내는 통계분석의 방법으로 중앙의 막대는 실험 오차 범위 내에 들아가는 예측값을 가진 분자의 비율을 나타낸다. 중앙에 위치한 막대의 백분율은 일반적으로 예측정확도의 수준을 가리킨다. 이 도면들은, Riedel 모델은 91.71%, QSPR-SVRC 모델은 91.06%의 확률로 lbar 오차 이내로 액체증기압을 예측하고 있음을 보여주었다.
[실시예 2-9] 순수한유기화합물의 액체점성도를 예측하는 QSPR-SVRC모델 본 실시예의 관심 물성인 액체점성도에 대해서도 현재까지 여러 예측모델들이 제안되었다. 액체점성도 (viscosity of liquid)라 함은 유체의 움직임에 대한 저항을 말한다. 간단히. 말해 액체의 분자 인력에 기인하는 끈적끈적한 정도라고 할 수 있다. 액체점성도의 예측에 대한 그간의 연구결과들은 문헌 [Poling B. E. , Prausnitz J. M. , 0' Connell J. P. , The Properties of Gases and Li quids (5 ed. ), New York, McGr w Hill, (2000).]에 간략히 소개되어 있다.
현재 액체점성도를 예측하는 모델로 잘 알려지고 널리 쓰이는 것들은 그룹기여 방법인 Joback 모델이다. Joback 모델은 가장 고전적이면서 널리 이용되는 모델 [Joback, K. G., R. C. Reid, "Estimation of Pure-Component Properties from Gr oup-Cont r i but i ons " . Chem. Eng. Comm. , 57 :233(1987).]이다,
\η{μ I MW) ^∑JJA - 597.82)/ T + (^JB— 4.294) Jj: 액체 점성도 (cP), J시 Js=조각모델들의 합이다.
Letsou-Stiel } 제안한 모델은 비극성과 약한 극성유체에 대해 계산된다. [Letsou,A., L.I. Stiel. AIChE J. , 19: 409 (1973).] 이것은
0.76<Tr<0.98 온도 범위 내에서 비극성 분자에 대한 액체 점성도를 측정하는데 가장 정확한 방법이다. 낮은 온도에서는 정확도가 떨어지는 편이며 오차는 임계온도와 임계압력 (Tc,와 Pc)의 정확도에 달려있다.
Figure imgf000305_0001
μ° = 0.015174- 0.02135Γβ +0.034ΓΛ 2
μι = 0.042552 - 0.07674ΓΛ + 0.034ΓΛ 2
//:액체점성도 (cP), ω : 이심인자 (acentric factor), Tc:임계온도, Pc:임계압력, 厦:분자무게, >:환산온도 T/Tc .
Orrick and Erbar 방법은 식에 A, B를 얻기 위하여 그룹 기여 방법을 도입하였다.
PLM T
액체 점성도 (cP), :20°C에서의 액체밀도 (g/cm3), M:분자무게, T:온도 (K) 이 방법에서는 20°C 이하에서 정상끓는점을 가지는 액체는 20°C에서의 pL를 사용하고 어는점이 20°C 이상인 액체는 녹는점에서 을 도입해야한다. 이 방법의 단점은 질소나 황을 포함하는 화합물들은 다를 수 없다는 것이다.
Orrick 과 Erbar는 이 방법으로 188개의 유기 액체에 대해 테스트하였다. 오차는 폭은 크지만 평균 오차는 15%로 보고되어있다.
액체점성도의 예측모델을 구축하는데 있어서 대안이 될 수 있는 다른 방법들 중의 하나는 SVRC(scaled variable reduced coordinates) 방법이다. 이 방법은 대웅상태의 원리를 기반으로 화합물의 포화상태꾀 물성들을 다루는 통합된 골격으로서 문헌 [Shaver R. D., Robinson R. L. Jr . , Gasem K. A. Μ·, Fluid Phase Equilibria, 64: 141 (1991).]에서 제안되었으며 이 방법을 78개 화합물의 액체점성도에 적용한 사례는 문헌 [Ajay Jegadeesan, "STRUCTURE-BASED GENERALIZED MODELS FOR SELECTED PURE-FLUID SATURATION PROPERTIES" , Oklahoma State University, the Degree of MASTER OF SCIENCE December , 2006]에 잘 나와 있다. 이 방법은 기본적으로 한 화합물의 포화물성 Y가 온도 T의 다음과 같은 함수로 주어진다고 가정한다.
Υ = (Υ« - (Υ« -Υ«)θ)(1/α) ' ! _ ΑεΒ
θ(ε) = (- τ -) ε(1 + CE)
α = ac - (ac - at)( 1 + c )
Tc-T 여기서 Θ와 a는 각각 correlating 함수, scaling 지수라고 불리는 양들이며 일종의 환산은도 (reduced temperature)이다. 아래첨자 c와 t는 각각 임계점과 삼중점 (triple point)을 의미하는 것으로 Tc,Tt는 각각 임계점과 삼중점에서의 은도를, ac,at는 각각 임계점과 삼중점에서의 α값을, Yc,Yt는 각각 임계점과 삼중점에서의 '일종의 환산온도 (reduced temperature)이다. 아래첨자 c와 t는 각각 임계점과 삼중점 물성값을 뜻한다. 또한 A, B, C는 각 물성에 고유하게 주어지는 보편상수들 (universal constants)로서 액체 점성도의 경우 상기의 문헌에서는 그 값을 각각 1.33, 1, 0으로 정하였다. 한편 동일 문헌에서 저자들은 다음식을 통해 ac,at의 값들을 산정하였는데 이 값들로 622개 유체의 액체점성도를 계산한 결과 15, 794개의 실험데이터에 대해 절대평균편차 (AAD)는 23%였다.
A = (ac -at) = 0 , a = ac =at
본 실시예에서는 α를 위의 식으로 쓰지 않았으며 ac,at를 따로 구했다. 액체점성도를 예측하기 위해 탄화수소의 경우 상 (phase)이 액체일 경우 293.15K온도에서의 모델을 쓰고 상이 기체나 고체일 경우 액체점성도가 lOcP일 때의 모델을 쓰는 통합모델을 만들었고 비탄화수소에서는 액체점성도가 lOcP일 때의 단독 모델을 썼다. 보편상수의 경우 293.15K 모델의 경우 A, B, C 값을 각 각 22.2, 5.12, 0으로 정하였으며 lOcP 모델의 경우 A, B, C 값을 각 각 75.8, 5.06, 0으로 정하였다. 위의 수식을 통해 액체점성도를 계산하기 위해서는 각 화합물에 대한 대한 액체점성도가 lOcP일때의 와 293.15K에서 액체의 물질의 ac,ctt,Ti293.15 와 같은 매개 변수들의 값을 알아야 하는데 이를 해결하는 한가지 방법은 각 매개 변수에 대한 QSPR 예측모델을 확립하는 것이다.
도 125 부터 도 128(실시예 2-1)까지에 대한 설명은 본 실시예에도 적용되며, 실험데이터를 수짚하고 검토 분류하는 일도 본 실시예에 동일하게 적용되나 물성의 종류 및 데이터 수치에만 차이가 있으며, 총 1893 개의 화합물들에 대한 37419 개의 데이터가수집되었다. 최종적으로는 913 개의 화합물에 대한 30506 개의 데이터를 선정하였다. 나아가 이 전체 데이터를 294 개의 탄화수소들에 대한 6,246 개의 데이터 집합과 619 개의 비탄화수소들에 대한 12,357 개의 데이터 집합으로 나누어 각각 모델을 확립하였다. 또한 탄화수소와 비탄화수소의 구분없이 상이 액체로 예상될 경우만 293.15K 에서의 액체점성도값을 첫점으로 하는 모델을 만들었지만 비탄화수소모델에서는 개선된 결과를 보이지 않아 탄화수소의 경우만 통합모델을 썼다ᅳ 이후 단계 역시 실시예 2-1과 동일하게 진행되고, SVRC 수식으로 액체점성도를 계산하기 위해서는 임계점과 삼중점에서의 액체점성도 c, t의 값과 의 값이 필요한데 nc는 이론적으로 임계점에 다가갈 수록 0에 가까워진다. 그래서 본 발명과 연계된 정상끓는점 예측의 오차를 고려하여 임계온도 +100K에서 r =lE-15로 놓을 수 있다. 한편 삼중점의 온도를 정확히 예측하는 것은 일반적으로 매우 어려운 일임이 잘 알려져 있으며 또한 액체점성도의 특성상 녹는점에 가까워질수록 값이 급격하게 커지기 때문에 다론 문헌들을 참고해봐도 대개 로그를 취한 후 예측하고 그 값을 환산하는 방식이다. 하지만 실제 해보니 환산했을 경우 오차가 너무 크다는 문제가 생겼다. 녹는점에서의 액체점성도. 값의 분포를 보니 탄화수소의 경우 90% 정도가 녹는점에서의 액체점성도 값이 1CP~10CP에 있었으며 비탄화수소의 경우 53%가 녹는점에서의 액체점성도 값이 lcP~10cP 사이에 있었다. 그래서 lOcP에서의 첫점 온도를 예측하는 모델을 만들었다. 탄화수소에서 액체 상일 경우는 293.151 (온도에서의 액체점성도값을 로그를 춰해 QSPR로 예측한 후 환산한 값을 시작점으로 한다. ac, ctt는 각각 임계점과 액체점성도가 lOcP일 때의 온도에서의 a 값이며, 이제 QSPR— SWC 모델을 완성하기 위해서는 나머지 매개변수들인 ac 와 at, 액체점성도가 lOcP일경우 온도 (T), 293.15K에서의 액체점성도에 대한 QSPR 예측모델을 확립하여야 한다. 이러한 QSPR 예측모델을 확립하기 위해서는 각 매개변수별로 여러 화합물들에 대한 해당 값들의 집합을 마련하여야 하는데, η293.15Κ 에 대해서는 먼저 액체점성도의 전형적인 곡선을 각 화합물의 실험데이터에 맞춘 뒤, 그 곡선에서 온도가 293.151 (가 되는 지점의 값을 취하였으며, T10cP에. 대해서는 액체점성도의 전형적인 곡선을 각 화합물의 실험데이터에 맞춘 뒤, 그 곡선에서 액체점성도 값이 lOcP가 되는 지점의 온도를 취하였으며, 에 대해서는 실험데이터로부터 비선형방정식의 수치해법을 통하여 아래의 식에서 α의 값을 각 온도에 대해 구한 뒤, 일차방정식으로 ac, at를 구하였다.
a ~ a c _Δ(
단계 5 는 각 매개변수에 대한 QSPR 모델을 구축하는 단계이다. 본 ' 발명에서는 이러한 QSPR 모델로, 탄화수소의 ac ' at 에 대해서는 다중선형회귀 -인공신경망 흔성 QSPR 모델을 비탄화수소의 ac, «,에 대해서는 다중선형회귀 QSPR 모델을, 끝점예측에 대해서는 다중선형회귀 -인공신경망 흔성 QSPR 모델을 채택하였다.
SVRC 수식에 필요한 매개변수들 중 탄화수소에서는 ac , at에 대해서는 이렇게 구축된 다중선형회귀 -인공신경망 흔성 QSPR 모델을 최종 예측모델로 채택하였으나 비탄화수소에서는 ac , at에 대해서는 다중선형회귀 QSPR 모델을 최종 예측모델로 채택하였다. ^리고 끝점예측에 대해서는 모두 다중선형회귀 -인공신경망 흔성 QSPR 모델을 최종 예측모델로 채택하여 다음의 과정이 추가된다. 단계 6에서는 액체점성도에 대한 각 화합물의 실험데이터 전체를 SVRC 수식을 통해 계산된 값과 비교하는 테스트를 진행한다. 이때 SVRC 수식으로 예측값을 계산하려면 정상끓는점에서의 기화열 ( AHb )과 정상끓는점 등이 필요한데 이 정보에 대해서는 이미 알려져 있는 값 또는 QSPR 모델에 근거한 계산 방법에 의해서 구한 값을 활용하였다. 만일 실험값과 예측값의 오차가 용인할 수 있는 수준보다 클 경우, 단계 5로 돌아가 각 매개변수들에 대한 QSPR 모델을 다시 잡는다. 테스트를 통과한 경우 이를 완성된 QSPR-SVRC 모델로 채택한다. 이러한 과정을 거쳐 확립된 QSPR-SVRC 모델에 대한 결과는 표 114부터 119까지 간략히 정리되어 있다. 표 114부터 119까지는 각각 탄화수소에 대한
Τη=ιθ£:ρ ' ^ 2931^ - a c, =iocP ' αΐ,η=10ςΡ ' .293.15 ' Q t,293.15K 의 값을 예측하는 QSPR 모델을 간단히 기술한 것이며 이들을 바탕으로 탄화수소의 액체점성도를 예측하는 QSPR-SVRC 모델과 그 성능에 대한 결과는 표 120에 나와 있고 탄화수소 중 액체에 특화된 QSPR-SVRC 모델은 표 121에 나와있다. 또한 비탄화수소에 대한
Figure imgf000310_0001
값을 예측하는 QSPR 모델은 표 122부터 124까지 각각 기술되어 있다. 이렇게 확립된 비탄화수소의 액체 점성도를 예측하는 QSPR-SVRC 모델과 그 성능에 대한 결과는 표 '125에 나와 있다.
【표 114] 탄화수소의 액체점성도가 lOcP일 경우 은도 예측에 대한 QSPR 예측모델의 주요 내용
샘플화합물의 개수 303
분자표현자들의 개수 10 F 기화열 (heat of vaporization)
?2- Burden 행렬의 최저 고유값 1/원자 반데르발스 부피 가중 (lowest eigenvalue n. 1 of Burden matrix 1 weighted by atomic van der Waals volumes)
p3: 최저준위 비점유 분자궤도 +1 에너지 (LUM0+1 energy) P4: Balaban Y 지수 (Balaban Y index)
P5: Ghoseᅳ Viswanadhan一 Wendoloski 의 최면성 지수 (80%차지) (Ghose一 Viswanadhan— Wendoloski hypnotic- like index at 80%)
P6: 꼭지 정도 평등상의 평균 정보 내용 (mean information 분자표현자들의 이름 content on the vertex degree equality)
P7: 평균제곱 거리 지수 (Balaban) (mean square distance index (Balaban))
P8: 비교 분자 모맨트 분석 3 사중극자 xx/원자 반데르발스 부피 가증 (Qxx C0MMA2 value 1 weighted by atomic van der Waals volumes)
P9: 분자 다중 경로 총수 차수 7(molecular multiple path count of order 07)
P10: 동경 분포 함수 -8.5/원자량 가중 (radial Distribution Function - 8.5 / weighted by atomic masses)
회귀모델 결정계수 0.9741 · 회귀모델 ME 7.28K
회귀모델
인공신경망 결정계수 0.9861
인공신경망 ME 4.933
인공신경망 QSPR모델 = T + w'y, (l + exp(-r― ))— '
과적합 방지기준 50K
【표 115】 탄화수소의 ?293ᅵ 15 에 대한 QSPR 예측모델의 주요 내용
샘플화합물의 개수 269
분자표현자들의 개수 10
FV 전자회절기반 3차원 분자구조 표현 -차수 15/비가중 (3D- toRSE - signal 15 / unweighted)
?2'- 정상 끓는점 (normal boiling point GO)
P3: 2 차 성분접근지향적 가중 포괄블변분자 지수 /원자량 분자표현자들의 이름 가중 (2nd component accessibility directional WHIM index
1 weighted by atomic masses)P4: 동경 분포 함수 -8.0/원자 편극도 가중 (radial Distribution Function - 8.0 1 weighted by atomic polarizabi 1 it ies)
P5: 동경 분포 함수ᅳ 3.0/원자량 가증 (radial Distribution Functionᅳ 3.0 / weighted by atomic masses)
Pe'- Ba 1 aban 거리연결지수 (Balaban distance connectivity index)
P7: 가지치기 중심 지수 (lopping centric index)
P8: 전자회절기반 3 차원 분자구조 표현 -차수 10/원자
Sanderson 전기음성도 가중 (3D_MoRSE ᅳ signal 10 / weighted by atomic Sanderson electronegativities)
P9: 전자회절기반 3 차원 분자구조 표현 -차수 20/원자
Sanderson 전기음성도 가중 (3D_MoRSE - signal 20 / weighted by atomic Sanderson electronegativities)
Pio: 동경 분포 함수 -4.5/비가중 (radial Distribution
Function - 4.5 1 unweighted)
회귀모델 결정계수 0.9837
회귀모델 ME 0.137cP
회귀모델 ' 'ᅳ V 0 p
인공신경망 결,정계수 0.9917
인공신경망 ME 0.086cP
인공신경망 QSPR
ᄆ ai ^,κ =T + w' , (1 + exp(-rᅳ ))— '
과적합 방지기준 1.4918cP
【표 116] 탄화수소의 액체점성도가 lOcP일 경우 에 대한 QSPR 예측모델의 주요 내용 샘플화합물의 개수 303
분자표현자들의 개수 8
Pi: 동경 분포 함수 -12.0/원자량 가중 (radial Distribution Funct ion - 12.0 1 weighted by atomic masses)
P2: Ghose-Vi swanadhan-Wendoloski 의 항종양성 지수 (80% 차지 ) Ghose-Vi swanadhan-Wendoloski ant ineoplast ic-1 ike index at 80%
P3: 전자회절기반 3 차원 분자구조 표현 -차수 14/원자 Sanderson 전기음성도 가중 (3으 MoRSE - signal 14 / weighted by atomic Sanderson electronegativities) P4: 평균 위상학적. 전하 지수 차수 7(mean topological 분자표현자들의 이름
charge index of order7)
P5: 방향족 결합의 상대적인 수 (relative number of aromatic bonds )
P6: 지렛대 가중 자기상관 차수 2/비가중 (leverage-weighted autocorrelation of lag 2 / Unweighted)
F 거리 /우회 고리 지수 차수 10(di stance/detour ring index of order 10)
P8: 치환된 벤젠 sp2 탄소의 수 (number of substituted benzene C(sp2) ) 회귀모델 결정계수 0.503
회귀모델 AAE 0.1
회귀모델 = CQ + -、
인공신경망 결정계수 0.524
인공신경망 ME 0.096
인공신경망 QSPR
Figure imgf000313_0001
Wyl (l + exp(-r -∑ 녜
과적합 방지기준 0.13
【표 117】 탄화수소의 액체점성도가 lOcP일 경우 at에 대한 QSPR 예측모델의 주요 내용 샘플화합물의 개수 303
분자표현자들의 개수 8
i Moran 의 자기상관 차수 5/원자 편극도 가중 (Moran autocorrelat ion - lag 5 1 Weighted by atomic polarizabi 1 it ies )
P2: 원자가 꼭지도에 의한 2 차 Zagreb 의 지수 (second
Zagreb index by valence vertex degrees)
P3: Broto-Moreau 의 위상구조 자기상관—차수 4/원자량 가중 (BrotcrMoreau autocorrelat ion of a topological structure - lag 4 / Weighted by atomic masses)
분자표현자들의 이름 F 평균제곱 거리 지수 (Balaban) (mean square distance index (Balaban))
FV 전자회절기반 3 차원 분자구조 표현 -차수 17/원자량 가중 (3D—MoRSE - signal 17 / weighted by atomic masses) P6: Burden 행렬의 최고 고유값 1/원자량 가중 (highest eigenvalue n. 1 of Burden matrix 1 weighted by atomic masses)
P7: 6각형 고리의 수 (number of 6-membered rings)
P8: Balaban V 지수 (Balaban V index)
회귀모델 결정계수 0.7196
회귀모델 AAE 0.063
회귀모델 +∑!i=] iP i
인공신경망 결정계수 0.8102
인공신경망 ME 0.052
인공신경망 QSPR
ᄆ cfl = + WJ{ (1 + exp(-rᅳ 뼤
과적합 방지기준 0.3
【표 118) 탄화수소의 ;72 일 경우 ^에 대한 QSPR 예측모델의 주요 내용
샘플화합물의 개수 299 분자표현자들의 개수 10
ΡΓ- 쌍극자모멘트 가중 모서리 인접행렬 고유값 6(eigenvalue 06 from edge adjacency matrix weighted by dipole moment s )
P2: 최대 부분전하 (Qmax)(max partial charge (Qmax)) P3: 1 차 성분대칭지향적 가중 포괄불변분자 지수 /원자 전자위상 상태 가중 (1st component symmetry directional WHIM index 1 weighted by atomic electrotopological states)
P4: 평균제곱 거리 지수 (Balaban)(mean square distance index (Balaban))
P5: R 최대 자기상관 차수 5/원자 Sanderson 전기음성도 분자표현자들의 이름
가증 (R maximal autocorrelat ion of lag 5 1 Weighted by atomic Sanderson electronegativities)
P6: 평균 원자가 결합지수 차수 3(average valence connectivity index chiᅳ 3)
P7: 평균 연결지수 차수 4 (aver age connectivity index chi— 4)
P8: Balaban V지수 (Balaban V index)
P9: 지렛대 가중 자기상관 차수 5/비가증 (lever age-weighted autocorrelat ion of lag 51 Unweighted)
Pio: 비방향족 접합 sp2 탄소의 수 (number of non-aromatic conjugated C(sp2))
결정계수 0.476
평균절대오차 0.4736
工 V10 p
【표 119】 탄화수소의 /^ 일 경우 에 대한 QSPR 예측모델의 주요 내용
샘플화합물의 개수 299
분자표현자들의 개수 10
ΡΓ· 평균 원자가 결합지수 차수 4(average valence connectivity index chi -4)
P2: 비방향족 접합 sp2 탄소의 수 (number of non-aromatic conjugated C(sp2))
P3: 관성 모멘트 A(moment of inertia A)
P4: 이중결합의 상대적인 수 (relative number of double 분자표현자들의 이름
bonds )
P5: 친수성 인자 (hydrophilic factor)
P6: 전자회절기반 3차원 분자구조 표현 -차수 27/원자량 가증 (3D— MoRSE - signal 27 / weighted by atomic masses) P7: 공명적분 가중모서리 인접행렬 고유값 3 (eigenvalue 03 from edge adjacency matrix wei hted by resonance integrals) '
P8: 최고준위 점유 분자궤도 - 1 에너지 (H0M0-1 energy)
P9: 동경 분포 함수 -5.5/원자 Sanderson 전기음성도 가중 (radial Distribution Function - 5.51 weighted by atomic Sanderson electronegativities)
P10: 꼭지 정도 평등상의 평균 정보 내용 (mean informat ion content on the vertex degree equality)
회귀모델 결정계수 0.9765
회귀모델 ME 0.1893
회귀모델 V10 p
인공신경망 결정계수 0.9871
인공신경망 ME 0.1477
인공신경망 QSPR
«,,293.,5^ = T + (l + εχρ(-Γ - w^. )) '
Ξ
과적합 방지기준 0.8
【표 120】 탄화수소에 대한 SWC 예측모델의 주요 내용
샘플 화합물들의
304 ,
개수
실험데이터의 개수 6060
결정계수 0.980 '
평균절대오차 0.206cP
η = (10αθ)υα
예 -?5·8
해 1-75.8
S
=ac -Ααε
Tcᅳ T
ε =——
τ -τ
【표 121】 탄화수소 중 298.15K어서 액체인 물질에 특화된 SVRC 예측모델의 주요 내용 샘플 화합물들의
271
개수
실험데이터의 개수 5406
결정계수 0.984
평균절대오차 0.222cP
η = υ Υ'α
ϋ 1-222£5"
-^- Ξ θ{ε) = ·Α
1 - 22.2
a = ac - Ααε 7; -293.15
【표 122】 비탄화수소의 액체점성도 lOcP에서의 온도에 대한 QSPR 예측모델꾀 주요 내용' ; .
샘플화합물의 개수 598
분자표현자들의
15
개수 .
Pi: 산소원자의 최대 결합차수 (max bond order of a 0 atom)
P2: 산소원자의 최대 순원자전하 (max net atomic charge for a 0 atom)
P3: 수소원자의 최소 원자가 (min valency of a H atom) P4: 전자회절기반 3 차원 분자구조 표현 -차수 8/원자 반데르발스 부피 가중 (3D-MoRSE ― signal 08 1 weighted by atomic van der Waals volumes)
P5: 정상 끓는점에서의 기화열 (heat of vaporization at normal boi 1 ing point )
P6: 위상거리 4 C-C 결합의 빈도 (frequency of C - C at topological distance 04)
P7: 거리 /우회 고리 지수 차수 5(di stance/detour ring index of order 5)
분자표현자들의 P8: =0 기능기 수 (=0)
이름 P9: 최대 전자위상적 양의 편차 (maximal electrotopological positive variation)
Pio: 위상거리 30-0 결합의 존재여부 (presence/absence of 0 - 0 at topological distance 03)
Pu: 전체전하 가중 부분양전하 표면적 분율 (FPSA-2
Fractional PPSA (PPSA-2/TMSA) )
P12: (지방족) 에테르의 수 (number of ethers (al iphat ic))
P13: R자기상관 차수 2/원자량 가중 (R autocorrelation of lag 2 / Weighted by atomic masses)
P14: R 최대 자기상관 차수 2/원자 반데르발스 부피 가중 (R maximal autocorrelation of lag 27 Weighted by atomic van der Waals volumes)
P15: YZ 그림자 1 YZ 직사각형 (YZ Shadow 1 YZ
Rectangle)
회귀모델 결정계수 0.91
회귀모델 ME 14.522K
회귀모델
인공신경망 0.943 ' 결정계수
인공신경망 ME 11.622K
인공신경망 QSPR
ϋ해 Tn-.WcP W., (1 + exp(-r
Figure imgf000317_0001
ᅳ∑;:, ))— '
과적합 방지기준 50K
[표 123】 비탄화수소의 에 대한 QSPR 예측모델의 주요 내용
샘플화합물의 개수 597
분자표현자들의 개수 10
Pi: 동경 분포 함수 -3.0/원자량 가중 (radial Distribution Function - 3.01 weighted by atomic masses)
P2: R— CR— X 기능기 수 (R—CFHO
P3: 위상거리 2 N-0 결합의 존재여부 (presence/absence of
N - 0 at topological distance 02)
P4: R-S02-R 기능기 수 (R-S02-R)
P5: 산소원자의 평균 친전자 반웅지수 (average
electrophi lie reactivity index for a 0 atom)
Ρβ'- 술폰의 수 (number of sulfones)
분자표현자들의 이름
P7: 수소원자의 최대 순원자전하 (max net atomic charge for a H atom)
P8: 삼중결합의 상대적인 수 (relative number of triple bonds )
P9: 탄소원자의 최소 부분전하 (min partial charge for a C atom)
Pio: 동경 분포 함수 -9.5/원자량 가중 (radial Distribution Funct ion - 9.5 / weighted by atomic masses)
결정계수 0.312
절대표준오차 0.292
【표 124】 비탄화수소의 at에 대한 QSPR 예측모델의 주요 내용
샘플화합물의 개수 597
분자표현자들의 개수 12
Pi: 치환된 벤젠 sp2 탄소의 수 (number of substituted benzene C(sp2))
?2- 2차 Mohar의 지수 TI2(second Mohar index TI2) 분자표현자들의 이름 P3: (지방족) 카르복실산의 수 (number of carboxylic
acids (aliphatic))
P4: R자기상관 차수 3/원자 반데르발스 부피 가중 (R autocorrelation of lag 31 Weighted by atomic van der Waals volumes)
P5: 지렛대 가중 자기상관 차수 4/비가중 (leverage- weighted autocorrelation of lag 4 / Unweighted)
P6: 동경 분포 함수— 7.0/비가중 (radial Distribution
Function - 7.0 / unwei hted)
P7: 고리의 상대적인 수 (relative number of rings)
P8: 총 크기지수 /비가중 (a total size index /
unweighted)
P9: 전자회절기반 3차원 분자구조 표현 -차수 13/원자량 가중 (3D-MoRSE ᅳ signal 13 1 weighted by atomic masses)
P10: 전작회절기반 3차원 분자구조 표현ᅳ
차수 20/'비가중 (3D-MoRSE - signal 20 1 unweighted)
Pii: 분자내 수소결합의 수 (number of intramolecular H- bonds )
P12: 전자회절기반 3 '차원 분자구조 표현-차수. 18/원자 반데르발스 부피 가중 (3D-MoRSE - signal 18 / weighted by atomic van der Waals volumes)
결정계수 0.449
절대표준오차 0.126
【표 125] 비탄화수소에 대한 SVRC 예측모델의 주요 내용
샘플 화합물들의
597
개수
실험데이터의 개수 11940
결정계수 0.919
평균절대오차 3.358cP
η = (\0αθ)ι/α
예 -?5·8
Ψ 해 1-75.8
a =ac -Ααε
Tc-T
ε =——
Τ ~τ
본 발명이 기존 기술보다 우월함을 보이기 위해 797개 화합물의 13, 541개의 실험데이터에 대해 본 발명의 QSPR-SWC 모델과 널리 사용되는 기존 모델로 위에 언급되었던 Letsou— SUel, Joback, Orrick-Erbar 모델의 예측성능을 비교하였다. 그 결과 Letsouᅳ Stiel 모델은 797개의 화합물 13,541개의 실험데이터가 계산되고 로그를 취했을 때 0.69365의 결정계수값과 1.49691cP의 평균절대오차값을 가지고, Joback 모델은 556개의 화합물 9,499개의 실험데이터가 계산되고 로그를 취했을 때 0.78612의 결정계수값과 0.83593cP의 평균절대오차값을 가지고 Orrick-Erbar모델은 626개의 화합물 10, 647개의 데이타이 계산되고 로그를 취했을 때 0.85648의 결정계수값과 0.79113cP의 평균절대오차값을 보인 반면 본 발명의 QSPR-SVRC 모델은 로그를 취했을 때 0.91308의 결정계수값과 0.79617cP의 평균절대오차값을 보여 현저히 우수함을 알게 되었다. 도 184부터 187까지는 예로 몇몇 화합물에 대해 각 모델의 예측성능을 비교한 도면들이다. 이 도면들로부터 QSPR-SVRC 모델이 기존 모델보다 우수한 성능을 가짐을 눈으로 확인할 수 있다. 한편 . 위의 실험데이터에 대해 실험값과 예측값 사이의 오차를 히스토그램으로 그린 것이 도 188부터 191까지이다. 히스토그램은 일치하는 정도를 나타내는 통계분석의 방법으로 중앙의 막대는 실험 오차 범위 내에 들어가는 예측값을 가진 분자의 비율을 나타낸다. 중앙에 위치한 막대의 백분율은 일반적으로 예측정확도의 수준을 가리킨다. 이 도면들은, Let sou一 Sti'el 모델은 69.38%, Joback 모델은 81.94%, Orrick-Erbar 모델은 85.31%, QSPR-SVRC 모델은 89.46%의 확률로 0.5cP의 오차 이내로 액체점성도를 예측하고 있음을 보여주어 QSPR-SVRC모델이 보다 정확함을 증명해준다.
액체점성도는 일반적으로 화장품이나 액체유형 음식이나 그에 쓰이는 양념의 질감을 나타내는데 쓰이고 구조물의 내진설계시 충격흡수장치에도 실린더 내부에서 층진되어 중요한 역할을 하기도 한다. [실시예 2-10] 순수한화합물의 기체점성도를 예측하는 QSPR-SVRC모델 본 실시예의 관심 물성인 기체점성도에 대해서도 현재까지 여러 예측모델들이 제안되었다. 기체점성 (viscosity of gas)이란 유체의 흐름에 대한 저항을 말한다. 기체가 들어있는 두 부위를 약간 압축하면 변형되지만 누르는 힘을 제거하면 원상태로 돌아오는 성질이 있다. 그래서 운동하는 액체나 기체 내부에 나타나는 마찰력이므로 내부마찰이라고도 한다. 기체점성도의 예측에 대한 그간의 연구결과들은 문헌 [Poling B. E., Prausnitz J . M., 0' Conne 11 J. P., The Properties of Gases and Li quids (5 ed.), New York, McGraw Hill, (2000).]에 간략히 소개되어 있다. 현재 기체점성도를 예측하는 모델로 잘 알려지고 널리 쓰이는 것들은 그룹 기여방법인 Reichenberg 방법이다. Reichenberg는 가장 고전적이면서 다른 모델들의 기초가 되었던 모델로세 Reichenberg, D., AIChE J., 9: 854(1973); AIChE J. , 21: 18 (1975)], 임계온도 (critical temperature) Tc의 값을 이용하여 임의의 온도에 대한 기체점성도 (viscosity of gas) z의 값을 계산해 준다.
^ = ^/[1 + 0.36^(7 -1)],/6
a = MWx Tcl c
Tc: 임계온도, TR 환산은도 =7/7 , . 분자 무게, C :조각형식 기여의 합 이 모델은 Mf' Tc, 극성 보조를 위한 구조 조각형식이 필요하다. '이 방법은 무기 기체에는 적당하지 않으며 필수 조각형식 기여가 결정되지 않은 유기 기체에도 응용할 수 없다. Lucas에 의해 제안된 대웅상태의 원리에 기반한 모델은 다음과 같다. [Poling B. E. , Prausnitz J. M., 0' Connel 1 J. P., The Properties of Gases and Li quids (5 ed.), New York, McGraw Hill, (2000).] ηξ = [0.807Γ,0618 - 0.357exp(-0.4497 ) + 0.340εχρ(-4.058Γ,.) + 0.018^° °
Figure imgf000321_0001
^이상기체상수) =8.314J/(kmol ·Κ) , M아보가드로의 수) =6.023X1026 (kmol )一 Tc, c(N/m2): 임계점에서의 온도와 압력 . M: 분자량 (kg/kmoD, Fp FQ 0:극성이나 양자영향을 설명하는 보정인자.
Figure imgf000321_0002
환산 쌍극자모멘ᄐ
=1 ' ≤μ,. < 0.022
Ep 0 =1 + 30.55(0.292 -Zc)' 72 0.022 < < 0.075
p° = 1 + 30.55(0.292一 Zc)172 |θ.96 + 0.1(7; - 0.7)| 0.075 < μΓ
Fe 0인자는 양자 기체인 He, ¾, D2에만사용한다.
Figure imgf000321_0003
sign{Tr一 12)}
Q=1.38(He), Q=0.76(H2), Q=0.52(D2), Lucas 방법은 적용하기 쉽지만 아세트산 같은 조합이 복잡한 기체에 대해서는 적당하지 않다.
기체점성도의 예측모델을 구축하는데 있어서 대안이 될 수 있는 다른 방법들 중의 하나는 SVRC(scaled variable reduced coordinates) 방법이다. 이 방법은 대응상태의 원리를 기반으로 화합물의 포화상태의 물성들을 다루는 통합된 골격으로서 문헌 [Shaver R. D., Robinson R. L. Jr. , Gasem K. A. Μ. , Fluid Phase Equilibria, 64: 141 (1991) J에서 제안되었으며 이 방법을 28개 화합물의 기체점성도에 적용한 사례는 문헌 [Ajay Jegadeesan, "STRUCTURE-BASED GENERALIZED MODELS FOR SELECTED PURE-FLUID SATURATION PROPERTIES" , Oklahoma State University, the Degree of MASTER OF SCIENCE December , 2006]에 잘 나와 있다. 이 방법은 기본적으로 한 화합물의 포화물성 Y가 온도 T의 다음과 같은 함수로 주어진다고 가정한다.
γ = (γ« - (γ« - Yt a)e)(1/a) 1― ΑεΒ
θ(^) = ( τ^-)
ε(1 + CE)
a = ac - («c - «t)( 1 + c )
Tc-T
ε = (·τ~^ 여기서 Θ와 a는 각각 correlating 함수, scaling 지수라고 불리는 양들이며 ε는 일종의 환산온도 (reduced temperature)이다. 아래첨자 c와 t는 각각 임계점과 삼중점 (triple point)을 의미하는 것으로 Tc,Tt는 각각 임계점과 삼중점에서의 온도를, ac,at는 각각 임계점과 삼중점에서의 a값을, Yc,Yt는 각각 임계점과 삼중점에서의 물성값을 뜻한다. 또한 A, B, C는 각 물성에 고유하게 주어자는 보편상수들 (universal constants)로서 기체 점성도의 경우 상기의 문헌에서는 그 값을 각각 1.33, 1, 0으로 정하였다. 한편 동일 문헌에서 저자들은 다음 식을 통해 ccc,at의 값들을 산정하였는데 이 값들로 28개 화합물의 기체점성도를 계산한 결과 420개의 실험데이터에 대해 평균절대퍼센트오차는 0.4%이었다고 한다.
Aa = (ac -at)
위 수식은 기체점성도의 α를 예측하는 일종의 QSPR모델이라고 할 수 있다. 도 125, 도 127, 도 128(실시예 2-1)에 대한 설명은 본 실시예에도 적용되며 실험데이터를 수집하고 검토 분류하는 일도 본 실시예에 동일하게 적용되나 물성의 종류 및 데이터 수치에만 차이가 있으며, 총 1400 개의 화합물들에 대한 48426 개의 데이터가 수집되었다. 최종적으로는 986 개의 화합물에 대한 9817 개의 데이터를 선정하였다. 나아가 이 전체 데이터를 389 개의 탄화수소들에 대한 3890 개의 데이터 집합과 597 개의 비탄화수소들에 대한 5927개의 데이터 집합으로 나누어 각각 모델을 확립하였다.
이후 단계 역시 실시예 2-1과 동일하게 진행되고, 기체점성도에서는 앞서 Lucas 방법이라고 블리는 방법으로 계산된 기체점성도 결과를 물성표현자로 활용하였다. 단계 4에서는 SWC 수식으로 기체점성도를 계산하기 위해서는 임계점과 삼중점에서의 기체점성도 r , t 값과 ac,ctt의 값이 필요하다. r 는 QSPR 모델을 통하여 얻을 수 있다. 한편 삼중점의 온도를 정확히 예측하는 것은 일반적으로 매우 어려운 일임이 잘 알려져 있으며 따라서 본 발명에서는 삼중점 대신 0K에서 기체점성도 OPa'S을 시작 점으로 잡았다. DIPPR나 다른 방법의 기체점성도를 예측하는데도 이 같이 첫점을 삼는다. ac, t 의 경우 1차 함수의 모양이기 때문에 a=l로 정하고 따로 계산하지 않았다. 이제 QSPR-SWC 모델을 완성하기 위해서는 매개변수인 r 에 대한 QSPR 예측모델을 확립하여야 한다. 이러한 QSPR 예측모델을 확립하기 위해서는 각 매개변수별로 여러 화합물들에 대한 해당 값들의 집합을 마련하여야 하는데, ' 에 대해서는 먼저 기체점성도의 전형적인 곡선을 각 화합물의 실험테이터에 맞춘 뒤, 그 곡선에서 임계온도가 되는 지점의 값을 취하였다.
이 같은 과정을 거쳐 각 매개변수에 대한 QSPR 모델이 구축되면 다음으로 단계 6에서는 기체점성도에 대한 각 화합물의 실험데이터 전체를 SVRC 수식을 통해 계산된 값과 비교하는 테스트를 진행한다. 이때 SVRC 수식으로 예측값을 계산하려면 임계온도의 값과 임계압축성인자 (critical compressibility factor) 값, 임계밀도 (crit ical density)가 필요한데 이 정보에 대해서는 이미 알려져 있는 값 또는 QSPR 모델에 근거한 계산 방법에 의해서 구한 값을 활용하였다. 만일 실험값과 예측값의 오차가 용인할 수 있는 수준보다 클 경우 (예측오차가 실험평균오차보다 큰 경우가 대략 10%이상일 때), 단계 5로 돌아가 각 매개변수들에 대한 QSPR 모델을 다시 잡는다. 테스트를 통과한 경우 이를 완성된 QSPR-SVRC모델로 채택한다. 이러한 과정을 거쳐 확립된 QSPR-SVRC 모델에 대한 결과는 표 126부터 129까지에 간략히 정리되어 있다. 표 126은 각각 탄화수소에 대한 r 의 값을 예측하는 QSPR 모델을 간단히 기술한 것이며 이들을 바탕으로 탄화수소의 기체점성도를 예측하는 QSPR-SVRC 모델과 그 성능에 대한 결과는 표 127에 나와 있다. 또한 비탄화수소에 대한 의 값을 예측하는 모델들은 표 128에 기술되어 있다. 이렇게 확립된 비탄화수소의 기체점성도를 예측하는 QSPR- SVRC 모델과 그 성능에 대한 결과는 표 129에 나와 있다. '
【표 126] 탄화수소의 r 에 대한 QSPR 예측모델의 주요 내용
샘플화합물들의 개수 389
분자표현자들의 개수 10
Pi: 분자 경로 종수 차수 6(molecular path count of order 06) .
?2 - 이증결합의 수 (number of double bonds)
P3: 전자회절기반 3차원 분자구조 표현 -차수 21/원자량 가중 (3D—MoRSE - signal 21 / weighted by atomic masses) P4: 2차 성분접근지향적'가중 포괄불변분자 지수 /원자량 가중 (2nd component accessibility directional WHIM index 1 weighted by atomic masses)
P5: 고리형 4차 sp3 탄소의 수 (number of ring quaternary C(sp3))
P6:임계 압축계수 (critical compressibility factor) 분자표현자들의 이름
P7: Lucas식으로 계산한 임계점에서의 기체
점성도 (viscosity of gas from Lucas equation at critical temperature)
P8: 수소원자 자기상관 차수 2/비가중 (H autocorrelation of lag 2 / Unweighted)
P9: 동경 분포 함수ᅳ9.5/원자 편극도 가중 (radial
Distribution Funct ion - 9.51 weighted by atomic polarizabi 1 it ies)
P10: 동경 분포 함수— 8.0/원자 편극도 가중 (radial Distribution' Funct ion - 8.0 1 weighted by atomic polarizabi lit ies)
회귀모델 결정계수 0.8946
회귀모델 ME 2.911E-04cP
회귀모델
인공신경망 결정계수 0.9585
인공신경망 ME 1.6316E-04cP
인공신경망 QSPR
ᄆ 11 , (cP) = + (1 + exp(-r―∑;° ))"'
Ξ
과적합 방지기준 2.0E-03cP
[표 127】 비탄화수소의 r 에 대한 QSPR 예측모델의 주요 내용
샘플화합물들의 597 개수
분자표현자들의
15 '
개수
Pi:임계온도 (Critical temperature(K))
P2: 수소원자의 최소 부분전하 (min partial charge for a H atom)
P3: 거리행렬 가중 전기음성도 가중 거리행렬 고유백터 계수합) (eigenvector coefficient sum from electronegativity weighted distance matrix)
P4: 위상거리 1 S-S 결합의 빈도 (frequency of S - S at topological distance 01)
P5: 2 차 성분접근지향적 가중 포괄불변분자 지수 /원자 Sanderson 전기음성도 가중 (2nd component accessibility direct ional WHIM index / weighted by atomic Sanderson electronegativities)
P6: 상대적 양전하 (RPCG Relative positive charge) FV R 자기상관 차수 3/원자 편극도 가중 (R autocorrelation of lag 3 1 Weighted by atomic 분자표현자들의 polar izabi 1 it ies)
이름 P8: 아지리딘의 수 (number of Aziridines)
FV 성분접근지향적 가중 포괄불변분자 지수 /원자
Sanderson 전기음성도 가증 (3rd component accessibility direct ional WHIM index 1 weighted by atomic Sanderson electronegativities)
Pio:임계 밀도 (critical— density(g/cm3))
Pn- 수소원자 자기상관 차수 5/원자량 가중 (H autocorrelation of lag 5 / Weighted by atomic masses)
Pi2:임계 압축계수 (critical compressibility factor) P13:Ar-N02 1 R— N(— R)— 0 1 R0-N0 기능기 수 (Ar— N02 / R— N(— R)— 0 / R0-N0)
Pi4: 질소원자의 최소 1-전자 반웅 지수 (min 1— electron reactivity index for a N atom)
P15: 수소결합 기부체 원자의 면적가중 표면적 대 분자총면적 제곱근의 비 (HASA-2/SQRT TMSA))
회귀모델 결정계수 0.9099
회귀모델 ME 4.5935E-04cP '
회귀모델 nc(cP) = c0+ J iciPi
인공신경망
0.925
결정계수 '
인공신경망 AAE 4.19E-04cP
인공신경.망 QSPR
α ᅳ c (cP) = T + WJ{ (1 + exp(-r - ))— 1 과적합 방지기준 I 2.0E-03cP
Figure imgf000327_0001
본 발명이 기존 기술보다 우월함을 보이기 위해 이렇게 확립된 QSPR— SVRC 모델과 널리 사용되는 기존의 모델 즉 Reichenberg 모델의 예측성능을 실험값이 알려진 982개의 화합물들의 데이터를 사용하여 비교하였다. 그 결과 Reichenberg 모델은 9이개에 대해서만 예측값을 계산해주며 0.96691의 결정계수값과 0.000424cP 평균절대오차값을 가짐을 알게 되었다. 반면 QSPR-
SVRC 모델은 982개 전부에 대해 예측값을 계산해주며 0.98710의 결정계수값과 0.000419CP의 평균절대오차값을 가져 기존 모델보다 우수함을 알게 되었다. 도 192부터 194까지는 예로 몇몇 화합물에 대해 각 모델의 예측성능을 비교한 도면이다. 한편 982개 화합물들에 대해 실험값과 예측값 사이의 오차를 히스토그램으로 그린 것이 도 195, 196이다. 히스토그램은 일치하는 정도를 나타내는 통계분석의 방법으로 중앙의 막대는 실험 오차 범위 내에 들어가는 예측값을 가진 분자의 비율을 나타낸다. 중앙에 위치한 막대의 백분율은 일반적으로 예측정확도의 수준을 가리킨다. 이 도면들은, Reichenberg 모델은 88.90%, QSP -SVRC 모델은 92.58%의 확률로 평균 실험오차의 범위 10% 이내로 기체점성도값을 예측하고 있음을 보여주어 QSPR-SVRC 모델이 기존 두 모델보다 정확함을 증명해준다.
기체점성도는 REACH와 같은 화합물의 생산과 소비에 관한 국제적인 규정들이 그 값을 요구하기도 하는 물성이다.
[실시예 2-11] 보일 온도 예측을 통해 순수한 유기화합물의 2차 비리얼 계수를 예측하는수학적 모델
본 실시예는 유기화합물의 2 차 비리얼 계수 (second virial coef f icient )를 높은 정확도로 예측하는 수학적 모델을 제공한다. 상기의 모델은 몇몇 매개변수들을 기반으로 2 차 비리얼 계수를 예측하는 이미 알려진 수학적 모델을 개선시킨 것이다. 이러한 개선은 원 모델의 계수들을 수집된 실험데이터에 맞추어 최적화하고 원 모델에 포함된 매개변수들 중 보일 은도 (Boyle tempera-ture)에 대해서는 이를 예측하는 QSPR(quant itat ive structure-property relationship) 모델을 따로 확립함으로써 달성되었다. 보일 온도에 대한 QSPR 모델은 다수의 유기화합물에 대한 실험데이터를 바탕으로, 다양한 분자표현자 (molecular descriptor)들 중 일부를 독립변수로, 보일 온도를 종속변수로 하는 많은 다중선형회귀 QSPR 모델 (multiple linear regression QSPR model)들 중 최선의 것을 유전적 알고리즘 (genetic algorithm)을 통하여 구함으로써 확립되었다. 따라서 본 발명의 모델은 보일 온도를 예측하는 QSPR 모델에 포함된 분자표현자들의 구체적인 값과 기타 필요한 매개변수들의 값만 알 수 있다면 그 어떤 분자든, 이 분자로 순수하게 이루어진 화합물의 2차 비리얼 계수를 예측하여 준다. 비리얼 계수 (virial coefficient)란 기체의 상태방정식을 아래와 같이 비리얼 전개 (virial expansion)하였을 때의 계수 B, C, ... 를 말한다. (P: 압력, V: 몰부피, R: 기체상수, T: 절대온도)
( B C 、
1 + - + -^··· ) 특히 B를 2차 비리얼 계수라 하는데 이론적으로 분자간 힘의 퍼텐셜로부터 계산할 수 있다. 실제로는 반대로 비리얼 계수의 실측값으로부터 분자간 힘을 정한다.
Tsonopoulos는 여러 화합물에 대해 아래와 같은 식을 통해 2차 비리얼 계수 값을 계산하는 방법을 제안하였다 [Tsonopoulos C, AIChE J., 20: 263
(1974); Tsonopoulos C. , AIChE J. , 21: 827 (1975); Tsonopoulos C. , AIChE
J. , 24: 1112 (1978); Tsonopoulos C. , Adv. in Chen]. Ser., 182: 143
(1979); Tsonopoulos C. , Dymond J. H. , Szafranski A. M. , Pure Appl .
Chew. , 61: 1387 (1989); Tsonopoulos C. , He i dman J. L. , Fluid Phase Equil. , 57: 261 (1990); Tsonopoulos C. , Dymond J. H. , Fluid Phase Equil. , 133: 11 (1997).].
Figure imgf000330_0001
0.330 0.1385 0.0121 0.000607
f0 = 0.1445—— -; r δ ~
0 TR V TR 3 TR 8
Figure imgf000330_0002
f22 = T6 f3 =ᅳ
여기서 PC 는 임계압력 (critical pressure), TC 는 임계온도 (crit ical temperature) , Tr = T/Tc 는 환산온도 (reduced temperature) , ω 는 이심인자 (acentric factor)를 뜻한다. 계수 a, b 는 상수이거나 환산쌍극자모멘트 (reduced dipole moment ) μΓ = 105 2PC/Tc 2의 함수인데 그 구체적인 형태는 화합물의 종류에 따라 달라진다.
Tsonopoulos의 첫 연구 이후, 많은 변형된 모델들 [Hayden J. G. , 0' Connell J. P., Ind. Eng. Chem. Process Des. Dev. , 14: 209 (1975); Tarakad R. R. , Danner R. P., AIChE J. , 23: 685 (1977); Van Ness H. C, Abbott M. M., Classical Thermodynamics of Non Electrolyte Solutions, McGraw-Hill, New York, (1982); Orbey H. , Chem. Eng. Comm. , 65: 1 (1988); Lee M.-J. , Chen J.-T.', J. Chem. Eng. Japan, 31: 518 (1998); Vetere A. , Fluid Phase Equil., 164: 49 (1999).]이 같은 맥락을 따라 제안되었는데 모두 대체로 비슷한 정도의 예측성능을 가지며 화합물의 계열에 따라 더 잘 맞거나 덜 맞는 차이를 보인다. 이 모델들의 공통적인 문제점으로는 첫째ᅳ 이들을 통해
2차 비리얼 계수를 계산하려 할 때 필요한 매개변수에 대한 데이터의 부족으로 계산이 불가능한 경우가 많다는 것과 둘째, 예측을 위해 대상 화합물을 계열에 따라 분류하려 할 때 화합물에 따라서는 이러한 분류가 불분명한 경우가 많다는 것이 있다.
첫 번째 문제점에 대처하기 위해 행해진 다른 연구들 [McCann D. W., Dan-ner R. P., Ind. Eng. Chem. Process -Des. Dev, 23: 529 (1984); Abusleme J. A. Vera J. H:, AIChE J. ' 35: 481 (1989); 01 f G. , Spiske J. , Gaube J., Fluid Phase Equil. , 51: 209 (1989).]에서는 그룹기여 (group contribution) 、 방식을 채택하여 매개변수 값의 부재를 극복하고 있다. 그룹기여 방법은 전적으로 분자구조에만 의존하여 물성예측모델을 만드는 고전적인 방식의 하나로 그 모델의 전형적인 형태는 아래와 같은 식으로 주어 진다.
Figure imgf000331_0001
물성값 Y를 구하기 위해서는 먼저 값을 알고자 하는 화합물의 분자를 미리 정해진 다수의 조각형식들에 맞추어 조갠 다음 각 조각형식들의 개수 ni를 구한다. 이를 다시 그 형식에 할당된 계수 ai와 곱한 것을 합산한 것이 예측값 Y가 된다. 계수 a0,ai들은 실험값이 존재하는 화합물들로부터 모델이 최선의 성능을 갖도록 통계적인 방법을 통해 결정된다.
McCann 등에 의해 제안된 2차 비리얼 계수에 대한 그룹기여 모델의 구체적인 형태는 아래와 같다.
Figure imgf000332_0001
해당 문헌에는 76개의 조각형식에 대하여 실험데이터로부터 각각 결정된 계수 , bi; q, di; ei의 값이 표로 주어져 있다.
이러한 그룹기여 방법은 그 동안 어느 정도 성공을 거둔 것이 사실이나 결정적으로 이론적 근거가 부족하고 때때로 조각형식에 맞추어 2개는 방식이 유일하지 않거나 심지어 존재하지 않는 경우가 발생하여 값의 계산이 불가능해지는 단점이 여전히 사라지지 다. 또한 예측성능을 높이기 위해 모델을 개선해 나갈수록 점점 더 복잡해지고 취급이 어려워지는 양상올 보인다.
한편 Iglesias-Silva 등은 비교적 단순하면서도 다양한 화합물들의 2차 비리얼 계수를 상당한 정확도로 예측하는 다음과 같은 수학적 모델을 제안하였다 [Iglesias-Silva G. A. , Hall R. . , Ind. Eng. Chem. Res. , 40:
1968 (2001).
("TB、!!
Figure imgf000332_0002
b0 = Vc(0.1368 - 0.4791ω + 13.81 exp -1.95
Bc = Vc(-1.1747 - 03668α) - 0.00061μΓ)
η = 1.4187 + 1.2058ω 여기서 b0, BC) n는 2차 비리얼 계수의 계산에 필요한 특성 매개변수들이며 위 식에서처럼 다른 매개변수들의 값을 알면 그 값을 구할 수 있다. 또한 Vc는 임계부피 (critical volume), TB는 보일온도 (Boyle temperature), 즉 2차 비리얼 계수 B가 0이 되는 온도를 뜻한다. 이 모델은 특히 전체 예측 곡선이 2차 비리얼 계수 곡선의 전형적인 개형을 잘 반영하는 것을 염두에 두고 만들어졌다.
본 발명은 이 모델에 포함된 매개변수들 중 보일온도에 대해서는 QSPR 예측모델을 확립하고 나머지 매개변수인 Vc , Tc , ω , ^에 대해서는 이미 알려져 있는 값 또는 QSPR 모델에 근거한 계산 방법에 의해서 구한 각 매개변수에 대한 값을 구한 뒤, 최대의 예측 성능을 낼 수 있도록 실험데이터를 기반으로 위 수식의 계수들을 조정한 모델을 제공한다. 따라서 이 모델은 그 어떤 화합물에 대해서도 그 화합물의 2차 비리얼 계수를 계산해주므로, 기존 모델의 한계를 극복한 보다 발전된 모델이라 할 수 있다. 도 197은 2차 비리얼 계수에 대한 수학적 모델을 구축하는 과정을 흐름도로 간략히 표현하이 표현한 것이다. 실험데이터를 수집하고 검토 분류하는 일도 본 실시예에 동일하게 적용되나 물성의 종류 및 데이터 수치에만 차이가 있으며, 총 1305개의 화합물들에 대한 50833개의 데이터가 수집되었다. 최종적으로는 259개의 화합물에 대한 11017개의 데이터를 선정하였다.
다음으로는 보일온도에 대한 QSPR 모델을 확립하기 위해 보일온도에 대한 데이터를 마련하 ^다. 이는 값 0 전후로 2차 비리얼 계수의 데이터가 존재하는 화합물에 대해 적당한 곡선형태를 택하여 이를 최소제곱법 (least square method)을 이용하여 데이터에 맞춘 뒤 이 곡선의 x절편값을 취하는 과정을 통하여 진행되었는데 모두 158개의 화합물들에 대한 보일온도의 데이터를 마련하였다. 다음으로는 이 158개의 화합물들에 대한 분자표현자들의 값들을 준비하였다.
이후 단계는 실시예 2-1 과 동일하게 진행되고, 이 중 보일온도에 대한 QSPR 모델을 구축하는 일을 진행하였는데 그 과정은 다음과 같다. 먼저 전체 데이터를 토대로 유전적 알고리즘 (genetic algorithm) [Judson, "Genetic Algorithms and Their Uses in Chemistry" , Reviews in Computational Chemistry, Lipkowitz & Boyd, Eds. , Vol.10, pp.1-73 (VCH Publishers, NY, 1997)]을 통하여 최선의 다증선형회귀 QSPR 모델 (multiple linear regression QSPR model)을 찾는다.
이후 단계 역시 실시예 2-1 과 동일하게 진행되고, 이렇게 최선의 다증선형회귀 QSPR 모델이 선정되면 다음 단계로 이 모델의 타당성을 검토한다. 만일 모델에 포함된 분자표현자의 통계학적 t 검정값이 좋지 않다든지 하는 문제점이 발견되거나 또는 LOO(leave-one-out)법 등을 통하여 교차검증 (cross validation)을 수행하였을 때 PRESS ( pr ed i ct ive residual sum of squares)값이 확연히 떨어지는 등의 문제가 발생하면 이전 단계로 돌아가 다른 모델을 찾는다.
이 같은 과정을 거쳐 확립된 보일은도를 예측하는 QSPR 모델에 대한 결과는 표 130에 간략히 정리되어 있다. 이후 위에서 언급되었던 259개의 화합물에 대해 필요한 매개변수들의 값들을 마련하였다. 보일은도에 대해서는 확립된 QSPR 모델을 통하여 그 값을 계산하였으며 나머지 매개변수들인 Vc, Tc, ω, ^에 대해서는 이미 알려져 있는 값 또는 QSPR 모델에 근거한 계산 방법에 의해서 구한 값을 활용하여 각 매개변수에 대한 값을 구하였다. 다음으로는 이와 같이 준비된 매개변수값들을 토대로 최소제곱법을 통하여 원 모델의 수식을 언급된 11017개의 실험데이터에 최적화시키는 계수값들을 구하였다. 이러한 과정을 거쳐 확립된 수학적 모델에 대한 결과는 표 131에 간략히 정리되어 있다.
【표 130]
Figure imgf000335_0001
Figure imgf000336_0001
실험데이터에 대해 본 발명의 모델과 널리 사용되는 기존 모델의 하나로서 위에 언급되었던 McCann 모델의 예측성능을 비교하였다. 그 결과 McCann 모델은 0.89688의 결정계수값과 81.073 cm3/m 의 평균절대오차값을 보인 반면, 본 발명의 모델은 0.97440의 결정계수값과 65.643 cm3/mol 의 평균절대오차값을 보여 보다 우수함을 알게 되었다. 도 198부터 202까지는 예로 몇몇 화합물에 대해 각 모델의 예측성능을 비교한 도면들이다. 이 도면들로부터 본 발명의 모델이 기존 모델보다 우수한 성능을 가짐을 눈으로 확인할 수 있다. 한편 실험데이터에 대해 실험값과 예측값 사이의 오차를 히스토그램으로 그린 것이 도 203, 204이다. 히스토그램은 일치하는 정도를 나타내는 통계분석의 방법으로 중앙의 막대는 실험 오차 범위 내에 들어가는 예측값을 가진 분자의 비율을 나타낸다. 중앙에 위치한 막대의 백분율은 일반적으로 예측정확도의 수준을 가리킨다. 이 도면들은, McCann 모델은
81.72%, 본 발명의 모델은 84.89%의 확률로 실험평균오차인 100.0cm3/ii )l의 오차 이내로 2차 비리얼 계수를' 예측하고 있음을 보여주어 본 발명의 모델이 보다 정확함을 증명헷준다.
[실시예 3] 양자역학 계산 프로그램과 물성정보 예측모들을 이용하여 일괄처리를자동화한방법 및 그시스템
본 실시예는 양자역학 계산 프로그램과 물성정보 예측모들을 이용하여 일괄처리를 자동화한 방법 및 그 시'스템에 관한 것이다.
본 실시예는 양자역학 계산방법을 통해 얻어진 화합물의 최적화된 구조 정보를 토대로 수학적 물성 예측모들을 이용하여 화학공정에서 필요한 물리, 화학적 물성정보를 예측하기 위한 방법 및 시스템이다. 2차원 분자구조로부터 화합물의 물리, 화학적 물성정보를 얻는 이 일련의 과정에 있어서, 본 발명은 컴퓨터에 연결된 출력장치의 화면을 통해 결과를 확인해 가면서 다음 단계로 진행하는 것이 아니라 '각 단계를 종합하여 일괄 처리로 자동화한 방법이다. 화합물의 분자식을 입력값으로 시작하여 가능한 2차원 구조이성질체 (structural isomer)를 생성한 후 공간상의 좌표를 갖는 다양한 입체이성질체 (stereo isomer) (기하이성질체 (diastereomer)와 광학이성질체 (enantiomer))의 생성 및 광학이성질체의 분리 과정을 거치고 회전형태에 따라 다른 형상이성질체 (conformer) 증 가장 안정한 형태를 취하여 양자역학 계산의 초기구조로 사용할 유일한 3차원 분자구조를 선별한 후 양자역학 프로그램을 통해 그 분자의 공간상에 최적화된 구조의 정밀한 계산을 수행한다. 양자역학 계산으로 얻어지는 여러 결과값과 그 최적화 구조를 기반으로 한 분자 표현자를 추출하고 물리, 화학적 물성정보 예측을 위해 양자역학 계산결과를 기반으로 한 이론적인 수학적 모델과 최적화된 구조를 통해 얻어진 분자표현자를 이용하여 선행 개발된 물성 예측모들을 수행하여 물성 예측값을 계산하고 특정한 형식의 파일들로 컴퓨터의 기록매체에 저장한다.
본 실시예에 따른 결과물인 기록매체에 저장된 물리, 화학적 물성정보를 사용자가 얻기 위해 화합물의 구조 선별, 구조 계산, 물성 예측 수식 및 모들을 수행할 필요없이 별도로 개발된 스프레트시트 도구, 데이터베이스 관리도구 및 사용자 인터페이스를 통해 사용자가 물성 결과를 가져와서 확인하고 활용할 수 있다. 이로 인해 실험장치 설계 및 예측을 위한 프로그램의 학습등으로 소요되는 막대한 노동력, 장비, 시간., 비용을 절감할 수 있는 유용한 발명이다.
본 발명은 양자역학 계산 프로그램과 물성정보 예측모들을 이용하여 일괄처리를 자동화한 방법 및 그 시스템에 관한 것으로, 화합물의 물리, 화학적 물성정보를 얻기 위해 초기 구조식으로부터 최종 물성정보의 결과 저장까지 자동화되어서 결과를 얻을 수 있는 시스템이며 화합물의 구조예측에 있어서 정확한 예측결과를 위해 양자역학 방법을 도입한 것이다. 화합물의 물리, 화학적 물성정보는 실험기구의 적절한 설계와 잘 제어된 실험조건에서 측정이 되어야 정확한 결과를 얻어낼 수 있다. 전문적인 실험기구가 설계된 연구소나 기관에서 실험값을 측정할 수 있지만 화합물의 수많은 물성정보를 모두 얻기 위해서는 상당한 장비, 인력, 비용을 필요로 하고 많이 시간이 소요되었다. 화학공정과 관련된 연구를 수행하는 실무자는 당장 물성정보가 필요한 상황인데 실험을 통해 모든 물성을 얻는다는 것은 현실적인 문제가 발생해왔다. 또한 독성이나 인화성이 높은 화합물은 안전문제등으로 인하여 측정의 어려움이 더 커졌다. 이러한 실험의 많은 난점을 해소하기 위해 물성을 예측할 수 있는 기술들과 예측도구들이 지금까지 많이 소개되었다. 적용하기 간단하여 지금까지 많이 알려진 그룹기여 방법은 단순히 화합물의 2차원내지 3차원 구조만 있으면 간단한 물성정보를 아주 빠른 시간내에 얻을 수 있지만 알려진 실험값과 비교했을 때 그 예측성능은 많이 떨어졌다. 、
예측성능을 좀 더 높이기 위한 노력으로 화합물에서 더 많은 정보를 얻고자 했고 그 구조를 통해서 분자의 특징을 수치로 나타낸 많은 분자 표현자 정보를 얻게 되면서 다양한 물리, 화학적 물성값에 대한 예측기술들과 도구들이 생겨났다. 더 정밀한 예측을 위해 이론에 기반을 둔 계산을 통해서 화합물의 최적화된 구조를 얻고 그 구조를 기반으로 한 많고 다양한 정보들을 얻게 되었다. 최종의 물성정보를 얻기까지 종래에는 도 205에 도시된 바와 같이 각 단계의 과정을 컴퓨터 화면을 통해서 확인하고 다음 단계를 진행해야 했고 양자역학 계산과 같은 장시간이 소요되는 단계는 끝나는 시간을 예측할 수 없기에 그 단계가 종료되는 것을 주기적으로 확인하거나 종료 시점을 늦게서야 확인하게 되는 상황이었다. 이런 확인 과정이 완료된 후에야 비로소 물성 예측을 위한 모델을 세우기 위한 데이터를 준비하고 여러번의 시행착오를 통해 예측모델을 구성하고 설정해야하는 번거롭고 복잡한 작업들이 산재해 있다.
종래의 방법으로는 하나의 화합물에 대한 물성값을 얻는데 여러 단계를 거치면서 번거로운 처리를 계속해야 하므로 많은 노력과 시간이 필요했다. 또한 하나의 화합물만이 아닌 다량의 화합물을 처리해야하기 때문에 각각의 단계를 수동으로 처리한다는 것은 굉장히 시간소모적이며 비효율적이라는 문제점을 가지고 있다.
본 실시예에서는 앞서 언급된 문제점을 해결하기 위해 발명된 것으로, 물성정보를 도출하는데까지 고려되어야 할 모든 사항을 미리 검증하고 선택해서 여러 단계를 거치는 동안 신경을 쓸 필요없이 모든 오류와 결과 처리가 자동화되도록 설계하여 종래 기술에서 하나하나씩 확인하고 거쳐야 했던 모든 과정이 불필요해지고 최종 물성정보를 얻는데까지의 관리 비용이나 시간을 대폭 줄이는데 목적이 있다.
또한 시스템의 자동화 처리를 위해 사용된 기술과 각 단계에서 오류 및 결과 처리를 위해 사용된 기술이 관리 비용이나 시간을 줄이기 위해 효율적으로 설계되었음을 알 수 있다.
본 발명은 정밀한 구조 계산을 위해 양자역학 계산을 수행하고 그 계산결과와 칙적화 구조에 대한 분자 표현자 장보를 토대로 수학적 물성 예측모듈을 이용하여 물리, 화학적 물성정보를 예측하기 위한 . 방법 및 시스템이다. 하기의 내용에서는 전체적인 구성을 이해하기 쉽도록 방법의 흐름과 시스템의 구성을 병행해서 기술하고자 한다. 또한, 본 발명에서
'유기화합물' 또는 '화합물' 은 수소 (H), 탄소 (0, 질소 (N), 산소 (0), 황 (S) 등 5가지 이내의 원소로 구성되고, 수소를 제외한 원자의 개수가 25개 이하인 분자로 이루어진 물질을 지칭한다.
도 205는 양자역학을 기반으로 한 물리, 화학적 물성정보 예측 시스템에 대한 실시예의 흐름도이다. 도 205를 참조하여 설명하면, 본 발명의 실시예에 따른 물리, 화학적 물성정보 예측 방법은 분자식 입력 및 구조이성질체 생성 (1단계), 입체이성질체 생성 및 광학이성질체 필터링 (2단계), 형상이성질체 분석 및 분리 (3단계), 양자역학 계산 (4단계), 수학적 모델을 위한 분자 표현자 추출 (5단계), 물성 예측모들 수행 (6단계), 물리, 화학적 물성 예측값 임시저장 (7단계), 검층된 실험값과의 비교 (8단계), 기존 알려진 예측모델 수행 (9단계), 최종 예측값 결과파일 저장 (10단계)을 포함한다.
화합물의 분자식이라는 아주 작은 정보에서 시작해서 다양한 물리, 화학적 물성정보를 예측하여 활용할 수 있도록 설계되어 있다. 물리, 화학적 물성정보는 하나의 화합물에 대해 하나의 값을 가지는 상수값 물성과 온도에 따라 다른 값올 가지는 온도의존 물성을 포함한다. 상수값 물성은 적어도 분자량, 쌍극자 모멘트 정상끓는점, 임계 온도, 임계 압력, 임계 부피, 임계 압축인자, 이심인자, 회전 반경, 이상기체의 절대 엔트로피, 이상기체의 생성에너지, 이상기체의 생성 깁스에너지, 액체 몰부피, 융해열, 굴절를, 용해도 지수, 표준상태의 절대 엔트로피, 표준상태의 생성에너지, 표준상태의 생성 깁스에너지, 표준상태의 연소열, 반데르발스 면적, 반데르발스 부피, 자기 감수율, 편극도, 이온화 에너지 전자 친화도, 파라코드, 인화점, 인화 하한 온도, 인화 하한 부피퍼센트, 인화 상한 온도, 인화 상한 부피퍼센트, 정상끓는점의 액체 밀도, 298.15K에서의 기화열, 정상끓는점에서의 기화열을 포함하고, 온도의존 물성은 적어도 이상기체의 열용량, 액체의 멸용량, 기화열, 포화액체밀도, 표면장력, 액체 열전도율, 기체 열전도율, 액체 증기압, 액체 점성도, 기체 점성도, 2차 비리얼계수를 포함한다.
도 206은 본 발명의 실시 흐름에 따른 물리, 화학적 물성정보를 예측하고 결과를 저장하는 시스템의 구성도이다.
도 206을 참조하여 설명하면, 본 발명의 실시예에 따른 물리, 화학적 물성정보 예측 시스템은 구조생성서버, 작업관리서버, 다수의 클라이언트, 결과파일서버, 백업서버, 상용처리서버를 포함한다.
구조생성서버에서는 화합물의 다양한 이성질체들 중에서 물리, 화학적 물성이 다른 유일한 화합물을 선별하는 작업을 담당한다. 작업관리서버, 다수의 클라이언트, 결과파일서버, 백업서버는 양자역학 계산, 물성 예측모듈을 수행하여 결과를 얻기까지의 모든 과정을 담당하고 일괄처리가 자동화되어 있다. 상용처리서버는 앞선 단계에서 얻은 결과에 예측성능지수와 기존에 알려진 예측모델올 결과를 포함하여 컴퓨터 기록매체에 파일로 저장하는 작업을 담당한다.
본 발명에 따른 상기 기술적 과제를 달성하기 위한 물리, 화학적 물성정보 예측 방법을 더 상세히 살펴보기로 한다.
먼저 '기술적 해결방안' 에 있는 실시예 3의 1항에 기술된 1단계에서, 화합물의 구성원소와 개수를 표기한 분자식을 입력한다. 예를 들어 탄소 (C) 4개, 수소 (H) 10개, 산소 (0) 1개로 이루어진 모든 화합물을 얻고자 하면 "C4H100" 아라는 분자식을 입력하면 된다. 그러면 탄소와 수소, 산소의 결합수에 맞게 가능한 모든 조합의 2차원 분자구조를 가지는 7개의 구조이성질체를 만들어 낸다. 도 207은 이 과정으로 생성되는 7개의 구조이성질체를 도시한 것으로, 분자의 특성을 나타내는 구조형태나 작용기를 가지는 분자구조의 뼈대를 이루게 되며 원자의 연결형태에 따라 2차원 형태의 여러 구조이성질체가 생성된다.
그런 다음 '기술적 해결방안' 에 있는 실시예 3의 1항에 기술된 2단계에서, 앞서 만들어진 2차원 구조를 기반으로 X, Υ, Z축의 공간좌표를 갖는 3차원 분자구조를 가지는 8개의 입체이성질체를 만들어 낸다. 도 208은 이 과정으로 생성되는 8개의 입체이성질체를 도시한 것으로, 원자의 공간상의 배치에 따라 여러 기하, 광학이성질체를 생성한다. 도 207에 있는 2번 구조이성질체는 입체이성질체 생성단계에서 2개의 광학이성질체를 만들어내면서 도 208에 있는 2번과 3번의 구조를 생성한다. 이 중에서 특정 광학이성질체는 거울에 반사된 형태의 구조를 갖게 되는데 이는 광회전 (optical rot at ion)을 제외한 모든 성질이 같아서 둘 중 하나의 구조만을 선별한다. 도 208에 있는 2번과 3번의 구조증에서 하나의 구조는 다음 단계에서 제외되어 이 단계에서 최종적으로 남는 개수는 7개가 된다. 비대칭 중심 (chiral center)를 가지는 탄소의 개수 (n)에 따라 2Π 개의 이성질체를 가지는데 이 중에서 물리, 화학적 물성이 같은 대상 중 하나를 필터링하게 되는데 이것은 화합물 식별자 (InChl; International Chemical Identifier)를 이용한 분리 과정을 거친다. 화합물 식별자는 화합물의 구조를 문자열로 기술하기 위해 국제순수.웅용화학연합 (IUPAC; International Union of Pure and Applied Chemistry).과 국립표준기술연구소 (NIST, National Institute of Standards and Technology) 공동으로 개발하였다. 화합물 식별자의 가장 큰 장점은 화합물을 유일하게 기술할 수 있다는 것이다.
양자역학 계산의 초기 구조가 원자간의 모든 결합수를 만족하는 순수한 화합물 뿐만 아니라 화합물내에 수소원자 하나가 떨어져 나가서 전자가 홀로 존재하는 형태인 라디칼도 반웅성이 높고 연소반웅의 부산물로 생성되기 때문에 생성열과 같은 열역학 물성정보를 필요로 한다. 그래서 본 발명에서는 라디칼 화합물에 대한 계산을 수행하기 위해 순수한 화합물과 마찬가지로 구조 생성과 필터링 과정을 거친다 .
라디칼은 수소원자가 하나 부족한 형태의 특수한 구조를 가지기 때문에 '기술적 해결방안' 에 있는 실시예 3의 1항에 기술된 1단계와 2 단계에서 특별하게 처리해 주어야 한다. 예를 들어 분자식 "C4H100" 에서 수소 (H) 하나를 떼어낸 형태인 "C4H90" 가 정상적인 라디칼의 분자식이지만 탄소 (C)의 안정한 결합차수 4를 만족하도록 하는 처리를 해야하기 때문에 "C4H90X" 와 같은 형태로 가상원자 (X)를 임의로 두어서 분자식을 만들고 다음 과정을 수행한다. 다음의 이성질체를 생성하는 단계로 생성되는 2차원 구조이성질체의 개수는 25개가 생성이 되면서 더 다양한 조합의 이성질체를 만들어낸다. 이 다음에는 3차원 구조를 생성하는데 3차원의 입체이성질체들이 새롭게 생기면서 가능한 이성질체의 개수는 41개로 총 이성질체의 개수는 더 많아진다. 순수한 '화합물을 처리할 때와 마찬가지로 물성이 동일한 광학이성질체 중 유일한 구조만 남게 된다. 라디칼의 이성질체를 만들기 위해 특별히 처리했던 가상원자 (X)는 양자역학 계산의 초기구조 생성 단계에서 제거된다.
/
본 발명의 일괄처리 계산을 수행하는 컴퓨터 시스템은 지속적으로 새로운 분자에 대한 계산이 수행되기 때문에 나중에 새롭게 입력된 분자와 선행되어 계산된 분자간의 중복이 발생할 수 있는 우려가 있으므로 선행되어 계산된 분자들과 동일 분자인지를 검사하는 단계가 필요하다. 앞서서 계산이 수행된 구조의 화합물 식별자 (InChl) 정보들과 새롭게 입력된 분자의 화합물 식별자 정보와 비교를 거쳐 동일하다고 판단되는 구조는 걸러지고 유일한 구조만 계산의 초기 입력구조로 사용이 , 된다. 구조 중복 검증 단계를 통과하여 유일한 분자로 판명된 구조의 화합물 식별자 정보는 데이터베이스에 저장이 되고 이후에 새로운 중복 검증이 필요한 구조들과 비교하는 과정을 순환하게 된다. 이는 불필요한 자원이나 시간을 낭비하지 않기 위한 사전 검증 작업이다.
'기술적 해결방안' 에 있는 실시예 3의 1항에 기술된 1단계에서 2단계까지는 도 206의 구조생성서버에서 처리된다. 기존에 없던 새로운 유일할 화합물을 얻기 위한 준비단계이며 구조계산을 수행하기 위한 초기구조를 생성하고 작업관리서버로 구조정보를 전송한다. 이어서 '기술적 해결방안' 에 있는 '실시예 3의 1항에 기술된 3단계에서, 앞서 필터링과 중복 검증 과정을 거쳐 선발된 새로운 대상들은 3차원 구조를 가지지만 분자내에 회전이 가능한 단일결합 (σ 결합)이 존재하는 경우 단일결합을 축으로 하는 양쪽의 조각들이 상온에서 서로 아주 빨리 회전운동을 한다. 이로 인해 변형된 형태의 형상이성질체가 생기며 각각 구조의 공간상의 배치 형태에 따라 퍼텐셜 에너지도 다양한 분포를 가진다. 가령 탄소 25개를 포함하는 화합물의 경우 만들어내는 형상이성질체의 개수는 수천 개에 이른다. 이런 상황에서 가장 안정한 낮은 상태의 구조를 알기란 쉽지 않은 일이며 실제 환경에서 가장 많은 존재 가능성을 갖는 구조를 알기란 더더욱 쉬운 일이 아니다. 이런 모든 형상이성질체의 구조를 만들어내고 각각의 구조에 대해 토마스 할그린 [Thomas A. Halgren, J. Comp. Chem. , 490-519, (1996)]이 제안한 간단하고 빠른 분자역학 계산방법으로 구조 최적화를 시도하여 퍼텐셜 에너지를 계산한다. 그 중에서 퍼텐셜 에너지가 가장 낮은 구조를 선택하여 양자역학 계산의 초기 구조로 사용한다. 그런 다음 '기술적 해결방안' 에 있는 실시예 3의 1항에 기술된 4단계에서 , 최적화된 구조의 정밀한 예측을 위해 양자역학 계산방법을 도입하였고 앞선 분자역학 방법의 구조 최적화 계산에 비해 상대적으로 많은 계산량과 시간이 요구된다. 이를 개선하기 위해 본 발명자들의 추가적인 연구를 통해
' - 0
계산시간을 효율적으로 줄이는 방안을 마련하여 양자역학 계산에 적용하였다. 양자역학 계산의 결과를 살펴보면 대부분 분자구조의 최적화를 위해 퍼텐셜 에너지가 낮은 값으로 수렴하도록 진행된다. 하지만 경우에 따라서 구조가 국지적인 퍼텐셜 에너지 우물에 빠지거나 초기구조와 크게 다른 형태로 변형되어 퍼텐셜 에너지가 발산하면서 수렴하지 못하는 상황이 발생한다. 종래의 방법에서는 이 결과를 수동으로 파악해서 초기구조를 좌표를 변경하여 퍼텐셜 에너지 표면상의 다른 위치로 이동시켜야 한다. 이런 상황에 대해 하나씩 각개로 처리하기는 너무 번거로운 일이 된다. 하지만 본 발명에서는 발생할 수 있는 모든 오류 사항에 대해 종합하고 분석을 해서 각 오류에 맞게 자동으로 처리하는 방안을 마련하였다.
다음 '기술적 해결방안' 에 있는 실시예 3의 1항에 기술된 5단계에서, 구조 최적화를 통해 얻어지는 양자역학 계산 결과를 토대로 분자량, 이상기체의 생성에너지, 이상기체의 절대 엔트로피, 이상기체의 열용량, 쌍극자 모멘트, 반데르발스 (van der Waals) 면적, 반데르발스 부피, 편극도, 자기 감수율 등의 물성정보들은 바로 얻거나 이론기반의 계산 수식을 통하여 쉽게 얻을 수 있다.
최적화된 구조에서는 상기의 물성정보 뿐 만 아니라 분자의 특성을 반영하는 여러 의미있는 수치로 나타내는 분자' 표현자 (molecular descriptor)들을 얻을 수 있다. 2차원 구조의 특징을 표현할 수 있는 분자 표현자들도 있고 3차원 구조의 특징을 표현하는 분자 표현자들도 있다. 크게 나누어 총 24개의 범주로 나누고 각 범주에 상세한 표현자들을 포함한다. 이렇게 해서 하나의 분자에 대해서 얻어지는 분자 표현자는 총 2000여개에 달한다.
표 132에서는 분자 표현자에 대한 예로 "C4H100" 의 구조식을 가지는 입체이성질체를 보여주는 도 208에서 5번 분자인 1-부탄올 (1-butanol)이 가지는 구성요소적 표현자 (constitutional descriptor) 범주에 대한 상세 정의항목 총 58개를 나타내었다.
이 범주에서는 분자량, 분자를 구성하고 있는 원자의 종류와 개수, 그 원자들 간의 결합형태, 고리의 형태 및 개수 등과 관련된 정보를 포함한다.
Figure imgf000348_0001
Figure imgf000348_0002
acostt ¾r i mean electrotopological state 2.5 number of non_H atoms 5 number of bonds 14 number of non-H bonds 4 number of multiple bonds 0 sum of conventional bond orders (H-depleted) 4 aromatic ratio 0 number of rings 0 number of circuits 0 number of rot at able bonds 2 rotatable bond f ract ion 0.143 number of double bonds 0 number of triple bonds 0 number of conjugated bonds 0 number of Hydrogen atoms 10 number of Carbon atoms 4 number of Nitrogen atoms 0 number of Oxygen atoms 1 number of Sulfur atoms 0 number of 3 -member ed rings 0 number of 4ᅳ member ed rings 0 number of 5-membered rings 0 number of 6ᅳ member ed rings 0 number of 7-membered rings 0 number of 8一 membered rings 0 number of 9一 membered rings 0 number of 10一 membered rings 0 number of 11ᅳ membered rings 0 number of 12一 membered rings 0 number of benzeneᅳ like rings 0 다음 '기술적 해결방안' 에 있는 실시예 3의 1항에 기술된 6단계에서, 양자역학 계산 결과로부터 직접 얻어내지 못하는 물성의 경우는 일련의 과정을 통해 추출된 양자역학 계산의 결과값들과 2000여개의 분자 표현자들 중에서 정량적 분자구조ᅳ물성 관계 (QSPR; quantitative structure-property relationship)를 이용한 모델을 기반으로 물성값을 계산하는 프로그램에서 필요로 하는 인자만을 골라서 사용하게 된다. 이러한 분자 표현자들은 물성과의 상관성이 있다면 아주 유용하게 사용된다.
물성 예측모델을 만들기 위해 확보된 실험값이 존재하는 대상에 대해 모든 양자역학 계산 결과와 분자 표현자에 대한 검증이 되었고 실험값이 알려진 화합물의 물성에 대한 수학적 모델들이 이미 완성되어 모들형태로 내장되어 있는 상태이다. 물성 예측과 관련된 수학적 모델이나 QSPR을 이용한 모델을 통한 물성 예측 프로그램의 수행 과정은 내장된 물성 예측모들의 수만큼 반복되면서 수행이 되고 물성 예측시 필요로 하는 인자들을 고르는 과정도 개별적이고 반복적으로 수행한다.. 물성 예측을 하는 수학적 모델들은 독립적으로 모들화되어 있어서 양자역학 결과를 토대로 추출된 물성과 분자 표현자들을 인자로 -사용한다면 새로운 물성에 대한 예측모들만 추가해서 일괄처리를 하면 되기 때문에 추가적인 물성에 대한 확장성이 있다.
'기술적 해결방안' 에 있는 실시예 3의 4항에 기술된 7단계에서, 앞선 단계의 내장된 물성 예측모들의 일괄, 반복처리 등의 모든 과정에 대한 이력을 기록매체에 저장하고 예측모들 수행중에 발생할 수 있는 오류사항들도 이력을 기록한다. 상수값 물성은 하나의 값으로 주어지기 때문에 각각의 상수값 물성에 해당하는 예측값이 할당된다. 예를 들어 1- 부탄올에 대한 상수값 물성 예측값을 표 133에 나타내었고 그 결과는 기록매체에 파일로 저장한다.
또한 온도의존 물성은 상수값 물성처럼 하나의 값으로 주어지는 것이 아니라 온도에 따라 다른 물성값을 가지기 때문에 온도에 관한 일반화된 함수식을 사용해야 한다. 【표 133】 실시예인 1-부탄올 (1-butanol)에 대한 상수값 물성 예측값과 실험값
상수값 물성 단위 예측값 실험값 이상기체의 절대 엔트로피 cal/(mol*K) 88.25329
이심인자 - 0.592221
임계 압축인자 - 0.264523 0.258058(a)
44.14(a), 임계 압력 bar 44.52949
44.23(b) 임계 온도 K 560.3068 563(a), 563.05(b)
0.000274(a), 임계 부피 m3/mol 0.000277
0.000275(b) 쌍극자 모멘트 Debye 1.5208 1.66(a), 1.52(c) 이상기체의 생성에너지 kcal/mol -65.6652 -65.63(b) 융해열 kcal/mol 2.118043 2.239484(a) 이상기체의 생성 깁스에너지 kcal/mol -36.4715
액체 몰부피 m3/mol 9.25E-05
분자량 g/mol 74.1216 74.12(c) 표준상태의 연소열 kcal/mol -588.232 -585.94(c)
390.88(a),산¾느ᄌ ¬
K 391.4135 '
390.88(b), 391(c) 회전 반경 A 3.238254
1.3971(a), 굴절률 - 1.396598
. 1.399(c) 용해도 지수 calu/2)/m(3/2) 11361.51
표준상태의 절대 엔트로피 cal/(mol*K) 53.39528 53.94359(c) 표준상태의 생성에너지 kcal/mol -77.4281 -78.3939(c) 표준상태의 생성 깁스에너지 kcal/mol -37.8414
반데르발스 면적 m2/mo 1 7.71E+08
반데르발스 부피 m3/mol 0.053141
자기 감수율 pm 55.91303 56.4(a)
편극도 A3 8.759298
이온화 에너지 kcal/mol 231.3544
전자 친화도 kcal/mol -23.3284
인화점 K 303.2092 308(c) 파라코르 - 208.0186
인화 하한 온도 K 301.2193
인화 하한 부피퍼센트 vol 1.805293 1.4(c)
인화 상한 온도 335.2805
인화 상한부피퍼센트 vol% 12.22314 11.2(c) 정상끓는점에서의 액체 밀도 mol/m3 9626.16
298.15K에서의 기화열 kcal/mol 12.35446
정상끓는점에서의 기화열 kcal/mol 10.47917 (a) Lide, D. R., CRC Handbook of Chemistry and Physics, 87th ed. , CRC Press , Boca Raton, FL, 2006-2007.
(b) Poling, B. E. , Prausnitz, J. M. , 0' Conne 11 , J. P., The Properties of Gases and Liquids, 5th ed. , McGraw-Hill, NY, 2001.
(c) htt /en. wikipedia . org/wiki /N-But ano 1
이해를 돕기 위해 내장된 여러 온도의존 물성 예측모들 중에서 표면장력을 예를 들어 설명하면, 본 발명에 내장된 표면장력을 예측하는 수식은 다음 방정식을 사용한다. σ = A*(l-Tr)N 여기서 A, N은 표면장력이라는 화합물의 특성을 나타내는 상수이고 !은 환산온도로 T/Tc로 계산되며 Tc는 화합물의 상수값 물성인 임계온도 (critical temperature)이고 T는 원하는 온도를 의미한다. 따라서 A, N, Tc에 관한 상수값이 결정이 되어 있으면 원하는 은도 T에 관한 표면장력의 예측값을 얻을 수 있다. 온도의존 물성의 유효한 온도 범위내의 몇몇 특정 온도에 대한 물성값을 계산하여 기록매체의 파일로 저장한다.
'기술적 해결방안' 에 있는 실시예 3의 1항에 기술된 3단계에서 실시예 3의 4항에 기술된 8단계까지는 도 206의 작업관리서버, 다수의 클라이언트, 파일서버, 백업서버에서 처리된다. 이 단계는 하나의 화합물에 대해서 자동화되어 있는 것뿐 만 아니라 수십만개 이상의 다량의 화합물에 대한 물성예측 과정을 처리하기 위하여 작업 스케줄러를 별도로 구축하였다. 이 단계는 모든 작업을 제어 및 관리하는 작업관리서버와 양자역학 프로그램, 물성 예측모들이 내장된 클라이언트, 계산을 통해 생성된 결과를 저장하는 결과파일서버, 저장된 결과의 유실을 방지하기 위한 백업서버로 이루어져 있다. 작업관리서버에서는 구조생성서버에서 전송된 구조파일에 클라이언트에 내장된 여러 계산 프로그램을 수행하는데 필요한 설정값의 정보를 추가하고 클라이언트 작업 스케줄러를 통해 각각의 클라이언트에 계산작업을 할당한다. 클라이언트에 할당된 모든 계산작업을 제어할 수 있으며 진행과정에 대해 관제가 가능하다.
클라이언트는 계산의 효율을 높이도록 최적화된 하드웨어 구성을 가지며 핵심이 되는 중앙처리장치는 다수의 코어가 내장되어 있어서 하나의 클라이언트에서 다수의 계산작업이 가능하도록 설계되었다. 클라이언트는 동종의 하드웨어 구성을 가지는 컴퓨터로 구축이 가능하고 이종의 하드웨어 구성을 가지는 컴퓨터도 내부 네트워크 망에 간단하게 연결하여 구축할 수 있다. 각각의 클라이언트에는 화합물의 분자구조 계산부터 물성 예측에 이르기까지 필요한 모든 계산 프로그램과 물성 예측모들이 내장되어 있다. 각 클라이언트에 할당된 . 계산작업은 각 단계의 과정이 일괄처리로 이루어진다 .
자동화 과정의 양자역학 계산 (도 205의 4 단계) 후에 정상적인 결과를 얻게 되면 다음의 일괄처리 단계로 진행이 되나 구조 최적화 등의 문제로 오류가 발생하면 총 3회에 걸쳐 오류에 대한 자동처리 과정을 수행하는데 최종까지 구조 최적화에 실패하여 정상적인 결과를 얻지 못하는 대상은 파일서버의 특정 위치로 전송되어 종합이 된다. 이 오류결과는 추후에 수동으로 살펴볼 수 있도록 하기 위한 조치이다. 클라이언트에서 수행된 계산작업이 정상적으로 완료되면 결과는 결과파일서버의 여러 하드디스크에 분산 저장된다. 분산 저장된 데이터는 하드디스크 오류에 대비하기 위해 백업서버에서 주기적으로 결과파일서버의 업데이트된 데이터를 점검하고 백업한다.
시스템 관리자는 수행할 계산의 정보를 포함하는 분자구조 정보만 간단한 작업명령으로 작업대기열에 올려놓으면 그 이후의 과정은 모두 자동으로 처리되어 원하는 결과파일를 얻을 수 있게 된다.
'기술적 해결방안' 에 있는 실시예 3의 4항에 기술된 8단계에서, 예를 들어 표 133에 앞서 언급했던 1-부탄올 (1-butanol) 분자가 일련의 과정을 거쳐 기록매체에 저장되는 정보의 내용을 나타냈고 일부 실험값이 존재하는 물성의 경우는 알려진 실험값을 표기하였다. 실험값이 존재하는 경우 예측값은 실험값과 비교를 하여 해당 물성의 일반적인 실험오차나 실험값에 반영된 통계적인 실험오차 수준을 고려하여 특정 오차범위로 그룹을 한정하여 평가지수를 매긴다. 이는 예측값이 실험값의 평균값과 떨어진 정도를 나타내며 평가지수는 양의 정수로 표시하여 값이 작을수록 실험값 오차수준에 근접한 높은 예측성능을 가진다. 평가지수는 실험값이 존재하는 경우 예측값과 수치를 비교하게되며, 평가기준은 물성마다 조금씩 다르긴 하지만 예를들어 어떤 물성의 실험값의 평균오차 수춘이 1 >정도라 할 때, 예측값이 실험값의 土 1% 오차안으로 들어가면 평가지수로 가장 높은 등급인 1등급을 부여하고, 그 다음 수준으로 ≤3%, <5%, <10%, <20%, <50%, >50% 등으로 단계를 나누어 2, 3, 4, 5, 6, 7의 등급을 부여한다.
평가지수값이 작을수록 예측값의 실험오차 수준으로 근접한 것이고 클수록 예측성능이 떨어지는 것을 의미한다 . 또한, 다른 물성의 경우에는 실험오차의 수준을 %로 평가하는 것이 아니라 절대값의 크기로 평가하는 대상도 있어서 이런 것은 실험오차 평균값을 고려한 절대값 등으로 기준을 두어서 각 단계의. 수준에 포함이 되면 해당하는 등급을 부여한다 '..
'기술적 해결방안' 에 있는 실시예 3의 4항에 기술된 9단계에서, 예를 들어 앞서 언급했던 1-부탄올 (1-butanol) 분자에 대해 기존에 잘 알려진 그룹기여 (group contribution) 방법의 일종인 Joback 모델 [Joback . Gᅳ, Re id R.C. , Estimation of pure-component properties from groupᅳ contributions, Chan. Eng. Comm. , 57: 233 (1987)]로 예측이 가능한 물성값만을 표 134에 정리해서 나타냈다. 이 값은 사용자에게 다양한 예측방법을 제공하여 서로의 예측값을 확인하고 비교할 수 있도록 본 발명의 예측결과와 마찬가지로 기록매체에 결과파일로 저장한다.
【표 134]
Figure imgf000355_0001
'기술적 해결방안' 에 있는 실시예 3의 4항에 기술된 10단계에서, 상수값 물성의 경우 '기술적 해결방안 실시예 3의 4항에 기술된 8단계를 통해 얻어진 예측값과 실험값과의 비교를 통해서 예측성능의 평가지수를 같이 표기하여 "물성예측값 1(지수형 )_예측성능지수 1(정수형 또는 null)" 의 형식의 문자열이 저장된다. 이는 데이터베이스를 사용하는 사용자의 인터페이스를 통해서 사용자에게 예측값의 신뢰수준이 어느 정도인지를 보여주게된다.
은도의존 물성의 경우, 예를 들어 표면장력은 앞서 언급한 일반화된 수식에서 A, N, Tc이 필요한데 임계온도는 상수값 물성인 임계온도 예측모들을 통해 결정이 되었고 표면장력 예측모듈을 통해서는 A, N이라는 상수를 결정해서 결과파일을 기톡매체에 저장한다. 결과파일에는 "방정식번호 (정수형 LA상수값 (지수형); N상수값 (지수형)" 의 형식으로
"0_5.75795084237915e-02; 1.08757721685470e+00" 라는 문자열이 저장된다. 예를 들어 1-부탄을에 대한 표면장력의 결과파일에 있는 A, N 상수값과 임계온도의 상수값을 이용하여 표면장력의 일반화된 함수에 대입하여 원하는 은도 (X축)에 따른 표면장력 예측값 (Υ축)의 그래프를 그리면 도 209와 같다. 도 209는 본 발명의 시스템에서 보여주는 것이 아니라 본 발명으로 저장된 '결과파일을 이용하여 별도로 개발된 스프레드시트의 그래프 도구나 별도의 사용자 인터페이스를 통해서 볼 수 있는 도면이다. 여기서는 본 발명의 이해를 돕고자 도시한 것이다.
'기술적 해결방안' 에 있는 실시예 3의 4항에 기술된 8단계에서 실시예 3의 4항에 기술된 10단계까지는 상용처리서버에서 처리된다. 실험방법을 통한 검증된 실험값과의 비교를 통하여 예측된 값의 품질을 평가하고 온도에 의존하는 물성의 경우 온도와 관련된 일반화된 함수에 사용될 인자를 도출한다. 부가적으로 각 물성별로 기존에 알려진 예측모델을 수행하고 그 결과를 저장한다. 본 발명으로 계산된 예측결과와 예측결과의 성능을 나타내는 지수와 기존에 알려진 예측모델의 결과를 모두 병합하여 최종 결과파일로 저장한다.
이상과 같이, 상기의 과정을 통해 최종적으로 저장된 결과파일은 데이터를 처리할 수 있는 스프레드시트 도구나 데이터이스 관리도구 또는 별도로 개발된 사용자 인터페이스를 통해 사용자에게 친숙한 형태의 데이터나 그래프로 살펴볼 수 있다. 또한 본 발명의 기술에 있어서 한정된 실시예로 언급하였으나 모든 화합물에 대한 적용이 가능하고 새로운 물성 예측모들이 완성되면 추가적인 확장도 가능하다. .
화합물의 물리, 화학적 물성을 얻기 위해 여러 단계를 거쳐 수행해야할 처리를 일괄적으로 자동화함으로써 보다 간편하게 원하는 결과를 얻을 수 있고 양자역학 방법을 도입하여 이론에 근거한 수학적 모델을 세울 수 있게
I
되고 정확한 구조 최적화를 통해 화합물에 대한 물성들과 다양한 분자 표현자 등의 정보를 토대로 좀 더 정교한 예측모델을 만들수 있는 기초를 제공하여 예측성능이 은 결과를 얻을 수 있다. 새로운 물성을 예측하는
QSPR모델에 대한 모들화된 프로그램이 완성이 되면 물성예측 과정에 간단히 추가하면 되므로 새로운 물성에 대한 확장이 가능하다.
화합물에 물리, 화학적 물성에 대해 이미 검증된 예측값으로 모든 물성을 총망라하여 사용자의 실무에 필요한 초기 데이터로 사용할 수 있게 되어 실무자의 업무시간을 단축시키면서 업무효율과 능를을 향상시켜주는 효과가 매우 크다. '
[실시예 4] 화합물의 물성을 예측하는 방법 및 화합물의 물성을 예측하는 시스템
본 실시예는 최적의 분자구조를 기반으로 양자역학 계산을 하는 프로그램과 물성정보 예측모듈을 이용하여 얻은 다양한 물성 데이터를 관리하고 사용자의 요구에 맞추어 서비스하는 방법 및 물성 데이터를 계산하고 관리하는 서버와 ^용자가 화합물의 검색 조건을 입력하고 서버로부터 결과를 전송 받아 스크린에 디스플레이하는 클라이언트로 이루어진 화합물의 물성올 예측하는 시스템에 관한 것이다.
현재까지 화합물의 화학적, 물리적 물성을 제공하는 방법 또는 시스템은 실험에 의해서 얻어진 값들을 데이터베이스에 입력하고 이들 화합물에 대해서 텍스트 기반으로 검색하고 있는 실정이다. 이들 데이터베이스는 최대 2만여개의 화합물에 대해서 알려져 있는 물성 데이터를 제공하고 있으며, 그 이외의 화합물에 대한 물성은 필요에 따라서 실험을 통하여 얻어지고 있다. 화합물의 물리, 화학적 물성정보는 실험기구의 적절한 설계와 적절히 제어된 실험조건에서 측정이 되어야 정확한 결과를 얻어낼 · 수 있다. 전문적인 실험기구가 설계된 연구소나 기관에서 실험값을 측정할 수 있지만 화합물의 수많은 물성정보를 모두 얻기 위해서는 상당한 장비, 인력, 비용을 필요로 하고 많은 시간이 소요되므로 화학공정과 관련된 연구를 수행하는 실무자는 당장 물성정보가 필요한 상황인데도 불구하고 기존의 데이터베이스에 존재하지 않는 수천만개 화합물의 물성 데이터를 은라인 상에서 실시간으로 얻을 수가 없다. 따라서, 종래의 방법 또는 시스템으로는 하나의 화합물에 대한 물성값을 얻는데 실험에 의해서 얻어져야 하므로 많은 노력과 시간이 필요하기에 시간소모적이고 비효율적이라는 문제점을 가지고 있으므로 실험값이 존재하지 않는 수 많은 화합물에 대한 물성을 실시간으로 사용자에게 제공할 수 있는 방법 또는 시스템의 필요성이 증대되고 있다. 또한, 기존의 데이터베이스를 이용한 검색은 텍스트를 입력하여 검색을 하기에 복잡한 분자 구조를 갖는 화합물을 검색하는데 많은 어려움이 존재하고 있다.
본 실시예가 이루고자 하는 기술적 과제는 위에서 언급된 기존의 방법 및 시스템의 한계를 뛰어넘어 보다 신뢰성 있고 보다 우수한 예측성능을 보이는, 수소 (H), 탄소 (C), 질소 (N), 산소 (0), 황 (S) 등 5가지 이내의 원소로 구성되고, 수소를 제외한 원자의 개수가 25개 이하인 분자로 이루어진 순수한 유기화합물의 물성을 예측하 ^ 방법 및 시스템을 구축하는 것으로, 실험 데이터가 존재하지 않는 화합물의 물성을 계산하여 데이터베이스에 저장할 뿐만 아니라 사용자가 편리하게 화합물을 검색할 수 있는 환경을 제공하는 것과 동시에 그 화합물의 물성 '예측값을 사용자에게 친숙한 방법으로 제공하는 것을 목적으로 한다.
본 실시예는 보다 많은 실험데이터를 바탕으로 보다 다양한 분자표현자들을 고려한 QSPR(quantitative structure-property relationship) 모델의 일례인 다중선형회귀 -인공신경망 흔성 QSPR 모델에 의해서 화합물의 물성을 계산하여 데이터베이스화하고, 웹어플리케이션 서베 관계형 데이터베이스, 파일스토리지, 온도와존물성정보를 계산하기 위한 계산프로그램, 분자구조기반검색프로그램 등으로 이루어져 있는 서버가 클라이언트에서 사용자에 의해서 입력되는 화합물을 분자식, 분자명, 분자구조, 원하는 온도 범위, 사용자의 검색조건, 원소의 개수, 분자량, InChiCThe IUPAC International Chemical Identifier), 물성범위에 대웅하여 해당하는 물성을 ᅳ 클라이언트에게 제공한다.
본 실시예에서 '화합물' 은 수소 (H), 탄소 (C), 질소 (N),' 산소 (0), 황 (S) 등 5가지 이내의 원소로 구성되고, 수소를 제외한 원자의 개수가 25개 이하인 분자로 이루어진 순수한 화합물을 지칭하며, 예측모델을 적용할 수 있는 화합물의 범위를 이와 같이 '제한을 두는 이유는 주로, 사용된 분자표현자들 중 그 값을 구하기 위해서는 양자역학적 계산이 필요한 것들이 존재하는 경우, 현재의 기술수준으로는 언급된 범위를 넘어서는 화합물에 대해서는 정확도와 계산시간의 측면에서 곤란한 문제가 발행한다는 사실에 기인하고 있다. 그러나 상기의 제한범위 내라 할지라도 대단히 많은 화합물들이 존재하며 산업적으로 중요한 화합물들이 상당 부분 포함되므로 본 발명이 인류사회에 큰 유익을 끼칠 수 있을 것으로 판단된다.
오늘날 인류는 플라스틱, 섬유, 고무, 도료, 비료, 의약품, 연료 등, 방대한 종류의 유기화합물에 의존하여 살아가고 있으며 이러한 경향은 더욱 심화될 것으로 예상된다. 미국 화학회 (ACS)에 따르면 2010년 7월 기준으로 등록된 전체 화합물의 수는 54, 000,000개를 넘는다고 한다. 이에 비해 물성값이 한가지라도 실험적으로 알려져 있는 화합물의 수는 고작해야 수만에 지나지 않는다. 화합물의 물성값은 신물질과 신약의 개발, 화학플랜트의 최적 설계, 기존 설비의 생산성 향상, 자원의 개발과 절약, 안전성 확보, 환경보호 등 인류의 보다 나은 물질생활에 필수적인 요소이다.
본 발명은 사용자가 사용하기에 편리하도록 GUI를 통하여 분자명., 분자식, 분자구조에 기반한 검색기능 제공하고, 단순한 원자, 분자, functional group의 개수비교가 아니라. Subgraph Isomorphism 방법을 통해서 분자의 구조적 동일성을 온라인 상에서 직접 확인할 수 있다.
따라서, 본 발명은 실험에 드는 비용과 시간을 절감해줄 뿐만이 아니라 실험이 불가능한 경우에도 그 값을 짐작하게 해주어 관련 산업의 연구개발활동을 용이하게 함은 물론 더 나아가 학계와 관 (官)계 등 그 값을 필요로 하는 모든 곳에 합당한 정보를 제공하여 그 활동을 보다 원활히 수행할 수 있게 해주는 효과를 낳는다 하겠다.
도 210은 본원 발명에 의한 화합물의 물성을 예측하는 방법 및 시스템에 관한 흐름도이다. 본원 발명에서 화합물의 물성을 예측하는 방법은 서버에 접근할 수 있는 클라이언트에 사용자가 로그인하는 제 1단계; 검색하고자 하는 화합물을 분자식, 분자명 , 분자구조 중 어느 하나 이상을 선택하여 입력하는 제 2단계 ; 상기 제 2단계에서 상기 화합물의 온도에 의존하는 경우의 물성에 대하여 원하는 온도 범위를 선택하는 제 3단계; 상기 제 2단계 및 상기 게 3단계에서 입력된 정보를 클라이언트가 서버로 전송하는 제 4단계; 상기 거) 4단계에서 전송된 정보를 통하여 입력된 상기 화합물에 대한 물성을 분자 정보 데이터베이스, 물성정보를 가지고 있는 파일스토리지, 온도의존물성 계산 모들, 분자구조기반 검색 모들로부터 전송 받아 서버에서 클라이언트로 반환하는 제 5단계; 상기 제 2단계 및 상기 게 3단계에서 입력된 상기 화합물에 대한 IR, VCD, MR 스펙트라 정보를 서버에서 클라이언트로 반환하는 제 6단계; 상기 제 2단계 및 상기제 3단계에서 입력된 상기 화합물에 대한 3차원 구조정보를 서버에서 클라이언트로 반환하는 게 7단계; 상기 제 5단계 부터 제 7단계까지에서 클라이언트로 전송된 상기 물성, 스펙트라 정보, 3차원 구조정보를 클라이언트가 화면에 디스플레이. 하는 제 8단계;를 포함한다. 상기 제 2단계에서 화합물을 선택할 때에 원소의 개수, 분자량, InChKThe IUPAC International Chemical Identifier), 물성범위에서 선택되는 어느 하나 이상을 선택할 수 있는 것도 포함한다. 상기 제 2단계에서 분자구조는 사용자가 분자구조를 가지고 있는 테이블에서 선택되거나 사용자에 의해서 직접 입력될 수 있으며, 입력되는 상기 분자구조는'분자구조의 전체 구조 또는 전체 구조 증의 일부분이 입력된다. 상기 제 7단계에서 3차원 구조정보는 화합물 분자 내의 원자간의 거리, 인접 원자간의 각도, 분자의 비틀림 정도, 분자 진동수, 오비탈을 포함한다.
도 211은 본원 발명인 화합물의 물성을 예측하는 시스템의 구성도로서, 화합물의 물성을 예측하는 시스템은 사용자가 검색하고자 하는 화합물의 분자식, 분자명, 분자구조 중 어느 하 이상을 선택하여 입력하고, 확장된 상세검색에서는 원소의 개수, 분자량, InChi The IUPAC International Chemical Identifier), 물성범위에서 선택되는 어느 하나 이상이 입력될 수 있으며, 접근이 가능한 서버에서 반환되는 물성, IR, VCD, NMR 스펙트라 정보, 3차원 구조정보를 화면에 디스플레이하는 클라이언트; 상기 클라이언트에서 입력된 화합물의 물성, IR, VCD, NMR 스펙트라 정보, 3차원 구조정보를 계산하고 검색하는 서버; 상기 서버는 웹어플리케이션 서버, 관계형 테이터베이스, 물성 정보를 가지고 있는 파일스토리지, 온도의존물성정보를 계산하기 위한 계산 모들, 분자구조기반 검색 모들을 포함하며, 상기 클라이언트에서 입력되는 상기 분자구조는 사용자에 의해서 분자구조를 가지고 있는 테이블에서 선택되거나 사용자에 의해서 직접 입력될 수 있으며 , 입력되는 상기 분자구조는 분자구조의 전체 구조 또는 전체 구조 중의 일부분이 입력된다. 상기 서버에서 상기 클라이언트로 전송하는 상기 3차원 구조정보는 화합물 분자 내의 원자간의 거리, 인접 원자간의 각도, 분자의 비를림 정도, 분자 진동수, 오비탈을 포함한다.
본 발명은 화합물의 분자식이라는 아주 작은 정보에서 시작해서 다양한 물리, 화학적 물성정보를 활용할 수 있도록 설계되어 있다. 물리, 화학적 물성정보는 하나의 화합물에 대해 하나의 값을 가지는 상수값 물성과 온도에 따라 다른 값을 가지는 온도의존 물성을 포함한다. 상수값 물성은 적어도 분자량, 쌍극자 모멘트, 정상끓는점, 임계 온도, 임계 압력, 임계 부피, 임계 압축인자, 이심인자, 회전 반경, 이상기체의 절대 엔트로피, 이상기체의 생성에너지, 이상기체의 생성 김스에너지, 액체 몰부피, 융해열, 굴절률, 수용해도, 표준상태의 절대 엔트로피, 표준상태의 생성에너지, 표준상태의 생성 깁스에너지, 표준상태의 연소열, 반데르발스 면적, 반데르발스 부피, 자기 . 감수율, 편극도, 이온화 에너지, 전자 친화도, 파라코르 , 인화점, 인화 하한 온도, 인화 하한 부피퍼센트, 인화 상한 온도, 인화 상한 부피퍼센트, 정상끓는점의 액체 밀도, 298.15K에서의 .기화열, 정상끓는점에서의 기화열을 포함하고, 온도의존 물성은 적어도 이상기체의 열용량, 액체의 열용량, 기화열, 포화액체밀도, 표면장력, 액체 열전도율, 기체 열전도율, 액체 증기압, 액체 점성도, 기체 점성도, 2차 비리얼계수를 포함한다.
본 발명인 화합물의 물성정보시스템은 서버 /클라이언트 형식으로 구성되어 있다. 서버는 웹어플리케이션서버, 분자의 정보를 포함하는 관계형 데이터베이스, 물성정보를 포함하는 파일스토리지, 온도의존물성정보를 계산하기 위한 계산 프로그램, 분자구조기반검색 프로그램 등으로 이루어져 있다. 실제 사용자가 물성정보를 조회하기 위해 사용하는 프로그램인 클라이언트는 미리 정의된 네트워크 프로토콜을 구현하고 있어서 서버에서 원하는분자를 검색하고 해당 분자의 물성정보를 검색해 볼 수 있다.
관계형 데이터베이스는 분자의 검색에 필요한 정보를 가지고 있는 테이블과 물성에 관한 정보를 가지고 있는 테이블을 포함하고, 분자의 검색에 필요한 정보를 가지고 있는 테이블은 분자 정보를 갖는 테이블, '몰파일' 로 지칭되는 분자의 구조를 가지고 있는 테이블, 분자의 작용기 정보를 가지고 있는 테이블이다. 분자 정보는 화합물의 분자식, 분자명, InChl, smile, 분자량, InChlkey, 라디칼의 포함 여부 등의 정보를 포함하며, 물성 정보를 이용한 검색 또는 온도에 의존하는 물성을 계산할 시에 계산인자로서 사용된다.
물성정보를 가지고 있는 파일스토리지 시스템은 사용자의 요구에 따라서 클라이언트로 반환되는 정보를 포함하고 있으며, 일정한 값을 갖는 물성 파일, 온도에 의존하는 계산 인자 파일 , 제약 (drug) 물성 파일, 표현자 물성 파일, 양자역학 정보 파일', 분자 썸네일 (thumbnail) 파일을 포함하고, 이들은 시스템의 부하분산을 위해서 각 파일들은 헤시안 (hessian) 함수를 이용하여 생성된 폴더에 나누어져서 보관된다. 양자역학 정보 파일은 분자의 오비탈에 관한 물성과 양자계산에 관한 물성을 저장하고 있는 파일로서 양자역학 계산을 통해 얻어지는 결과파일로 2차적인 추가계산의 시작점 (starting point)으로 사용하기 위한 정보를 포함하며,— 전자의 발견확률을 그래픽 환경에서 볼 수 있도록 오비탈 (궤도함수)과 관련된 정보를 포함한다.
온도의존물성정보를 계산하기 위한 계산 프로그램은 물성을 확인하고 해당하는 물성에 맞는 계산 모듈을 실행하여 각 물성별 모들에서 분자별 계수를 확인하여 계산을 수행한다.
서버에 저장되어 있는 화합물、분자들의 물성에 관한 정보는 기존의 실험값에 기초한 물성데이터베이스하고는 달리 양자역학적 계산에 근거한 QSPR( quant i t at i ve structure一 property relationship) [Todeschini R. , V. Consonni V. , Molecular Descriptors for Chemo in forma t ics■ ' Second, Revised and Enlarged Edition: Volume I/II, Wiley-VCH, 2009] 모델의 일례인 다중선형회귀 -인공신경망 흔성 QSPR 모델에 의해서 직접 계산한 수많은 물성정보들이 저장되어 있다. 양자역학적 계산에 의한 분자의 전자구조 계산을 하기 위해서는 보통 순이론인 방법으로 슈뢰딩거 (Schrodinger) 방정식을 풀어 전자에너지에 대한 해를 구하게 되는데, 전자가 많은 계의 경우 전자상관관계 (electron correlat ion)를 무시한 근사법을 적용한 하트리 -포크 (Hartree-Fock, HF) 방법 [C.C. J. Roothan, Rev. Mod. Phys. 23, 69 (1951)]을 사용하여 해를 풀게 된다. 이런 근사법으로 인해 계산된 결과에서 근본적인 오차가 유발되어 다차원의 이론적인 섭동항을 추가한 포스트 하트리 -포크 (Post Hartree-Fock) 방법 [C. Moller and M. S. Plesset, Phys. Rev. 46, 618 (1934)]들을 사용하여 더 정확한 해를 구하긴 하지만 상대적으로 엄청나게 많은 계산량이 요구된다. 또한, 다른 방법인 하트리-포크와 포스트 하트리-포크를 조합한 가우시안 방법 [L. A. Curtiss, K. Raghavachar i , G. W. Trucks , and J. A. Pople, J. Chem. Phys . 94, 7221 (1991); L. A. Curtiss, K. Raghavachar i , P. C. Redfern, V. Rassolov, and J. A. Pople, J. Chem. Phys. 109, 7764 (1998)]은 에너지 예측에 있어 아주 적은 오차를 보이지만 여러 포스트 하트리 -포크 방법에 대한 에너지 계산을 수행하기 때문에 더 엄청난 계산량이 요구된다. ¬¬본 발명에서는 많은 전자로 이루어진 분자에 대한 전자들간의 상관관계를 고려하기 위해 다차원의 섭동항이 추가된 파동함수 대신 전자 밀도함수를 써서 총에너지의 범함수를 이용해서 바닥상태를 구하는 밀도 범함수 이론 (density functional theory) [R. Seeger and J. A. Pople, J. Chem. Phys. 66, 3045 (1977)]을 적용하여 분자구조에 대한 최적화 및 진동수 계산을 수행하였다.
또한, 기존 실험값 기반 데이터베이스에서 처리하는 분자 개수인 수만개 수준을 넘어서 수천만개 수준의 물성정보 데이터를 처리하기 위하여, 사용자가 불편을 느끼지 않을 만큼 빠른 시간 내에 웅답을 하도록 분자검색에는 모든 데이터를 2차원 테이블로 표현하는 관계형 데이터 베이스를 사용하고 분자의 물성조회에는 트리구조를 이루는 파일 시스템을 사용한다.
서버구조는 클라이언트에서 접근할 수 있도록 웹어플리케이션 서버가 외부로 노출되어 있다. 웹어플리케이션이 서버자원을 이용해서 서버시스템 내부에서 사용자 로그인, 분자 검색, 물성조회' 같은 기능을 처리한 다음 결과를 클라이언트로 반환한다.
사용자가 로그인을 한 후에 분자식, 분자명, 분자구조를 이용하여 일반 검색 (General search)을 수행하며, 도 212에서 보여주는 바와 같이 분자식 C6H6를 입력하면 도 213과 같이 C6H6를 포함하는 화합물인 벤젠을 비롯한 6개의 분자가 검색되어지나, 분자명으로 벤젠만을 입력하면 C6H6를 입력하는 경우에서 5개의ᅳ분자는 검색되지 않고 벤젠만이 검색되어 화면에 디스플레이 된다.
또한, 본원 발명의 일반검색은 종래 실험값 데이터베이스에서는 제공하지 않는 본 발명인 물성정보 시스템만의 고유 기능인 분자구조를 이용한 검색기능을 포함하고 있다. 다양한 분자구조를 포함하고 있는 파일인 몰파일을 불러와서 몰파일 내의 분자구조를 선택하여 검색조건으로 이용할 수도 있고, 사용자가 직접 원하는 분자 구조를 그려서 그 분자구조를 기반으로 검색을 수행할 수도 있다. 몰파일에서 선택된 분자구조 또는 사용자가 직접 입력한 구조를 전체구조검색의 조건으로 설정할 수 있을 뿐만 아니라 이를 전체 구조 중 하나의 일부분, 다시 말하면 전체 구조 중에 선택된 구조가 포함되어 있는 것을 조건으로 설정하는 부분구조검색이 가능하다ᅳ 따라서 , 벤젠 분자구조를 검색조건으로 이용해서 검색하면 각각 도 214, 도 215에서 검색결과를 볼 수 있다. 도 214는 벤젠을 검색하고자 하는 검색 구조로 설정했을 경우에 대하여 전체구조검색의 결과로서, 벤젠만이 검색되었다. 도 215는 전체 구조 중에 벤젠 구조를 포함하는 분자를 검색한 것으로 10055개의 화합물이 검색되어졌다.
화합물의 검색은 확장검색 (extended search)에 의해서도 검색되어진다. 일반검색은 분자명, 분자식, 분자구조에 의해서 검색되지만 확장검색은 원소의 개수, 분자량, InChi (The IUPAC International Chemical Identifier) 또는 물성의 범위를 이용하여 검색을 수행할 수 있다. 도 216에서 보여주는 바와 같이 기본 원소인 C, H, 0, N, S의 개수를 사용자가 원하는 수로 설정할 수 있으며, 분자량 역시 사용자가 일정 범위를 한정할 수 있다. 상기한 검색조건을 도 216에서 보여주는 확장검색 창에 입력을 한 후에 검색된 화합물 결과 목록 중에서 화합물을 클릭하여 선택하면 해당 화합물 분자에 대하여 도 217 부터 도 220까지에서와 같이 물성치, 분자표현자 값, 양자역학 계산값, 제약물성치가 사용자의 화면으로 반환되어 디스플레이된다. 물성 중에 온도에 의존하는 물성인 경우에는 원하는 온도대역을 직접 선택해서 물성을 조회할 수 있다. 사용자가 원하는 온도 대역을 입력하면 클라이언트는 그 온도들을 서버로 보내고 서버는 해당 온도에 대하여 온도의존물성정보를 계산하기 위한 모들에 의해서 온도의존 물성올 계산한 다음 클라이언트로 값을 돌려준다. 종래의 실험값 물성 데이터베이스는 이미 실험이 수행되어서 데이터베이스에 저장되어 있는 값만을 조회해 볼 수 있지만, 본 발명인 물성정보 시스템은 사용자가 원하는 온도 범위에 대한 값을 실시간으로 계산해서 조회할 수 있다. 도 221은 온도 범위가 273K에서 1500K로 설정된 경우, 이상기체의 열용량 값을 보여주며, 실험치가 존재하는 경우에 대하여 실험에 의해서 얻어진 값과 본 발명의 계산값을 비교할 수 있도록 두가지 값을 함께 보여주고 있으며 상당히 정확한:이상기체의 열용량 값을 계산에 의해서 얻을 수 있다는 것을 알 수 있다.
그 밖에도 IR, VCD, 丽 R의 스펙트라 정보 역시 사용자가 선택한 화합물에 대하여 클라이언트로 제공되며, 도 222 부터 도 224까지에서 보여주는 바와 같이 선택된 화합물의 측정정보, 분자진동수, 오비탈 등의 3차원 구조 정보 역시 제공된다. 측정정보는 화합물 분자 내의 원자간의 거리, 원자와 원자 간의 배열 각도 등을 포함하고, 분자진동은 도 223에서 보여주는 것처럼 해당하는 분자진동에 대한 방향과 세기를 화살표 형식으로 표현해주고 분자가 해당하는 분자진동에 맞게 움직이도록 애니메이션이 구현되어 있어서 사용자가 역동적인 분자의 이미지를 확인할 수 있다. 도 224는 오비탈 정보로서, 본 발명은 양자역학 계산에 의해서 얻어진 결과이며 이는 종래의 데이터베이스에서는 제공할 수 없는 본 발명에서만 제공할 수 있는 고유한 분자 정보이다. ,
이렇게 본 화학물성정보시스템은 단순히 수치적 물성정보만 가지고 있는 데이터베이스가 아니라 하나의 분자에 대한 거의 모든 정보들을 하나의 프로그램에서 찾아볼 수 있도록 설계된 시스템이다. 이 시스템에서 정해진 네트워크 프로토콜을 이용하면 클라이언트는 일반 PC와 모바일 기기를 가리지 않고 모두에서 구현될 수 있다.
【산업상 이용가능성】
본 발명은 유기화합물의 물성을 예측하는 모델을 기반으로 물리화학적 및 열역학적 다양한 물성을 예측하는 방법과 시스템에 대한 것으로 화학공정의 설계 및 최적화와 이에 따른 생산성 향상 및 연소반웅 시스템의 최적화를 통한 에너지 효율의 증대와,신약개발을 포함한 새로운 화학 물질의 개발 등 화학산업계에 널리 이용가능성을 가진다.

Claims

【청구의 범위】
【청구항 1】
수집된 샘플 유기화합물들 중의 탄화수소 계열 실험 데이터를 입 력하는 제 1단계 ; 샘플 유기화합물들의 상기 탄화수소 계열 유기화합물의 정상끓는점에 대한 분자표현자값 준비하는 제 2단계 ; 최적의 분자표현자들을 추출하는 제 3단계 ; 훈련집합과 시험집합으로 실험데이터를 분리하는 제 4단계 ; 훈련집합에 대하여 최적의 다중선형회귀 QSPR 모델 탐색하는 제 5단계 ; 선택된 모델의 타당성을 검토하는 제 6단계 ; 상기 제 6단계에서 타당성 이 없으면, 상기 제 5단계, 제 6단계를 반복하고, 타당성 이 있으면 시험집합에 대하여 모델의 예측성능을 테스트하는 제 7단계 ; 시험집합에 대한 상기 제 7단계 테스트에서 성능이 기준을 만족하지 못하면 제 4단계부터 제 7단계까지 반복하고, 기준을 만족하면 샘플 표준화 후 3개 집합으로 분리하는 제 8단계 ; 전체 샘플올 3개 집합으로 나눈 후에 최적의 인공신경망 QSPR 모델을 탐색하는 제 9단계 ; 상기 제 8단계에서 성능 테스트를 만족하는 상기 최적의 선형회귀모델로 구한 정상끓는점 예측값과 상기 제 9단계에서 탐색된 상기 최적의 인공신경망 QSPR 모델 로 구한 정상끓는점 예측값 차이의 절대값을 미리 설정된 과적합 방지 기준값과 비교하는 제 10단계 ; 상기 차이가 상기 과적합 방지 기준값 보다 크면 상기 제 8단계에서 얻은 다중선형회귀 QSPR 모델에 의한 정상끓는점 예측값을 정상끓는점 값으로 채택하고 상기 과적합 방지 기준값 보다 작으면 상기 제 9단계에서 탐색된 인공신경망 QSPR 모델 에 의 한 정상끓는점 예측값을 정상끓는점 값으로
369 대체용지 (규칙 제 26조) 채택하는 제 11단계를 포함하는 다증선형회귀 -인공신경망 흔성 QSPR 모델을 통하여 탄화수소 계열 유기화합물의 정상끓는점을 구하는 방법 .
【청구항 2】
제 1항에 있어서, 상기 제 3단계에서 최적의 분자표현자는 모든 샘플 화합물에 대해 값이 동일하지 않은 독립적인 분자표현자인 것을 특징으로 하는 다중선형회귀 -인공신경망 흔성 QSPR 모델을 통하여 탄화수소 계열 유기화합물의 정상끓는점을 구하는 방법 .
【청구항 3】
제 1항에 있어서 , 상기 제 4단계에서 훈련집합과 시험집합은 5:5 ~ 8:2의 비율로 나누는 것을 특징으로 하는 다중선형회귀—인공신경망 흔성 QSPR 모델을 통하여 탄화수소 계열 유기화합물의 정상끓는점을 구하는 방법 .
【청구항 4】
제 1항에 있어서 , 상기 제 5단계에서 상기 다중선형회귀 QSPR 모델은 상기 훈련집합에 대하여 유전적 알고리즘 (genet ic algori thm) 적용하여 다중선형회귀 QSPR 모델을 탐색하는 것을 특징으로 하는 다중선형회귀- 인공신경망 혼성 QSPR 모델을 통하여 탄화수소 계열 유기화합물의 정상끓는점을 구하는 방법 .
【청구항 5】
제 4항에 있어서, 상기 유전적 알고리즘 (genet ic algor ithm)은 분자표현자들의 풀 (pool )에서 일정한 개수의 분자표현자들을 무작위로 뽑아 만든 다수의 다중선형회귀 QSPR 모델들로 구성된 개체군 (populat ion)을
370 대 체 용지 (규칙 제 26조) 생성하는 단계 ; 각 개체 ( individual )들은 뽑힌 분자표현자들의 번호들을 조합하여 부호화하는 단계 ; 생성된 개체군으로부터 를렛휠 (Roulette Wheel ) 방법에 의해서 두 개의 부모 염색체를 선택한 뒤 단순교배 (single point crossover)법에 의하여 자손들을 생성하는 단계 ; 생성된 자손들의 염색체 일부를 일정 확를로 돌연변이 (mutat ion) 시킨 뒤 기존 개체군의 일부를 이들로 교체하여 새 개체군을 생성하는 단계를 포함하는 것을 특징으로 하는 다증선형희귀 -인공신경망 흔성 QSPR 모델을 통하여 탄화수소 계열 유기화합물의 정상끓는점을 구하는 방법 .
【청구항 6】 、 '
제 1항에 있어서 , 상기 제 5단계는 회귀모델의 결정계수 또는 평균절대오차에 의해서 예측성능을 판단하는 것을 포함하는 다중선형회귀 -인공신경망 혼성 QSPR 모델을 통하여 탄화수소 계열 유기화합물의 정상끓는점을 구하는 방법 .
【청구항 7】
제 1항에 있어서, 상기 제 6단계에서 타당성은 통계학적 t검정값에 의해서 타당성을 결정하는 다중선형회귀 -인공신경망 흔성 QSPR 모델을 통하여 탄화수소 계열 유기화합물의 정상끓는점을 구하는 방법 .
【청구항 8】
제 1항에 있어서 , 상기 제 8단계에서 시험집합에 대한 예측성능이 훈련집합에 대한 예측성능과 유사하면 다중선형회귀 QSPR 모델이 결정되고, 시험집합에 대한 예측성능이 훈련집합에 대한 예측성능과 차이 나면 훈련집합과 시험집합을 다시 분류하는 다중선형회귀 -인공신경망 흔성 QSPR 모델을
371 대 체 용지 (규칙 제 26조) 통하여 탄화수소 계열 유기화합물의 표준상태의 정상끓는점을 구하는 방법 .
【청구항 9】
제 1항에 있어서 , 상기 제 9단계에서 상기 인공신경망에 의한 탐색범위는 입력층과 출력층 사이에 하나의 은닉층을 가지며 전방향 (feed forward)으로 만 연결되어 있는 것을 특징으로 하는 다중선형회귀 -인공신경망 흔성 QSPR 모델을 통하여 탄화수소 계열 유기화합물의 정상끓는점을 구하는 방법 .
【청구항 10】
제 9항에 있어서 , 상기 은닉층의 활성화 함수로는 시그모이드 (Sigmoid) 함수를 사용하는 것올 특징으로 하는 다중선형회귀 -인공신경망 흔성 QSPR 모델을 통하여 탄화수소 계열 유기화합물의 정상끓는점을 구하는 방법 .
【청구항 11】
제 1항에 있어서, 상기 제 10단계에서 상기 과적합 방지 기준값은 10 K 인 것을 특징으로 하는 다중선형회귀—인공신경망 흔성 QSPR 모델을 통하여 탄화수소 계열 유기화합물의 정상끓는점을 구하는 방법 .
【청구항 1
수집된 샘플 유기화합물들 중의 비탄화수소 계열 실험데이터를 입력하는 제 1단계 ; 샘플 유기화합물들의 상기 비탄화수소 계열 유기화합물의 정상끓는점에 대한 분자표현자값 준비하는 제 2단계 ; 최적의 분자표현자들을 추출하는 제 3단계 ; 훈련집합과 시험집합으로 실험데이터를 분리하는 제 4단계 ; 훈련집합에 대하여 최적의 다중선형회귀 QSPR 모델 탐색하는 제 5단계 ; 선택된 모델의 타당성을 검토하는 제 6단계 ; 상기 제 6단계에서 타당성이
372 대 체 용지 (규칙 제 26조) 없으면 , 상기 제 5단계, 제 6단계를 반복하고, 타당성이 있으면 시험집합에 대하여 모델의 예측성능을 테스트하는 제 7단계 ; 시험집합에 대한 상기 제 7단계 테스트에서 성능이 기준을 만족하지 못하면 제 4단계부터 계 7단계까지 반복하고, 기준을 만족하면 샘플 표준화 후 3개 집합으로 분리하는 제 8단계 ; 전체 샘플을 3개 집합으로 나눈 후에 최적의 인공신경망 QSPR 모델 탐색하는 제 9단계 ; 상기 제 8단계에서 성능 테스트를 만족하는 상기 최적의 다중선형희귀 QSPR 모델로 구한 정상끓는점 예측값과 상기 제 9단계에서 탐색된 상기 최적의 인공신경망 QSPR 모델 로 구한 정상끓는점 예측값 차이의 절대값올 미리 설정된 과적합 방지 기준값과 비교하는 제 10단계 ; 상기 차이가 상기 과적합 방지 기준값 보다 크면 상기 제 8단계에서 얻은 다중선형희귀 QSPR 모델에 의한 정상끓는점 예측값을 정상끓는점 값으로 채택하고 상기 과적합 방지 기준값 보다 작으면 상기 제 9단계에서 탐색된 인공신경망 QSPR 모델 에 의한 정상끓는점 예측값을 정상끓는점 값으로 채택하는 제 11단계를 포함하는 다중선형회귀 -인공신경망 흔성 QSPR 모델을 통하여 비탄화수소 계열 유기화합물의 정상끓는점을 구하는 방법 .
【청구항 13]
제 12항에 있어서, 상기 제 3단계에서 최적의 분자표현자는 모든 샘플 화합물에 대해 값이 동일하지 않은 독립적인 분자표현자인 것을 특징으로 하는 다중선형회귀 -인공신경망 흔성 QSPR 모델을 통하여 비탄화수소 계열 유기화합물의 정상끓는점을 구하는 방법 .
373 대체용지 (규칙 제 26조)
【청구항 14】
제 12항에 있어서 , 상기 제 4단계에서 훈련집합과 시험집합은 5:5 ~ 8:2의 비율로 나누는 것을 특징으로 하는 다중선형회귀 -인공신경망 혼성 QSPR 모델을 통하여 비탄화수소 계열 유기화합물의 정상끓는점을 구하는 방법 .
【청구항 15】
제 12항에 있어서, 상기 제 5단계에서 상기 다중선형회귀 QSPR 모델은 상기 훈련집합에 대하여 유전적 알고리즘 (genet ic algori thm) 적용하여 다중선형희귀 QSPR 모델을 탐색하는 것을 특징으로 하는 다중선형회귀- 인공신경망 혼성 QSPR 모델을 통하여 비탄화수소 계열 유기화합물의 정상끓는점을 구하는 방법 .
【청구항 16】
제 15항에 있어서, 상기 유전적 알고리즘 (genet ic algorithm)은 분자표현자들의 풀 (pool )에서 일정한 개수의 분자표현자들을 무작위로 뽑아 만든 다수의 다중선형회귀 QSPR 모델들로 구성된 개체군 (populat ion)을 생성하는 단계 ; 각 개체 ( individual )들은 뽑힌 분자표현자들의 번호들을 조합하여 부호화하는 단계 ; 생성된 개체군으로부터 를렛휠 (Roulette Wheel ) 방법에 의해서 두 개의 부모 염색체를 선택한 뒤 단순교배 (single point crossover)법에 의하여 자손들을 생성하는 단계 ; 생성된 자손들의 염색체 일부를 일정 확률로 돌연변이 (mutat ion) 시킨 뒤 기존 개체군의 일부를 이들로 교체하여 새 개체군을 생성하는 단계를 포함하는 것을 특징으로 하는 다중선형회귀—인공신경망 흔성 QSPR 모델을 통하여 비탄화수소 계열
374 대체용지 (규칙 제 26조) 유기화합물의 정상끓는점을 구하는 방법 .
【청구항 17】
제 12항에 있어서 , 상기 제 5단계는 회귀모델의 결정계수 또는 평균절대오차에 의해서 예측성능을 판단하는 것을 포함하는 다중선형회귀 -인공신경망 혼성 QSP 모델을 통하여 비탄화수소 계열 유기화합물의 정상끓는점을 구하는 방법 .
【청구항 18】
제 12항에 있어서, 상기 제 6단계에서 타당성은 통계학적 t검정값에 의해서 타당성을 결정하는 다중선형희귀 -인공신경망 흔성 QSPR 모델을 통하여 비탄화수소 계열 유기화합물의 정상끓는점을 구하는 방법 .
【청구항 19】
제 12항에 있어서 , 상기 제 8단계에서 시험집합에 대한 예측성능이 훈련집합에 대한 예측성능과 유사하면 다중선형회귀 QSPR 모델이 결정되고,. 시험집합에 대한 예측성능이 훈련집합에 대한 예측성능과 차이 나면 훈련집합과 시험집합을 다시 분류하는 다중선형회귀 -인공신경망 흔성 QSPR 모델을 통하여 비탄화수소 계열 유기화합물의 표준상태의 정상끓는점을 구하는 방법 .
【청구항 20】
제 12항에 있어서 , 상기 제 9단계에서 상기 인공신경망에 의한 탐색범위는 입력층과 출력층 사이에 하나의 은닉층을 가지며 전방향 (feed forward)으로 만 연결되어 있는 것을 특징으로 하는 다증선형회귀 -인공신경망 흔성 QSPR 모델을 통하여 비탄화수소 계열 유기화합물의 정상끓는점을 구하는 방법 .
375 대 체 용지 (규칙 제 26조)
【청구항 21】
제 20항에 있어서, 상기 은닉층의 활성화 함수로는 시그모이드 (Sigmoid) 함수를 사용하는 것을 특징으로 하는 다중선형회귀 -인공신경망 흔성 QSPR 모델을 통하여 비탄화수소 계열 유기화합물의 정상끓는점을 구하는 방법 .
【청구항 22】
제 12항에 있어서 , 상기 제 10단계에서 상기 과적합 방지 기준값은 25 K 인 것을 특징으로 하는 다증선형회귀 -인공신경망 흔성 QSPR 모델을 통하여 비탄화수소 계열 유기화합물의 정상끓는점을 구하는 방법 .
【청구항 23】
제 1항에 있어서, 상기 제 3단계에서 추출된 상기 최적의 분자표현자들은
P1 전자회절기반 3차원 분자구조 표현 -차수 26/원자량 가중 (3D-MoRSE - signal 26 / weighted by atomic masses)
P2 : 거리행렬평균 고유백터 계수 합 (eigenvector coef f i cient sum from distance matr ix)
P3: 원자 성분상의 평균 정보 지수 (mean informat ion index on atomic composi t ion)
P4: 비교 분자 모멘트 분석 2 사중극자 xx/원자량 가중 (Qxx C0MMA2 value I weighted by atomi c masses)
P5: 수소원자 자기상관 차수 7/원자량 가중 (H autocorrelat ion of lag 6 / Weighted by atomi c masses)
P6 : 수소원자의 평균 결합차수 (Average bond order of a H atom)
376 대 체용지 (규칙 제 26조) P7 : Ghose-Viswanadhan-Wendoloski의 항우을성 지수 (80%차지) (Ghose- V i swanadhan-Wendo 1 osk i antidepressant一 like index at 80%)
P8: 치환된 벤젠 sp2탄소의 수 (number of substituted benzene C(sp2)) P9: R자기상관차수 4/원자 Sanderson전기음성도가중 (R autocorrelation of lag 4 / Weighted by atomic Sanderson electronegativities)
P10: R 자가상관 차수 5/원자 Sanderson 전기음성도 가중 (R autocorrelation of lag 5 I Weighted by atomic Sanderson electronegativities)
PX1: 고리형 2차 sp3탄소의 수 (number of ring secondary C(sp3))
P12: 동경 분포 함수 -4.5/원자 반데르발스 부피 가중 (Radial Distribution Function― 4.5 I weighted by atomic van der aals volumes)
을 포함하는 다중선형회귀 -인공신경망 흔성 QSPR 모델을 통하여 탄화수소 계열 유기화합물의 정상끓는점을구하는방법.
【청구항 24】
제 12항에 있어서, 상기 제 3단계에서 추출된 상기 최적의 분자표현자들은 Ρχ : 거리행렬 평균' 고유백터계수 합 (eigenvector coefficient sum from distance matrix)
P2: 황원자의 수 (number of Sulfur atoms)
P3: Ar-NH2 I X-NH2기능기 수 (Ar-NH2 / X-NH2)
P4: 수소결합의존적 수소결합 기부체 원자의 면적가중 표면전하 분율 (HA dependent HDCA-2/TMSA)
P5: 전기음성도 가중거리행렬 Balaban 타입 지수 (Balaban-type index from
377 대체용지 (규칙 제 26조) electronegat ivity weighted distance matrix)
P6: 부분양전하 표면적 (PPSA-1 Part ial posit ive surface area)
■P7 : 접힘 정도 지수 (folding degree index)
P8 : 이중결합의 상대적인 수 (number of double bonds)
P9 : 수소결합수용체 하전 표면적 분율 (FHACA Fract ional HACA (HACA/TMSA)) P10: 히드톡실기의 수 (number of hydroxy 1 groups)
P : 전자희절기반 3차원 분자구조 표현 -차수 4/원자량 가중 (3D-MoRSE - signal 04 I weighted by atomic masses)
P12 : Onsager-Kirkwood의 용매화 에너지 이미지 ( Image of the Onsager- Kirkwood solvat ion energy)
을 포함하는 다중선형회귀 -인공신경망 흔성 QSPR 모델을 통하여 비탄화수소 계열 유기화합물의 정상끓는점을 구하는 방법
【청구항 25】
다중선형회귀 -인공신경망 혼성 QSPR 모델을 통하여 탄화수소 계열 유기화합물의 정상끓는점을 구하는 방법에 있어서, 분자표현자는
Pt : 전자회절기반 3차원 분자구조 표현 -차수 26/원자량 가중 (3D-MoRSE - signal 26 I weighted by atomic masses)
P2 : 거리행렬평균 고유백터 계수 합 (eigenvector coeff icient sum from distance matrix)
P3: 원자 성분상의 평균 정보 지수 (mean informat ion index on atomic composi t ion)
378 대체용지 (규칙 제 26조) p4 : 비교 분자 모멘트 분석 2 사중극자 xx/원자량 가중 (Qxx C0MMA2 value / weighted by atomic masses)
Ps : 수소원자 자기상관 차수 7/원자량 가증 (H autocorrelation of lag 6 I Weighted by atomic masses)
P6: 수소원자의 평균 결합차수 (Average bond order of a H atom)
P7 : Ghose-Viswanadhan-Wendoloski의 항우울성 지수 (80¾차지) (Ghose-
V i s wanadhan-Wendo 1 osk i antidepressant-1 ike index at 80¾)
P8: 치환된 벤젠 sp2 탄소의 수 (number of substituted benzene C(sp2))
P9: R자기상관차수 4/원자 Sanderson전기음성도 가증 (R autocorrelation of lag 4 I Weighted by atomic Sanderson electronegativities)
P10: R 자기상관 차수 5/원자 Sanderson 전기음성도 가중 (R autocorrelation of lag 5 I Weighted by atomic Sanderson electronegativities)
Pu: 고리형 2차 sp3탄소의 수 (number of ring secondary C(sp3))
P12: 동경 분포 함수 -4.5/원자 반데르발스 부피 가중 (Radial Distribution Function - 4.5 I weighted by atomic van der Waals volumes)
을 포함하는 것을 특징으로 하는 다중선형회귀 -인공신경망 흔성 QSPR모델을 통하여 탄화수소 계열 유기화합물의 정상끓는점을구하는 방법 ᅳ
【청구항 26】
다증선형회귀 -인공신경망 흔성 QSPR 모델을 통하여 비탄화수소 계열 유기화합물의 정상끓는점을구하는 방법에 있어서 분자표현자는
P1 : 거리행렬 평균 고유백터계수 합 (eigenvector coefficient sum from
379 대체용지 (규칙제 26조) distance matrix)
P2: 황원자의 수 (number of Sulfur atoms)
P3: Ar-NH2 I X-NH2기능기 수 (Ar-NH2 I X-NH2)
P4 : 수소결합의존적 수소결합 기부체 원자의 면적가중 표면전하 분율 (HA dependent HDCA-2/TMSA)
P5: 전기음성도 가중거리행렬 Balaban 타입 지수 (Balaban-type index from electronegativity weighted distance matrix)
P6: 부분양전하표면적 (PPSA-1 Partial positive surface area)
P7: 접힘 정도지수 (folding degree index)
P8: 이중결합의 상대적인 수 (number of double bonds)
P9: 수소결합수용체 하전 표면적 분율 (FHACA Fractional HACA (HACA/TMSA)) p10: 히'드톡실기의 수 (number of hydroxy 1 groups)
Ραι : 전자회절기반 3차원 분자구조 표현 -차수 4/원자량 가증 (3으 MoRSE - signal 04 / weighted by atomic masses)
P12 : Onsager-Kirkwood의 용매화 에너지 이미'지 (Image of the Onsager- Kirkwood solvation energy)
을 포함하는 것을 특징으로 하는 다중선형회귀 -인공신경망혼성 QSPR모델을 통하여 비탄화수소 계열 유기화합물의 정상끓는점을구하는 방법.
【청구항 27】
제 1항부터 제 11항까지와 제 23항, 제 25항 중 어느 한 항에 의한 탄화수소 계열 유기화합물의 정상끓는점을 구하는 방법올 컴퓨터에서 실행시키기 위한
380 대체용지 (규칙 제 26조) 프로그램으로 기록하고 컴퓨터로 읽을 수 있는 저장 매체 .
【청구항 28】
제 12항부터 제 22항까지와 제 24항, 제 26항 중 어느 한 항에 의한 비탄화수소 계열 유기화합물의 정상끓는점을 구하는 방법을 컴퓨터에서 실행시키기 위한 프로그램으로 기록하고 컴퓨터로 읽을 수 있는 저장 매체 .
381 대 체 용지 (규칙 제 26조)
PCT/KR2012/007999 2011-10-04 2012-10-04 순수한 화합물의 물리화학적 및 열역학적 성질을 예측,프로세스 및 온라인 서비스하는 모델,방법 및 시스템 WO2012177108A2 (ko)

Applications Claiming Priority (82)

Application Number Priority Date Filing Date Title
KR10-2011-0100799 2011-10-04
KR10-2011-0100800 2011-10-04
KR10-2011-0100796 2011-10-04
KR1020110100795A KR101267376B1 (ko) 2011-10-04 2011-10-04 순수한 유기화합물의 표준상태의 이상기체 절대 엔트로피를 예측하는 다중선형회귀-인공신경망 모형
KR1020110100797A KR101267356B1 (ko) 2011-10-04 2011-10-04 순수한 유기화합물의 표준상태 절대 엔트로피를 예측하는 다중선형회귀-인공신경망 혼성모형
KR1020110100798A KR101267381B1 (ko) 2011-10-04 2011-10-04 순수한 유기화합물의 이온화 에너지를 예측하는 다중선형회귀-인공신경망 혼성모형
KR1020110100800A KR101267418B1 (ko) 2011-10-04 2011-10-04 순수한 유기화합물의 인화 하한 온도를 예측하는 다중선형회귀-인공신경망 혼성모형
KR1020110100796A KR101325097B1 (ko) 2011-10-04 2011-10-04 순수한 유기화합물의 이상기체의 생성 에너지를 예측하는 다중선형회귀-인공신경망 혼성모형
KR10-2011-0100798 2011-10-04
KR10-2011-0100795 2011-10-04
KR10-2011-0100797 2011-10-04
KR1020110100799A KR101267385B1 (ko) 2011-10-04 2011-10-04 순수한 유기화합물의 기화열을 예측하는 svrc 모형
KR1020110101066A KR101267391B1 (ko) 2011-10-05 2011-10-05 유기화합물의 용해지수를 예측하는 다중선형회귀―인공신경망 혼성모형
KR1020110101468A KR101302460B1 (ko) 2011-10-05 2011-10-05 순수한 유기화합물의 액체 열전도율을 예측하는 svrc 모형
KR1020110101472A KR101295861B1 (ko) 2011-10-05 2011-10-05 순수한 유기화합물의 인화 하한 부피 퍼센트를 예측하는 다중선형회귀-인공신경망 혼성모형
KR10-2011-0101066 2011-10-05
KR1020110101474A KR101300629B1 (ko) 2011-10-05 2011-10-05 순수한 유기화합물의 인화 상한 부피 퍼센트를 예측하는 다중선형회귀―인공신경망 혼성모형
KR10-2011-0101067 2011-10-05
KR1020110101068A KR101267408B1 (ko) 2011-10-05 2011-10-05 순수한 유기화합물의 정상끓는점에서의 액체밀도를 예측하는 다중선형회귀-인공신경망 혼성모형
KR1020110101061A KR101289322B1 (ko) 2011-10-05 2011-10-05 순수한 유기화합물의 자기 감수율을 예측하는 다중선형회귀-인공신경망 혼성모형
KR10-2011-0101469 2011-10-05
KR10-2011-0101468 2011-10-05
KR10-2011-0101065 2011-10-05
KR1020110101063A KR101267372B1 (ko) 2011-10-05 2011-10-05 순수한 유기화합물의 수용해도를 예측하는 다중선형회귀-인공신경망 혼성모형
KR10-2011-0101062 2011-10-05
KR1020110101471A KR101300628B1 (ko) 2011-10-05 2011-10-05 순수한 유기화합물의 인화점을 예측하는 다중선형회귀-인공신경망 모형
KR10-2011-0101064 2011-10-05
KR1020110101469A KR101295859B1 (ko) 2011-10-05 2011-10-05 순수한 유기화합물의 기체 열전도율을 예측하는 svrc 모형
KR1020110101475A KR101258859B1 (ko) 2011-10-05 2011-10-05 순수한 화합물의 이상기체의 열용량을 예측하는 다중선형회귀-인공신경망 혼성모형
KR1020110101065A KR101267369B1 (ko) 2011-10-05 2011-10-05 보일 온도 예측을 통해 순수한 유기화합물의 2차 비리얼 계수를 예측하는 수학적 모형
KR10-2011-0101473 2011-10-05
KR10-2011-0101474 2011-10-05
KR10-2011-0101475 2011-10-05
KR10-2011-0101061 2011-10-05
KR10-2011-0101063 2011-10-05
KR10-2011-0101471 2011-10-05
KR1020110101473A KR101313037B1 (ko) 2011-10-05 2011-10-05 순수한 유기화합물의 인화 상한 온도를 예측하는 다중선형회귀-인공신경망 혼성모형
KR1020110101064A KR101267386B1 (ko) 2011-10-05 2011-10-05 순수한 유기화합물의 포화액체밀도를 예측하는 svrc 모형
KR10-2011-0101068 2011-10-05
KR1020110101062A KR101295865B1 (ko) 2011-10-05 2011-10-05 순수한 유기화합물의 옥탄올-물 분배계수를 예측하는 다중선형회귀-인공신경망 혼성모형
KR10-2011-0101472 2011-10-05
KR1020110101067A KR101267373B1 (ko) 2011-10-05 2011-10-05 순수한 유기화합물의 표준상태 생성에너지를 예측하는 다중선형회귀-인공신경망 모형
KR10-2011-0102075 2011-10-06
KR10-2011-0102045 2011-10-06
KR1020110102043A KR101313021B1 (ko) 2011-10-06 2011-10-06 순수한 유기화합물의 굴절률을 예측하는 다중선형회귀―인공신경망 혼성모형
KR10-2011-0102083 2011-10-06
KR1020110102044A KR101313030B1 (ko) 2011-10-06 2011-10-06 순수한 유기화합물의 298k에서의 기화열을 예측하는 다중선형회귀-인공신경망 혼성모형
KR1020110102079A KR101297211B1 (ko) 2011-10-06 2011-10-06 순수한 유기화합물의 파라코르를 예측하는 다중선형회귀-인공신경망 혼성모형
KR1020110102047A KR101313035B1 (ko) 2011-10-06 2011-10-06 순수한 유기화합물의 액체점성도를 예측하는 svrc 모형
KR10-2011-0102048 2011-10-06
KR1020110102048A KR101313036B1 (ko) 2011-10-06 2011-10-06 순수한 화합물의 기체점성도를 예측하는 svrc 모형
KR10-2011-0102044 2011-10-06
KR10-2011-0102080 2011-10-06
KR10-2011-0102043 2011-10-06
KR1020110102045A KR101313031B1 (ko) 2011-10-06 2011-10-06 순수한 유기화합물의 정상끓는점에서의 기화열을 예측하는 다중선형회귀-인공신경망 혼성모형
KR10-2011-0102073 2011-10-06
KR1020110102081A KR101325124B1 (ko) 2011-10-06 2011-10-06 순수한 유기화합물의 표면장력을 예측하는 qspr 모형
KR10-2011-0102077 2011-10-06
KR1020110102046A KR101258863B1 (ko) 2011-10-06 2011-10-06 순수한 화합물의 액체증기압을 예측하는 svrc 모형
KR1020110102074A KR101325103B1 (ko) 2011-10-06 2011-10-06 유기화합물의 임계압력을 예측하는 다중선형회귀-인공신경망 혼성모형
KR1020110102073A KR101325101B1 (ko) 2011-10-06 2011-10-06 순수한 유기화합물의 이심인자를 예측하는 다중선형회귀-인공신경망 혼성모형
KR1020110102042A KR101313026B1 (ko) 2011-10-06 2011-10-06 순수한 유기화합물의 정상끓는점을 예측하는 다중선형회귀-인공신경망 혼성모형
KR10-2011-0102046 2011-10-06
KR10-2011-0102081 2011-10-06
KR1020110102083A KR101325120B1 (ko) 2011-10-06 2011-10-06 순수한 유기화합물의 298.15k에서의 포화액체밀도를 예측하는 다중선형회귀-인공신경망 혼성모형
KR10-2011-0102049 2011-10-06
KR10-2011-0102050 2011-10-06
KR1020110102075A KR101325107B1 (ko) 2011-10-06 2011-10-06 유기화합물의 임계온도를 예측하는 다중선형회귀-인공신경망 혼성모형
KR10-2011-0102082 2011-10-06
KR1020110102078A KR101289323B1 (ko) 2011-10-06 2011-10-06 순수한 유기화합물의 전자 친화도를 예측하는 다중선형회귀모형
KR1020110102082A KR101325125B1 (ko) 2011-10-06 2011-10-06 순수한 유기화합물의 임계부피를 예측하는 다중선형회귀-인공신경망 혼성 모형
KR10-2011-0102074 2011-10-06
KR1020110102080A KR101325117B1 (ko) 2011-10-06 2011-10-06 순수한 유기화합물의 액체의 열용량을 예측하는 svrc 모형
KR1020110102049A KR101300633B1 (ko) 2011-10-06 2011-10-06 순수한 유기화합물의 편극도를 예측하는 다중선형회귀-인공신경망 혼성모형
KR10-2011-0102079 2011-10-06
KR1020110102077A KR101325112B1 (ko) 2011-10-06 2011-10-06 순수한 유기화합물의 융해열을 예측하는 다중선형회귀-인공신경망 혼성모형
KR10-2011-0102047 2011-10-06
KR10-2011-0102078 2011-10-06
KR1020110102050A KR101262045B1 (ko) 2011-10-06 2011-10-06 양자역학 계산 프로그램과 물성정보 예측모듈을 이용하여 일괄처리를 자동화한 방법 및 그 시스템
KR10-2011-0102042 2011-10-06
KR1020110110691A KR101375672B1 (ko) 2011-10-27 2011-10-27 화합물의 물성을 예측하는 방법 및 화합물의 물성을 예측하는 시스템
KR10-2011-0110691 2011-10-27

Publications (2)

Publication Number Publication Date
WO2012177108A2 true WO2012177108A2 (ko) 2012-12-27
WO2012177108A3 WO2012177108A3 (ko) 2013-04-11

Family

ID=47423129

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2012/007999 WO2012177108A2 (ko) 2011-10-04 2012-10-04 순수한 화합물의 물리화학적 및 열역학적 성질을 예측,프로세스 및 온라인 서비스하는 모델,방법 및 시스템

Country Status (1)

Country Link
WO (1) WO2012177108A2 (ko)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110277144A (zh) * 2018-03-15 2019-09-24 国际商业机器公司 使用累积的化学数据创建具有期望性质的新化学化合物以构建用于合成的新化学结构
CN110442953A (zh) * 2019-07-31 2019-11-12 东北大学 基于物理冶金学指导下机器学习的q&p钢的设计方法
CN110610747A (zh) * 2019-10-10 2019-12-24 桂林理工大学 一种基于深度学习的微型化学实验系统及方法
CN111798935A (zh) * 2019-04-09 2020-10-20 南京药石科技股份有限公司 基于神经网络的普适性化合物结构-性质相关性预测方法
CN112686881A (zh) * 2020-11-25 2021-04-20 西安石油大学 基于影像统计特征和lstm复合网络的颗粒物料混合均匀性检测方法
CN112947342A (zh) * 2021-02-26 2021-06-11 四川中烟工业有限责任公司 数据驱动的烟草生丝水分控制系统及控制方法
US20220318863A1 (en) * 2019-06-28 2022-10-06 Covestro Llc Methods for graphical depiction of a value of a property of a material
US20220383992A1 (en) * 2018-07-17 2022-12-01 Kuano Ltd. Machine learning based methods of analysing drug-like molecules
CN116312854A (zh) * 2023-03-06 2023-06-23 杭州以勒标准技术有限公司 一种预测磺胺甲基异恶唑类物质正辛醇水分配系数的方法
CN117423379A (zh) * 2023-12-19 2024-01-19 合肥微观纪元数字科技有限公司 采用量子计算的分子筛选方法及相关装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030005461A (ko) * 2001-07-09 2003-01-23 인포켐스(주) 화학 물질의 데이터베이스구조 및 그 구축방법
KR20090083763A (ko) * 2008-01-30 2009-08-04 주식회사 엘지화학 전기화학적 응용 제품에 사용되는 화학물질 후보군 검색시스템 및 방법
KR20090092017A (ko) * 2008-02-26 2009-08-31 건국대학교 산학협력단 분자 모델링 시뮬레이션 시스템 및 방법
KR20100042453A (ko) * 2008-10-16 2010-04-26 주식회사 엘지화학 디스플레이 소재에 사용되는 화학물질 후보군 검색 시스템 및 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030005461A (ko) * 2001-07-09 2003-01-23 인포켐스(주) 화학 물질의 데이터베이스구조 및 그 구축방법
KR20090083763A (ko) * 2008-01-30 2009-08-04 주식회사 엘지화학 전기화학적 응용 제품에 사용되는 화학물질 후보군 검색시스템 및 방법
KR20090092017A (ko) * 2008-02-26 2009-08-31 건국대학교 산학협력단 분자 모델링 시뮬레이션 시스템 및 방법
KR20100042453A (ko) * 2008-10-16 2010-04-26 주식회사 엘지화학 디스플레이 소재에 사용되는 화학물질 후보군 검색 시스템 및 방법

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110277144A (zh) * 2018-03-15 2019-09-24 国际商业机器公司 使用累积的化学数据创建具有期望性质的新化学化合物以构建用于合成的新化学结构
CN110277144B (zh) * 2018-03-15 2023-05-09 国际商业机器公司 使用累积的化学数据创建具有期望性质的新化学化合物以构建用于合成的新化学结构
US20220383992A1 (en) * 2018-07-17 2022-12-01 Kuano Ltd. Machine learning based methods of analysing drug-like molecules
CN111798935A (zh) * 2019-04-09 2020-10-20 南京药石科技股份有限公司 基于神经网络的普适性化合物结构-性质相关性预测方法
US20220318863A1 (en) * 2019-06-28 2022-10-06 Covestro Llc Methods for graphical depiction of a value of a property of a material
US11854053B2 (en) * 2019-06-28 2023-12-26 Covestro Llc Methods for graphical depiction of a value of a property of a material
CN110442953A (zh) * 2019-07-31 2019-11-12 东北大学 基于物理冶金学指导下机器学习的q&p钢的设计方法
CN110610747A (zh) * 2019-10-10 2019-12-24 桂林理工大学 一种基于深度学习的微型化学实验系统及方法
CN110610747B (zh) * 2019-10-10 2023-08-18 桂林理工大学 一种基于深度学习的微型化学实验系统及方法
CN112686881A (zh) * 2020-11-25 2021-04-20 西安石油大学 基于影像统计特征和lstm复合网络的颗粒物料混合均匀性检测方法
CN112947342A (zh) * 2021-02-26 2021-06-11 四川中烟工业有限责任公司 数据驱动的烟草生丝水分控制系统及控制方法
CN112947342B (zh) * 2021-02-26 2024-03-12 四川中烟工业有限责任公司 数据驱动的烟草生丝水分控制系统及控制方法
CN116312854A (zh) * 2023-03-06 2023-06-23 杭州以勒标准技术有限公司 一种预测磺胺甲基异恶唑类物质正辛醇水分配系数的方法
CN117423379A (zh) * 2023-12-19 2024-01-19 合肥微观纪元数字科技有限公司 采用量子计算的分子筛选方法及相关装置
CN117423379B (zh) * 2023-12-19 2024-03-15 合肥微观纪元数字科技有限公司 采用量子计算的分子筛选方法及相关装置

Also Published As

Publication number Publication date
WO2012177108A3 (ko) 2013-04-11

Similar Documents

Publication Publication Date Title
WO2012177108A2 (ko) 순수한 화합물의 물리화학적 및 열역학적 성질을 예측,프로세스 및 온라인 서비스하는 모델,방법 및 시스템
Varadwaj et al. Halogen bonding: A halogen-centered noncovalent interaction yet to be understood
Lukanov et al. Specific ion effects on the self-assembly of ionic surfactants: a molecular thermodynamic theory of micellization with dispersion forces
Bača et al. On topological indices of a carbon nanotube network
Gao et al. Electron energy studying of molecular structures via forgotten topological index computation
Zen et al. Static and dynamical correlation in diradical molecules by quantum Monte Carlo using the Jastrow antisymmetrized geminal power ansatz
Varadwaj et al. Can combined electrostatic and polarization effects alone explain the F··· F negative-negative bonding in simple fluoro-substituted benzene derivatives? A first-principles perspective
Wegner et al. Feature selection for descriptor based classification models. 2. Human intestinal absorption (HIA)
González‐Díaz et al. Computational chemistry comparison of stable/nonstable protein mutants classification models based on 3D and topological indices
Díaz-Moreno et al. Solvation structure and ion complexation of La3+ in a 1 molal aqueous solution of lanthanum chloride
Basak et al. Prediction of tissue-air partition coefficients: A comparison of structure-based and property-based methods
Callahan et al. Effect of magnesium cation on the interfacial properties of aqueous salt solutions
Low et al. Explainable solvation free energy prediction combining graph neural networks with chemical intuition
Zech et al. Benchmark of excitation energy shifts from frozen-density embedding theory: introduction of a density-overlap-based applicability threshold
Ji et al. Statistical associating fluid theory coupled with restricted primitive model to represent aqueous strong electrolytes: multiple-salt solutions
Aakeröy et al. Computational approaches and sigma-hole interactions: general discussion
Sun et al. Assessing graph‐based deep learning models for predicting flash point
Shinohara et al. Identifying water–anion correlated motion in aqueous solutions through van hove functions
De On molecular topological properties of TiO2 nanotubes
Kirk et al. Beyond energetic and scalar measures: Next generation quantum theory of atoms in molecules
Linker et al. Understanding trends in molecular bond angles
Servis et al. Cluster identification using modularity optimization to uncover chemical heterogeneity in complex solutions
Preiss et al. Predicting the critical micelle concentrations of aqueous solutions of ionic liquids and other ionic surfactants
Du et al. Fusing 2D and 3D molecular graphs as unambiguous molecular descriptors for conformational and chiral stereoisomers
Julietraja et al. Theoretical analysis of superphenalene using different kinds of VDB indices

Legal Events

Date Code Title Description
NENP Non-entry into the national phase in:

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12802976

Country of ref document: EP

Kind code of ref document: A2