KR101267385B1 - SVRC Model Predicting Heat of Vaporization of Pure Organic Compound - Google Patents

SVRC Model Predicting Heat of Vaporization of Pure Organic Compound Download PDF

Info

Publication number
KR101267385B1
KR101267385B1 KR1020110100799A KR20110100799A KR101267385B1 KR 101267385 B1 KR101267385 B1 KR 101267385B1 KR 1020110100799 A KR1020110100799 A KR 1020110100799A KR 20110100799 A KR20110100799 A KR 20110100799A KR 101267385 B1 KR101267385 B1 KR 101267385B1
Authority
KR
South Korea
Prior art keywords
vaporization
heat
model
weighted
boiling point
Prior art date
Application number
KR1020110100799A
Other languages
Korean (ko)
Other versions
KR20120085140A (en
Inventor
조준혁
권오형
권윤경
김양수
성애리
전정재
정원천
박태윤
Original Assignee
주식회사 켐에쎈
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 켐에쎈 filed Critical 주식회사 켐에쎈
Priority to KR1020110100799A priority Critical patent/KR101267385B1/en
Publication of KR20120085140A publication Critical patent/KR20120085140A/en
Priority to PCT/KR2012/007999 priority patent/WO2012177108A2/en
Application granted granted Critical
Publication of KR101267385B1 publication Critical patent/KR101267385B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Optimization (AREA)
  • Genetics & Genomics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Algebra (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Organic Low-Molecular-Weight Compounds And Preparation Thereof (AREA)

Abstract

본 발명은 수소(H), 탄소(C), 질소(N), 산소(O), 황(S) 등 5가지 이내의 원소로 구성되고 수소를 제외한 원자의 개수가 25개 이하인 분자로 이루어진 순수한 유기화합물의 기화열(heat of vaporization)을 높은 정확도로 예측하는 수학적 모형을 제공한다. 상기의 모형은 SVRC(scaled variable reduced coordinate) 모형으로서, SVRC 수식을 통하여 각 온도에서의 기화열의 값을 알 수 있도록 하여 준다. 이 같은 수식계산에는 여러 매개변수들의 값이 필요한데, 이 값들은 각 화합물에 고유하게 주어지는 값들로 본 발명에서는 이들을 얻기 위해, 상기에 언급된 조건을 만족하는 다수의 화합물들의 기화열에 대한 실험값들을 바탕으로 다중선형회귀분석법과 인공신경망기법을 사용하여 각 매개변수들에 대한 QSPR (quantitative structure-property relationship) 예측 모형들을 확립하였다. 따라서 상기의 모형은, 모형에 포함된 분자표현자들의 구체적인 값만 알 수 있다면 그 어떤 분자든, 이 분자로 순수하게 이루어진 화합물의 기화열을 예측하여 준다. 이처럼, 본 발명은 실험값이 알려지지 않은 수많은 상기 조건의 화합물에 대해서도 신뢰할만한 기화열의 값을 예측할 수 있는 방법을 제공하여 줌으로써 실험에 드는 비용과 시간을 절약하게 해주어, 관련 산업의 연구개발활동을 용이하게 하는 등의 효과를 낳는다.The present invention consists of up to five elements such as hydrogen (H), carbon (C), nitrogen (N), oxygen (O), and sulfur (S), and is composed of pure molecules consisting of up to 25 atoms except hydrogen. A mathematical model for predicting the heat of vaporization of organic compounds with high accuracy is provided. The above model is a scaled variable reduced coordinate (SVRC) model, and it is possible to know the value of the heat of vaporization at each temperature through the SVRC equation. Such a calculation requires values of several parameters, which are values uniquely given to each compound. In order to obtain them, the present invention is based on experimental values for the heat of vaporization of a plurality of compounds satisfying the above-mentioned conditions. Multiple linear regression and artificial neural networks were used to establish quantitative structure-property relationship (QSPR) prediction models for each parameter. Therefore, the above model predicts the heat of vaporization of a compound composed purely of this molecule, as long as the specific values of the molecular descriptors included in the model are known. As such, the present invention provides a method for predicting the value of the heat of vaporization that is reliable even for a large number of compounds of the above-mentioned conditions, in which the experimental value is unknown, thereby saving the cost and time required for the experiment, and facilitating the research and development activities of related industries. It produces such effects.

Description

순수한 유기화합물의 기화열을 예측하는 SVRC 모형{SVRC Model Predicting Heat of Vaporization of Pure Organic Compound}SRC Model Predicting Heat of Vaporization of Pure Organic Compound

본 발명은, 물성예측이라는 물리화학의 한 분야에 속하는 것으로 화합물의 여러 물성 중 하나인 기화열을 높은 정확도로 예측하기 위한 방법에 관한 것이다.
The present invention belongs to a field of physical chemistry called physical property prediction and relates to a method for predicting with high accuracy a vaporization heat which is one of several physical properties of a compound.

화합물의 여러 물성의 정확한 값을 구체적으로 아는 것은 그 물질의 용도의 타당성을 검토하거나 합성 및 정제 과정을 설계하고 보관, 운반, 사용, 폐기의 방법과 조건을 설정하는 등, 생산과 소비의 전 과정에 걸친 제반 의사결정 사항들에 결정적이기 때문에 산업적으로나 학문적으로 매우 중요한 문제이다. 관심 있는 화합물의 관심 있는 물성의 값을 가장 정확하게 알 수 있는 방법은 역시 실험이겠으나 정제된 시료의 준비, 정확한 측정을 위한 환경의 구축 등 여러 가지 측면에서 상당한 비용과 시간이 드는 것이 사실이며 경우에 따라서는 불가능할 수도 있다. 따라서, 그 대안으로 오래 전부터 많은 연구자들이 화합물의 여러 물성의 정확한 값을 예측하고자 노력을 기울여 왔다. 이처럼 물성 예측은 오랜 역사를 가지며 끊임 없이 새로운 예측 방법들이 등장하여 현재는 물성 별로 정확도와 적용범위 등이 서로 다른 여러 예측모형들이 공존하고 있는 상황이다.Knowing the exact values of the various properties of a compound specifically involves the entire process of production and consumption, such as reviewing the feasibility of the use of the substance, designing the synthesis and purification processes, and establishing methods and conditions for storage, transport, use and disposal. It is an important issue, both industrially and academically, because it is crucial for all decision making. The most accurate way of knowing the value of the property of interest of the compound of interest is also an experiment, but it is true that it is quite costly and time consuming in many aspects, including the preparation of purified samples and the construction of an environment for accurate measurements. May not be possible. Thus, as an alternative, many researchers have long been trying to predict the exact value of various properties of a compound. As such, the prediction of physical properties has a long history, and new prediction methods are constantly appearing. At present, several prediction models with different accuracy and application range coexist.

본 발명의 관심 물성인 기화열에 대해서도 현재까지 여러 예측모형들이 제안되었다. 기화열(heat of vaporization)이라 함은 순수한 물질이 포화상태, 즉 밀폐된 용기 속에서 기체상태와 액체상태가 평형을 이루며 공존하는 상태에 있을 때 액체상태에서 기체상태로 변화하는데 필요한 1몰 당 에너지를 말한다. 기화열의 예측에 대한 그간의 연구결과들은 문헌[Poling B. E., Prausnitz J. M., O’Connell J. P., The Properties of Gases and Liquids (5 ed .), New York, McGraw Hill, (2000).]에 간략히 소개되어 있다. Several prediction models have been proposed to date for vaporization heat, which is a property of interest of the present invention. The heat of vaporization is the energy per mole needed to change from liquid to gas when pure material is saturated, that is, when gas and liquid co-exist in equilibrium in a closed container. Say. Previous studies on the prediction of vaporization fever have been described in Polling BE, Prausnitz JM, O'Connell JP, The Properties of Gases and Liquids (5 ed .) , New York, McGraw Hill, (2000).].

현재 기화열을 예측하는 모형으로 잘 알려지고 널리 쓰이는 것들은 주로 대응상태의 원리에 기반하여 개발된 수식 모형들이다. Watson 관계식으로 알려진 다음의 수식은 가장 고전적이면서 널리 이용되는 모형으로[Thek R. E., Stiel L. I., AIChE J., 13: 626 (1967).] 임계온도(critical temperature) Tc와 한 참조 온도 Tref에서의 기화열 ΔHref을 이용하여 임의의 온도에 대한 기화열을 계산할 수 있게 해준다. Currently known and widely used models for predicting heat of vaporization are mathematical models developed based on the principle of correspondence. The following equation, known as the Watson relation, is the most classical and widely used model [Thek RE, Stiel LI, AIChE J. , 13: 626 (1967)]. At critical temperature T c and one reference temperature T ref Using the heat of vaporization ΔH ref , we can calculate the heat of vaporization for any temperature.

Figure 112011077369637-pat00001
Figure 112011077369637-pat00001

지수 n의 값으로는 흔히 0.375 나 0.38을 택한다. 이 방법은 정상끓는점 이하에서는 정확도가 떨어지는 것으로 알려졌다.The value of index n is often 0.375 or 0.38. This method is known to be less accurate below the normal boiling point.

Pitzer 등은 임계온도 Tc와 acentric factor ω를 이용하는 또 다른 수식 모형을 제안하였다[Majer V., Svoboda V., Pick J., Heats of Vaporization of Fluids, Studies in Modern Thermodynamics 9, Elsevier, Amsterdam, (1989)]. 이 모형은 0.6 <T/Tc<1.0인 영역에서 다음 식으로 근사시킬 수 있다.Pitzer et al. Proposed another mathematical model using critical temperature T c and acentric factor ω [Majer V., Svoboda V., Pick J., Heats of Vaporization of Fluids, Studies in Modern Thermodynamics 9 , Elsevier, Amsterdam, (1989). This model can be approximated by the following equation in the region 0.6 <T / T c <1.0.

Figure 112011077369637-pat00002
Figure 112011077369637-pat00002

한편 포화증기압(saturated vapor pressure) P와 기체상태와 액체상태의 압축인자(compressibility factor)의 차 ΔZ에 대한 정보를 이용하여 다음과 같은 수식을 통해 기화열을 계산할 수도 있다[Majer V., Svoboda V., Pick J., Heats of Vaporization of Fluids, Studies in Modern Thermodynamics 9, Elsevier, Amsterdam, (1989)].On the other hand, using the information on the ΔZ difference between the saturated vapor pressure (P) and the compressibility factors of the gas and liquid state, the heat of vaporization can be calculated by the following equation [Majer V., Svoboda V. , Pick J., Heats of Vaporization of Fluids, S tudies in Modern Thermodynamics 9, Elsevier, Amsterdam, (1989).

Figure 112011077369637-pat00003
Figure 112011077369637-pat00003

위의 방법들은 모두 기화열을 예측하기 위해 해당화합물의 다른 물성들에 대한 정보를 필요로 한다는 단점이 있다. 기화열의 예측모형을 구축하는데 있어서 대안이 될 수 있는 다른 방법들 중의 하나는 SVRC(scaled variable reduced coordinates) 방법이다. 이 방법은 대응상태의 원리를 기반으로 화합물의 포화상태의 물성들을 다루는 통합된 골격으로서 문헌 [Shaver R. D., Robinson R. L. Jr., Gasem K. A. M., Fluid Phase Equilibria, 64: 141 (1991).]에서 제안되었으나 이 방법을 기화열예측에 적용한 사례는 아직 없다. 이 방법은 기본적으로 한 화합물의 포화물성 Y가 온도 T의 다음과 같은 함수로 주어진다고 가정한다.All of the above methods have the disadvantage of requiring information on other properties of the compound in order to predict the heat of vaporization. One of the alternatives for constructing the predictive model of vaporization fever is the scaled variable reduced coordinates (SVRC) method. This method is an integrated framework that deals with the saturation properties of compounds based on the principle of the corresponding state. Shaver RD, Robinson RL Jr., Gasem KAM, Fluid Phase Equilibria , 64: 141 (1991).], But no such application has been applied to the prediction of vaporization fever. This method basically assumes that the saturation property Y of a compound is given as a function of temperature T.

Figure 112011077369637-pat00004
Figure 112011077369637-pat00004

여기서 θ와 α는 각각 correlating 함수, scaling 지수라고 불리는 양들이며 ε는 일종의 환산온도(reduced temperature)이다. 아래첨자 c와 t는 각각 임계점과 삼중점(triple point)을 의미하는 것으로 Tc, Tt는 각각 임계점과 삼중점에서의 온도를, αc, αt는 각각 임계점과 삼중점에서의 α값을, Yc, Yt는 각각 임계점과 삼중점에서의 물성값을 뜻한다. 또한 A, B, C는 각 물성에 고유하게 주어지는 보편상수들(universal constants)로서 본 발명에서는 기화열을 예측하기 위해 그 값을 각각 1.07068, 0.325, 0으로 정하였으며 αct, 즉 α=αc라고 가정하였다. 위의 수식을 통해 기화열을 계산하기 위해서는 각 화합물에 대한 이와 같은 매개 변수들의 값을 알아야 하는데 이를 해결하는 한가지 방법은 각 매개 변수에 대한 QSPR 예측모형을 확립하는 것이다.Where θ and α are quantities called correlating functions and scaling indices, respectively, and ε is a kind of reduced temperature. The subscripts c and t represent the critical and triple points, respectively, where T c and T t represent the temperature at the critical and triple points, and α c and α t are the α values at the critical and triple points, respectively. c and Y t are the property values at the critical and triple points, respectively. In addition, A, B, and C are universal constants uniquely given to each physical property. In the present invention, in order to predict the heat of vaporization, the values are set to 1.07068, 0.325, and 0, respectively, and α c = α t , that is, α = It is assumed that α c . In order to calculate the heat of vaporization through the above formula, we need to know the values of these parameters for each compound. One way to solve this problem is to establish a QSPR prediction model for each parameter.

QSPR(quantitative structure-property relationship)은 기본적으로 화합물의 물성은 그 분자의 구조적 특성들의 함수라는 가정에서부터 출발하고 있으며 서로 다른 여러 구조적 특성들을 반영하는 다양한 분자표현자(molecular descriptor)들을 이용한다. 현재까지 제안된 분자표현자들의 종류는 수천에 이르며 한 분자내의 탄소나 수소의 개수와 같은 단순한 것들로부터 분자의 모양이나 연결상태, 전기화학적 특성과 같은 복잡한 것들에 이르기까지 수많은 종류의 분자표현자들에 대한 계산법들이 개발되어 있다[Todeschini R., V. Consonni V., Molecular Descriptors for Chemoinformatics : Second , Revised and Enlarged Edition: Volume I/ II , Wiley-VCH, 2009]. QSPR 예측모형은 이러한 분자표현자들 그리고 때로는 이에 더하여 화합물의 다른 물리화학적 물성들(이들 역시 구조적 특성들의 함수이다) 중 일부를 독립변수로 포함하는 함수의 형태로 제시된다. QSPR (quantitative structure-property relationship) basically starts with the assumption that the properties of a compound are a function of the structural properties of the molecule and uses various molecular descriptors that reflect different structural properties. The number of molecular descriptors proposed to date has been thousands, and many kinds of molecular descriptors range from simple ones such as the number of carbons or hydrogens in a molecule to complex ones such as the shape, connection state, and electrochemical properties of molecules. Calculations have been developed for Todeschini R., V. Consonni V., Molecular Descriptors for Chemoinformatics : Second , Revised and Enlarged Edition : Volume I / II , Wiley-VCH, 2009]. The QSPR prediction model is presented in the form of a function that includes some of these molecular descriptors and sometimes, in addition, some of the other physicochemical properties of the compound, which are also functions of structural properties.

이때 이러한 함수의 꼴로 가장 빈번이 채택되는 것은 아래와 같은 표현자 Xi들의 선형 결합 함수이며 각 계수 c0, ci들은 주로 다중선형회귀분석을 통해 실험데이터로부터 결정된다.At this time, the most frequently adopted form of these functions is the linear combination function of the following expressions X i , and each coefficient c 0 , c i is mainly determined from experimental data through multiple linear regression analysis.

Figure 112011077369637-pat00005
Figure 112011077369637-pat00005

QSPR 모형을 만드는 또 다른 방법은 인공신경망을 이용하는 것이다. 인공신경망 기법은 지능을 가진 인간의 신경세포를 모델링하여 인공적으로 지능을 가진 기계를 만들어 보고자 하는 인류의 오랜 연구결과의 하나로서, 20세기 중반에 처음 등장하여 현재 다방면으로 응용되고 있는 정보처리기술이다. 도 4는 인공신경망의 전형적인 한 예를 보여주고 있다. 여기서 볼 수 있듯이, 인공신경망에는 입력 데이터를 수용하는 입력층(input layer)과 출력데이터를 만드는 출력층(output layer), 이들 사이에 위치한 은닉층(hidden layer)이 존재하며 각 층은 하나 이상의 노드(node)들로 구성되어 있다. 은닉층의 각 노드들은 입력층과 출력층의 노드들과 연결되어 있으며 각 연결들에는 가중치(weight)라 불리는 양 wij, w´ij이 부여되어 있다. 은닉층과 출력층의 각 노드들은 전 단계의 노드들로부터 이러한 연결들을 통해 입력을 받은 뒤 이를 가공하여 출력값을 만드는데 이때 활성화 함수(activation function)라 불리는 함수 f1, f2를 적용한다. 이러한 인공신경망을 실제로 활용하려면 먼저, 다양한 입력값과 그 입력값에 대응하는 출력값을 함께 묶어 놓은 샘플집합을 이용하여 인공신경망을 훈련시키는 과정이 필요한데 이는 주어진 입력에 대한 인공신경망의 출력과 원하는 출력의 차이가 최소가 되도록 역전파(back propagation) 알고리즘을 사용하여 각 연결의 가중치를 최적화하는 것을 말한다. 이러한 훈련을 거친 인공신경망은 문제해결에 필요한 규칙이나 지식을 따로 제공하지 않아도 학습을 통해서 스스로 일반적인 규칙을 수립하여 미지의 입력에 대해서도 타당성 있는 출력을 내주므로 화합물의 물성예측과 같이 기반 이론이 결여되어 있는 분야에 매우 유용한 수단으로 널리 이용되고 있다.
Another way to create a QSPR model is to use an artificial neural network. Artificial neural network technology is one of the long-standing research results of human beings who want to make intelligent machines by modeling human nerve cells with intelligence, and is an information processing technology that has been applied in various fields since the mid 20th century. . 4 shows a typical example of an artificial neural network. As can be seen, the artificial neural network has an input layer for receiving input data, an output layer for producing output data, and a hidden layer located between them, each layer having one or more nodes. ) Each node in the hidden layer are connected with the input layer and the output layer nodes, each of the connection has been given a weight (weight), it called the amount w ij, a ij w'. Each node in the hidden and output layers receives input through these connections from the nodes in the previous stage and then processes it to produce an output value. The functions f 1 and f 2 , called activation functions, are applied. In order to actually use such an artificial neural network, first, the neural network is trained using a sample set in which various input values and output values corresponding to the input values are bundled together. This means optimizing the weight of each connection using a back propagation algorithm to minimize the difference. The neural network that has undergone such training does not provide the necessary rules or knowledge to solve the problem, but it establishes general rules through learning and gives valid output for unknown inputs. It is widely used as a very useful means in the field.

본 발명이 이루고자 하는 기술적 과제는 위에서 언급된 여러 기존 모형들의 한계들을 극복하고 보다 폭넓고 보다 정확한 예측성능을 보이는, 수소(H), 탄소(C), 질소(N), 산소(O), 황(S) 등 5가지 이내의 원소로 구성되고, 수소를 제외한 원자의 개수가 25개 이하인 분자로 이루어진 순수한 유기화합물의 기화열에 대한 SVRC 모형을 구축하는 것이다.
The technical problem to be solved by the present invention is to overcome the limitations of the various models mentioned above and to show more broad and more accurate predictive performance, hydrogen (H), carbon (C), nitrogen (N), oxygen (O) and sulfur. The SVRC model is constructed for the heat of vaporization of a pure organic compound composed of up to 5 elements including (S) and molecules having 25 or less atoms except hydrogen.

우리는 보다 많은 실험데이터를 바탕으로 보다 다양한 분자표현자들을 고려하여 SVRC 수식에 포함된 매개변수들의 값을 예측해주는 QSPR 모형들을 구축함으로써 이 목표를 달성하였다. 이것들 중 일부는 다중선형회귀분석과 인공신경망 기법을 적절히 조화시켜 얻어진 다중선형회귀-인공신경망 혼성모형인데 특히 인공신경망은 다중선형회귀모형이 반영할 수 없는 독립변수와 종속변수의 비선형적인 함수관계를 반영할 수 있다는 장점이 있어 보다 높은 예측성능을 가진 모형을 구현할 수 있게 해준다. 그러나 인공신경망은 내부적으로 규칙수립의 자유도가 높아 안정성이 다중선형회귀모형보다 떨어지는 단점이 있다. 본 발명에서는 인공신경망모형의 예측값과 다중선형회귀모형의 예측값이 큰 차이를 보일 때 다중선형회귀모형의 예측값을 채택하는 방법으로 이러한 단점을 보완하여 예측성능과 안정성의 측면에서 다중선형회귀모형과 인공신경망모형의 장점만을 살린 우수한 예측모형을 확립하였다.We achieved this goal by constructing QSPR models that predicted the values of the parameters in the SVRC equation, taking into account a wider variety of molecular descriptors based on more experimental data. Some of these are multilinear regression-artificial neural network hybrid models obtained by combining a combination of multiple linear regression and artificial neural network techniques. Especially, artificial neural networks have a nonlinear functional relationship between independent and dependent variables that cannot be reflected It has the advantage of being able to reflect, which makes it possible to implement a model with higher prediction performance. However, the artificial neural network has a disadvantage in that its stability is lower than that of the multiple linear regression model due to its high degree of freedom in rule setting. In the present invention, when the prediction value of the artificial neural network model and the prediction value of the multiple linear regression model show a large difference, the method of adopting the prediction value of the multiple linear regression model compensates for these shortcomings. We established an excellent prediction model that takes advantage of the neural network model.

예측모형을 적용할 수 있는 화합물의 범위에 위에 언급한 바와 같은 제한을 두는 이유는 주로, 사용된 분자표현자들 중 그 값을 구하기 위해서는 양자역학적 계산이 필요한 것들이 존재하는 경우, 현재의 기술수준으로는 언급된 범위를 넘어서는 화합물에 대해서는 정확도와 계산시간의 측면에서 곤란한 문제가 발행한다는 사실에 기인하고 있다. 그러나 상기의 제한범위 내라 할지라도 대단히 많은 화합물들이 존재하며 산업적으로 중요한 화합물들이 상당부분 포함되므로 본 발명이 인류사회에 큰 유익을 끼칠 수 있을 것으로 판단된다.
The reason for the limitations mentioned above on the range of compounds to which the predictive model can be applied is mainly to the current state of the art, if any of the molecular descriptors used require quantum mechanical calculations to obtain their values. Is due to the fact that for compounds outside the stated range, troubles arise in terms of accuracy and calculation time. However, even within the above limitations, since there are a great many compounds and industrially important compounds are included in a large amount, it is determined that the present invention can greatly benefit human society.

오늘날 인류는 플라스틱, 섬유, 고무, 도료, 비료, 의약품, 연료 등, 방대한 종류의 화합물에 의존하여 살아가고 있으며 이러한 경향은 더욱 심화될 것으로 예상된다. 미국 화학회(ACS)에 따르면 2010년 7월 기준으로 등록된 전체 화합물의 수는 54,000,000개를 넘는다고 한다. 이에 비해 물성값이 한가지라도 실험적으로 알려져 있는 화합물의 수는 고작해야 수만에 지나지 않는다. 화합물의 물성값은 신물질과 신약의 개발, 화학플랜트의 최적 설계, 기존 설비의 생산성 향상, 자원의 개발과 절약, 안전성 확보, 환경보호 등 인류의 보다 나은 물질생활에 필수적인 요소이다. 특히 기화열은 화학플랜트의 최적설계 프로그램으로 잘 알려진 Aspen-Plus 나 Pro/II 와 같은 상용 프로그램이 그 정확한 값을 절실히 요청하는 물성이다. 그러나 현재 그 실험값이 알려진 화합물의 개수는 기껏해야 수천에 불과하며 화합물에 따라서는 독성, 불안정성, 정제의 어려움 등으로 실험을 통하여 데이터를 얻는 작업이 지난한 경우도 있다. 이런 관점에서 실험을 거치지 않고도 분자에 대한 정보만으로 수많은 화합물의 기화열을 높은 정확도로 얻게 해주는 본 발명은 실험에 드는 비용과 시간을 절감해줄 뿐만이 아니라 실험이 불가능한 경우에도 그 값을 짐작하게 해주어 관련 산업의 연구개발활동을 용이하게 함은 물론 더 나아가 학계와 관(官)계 등 그 값을 필요로 하는 모든 곳에 합당한 정보를 제공하여 그 활동을 보다 원활히 수행할 수 있게 해주는 효과를 낳는다 하겠다.
Today, humans depend on a wide variety of compounds, including plastics, fibers, rubber, paints, fertilizers, medicines and fuels, and this trend is expected to intensify. According to the American Chemical Society (ACS), as of July 2010, the total number of compounds registered was over 54,000,000. In comparison, even if the physical property value is only one, the number of experimentally known compounds is only tens of thousands. The physical property value of compounds is essential for the better life of mankind, such as the development of new materials and new drugs, the optimal design of chemical plants, the improvement of the productivity of existing facilities, the development and saving of resources, the securing of safety, and the protection of the environment. In particular, the heat of vaporization is a property that commercial programs such as Aspen-Plus and Pro / II, which are well known as optimal design programs for chemical plants, are urgently requesting the exact values. However, at present, the number of compounds whose experimental values are known is only a few thousand, and depending on the compounds, the work of obtaining data through experiments may be past due to toxicity, instability, and difficulty of purification. From this point of view, the present invention, which can obtain the heat of vaporization of a large number of compounds with high accuracy only through the information on the molecule, does not only reduce the cost and time required for the experiment, but also estimates the value even when the experiment is impossible. In addition to facilitating R & D activities, it will also provide the information that is appropriate to all places that require such values, such as academia and academia, to bring about the effect of making the activities more smoothly.

도 1은 본 발명이 제공하는 기화열에 대한 SVRC 예측모형을 구축하는 과정을 흐름도로 나타낸 도면이다.
도 2는 SVRC 모형에 필요한 매개변수들 중 αc에 대한 다중선형회귀모형을 구축하는 과정을 흐름도로 나타낸 도면이다.
도 3은 SVRC 모형에 필요한 매개변수들 중 ΔHb에 대한 다중선형회귀-인공신경망 혼성모형을 구축하는 과정을 흐름도로 나타낸 도면이다.
도 4는 본 발명에 사용된 인공신경망의 구조를 나타낸 도면이다.
도 5 내지 8은 예로 몇몇 화합물에 대해 기존의 예측방법들 중 Watson모형과 본 발명이 제공하는 예측모형의 예측성능을 비교한 도면들이다.
도 9는 Watson 모형의 29073개의 실험데이터에 대한 히스토그램 도면이다.
도 10은 SVRC 모형의 29073개의 실험데이터에 대한 히스토그램 도면이다.
1 is a flowchart illustrating a process of constructing an SVRC prediction model for a vaporization sequence provided by the present invention.
2 is a flowchart illustrating a process of constructing a multilinear regression model for α c among parameters required for an SVRC model.
3 is a flowchart illustrating a process of constructing a multiple linear regression-artificial neural network hybrid model for ΔH b among parameters required for an SVRC model.
Figure 4 is a view showing the structure of the artificial neural network used in the present invention.
5 to 8 illustrate, for example, a comparison of the predictive performance of the Watson model and the predictive model provided by the present invention for some compounds.
9 is a histogram plot of 29073 experimental data of the Watson model.
10 is a histogram diagram of 29073 experimental data of the SVRC model.

도 1은 기화열에 대한 SVRC 모형을 구축하는 과정을 흐름도로 간략히 표현한 것이다.Figure 1 is a simplified representation of the process of building the SVRC model for the vaporization heat.

SVRC 모형을 구축하는데 있어서 가장 먼저 해야 할 일은 단계 1에 지정된 바와 같이 실험데이터를 수집하고 검토 분류하는 일이다. 본 발명을 위해 각종 논문과 단행본, 인터넷 사이트 등을 망라하여 참고할 수 있는 모든 문헌과 자료에 대한 광범위한 조사를 벌인 결과 3397개 화합물에 대한 125258개의 데이터가 수집되었다. 이렇게 수집된 데이터가 모형을 구축하는데 쓰일 수 있는 진정 타당한 값인지 다방면으로 검토하였는데 실험값이 아니거나 데이터 표기에 오류가 있었거나 동일 화합물의 비슷한 온도에 대한 값들임에도 불구하고 차이가 많이 나거나 가까운 다른 화합물들의 값에 비해 신뢰하기 어려울 정도로 동떨어진 값이거나 분자표현자들에 대한 값들이 당장 준비되기 어려운 화합물에 대한 데이터인 경우 등에 대해 면밀한 분석을 거쳐 데이터를 수정 또는 삭제하여 최종적으로 총 1106개의 화합물들에 대한 34110개의 데이터를 선정하였다. 또한 물성예측모형을 구축할 때, 샘플 화합물들을 탄소와 수소만으로 이루어진 탄화수소(hydrocarbon)들과 그렇지 않은 비탄화수소(nonhydrocarbon)들로 분류하여 따로따로 모형을 세우는 것이 예측성능의 측면에서 더 나았던 그간의 경험에 비추어 전체 데이터를 433개의 탄화수소들에 대한 14463개의 데이터 집합과 673개의 비탄화수소들에 대한 19647개의 데이터 집합으로 나누어 각각 모형을 확립하였다. 또한, 본 발명에서 '유기화합물' 또는 '화합물'은 수소(H), 탄소(C), 질소(N), 산소(O), 황(S) 등 5가지 이내의 원소로 구성되고, 수소를 제외한 원자의 개수가 25개 이하인 분자로 이루어진 물질을 지칭한다.The first thing to do when building an SVRC model is to collect and review the experimental data as specified in step 1. For this invention, 125258 data were collected for 3397 compounds as a result of extensive research on all literatures and data that can be referred to through various papers, books, and Internet sites. The collected data were examined in a variety of ways to determine whether they were truly valid values that could be used to build the model.They were not experimental values, errors in data notation, or values for similar temperatures of the same compound. If the values are too reliably compared to the values, or if the values for the molecular expressions are data about a compound that is difficult to prepare immediately, then the data is corrected or deleted. Data were selected. In addition, when constructing a property prediction model, it was better to classify sample compounds separately into hydrocarbons consisting of carbon and hydrogen and nonhydrocarbons, and to model them separately. In light of this, the model was established by dividing the total data into 14,463 data sets for 433 hydrocarbons and 19,647 data sets for 673 non-hydrocarbons. In the present invention, the 'organic compound' or 'compound' is composed of five elements such as hydrogen (H), carbon (C), nitrogen (N), oxygen (O), and sulfur (S). Refers to a substance consisting of molecules with 25 or fewer atoms excluded.

그 다음 단계는 이들 화합물들에 대한 분자표현자들의 값들을 준비하는 단계이다. 총 1978개에 달하는 다양한 분자표현자들에 대한 값들을 각 화합물들의 분자에 대한 정보를 담은 파일들로부터 컴퓨터를 이용하여 일괄적으로 계산한다. 분자의 전자구조 계산을 하기 위해서는 보통 순이론인 방법으로 슈뢰딩거(Schrodinger) 방정식을 풀어 전자에너지에 대한 해를 구하게 되지만 전자가 많은 계의 경우 전자상관관계(electron correlation)를 무시한 근사법을 적용한 하트리-포크(Hartree-Fock, HF) 방법[C.C. J. Roothan, Rev. Mod. Phys. 23, 69 (1951)]을 사용하여 해를 풀게 된다. 이런 근사법으로 인해 계산된 결과에서 근본적인 오차가 유발되어 다차원의 이론적인 섭동항을 추가한 포스트 하트리-포크(Post Hartree-Fock) 방법[C. Moller and M. S. Plesset, Phys . Rev. 46, 618 (1934)]들을 사용하여 더 정확한 해를 구하긴 하지만 상대적으로 엄청나게 많은 계산량이 요구된다. 이런 방식으로는 큰 분자를 계산하기에는 비용이나 시간의 측면에서 무리가 있는 상황이다.The next step is to prepare the values of the molecular descriptors for these compounds. The values for various molecular descriptors totaling up to 1978 are computed in batches using a computer from files containing information on the molecules of each compound. In order to calculate the electronic structure of molecules, the Schrodinger equation is usually solved by a pure theory method to solve the electron energy. Hartree-Fock (HF) method [CCJ Roothan, Rev. Mod. Phys. 23, 69 (1951)]. This approximation introduces a fundamental error in the calculated results and adds a multidimensional theoretical perturbation term to the Post Hartree-Fock method [C. Moller and MS Plesset, Phys . Rev. 46, 618 (1934)], to obtain a more accurate solution, but require a relatively large amount of computation. In this way, it is too costly or time-consuming to calculate large molecules.

또한 하트리-포크와 포스트 하트리-포크를 조합한 가우시안 방법[L. A. Curtiss, K. Raghavachari, G. W. Trucks, and J. A. Pople, J. Chem. Phys. 94, 7221 (1991); L. A. Curtiss, K. Raghavachari, P. C. Redfern, V. Rassolov, and J. A. Pople, J. Chem. Phys. 109, 7764 (1998)]은 에너지 예측에 있어 아주 적은 오차를 보이지만 여러 포스트 하트리-포크 방법에 대한 에너지 계산을 수행하기 때문에 더 많은 계산량이 요구된다.In addition, the Gaussian method that combines Hartley-Fork and Post Hartley-Fork [L. A. Curtiss, K. Raghavachari, G. W. Trucks, and J. A. Pople, J. Chem. Phys. 94, 7221 (1991); L. A. Curtiss, K. Raghavachari, P. C. Redfern, V. Rassolov, and J. A. Pople, J. Chem. Phys. 109, 7764 (1998) show very little error in energy prediction, but more computation is required because it performs energy calculations for several post-Hartley-Fork methods.

많은 전자로 이루어진 분자에 대한 전자들간의 상관관계를 고려하기 위해 다차원의 섭동항이 추가된 파동함수 대신 전자 밀도함수를 써서 총에너지의 범함수를 이용해서 바닥상태를 구하는 밀도 범함수 이론(density functional theory)[ R. Seeger and J. A. Pople, J. Chem . Phys. 66, 3045 (1977)]을 적용하여 계산했다. 밀도 범함수 이론의 장점은 전자밀도만 고려하면 되므로 하트리-포크(Hartree-Fock) 방법과 비슷한 수준의 계산량으로 더 정확한 결과를 얻어낼 수 있다. 전자들의 교환-상관에너지를 계산을 위해 교환 범함수들과 상관 범함수들의 조합을 사용하여 계산량을 늘이지 않고도 더 향상된 결과를 얻고 있다.Density functional theory is used to find the ground state using the function of the total energy using the electron density function instead of the wave function with the multidimensional perturbation term to consider the correlation between the electrons of the molecules of many electrons. R. Seeger and JA Pople, J. Chem . Phys . 66, 3045 (1977). The advantage of the density functional theory is that the electron density only needs to be taken into account so that more accurate results can be obtained with comparable calculations to the Hartree-Fock method. The combination of exchange functions and correlation functions for calculating the exchange-correlation energy of the electrons is used to obtain more improved results without increasing the calculation amount.

최적의 양자역학 계산방법을 선발하기 위해 선행하여 시도하였던 계산이론은 상기에 언급된 하트리-포크 방법, 다양한 포스트 하트리-포크 방법, 가우시안(G2, G3) 방법, 다양한 범함수 조합의 밀도 범함수 이론 등이다. 이 중에서 계산시간 대비 가장 성능이 우수한 밀도 범함수 이론의 한가지 방법을 선발하였다.The computational theories previously attempted to select an optimal quantum mechanical calculation method are the density ranges of the aforementioned Hartley-Fork method, various Post-Hartley-Fork methods, Gaussian (G2, G3) methods, and various combinations of functional functions. Function theory. Among them, one method of density functional theory, which is the best performance calculation time, was selected.

따라서 본 발명에서는 상용 양자역학 계산 프로그램을 이용하여 지정된 밀도 범함수 이론의 계산방법을 적용하여 분자구조에 대한 최적화 및 진동수 계산을 수행하게 된다.Therefore, in the present invention, the optimization of the molecular structure and the frequency calculation are performed by applying the calculation method of the specified density functional theory using a commercial quantum mechanical calculation program.

최적화된 구조에서는 상기의 물성정보뿐만 아니라 분자의 특성을 반영하는 여러 의미있는 수치로 나타내는 분자표현자(molecular descriptor)들을 얻을 수 있다. 2차원 구조의 특징을 표현할 수 있는 분자표현자들도 있고 3차원 구조의 특징을 표현하는 분자표현자들도 있다. 크게 나누어 총 24개의 범주로 나누고 각 범주에 상세한 표현자들을 포함한다. 분자 표현자 값을 계산한 후에 이들 중 적합하지 않은 것, 즉 모든 샘플 화합물에 대해 값이 동일하게 나와 모형의 독립변수가 될 수 없는 것들을 추려 내었다. 이는 관련 없는 분자표현자가 예측모형에 포함되는 것을 막아 모형의 신뢰도를 높이는 동시에 이렇게 분자표현자의 개수를 줄임으로써 최적 모형을 찾는 데 드는 계산 시간을 줄일 수 있기 때문이다.In the optimized structure, molecular descriptors represented by various meaningful values reflecting the properties of molecules as well as the above-described physical property information can be obtained. Some molecular descriptors can express the characteristics of two-dimensional structures, while others represent the characteristics of three-dimensional structures. Divided into 24 categories, including detailed presenters in each category. After calculating the molecular descriptor values, we picked out those that were not suitable, that is, the values were the same for all sample compounds and could not be independent variables in the model. This is because it prevents irrelevant molecular expressions from being included in the prediction model, thereby increasing the reliability of the model and reducing the computation time required to find the optimal model by reducing the number of molecular expressions.

그 다음인 단계 4는 실험데이터를 토대로 각 매개변수에 대한 QSPR 모형을 확립하는데 필요한 자료를 준비하는 단계이다. SVRC 수식으로 기화열을 계산하기 위해서는 임계점과 삼중점에서의 기화열 ΔHc, ΔHt의 값과 αc의 값이 필요한데 ΔHc는 이론적으로 0으로 놓을 수 있다. 한편 삼중점의 온도를 정확히 예측하는 것은 일반적으로 매우 어려운 일임이 잘 알려져 있으며, 따라서 본 발명에서는 삼중점 대신 정상끓는점의 0.55배(T0 .55b)를 기화열곡선의 시작 온도로 잡았는데, 샘플 화합물들에 대해 이 지점들의 평균은 삼중점의 평균과 거의 일치한다. 이제 SVRC 모형을 완성하기 위해서는 나머지 매개변수들인 αc와 ΔH0 .55b에 대한 QSPR 예측모형을 확립하여야 한다. 이러한 QSPR 예측모형을 확립하기 위해서는 각 매개변수별로 여러 화합물들에 대한 해당 값들의 집합을 마련하여야 하는데, ΔH0 .55b에 대해서는 먼저 기화열의 전형적인 곡선을 각 화합물의 실험데이터에 맞춘 뒤, 그 곡선에서 온도가 T0 .55b가 되는 지점의 값을 취하였으며, αc에 대해서는 실험데이터로부터 비선형방정식의 수치해법을 통하여 아래의 식에서 α의 값을 각 온도에 대해 구한 뒤, 이러한 값들이 이루는 선에서 온도가 Tc인 지점의 값을 취하였다.Step 4 is followed by preparing data needed to establish a QSPR model for each parameter based on the experimental data. In order to calculate the heat of vaporization by the SVRC equation, the values of the heat of vaporization ΔH c , ΔH t and α c at the critical and triple points are required. ΔH c can theoretically be set to zero. Meanwhile, to accurately predict the temperature of the triple point is very difficult and generally entrusted well known, and therefore in the present invention, I got to the starting temperature of the heat of vaporization curve to 0.55 times (T 0 .55b) instead of the normal boiling point of the triple point, the sample compound The mean of these points is about the same as the mean of the triple points. Now, in order to complete the SVRC model should be established for QSPR predictive models for α c and ΔH 0 .55b, which are the remaining parameters. In order to establish such a QSPR prediction model to be provided a set of the values of the various parameters for each compound, the typical curve of the first evaporation heat for ΔH 0 .55b rear fit to the experimental data of the compounds, in the curve It was the temperature takes the value of the point where the T 0 .55b, α c for the rear from the experimental data using a numerical solution of nonlinear equations, obtaining the value α in the equation below for each temperature, the temperature in line these values forming The value of the point at which is T c is taken.

Figure 112011077369637-pat00006
Figure 112011077369637-pat00006

이렇게 QSPR 예측모형을 확립하기 위한 자료로 쓰기 위해 한 화합물의 실험데이터로부터 각 매개변수들의 값을 구할 수 있으려면 그 화합물의 실험데이터가 비교적 넓은 온도 범위에 걸쳐 고루 분포하면서 데이터에 노이즈(noise)가 적어야 하는데 상대적으로 이런 조건을 만족하는 실험데이터가 존재하는 화합물들의 개수는 많지 않으므로 실제 각 매개변수의 QSPR 예측모형에 샘플로 참여하는 화합물의 개수는 전체 화합물의 개수보다 상당히 줄어들게 된다.In order to be able to obtain the value of each parameter from the experimental data of a compound to use as a data for establishing the QSPR prediction model, the experimental data of the compound is distributed evenly over a relatively wide temperature range, Since the number of compounds with relatively few experimental data satisfying these conditions exists, the number of compounds participating in the QSPR prediction model of each parameter is significantly reduced than the total number of compounds.

단계 5는 각 매개변수에 대한 QSPR 모형을 구축하는 단계이다. 본 발명에서는 이러한 QSPR 모형으로, αc에 대해서는 다중선형회귀모형을, ΔH0 .55b에 대해서는 다중선형회귀-인공신경망 혼성모형을 채택하였다. 도 2는 다중선형회귀모형을 구축하는 과정을, 도 3은 다중선형회귀-인공신경망 혼성모형을 구축하는 과정을 흐름도로 간략히 표현한 것이다. 그 구체적인 세부 단계들은 다음과 같다.Step 5 is to build a QSPR model for each parameter. In the present invention, such QSPR model, the multiple linear regression models for the α c, multiple linear regression for ΔH 0 .55b - adopted a hybrid artificial neural network model. 2 is a flowchart illustrating a process of constructing a multiple linear regression model, and FIG. 3 is a process of constructing a multiple linear regression-artificial neural network hybrid model. The specific detailed steps are as follows.

먼저 세부 단계 1에서는 샘플 화합물들을 예측모형을 탐색하는데 사용할 훈련집합(training set)과 결정된 모형의 예측성능을 시험하는데 사용할 시험집합(test set), 이렇게 두 부분으로 나누는 작업을 진행한다. 유사한 분자들이 한쪽 부분에만 치우쳐 분포하지 않도록 주의하면서 샘플 탄화수소들과 비탄화수소들을 5:5 ~ 8:2, 바람직하게는 6 대 4의 비율로 각각 나누었다.In detail step 1, the sample compounds are divided into two parts: the training set used to explore the predictive model, and the test set used to test the predicted performance of the determined model. Sample hydrocarbons and non-hydrocarbons were divided between 5: 5 and 8: 2, preferably 6 to 4, taking care not to distribute similar molecules on one side only.

이후 훈련집합을 토대로 최선의 다중선형회귀모형(multiple linear regression model)을 찾는다. 여기서 ‘최선’이라 함은 상대적인 의미로서 비교적 짧은 시간 내에 구할 수 있으면서 절대적인 의미에서의 최적 해에 매우 근접한 성능을 갖는다는 의미로 쓰여진 것이다. 최적 해를 직접 구하지 않는 이유는 긴 계산시간 때문인데 예를 들어 1978개의 분자표현자들 중 적합한 분자표현자들의 개수가 1700개일 때, 이 중에서 5개를 뽑아 만들 수 있는 서로 다른 다중선형회귀모형들의 총 개수는

Figure 112011077369637-pat00007
이며 이들을 다 조사하는 것은 현실적으로 불가능하다.We then find the best multiple linear regression model based on the training set. The term 'best' is used in the sense of relative meaning that it can be obtained in a relatively short time and has a performance very close to the optimal solution in the absolute sense. The reason for not finding the optimal solution directly is because of the long computation time. For example, when there are 1700 suitable molecular representations out of 1978 molecular representations, you can choose from five different linear regression models. The total number is
Figure 112011077369637-pat00007
It is practically impossible to investigate them all.

한정된 시간 내에 유용한 결과를 얻기 위해 본 발명에서는 유전적 알고리즘(genetic algorithm) [Judson, "Genetic Algorithms and Their Uses in Chemistry", Reviews in Computational Chemistry, Lipkowitz & Boyd, Eds., Vol.10, pp.1-73 (VCH Publishers, NY, 1997)]을 채택하였으며 그 상세한 방법은 다음과 같다. 먼저 분자표현자들의 풀(pool)에서 일정한 개수의 분자표현자들을 무작위로 뽑아 만든 다수의 다중선형회귀모형들로 구성된 개체군(population)을 생성한다. 예를 들어 1700개의 적합한 분자표현자들 중 5개를 무작위로 뽑아 만든 1000개의 서로 다른 다중선형회귀모형들로 개체군을 만들었다고 하자.In order to obtain useful results within a limited time, the present invention uses a genetic algorithm [Judson, "Genetic Algorithms and Their Uses in Chemistry", Reviews in Computational Chemistry, Lipkowitz & Boyd, Eds., Vol. 10, pp. 1 -73 (VCH Publishers, NY, 1997)]. First, a population of multiple linear regression models is created by randomly drawing a certain number of molecular descriptors from a pool of molecular descriptors. For example, let's say we created a population of 1000 different polylinear regression models that were randomly drawn from 5 of the 1700 suitable molecular descriptors.

이때 염색체(chromosome)라 불리는 각 개체(individual)들은 뽑힌 분자표현자들의 번호들을 조합하여 부호화한다. 예를 들어 1700개의 분자표현자중 45, 167, 684, 1033, 1502번째의 분자표현자들로 형성한 다중선형회귀모형의 염색체는 (45, 167, 684, 1033, 1502)와 같이 표현할 수 있다. 이렇게 생성된 개체군으로부터 두 개의 부모 염색체를 선택한 뒤 교배(crossover)하여 자식들을 만들어 내는데 본 발명에서는 부모 염색체를 선택하는 선택기법으로 Roulette Wheel 방법을 채택하였다.Individuals, called chromosomes, are coded by combining the numbers of extracted molecular descriptors. For example, the chromosome of the multiple linear regression model formed by the 45th, 167, 684, 1033, and 1502th molecular descriptors among 1700 molecular descriptors can be expressed as (45, 167, 684, 1033, 1502). Two parent chromosomes are selected from the populations thus generated and crossed over to generate children. In the present invention, the Roulette Wheel method is adopted as a selection method for selecting the parent chromosomes.

Roulette Wheel 방법은 일반적으로 가장 많이 사용하는 선택 알고리즘으로 각 염색체의 적합도(fitness)에 비례하는 만큼 룰렛의 영역을 그 염색체에 할당한 다음, 룰렛을 돌려 해당된 영역의 염색체를 선택하는 방법이다. 따라서 이 방법에서는 적합도가 높은 개체일수록 선택될 확률이 높다. 선택확률을 결정짓는 각 염색체의 적합도 계산에는 회귀모형의 결정계수(coefficient of determination: R2) 또는 평균절대오차(average absolute error: AAE)를 활용하였다. 즉 결정계수값이 크거나 평균절대오차값이 작은 것이 선택확률이 높도록 하였다.The Roulette Wheel method is the most commonly used selection algorithm, which allocates a roulette region to the chromosome in proportion to the fitness of each chromosome, and then rotates the roulette to select the chromosome of the corresponding region. Therefore, in this method, the higher the fit, the more likely it is to be selected. The coefficient of determination (R 2 ) or average absolute error (AAE) of the regression model was used to calculate the fitness of each chromosome to determine the selection probability. In other words, the larger the coefficient of determination or the smaller the mean absolute error, the higher the probability of selection.

교배방법으로는 단순교배(single point crossover)법을 채택하였는데 이는 가장 일반적인 교배 방법으로서 부모 염색체에서 임의로 1개의 교배점을 선택하여 그 지점 전후의 염색체부분을 서로 교환함으로써 자식을 생성하는 것을 말한다. 예를 들어 부모 염색체가 각각 (24, 262, 343, 789, 1290), (38, 454, 554, 1322, 1449)와 같이 주어지고 3번째와 4번째 요소 사이에 교배점이 놓이게 되면 자식 염색체는 각각 (24, 262, 343, 1322, 1449), (38, 454, 554, 789, 1290)와 같이 된다. The single point crossover method is adopted as the breeding method. The most common breeding method is to generate a child by selecting one crossing point on the parent chromosome and exchanging chromosomal parts before and after the point. For example, if the parent chromosome is given as (24, 262, 343, 789, 1290), (38, 454, 554, 1322, 1449), and there is a crossing point between the third and fourth elements, then the child chromosomes are (24, 262, 343, 1322, 1449), (38, 454, 554, 789, 1290).

이렇게 자식들이 생성되면 이들의 염색체 일부를 일정 확률로 돌연변이(mutation) 시키는 과정을 거치는데 이는 임의로 몇 개의 요소를 전혀 새로운 값으로 바꾸는 것으로 현재 집단에 존재하지 않는 새로운 정보로 초기 유전자 조합 이외의 공간을 탐색할 수 있게 해주어 초기 집합의 조합 내에 적절한 해가 없을 경우를 보완해주는 과정이다.When the offspring are created, they have a chance of mutating a portion of their chromosomes, which randomly replaces several elements with completely new values. This new information does not exist in the current population. It is a process that makes it possible to search to compensate for the case where there is no proper solution in the initial set combination.

이 같은 방법으로 새로이 구해진 개체들로 기존 개체군의 일부 또는 전부를 교체하여 새 세대의 개체군을 생성한다. 이 과정을 반복하여 그 세대수가 미리 정한 값(보통 10~1000사이에서 선택)에 이르면 가장 적합도가 큰 개체, 즉 예측성능이 가장 좋은 회귀모형을 선택하고 끝낸다.In this way, a new generation of populations are created by replacing some or all of the existing populations with newly obtained entities. Repeat this process until the number of generations reaches a pre-determined value (usually between 10 and 1000), and then select and end up the regression model with the best predictive performance.

일단 이렇게 최선의 다중선형회귀모형이 선정되면 다음 단계로 이 모형의 타당성을 검토한다. 만일 모형에 포함된 분자표현자의 t검정값이 좋지 않다든지 하는 문제점이 발견되면 이전 단계로 돌아가 다른 모형을 찾는다. 예를 들어 샘플 화합물의 수가 1005이고 선정된 모형이 5개의 분자표현자로 구성되어 있을 경우 그 중 한 분자표현자에 대한 t검정값이 3.3이상이면 이는 이 분자표현자가 해당 물성과 무관할 확률이 0.1%이하임을 뜻한다. 본 발명에서는 대략 3미만의 t검정값을 갖는 분자표현자가 존재할 경우 선정된 모형을 버리고 다른 모형을 찾았다. 또한 샘플 화합물들에 대한 한 분자표현자의 값들이 소수의 몇몇 화합물들을 제외하고는 모두 동일한 경우도 신뢰성 있는 모형이라고 볼 수 없어 마찬가지로 조처하였다. 일반적으로 모형에 포함되는 분자표현자의 개수를 늘리면 예측성능은 높아지지만 이와 같은 문제들이 발생하게 되므로 보통 최종 모형은 이 단계들을 분자표현자의 개수를 바꿔가며 여러 번의 시행착오를 거쳐 반복 수행함으로써 얻어진다. 선정된 모형에 더 이상 문제가 나타나지 않으면 다음 단계로 넘어간다.Once this best multiple linear regression model has been selected, the next step is to examine its validity. If a problem is found that the t-test value of the molecular descriptors included in the model is not good, go back and look for another model. For example, if the number of sample compounds is 1005 and the selected model consists of five molecular descriptors, if the t-test for one of the molecular descriptors is 3.3 or higher, then the probability that the molecular descriptor is irrelevant to that property is 0.1 It means less than%. In the present invention, when there is a molecular presenter having a t-test value of less than about 3, the selected model is discarded and another model is found. In addition, even if the values of the molecular descriptors for the sample compounds are the same except for a few few compounds, they are not considered to be reliable models. In general, increasing the number of molecular expressions included in the model increases the predictive performance, but such problems occur. Therefore, the final model is usually obtained by repeating these steps through several trials and errors while changing the number of molecular expressions. If the problem no longer appears in the selected model, proceed to the next step.

세부 단계 4에서는 모형을 형성하는데 참여하지 않았던 시험집합을 이용하여 찾아낸 모형의 예측성능을 평가한다. 만일 훈련집합에서 보다 예측성능이 많이 떨어지거나 예측이 크게 벗어나는 샘플들이 보이는 등의 문제점이 발견되면 세부 단계 1로 가서 훈련집합과 시험집합을 재조정한 뒤 이후 세부 단계를 진행한다. 여기서 훈련집합과 시험집합의 차이가 훈련집합에 대해서 얻은 절대평균오차(AAE)의 20%를 넘지 않으면 예측성능이 만족되는 것으로 판단한다.In detail step 4, the predictive performance of the found model is evaluated using a test set that did not participate in forming the model. If a problem is found in the training set, such as a lot of poor predictive performance or a significant drop in prediction, go to detail step 1, readjust the training set and the test set, and then proceed with the detailed steps. If the difference between the training set and the test set does not exceed 20% of the absolute mean error (AAE) obtained for the training set, it is judged that the predictive performance is satisfied.

SVRC 수식에 필요한 매개변수들 중 αc에 대해서는 이렇게 구축된 다중선형회귀모형을 최종 예측모형으로 채택하였으나, 다중선형회귀-인공신경망 혼성모형을 최종 예측모형으로 채택한 ΔH0 .55b에 대해서는 다음의 과정이 추가된다.Although adoption of the parameters required for the formula parameters α c SVRC multiple linear regression model thus establishing a final predictive model, multiple linear regression - ANN hybrid model for the ΔH 0 .55b adopted a final prediction model follows the Is added.

먼저 이미 구축된 다중선형회귀모형으로부터 인공신경망모형을 구축하기 위해 분자표현자들의 데이터와 매개변수의 데이터를 표준화하는 작업, 즉 각 값에서 해당 데이터의 평균을 뺀 뒤 표준편차로 나누는 작업을 진행한다. 이렇게 준비된 전체 샘플을 대략 6:2:2의 비율로 훈련집합(training set), 검증집합(validation set), 시험집합(test set)으로 나눈다.First of all, in order to construct an artificial neural network model from the already constructed multiple linear regression model, the standardization of the data of the molecular presenters and the parameter data is performed. . The entire sample thus prepared is divided into a training set, a validation set, and a test set in an approximately 6: 2: 2 ratio.

이후 이들을 사용하여 최선의 인공신경망모형을 탐색한다. 이때 탐색 범위는 도 4에서처럼 입력층과 출력층 사이에 한 개의 은닉층을 가지면서 이 3개 층이 전방향으로(feed forward), 즉 입력에서 출력으로 향하는 방향으로만 연결되어 있는 구조를 갖는 신경망으로 제한하였다. 입력층은 이미 확립되어 있는 다중선형회귀모형에 포함된 각 분자표현자들의 값을 입력 받는, 같은 개수만큼의 노드들로 구성하였으며 출력층은 기화열을 출력하는 한 개의 노드로 구성하였다. 또한 은닉층의 활성화 함수로는 Sigmoid 함수 즉 f1(x)=(1+e-x)-1을, 출력층의 활성화 함수로는 선형함수 즉 f2(x)=x를 채택하였다. 따라서 입력층의 각 노드들이 받는 입력값들을 I1, I2, …, Il라 할 때 은닉층의 j번째 노드의 출력값은

Figure 112012105447648-pat00008
와 같이 주어지며 은닉층이 m개의 노드로 이루어져 있을 때 출력층 출력노드의 최종 출력값은
Figure 112012105447648-pat00009
와 같이 주어진다. 여기서 T는 문턱 가중치(threshold weight)를 의미한다.We then use them to find the best artificial neural network model. At this time, the search range is limited to a neural network having a hidden layer between the input layer and the output layer as shown in FIG. 4 and having three structures connected only in a feed forward direction, that is, in a direction from the input to the output. It was. The input layer is composed of the same number of nodes that receive the values of the molecular descriptors included in the already established multilinear regression model, and the output layer is composed of one node that outputs the vaporization sequence. In addition, the sigmoid function f 1 (x) = (1 + e -x ) -1 is adopted as the activation function of the hidden layer, and the linear function f 2 (x) = x is adopted as the activation function of the output layer. Therefore, input values received by each node of the input layer are I 1 , I 2 ,... , I l , the output value of node j of hidden layer is
Figure 112012105447648-pat00008
When the hidden layer consists of m nodes, the final output value of the output layer output node is
Figure 112012105447648-pat00009
As shown in Fig. Here T denotes a threshold weight.

탐색은 은닉노드의 수가 1개인 것부터 차례로 개수를 늘려가며 진행하는데 보통 입력노드 개수의 2배가 될 때까지 진행하지만 만족스러운 모형이 나오지 않을 경우 더 진행하여 탐색한다. 자세한 절차는 다음과 같다. 먼저 은닉노드의 각 개수 별로, 난수 발생 함수를 써서 생성한 가중치 T, wij, w´ij들의 다양한 초기값세트(보통 1000세트이내)를 마련하고, 훈련집합을 사용하여 각 세트로 초기화된 신경망을 역전파 알고리즘을 통해 반복 훈련함으로써 가중치 T, wij, w´ij들의 최적화된 값을 찾는다. 최적화에 대한 판단은 매 훈련 후 경신된 가중치들의 값으로 정해지는 모형을 검증집합에 적용하였을 때 그 평균제곱오차(mean square error)의 값이 최소가 되는 것으로 한다. 보통은 3000~5000번의 반복훈련 내에 이러한 시점이 나오게 된다. 이렇게 얻어진 각 초기값세트에 대응하는 최적화된 신경망모형을 훈련집합, 검증집합, 시험집합에 각각 적용하여 그 평균제곱오차들이 모두 다중선형회귀모형의 그것들보다 작은 것만을 모은다. 이러한 것이 여러 개 있을 경우, 결정계수나 평균절대오차 등을 기준으로 가장 우수한 모형을 선택한다.The search proceeds from increasing the number of hidden nodes to one in order. Usually, the search proceeds to twice the number of input nodes. However, if a satisfactory model is not found, the search proceeds further. The detailed procedure is as follows. First, for each number of hidden nodes, various initial value sets (usually 1000 sets or less) of weights T, w ij , and w´ ij generated by using a random number generation function are prepared, and a neural network initialized with each set using a training set. Iteratively trains through the backpropagation algorithm to find the optimized values of the weights T, w ij , w´ ij . The judgment of the optimization is that the mean square error is minimized when the model, which is determined by the updated weights after each training, is applied to the test set. Normally this will occur within 3000 to 5000 repetitions. The optimized neural network model corresponding to each set of initial values thus obtained is applied to the training set, the test set, and the test set, respectively, to collect only those whose mean square errors are smaller than those of the multiple linear regression model. If there are several of these, choose the best model based on the coefficient of determination or the absolute absolute error.

이렇게 인공신경망모형이 선정되면 마지막으로 과적합(overfitting) 방지기준을 설정한다. 이는 과도한 훈련의 결과로 인공신경망이 미지의 입력에 대해 엉뚱한 답을 내놓는 불안정성을 개선하기 위한 조처로, 한 기준값(정상끊는점 0.55배인 온도에서의 기화열의 경우 탄화수소에 대해서는 0.7167 kcal/mol, 비탄화수소에 대해서는 2.3889 kcal/mol)을 정하여 인공신경망모형과 다중선형회귀모형의 예측값들 차이의 절대값이 기준값을 넘을 경우 다중선형회귀모형의 예측값을 채택하고 이보다 작을 경우 인공신경망모형의 값을 채택하게 하는 것을 말한다.When the artificial neural network model is selected, an overfitting prevention standard is finally set. This is a measure to improve the instability that the artificial neural network gives wrong answers to unknown inputs as a result of excessive training. For this, we set 2.3889 kcal / mol) to adopt the predictive value of the multiple linear regression model when the absolute value of the difference between the predicted values of the neural network model and the multiple linear regression model exceeds the reference value. Say that.

이 같은 과정을 거쳐 각 매개변수에 대한 QSPR 모형이 구축되면 다음으로 단계 6에서는 기화열에 대한 각 화합물의 실험데이터 전체를 SVRC 수식을 통해 계산된 값과 비교하는 테스트를 진행한다. 이때 SVRC 수식으로 예측값을 계산하려면 정상끓는점과 임계온도 및 정상끓는점에서의 기화열 ΔHb의 값 등이 필요한데 이 정보에 대해서는 이미 알려져 있는 값 또는 QSPR 모형에 근거한 계산 방법에 의해서 구한 값을 활용하였다. 만일 실험값과 예측값의 오차가 용인할 수 있는 수준보다 클 경우(예측오차가 실험평균오차보다 큰 경우가 대략 10%이상일 때), 단계 5로 돌아가 각 매개변수들에 대한 QSPR 모형을 다시 잡는다. 테스트를 통과한 경우 이를 완성된 SVRC 모형으로 채택한다.After this process, the QSPR model for each parameter is constructed. Next, in step 6, a test is performed to compare the entire experimental data of each compound for the heat of vaporization with the value calculated by the SVRC equation. At this time, to calculate the predicted value by SVRC equation, the normal boiling point, the critical temperature, and the value of the heat of vaporization ΔH b at the normal boiling point are required. For this information, a value obtained by a known method or a calculation method based on the QSPR model is used. If the difference between the experimental and predicted values is greater than the acceptable level (approximately 10% more than the predicted error is greater than the experimental mean error), go back to step 5 and re-establish the QSPR model for each parameter. If it passes the test, it is adopted as the completed SVRC model.

이러한 과정을 거쳐 확립된 SVRC 모형에 대한 결과는 표 1~6에 간략히 정리되어 있다. 표 1 및 2는 각각 탄화수소에 대한 ΔH0 .55b, αc의 값을 예측하는 QSPR 모형을 간단히 기술한 것이며 이들을 바탕으로 탄화수소의 기화열을 예측하는 SVRC 모형과 그 성능에 대한 결과는 표 3에 나와 있다. 또한 비탄화수소에 대한 ΔH0 .55b, αc의 값을 예측하는 QSPR 모형은 표 4 및 5에 각각 기술되어 있다. 이렇게 확립된 비탄화수소의 기화열을 예측하는 SVRC 모형과 그 성능에 대한 결과는 표 6에 나와 있다.The results for the SVRC model established through this process are summarized in Tables 1-6. Tables 1 and 2 results for SVRC model and its ability to predict the heat of vaporization of the hydrocarbon with them on will briefly describe the QSPR model for predicting the value of ΔH 0 .55b, α c for each of the hydrocarbon is provided in Table 3 have. Also QSPR model for predicting the value of ΔH 0 .55b, α c for non-hydrocarbons is described respectively in Tables 4 and 5. The SVRC model for predicting the heat of vaporization of non-hydrogenated hydrogen and the results of its performance are shown in Table 6.

탄화수소의 ΔH0 .55b에 대한 QSPR 예측모델의 주요 내용The main contents of QSPR predictive models for hydrocarbons of ΔH 0 .55b 샘플 화합물들의 개수Number of sample compounds 383383 분자표현자들의 개수Number of molecular descriptors 1010 분자표현자들의 이름Names of Molecular Presenters P1: D 총 접근지수/원자적 전자위상 상태 가중(D total accessibility index / weighted by atomic electrotopological states)
P2: 정상끓는점(Normal boiling point)
P3: 동경 분포 함수-6.0/비가중(Radial Distribution Function - 6.0 / unweighted)
P4: 전자회절기반 3차원 분자구조 표현-차수11/원자 반데르발스 부피 가중(3D-MoRSE - signal 11 / weighted by atomic van der Waals volumes)
P5: 공명적분 가중 모서리 인접행렬 고유값14
P6: 동경 분포 함수-11.5/원자량 가중(Radial Distribution Function - 11.5 / weighted by atomic masses)
P7: 동경 분포 함수-15.0/원자량 가중(Radial Distribution Function - 15.0 / weighted by atomic masses)
P8: 고리의 상대적인 수(Relative number of rings)
P9: 위상학적 전하 지수 차수6(topological charge index of order 6)
P10: 전자회절기반 3차원 분자구조 표현-차수10/원자 편극도 가중(3D-MoRSE - signal 10 / weighted by atomic polarizabilities)
P 1 : D total accessibility index / weighted by atomic electrotopological states
P 2 : Normal boiling point
P 3 : Radial Distribution Function-6.0 / unweighted
P 4 : 3D molecular representation of electron diffraction-based 3D-MoRSE-signal 11 / weighted by atomic van der Waals volumes
P 5 : Resonance integral weighted edge adjacent matrix eigenvalue 14
P 6 : Radial Distribution Function-11.5 / weighted by atomic masses
P 7 : Radial Distribution Function-15.0 / weighted by atomic masses
P 8 : Relative number of rings
P 9 : topological charge index of order 6
P 10 : 3D-MoRSE-signal 10 / weighted by atomic polarizabilities
회귀모형 결정계수Regression Model Decision Coefficients 0.99370.9937 회귀모형 AAERegression Model AAE 0.2685Kcal/mol0.2685 Kcal / mol 회귀모형Regression model

Figure 112011077369637-pat00010
Figure 112011077369637-pat00010
인공신경망 결정계수Artificial Neural Network Determination Coefficient 0.99680.9968 인공신경망 AAEArtificial Neural Network AAE 0.1832Kcal/mol0.1832 Kcal / mol 인공신경망모형Artificial Neural Network Model
Figure 112011077369637-pat00011
Figure 112011077369637-pat00011
과적합 방지기준Overconformity Prevention Criteria 0.7167Kcal/mol0.7167 Kcal / mol

탄화수소의 αc에 대한 QSPR 예측모델의 주요 내용Highlights of QSPR Prediction Model for Hydrocarbon α c 샘플 화합물들의 개수Number of sample compounds 383383 분자표현자들의 개수Number of molecular descriptors 1010 분자표현자들의 이름Names of Molecular Presenters P1: 최고준위 점유 분자궤도 - 1 에너지(HOMO-1 energy)P2: R--CR--R 기능기 수(R--CR--R)P3: Ghose-Viswanadhan-Wendoloski의 항우울성 지수 (80% 차지)(Ghose-Viswanadhan-Wendoloski antidepressant-like index at 80%)P4: 지렛대 가중 자기상관 차수6/원자량 가중(leverage-weighted autocorrelation of lag 6 / Weighted by atomic masses)P5: Moran의 자기상관 차수6/원자량 가중(Moran autocorrelation - lag 6 / Weighted by atomic masses)P6: ΔHb/ΔH0.55b, ΔHb는 정상끓는점에서의 기화열P7: 비말단 sp 탄소의 수(number of non-terminal C(sp))P8: Burden 행렬의 최고 고유값6/원자 Sanderson 전기음성도 가중(highest eigenvalue n. 6 of Burden matrix / weighted by atomic Sanderson electronegativities)P9: R 최대 자기상관 차수1/원자량 가중(R maximal autocorrelation of lag 1 / Weighted by atomic masses)P10: 쌍극자모멘트 가중 모서리 인접행렬 고유값12P 1 : highest occupied molecular orbital-1 energy (HOMO-1 energy) P 2 : R--CR--R number of functional groups (R--CR--R) P 3 : antidepressant of Ghose-Viswanadhan-Wendoloski (Ghose-Viswanadhan-Wendoloski antidepressant-like index at 80%) P 4 : leverage-weighted autocorrelation of lag 6 / Weighted by atomic masses P 5 : Moran autocorrelation-lag 6 / Weighted by atomic masses P 6 : ΔH b / ΔH 0.55b , ΔH b is the heat of vaporization at normal boiling point P 7 : Number of non-terminal sp carbons (number of non-terminal C (sp)) P 8 : highest eigenvalue n. 6 of Burden matrix / weighted by atomic Sanderson electronegativities P 9 : R maximum autocorrelation order R / maximal autocorrelation of lag 1 / Weighted by atomic masses P 10 : Dipole moment weighted edge adjacent matrix eigenvalue 12 결정계수Coefficient of determination 0.27580.2758 평균절대오차Mean Absolute Error 0.045940.04594 모형model

Figure 112012105447648-pat00012
Figure 112012105447648-pat00012

탄화수소에 대한 SVRC 예측모델의 주요 내용Highlights of the SVRC Prediction Model for Hydrocarbons 샘플 화합물들의 개수Number of sample compounds 433433 실험데이터의 개수Number of experiment data 1446314463 결정계수Coefficient of determination 0.9920.992 평균절대오차Mean Absolute Error 0.2423Kcal/mol0.2423 Kcal / mol 모형model

Figure 112011077369637-pat00013
Figure 112011077369637-pat00013

비탄화수소의 ΔH0 .55b에 대한 QSPR 예측모델의 주요 내용The main contents of QSPR predictive models for ΔH 0 .55b of the non-hydrocarbon 샘플 화합물들의 개수Number of sample compounds 645645 분자표현자들의 개수Number of molecular descriptors 1515 분자표현자들의 이름Names of Molecular Presenters P1: 위상거리5 O-O 결합의 존재여부
P2: 위상거리10 C-C 결합의 존재여부
P3: 질소원자의 상대적인 수
P4: Moran의 자기상관 차수1/원자량 가중(Moran autocorrelation - lag 1 / Weighted by atomic masses)
P5: 최소 순원자전하
P6: 수소원자의 최소 순원자전하
P7: 동경 분포 함수-7.0/비가중(Radial Distribution Function - 7.0 / unweighted)
P8: 정상끓는점
P9: 모서리도 가중 모서리 인접행렬 고유값15
P10: 수소원자의 최소 부분전하
P11: 수소결합의존적 수소결합 기부체 원자의 면적가중 표면전하(HA dependent HDCA-2)
P12: 위상거리3 O-O 결합의 존재여부
P13: 총 4차 sp3 탄소의 수
P14: 수소결합의존적 수소결합 기부체 원자의 면적가중 표면적 분율(HA dependent HDSA-2/TMSA)
P15: 산소원자의 평균 친전자 반응지수
P 1 : presence of phase distance 5 OO coupling
P 2 : presence of phase distance 10 CC coupling
P 3 : relative number of nitrogen atoms
P 4 : Moran autocorrelation-lag 1 / Weighted by atomic masses
P 5 : Minimum Net Atomic Charge
P 6 : Minimum net atomic charge of hydrogen atom
P 7 : Radial Distribution Function-7.0 / unweighted
P 8 : Normal boiling point
P 9 : Eigenvalues of edge diagram weighted edge adjacency matrix 15
P 10 : minimum partial charge of hydrogen atom
P 11 : area-weighted surface charge of hydrogen bond-dependent hydrogen bond base atoms (HA dependent HDCA-2)
P 12 : presence of phase distance 3 OO coupling
P 13 : total number of quaternary sp3 carbons
P 14 : area-weighted surface area fraction of hydrogen bond-dependent hydrogen bond base atoms (HA dependent HDSA-2 / TMSA)
P15: Average electrophilic response index of oxygen atom
회귀모형 결정계수Regression Model Decision Coefficients 0.96030.9603 회귀모형 AAERegression Model AAE 0.5746Kcal/mol0.5746 Kcal / mol 회귀모형Regression model

Figure 112011077369637-pat00014
Figure 112011077369637-pat00014
인공신경망 결정계수Artificial Neural Network Determination Coefficient 0.97040.9704 인공신경망 AAEArtificial Neural Network AAE 0.4983Kcal/mol0.4983 Kcal / mol 인공신경망모형Artificial Neural Network Model
Figure 112011077369637-pat00015
Figure 112011077369637-pat00015
과적합 방지기준Overconformity Prevention Criteria 2.3889Kcal/mol2.3889 Kcal / mol

비탄화수소의 αc에 대한 QSPR 예측모델의 주요 내용Main Contents of QSPR Prediction Model for α c in Unhydrogenated Hydrogen 샘플 화합물들의 개수Number of sample compounds 507507 분자표현자들의 개수Number of molecular descriptors 1515 분자표현자들의 이름Names of Molecular Presenters P1: R 최대 자기상관 차수2/원자 반데르발스 부피 가중(R maximal autocorrelation of lag 2 / Weighted by atomic van der Waals volumes)
P2: 1차 성분접근지향적 가중 포괄불변분자 지수/원자 편극도 가중(1st component accessibility directional WHIM index / weighted by atomic polarizabilities)
P3: 위상거리7 O-O 결합의 존재여부(presence/absence of O - O at topological distance 07)
P4: R 최대 자기상관 차수4/비가중
(R maximal autocorrelation of lag 4 / Unweighted)
P5: 위상거리5 O-O 결합의 존재여부
(presence/absence of O - O at topological distance 05)
P6: 전자회절기반 3차원 분자구조 표현-차수8/비가중
(3D-MoRSE - signal 08 / unweighted)
P7: 쌍극자모멘트 가중 모서리 인접행렬 고유값7
P8: O..S간 기하학적 거리의 합
(sum of geometrical distances between O..S)
P9: ΔHb/ΔH0 .55b, ΔHb는 정상끓는점에서의 기화열
P10: 산소원자의 최소 친핵성 반응 지수
P11: 수소원자 자기상관 차수7/원자량 가중(H autocorrelation of lag 6 / Weighted by atomic masses)
P12: 2차 알코올의 수(number of secondary alcohols)
P13: 분자 쌍극자의 총 점전하 성분(Total point-charge component of the molecular dipole)
P14: R#N / R=N- 기능기 수(R#N / R=N-)
P15: 위상거리6 O-O 결합의 빈도(frequency of O - O at topological distance 06)
P 1 : R maximal autocorrelation of lag 2 / Weighted by atomic van der Waals volumes
P 2 : 1st component accessibility directional WHIM index / weighted by atomic polarizabilities
P 3 : Presence / absence of O-O at topological distance 07
P 4 : R max autocorrelation order 4 / unweighted
(R maximal autocorrelation of lag 4 / Unweighted)
P 5 : Presence of phase distance 5 OO coupling
(presence / absence of O-O at topological distance 05)
P 6 : 3D molecular structure representation based on electron diffraction-order 8 / weighted
(3D-MoRSE-signal 08 / unweighted)
P 7 : Dielectric moment weighted edge adjacent matrix eigenvalue 7
P 8 : Sum of geometric distances between O..S
(sum of geometrical distances between O..S)
P 9: ΔH b / ΔH 0 .55b, ΔH b is the heat of vaporization from the normal boiling point
P 10 : minimum nucleophilic response index of oxygen atom
P 11 : H autocorrelation of lag 6 / Weighted by atomic masses
P 12 : number of secondary alcohols
P 13 : Total point-charge component of the molecular dipole
P 14 : R # N / R = N- number of functional groups (R # N / R = N-)
P 15 : Frequency of O-O at topological distance 06
결정계수Coefficient of determination 0.45320.4532 평균절대오차Mean Absolute Error 0.10730.1073 모형model

Figure 112011077369637-pat00016
Figure 112011077369637-pat00016

비탄화수소에 대한 SVRC 예측모델의 주요 내용Main Contents of SVRC Prediction Model for Unhydrogenated Hydrogen 샘플 화합물들의 개수Number of sample compounds 673673 실험데이터의 개수Number of experiment data 1964719647 결정계수Coefficient of determination 0.96880.9688 평균절대오차Mean Absolute Error 0.4379kcal/mol0.4379 kcal / mol 모형model

Figure 112011077369637-pat00017
Figure 112011077369637-pat00017

본 발명이 기존 기술보다 우월함을 보이기 위해 1067개 화합물의 29073개의 실험데이터에 대해 본 발명의 SVRC 모형과 널리 사용되는 기존 모형의 하나로서 위에 언급되었던 Watson 모형의 예측성능을 비교하였다. 그 결과 Watson 모형은 0.872981의 결정계수값과 1.9211kcal/mol의 평균절대오차값을 보인 반면, 본 발명의 SVRC 모형은 0.98489의 결정계수값과 0.3219kcal/mol의 평균절대오차값을 보여 현저히 우수함을 알게 되었다. 도 5~8은 예로 몇몇 화합물에 대해 각 모형의 예측성능을 비교한 도면들이다. 이 도면들로부터 SVRC 모형이 기존 모형보다 우수한 성능을 가짐을 눈으로 확인할 수 있다. 한편 29073개의 실험데이터에 대해 실험값과 예측값 사이의 오차를 히스토그램으로 그린 것이 도 9, 10이다. 이 도면들은, Watson 모형은 81.73%, SVRC 모형은 99.88%의 확률로 3kcal/mol의 오차 이내로 기화열을 예측하고 있음을 보여주어 SVRC 모형이 보다 정확함을 증명해준다.
In order to show that the present invention is superior to the existing technology, the predictive performance of the Watson model described above was compared with the SVRC model of the present invention and 29073 experimental data of 1067 compounds as one of the widely used conventional models. As a result, the Watson model showed a coefficient of 0.872981 and an average absolute error value of 1.9211kcal / mol, whereas the SVRC model of the present invention showed a remarkably superior value of 0.98489 and an average absolute error of 0.3219kcal / mol. I learned. 5 to 8 are examples for comparing the predictive performance of each model for some compounds. From these drawings, it can be seen that the SVRC model has better performance than the existing model. Meanwhile, FIGS. 9 and 10 illustrate the histogram of the error between the experimental value and the predicted value for 29073 experimental data. These figures demonstrate that the SVRC model is more accurate, showing that the Watson model has a probability of 81.73% and the SVRC model has a probability of 99.88% within 3 kcal / mol of error.

본 발명은 상기한 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형실시가 가능한 것은 물론, 그와 같은 변경은 청구범위 기재의 범위 내에 있게 된다.
The present invention is not limited to the above-described embodiments, and any person having ordinary skill in the art to which the present invention pertains may make various modifications without departing from the gist of the present invention as claimed in the claims. Such changes are intended to fall within the scope of the claims.

Claims (30)

수집된 샘플 유기화합물들 중 탄화수소 계열의 실험데이터를 입력하는 제1단계;
샘플 화합물들의 탄화수소 계열 유기화합물의 기화열에 대한 분자표현자값을 준비하고 독립변수가 될 수 없는 분자표현자를 제거하는 분자표현자의 적합성을 검토하는 제2단계;
하기 식(1)에 기재되어 있는 SVRC 수식에 필요한 매개변수를 구하는 제3단계:
Figure 112012105447648-pat00018

[여기서 ΔH 는 기화열, ΔH0.55b는 정상끓는점의 0.55배인 온도( T0.55b)에서의 기화열, αc는 스케일링 지수, T는 온도, Tc 는 임계온도];
상기 제3단계에서 얻은 상기 매개변수 정상끓는점의 0.55배인 온도에서의 기화열, αc에 대한 QSPR 모형을 구축하는 제4단계;
상기 실험 데이터로 예측성능을 테스트하는 제5단계;
상기 제5단계의 테스트를 만족하면 탐색된 모형에 의한 기화열 예측값을 기화열 값으로 채택하고, 만족하지 못하면 제4단계, 제5단계를 반복하는 제6단계를 포함하는 SVRC 모형에 의해서 탄화수소 계열 유기화합물의 기화열을 구하는 방법.
A first step of inputting experimental data of hydrocarbon series among collected sample organic compounds;
A second step of preparing a molecular descriptor value for the heat of vaporization of the hydrocarbon-based organic compound of the sample compounds and examining the suitability of the molecular descriptor for removing the molecular descriptor that cannot be an independent variable;
A third step of obtaining the parameters required for the SVRC equation described in equation (1) below:
Figure 112012105447648-pat00018

[Where ΔH is the heat of vaporization, ΔH 0.55b is the heat of vaporization at a temperature T 0.55b that is 0.55 times the normal boiling point, α c is the scaling index, T is the temperature, and T c is the critical temperature];
A fourth step of constructing a QSPR model for the heat of vaporization, α c , at a temperature of 0.55 times the normal boiling point of the parameter obtained in the third step;
A fifth step of testing predictive performance with the experimental data;
When satisfying the test of the fifth step, the hydrocarbon-based organic compound by the SVRC model including the sixth step of adopting the vaporization heat prediction value of the searched model as the vaporization heat value and not satisfied, repeating the fourth and fifth steps. To get the heat of vaporization.
제1항에 있어서, 상기 제4단계에서 상기 정상끓는점의 0.55배인 온도에서의 기화열에 대한 QSPR 모형을 구하는 방법은
상기 정상끓는점의 0.55배인 온도에서의 기화열, αc각각에 대한 최적의 분자표현자들을 추출하는 제4-0단계;
훈련집합과 시험집합으로 실험데이터를 분리하는 제4-1단계;
훈련집합에 대하여 최적의 다중선형회귀모형을 탐색하는 제4-2단계;
선택된 모형의 타당성을 검토하는 제4-3단계;
상기 제4-3단계에서 타당성이 없으면, 상기 제4-2단계, 제4-3단계를 반복하고, 타당성이 있으면 시험집합에 대하여 모형의 예측성능을 테스트하는 제4-4단계;
시험집합에 대한 상기 제4-4단계 테스트에서 성능이 기준을 만족하지 못하면 제4-2단계 내지 제4-4단계를 반복하고, 성능이 기준을 만족하면 샘플 표준화 후 3개 집합으로 분리하는 제4-5단계;
전체 샘플을 3개 집합으로 나눈 후에 최적의 인공신경망모형을 탐색하는 제4-6단계;
상기 제4-5단계에서 성능 테스트를 만족하는 상기 최적의 다중선형회귀모형에 의해서 구한 정상끓는점의 0.55배인 온도에서의 기화열 예측값과 상기 제4-6단계에서 탐색된 상기 최적의 인공신경망모형에 의해서 구한 정상끓는점의 0.55배인 온도에서의 기화열 예측값 차이의 절대값을 미리 설정된 과적합 방지 기준값과 비교하는 제4-7단계;
상기 차이가 상기 과적합 방지 기준값 보다 크면 상기 제4-5단계에서 얻은 다중선형회귀모형에 의한 정상끓는점의 0.55배인 온도에서의 기화열 예측값을 정상끓는점의 0.55배인 온도에서의 기화열 값으로 채택하고 상기 과적합 방지 기준값 보다 작으면 상기 제4-6단계에서 탐색된 인공신경망모형에 의한 정상끓는점의 0.55배인 온도에서의 기화열 예측값을 정상끓는점의 0.55배인 온도에서의 기화열 값으로 채택하는 제4-8단계를 포함하고,
상기 제4-0단계에서 αc에 대한 QSPR 모형을 구하는 방법은
상기 제4-1단계 내지 제4-4단계와 시험집합에 대한 상기 제4-4단계 테스트에서 성능이 기준을 만족하지 못하면 제4-2단계 내지 제4-4단계를 반복하고, 성능이 기준을 만족하면 최적의 다중선형회귀모형으로 결정하는 제4-5-1단계;
상기 제4-5-1단계에서 성능 테스트를 만족하는 상기 선형회귀 모형을 통하여 αc값을 구하는 제4-6-1단계를 포함하는 SVRC 모형에 의해서 탄화수소 계열 유기화합물의 기화열을 구하는 방법.
The method of claim 1, wherein the method for obtaining a QSPR model for the heat of vaporization at a temperature of 0.55 times the normal boiling point in the fourth step is
Step 4-0 of extracting optimal molecular descriptors for each of the heat of vaporization and α c at a temperature of 0.55 times the normal boiling point;
Step 4-1 separating the experimental data into a training set and a test set;
Step 4-2 of searching for an optimal multiple linear regression model for the training set;
Steps 4-3 to review the validity of the selected model;
Step 4-3, if the validity in step 4-3, and repeats step 4-2, step 4-3, and if valid, step 4-4 of testing the predictive performance of the model against the test set;
If the performance does not meet the criteria in the 4-4 test for the test set, repeat steps 4-2 to 4-4, and if the performance satisfies the criteria, separate the data into three sets after sample standardization. 4-5 steps;
Step 4-6 of dividing the entire sample into three sets and searching for an optimal artificial neural network model;
The vaporization heat prediction value at a temperature of 0.55 times the normal boiling point obtained by the optimal multiple linear regression model satisfying the performance test in steps 4-5 and the optimal artificial neural network model found in steps 4-6. A fourth step of comparing the absolute value of the difference in the estimated heat of vaporization at a temperature of 0.55 times the normal boiling point with a preset overfit prevention reference value;
If the difference is greater than the reference value for preventing overfitting, the estimated heat of vaporization at the temperature of 0.55 times the normal boiling point by the multiple linear regression model obtained in steps 4-5 is adopted as the heat of vaporization at the temperature of 0.55 times the normal boiling point. If it is smaller than the sum prevention reference value, steps 4-8 of adopting the predicted vaporization heat value at a temperature of 0.55 times the normal boiling point by the artificial neural network model detected in steps 4-6 as the vaporization heat value at a temperature of 0.55 times the normal boiling point. Including,
The method of obtaining the QSPR model for α c in step 4-0 is
If the performance does not meet the criteria in the above-described steps 4-1 to 4-4 and the test set 4-4 for the test set, the steps 4-2 to 4-4 are repeated, and the performance is the standard. Step 4-5-1 to determine the optimal multiple linear regression model if satisfied;
Method for obtaining the heat of vaporization of the hydrocarbon-based organic compound by the SVRC model comprising the step 4-6-1 to obtain the α c value through the linear regression model that satisfies the performance test in the step 4-5-1.
제2항에 있어서, 상기 제4-0단계에서 최적의 분자표현자는 모든 샘플 화합물에 대해 값이 동일하지 않은 독립적인 분자표현자인 것을 특징으로 하는 SVRC 모형에 의해서 탄화수소 계열 유기화합물의 기화열을 구하는 방법.
3. The method of claim 2, wherein the optimal molecular descriptor in step 4-0 is an independent molecular descriptor whose values are not the same for all sample compounds. .
제2항에 있어서, 상기 제4-1단계에서 훈련집합과 시험집합은 5:5 ~ 8:2의 비율로 나누는 것을 특징으로 하는 SVRC 모형에 의해서 탄화수소 계열 유기화합물의 기화열을 구하는 방법.
The method of claim 2, wherein the training set and the test set are divided by a ratio of 5: 5 to 8: 2 in step 4-1.
제2항에 있어서, 상기 제4-2단계에서 상기 다중선형회귀 모형은 상기 훈련집합에 대하여 유전적 알고리즘(genetic algorithm)을 적용하여 선형회귀모형을 탐색하는 것을 특징으로 하는 SVRC 모형에 의해서 탄화수소 계열 유기화합물의 기화열을 구하는 방법.
3. The hydrocarbon-based method of claim 2, wherein the multilinear regression model is searched for a linear regression model by applying a genetic algorithm to the training set in step 4-2. How to find the heat of vaporization of organic compounds.
제5항에 있어서, 상기 유전적 알고리즘(genetic algorithm)은 분자표현자들의 풀(pool)에서 일정한 개수의 분자표현자들을 무작위로 뽑아 만든 다수의 다중선형회귀모형들로 구성된 개체군(population)을 생성하는 단계; 각 개체(individual)들은 뽑힌 분자표현자들의 번호들을 조합하여 부호화하는 단계; 생성된 개체군으로부터 룰렛휠(Roulette Wheel) 방법에 의해서 두 개의 부모 염색체를 선택한 뒤 단순교배(single point crossover)법에 의하여 자손들을 생성하는 단계; 생성된 자손들의 염색체 일부를 일정 확률로 돌연변이(mutation) 시킨 뒤 기존 개체군의 일부를 이들로 교체하여 새 개체군을 생성하는 단계를 포함하는 것을 특징으로 하는 SVRC 모형에 의해서 탄화수소 계열 유기화합물의 기화열을 구하는 방법.
The method of claim 5, wherein the genetic algorithm generates a population composed of a plurality of multiple linear regression models randomly drawn from a predetermined number of molecular expressions in a pool of molecular expressions. Making; Encoding each individual by combining the numbers of the extracted molecular presenters; Selecting two parent chromosomes from the created population by the Roulette Wheel method and generating offspring by a single point crossover method; Obtaining the heat of vaporization of hydrocarbon-based organic compounds by the SVRC model comprising the step of mutating a portion of the chromosome of the generated offspring with a certain probability and then replacing a part of the existing population with them to generate a new population. Way.
제2항에 있어서, 상기 제4-2단계는 회귀모형의 결정계수 또는 평균절대오차에 의해서 예측성능을 판단하는 것을 포함하는 SVRC 모형에 의해서 탄화수소 계열 유기화합물의 기화열을 구하는 방법.
The method of claim 2, wherein the step 4-2 is to obtain the heat of vaporization of the hydrocarbon-based organic compound by the SVRC model comprising determining the predictive performance by the coefficient of determination or the mean absolute error of the regression model.
제2항에 있어서, 상기 제4-3단계에서 타당성은 t검정값에 의해서 타당성을 결정하는 SVRC 모형에 의해서 탄화수소 계열 유기화합물의 기화열을 구하는 방법.
The method of claim 2, wherein the validity in the step 4-3 is to determine the heat of vaporization of the hydrocarbon-based organic compound by the SVRC model to determine the validity by the t-test value.
제2항에 있어서, 상기 제4-5단계에서 훈련집합과 시험집합의 차이가 훈련집합에 대해서 얻은 절대평균오차(AAE)의 20%를 넘지 않으면 다중선형회귀모형이 결정되고, 훈련집합과 시험집합의 차이가 훈련집합에 대해서 얻은 절대평균오차(AAE)의 20%를 넘으면 훈련집합과 시험집합을 다시 분류하는 SVRC 모형에 의해서 탄화수소 계열 유기화합물의 기화열을 구하는 방법.
3. The method of claim 2, wherein in step 4-5, if the difference between the training set and the test set does not exceed 20% of the absolute mean error (AAE) obtained for the training set, the multiple linear regression model is determined. If the difference is more than 20% of the absolute mean error (AAE) obtained for the training set, then the heat of vaporization of the hydrocarbon-based organic compound is obtained by the SVRC model that reclassifies the training set and the test set.
제2항에 있어서, 상기 제4-6단계에서 상기 인공신경망에 의한 탐색범위는 입력층과 출력층 사이에 하나의 은닉층을 가지며 전방향(feed forward)으로 만 연결되어 있는 것을 특징으로 하는 SVRC 모형에 의해서 탄화수소 계열 유기화합물의 기화열을 구하는 방법.
[4] The SVRC model of claim 2, wherein the search range by the artificial neural network in step 4-6 has one hidden layer between the input layer and the output layer and is connected only in a feed forward. A method of obtaining the heat of vaporization of a hydrocarbon-based organic compound by
제10항에 있어서, 상기 은닉층의 활성화 함수로는 시그모이드(Sigmoid) 함수를 사용하는 것을 특징으로 하는 SVRC 모형에 의해서 탄화수소 계열 유기화합물의 기화열을 구하는 방법.
The method of claim 10, wherein the activation function of the hidden layer is a sigmoid function to obtain a heat of vaporization of a hydrocarbon-based organic compound by an SVRC model.
제2항에 있어서, 상기 제4-7단계에서 정상끓는점의 0.55배인 온도에서의 기화열 에 대한 상기 과적합 방지 기준값은 0.7167 kcal/mol인 것을 특징으로 하는 SVRC 모형에 의해서 탄화수소 계열 유기화합물의 기화열을 구하는 방법.
According to claim 2, wherein the overfit prevention reference value for the heat of vaporization at the temperature of 0.55 times the normal boiling point in the step 4-7 is 0.7167 kcal / mol characterized in that the heat of vaporization of the hydrocarbon-based organic compound by the SVRC model How to obtain.
제2항에 있어서, 상기 제4-0단계에서 상기 정상끓는점의 0.55배인 온도에서의 기화열 에 대하여 추출된 분자표현자는
P1: D 총 접근지수/원자적 전자위상 상태 가중(D total accessibility index / weighted by atomic electrotopological states),
P2: 정상끓는점(Normal boiling point),
P3: 동경 분포 함수-6.0/비가중(Radial Distribution Function - 6.0 / unweighted),
P4: 전자회절기반 3차원 분자구조 표현-차수11/원자 반데르발스 부피 가중(3D-MoRSE - signal 11 / weighted by atomic van der Waals volumes),
P5: 공명적분 가중 모서리 인접행렬 고유값14(Eigenvalue 14 from edge adjacency matrix weighted by resonance integrals),
P6: 동경 분포 함수-11.5/원자량 가중(Radial Distribution Function - 11.5 / weighted by atomic masses),
P7: 동경 분포 함수-15.0/원자량 가중(Radial Distribution Function - 15.0 / weighted by atomic masses),
P8: 고리의 상대적인 수(Relative number of rings),
P9: 위상학적 전하 지수 차수6(topological charge index of order 6) 및
P10: 전자회절기반 3차원 분자구조 표현-차수10/원자 편극도 가중(3D-MoRSE - signal 10 / weighted by atomic polarizabilities)을 포함하고,
상기 αc 에 대하여 추출된 분자표현자는
P1: 최고준위 점유 분자궤도 - 1 에너지(HOMO-1 energy),
P2: R--CR--R 기능기 수(R--CR--R),
P3: Ghose-Viswanadhan-Wendoloski의 항우울성 지수 (80% 차지)(Ghose-Viswanadhan-Wendoloski antidepressant-like index at 80%),
P4: 지렛대 가중 자기상관 차수6/원자량 가중(leverage-weighted autocorrelation of lag 6 / Weighted by atomic masses),
P5: Moran의 자기상관 차수6/원자량 가중(Moran autocorrelation - lag 6 / Weighted by atomic masses),
P6: ΔHb/ΔH0.55b, ΔHb는 정상끓는점에서의 기화열,
P7: 비말단 sp 탄소의 수(number of non-terminal C(sp)),
P8: Burden 행렬의 최고 고유값6/원자 Sanderson 전기음성도 가중(highest eigenvalue n. 6 of Burden matrix / weighted by atomic Sanderson electronegativities),
P9: R 최대 자기상관 차수1/원자량 가중(R maximal autocorrelation of lag 1 / Weighted by atomic masses),
P10: 쌍극자모멘트 가중 모서리 인접행렬 고유값12(Eigenvalue 12 from edge adjacency matrix weighted by dipole moments)를 포함하는 것을 특징으로 하는 SVRC 모형에 의해서 탄화수소 계열 유기화합물의 기화열을 구하는 방법.
According to claim 2, wherein in the step 4-0 molecular expression extracted for the heat of vaporization at a temperature of 0.55 times the normal boiling point
P 1 : D total accessibility index / weighted by atomic electrotopological states,
P 2 : normal boiling point,
P 3 : Radial Distribution Function-6.0 / unweighted,
P 4 : 3D-MoRSE-signal 11 / weighted by atomic van der Waals volumes
P 5 : Eigenvalue 14 from edge adjacency matrix weighted by resonance integrals,
P 6 : Tokyo Distribution Function-11.5 / Radial Distribution Function-11.5 / weighted by atomic masses,
P 7 : radial distribution function-15.0 / weighted by atomic masses,
P 8 : Relative number of rings,
P 9 : topological charge index of order 6 and
P 10 : includes electron diffraction-based three-dimensional molecular structure representation-order 10 / atomic polarization weighting (3D-MoRSE-signal 10 / weighted by atomic polarizabilities),
The molecular expression extracted for the α c is
P 1 : highest level occupied molecular orbital-1 energy (HOMO-1 energy),
P 2 : R--CR--R number of functions (R--CR--R),
P 3 : Ghose-Viswanadhan-Wendoloski antidepressant-like index at 80%,
P 4 : leverage-weighted autocorrelation of lag 6 / Weighted by atomic masses,
P 5 : Moran autocorrelation-lag 6 / Weighted by atomic masses,
P 6 : ΔH b / ΔH 0.55b , ΔH b is the heat of vaporization at the normal boiling point,
P7: number of non-terminal C (sp),
P8: highest eigenvalue n. 6 of Burden matrix / weighted by atomic Sanderson electronegativities,
P9: R maximal autocorrelation of lag 1 / Weighted by atomic masses,
P10: A method of obtaining the heat of vaporization of a hydrocarbon-based organic compound by an SVRC model, comprising an Eigenvalue 12 from edge adjacency matrix weighted by dipole moments.
제1항 내지 제13항 중 어느 한 항에 의해 탄화수소 계열 유기화합물의 기화열을 구하는 방법을 컴퓨터에서 실행시키기 위한 프로그램으로 기록하고 컴퓨터로 읽을 수 있는 저장 매체.
A computer-readable storage medium having recorded thereon a program for executing on a computer a method for obtaining vaporization heat of a hydrocarbon-based organic compound according to any one of claims 1 to 13.
수집된 샘플 유기화합물들 중의 비탄화수소 계열 실험데이터를 입력하는 제1단계;
상기 입력된 샘플 유기화합물들의 기화열에 대한 분자표현자 값을 준비하는 제2단계;
하기 식(2)에 기재되어 있는 SVRC 수식에 필요한 매개변수를 구하는 제3단계
Figure 112012105447648-pat00019

[여기서 ΔH는 기화열, ΔH0.55b는 정상끓는점의 0.55배인 온도( T0.55b)에서의 기화열, αc는 스케일링 지수, T는 온도, Tc는 임계온도];
상기 제3단계에서 얻은 상기 매개변수 정상끓는점의 0.55배인 온도에서의 기화열, αc에 대한 QSPR 모형을 구축하는 제4단계;
상기 실험 데이터로 예측성능을 테스트하는 제5단계;
상기 제5단계의 테스트를 만족하면 탐색된 모형에 의한 기화열 예측값을 기화열 값으로 채택하고, 만족하지 못하면 제4단계, 제5단계를 반복하는 제6단계를 포함하는 SVRC 모형에 의해서 비탄화수소 계열 유기화합물의 기화열을 구하는 방법.
A first step of inputting non-hydrocarbon-based experimental data among collected sample organic compounds;
Preparing a molecular presenter value for the heat of vaporization of the input sample organic compounds;
Third step of obtaining parameters required for SVRC equation described in Equation (2) below
Figure 112012105447648-pat00019

[Where ΔH is the heat of vaporization, ΔH 0.55b is the heat of vaporization at a temperature T 0.55b that is 0.55 times the normal boiling point, α c is the scaling index, T is the temperature, and T c is the critical temperature];
A fourth step of constructing a QSPR model for the heat of vaporization, α c , at a temperature of 0.55 times the normal boiling point of the parameter obtained in the third step;
A fifth step of testing predictive performance with the experimental data;
If the test of the fifth step is satisfied, the vaporized heat prediction value is adopted by the SVRC model including the sixth step of repeating the fourth step and the fifth step by adopting the vaporization heat prediction value of the searched model as the vaporization heat value. A method of obtaining the heat of vaporization of a compound.
제15항에 있어서, 상기 제4단계에서 상기 정상끓는점의 0.55배인 온도에서의 기화열에 대한 QSPR 모형을 구하는 방법은
상기 정상끓는점의 0.55배인 온도에서의 기화열, αc 각각에 대한 최적의 분자표현자들을 추출하는 제4-0단계;
훈련집합과 시험집합으로 실험데이터를 분리하는 제4-1단계;
훈련집합에 대하여 최적의 다중선형회귀모형을 탐색하는 제4-2단계;
선택된 모형의 타당성을 검토하는 제4-3단계;
상기 제4-3단계에서 타당성이 없으면, 상기 제4-2단계, 제4-3단계를 반복하고, 타당성이 있으면 시험집합에 대하여 모형의 예측성능을 테스트하는 제4-4단계;
시험집합에 대한 상기 제4-4단계 테스트에서 성능이 기준을 만족하지 못하면 제4-2단계 내지 제4-4단계를 반복하고, 성능이 기준을 만족하면 샘플 표준화 후 3개 집합으로 분리하는 제4-5단계;
전체 샘플을 3개 집합으로 나눈 후에 최적의 인공신경망모형을 탐색하는 제4-6단계;
상기 제4-5단계에서 성능 테스트를 만족하는 상기 최적의 선형회귀모형에 의해서 구한 정상끓는점의 0.55배인 온도에서의 기화열 예측값과 상기 제4-6단계에서 탐색된 상기 최적의 인공신경망모형에 의해서 구한 정상끓는점의 0.55배인 온도에서의 기화열 예측값 차이의 절대값을 미리 설정된 과적합 방지 기준값과 비교하는 제4-7단계;
상기 차이가 상기 과적합 방지 기준값 보다 크면 상기 제4-5단계에서 얻은 다중선형회귀모형에 의한 정상끓는점의 0.55배인 온도에서의 기화열 예측값을 정상끓는점의 0.55배인 온도에서의 기화열 값으로 채택하고 상기 과적합 방지 기준값 보다 작으면 상기 제4-6단계에서 탐색된 인공신경망모형에 의한 정상끓는점의 0.55배인 온도에서의 기화열 예측값을 정상끓는점의 0.55배인 온도에서의 기화열 값으로 채택하는 제4-8단계를 포함하고,
상기 제4-0단계에서 αc 에 대한 QSPR 모형을 구하는 방법은
상기 제4-1단계 내지 제4-4단계와 시험집합에 대한 상기 제4-4단계 테스트에서 성능이 기준을 만족하지 못하면 제4-2단계 내지 제4-4단계를 반복하고, 성능이 기준을 만족하면 최적의 다중선형회귀모형으로 결정하는 제4-5-1단계;
상기 제4-5-1단계에서 성능 테스트를 만족하는 상기 다중선형회귀 모형을 통하여 αc 값을 구하는 제4-6-1단계를 포함하는 SVRC 모형에 의해서 비탄화수소 계열 유기화합물의 기화열을 구하는 방법
The method of claim 15, wherein the method for obtaining a QSPR model for the heat of vaporization at a temperature of 0.55 times the normal boiling point in the fourth step is
Step 4-0 of extracting optimal molecular descriptors for each of the heat of vaporization and α c at a temperature of 0.55 times the normal boiling point;
Step 4-1 separating the experimental data into a training set and a test set;
Step 4-2 of searching for an optimal multiple linear regression model for the training set;
Steps 4-3 to review the validity of the selected model;
Step 4-3, if the validity in step 4-3, and repeats step 4-2, step 4-3, and if valid, step 4-4 of testing the predictive performance of the model against the test set;
If the performance does not meet the criteria in the 4-4 test for the test set, repeat steps 4-2 to 4-4, and if the performance satisfies the criteria, separate the data into three sets after sample standardization. 4-5 steps;
Step 4-6 of dividing the entire sample into three sets and searching for an optimal artificial neural network model;
The vaporization heat prediction value at a temperature of 0.55 times the normal boiling point obtained by the optimal linear regression model satisfying the performance test in steps 4-5, and the optimal artificial neural network model found in steps 4-6. Steps 4-7 of comparing the absolute value of the difference in the predicted heat of vaporization at a temperature of 0.55 times the normal boiling point with a preset overfit prevention reference value;
If the difference is greater than the reference value for preventing overfitting, the estimated heat of vaporization at the temperature of 0.55 times the normal boiling point by the multiple linear regression model obtained in steps 4-5 is adopted as the heat of vaporization at the temperature of 0.55 times the normal boiling point. If it is smaller than the sum prevention reference value, steps 4-8 of adopting the predicted vaporization heat value at a temperature of 0.55 times the normal boiling point by the artificial neural network model detected in steps 4-6 as the vaporization heat value at a temperature of 0.55 times the normal boiling point. Including,
The method of obtaining the QSPR model for α c in step 4-0 is
If the performance does not meet the criteria in the above-described steps 4-1 to 4-4 and the test set 4-4 for the test set, the steps 4-2 to 4-4 are repeated, and the performance is the standard. Step 4-5-1 to determine the optimal multiple linear regression model if satisfied;
Method for obtaining vaporization heat of non-hydrocarbon-based organic compound by SVRC model including step 4-6-1 to obtain α c value through the multiple linear regression model satisfying the performance test in step 4-5-1
제16항에 있어서, 상기 제4-0단계에서 최적의 분자표현자는 모든 샘플 화합물에 대해 값이 동일하지 않은 독립적인 분자표현자인 것을 특징으로 하는 SVRC 모형에 의해서 비탄화수소 계열 유기화합물의 기화열을 구하는 방법.
17. The method of claim 16, wherein in step 4-0, the optimal molecular descriptors are independent molecular descriptors whose values are not the same for all the sample compounds. Way.
제16항에 있어서, 상기 제4-1단계에서 훈련집합과 시험집합은 5:5 ~ 8:2의 비율로 나누는 것을 특징으로 하는 SVRC 모형에 의해서 비탄화수소 계열 유기화합물의 기화열을 구하는 방법.
17. The method of claim 16, wherein the training set and the test set are divided by a ratio of 5: 5 to 8: 2 in step 4-1.
제16항에 있어서, 상기 제4-2단계에서 상기 다중선형회귀 모형은 상기 훈련집합에 대하여 유전적 알고리즘(genetic algorithm)을 적용하여 다중선형회귀모형을 탐색하는 것을 특징으로 하는 SVRC 모형에 의해서 비탄화수소 계열 유기화합물의 기화열을 구하는 방법.
17. The method of claim 16, wherein in step 4-2, the multiple linear regression model is searched for by the SVRC model by searching for the multiple linear regression model by applying a genetic algorithm to the training set. Method for obtaining heat of vaporization of hydrocarbon-based organic compounds.
제19항에 있어서, 상기 유전적 알고리즘(genetic algorithm)은 분자표현자들의 풀(pool)에서 일정한 개수의 분자표현자들을 무작위로 뽑아 만든 다수의 다중선형회귀모형들로 구성된 개체군(population)을 생성하는 단계; 각 개체(individual)들은 뽑힌 분자표현자들의 번호들을 조합하여 부호화하는 단계; 생성된 개체군으로부터 룰렛휠(Roulette Wheel) 방법에 의해서 두 개의 부모 염색체를 선택한 뒤 단순교배(single point crossover)법에 의하여 자손들을 생성하는 단계; 생성된 자손들의 염색체 일부를 일정 확률로 돌연변이(mutation) 시킨 뒤 기존 개체군의 일부를 이들로 교체하여 새 개체군을 생성하는 단계를 포함하는 것을 특징으로 하는 SVRC 모형에 의해서 비탄화수소 계열 유기화합물의 기화열을 구하는 방법.
20. The method of claim 19, wherein the genetic algorithm generates a population consisting of a plurality of multiple linear regression models randomly drawn from a pool of molecular presenters. Making; Encoding each individual by combining the numbers of the extracted molecular presenters; Selecting two parent chromosomes from the created population by the Roulette Wheel method and generating offspring by a single point crossover method; The vaporization heat of the non-hydrocarbon-based organic compound is generated by the SVRC model, which comprises generating a new population by mutating a portion of the chromosomes of the generated offspring with a certain probability and then replacing a part of the existing population with them. How to obtain.
제16항에 있어서, 상기 제4-2단계는 회귀모형의 결정계수 또는 평균절대오차에 의해서 예측성능을 판단하는 것을 포함하는 SVRC 모형에 의해서 비탄화수소 계열 유기화합물의 기화열을 구하는 방법.
17. The method of claim 16, wherein the step 4-2 is to determine the heat of vaporization of the non-hydrocarbon-based organic compound by the SVRC model comprising determining the predictive performance by the regression model crystal coefficient or the mean absolute error.
제16항에 있어서, 상기 제4-3단계에서 타당성은 t검정값에 의해서 타당성을 결정하는 SVRC 모형에 의해서 비탄화수소 계열 유기화합물의 기화열을 구하는 방법.
17. The method of claim 16, wherein the validity in the step 4-3 is to obtain the heat of vaporization of the non-hydrocarbon-based organic compound by the SVRC model to determine the validity by the t-test value.
제16항에 있어서, 상기 제4-5단계에서 훈련집합과 시험집합의 차이가 훈련집합에 대해서 얻은 절대평균오차(AAE)의 20%를 넘지 않으면 다중선형회귀모형이 결정되고, 훈련집합과 시험집합의 차이가 훈련집합에 대해서 얻은 절대평균오차(AAE)의 20%를 넘으면 훈련집합과 시험집합을 다시 분류하는 SVRC 모형에 의해서 비탄화수소 계열 유기화합물의 기화열을 구하는 방법.
17. The method of claim 16, wherein in step 4-5, if the difference between the training set and the test set does not exceed 20% of the absolute mean error (AAE) obtained for the training set, the multiple linear regression model is determined. If the difference exceeds 20% of the absolute mean error (AAE) obtained for the training set, the heat of vaporization of the non-hydrocarbon-based organic compound is obtained by the SVRC model that reclassifies the training set and the test set.
제16항에 있어서, 상기 제4-6단계에서 상기 인공신경망에 의한 탐색범위는 입력층과 출력층 사이에 하나의 은닉층을 가지며 전방향(feed forward)으로 만 연결되어 있는 것을 특징으로 하는 SVRC 모형에 의해서 비탄화수소 계열 유기화합물의 기화열을 구하는 방법.
17. The SVRC model according to claim 16, wherein in step 4-6, the search range by the artificial neural network has one hidden layer between the input layer and the output layer and is connected only in a feed forward. To obtain the heat of vaporization of non-hydrocarbon organic compounds.
제24항에 있어서, 상기 은닉층의 활성화 함수로는 시그모이드(Sigmoid) 함수를 사용하는 것을 특징으로 하는 SVRC 모형에 의해서 비탄화수소 계열 유기화합물의 기화열을 구하는 방법.
25. The method of claim 24, wherein a function of sigmoid function is used as the activation function of the hidden layer.
제16항에 있어서, 상기 제4-7단계에서 정상끓는점에서의 기화열에 대한 상기 과적합 방지 기준값은 2.3889 kcal/mol인 것을 특징으로 하는 SVRC 모형에 의해서 비탄화수소 계열 유기화합물의 기화열을 구하는 방법.
17. The method of claim 16, wherein the overfit prevention reference value for the heat of vaporization at the normal boiling point in steps 4-7 is 2.3889 kcal / mol.
제16항에 있어서, 상기 정상끓는점의 0.55배인 온도에서의 기화열에 대하여 추출된 분자표현자는
P1: 위상거리5 O-O 결합의 존재여부(presence/absence of O - O at topological distance 05),
P2: 위상거리10 C-C 결합의 존재여부(presence/absence of C - C at topological distance 10),
P3: 질소원자의 상대적인 수(Relative number of N atoms),
P4: Moran의 자기상관 차수1/원자량 가중(Moran autocorrelation - lag 1 / Weighted by atomic masses),
P5: 최소 순원자전하(Min net atomic charge),
P6: 수소원자의 최소 순원자전하(Min net atomic charge for a H atom),
P7: 동경 분포 함수-7.0/비가중(Radial Distribution Function - 7.0 / unweighted),
P8: 정상끓는점(Normal boiling point),
P9: 모서리도 가중 모서리 인접행렬 고유값15(Eigenvalue 15 from edge adjacency matrix weighted by edge degrees),
P10: 수소원자의 최소 부분전하(Min partial charge for a H atom),
P11: 수소결합의존적 수소결합 기부체 원자의 면적가중 표면전하(HA dependent HDCA-2),
P12: 위상거리3 O-O 결합의 존재여부(presence/absence of O - O at topological distance 03),
P13: 총 4차 sp3 탄소의 수(number of total quaternary C(sp3)),
P14: 수소결합의존적 수소결합 기부체 원자의 면적가중 표면적 분율(HA dependent HDSA-2/TMSA) 및
P15: 산소원자의 평균 친전자 반응지수(Average electrophilic reaction index for a O atom)을 포함하고,
상기 αc 에 대하여 추출된 분자표현자는
P1: R 최대 자기상관 차수2/원자 반데르발스 부피 가중(R maximal autocorrelation of lag 2 / Weighted by atomic van der Waals volumes),
P2: 1차 성분접근지향적 가중 포괄불변분자 지수/원자 편극도 가중(1st component accessibility directional WHIM index / weighted by atomic polarizabilities),
P3: 위상거리7 O-O 결합의 존재여부(presence/absence of O - O at topological distance 07),
P4: R 최대 자기상관 차수4/비가중(R maximal autocorrelation of lag 4 / Unweighted),
P5: 위상거리5 O-O 결합의 존재여부(presence/absence of O - O at topological distance 05),
P6: 전자회절기반 3차원 분자구조 표현-차수8/비가중(3D-MoRSE - signal 08 / unweighted),
P7: 쌍극자모멘트 가중 모서리 인접행렬 고유값7(Eigenvalue 09 from edge adjacency matrix weighted by dipole moments),
P8: O..S간 기하학적 거리의 합(sum of geometrical distances between O..S),
P9: ΔHb/ΔH0 .55b, ΔHb는 정상끓는점에서의 기화열,
P10: 산소원자의 최소 친핵성 반응 지수(Min nucleophilic reaction index for a O atom),
P11: 수소원자 자기상관 차수7/원자량 가중(H autocorrelation of lag 6 / Weighted by atomic masses),
P12: 2차 알코올의 수(number of secondary alcohols),
P13: 분자 쌍극자의 총 점전하 성분(Total point-charge component of the molecular dipole),
P14: R#N / R=N- 기능기 수(R#N / R=N-) 및
P15: 위상거리6 O-O 결합의 빈도(frequency of O - O at topological distance 06)를 포함하는 것을 특징으로 하는 SVRC 모형에 의해서 비탄화수소 계열 유기화합물의 기화열을 구하는 방법.
The method of claim 16, wherein the molecular expression extracted for the heat of vaporization at a temperature of 0.55 times the normal boiling point
P 1 : Presence / absence of O-O at topological distance 05,
P 2 : Presence / absence of C-C at topological distance 10
P 3 : Relative number of N atoms,
P 4 : Moran autocorrelation-lag 1 / Weighted by atomic masses,
P 5 : minimum net atomic charge,
P 6 : Min net atomic charge for a H atom,
P 7 : Radial Distribution Function-7.0 / unweighted,
P 8 : normal boiling point,
P 9 : Edgevalue 15 from edge adjacency matrix weighted by edge degrees,
P 10 : Min partial charge for a H atom,
P 11 : area-weighted surface charge of hydrogen bond-dependent hydrogen bond base atoms (HA dependent HDCA-2),
P 12 : presence of presence / absence of O-O at topological distance 03,
P 13 : number of total quaternary C (sp3),
P 14 is the area-weighted surface area fraction (HA dependent HDSA-2 / TMSA) of hydrogen bond-dependent hydrogen bond base atoms;
P 15 : contains average electrophilic reaction index for a O atom,
The molecular expression extracted for the α c is
P 1 : R maximal autocorrelation of lag 2 / Weighted by atomic van der Waals volumes,
P 2 : 1st component accessibility directional WHIM index / weighted by atomic polarizabilities,
P 3 : Presence / absence of O-O at topological distance 07
P 4 : R maximal autocorrelation of lag 4 / Unweighted,
P 5 : Presence / absence of O-O at topological distance 05,
P 6 : 3D molecular structure representation based on electron diffraction-order 8 / unweighted (3D-MoRSE-signal 08 / unweighted),
P 7 : Eigenvalue 09 from edge adjacency matrix weighted by dipole moments,
P 8 : sum of geometrical distances between O..S,
9 P: b ΔH / ΔH 0 .55b, ΔH is a heat of vaporization at the normal boiling point b,
P 10 : Min nucleophilic reaction index for a O atom,
P 11 : H autocorrelation of lag 6 / Weighted by atomic masses,
P 12 : number of secondary alcohols,
P 13 : Total point-charge component of the molecular dipole,
P 14 : R # N / R = N- number of functional groups (R # N / R = N-) and
P 15 : Phase distance 6 A method for obtaining the heat of vaporization of a non-hydrocarbon-based organic compound by an SVRC model comprising a frequency of O-O at topological distance 06.
제15항 내지 제27항 중 어느 한 항에 의해 비탄화수소 계열 유기화합물의 기화열을 구하는 방법을 컴퓨터에서 실행시키기 위한 프로그램으로 기록하고 컴퓨터로 읽을 수 있는 저장 매체.
A computer readable storage medium having recorded thereon a program for executing on a computer a method for obtaining the heat of vaporization of a non-hydrocarbon based organic compound according to any one of claims 15 to 27.
하기 식(3)에 기재되어 있는 SVRC 모형에 대하여
Figure 112012105447648-pat00020

[여기서 ΔH는 기화열, ΔH0.55b는 정상끓는점의 0.55배인 온도(T0.55b)에서의 기화열, αc는 스케일링 지수, T는 온도, Tc는 임계온도].
상기 정상끓는점의 0.55배인 온도에서의 기화열에 대하여 추출된 분자표현자는
P1: D 총 접근지수/원자적 전자위상 상태 가중(D total accessibility index / weighted by atomic electrotopological states),
P2: 정상끓는점(Normal boiling point),
P3: 동경 분포 함수-6.0/비가중(Radial Distribution Function - 6.0 / unweighted),
P4: 전자회절기반 3차원 분자구조 표현-차수11/원자 반데르발스 부피 가중(3D-MoRSE - signal 11 / weighted by atomic van der Waals volumes),
P5: 공명적분 가중 모서리 인접행렬 고유값14(Eigenvalue 14 from edge adjacency matrix weighted by resonance integrals),
P6: 동경 분포 함수-11.5/원자량 가중(Radial Distribution Function - 11.5 / weighted by atomic masses)
P7: 동경 분포 함수-15.0/원자량 가중(Radial Distribution Function - 15.0 / weighted by atomic masses),
P8: 고리의 상대적인 수(Relative number of rings),
P9: 위상학적 전하 지수 차수6(topological charge index of order 6) 및
P10: 전자회절기반 3차원 분자구조 표현-차수10/원자 편극도 가중(3D-MoRSE - signal 10 / weighted by atomic polarizabilities)을 포함하고,
상기 αc 에 대하여 추출된 분자표현자는
P1: 최고준위 점유 분자궤도 - 1 에너지(HOMO-1 energy),
P2: R--CR--R 기능기 수(R--CR--R),
P3: Ghose-Viswanadhan-Wendoloski의 항우울성 지수 (80% 차지)(Ghose-Viswanadhan-Wendoloski antidepressant-like index at 80%),
P4: 지렛대 가중 자기상관 차수6/원자량 가중(leverage-weighted autocorrelation of lag 6 / Weighted by atomic masses),
P5: Moran의 자기상관 차수6/원자량 가중(Moran autocorrelation - lag 6 / Weighted by atomic masses),
P6: ΔHb/ΔH0.55b, ΔHb는 정상끓는점에서의 기화열,
P7: 비말단 sp 탄소의 수(number of non-terminal C(sp)),
P8: Burden 행렬의 최고 고유값6/원자 Sanderson 전기음성도 가중(highest eigenvalue n. 6 of Burden matrix / weighted by atomic Sanderson electronegativities),
P9: R 최대 자기상관 차수1/원자량 가중(R maximal autocorrelation of lag 1 / Weighted by atomic masses) 및
P10: 쌍극자모멘트 가중 모서리 인접행렬 고유값12(Eigenvalue 12 from edge adjacency matrix weighted by dipole moments)를 포함하는 것을 특징으로 하는 SVRC 모형에 의해서 탄화수소 계열 유기화합물의 기화열을 구하는 방법.
About SVRC model described in following formula (3)
Figure 112012105447648-pat00020

[Where ΔH is the heat of vaporization, ΔH 0.55b is the heat of vaporization at a temperature (T 0.55b ) that is 0.55 times the normal boiling point, α c is the scaling index, T is the temperature, and T c is the critical temperature.
Molecular expression extracted for the heat of vaporization at a temperature of 0.55 times the normal boiling point
P 1 : D total accessibility index / weighted by atomic electrotopological states,
P 2 : normal boiling point,
P 3 : Radial Distribution Function-6.0 / unweighted,
P 4 : 3D-MoRSE-signal 11 / weighted by atomic van der Waals volumes
P 5 : Eigenvalue 14 from edge adjacency matrix weighted by resonance integrals,
P 6 : Radial Distribution Function-11.5 / weighted by atomic masses
P 7 : radial distribution function-15.0 / weighted by atomic masses,
P 8 : Relative number of rings,
P 9 : topological charge index of order 6 and
P 10 : includes electron diffraction-based three-dimensional molecular structure representation-order 10 / atomic polarization weighting (3D-MoRSE-signal 10 / weighted by atomic polarizabilities),
The molecular expression extracted for the α c is
P 1 : highest level occupied molecular orbital-1 energy (HOMO-1 energy),
P 2 : R--CR--R number of functions (R--CR--R),
P 3 : Ghose-Viswanadhan-Wendoloski antidepressant-like index at 80%,
P 4 : leverage-weighted autocorrelation of lag 6 / Weighted by atomic masses,
P 5 : Moran autocorrelation-lag 6 / Weighted by atomic masses,
P 6 : ΔH b / ΔH 0.55b , ΔH b is the heat of vaporization at the normal boiling point,
P 7 : number of non-terminal C (sp),
P 8 : highest eigenvalue n. 6 of Burden matrix / weighted by atomic Sanderson electronegativities,
P 9 : R maximal autocorrelation of lag 1 / Weighted by atomic masses and
P 10 : A method for obtaining the heat of vaporization of a hydrocarbon-based organic compound by an SVRC model, comprising a dipole moment weighted edge adjacency matrix eigenvalue 12 (Eigenvalue 12 from edge adjacency matrix weighted by dipole moments).
하기 식(4)에 기재되어 있는 SVRC 모형에 대하여
Figure 112011077369637-pat00021

[여기서 ΔH는 기화열, ΔH0 .55b는 정상끓는점의 0.55배인 온도(T0 .55b)에서의 기화열, αc는 스케일링 지수, T는 온도, Tc는 임계온도];
상기 정상끓는점의 0.55배인 온도에서의 기화열에 대하여 추출된 분자표현자는
P1: 위상거리5 O-O 결합의 존재여부(presence/absence of O - O at topological distance 05),
P2: 위상거리10 C-C 결합의 존재여부(presence/absence of C - C at topological distance 10),
P3: 질소원자의 상대적인 수(Relative number of N atoms),
P4: Moran의 자기상관 차수1/원자량 가중(Moran autocorrelation - lag 1 / Weighted by atomic masses),
P5: 최소 순원자전하(Min net atomic charge),
P6: 수소원자의 최소 순원자전하(Min net atomic charge for a H atom),
P7: 동경 분포 함수-7.0/비가중(Radial Distribution Function - 7.0 / unweighted),
P8: 정상끓는점(Normal boiling point),
P9: 모서리도 가중 모서리 인접행렬 고유값15(Eigenvalue 15 from edge adjacency matrix weighted by edge degrees),
P10: 수소원자의 최소 부분전하(Min partial charge for a H atom),
P11: 수소결합의존적 수소결합 기부체 원자의 면적가중 표면전하(HA dependent HDCA-2),
P12: 위상거리3 O-O 결합의 존재여부(presence/absence of O - O at topological distance 03),
P13: 총 4차 sp3 탄소의 수(number of total quaternary C(sp3)),
P14: 수소결합의존적 수소결합 기부체 원자의 면적가중 표면적 분율(HA dependent HDSA-2/TMSA) 및
P15: 산소원자의 평균 친전자 반응지수(Average electrophilic reaction index for a O atom)을 포함하고,
상기 αc 에 대하여 추출된 분자표현자는
P1: R 최대 자기상관 차수2/원자 반데르발스 부피 가중(R maximal autocorrelation of lag 2 / Weighted by atomic van der Waals volumes),
P2: 1차 성분접근지향적 가중 포괄불변분자 지수/원자 편극도 가중(1st component accessibility directional WHIM index / weighted by atomic polarizabilities),
P3: 위상거리7 O-O 결합의 존재여부(presence/absence of O - O at topological distance 07),
P4: R 최대 자기상관 차수4/비가중(R maximal autocorrelation of lag 4 / Unweighted),
P5: 위상거리5 O-O 결합의 존재여부(presence/absence of O - O at topological distance 05),
P6: 전자회절기반 3차원 분자구조 표현-차수8/비가중(3D-MoRSE - signal 08 / unweighted),
P7: 쌍극자모멘트 가중 모서리 인접행렬 고유값7(Eigenvalue 09 from edge adjacency matrix weighted by dipole moments),
P8: O..S간 기하학적 거리의 합(sum of geometrical distances between O..S),
P9: ΔHb/ΔH0 .55b, ΔHb는 정상끓는점에서의 기화열,
P10: 산소원자의 최소 친핵성 반응 지수(Min nucleophilic reaction index for a O atom),
P11: 수소원자 자기상관 차수7/원자량 가중(H autocorrelation of lag 6 / Weighted by atomic masses),
P12: 2차 알코올의 수(number of secondary alcohols),
P13: 분자 쌍극자의 총 점전하 성분(Total point-charge component of the molecular dipole),
P14: R#N / R=N- 기능기 수(R#N / R=N-) 및
P15: 위상거리6 O-O 결합의 빈도(frequency of O - O at topological distance 06)를 포함하는 것을 특징으로 하는 SVRC 모형에 의해서 비탄화수소 계열 유기화합물의 기화열을 구하는 방법.




About SVRC model described in following formula (4)
Figure 112011077369637-pat00021

[Where ΔH is a heat of vaporization, ΔH 0 .55b is 0.55 times the heat of vaporization at a temperature (T 0 .55b) of the normal boiling point, α c is a scaling factor, T is the temperature, T c is the critical temperature;
Molecular expression extracted for the heat of vaporization at a temperature of 0.55 times the normal boiling point
P 1 : Presence / absence of O-O at topological distance 05,
P 2 : Presence / absence of C-C at topological distance 10
P 3 : Relative number of N atoms,
P 4 : Moran autocorrelation-lag 1 / Weighted by atomic masses,
P 5 : minimum net atomic charge,
P 6 : Min net atomic charge for a H atom,
P 7 : Radial Distribution Function-7.0 / unweighted,
P 8 : normal boiling point,
P 9 : Edgevalue 15 from edge adjacency matrix weighted by edge degrees,
P 10 : Min partial charge for a H atom,
P 11 : area-weighted surface charge of hydrogen bond-dependent hydrogen bond base atoms (HA dependent HDCA-2),
P 12 : presence of presence / absence of O-O at topological distance 03,
P 13 : number of total quaternary C (sp3),
P 14 is the area-weighted surface area fraction (HA dependent HDSA-2 / TMSA) of hydrogen bond-dependent hydrogen bond base atoms;
P 15 : contains the average electrophilic reaction index for a O atom,
The molecular expression extracted for the α c is
P 1 : R maximal autocorrelation of lag 2 / Weighted by atomic van der Waals volumes,
P 2 : 1st component accessibility directional WHIM index / weighted by atomic polarizabilities,
P 3 : Presence / absence of O-O at topological distance 07
P 4 : R maximal autocorrelation of lag 4 / Unweighted,
P 5 : Presence / absence of O-O at topological distance 05,
P 6 : 3D molecular structure representation based on electron diffraction-order 8 / unweighted (3D-MoRSE-signal 08 / unweighted),
P 7 : Eigenvalue 09 from edge adjacency matrix weighted by dipole moments,
P 8 : sum of geometrical distances between O..S,
9 P: b ΔH / ΔH 0 .55b, ΔH is a heat of vaporization at the normal boiling point b,
P 10 : Min nucleophilic reaction index for a O atom,
P 11 : H autocorrelation of lag 6 / Weighted by atomic masses,
P 12 : number of secondary alcohols,
P 13 : Total point-charge component of the molecular dipole,
P 14 : R # N / R = N- number of functional groups (R # N / R = N-) and
P 15 : Phase distance 6 A method for obtaining the heat of vaporization of a non-hydrocarbon-based organic compound by an SVRC model comprising a frequency of O-O at topological distance 06.




KR1020110100799A 2011-10-04 2011-10-04 SVRC Model Predicting Heat of Vaporization of Pure Organic Compound KR101267385B1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020110100799A KR101267385B1 (en) 2011-10-04 2011-10-04 SVRC Model Predicting Heat of Vaporization of Pure Organic Compound
PCT/KR2012/007999 WO2012177108A2 (en) 2011-10-04 2012-10-04 Model, method and system for predicting, processing and servicing online physicochemical and thermodynamic properties of pure compound

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110100799A KR101267385B1 (en) 2011-10-04 2011-10-04 SVRC Model Predicting Heat of Vaporization of Pure Organic Compound

Publications (2)

Publication Number Publication Date
KR20120085140A KR20120085140A (en) 2012-07-31
KR101267385B1 true KR101267385B1 (en) 2013-05-24

Family

ID=46715816

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110100799A KR101267385B1 (en) 2011-10-04 2011-10-04 SVRC Model Predicting Heat of Vaporization of Pure Organic Compound

Country Status (1)

Country Link
KR (1) KR101267385B1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111781280A (en) * 2019-04-04 2020-10-16 应急管理部化学品登记中心 Method for predicting thermal stability of organic compound

Also Published As

Publication number Publication date
KR20120085140A (en) 2012-07-31

Similar Documents

Publication Publication Date Title
KR101267372B1 (en) Multiple Linear Regression-Artificial Neural Network Hybrid Model Predicting Water Solubility of Pure Organic Compound
KR101313036B1 (en) SVRC Model Predicting Gas Viscosity of Pure Organic
KR101267373B1 (en) Multiple Linear Regression―Artificial Neural Network Model Predicting Standard State Enthalpy of Formation of Pure Organic Compound
KR101267408B1 (en) Multiple Linear Regression―Artificial Neural Network Hybrid Model Predicting Liquid Density of Pure Organic Compound for Normal Boiling Point
KR101267381B1 (en) Multiple Linear Regression―Artificial Neural Network Hybrid Model Predicting Ionization Potential of Pure Organic Compound
KR101267385B1 (en) SVRC Model Predicting Heat of Vaporization of Pure Organic Compound
KR101313031B1 (en) Multiple Linear Regression―Artificial Neural Network Hybrid Model Predicting Heat of Vaporization of Pure Organic Compound at Normal Boiling Point
KR101297211B1 (en) Multiple Linear Regression-Artificial Neural Network Hybrid Model Predicting Parachor of Pure Organic Compound
KR101325112B1 (en) Multiple Linear Regression-Artificial Neural Network Hybrid Model Predicting Enthalpy of Fusion at Melting Point of Pure Organic Compound
KR101325117B1 (en) SVRC Model Predicting Heat Capacity of Liquid of Pure Organic Compound
KR101313030B1 (en) Multiple Linear Regression―Artificial Neural Network Hybrid Model Predicting Heat of Vaporization of Pure Organic Compound for 298K
KR101302460B1 (en) SVRC Model Predicting Thermal Conductivity of Liquid of Pure Organic Compound
KR101300628B1 (en) Multiple Linear Regression―Artificial Neural Network Model Predicting Flash Point of Pure Organic Compound
KR101313026B1 (en) Multiple Linear Regression―Artificial Neural Network Hybrid Model Predicting Normal Boiling Point of Pure Organic Compound
KR101295861B1 (en) Multiple Linear Regression―Artificial Neural Network Hybrid Model Predicting Lower Flammability Limit Volume Percent of Organic Compound
KR101295859B1 (en) SVRC Model Predicting Thermal Conductivity of Gas of Pure Organic Compound
KR101258863B1 (en) SVRC Model Predicting Vapor Pressure of Liquid of Pure Organic Compound
KR101325107B1 (en) Multiple Linear Regression-Artificial Neural Network Hybrid Model Predicting Critical Temperature of Pure Organic Compound
KR101325124B1 (en) QSPR Model Predicting Surface Tension of Liquid of Pure Organic Compound
KR101325120B1 (en) Multiple Linear Regression-Artificial Neural Network Hybrid Model Predicting Saturated Liquid Density of Pure rganic Compound at 298.15K
KR101313035B1 (en) SVRC Model Predicting Liquid Viscosity of Pure Organic
KR101267356B1 (en) Multiple Linear Regression-Artificial Neural Network Hybrid Model Predicting Standard State Absolute Entropy of Pure Organic Compound
KR101325125B1 (en) Multiple Linear Regression-Artificial Neural Network Hybrid Model Predicting Critical Volume of Pure Organic Compound
KR101325101B1 (en) Multiple Linear Regression-Artificial Neural Network Hybrid Model Predicting Acentric Factor of Pure Organic Compound
KR101258859B1 (en) Multiple Linear Regression―Artificial Neural Network Hybrid Model Predicting Heat Capacity of Ideal Gas of Organic Compound

Legal Events

Date Code Title Description
A201 Request for examination
G15R Request for early opening
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160517

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180518

Year of fee payment: 6