KR101313035B1 - 순수한 유기화합물의 액체점성도를 예측하는 svrc 모형 - Google Patents
순수한 유기화합물의 액체점성도를 예측하는 svrc 모형 Download PDFInfo
- Publication number
- KR101313035B1 KR101313035B1 KR1020110102047A KR20110102047A KR101313035B1 KR 101313035 B1 KR101313035 B1 KR 101313035B1 KR 1020110102047 A KR1020110102047 A KR 1020110102047A KR 20110102047 A KR20110102047 A KR 20110102047A KR 101313035 B1 KR101313035 B1 KR 101313035B1
- Authority
- KR
- South Korea
- Prior art keywords
- liquid viscosity
- weighted
- model
- hydrocarbon
- molecular
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Genetics & Genomics (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Databases & Information Systems (AREA)
- Organic Low-Molecular-Weight Compounds And Preparation Thereof (AREA)
Abstract
본 발명은 수소(H), 탄소(C), 질소(N), 산소(O), 황(S) 등 5가지 이내의 원소로 구성되고 수소를 제외한 원자의 개수가 25개 이하인 분자로 이루어진 순수한 유기화합물의 액체점성도(viscosity of liquid)를 높은 정확도로 예측하는 수학적 모형을 제공한다. 상기의 모형은 SVRC(scaled variable reduced coordinate) 모형으로서, SVRC 수식을 통하여 각 온도에서의 액체점성도의 값을 알 수 있도록 하여 준다. 이 같은 수식계산에는 여러 매개변수들의 값이 필요한데, 이 값들은 각 화합물에 고유하게 주어지는 값들로 본 발명에서는 이들을 얻기 위해, 상기에 언급된 조건을 만족하는 다수의 화합물들의 액체점성도에 대한 실험값들을 바탕으로 다중선형회귀분석법과 인공신경망기법을 사용하여 각 매개변수들에 대한 QSPR (quantitative structure-property relationship) 예측 모형들을 확립하였다. 따라서 상기의 모형은, 모형에 포함된 분자표현자들의 구체적인 값만 알 수 있다면 그 어떤 분자든, 이 분자로 순수하게 이루어진 화합물의 액체점성도를 예측하여 준다. 이처럼, 본 발명은 실험값이 알려지지 않은 수많은 상기 조건의 화합물에 대해서도 신뢰할만한 액체점성도의 값을 예측할 수 있는 방법을 제공하여 줌으로써 실험에 드는 비용과 시간을 절약하게 해주어, 관련 산업의 연구개발활동을 용이하게 하는 등의 효과를 낳는다.
Description
본 발명은, 물성예측이라는 물리화학의 한 분야에 속하는 것으로 화합물의 여러 물성 중 하나인 액체점성도를 높은 정확도로 예측하기 위한 방법에 관한 것이다.
화합물의 여러 물성의 정확한 값을 구체적으로 아는 것은 그 물질의 용도의 타당성을 검토하거나 합성 및 정제 과정을 설계하고 보관, 운반, 사용, 폐기의 방법과 조건을 설정하는 등, 생산과 소비의 전 과정에 걸친 제반 의사결정 사항들에 결정적이기 때문에 산업적으로나 학문적으로 매우 중요한 문제이다. 관심 있는 화합물의 관심 있는 물성의 값을 가장 정확하게 알 수 있는 방법은 역시 실험이겠으나 정제된 시료의 준비, 정확한 측정을 위한 환경의 구축 등 여러 가지 측면에서 상당한 비용과 시간이 드는 것이 사실이며 경우에 따라서는 불가능할 수도 있다. 따라서, 그 대안으로 오래 전부터 많은 연구자들이 화합물의 여러 물성의 정확한 값을 예측하고자 노력을 기울여 왔다. 이처럼 물성 예측은 오랜 역사를 가지며 끊임 없이 새로운 예측 방법들이 등장하여 현재는 물성 별로 정확도와 적용범위 등이 서로 다른 여러 예측모형들이 공존하고 있는 상황이다.
본 발명의 관심 물성인 액체점성도에 대해서도 현재까지 여러 예측모형들이 제안되었다. 액체점성도(viscosity of liquid)라 함은 유체의 움직임에 대한 저항을 말한다. 간단히 말해 액체의 분자 인력에 기인하는 끈적끈적한 정도라고 할 수 있다. 액체점성도의 예측에 대한 그간의 연구결과들은 문헌[Poling B. E., Prausnitz J. M., O'Connell J. P., The Properties of Gases and Liquids(5 ed.), New York, McGraw Hill, (2000).]에 간략히 소개되어 있다.
현재 액체점성도를 예측하는 모형으로 잘 알려지고 널리 쓰이는 것들은 그룹기여 방법인 Joback 모형이다. Joback 모형은 가장 고전적이면서 널리 이용되는 모형[Joback, K. G., R. C. Reid, “Estimation of Pure-Component Properties from Group-Contributions”. Chem. Eng. Comm., 57:233(1987).]이다.
Letsou-Stiel가 제안한 모형은 비극성과 약한 극성유체에 대해 계산된다.[Letsou,A., L.I. Stiel. AIChE J., 19:409 (1973).] 이것은 0.76≤Tr≤0.98 온도 범위 내에서 비극성 분자에 대한 액체 점성도를 측정하는데 가장 정확한 방법이다. 낮은 온도에서는 정확도가 떨어지는 편이며 오차는 임계온도와 임계압력(Tc,와 Pc)의 정확도에 달려있다.
η: 액체점성도(cP), ω: 이심인자(acentric factor), Tc:임계온도, Pc:임계압력, MW:분자무게, T R :환산온도 T/Tc.
Orrick and Erbar 방법은 식에 A, B를 얻기 위하여 그룹 기여 방법을 도입하였다.
η L :액체 점성도(cP), ρ L :20℃에서의 액체밀도(g/cm3), M:분자무게, T:온도(K).
이 방법에서는 20℃ 이하에서 정상끓는점을 가지는 액체는 20℃에서의 ρL를 사용하고 어는점이 20℃ 이상인 액체는 녹는점에서 ρL을 도입해야한다. 이 방법의 단점은 질소나 황을 포함하는 화합물들은 다룰 수 없다는 것이다. Orrick 과 Erbar는 이 방법으로 188개의 유기 액체에 대해 테스트하였다. 오차는 폭은 크지만 평균 오차는 15%로 보고되어있다.
액체점성도의 예측모형을 구축하는데 있어서 대안이 될 수 있는 다른 방법들 중의 하나는 SVRC(scaled variable reduced coordinates) 방법이다. 이 방법은 대응상태의 원리를 기반으로 화합물의 포화상태의 물성들을 다루는 통합된 골격으로서 문헌 [Shaver R. D., Robinson R. L. Jr., Gasem K. A. M., Fluid Phase Equilibria, 64: 141 (1991).]에서 제안되었으며 이 방법을 78개 화합물의 액체점성도에 적용한 사례는 문헌[Ajay Jegadeesan, “STRUCTURE - BASED GENERALIZED MODELS FOR SELECTED PURE - FLUID SATURATION PROPERTIES ”, Oklahoma State University, the Degree of MASTER OF SCIENCE December, 2006]에 잘 나와 있다. 이 방법은 기본적으로 한 화합물의 포화물성 가 온도 의 다음과 같은 함수로 주어진다고 가정한다.
여기서 와 는 각각 correlating 함수, scaling 지수라고 불리는 양들이며 는 (triple point)을 의미하는 것으로 는 각각 임계점과 삼중점에서의 온도를, 는 각각 임계점과 삼중점에서의 값을, 는 각각 임계점과 삼중점에서의 일종의 환산온도(reduced temperature)이다. 아래첨자 c와 t는 각각 임계점과 삼중점 물성값을 뜻한다. 또한 A, B, C는 각 물성에 고유하게 주어지는 보편상수들 (universal constants)로서 액체 점성도의 경우 상기의 문헌에서는 그 값을 각각 1.33, 1, 0으로 정하였다. 한편 동일 문헌에서 저자들은 다음식을 통해 의 값들을 산정하였는데 이 값들로 622개 유체의 액체점성도를 계산한 결과 15,794개의 실험데이터에 대해 절대평균편차(AAD)는 23%였다.
본 발명에서는 α를 위의 식으로 쓰지 않았으며 를 따로 구했다. 액체점성도를 예측하기 위해 탄화수소의 경우 상이 액체일 경우 293.15K온도에서의 모형을 쓰고 상이 기체나 고체일 경우 액체점성도가 10cP일 때의 모형을 쓰는 통합모형을 만들었고 비탄화수소에서는 액체점성도가 10cP일 때의 단독 모형을 썼다. 보편상수의 경우 293.15K 모형의 경우 A, B, C 값을 각 각 22.2, 5.12, 0으로 정하였으며 10cP 모형의 경우 A, B, C 값을 각 각 75.8, 5.06, 0으로 정하였다. 위의 수식을 통해 액체점성도를 계산하기 위해서는 각 화합물에 대한 대한 액체점성도가 10cP일때의 와 298K에서 액체의 물질의 와 같은 매개 변수들의 값을 알아야 하는데 이를 해결하는 한가지 방법은 각 매개 변수에 대한 QSPR 예측모형을 확립하는 것이다.
QSPR(quantitative structure-property relationship)은 기본적으로 화합물의 물성은 그 분자의 구조적 특성들의 함수라는 가정에서부터 출발하고 있으며 서로 다른 여러 구조적 특성들을 반영하는 다양한 분자표현자(molecular descriptor)들을 이용한다. 현재까지 제안된 분자표현자들의 종류는 수천에 이르며 한 분자내의 탄소나 수소의 개수와 같은 단순한 것들로부터 분자의 모양이나 연결상태, 전기화학적 특성과 같은 복잡한 것들에 이르기까지 수많은 종류의 분자표현자들에 대한 계산법들이 개발되어 있다[Todeschini R., V. Consonni V., Molecular Descriptors for Chemoinformatics : Second , Revised and Enlarged Edition : Volume I/ II, Wiley-VCH, 2009]. QSPR 예측모형은 이러한 분자표현자들 그리고 때로는 이에 더하여 화합물의 다른 물리화학적 물성들(이들 역시 구조적 특성들의 함수이다) 중 일부를 독립변수로 포함하는 함수의 형태로 제시된다.
QSPR 모형을 만드는 또 다른 방법은 인공신경망을 이용하는 것이다. 인공신경망 기법은 지능을 가진 인간의 신경세포를 모델링하여 인공적으로 지능을 가진 기계를 만들어 보고자 하는 인류의 오랜 연구결과의 하나로서, 20세기 중반에 처음 등장하여 현재 다방면으로 응용되고 있는 정보처리기술이다. 도 4는 인공신경망의 전형적인 한 예를 보여주고 있다. 여기서 볼 수 있듯이, 인공신경망에는 입력 데이터를 수용하는 입력층(input layer)과 출력데이터를 만드는 출력층(output layer), 이들 사이에 위치한 은닉층(hidden layer)이 존재하며 각 층은 하나 이상의 노드(node)들로 구성되어 있다. 은닉층의 각 노드들은 입력층과 출력층의 노드들과 연결되어 있으며 각 연결들에는 가중치(weight)라 불리는 양 이 부여되어 있다. 은닉층과 출력층의 각 노드들은 전 단계의 노드들로부터 이러한 연결들을 통해 입력을 받은 뒤 이를 가공하여 출력값을 만드는데 이때 활성화 함수(activation function)라 불리는 함수 를 적용한다. 이러한 인공신경망을 실제로 활용하려면 먼저, 다양한 입력값과 그 입력값에 대응하는 출력값을 함께 묶어 놓은 샘플집합을 이용하여 인공신경망을 훈련시키는 과정이 필요한데 이는 주어진 입력에 대한 인공신경망의 출력과 원하는 출력의 차이가 최소가 되도록 역전파(back propagation) 알고리즘을 사용하여 각 연결의 가중치를 최적화 하는 것을 말한다. 이러한 훈련을 거친 인공신경망은 문제해결에 필요한 규칙이나 지식을 따로 제공하지 않아도 학습을 통해서 스스로 일반적인 규칙을 수립하여 미지의 입력에 대해서도 타당성 있는 출력을 내주므로 화합물의 물성예측과 같이 기반 이론이 결여되어 있는 분야에 매우 유용한 수단으로 널리 이용되고 있다.
본 발명이 이루고자 하는 기술적 과제는 위에서 언급된 여러 기존 모형들의 한계들을 극복하고 보다 폭넓고 보다 정확한 예측성능을 보이는, 수소(H), 탄소(C), 질소(N), 산소(O), 황(S) 등 5가지 이내의 원소로 구성되고, 수소를 제외한 원자의 개수가 25개 이하인 분자로 이루어진 순수한 유기화합물의 액체 점성도에 대한 SVRC 모형을 구축하는 것이다.
우리는 보다 많은 실험데이터를 바탕으로 보다 다양한 분자표현자들을 고려하여 SVRC 수식에 포함된 매개변수들의 값을 예측해주는 QSPR 모형들을 구축함으로써 이 목표를 달성하였다. 이것들 중 일부는 다중선형회귀분석과 인공신경망 기법을 적절히 조화시켜 얻어진 다중선형회귀-인공신경망 혼성모형인데 특히 인공신경망은 다중선형회귀모형이 반영할 수 없는 독립변수와 종속변수의 비선형적인 함수관계를 반영할 수 있다는 장점이 있어 보다 높은 예측성능을 가진 모형을 구현할 수 있게 해준다. 그러나 인공신경망은 내부적으로 규칙수립의 자유도가 높아 안정성이 다중선형회귀모형보다 떨어지는 단점이 있다. 본 발명에서는 인공신경망모형의 예측값과 다중선형회귀모형의 예측값이 큰 차이를 보일 때 다중선형회귀모형의 예측값을 채택하는 방법으로 이러한 단점을 보완하여 예측성능과 안정성의 측면에서 다중선형회귀모형과 인공신경망모형의 장점만을 살린 우수한 예측모형을 확립하였다.
예측모형을 적용할 수 있는 화합물의 범위를 위에 언급한 바와 같은 제한을 두는 이유는 주로, 사용된 분자표현자들 중 그 값을 구하기 위해서는 양자역학적 계산이 필요한 것들이 존재하는 경우, 현재의 기술수준으로는 언급된 범위를 넘어서는 화합물에 대해서는 정확도와 계산시간의 측면에서 곤란한 문제가 발행한다는 사실에 기인하고 있다. 그러나 상기의 제한범위 내라 할지라도 대단히 많은 화합물들이 존재하며 산업적으로 중요한 화합물들이 상당부분 포함되므로 본 발명이 인류사회에 큰 유익을 끼칠 수 있을 것으로 판단된다.
오늘날 인류는 플라스틱, 섬유, 고무, 도료, 비료, 의약품, 연료 등, 방대한 종류의 화합물에 의존하여 살아가고 있으며 이러한 경향은 더욱 심화될 것으로 예상된다. 미국 화학회(ACS)에 따르면 2010년 7월 기준으로 등록된 전체 화합물의 수는 54,000,000개를 넘는다고 한다. 이에 비해 물성값이 한가지라도 실험적으로 알려져 있는 화합물의 수는 고작해야 수만에 지나지 않는다. 화합물의 물성값은 신물질과 신약의 개발, 화학플랜트의 최적 설계, 기존 설비의 생산성 향상, 자원의 개발과 절약, 안전성 확보, 환경보호 등 인류의 보다 나은 물질생활에 필수적인 요소이다. 특히 액체점성도는 일반적으로 화장품이나 액체유형 음식이나 그에 쓰이는 양념의 질감을 나타내는데 쓰이고 구조물의 내진설계시 충격흡수장치에도 실린더 내부에서 충진되어 중요한 역할을 하기도 한다. 화학플랜트의 최적설계 프로그램으로 잘 알려진 Aspen-Plus 나 Pro/II 와 같은 상용 프로그램이 그 정확한 값을 절실히 요청하는 물성이다. 그러나 현재 그 실험값이 알려진 화합물의 개수는 기껏해야 수천에 불과하며 화합물에 따라서는 독성, 불안정성, 정제의 어려움 등으로 실험을 통하여 데이터를 얻는 작업이 지난한 경우도 있다. 이런 관점에서 실험을 거치지 않고도 분자에 대한 정보만으로 수많은 화합물의 액체점성도를 높은 정확도로 얻게 해주는 본 발명은 실험에 드는 비용과 시간을 절감해줄 뿐만이 아니라 실험이 불가능한 경우에도 그 값을 짐작하게 해주어 관련 산업의 연구개발활동을 용이하게 함은 물론 더 나아가 학계와 관(官)계 등 그 값을 필요로 하는 모든 곳에 합당한 정보를 제공하여 그 활동을 보다 원활히 수행할 수 있게 해주는 효과를 낳는다 하겠다.
도 1은 본 발명이 제공하는 액체점성도에 대한 SVRC 예측모형을 구축하는 과정을 흐름도로 나타낸 도면이다.
도 2는 SVRC 모형에 필요한 매개변수들 중 비탄화수소의 , αt에 대한 다중선형회귀모형을 구축하는 과정을 흐름도로 나타낸 도면이다.
도 3은 SVRC 모형에 필요한 매개변수들 중 η293.15K, Tη=10 cP, 탄화수소의 , αt에 대한 다중선형회귀-인공신경망 혼성모형을 구축하는 과정을 흐름도로 나타낸 도면이다.
도 4는 본 발명에 사용된 인공신경망의 구조를 나타낸 도면이다.
도 5~8은 예로 몇몇 화합물에 대해 기존의 예측방법들 중 모형과 본 발명이 제공하는 예측모형의 예측성능을 비교한 도면들이다.
도 9는 Letsou-Stiel 모형의 8969개의 실험데이터에 대한 히스토그램 도면이다.
도 10은 Joback 모형의 7200개의 실험데이터에 대한 히스토그램 도면이다.
도 11은 Orrick-Erbar 모형의 10001개의 실험데이터에 대한 히스토그램 도면이다.
도 12는 SVRC 모형의 13541개의 실험데이터에 대한 히스토그램 도면이다.
도 2는 SVRC 모형에 필요한 매개변수들 중 비탄화수소의 , αt에 대한 다중선형회귀모형을 구축하는 과정을 흐름도로 나타낸 도면이다.
도 3은 SVRC 모형에 필요한 매개변수들 중 η293.15K, Tη=10 cP, 탄화수소의 , αt에 대한 다중선형회귀-인공신경망 혼성모형을 구축하는 과정을 흐름도로 나타낸 도면이다.
도 4는 본 발명에 사용된 인공신경망의 구조를 나타낸 도면이다.
도 5~8은 예로 몇몇 화합물에 대해 기존의 예측방법들 중 모형과 본 발명이 제공하는 예측모형의 예측성능을 비교한 도면들이다.
도 9는 Letsou-Stiel 모형의 8969개의 실험데이터에 대한 히스토그램 도면이다.
도 10은 Joback 모형의 7200개의 실험데이터에 대한 히스토그램 도면이다.
도 11은 Orrick-Erbar 모형의 10001개의 실험데이터에 대한 히스토그램 도면이다.
도 12는 SVRC 모형의 13541개의 실험데이터에 대한 히스토그램 도면이다.
도 1은 액체점성도에 대한 SVRC 모형을 구축하는 과정을 흐름도로 간략히 표현한 것이다.
SVRC 모형을 구축하는데 있어서 가장 먼저 해야 할 일은 단계 1에 지정된 바와 같이 실험데이터를 수집하고 검토 분류하는 일이다. 본 발명을 위해 각종 논문과 단행본, 인터넷 사이트 등을 망라하여 참고할 수 있는 모든 문헌과 자료에 대한 광범위한 조사를 벌인 결과 1893개 화합물에 대한 37419개의 데이터가 수집되었다. 이렇게 수집된 데이터가 모형을 구축하는데 쓰일 수 있는 진정 타당한 값인지 다방면으로 검토하였는데 실험값이 아니거나 데이터 표기에 오류가 있었거나 동일 화합물의 비슷한 온도에 대한 값들임에도 불구하고 차이가 많이 나거나 가까운 다른 화합물들의 값에 비해 신뢰하기 어려울 정도로 동떨어진 값이거나 분자표현자들에 대한 값들이 당장 준비되기 어려운 화합물에 대한 데이터인 경우 등에 대해 면밀한 분석을 거쳐 데이터를 수정 또는 삭제하여 최종적으로 총 913개의 화합물들에 대한 30,506개의 데이터를 선정하였다. 또한 물성예측모형을 구축할 때, 샘플 화합물들을 탄소와 수소만으로 이루어진 탄화수소(hydrocarbon)들과 그렇지 않은 비탄화수소(nonhydrocarbon)들로 분류하여 따로따로 모형을 세우는 것이 예측성능의 측면에서 더 나았던 그간의 경험에 비추어 전체 데이터를 294개의 탄화수소들에 대한 6,246개의 데이터 집합과 619개의 비탄화수소들에 대한 12,357개의 데이터 집합으로 나누어 각각 모형을 확립하였다. 또한 탄화수소와 비탄화수소의 구분없이 상이 액체로 예상될 경우만 293.15K에서의 액체점성도값을 첫점으로 하는 모형을 만들었지만 비탄화수소모형에서는 개선된 결과를 보이지 않아 탄화수소의 경우만 통합모형을 썼다. 또한, 본 발명에서 ‘유기화합물’ 또는 ‘화합물’은 수소(H), 탄소(C), 질소(N), 산소(O), 황(S) 등 5가지 이내의 원소로 구성되고, 수소를 제외한 원자의 개수가 25개 이하인 분자로 이루어진 물질을 지칭한다.
그 다음 단계는 이들 화합물들에 대한 분자표현자들의 값들을 준비하는 단계이다. 총 1978개에 달하는 다양한 분자표현자들에 대한 값들을 각 화합물들의 분자에 대한 정보를 담은 파일들로부터 컴퓨터를 이용하여 일괄적으로 계산한다. 분자의 전자구조 계산을 하기 위해서는 보통 순이론인 방법으로 슈뢰딩거(Schrodinger) 방정식을 풀어 전자에너지에 대한 해를 구하게 되지만 전자가 많은 계의 경우 전자상관관계(electron correlation)를 무시한 근사법을 적용한 하트리-포크(Hartree-Fock, HF) 방법[C.C. J. Roothan, Rev. Mod. Phys. 23, 69 (1951)]을 사용하여 해를 풀게 된다. 이런 근사법으로 인해 계산된 결과에서 근본적인 오차가 유발되어 다차원의 이론적인 섭동항을 추가한 포스트 하트리-포크(Post Hartree-Fock) 방법[C. Moller and M. S. Plesset, Phys. Rev. 46, 618 (1934)]들을 사용하여 더 정확한 해를 구하긴 하지만 상대적으로 엄청나게 많은 계산량이 요구된다. 이런 방식으로는 큰 분자를 계산하기에는 비용이나 시간의 측면에서 무리가 있는 상황이다.
또한 하트리-포크와 포스트 하트리-포크를 조합한 가우시안 방법[L. A. Curtiss, K. Raghavachari, G. W. Trucks, and J. A. Pople, J. Chem. Phys. 94, 7221 (1991); L. A. Curtiss, K. Raghavachari, P. C. Redfern, V. Rassolov, and J. A. Pople, J. Chem. Phys. 109, 7764 (1998)]은 에너지 예측에 있어 아주 적은 오차를 보이지만 여러 포스트 하트리-포크 방법에 대한 에너지 계산을 수행하기 때문에 더 많은 계산량이 요구된다.
많은 전자로 이루어진 분자에 대한 전자들간의 상관관계를 고려하기 위해 다차원의 섭동항이 추가된 파동함수 대신 전자 밀도함수를 써서 총에너지의 범함수를 이용해서 바닥상태를 구하는 밀도 범함수 이론(density functional theory)[ R. Seeger and J. A. Pople, J. Chem. Phys. 66, 3045 (1977)]을 적용하여 계산했다. 밀도 범함수 이론의 장점은 전자밀도만 고려하면 되므로 하트리-포크(Hartree-Fock) 방법과 비슷한 수준의 계산량으로 더 정확한 결과를 얻어낼 수 있다. 전자들의 교환-상관에너지를 계산을 위해 교환 범함수들과 상관 범함수들의 조합을 사용하여 계산량을 늘이지 않고도 더 향상된 결과를 얻고 있다.
최적의 양자역학 계산방법을 선발하기 위해 선행하여 시도하였던 계산이론은 상기에 언급된 하트리-포크 방법, 다양한 포스트 하트리-포크 방법, 가우시안(G2, G3) 방법, 다양한 범함수 조합의 밀도 범함수 이론 등이다. 이 중에서 계산시간 대비 가장 성능이 우수한 밀도 범함수 이론의 한가지 방법을 선발하였다.
따라서 본 발명에서는 상용 양자역학 계산 프로그램을 이용하여 지정된 밀도 범함수 이론의 계산방법을 적용하여 분자구조에 대한 최적화 및 진동수 계산을 수행하게 된다.
최적화된 구조에서는 상기의 물성정보 뿐 만 아니라 분자의 특성을 반영하는 여러 의미있는 수치로 나타내는 분자표현자(molecular descriptor)들을 얻을 수 있다. 2차원 구조의 특징을 표현할 수 있는 분자표현자들도 있고 3차원 구조의 특징을 표현하는 분자표현자들도 있다. 크게 나누어 총 24개의 범주로 나누고 각 범주에 상세한 표현자들을 포함한다. 분자 표현자 값을 계산한 후에 이들 중 적합하지 않은 것, 즉 모든 샘플 화합물에 대해 값이 동일하게 나와 모형의 독립변수가 될 수 없는 것들을 추려 내었다. 이는 관련 없는 분자표현자가 예측모형에 포함되는 것을 막아 모형의 신뢰도를 높이는 동시에 이렇게 분자표현자의 개수를 줄임으로써 최적 모형을 찾는 데 드는 계산 시간을 줄일 수 있기 때문이다.
그 다음인 단계 4는 실험데이터를 토대로 각 매개변수에 대한 QSPR 모형을 확립하는데 필요한 자료를 준비하는 단계이다. SVRC 수식으로 액체점성도를 계산하기 위해서는 임계점과 삼중점에서의 액체점성도 ηc, ηt의 값과 의 값이 필요한데 ηc는 이론적으로 임계점에 다가갈 수록 0에 가까워진다. 그래서 본 발명과 연계된 정상끓는점 예측의 오차를 고려하여 임계온도+100K에서 ηc=1E-15로 놓을 수 있다. 한편 삼중점의 온도를 정확히 예측하는것은 일반적으로 매우 어려운 일임이 잘 알려져 있으며 또한 액체점성도의 특성상 녹는점에 가까워질수록 값이 급격하게 커지기 때문에 다른 문헌들을 참고해봐도 대개 로그를 취한 후 예측하고 그 값을 환산하는 방식이다. 하지만 실제 해보니 환산했을 경우 오차가 너무 크다는 문제가 생겼다. 녹는점에서의 액체점성도 값의 분포를 보니 탄화수소의 경우 90% 정도가 녹는점에서의 액체점성도 값이 1cP~10cP에 있었으며 비탄화수소의 경우 53%가 녹는점에서의 액체점성도 값이 1cP~10cP 사이에 있었다. 그래서 10cP에서의 첫점 온도를 예측하는 모형을 만들었다. 탄화수소에서 액체 상일 경우는 293.15K온도에서의 액체점성도값을 로그를 취해 QSPR로 예측한 후 환산한 값을 시작점으로 한다. 는 각각 임계점과 액체점성도가 10cP일 때의 온도에서의 값이며, 이제 SVRC 모형을 완성하기 위해서는 나머지 매개변수들인 와 αt, 액체점성도가 10cP일경우 온도(T), 293.15K에서의 액체점성도에 대한 QSPR 예측모형을 확립하여야 한다. 이러한 QSPR 예측모형을 확립하기 위해서는 각 매개변수별로 여러 화합물들에 대한 해당 값들의 집합을 마련하여야 하는데, η293.15K 에 대해서는 먼저 액체점성도의 전형적인 곡선을 각 화합물의 실험데이터에 맞춘 뒤, 그 곡선에서 온도가 293.15K가 되는 지점의 값을 취하였으며, T10cP에 대해서는 액체점성도의 전형적인 곡선을 각 화합물의 실험데이터에 맞춘 뒤, 그 곡선에서 액체점성도 값이 10cP가 되는 지점의 온도를 취하였으며, 에 대해서는 실험데이터로부터 비선형방정식의 수치해법을 통하여 아래의 식에서 의 값을 각 온도에 대해 구한 뒤, 일차방정식으로 αc, αt를 구하였다.
이렇게 QSPR 예측모형을 확립하기 위한 자료로 쓰기 위해 한 화합물의 실험데이터로부터 각 매개변수들의 값을 구할 수 있으려면 그 화합물의 실험데이터가 비교적 넓은 온도 범위에 걸쳐 고루 분포하면서 데이터에 노이즈(noise)가 적어야 하는데 상대적으로 이런 조건을 만족하는 실험데이터가 존재하는 화합물들의 개수는 많지 않으므로 실제 각 매개변수의 QSPR 예측모형에 샘플로 참여하는 화합물의 개수는 전체 화합물의 개수보다 상당히 줄어들게 된다.
단계 5는 각 매개변수에 대한 QSPR 모형을 구축하는 단계이다. 본 발명에서는 이러한 QSPR 모형으로, 탄화수소의 , 에 대해서는 다중선형회귀-인공신경망 혼성모형을 비탄화수소의 ,에 대해서는 다중선형회귀모형을, 끝점예측에 대해서는 다중선형회귀-인공신경망 혼성모형을 채택하였다. 도 2는 다중선형회귀모형을 구축하는 과정을, 도 3은 다중선형회귀-인공신경망 혼성모형을 구축하는 과정을 흐름도로 간략히 표현한 것이다. 그 구체적인 세부 단계들은 다음과 같다.
먼저 세부 단계 1에서는 샘플 화합물들을 예측모형을 탐색하는데 사용할 훈련집합(training set)과 결정된 모형의 예측성능을 시험하는데 사용할 시험집합(test set), 이렇게 두 부분으로 나누는 작업을 진행한다. 유사한 분자들이 한쪽 부분에만 치우쳐 분포하지 않도록 주의하면서 샘플 탄화수소들과 비탄화수소들을 5:5 ~ 8:2, 바람직하게는 6 대 4의 비율로 각각 나누었다.
이후 훈련집합을 토대로 최선의 다중선형회귀모형(multiple linear regression model)을 찾는다. 여기서 ‘최선’이라 함은 상대적인 의미로서 비교적 짧은 시간 내에 구할 수 있으면서 절대적인 의미에서의 최적 해에 매우 근접한 성능을 갖는다는 의미로 쓰여진 것이다. 최적 해를 직접 구하지 않는 이유는 긴 계산시간 때문인데 예를 들어 1978개의 분자표현자들 중 적합한 분자표현자들의 개수가 1700개일 때, 이 중에서 5개를 뽑아 만들 수 있는 서로 다른 다중선형회귀모형들의 총 개수는 이며 이들을 다 조사하는 것은 현실적으로 불가능하다.
한정된 시간 내에 유용한 결과를 얻기 위해 본 발명에서는 유전적 알고리즘(genetic algorithm) [Judson, "Genetic Algorithms and Their Uses in Chemistry", Reviews in Computational Chemistry, Lipkowitz & Boyd, Eds., Vol.10, pp.1-73 (VCH Publishers, NY, 1997)]을 채택하였으며 그 상세한 방법은 다음과 같다. 먼저 분자표현자들의 풀(pool)에서 일정한 개수의 분자표현자들을 무작위로 뽑아 만든 다수의 다중선형회귀모형들로 구성된 개체군(population)을 생성한다. 예를 들어 1700개의 적합한 분자표현자들 중 5개를 무작위로 뽑아 만든 1000개의 서로 다른 다중선형회귀모형들로 개체군을 만들었다고 하자.
이때 염색체(chromosome)라 불리는 각 개체(individual)들은 뽑힌 분자표현자들의 번호들을 조합하여 부호화한다. 예를 들어 1700개의 분자표현자중 45, 167, 684, 1033, 1502번째의 분자표현자들로 형성한 다중선형회귀모형의 염색체는 (45, 167, 684, 1033, 1502)와 같이 표현할 수 있다. 이렇게 생성된 개체군으로부터 두 개의 부모 염색체를 선택한 뒤 교배(crossover)하여 자식들을 만들어 내는데 본 발명에서는 부모 염색체를 선택하는 선택기법으로 Roulette Wheel 방법을 채택하였다.
Roulette Wheel 방법은 일반적으로 가장 많이 사용하는 선택 알고리즘으로 각 염색체의 적합도(fitness)에 비례하는 만큼 룰렛의 영역을 그 염색체에 할당한 다음, 룰렛을 돌려 해당된 영역의 염색체를 선택하는 방법이다. 따라서 이 방법에서는 적합도가 높은 개체일수록 선택될 확률이 높다. 선택확률을 결정짓는 각 염색체의 적합도 계산에는 회귀모형의 결정계수(coefficient of determination: ) 또는 평균절대오차(average absolute error: AAE)를 활용하였다. 즉 결정계수값이 크거나 평균절대오차값이 작은 것이 선택확률이 높도록 하였다.
교배방법으로는 단순교배(single point crossover)법을 채택하였는데 이는 가장 일반적인 교배 방법으로서 부모 염색체에서 임의로 1개의 교배점을 선택하여 그 지점 전후의 염색체부분을 서로 교환함으로써 자식을 생성하는 것을 말한다. 예를 들어 부모 염색체가 각각 (24, 262, 343, 789, 1290), (38, 454, 554, 1322, 1449)와 같이 주어지고 3번째와 4번째 요소 사이에 교배점이 놓이게 되면 자식 염색체는 각각 (24, 262, 343, 1322, 1449), (38, 454, 554, 789, 1290)와 같이 된다.
이렇게 자식들이 생성되면 이들의 염색체 일부를 일정 확률로 돌연변이(mutation) 시키는 과정을 거치는데 이는 임의로 몇 개의 요소를 전혀 새로운 값으로 바꾸는 것으로 현재 집단에 존재하지 않는 새로운 정보로 초기 유전자 조합 이외의 공간을 탐색할 수 있게 해주어 초기 집합의 조합 내에 적절한 해가 없을 경우를 보완해주는 과정이다.
이 같은 방법으로 새로이 구해진 개체들로 기존 개체군의 일부 또는 전부를 교체하여 새 세대의 개체군을 생성한다. 이 과정을 반복하여 그 세대수가 미리 정한 값(보통 10~1000사이에서 선택)에 이르면 가장 적합도가 큰 개체, 즉 예측성능이 가장 좋은 회귀모형을 선택하고 끝낸다.
일단 이렇게 최선의 다중선형회귀모형이 선정되면 다음 단계로 이 모형의 타당성을 검토한다. 만일 모형에 포함된 분자표현자의 t검정값이 좋지 않다든지 하는 문제점이 발견되면 이전 단계로 돌아가 다른 모형을 찾는다. 예를 들어 샘플 화합물의 수가 1005이고 선정된 모형이 5개의 분자표현자로 구성되어 있을 경우 그 중 한 분자표현자에 대한 t검정값이 3.3이상이면 이는 이 분자표현자가 해당 물성과 무관할 확률이 0.1%이하임을 뜻한다. 본 발명에서는 대략 3미만의 t검정값을 갖는 분자표현자가 존재할 경우 선정된 모형을 버리고 다른 모형을 찾았다. 또한 샘플 화합물들에 대한 한 분자표현자의 값들이 소수의 몇몇 화합물들을 제외하고는 모두 동일한 경우도 신뢰성 있는 모형이라고 볼 수 없어 마찬가지로 조처하였다. 일반적으로 모형에 포함되는 분자표현자의 개수를 늘리면 예측성능은 높아지지만 이와 같은 문제들이 발생하게 되므로 보통 최종 모형은 이 단계들을 분자표현자의 개수를 바꿔가며 여러 번의 시행착오를 거쳐 반복 수행함으로써 얻어진다. 선정된 모형에 더 이상 문제가 나타나지 않으면 다음 단계로 넘어간다.
세부 단계 4에서는 모형을 형성하는데 참여하지 않았던 시험집합을 이용하여 찾아낸 모형의 예측성능을 평가한다. 만일 훈련집합에서 보다 예측성능이 많이 떨어지거나 예측이 크게 벗어나는 샘플들이 보이는 등의 문제점이 발견되면 세부 단계 1로 가서 훈련집합과 시험집합을 재조정한 뒤 이후 세부 단계를 진행한다. 여기서 훈련집합과 시험집합의 차이가 훈련집합에 대해서 얻은 절대평균오차(AAE)의 20%를 넘지 않으면 예측성능이 만족되는 것으로 판단한다.
SVRC 수식에 필요한 매개변수들 중 탄화수소에서는 , αt에 대해서는 이렇게 구축된 다중선형회귀-인공신경망 혼성모형을 최종 예측모형으로 채택하였으나 비탄화수소에서는 , αt에 대해서는 다중선형회귀모형을 최종 예측모형으로 채택하였다. 그리고 끝점예측에 대해서는 모두 다중선형회귀-인공신경망 혼성모형을 최종 예측모형으로 채택하여 다음의 과정이 추가된다.
먼저 이미 구축된 다중선형회귀모형으로부터 인공신경망모형을 구축하기 위해 분자표현자들의 데이터와 매개변수의 데이터를 표준화하는 작업, 즉 각 값에서 해당 데이터의 평균을 뺀 뒤 표준편차로 나누는 작업을 진행한다. 이렇게 준비된 전체 샘플을 대략 6:2:2의 비율로 훈련집합(training set), 검증집합(validation set), 시험집합(test set)으로 나눈다.
이후 이들을 사용하여 최선의 인공신경망모형을 탐색한다. 이때 탐색 범위는 도 4에서처럼 입력층과 출력층 사이에 한 개의 은닉층을 가지면서 이 3개 층이 전방향으로(feed forward), 즉 입력에서 출력으로 향하는 방향으로만 연결되어 있는 구조를 갖는 신경망으로 제한하였다. 입력층은 이미 확립되어 있는 다중선형회귀모형에 포함된 각 분자표현자들의 값을 입력 받는, 같은 개수만큼의 노드들로 구성하였으며 출력층은 액체점성도를 출력하는 한 개의 노드로 구성하였다. 또한 은닉층의 활성화 함수로는 Sigmoid 함수 즉 을, 출력층의 활성화 함수로는 선형함수 즉 를 채택하였다. 따라서 입력층의 각 노드들이 받는 입력값들을 라 할 때 은닉층의 j번째 노드의 출력값은 와 같이 주어지며 은닉층이 개의 노드로 이루어져 있을 때 출력층 출력노드의 최종 출력값은 와 같이 주어진다. 여기서 는 문턱 가중치(threshold weight)를 의미한다.
탐색은 은닉노드의 수가 1개인 것부터 차례로 개수를 늘려가며 진행하는데 보통 입력노드 개수의 2배가 될 때까지 진행하지만 만족스러운 모형이 나오지 않을 경우 더 진행하여 탐색한다. 자세한 절차는 다음과 같다. 먼저 은닉노드의 각 개수 별로, 난수 발생 함수를 써서 생성한 가중치 들의 다양한 초기값세트(보통 1000세트이내)를 마련하고, 훈련집합을 사용하여 각 세트로 초기화된 신경망을 역전파 알고리즘을 통해 반복 훈련함으로써 가중치 들의 최적화된 값을 찾는다. 최적화에 대한 판단은 매 훈련 후 경신된 가중치들의 값으로 정해지는 모형을 검증집합에 적용하였을 때 그 평균제곱오차(mean square error)의 값이 최소가 되는 것으로 한다. 보통은 3000~5000번의 반복훈련 내에 이러한 시점이 나오게 된다. 이렇게 얻어진 각 초기값세트에 대응하는 최적화된 신경망모형을 훈련집합, 검증집합, 시험집합에 각각 적용하여 그 평균제곱오차들이 모두 다중선형회귀모형의 그것들보다 작은 것만을 모은다. 이러한 것이 여러 개 있을 경우, 결정계수나 평균절대오차 등을 기준으로 가장 우수한 모형을 선택한다.
이렇게 인공신경망모형이 선정되면 마지막으로 과적합(overfitting) 방지기준을 설정한다. 이는 과도한 훈련의 결과로 인공신경망이 미지의 입력에 대해 엉뚱한 답을 내놓는 불안정성을 개선하기 위한 조처로, 한 기준값을 정하여 인공신경망모형과 다중선형회귀모형의 예측값들 차이의 절대값이 기준값을 넘을 경우 다중선형회귀모형의 예측값을 채택하고 이보다 작을 경우 인공신경망모형의 값을 채택하게 하는 것을 말한다.
이 같은 과정을 거쳐 각 매개변수에 대한 QSPR 모형이 구축되면 다음으로 단계 6에서는 액체점성도에 대한 각 화합물의 실험데이터 전체를 SVRC 수식을 통해 계산된 값과 비교하는 테스트를 진행한다. 이때 SVRC 수식으로 예측값을 계산하려면 정상끓는점에서의 기화열()과 정상끓는점 등이 필요한데 이 정보에 대해서는 이미 알려져 있는 값 또는 QSPR 모형에 근거한 계산 방법에 의해서 구한 값을 활용하였다. 만일 실험값과 예측값의 오차가 용인할 수 있는 수준보다 클 경우, 단계 5로 돌아가 각 매개변수들에 대한 QSPR 모형을 다시 잡는다. 테스트를 통과한 경우 이를 완성된 SVRC 모형으로 채택한다.
이러한 과정을 거쳐 확립된 SVRC 모형에 대한 결과는 표 1~6에 간략히 정리되어 있다. 표 1~6는 각각 탄화수소에 대한 Tη=10 cP, η293.15K, ,η=10 cP, αt,η=10 cP, ,293.15k, αt,293.15k의 값을 예측하는 QSPR 모형을 간단히 기술한 것이며 이들을 바탕으로 탄화수소의 액체점성도를 예측하는 SVRC 모형과 그 성능에 대한 결과는 표 7에 나와 있고 탄화수소 중 액체에 특화된 SVRC 모형은 표8에 나와있다. 또한 비탄화수소에 대한 Tη=10 cP, ,η=10 cP, αt,η=10 cP의 값을 예측하는 QSPR 모형은 표 9~11에 각각 기술되어 있다. 이렇게 확립된 비탄화수소의 액체 점성도를 예측하는 SVRC 모형과 그 성능에 대한 결과는 표 12에 나와 있다.
샘플화합물의 개수 | 303 |
분자표현자들의 개수 | 10 |
분자표현자들의 이름 | P1: 기화열(heat of vaporization) P2:Burden 행렬의 최저 고유값1/원자 반데르발스 부피 가중(lowest eigenvalue n. 1 of Burden matrix / weighted by atomic van der Waals volumes) P3:최저준위 비점유 분자궤도+1 에너지(LUMO+1 energy) P4: Balaban Y 지수(Balaban Y index) P5: Ghose-Viswanadhan-Wendoloski의 최면성 지수(80%차지)Ghose-Viswanadhan-Wendoloski hypnotic-like index at 80% P6: 꼭지 정도 평등상의 평균 정보 내용(mean information content on the vertex degree equality) P7: 평균제곱 거리 지수(Balaban)(mean square distance index (Balaban)) P8: 비교 분자 모멘트 분석3 사중극자xx/원자 반데르발스 부피 가중(Qxx COMMA2 value / weighted by atomic van der Waals volumes) P9: 분자 다중 경로 총수 차수7(molecular multiple path count of order 07) P10: 동경 분포 함수-8.5/원자량 가중(radial Distribution Function - 8.5 / weighted by atomic masses) |
회귀모형 결정계수 | 0.9741 |
회귀모형 AAE | 7.28K |
회귀모형 | |
인공신경망 결정계수 | 0.9861 |
인공신경망 AAE | 4.933 |
인공신경망모형 | |
과적합 방지기준 | 50K |
탄화수소의 에 대한 QSPR 예측모형의 주요 내용 | |
샘플화합물의 개수 | 269 |
분자표현자들의 개수 | 10 |
분자표현자들의 이름 | P1: 전자회절기반 3차원 분자구조 표현-차수15/비가중(3D-MoRSE - signal 15 / unweighted) P2: 정상 끓는점(normal boiling point(K)) P3: 2차 성분접근지향적 가중 포괄불변분자 지수/원자량 가중(2nd component accessibility directional WHIM index / weighted by atomic masses) P4: 동경 분포 함수-8.0/원자 편극도 가중(radial Distribution Function - 8.0 / weighted by atomic polarizabilities) P5: 동경 분포 함수-3.0/원자량 가중(radial Distribution Function - 3.0 / weighted by atomic masses) P6: Balaban 거리연결지수(Balaban distance connectivity index) P7: 가지치기 중심 지수(lopping centric index) P8: 전자회절기반 3차원 분자구조 표현-차수10/원자 Sanderson 전기음성도 가중(3D-MoRSE - signal 10 / weighted by atomic Sanderson electronegativities) P9: 전자회절기반 3차원 분자구조 표현-차수20/원자 Sanderson 전기음성도 가중(3D-MoRSE - signal 20 / weighted by atomic Sanderson electronegativities) P10: 동경 분포 함수-4.5/비가중(radial Distribution Function - 4.5 / unweighted) |
회귀모형 결정계수 | 0.9837 |
회귀모형 AAE | 0.137cP |
회귀모형 | |
인공신경망 결정계수 | 0.9917 |
인공신경망 AAE | 0.086cP |
인공신경망모형 | |
과적합 방지기준 | 1.4918cP |
탄화수소의 액체점성도가 10cP일 경우 에 대한 QSPR 예측모형의 주요 내용 | |
샘플화합물의 개수 | 303 |
분자표현자들의 개수 | 8 |
분자표현자들의 이름 |
P1: 동경 분포 함수-12.0/원자량 가중(radial Distribution Function - 12.0 / weighted by atomic masses) P2: Ghose-Viswanadhan-Wendoloski의 항종양성 지수(80% 차지)Ghose-Viswanadhan-Wendoloski antineoplastic-like index at 80% P3: 전자회절기반 3차원 분자구조 표현-차수14/원자 Sanderson 전기음성도 가중(3D-MoRSE - signal 14 / weighted by atomic Sanderson electronegativities) P4: 평균 위상학적 전하 지수 차수7(mean topological charge index of order7) P5: 방향족 결합의 상대적인 수(relative number of aromatic bonds) P6: 지렛대 가중 자기상관 차수2/비가중(leverage-weighted autocorrelation of lag 2 / Unweighted) P7: 거리/우회 고리 지수 차수10(distance/detour ring index of order 10) P8: 치환된 벤젠 sp2 탄소의 수(number of substituted benzene C(sp2)) |
회귀모형 결정계수 | 0.503 |
회귀모형 AAE | 0.1 |
회귀모형 | |
인공신경망 결정계수 | 0.524 |
인공신경망 AAE | 0.096 |
인공신경망모형 | |
과적합 방지기준 | 0.13 |
샘플화합물의 개수 | 303 |
분자표현자들의 개수 | 8 |
분자표현자들의 이름 | P1: Moran의 자기상관 차수5/원자 편극도 가중(Moran autocorrelation - lag 5 / Weighted by atomic polarizabilities ) P2: 원자가 꼭지도에 의한 2차 Zagreb의 지수(second Zagreb index by valence vertex degrees) P3: Broto-Moreau의 위상구조 자기상관-차수4/원자량 가중(Broto-Moreau autocorrelation of a topological structure - lag 4 / Weighted by atomic masses) P4: 평균제곱 거리 지수(Balaban)(mean square distance index (Balaban)) P5: 전자회절기반 3차원 분자구조 표현-차수17/원자량 가중(3D-MoRSE - signal 17 / weighted by atomic masses) P6: Burden 행렬의 최고 고유값1/원자량 가중(highest eigenvalue n. 1 of Burden matrix / weighted by atomic masses) P7: 6각형 고리의 수(number of 6-membered rings) P8: Balaban V 지수(Balaban V index) |
회귀모형 결정계수 | 0.7196 |
회귀모형 AAE | 0.063 |
회귀모형 | |
인공신경망 결정계수 | 0.8102 |
인공신경망 AAE | 0.052 |
인공신경망모형 | |
과적합 방지기준 | 0.3 |
탄화수소의 일 경우 αC에 대한 QSPR 예측모형의 주요 내용 | |
샘플화합물의 개수 | 299 |
분자표현자들의 개수 | 10 |
분자표현자들의 이름 | P1: 쌍극자모멘트 가중 모서리 인접행렬 고유값6(eigenvalue 06 from edge adj.adjacency matrix weighted by dipole moments) P2: 최대 부분전하 (Qmax)(max partial charge (Qmax)) P3: 1차 성분대칭지향적 가중 포괄불변분자 지수/원자 전자위상 상태 가중(1st component symmetry directional WHIM index / weighted by atomic electrotopological states) P4: 평균제곱 거리 지수 (Balaban)(mean square distance index (Balaban)) P5: R 최대 자기상관 차수5/원자 Sanderson 전기음성도 가중(R maximal autocorrelation of lag 5 / Weighted by atomic Sanderson electronegativities) P6: 평균 원자가 결합지수 차수3(average valence connectivity index chi-3) P7: 평균 연결지수 차수4(average connectivity index chi-4) P8: Balaban V 지수(Balaban V index) P9: 지렛대 가중 자기상관 차수5/비가중(leverage-weighted autocorrelation of lag 5 / Unweighted) P10: 비방향족 접합 sp2 탄소의 수(number of non-aromatic conjugated C(sp2)) |
결정계수 | 0.476 |
평균절대오차 | 0.4736 |
모형 |
탄화수소의 일 경우 αt에 대한 QSPR 예측모형의 주요 내용 | |
샘플화합물의 개수 | 299 |
분자표현자들의 개수 | 10 |
분자표현자들의 이름 | P1: 평균 원자가 결합지수 차수4(average valence connectivity index chi-4) P2: 비방향족 접합 sp2 탄소의 수(number of non-aromatic conjugated C(sp2)) P3: 관성 모멘트 A(moment of inertia A) P4: 이중결합의 상대적인 수(relative number of double bonds) P5: 친수성 인자(hydrophilic factor) P6: 전자회절기반 3차원 분자구조 표현-차수27/원자량 가중(3D-MoRSE - signal 27 / weighted by atomic masses) P7: 공명적분 가중모서리 인접행렬 고유값3 (eigenvalue 03 from edge adj.adjacency matrix weighted by resonance integrals) P8: 최고준위 점유 분자궤도 - 1 에너지(HOMO-1 energy) P9: 동경 분포 함수-5.5/원자 Sanderson 전기음성도 가중(radial Distribution Function - 5.5 / weighted by atomic Sanderson electronegativities) P10: 꼭지 정도 평등상의 평균 정보 내용(mean information content on the vertex degree equality) |
회귀모형 결정계수 | 0.9765 |
회귀모형 AAE | 0.1893 |
회귀모형 | |
인공신경망 결정계수 | 0.9871 |
인공신경망 AAE | 0.1477 |
인공신경망모형 | |
과적합 방지기준 | 0.8 |
샘플 화합물들의 개수 | 271 |
실험데이터의 개수 | 5406 |
결정계수 | 0.984 |
평균절대오차 | 0.222cP |
모 형 |
|
샘플화합물의 개수 | 598 |
분자표현자들의 개수 | 15 |
분자표현자들의 이름 | P1: 산소원자의 최대 결합차수(max bond order of a O atom) P2: 산소원자의 최대 순원자전하(max net atomic charge for a O atom) P3: 수소원자의 최소 원자가(min valency of a H atom) P4: 전자회절기반 3차원 분자구조 표현-차수8/원자 반데르발스 부피 가중(3D-MoRSE - signal 08 / weighted by atomic van der Waals volumes) P5: 정상 끓는점에서의 기화열(heat of vaporization at normal boiling point) P6: 위상거리4 C-C 결합의 빈도(frequency of C - C at topological distance 04) P7: 거리/우회 고리 지수 차수5(distance/detour ring index of order 5) P8: =O 기능기 수(=O) P9: 최대 전자위상적 양의 편차(maximal electrotopological positive variation) P10: 위상거리3 O-O 결합의 존재여부(presence/absence of O - O at topological distance 03) P11: 전체전하 가중 부분양전하 표면적 분율(FPSA-2 Fractional PPSA (PPSA-2/TMSA)) P12: (지방족) 에테르의 수(number of ethers (aliphatic)) P13: R 자기상관 차수2/원자량 가중(R autocorrelation of lag 2 / Weighted by atomic masses) P14: R 최대 자기상관 차수2/원자 반데르발스 부피 가중 P15: YZ 그림자 / YZ 직사각형(YZ Shadow / YZ Rectangle) |
회귀모형 결정계수 | 0.91 |
회귀모형 AAE | 14.522K |
회귀모형 | |
인공신경망 결정계수 | 0.943 |
인공신경망 AAE | 11.622K |
인공신경망모형 | |
과적합 방지기준 | 50K |
비탄화수소의 에 대한 QSPR 예측모형의 주요 내용 | |
샘플화합물의 개수 | 597 |
분자표현자들의 개수 | 10 |
분자표현자들의 이름 | P1: 동경 분포 함수-3.0/원자량 가중(radial Distribution Function - 3.0 / weighted by atomic masses) P2: R--CR--X 기능기 수(R--CR ─X) P3: 위상거리2 N-O 결합의 존재여부(presence/absence of N - O at topological distance 02) P4: R-SO2-R 기능기 수(R-SO2-R) P5: 산소원자의 평균 친전자 반응지수(average electrophilic reactivity index for a O atom) P6: 술폰의 수(number of sulfones) P7: 수소원자의 최대 순원자전하(max net atomic charge for a H atom) P8: 삼중결합의 상대적인 수(relative number of triple bonds) P9: 탄소원자의 최소 부분전하(min partial charge for a C atom) P10: 동경 분포 함수-9.5/원자량 가중(radial Distribution Function - 9.5 / weighted by atomic masses) |
결정계수 | 0.312 |
절대표준오차 | 0.292 |
모형 |
샘플화합물의 개수 | 597 |
분자표현자들의 개수 | 12 |
분자표현자들의 이름 | P1: 치환된 벤젠 sp2 탄소의 수(number of substituted benzene C(sp2)) P2: 2차 Mohar의 지수 TI2(second Mohar index TI2) P3: (지방족) 카르복실산의 수(number of carboxylic acids (aliphatic) ) P4: R 자기상관 차수3/원자 반데르발스 부피 가중(R autocorrelation of lag 3 / Weighted by atomic van der Waals volumes) P5: 지렛대 가중 자기상관 차수4/비가중(leverage-weighted autocorrelation of lag 4 / Unweighted) P6: 동경 분포 함수-7.0/비가중(radial Distribution Function - 7.0 / unweighted) P7: 고리의 상대적인 수(relative number of rings) P8: 총 크기지수/비가중(a total size index / unweighted ) P9: 전자회절기반 3차원 분자구조 표현-차수13/원자량 가중(3D-MoRSE - signal 13 / weighted by atomic masses ) P10: 전자회절기반 3차원 분자구조 표현-차수20/비가중(3D-MoRSE - signal 20 / unweighted) P11: 분자내 수소결합의 수 (number of intramolecular H-bonds) P12: 전자회절기반 3차원 분자구조 표현-차수18/원자 반데르발스 부피 가중(3D-MoRSE - signal 18 / weighted by atomic van der Waals volumes) |
결정계수 | 0.449 |
절대표준오차 | 0.126 |
모형 |
본 발명이 기존 기술보다 우월함을 보이기 위해 797개 화합물의 13,541개의 실험데이터에 대해 본 발명의 SVRC 모형과 널리 사용되는 기존 모형으로 위에 언급되었던 Letsou-Stiel, Joback, Orrick-Erbar 모형의 예측성능을 비교하였다. 그 결과 Letsou-Stiel 모형은 529개의 화합물 8,969개의 실험데이터가 계산되고 로그를 취했을 때 0.704의 결정계수값을 가지고 1.59cP의 평균절대오차값을 가지고, Joback 모형은 424개의 화합물 7,200개의 실험데이터가 계산되고 로그를 취했을 때 0.826의 결정계수값을 가지고 0.793cP의 평균절대오차값을 가지고 Orrick-Erbar모형은 585개의 화합물 10,001개의 데이타이 계산되고 로그를 취했을 때 0.703의 결정계수값을 가지고 1.94cP의 평균절대오차값을 보인 반면 본 발명의 SVRC 모형은 0.913의 결정계수값과 0.796cP의 평균절대오차값을 보여 현저히 우수함을 알게 되었다. 도 5~8은 예로 몇몇 화합물에 대해 각 모형의 예측성능을 비교한 도면들이다. 이 도면들로부터 SVRC 모형이 기존 모형보다 우수한 성능을 가짐을 눈으로 확인할 수 있다. 한편 위의 실험데이터에 대해 실험값과 예측값 사이의 오차를 히스토그램으로 그린 것이 도 9~12이다. 이 도면들은, Letsou-Stiel 모형은 58.93%, Joback 모형은 73.28%, Orrick-Erbar 모형은 19.67%, SVRC 모형은 83.88%의 확률로 0.3cP의 오차 이내로 액체점성도를 예측하고 있음을 보여주어 SVRC 모형이 보다 정확함을 증명해준다.
본 발명은 상기한 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형실시가 가능한 것은 물론, 그와 같은 변경은 청구범위 기재의 범위 내에 있게 된다.
Claims (45)
- 수집된 샘플 유기화합물들 중 탄화수소 유기화합물의 실험데이터를 입력하는 제1단계;
샘플 화합물들의 탄화수소 유기화합물의 액체 점성도에 대한 분자표현자값을 준비하는 제2단계;
하기 식(1)에 기재되어 있는 SVRC 수식에 필요한 매개변수를 구하는 제3단계
식(1)
[여기서 는 점성도, 는 탄화수소의 액체점성도가 10cP일 때의 온도, 는 스케일링 지수이며 는 각각 임계점과 액체점성도가 10cP일 때의 온도에서의 값, 는 임계온도, T 는 온도];
상기 제3단계에서 얻은 상기 매개변수인 탄화수소의 액체점성도가 10cP일 때의 온도, 임계점과 액체점성도가 10cP일 때의 온도에서의 값에 대한 QSPR 모형을 구축하는 제4단계;
상기 실험 데이터로 예측성능을 테스트하는 제5단계; 및
상기 제5단계의 테스트를 만족하면 탐색된 모형에 의한 액체 점성도 예측값을 액체 점성도 값으로 채택하고, 만족하지 못하면 제4단계, 제5단계를 반복하는 제6단계를 포함하는 SVRC 모형에 의해서 탄화수소 유기화합물의 액체 점성도를 구하는 방법.
- 제1항에 있어서, 상기 제4단계에서 탄화수소의 액체점성도가 10cP일 때의 온도, 임계점과 액체점성도가 10cP일 때의 온도에서의 에 대한 QSPR 모형을 구하는 방법은
상기 탄화수소의 액체점성도가 10cP일 때의 온도, 임계점과 액체점성도가 10cP일 때의 온도에서의 에 대한 최적의 분자표현자들을 추출하는 제4-0단계;
훈련집합과 시험집합으로 실험데이터를 분리하는 제4-1단계;
훈련집합에 대하여 최적의 다중선형회귀모형을 탐색하는 제4-2단계;
선택된 모형의 타당성을 검토하는 제4-3단계;
상기 제4-3단계에서 타당성이 없으면, 상기 제4-2단계, 제4-3단계를 반복하고, 타당성이 있으면 시험집합에 대하여 모형의 예측성능을 테스트하는 제4-4단계;
시험집합에 대한 상기 제4-4단계 테스트에서 성능이 기준을 만족하지 못하면 제4-2단계 내지 제4-4단계를 반복하고, 성능이 기준을 만족하면 샘플 표준화 후 3개 집합으로 분리하는 제4-5단계;
전체 샘플을 3개 집합으로 나눈 후에 최적의 인공신경망모형을 탐색하는 제4-6단계;
상기 제4-5단계에서 성능 테스트를 만족하는 상기 최적의 다중선형회귀모형에 의해서 구한 액체점성도가 10cP일 때의 온도, 임계점과 액체점성도가 10cP일 때의 온도에서의 예측값과 상기 제4-6단계에서 탐색된 상기 최적의 인공신경망모형에 의해서 구한 액체점성도가 10cP일 때의 온도, 임계점과 액체점성도가 10cP일 때의 온도에서의 예측값 차이의 절대값을 미리 설정된 과적합 방지 기준값과 비교하는 제4-7단계; 및
상기 차이가 상기 과적합 방지 기준값 보다 크면 상기 제4-5단계에서 얻은 다중선형회귀모형에 의한 액체점성도가 10cP일 때의 온도, 임계점과 액체점성도가 10cP 일 때의 온도에서의 예측값을 액체점성도가 10cP일 때의 온도, 임계점과 액체점성도가 10cP 일 때의 온도에서의 값으로 채택하고 상기 과적합 방지 기준값 보다 작으면 상기 제4-6단계에서 탐색된 인공신경망모형에 의한 액체점성도가 10cP일 때의 온도, 임계점과 액체점성도가 10cP 일 때의 온도에서의 예측값을 액체점성도가 10cP일 때의 온도, 임계점과 액체점성도가 10cP 일 때의 온도에서의 값으로 채택하는 제4-8단계를 포함하는 SVRC 모형에 의해서 탄화수소 유기화합물의 액체 점성도를 구하는 방법.
- 제2항에 있어서, 상기 제4-0단계에서 최적의 분자표현자는 모든 샘플 화합물에 대해 값이 동일하지 않은 독립적인 분자표현자인 것을 특징으로 하는 SVRC 모형에 의해서 탄화수소 유기화합물의 액체 점성도를 구하는 방법.
- 제3항에 있어서, 상기 제4-1단계에서 훈련집합과 시험집합은 5:5 ~ 8:2의 비율로 나누는 것을 특징으로 하는 SVRC 모형에 의해서 탄화수소 유기화합물의 액체 점성도를 구하는 방법.
- 제3항에 있어서, 상기 제4-2단계에서 상기 다중선형회귀모형은 상기 훈련집합에 대하여 유전적 알고리즘(genetic algorithm)을 적용하여 다중선형회귀모형을 탐색하는 것을 특징으로 하는 SVRC 모형에 의해서 탄화수소 유기화합물의 액체 점성도를 구하는 방법.
- 제5항에 있어서, 상기 유전적 알고리즘(genetic algorithm)은 분자표현자들의 풀(pool)에서 일정한 개수의 분자표현자들을 무작위로 뽑아 만든 다수의 다중선형회귀모형들로 구성된 개체군(population)을 생성하는 단계; 각 개체(individual)들은 뽑힌 분자표현자들의 번호들을 조합하여 부호화하는 단계; 생성된 개체군으로부터 룰렛휠(Roulette Wheel) 방법에 의해서 두 개의 부모 염색체를 선택한 뒤 단순교배(single point crossover)법에 의하여 자손들을 생성하는 단계; 및 생성된 자손들의 염색체 일부를 일정 확률로 돌연변이(mutation) 시킨 뒤 기존 개체군의 일부를 이들로 교체하여 새 개체군을 생성하는 단계를 포함하는 것을 특징으로 하는 SVRC 모형에 의해서 탄화수소 유기화합물의 액체 점성도를 구하는 방법.
- 제3항에 있어서, 상기 제4-2단계는 회귀모형의 결정계수 또는 평균절대오차에 의해서 예측성능을 판단하는 것을 포함하는 SVRC 모형에 의해서 탄화수소 유기화합물의 액체 점성도를 구하는 방법.
- 제3항에 있어서, 상기 상기 제4-3단계에서 타당성은 t검정값에 의해서 타당성을 결정하는 SVRC 모형에 의해서 탄화수소 유기화합물의 액체 점성도를 구하는 방법.
- 제3항에 있어서, 상기 제4-5단계에서 시험집합에 대한 예측성능이 훈련집합에 대한 예측성능과 유사하면 다중선형회귀모형이 결정되고, 시험집합에 대한 예측성능이 훈련집합에 대한 예측성능과 차이 나면 훈련집합과 시험집합을 다시 분류하는 SVRC 모형에 의해서 탄화수소 유기화합물의 액체 점성도를 구하는 방법.
- 제3항에 있어서, 상기 제4-6단계에서 상기 인공신경망에 의한 탐색범위는 입력층과 출력층 사이에 하나의 은닉층을 가지며 전방향(feed forward)으로 만 연결되어 있는 것을 특징으로 하는 SVRC 모형에 의해서 탄화수소 유기화합물의 액체 점성도를 구하는 방법.
- 제10항에 있어서, 상기 은닉층의 활성화 함수로는 시그모이드(Sigmoid) 함수를 사용하는 것을 특징으로 하는 SVRC 모형에 의해서 탄화수소 유기화합물의 액체 점성도를 구하는 방법.
- 제1항 내지 제12항 중 어느 한 항에 의해 탄화수소 유기화합물의 액체 점성도를 구하는 방법을 컴퓨터에서 실행시키기 위한 프로그램으로 기록하고 컴퓨터로 읽을 수 있는 저장 매체.
- 수집된 샘플 유기화합물들 중 298K에서 액체인 탄화수소 유기화합물의 실험데이터를 입력하는 제1단계;
샘플 화합물들의 298K에서 액체인 탄화수소 유기화합물의 액체 점성도에 대한 분자표현자값을 준비하는 제2단계;
하기 식(2)에 기재되어 있는 SVRC 수식에 필요한 매개변수를 구하는 제3단계
식(2)
[여기서 는 점성도, 는 293.15K에서의 탄화수소의 액체점성도, 는 스케일링 지수이며 는 각각 임계점과 293.15K에서의 값, 는 임계온도, T 는 온도];
상기 제3단계에서 얻은 상기 매개변수인 293.15K에서의 탄화수소의 액체점성도, 임계점과 293.15K에서의 에 대한 QSPR 모형을 구축하는 제4단계;
상기 실험 데이터로 예측성능을 테스트하는 제5단계; 및
상기 제5단계의 테스트를 만족하면 탐색된 모형에 의한 액체 점성도 예측값을 액체 점성도 값으로 채택하고, 만족하지 못하면 제4단계, 제5단계를 반복하는 제6단계를 포함하는 SVRC 모형에 의해서 298K에서 액체인 탄화수소 유기화합물의 액체 점성도를 구하는 방법.
- 제14항에 있어서, 상기 제4단계에서 293.15K에서의 탄화수소의 액체점성도, 293.15K에서의 에 대한 QSPR 모형을 구하는 방법은
상기 탄화수소의 액체점성도, 임계점과 293.15K에서의 에 대한 최적의 분자표현자들을 추출하는 제4-0단계;
훈련집합과 시험집합으로 실험데이터를 분리하는 제4-1단계;
훈련집합에 대하여 최적의 다중선형회귀모형을 탐색하는 제4-2단계;
선택된 모형의 타당성을 검토하는 제4-3단계;
상기 제4-3단계에서 타당성이 없으면, 상기 제4-2단계, 제4-3단계를 반복하고, 타당성이 있으면 시험집합에 대하여 모형의 예측성능을 테스트하는 제4-4단계;
시험집합에 대한 상기 제4-4단계 테스트에서 성능이 기준을 만족하지 못하면 제4-2단계 내지 제4-4단계를 반복하고, 성능이 기준을 만족하면 샘플 표준화 후 3개 집합으로 분리하는 제4-5단계;
전체 샘플을 3개 집합으로 나눈 후에 최적의 인공신경망모형을 탐색하는 제4-6단계;
상기 제4-5단계에서 성능 테스트를 만족하는 상기 최적의 다중선형회귀모형에 의해서 구한 293.15K에서의 탄화수소의 액체점성도, 293.15K에서의 예측값과 상기 제4-6단계에서 탐색된 상기 최적의 인공신경망모형에 의해서 구한 탄화수소의 액체점성도가 10cP일 때의 온도, 293.15K에서의 탄화수소의 액체점성도, 293.15K에서의 예측값 차이의 절대값을 미리 설정된 과적합 방지 기준값과 비교하는 제4-7단계; 및
상기 차이가 상기 과적합 방지 기준값 보다 크면 상기 제4-5단계에서 얻은 다중선형회귀모형에 의한 293.15K에서의 탄화수소의 액체점성도, 293.15K에서의 예측값을 293.15K에서의 탄화수소의 액체점성도, 293.15K에서의 값으로 채택하고 상기 과적합 방지 기준값 보다 작으면 상기 제4-6단계에서 탐색된 인공신경망모형에 의한 293.15K에서의 탄화수소의 액체점성도, 293.15K에서의 예측값을 293.15K에서의 탄화수소의 액체점성도, 293.15K에서의 값으로 채택하는 제5-8단계를 포함하고,
상기 제4단계에서 임계점에서의 에 대한 QSPR 모형을 구하는 방법은
상기 제4-1단계 내지 제4-4단계와 시험집합에 대한 상기 제4-4단계 테스트에서 성능이 기준을 만족하지 못하면 제4-2단계 내지 제4-4단계를 반복하고, 성능이 기준을 만족하면 최적의 다중선형회귀모형으로 결정하는 제4-5-1단계; 및
상기 제4-5-1단계에서 성능 테스트를 만족하는 상기 다중선형회귀모형을 통하여 임계점에서의 값을 구하는 제4-6-1단계를 포함하는 SVRC 모형에 의해서 298K에서 액체인 탄화수소 유기화합물의 액체 점성도를 구하는 방법.
- 제15항에 있어서, 상기 제4-0단계에서 최적의 분자표현자는 모든 샘플 화합물에 대해 값이 동일하지 않은 독립적인 분자표현자인 것을 특징으로 하는 SVRC 모형에 의해서 298K에서 액체인 탄화수소 유기화합물의 액체 점성도를 구하는 방법.
- 제16항에 있어서, 상기 제4-1단계에서 훈련집합과 시험집합은 5:5 ~ 8:2의 비율로 나누는 것을 특징으로 하는 SVRC 모형에 의해서 298K에서 액체인 탄화수소 유기화합물의 액체 점성도를 구하는 방법.
- 제16항에 있어서, 상기 제4-2단계에서 상기 다중선형회기선형회귀 모형은 상기 훈련집합에 대하여 유전적 알고리즘(genetic algorithm)을 적용하여 다중선형회기선형회귀모형을 탐색하는 것을 특징으로 하는 SVRC 모형에 의해서 298K에서 액체인 탄화수소 유기화합물의 액체 점성도를 구하는 방법.
- 제18항에 있어서, 상기 유전적 알고리즘(genetic algorithm)은 분자표현자들의 풀(pool)에서 일정한 개수의 분자표현자들을 무작위로 뽑아 만든 다수의 다중선형회귀모형들로 구성된 개체군(population)을 생성하는 단계; 각 개체(individual)들은 뽑힌 분자표현자들의 번호들을 조합하여 부호화하는 단계; 생성된 개체군으로부터 룰렛휠(Roulette Wheel) 방법에 의해서 두 개의 부모 염색체를 선택한 뒤 단순교배(single point crossover)법에 의하여 자손들을 생성하는 단계; 및 생성된 자손들의 염색체 일부를 일정 확률로 돌연변이(mutation) 시킨 뒤 기존 개체군의 일부를 이들로 교체하여 새 개체군을 생성하는 단계를 포함하는 것을 특징으로 하는 SVRC 모형에 의해서 298K에서 액체인 탄화수소 유기화합물의 액체 점성도를 구하는 방법.
- 제16항에 있어서, 상기 제4-2단계는 회귀모형의 결정계수 또는 평균절대오차에 의해서 예측성능을 판단하는 것을 포함하는 SVRC 모형에 의해서 298K에서 액체인 탄화수소 유기화합물의 액체 점성도를 구하는 방법.
- 제16항에 있어서, 상기 제4-3단계에서 타당성은 t검정값에 의해서 타당성을 결정하는 SVRC 모형에 의해서 298K에서 액체인 탄화수소 유기화합물의 액체 점성도를 구하는 방법.
- 제16항에 있어서, 상기 제4-5단계에서 시험집합에 대한 예측성능이 훈련집합에 대한 예측성능과 유사하면 다중선형회귀모형이 결정되고, 시험집합에 대한 예측성능이 훈련집합에 대한 예측성능과 차이 나면 훈련집합과 시험집합을 다시 분류하는 SVRC 모형에 의해서 298K에서 액체인 탄화수소 유기화합물의 액체 점성도를 구하는 방법.
- 제16항에 있어서, 상기 제4-6단계에서 상기 인공신경망에 의한 탐색범위는 입력층과 출력층 사이에 하나의 은닉층을 가지며 전방향(feed forward)으로 만 연결되어 있는 것을 특징으로 하는 SVRC 모형에 의해서 298K에서 액체인 탄화수소 유기화합물의 액체 점성도를 구하는 방법.
- 제23항에 있어서, 상기 은닉층의 활성화 함수로는 시그모이드(Sigmoid) 함수를 사용하는 것을 특징으로 하는 SVRC 모형에 의해서 298K에서 액체인 탄화수소 유기화합물의 액체 점성도를 구하는 방법.
- 제14항 내지 제25항 중 어느 한 항에 의해 298K에서 액체인 탄화수소 유기화합물의 액체 점성도를 구하는 방법을 컴퓨터에서 실행시키기 위한 프로그램으로 기록하고 컴퓨터로 읽을 수 있는 저장 매체.
- 수집된 샘플 유기화합물들 중 비탄화수소 유기화합물의 실험데이터를 입력하는 제1단계;
샘플 화합물들 중 비탄화수소 유기화합물의 액체 점성도에 대한 분자표현자값을 준비하는 제2단계;
하기 식(3)에 기재되어 있는 SVRC 수식에 필요한 매개변수를 구하는 제3단계
식(3)
[여기서 는 점성도, 는 비탄화수소의 액체점성도가 10cP일 때의 온도, 는 스케일링 지수이며 는 각각 임계점과 액체점성도가 10cP일 때의 온도에서의 값, 는 임계온도, T 는 온도];
상기 제3단계에서 얻은 상기 매개변수인 비탄화수소의 액체점성도가 10cP일 때의 온도, 임계점과 액체점성도가 10cP일 때의 온도에서의 에 대한 QSPR 모형을 구축하는 제4단계;
상기 실험 데이터로 예측성능을 테스트하는 제5단계; 및
상기 제5단계의 테스트를 만족하면 탐색된 모형에 의한 액체 점성도 예측값을 액체 점성도 값으로 채택하고, 만족하지 못하면 제4단계, 제5단계를 반복하는 제6단계를 포함하는 SVRC 모형에 의해서 비탄화수소 유기화합물의 액체 점성도를 구하는 방법.
- 제27항에 있어서, 상기 제4단계에서 비탄화수소의 액체점성도가 10cP일 때의 온도에 대한 QSPR 모형을 구하는 방법은
상기 비탄화수소의 액체점성도가 10cP일 때의 온도, 임계점과 액체점성도가 10cP일 때의 온도에서의 에 대하여 각각 최적의 분자표현자들을 추출하는 제4-0단계;
훈련집합과 시험집합으로 실험데이터를 분리하는 제4-1단계;
훈련집합에 대하여 최적의 다중선형회귀모형을 탐색하는 제4-2단계;
선택된 모형의 타당성을 검토하는 제4-3단계;
상기 제4-3단계에서 타당성이 없으면, 상기 제4-2단계, 제4-3단계를 반복하고, 타당성이 있으면 시험집합에 대하여 모형의 예측성능을 테스트하는 제4-4단계;
시험집합에 대한 상기 제4-4단계 테스트에서 성능이 기준을 만족하지 못하면 제4-2단계 내지 제4-4단계를 반복하고, 성능이 기준을 만족하면 샘플 표준화 후 3개 집합으로 분리하는 제4-5단계;
전체 샘플을 3개 집합으로 나눈 후에 최적의 인공신경망모형을 탐색하는 제4-6단계;
상기 제4-5단계에서 성능 테스트를 만족하는 상기 최적의 다중선형회귀모형에 의해서 구한 비탄화수소의 액체점성도가 10cP일 때의 온도 예측값과 상기 제4-6단계에서 탐색된 상기 최적의 인공신경망모형에 의해서 구한 비탄화수소의 액체점성도가 10cP일 때의 온도 예측값 차이의 절대값을 미리 설정된 과적합 방지 기준값과 비교하는 제4-7단계; 및
상기 차이가 상기 과적합 방지 기준값 보다 크면 상기 제4-5단계에서 얻은 다중선형회귀모형에 의한 비탄화수소의 액체점성도가 10cP일 때의 온도 예측값을 비탄화수소의 액체점성도가 10cP일 때의 온도 값으로 채택하고 상기 과적합 방지 기준값 보다 작으면 상기 제4-6단계에서 탐색된 인공신경망모형에 의한 비탄화수소의 액체점성도가 10cP일 때의 온도 예측값을 비탄화수소의 액체점성도가 10cP일 때의 온도 값으로 채택하는 제4-8단계를 포함하고,
상기 제4단계에서 임계점과 액체점성도가 10cP일 때의 온도에서의 에 대한 QSPR 모형을 구하는 방법은
상기 제4-1단계 내지 제4-4단계와 시험집합에 대한 상기 제4-4단계 테스트에서 성능을 만족성능이 기준을 만족하지 못하면 제4-2단계 내지 제4-4단계를 반복하고, 성능을 만족성능이 기준을 만족하면 최적의 다중선형회귀모형으로 결정하는 제4-5-1단계; 및
상기 제4-5-1단계에서 성능 테스트를 만족하는 상기 다중선형회귀모형을 통하여 임계점과 액체점성도가 10cP일 때의 온도에서의 값을 구하는 제4-6-1단계를 포함하는 SVRC 모형에 의해서 비탄화수소 유기화합물의 액체 점성도를 구하는 방법.
- 제28항에 있어서, 상기 제4-0단계에서 최적의 분자표현자는 모든 샘플 화합물에 대해 값이 동일하지 않은 독립적인 분자표현자인 것을 특징으로 하는 SVRC 모형에 의해서 비탄화수소 유기화합물의 액체 점성도를 구하는 방법.
- 제29항에 있어서, 상기 제4-1단계에서 훈련집합과 시험집합은 5:5 ~ 8:2의 비율로 나누는 것을 특징으로 하는 SVRC 모형에 의해서 비탄화수소 유기화합물의 액체 점성도를 구하는 방법.
- 제29항에 있어서, 상기 제4-2단계에서 상기 다중선형회귀모형은 상기 훈련집합에 대하여 유전적 알고리즘(genetic algorithm)을 적용하여 다중선형회귀모형을 탐색하는 것을 특징으로 하는 SVRC 모형에 의해서 비탄화수소 유기화합물의 액체 점성도를 구하는 방법.
- 제31항에 있어서, 상기 유전적 알고리즘(genetic algorithm)은 분자표현자들의 풀(pool)에서 일정한 개수의 분자표현자들을 무작위로 뽑아 만든 다수의 다중선형회귀모형들로 구성된 개체군(population)을 생성하는 단계; 각 개체(individual)들은 뽑힌 분자표현자들의 번호들을 조합하여 부호화하는 단계; 생성된 개체군으로부터 룰렛휠(Roulette Wheel) 방법에 의해서 두 개의 부모 염색체를 선택한 뒤 단순교배(single point crossover)법에 의하여 자손들을 생성하는 단계; 및 생성된 자손들의 염색체 일부를 일정 확률로 돌연변이(mutation) 시킨 뒤 기존 개체군의 일부를 이들로 교체하여 새 개체군을 생성하는 단계를 포함하는 것을 특징으로 하는 SVRC 모형에 의해서 비탄화수소 유기화합물의 액체 점성도를 구하는 방법.
- 제29항에 있어서, 상기 제4-2단계는 회귀모형의 결정계수 또는 평균절대오차에 의해서 예측성능을 판단하는 것을 포함하는 SVRC 모형에 의해서 비탄화수소 유기화합물의 액체 점성도를 구하는 방법.
- 제29항에 있어서, 상기 제4-3단계에서 타당성은 t검정값에 의해서 타당성을 결정하는 SVRC 모형에 의해서 비탄화수소 유기화합물의 액체 점성도를 구하는 방법.
- 제29항에 있어서, 상기 제4-5단계에서 시험집합에 대한 예측성능이 훈련집합에 대한 예측성능과 유사하면 다중선형회귀모형이 결정되고, 시험집합에 대한 예측성능이 훈련집합에 대한 예측성능과 차이 나면 훈련집합과 시험집합을 다시 분류하는 SVRC 모형에 의해서 비탄화수소 유기화합물의 액체 점성도를 구하는 방법.
- 제29항에 있어서, 상기 제4-6단계에서 상기 인공신경망에 의한 탐색범위는 입력층과 출력층 사이에 하나의 은닉층을 가지며 전방향(feed forward)으로 만 연결되어 있는 것을 특징으로 하는 SVRC 모형에 의해서 비탄화수소 유기화합물의 액체 점성도를 구하는 방법.
- 제36항에 있어서, 상기 은닉층의 활성화 함수로는 시그모이드(Sigmoid) 함수를 사용하는 것을 특징으로 하는 SVRC 모형에 의해서 비탄화수소 유기화합물의 액체 점성도를 구하는 방법.
- 제29항에 있어서, 상기 제4-7단계에서 탄화수소의 액체점성도가 10cP일 때의 온도에 대한 상기 과적합 방지 기준은 50K 인 것을 특징으로 하는 SVRC 모형에 의해서 비탄화수소 유기화합물의 액체 점성도를 구하는 방법.
- 제27항 내지 제38항 중 어느 한 항에 의해 비탄화수소 유기화합물의 액체 점성도를 구하는 방법을 컴퓨터에서 실행시키기 위한 프로그램으로 기록하고 컴퓨터로 읽을 수 있는 저장 매체.
- 제2항에 있어서, 상기 제4-0단계에서 상기 탄화수소의 액체점성도가 10cP일 때의 온도에 대하여 추출된 분자표현자는
P1: 기화열(heat of vaporization),
P2:Burden 행렬의 최저 고유값1/원자 반데르발스 부피 가중(lowest eigenvalue n. 1 of Burden matrix / weighted by atomic van der Waals volumes),
P3:최저준위 비점유 분자궤도+1 에너지(LUMO+1 energy),
P4: Balaban Y 지수(Balaban Y index),
P5: Ghose-Viswanadhan-Wendoloski의 최면성 지수(80%차지)Ghose-Viswanadhan-Wendoloski hypnotic-like index at 80%,
P6: 꼭지 정도 평등상의 평균 정보 내용(mean information content on the vertex degree equality),
P7: 평균제곱 거리 지수(Balaban)(mean square distance index (Balaban)),
P8: 비교 분자 모멘트 분석3 사중극자xx/원자 반데르발스 부피 가중(Qxx COMMA2 value / weighted by atomic van der Waals volumes),
P9: 분자 다중 경로 총수 차수7(molecular multiple path count of order 07), 및
P10: 동경 분포 함수-8.5/원자량 가중(radial Distribution Function - 8.5 / weighted by atomic masses)을 포함하며,
상기 임계점에서의 에 대하여 추출된 분자표현자는
P1: 동경 분포 함수-12.0/원자량 가중(radial Distribution Function - 12.0 / weighted by atomic masses),
P2: Ghose-Viswanadhan-Wendoloski의 항종양성 지수(80% 차지)Ghose-Viswanadhan-Wendoloski antineoplastic-like index at 80%,
P3: 전자회절기반 3차원 분자구조 표현-차수14/원자 Sanderson 전기음성도 가중(3D-MoRSE - signal 14 / weighted by atomic Sanderson electronegativities),
P4: 평균 위상학적 전하 지수 차수7(mean topological charge index of order7),
P5: 방향족 결합의 상대적인 수(relative number of aromatic bonds),
P6: 지렛대 가중 자기상관 차수2/비가중(leverage-weighted autocorrelation of lag 2 / Unweighted),
P7: 거리/우회 고리 지수 차수10(distance/detour ring index of order 10), 및
P8: 치환된 벤젠 sp2 탄소의 수(number of substituted benzene C(sp2))을 포함하고,
상기 액체점성도가 10cP일 때의 온도에서의 에 대하여 추출된 분자표현자는
P1: Moran의 자기상관 차수5/원자 편극도 가중(Moran autocorrelation - lag 5 / Weighted by atomic polarizabilities ),
P2: 원자가 꼭지도에 의한 2차 Zagreb의 지수(second Zagreb index by valence vertex degrees),
P3: Broto-Moreau의 위상구조 자기상관-차수4/원자량 가중(Broto-Moreau autocorrelation of a topological structure - lag 4 / Weighted by atomic masses),
P4: 평균제곱 거리 지수(Balaban)(mean square distance index (Balaban)),
P5: 전자회절기반 3차원 분자구조 표현-차수17/원자량 가중(3D-MoRSE - signal 17 / weighted by atomic masses),
P6: Burden 행렬의 최고 고유값1/원자량 가중(highest eigenvalue n. 1 of Burden matrix / weighted by atomic masses),
P7: 6각형 고리의 수(number of 6-membered rings), 및
P8: Balaban V 지수(Balaban V index)를 포함하는 것을 특징으로 하는 SVRC 모형에 의해서 탄화수소 유기화합물의 액체 점성도를 구하는 방법.
- 제15항에 있어서, 상기 제4-0단계에서
상기 293.15K에서의 탄화수소의 액체점성도에 대하여 추출된 분자표현자는
P1: 전자회절기반 3차원 분자구조 표현-차수15/비가중(3D-MoRSE - signal 15 / unweighted),
P2: 정상 끓는점(normal boiling point(K)),
P3: 2차 성분접근지향적 가중 포괄불변분자 지수/원자량 가중(2nd component accessibility directional WHIM index / weighted by atomic masses),
P4: 동경 분포 함수-8.0/원자 편극도 가중(radial Distribution Function - 8.0 / weighted by atomic polarizabilities),
P5: 동경 분포 함수-3.0/원자량 가중(radial Distribution Function - 3.0 / weighted by atomic masses),
P6: Balaban 거리연결지수(Balaban distance connectivity index),
P7: 가지치기 중심 지수(lopping centric index),
P8: 전자회절기반 3차원 분자구조 표현-차수10/원자 Sanderson 전기음성도 가중(3D-MoRSE - signal 10 / weighted by atomic Sanderson electronegativities),
P9: 전자회절기반 3차원 분자구조 표현-차수20/원자 Sanderson 전기음성도 가중(3D-MoRSE - signal 20 / weighted by atomic Sanderson electronegativities), 및
P10: 동경 분포 함수-4.5/비가중(radial Distribution Function - 4.5 / unweighted)을 포함하며,
상기 임계점에서의 에 대하여 추출된 분자표현자는
P1: 쌍극자모멘트 가중 모서리 인접행렬 고유값6(eigenvalue 06 from edge adj.adjacency matrix weighted by dipole moments),
P2: 최대 부분전하 (Qmax)(max partial charge (Qmax)),
P3: 1차 성분대칭지향적 가중 포괄불변분자 지수/원자 전자위상 상태 가중(1st component symmetry directional WHIM index / weighted by atomic electrotopological states),
P4: 평균제곱 거리 지수 (Balaban)(mean square distance index (Balaban)),
P5: R 최대 자기상관 차수5/원자 Sanderson 전기음성도 가중(R maximal autocorrelation of lag 5 / Weighted by atomic Sanderson electronegativities),
P6: 평균 원자가 결합지수 차수3(average valence connectivity index chi-3),
P7: 평균 연결지수 차수4(average connectivity index chi-4),
P8: Balaban V 지수(Balaban V index),
P9: 지렛대 가중 자기상관 차수5/비가중(leverage-weighted autocorrelation of lag 5 / Unweighted), 및
P10: 비방향족 접합 sp2 탄소의 수(number of non-aromatic conjugated C(sp2))을 포함하고,
상기 293.15K에서의 에 대하여 추출된 분자표현자는
P1: 평균 원자가 결합지수 차수4(average valence connectivity index chi-4),
P2: 비방향족 접합 sp2 탄소의 수(number of non-aromatic conjugated C(sp2)),
P3: 관성 모멘트 A(moment of inertia A),
P4: 이중결합의 상대적인 수(relative number of double bonds),
P5: 친수성 인자(hydrophilic factor),
P6: 전자회절기반 3차원 분자구조 표현-차수27/원자량 가중(3D-MoRSE - signal 27 / weighted by atomic masses),
P7: 공명적분 가중모서리 인접행렬 고유값3 (eigenvalue 03 from edge adj.adjacency matrix weighted by resonance integrals),
P8: 최고준위 점유 분자궤도 - 1 에너지(HOMO-1 energy),
P9: 동경 분포 함수-5.5/원자 Sanderson 전기음성도 가중(radial Distribution Function - 5.5 / weighted by atomic Sanderson electronegativities), 및
P10: 꼭지 정도 평등상의 평균 정보 내용(mean information content on the vertex degree equality)를 포함하는 것을 특징으로 하는 SVRC 모형에 의해서 298K에서 액체인 탄화수소 유기화합물의 액체 점성도를 구하는 방법.
- 제28항에 있어서, 상기 제4-0단계에서
상기 비탄화수소의 액체점성도가 10cP일 때의 온도에 대하여 추출된 분자표현자는
P1: 산소원자의 최대 결합차수(max bond order of a O atom),
P2: 산소원자의 최대 순원자전하(max net atomic charge for a O atom),
P3: 수소원자의 최소 원자가(min valency of a H atom),
P4: 전자회절기반 3차원 분자구조 표현-차수8/원자 반데르발스 부피 가중(3D-MoRSE - signal 08 / weighted by atomic van der Waals volumes),
P5: 정상 끓는점에서의 기화열(heat of vaporization at normal boiling point),
P6: 위상거리4 C-C 결합의 빈도(frequency of C - C at topological distance 04),
P7: 거리/우회 고리 지수 차수5(distance/detour ring index of order 5),
P8: =O 기능기 수(=O),
P9: 최대 전자위상적 양의 편차(maximal electrotopological positive variation),
P10: 위상거리3 O-O 결합의 존재여부(presence/absence of O - O at topological distance 03),
P11: 전체전하 가중 부분양전하 표면적 분율(FPSA-2 Fractional PPSA (PPSA-2/TMSA)),
P12: (지방족) 에테르의 수(number of ethers (aliphatic)),
P13: R 자기상관 차수2/원자량 가중(R autocorrelation of lag 2 / Weighted by atomic masses),
P14: R 최대 자기상관 차수2/원자 반데르발스 부피 가중(R maximal autocorrelation of lag 2 / Weighted by atomic van der Waals volumes), 및
P15: YZ 그림자 / YZ 직사각형(YZ Shadow / YZ Rectangle)을 포함하며,
상기 임계점에서의 에 대하여 추출된 분자표현자는
P1: 동경 분포 함수-3.0/원자량 가중(radial Distribution Function - 3.0 / weighted by atomic masses),
P2: R--CR--X 기능기 수(R--CR─X),
P3: 위상거리2 N-O 결합의 존재여부(presence/absence of N - O at topological distance 02),
P4: R-SO2-R 기능기 수(R-SO2-R),
P5: 산소원자의 평균 친전자 반응지수(average electrophilic reactivity index for a O atom),
P6: 술폰의 수(number of sulfones),
P7: 수소원자의 최대 순원자전하(max net atomic charge for a H atom),
P8: 삼중결합의 상대적인 수(relative number of triple bonds),
P9: 탄소원자의 최소 부분전하(min partial charge for a C atom), 및
P10: 동경 분포 함수-9.5/원자량 가중(radial Distribution Function - 9.5 / weighted by atomic masses)을 포함하고,
상기 액체점성도가 10cP일때의 온도에서의 에 대하여 추출된 분자표현자는
P1: 치환된 벤젠 sp2 탄소의 수(number of substituted benzene C(sp2)),
P2: 2차 Mohar의 지수 TI2(second Mohar index TI2),
P3: (지방족) 카르복실산의 수(number of carboxylic acids (aliphatic) ),
P4: R 자기상관 차수3/원자 반데르발스 부피 가중(R autocorrelation of lag 3 / Weighted by atomic van der Waals volumes),
P5: 지렛대 가중 자기상관 차수4/비가중(leverage-weighted autocorrelation of lag 4 / Unweighted),
P6: 동경 분포 함수-7.0/비가중(radial Distribution Function - 7.0 / unweighted),
P7: 고리의 상대적인 수(relative number of rings),
P8: 총 크기지수/비가중(a total size index / unweighted ),
P9: 전자회절기반 3차원 분자구조 표현-차수13/원자량 가중(3D-MoRSE - signal 13 / weighted by atomic masses ),
P10: 전자회절기반 3차원 분자구조 표현-차수20/비가중(3D-MoRSE - signal 20 / unweighted),
P11: 분자내 수소결합의 수 (number of intramolecular H-bonds), 및
P12: 전자회절기반 3차원 분자구조 표현-차수18/원자 반데르발스 부피 가중(3D-MoRSE - signal 18 / weighted by atomic van der Waals volumes)를 포함하는 것을 특징으로 하는 SVRC 모형에 의해서 비탄화수소 유기화합물의 액체 점성도를 구하는 방법.
- 하기 식(4)에 기재되어 있는 SVRC 모형에 대하여
식(4)
[여기서 는 점성도, 는 탄화수소의 액체점성도가 10cP일 때의 온도, 는 스케일링 지수이며 는 각각 임계점과 액체점성도가 10cP일 때의 온도에서의 값, 는 임계온도, T 는 온도
상기 탄화수소의 액체점성도가 10cP일 때의 온도에 대하여 추출된 분자표현자는
P1: 기화열(heat of vaporization),
P2:Burden 행렬의 최저 고유값1/원자 반데르발스 부피 가중(lowest eigenvalue n. 1 of Burden matrix / weighted by atomic van der Waals volumes),
P3:최저준위 비점유 분자궤도+1 에너지(LUMO+1 energy),
P4: Balaban Y 지수(Balaban Y index),
P5: Ghose-Viswanadhan-Wendoloski의 최면성 지수(80%차지)Ghose-Viswanadhan-Wendoloski hypnotic-like index at 80%,
P6: 꼭지 정도 평등상의 평균 정보 내용(mean information content on the vertex degree equality),
P7: 평균제곱 거리 지수(Balaban)(mean square distance index (Balaban)),
P8: 비교 분자 모멘트 분석3 사중극자xx/원자 반데르발스 부피 가중(Qxx COMMA2 value / weighted by atomic van der Waals volumes),
P9: 분자 다중 경로 총수 차수7(molecular multiple path count of order 07), 및
P10: 동경 분포 함수-8.5/원자량 가중(radial Distribution Function - 8.5 / weighted by atomic masses)을 포함하며,
상기 임계점에서의 에 대하여 추출된 분자표현자는
P1: 동경 분포 함수-12.0/원자량 가중(radial Distribution Function - 12.0 / weighted by atomic masses),
P2: Ghose-Viswanadhan-Wendoloski의 항종양성 지수(80% 차지)Ghose-Viswanadhan-Wendoloski antineoplastic-like index at 80%,
P3: 전자회절기반 3차원 분자구조 표현-차수14/원자 Sanderson 전기음성도 가중(3D-MoRSE - signal 14 / weighted by atomic Sanderson electronegativities),
P4: 평균 위상학적 전하 지수 차수7(mean topological charge index of order7),
P5: 방향족 결합의 상대적인 수(relative number of aromatic bonds),
P6: 지렛대 가중 자기상관 차수2/비가중(leverage-weighted autocorrelation of lag 2 / Unweighted),
P7: 거리/우회 고리 지수 차수10(distance/detour ring index of order 10), 및
P8: 치환된 벤젠 sp2 탄소의 수(number of substituted benzene C(sp2))을 포함하고,
상기 액체점성도가 10cP일 때의 온도에서의 에 대하여 추출된 분자표현자는
P1: Moran의 자기상관 차수5/원자 편극도 가중(Moran autocorrelation - lag 5 / Weighted by atomic polarizabilities ),
P2: 원자가 꼭지도에 의한 2차 Zagreb의 지수(second Zagreb index by valence vertex degrees),
P3: Broto-Moreau의 위상구조 자기상관-차수4/원자량 가중(Broto-Moreau autocorrelation of a topological structure - lag 4 / Weighted by atomic masses),
P4: 평균제곱 거리 지수(Balaban)(mean square distance index (Balaban)),
P5: 전자회절기반 3차원 분자구조 표현-차수17/원자량 가중(3D-MoRSE - signal 17 / weighted by atomic masses),
P6: Burden 행렬의 최고 고유값1/원자량 가중(highest eigenvalue n. 1 of Burden matrix / weighted by atomic masses),
P7: 6각형 고리의 수(number of 6-membered rings), 및
P8: Balaban V 지수(Balaban V index)를 포함하는 것을 특징으로 하는 SVRC 모형에 의해서 탄화수소 유기화합물의 액체 점성도를 구하는 방법.
- 하기 식(5)에 기재되어 있는 SVRC 모형에 대하여
식(5)
[여기서 는 점성도, 는 293.15K에서의 탄화수소의 액체점성도, 는 스케일링 지수이며 는 각각 임계점과 293.15K에서의 값, 는 임계온도, T 는 온도];
상기 293.15K에서의 탄화수소의 액체점성도에 대하여 추출된 분자표현자는
P1: 전자회절기반 3차원 분자구조 표현-차수15/비가중(3D-MoRSE - signal 15 / unweighted),
P2: 정상 끓는점(normal boiling point(K)),
P3: 2차 성분접근지향적 가중 포괄불변분자 지수/원자량 가중(2nd component accessibility directional WHIM index / weighted by atomic masses),
P4: 동경 분포 함수-8.0/원자 편극도 가중(radial Distribution Function - 8.0 / weighted by atomic polarizabilities),
P5: 동경 분포 함수-3.0/원자량 가중(radial Distribution Function - 3.0 / weighted by atomic masses),
P6: Balaban 거리연결지수(Balaban distance connectivity index),
P7: 가지치기 중심 지수(lopping centric index),
P8: 전자회절기반 3차원 분자구조 표현-차수10/원자 Sanderson 전기음성도 가중(3D-MoRSE - signal 10 / weighted by atomic Sanderson electronegativities),
P9: 전자회절기반 3차원 분자구조 표현-차수20/원자 Sanderson 전기음성도 가중(3D-MoRSE - signal 20 / weighted by atomic Sanderson electronegativities), 및
P10: 동경 분포 함수-4.5/비가중(radial Distribution Function - 4.5 / unweighted)을 포함하며,
상기 임계점에서의 에 대하여 추출된 분자표현자는
P1: 쌍극자모멘트 가중 모서리 인접행렬 고유값6(eigenvalue 06 from edge adj.adjacency matrix weighted by dipole moments),
P2: 최대 부분전하 (Qmax)(max partial charge (Qmax)),
P3: 1차 성분대칭지향적 가중 포괄불변분자 지수/원자 전자위상 상태 가중(1st component symmetry directional WHIM index / weighted by atomic electrotopological states),
P4: 평균제곱 거리 지수 (Balaban)(mean square distance index (Balaban)),
P5: R 최대 자기상관 차수5/원자 Sanderson 전기음성도 가중(R maximal autocorrelation of lag 5 / Weighted by atomic Sanderson electronegativities),
P6: 평균 원자가 결합지수 차수3(average valence connectivity index chi-3),
P7: 평균 연결지수 차수4(average connectivity index chi-4),
P8: Balaban V 지수(Balaban V index),
P9: 지렛대 가중 자기상관 차수5/비가중(leverage-weighted autocorrelation of lag 5 / Unweighted), 및
P10: 비방향족 접합 sp2 탄소의 수(number of non-aromatic conjugated C(sp2))을 포함하고,
상기 293.15K에서의 에 대하여 추출된 분자표현자는
P1: 평균 원자가 결합지수 차수4(average valence connectivity index chi-4),
P2: 비방향족 접합 sp2 탄소의 수(number of non-aromatic conjugated C(sp2)),
P3: 관성 모멘트 A(moment of inertia A),
P4: 이중결합의 상대적인 수(relative number of double bonds),
P5: 친수성 인자(hydrophilic factor),
P6: 전자회절기반 3차원 분자구조 표현-차수27/원자량 가중(3D-MoRSE - signal 27 / weighted by atomic masses),
P7: 공명적분 가중모서리 인접행렬 고유값3 (eigenvalue 03 from edge adj.adjacency matrix weighted by resonance integrals),
P8: 최고준위 점유 분자궤도 - 1 에너지(HOMO-1 energy),
P9: 동경 분포 함수-5.5/원자 Sanderson 전기음성도 가중(radial Distribution Function - 5.5 / weighted by atomic Sanderson electronegativities), 및
P10: 꼭지 정도 평등상의 평균 정보 내용(mean information content on the vertex degree equality)를 포함하는 것을 특징으로 하는 SVRC 모형에 의해서 298K에서 액체인 탄화수소 유기화합물의 액체 점성도를 구하는 방법.
-
하기 식(6)에 기재되어 있는 SVRC 모형에 대하여
식(6)
[여기서 는 점성도, 는 비탄화수소의 액체점성도가 10cP일 때의 온도, 는 스케일링 지수이며 는 각각 임계점과 액체점성도가 10cP일 때의 온도에서의 값, 는 임계온도, T 는 온도];
상기 비탄화수소의 액체점성도가 10cP일 때의 온도에 대하여 추출된 분자표현자는
P1: 산소원자의 최대 결합차수(max bond order of a O atom),
P2: 산소원자의 최대 순원자전하(max net atomic charge for a O atom),
P3: 수소원자의 최소 원자가(min valency of a H atom),
P4: 전자회절기반 3차원 분자구조 표현-차수8/원자 반데르발스 부피 가중(3D-MoRSE - signal 08 / weighted by atomic van der Waals volumes),
P5: 정상 끓는점에서의 기화열(heat of vaporization at normal boiling point),
P6: 위상거리4 C-C 결합의 빈도(frequency of C - C at topological distance 04),
P7: 거리/우회 고리 지수 차수5(distance/detour ring index of order 5),
P8: =O 기능기 수(=O),
P9: 최대 전자위상적 양의 편차(maximal electrotopological positive variation),
P10: 위상거리3 O-O 결합의 존재여부(presence/absence of O - O at topological distance 03),
P11: 전체전하 가중 부분양전하 표면적 분율(FPSA-2 Fractional PPSA (PPSA-2/TMSA)),
P12: (지방족) 에테르의 수(number of ethers (aliphatic)),
P13: R 자기상관 차수2/원자량 가중(R autocorrelation of lag 2 / Weighted by atomic masses),
P14: R 최대 자기상관 차수2/원자 반데르발스 부피 가중(R maximal autocorrelation of lag 2 / Weighted by atomic van der Waals volumes), 및
P15: YZ 그림자 / YZ 직사각형(YZ Shadow / YZ Rectangle)을 포함하며,
상기 임계점에서의 에 대하여 추출된 분자표현자는
P1: 동경 분포 함수-3.0/원자량 가중(radial Distribution Function - 3.0 / weighted by atomic masses),
P2: R--CR--X 기능기 수(R--CR ─X),
P3: 위상거리2 N-O 결합의 존재여부(presence/absence of N - O at topological distance 02),
P4: R-SO2-R 기능기 수(R-SO2-R),
P5: 산소원자의 평균 친전자 반응지수(average electrophilic reactivity index for a O atom),
P6: 술폰의 수(number of sulfones),
P7: 수소원자의 최대 순원자전하(max net atomic charge for a H atom),
P8: 삼중결합의 상대적인 수(relative number of triple bonds),
P9: 탄소원자의 최소 부분전하(min partial charge for a C atom), 및
P10: 동경 분포 함수-9.5/원자량 가중(radial Distribution Function - 9.5 / weighted by atomic masses)을 포함하고,
상기 액체점성도가 10cP일 때의 온도에서의 에 대하여 추출된 분자표현자는
P1: 치환된 벤젠 sp2 탄소의 수(number of substituted benzene C(sp2)),
P2: 2차 Mohar의 지수 TI2(second Mohar index TI2),
P3: (지방족) 카르복실산의 수(number of carboxylic acids (aliphatic) ),
P4: R 자기상관 차수3/원자 반데르발스 부피 가중(R autocorrelation of lag 3 / Weighted by atomic van der Waals volumes),
P5: 지렛대 가중 자기상관 차수4/비가중(leverage-weighted autocorrelation of lag 4 / Unweighted),
P6: 동경 분포 함수-7.0/비가중(radial Distribution Function - 7.0 / unweighted),
P7: 고리의 상대적인 수(relative number of rings),
P8: 총 크기지수/비가중(a total size index / unweighted ),
P9: 전자회절기반 3차원 분자구조 표현-차수13/원자량 가중(3D-MoRSE - signal 13 / weighted by atomic masses ),
P10: 전자회절기반 3차원 분자구조 표현-차수20/비가중(3D-MoRSE - signal 20 / unweighted),
P11: 분자내 수소결합의 수 (number of intramolecular H-bonds), 및
P12: 전자회절기반 3차원 분자구조 표현-차수18/원자 반데르발스 부피 가중(3D-MoRSE - signal 18 / weighted by atomic van der Waals volumes)를 포함하는 것을 특징으로 하는 SVRC 모형에 의해서 비탄화수소 유기화합물의 액체 점성도를 구하는 방법.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020110102047A KR101313035B1 (ko) | 2011-10-06 | 2011-10-06 | 순수한 유기화합물의 액체점성도를 예측하는 svrc 모형 |
PCT/KR2012/007999 WO2012177108A2 (ko) | 2011-10-04 | 2012-10-04 | 순수한 화합물의 물리화학적 및 열역학적 성질을 예측,프로세스 및 온라인 서비스하는 모델,방법 및 시스템 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020110102047A KR101313035B1 (ko) | 2011-10-06 | 2011-10-06 | 순수한 유기화합물의 액체점성도를 예측하는 svrc 모형 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20120085162A KR20120085162A (ko) | 2012-07-31 |
KR101313035B1 true KR101313035B1 (ko) | 2013-10-01 |
Family
ID=46715838
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020110102047A KR101313035B1 (ko) | 2011-10-04 | 2011-10-06 | 순수한 유기화합물의 액체점성도를 예측하는 svrc 모형 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101313035B1 (ko) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100042453A (ko) * | 2008-10-16 | 2010-04-26 | 주식회사 엘지화학 | 디스플레이 소재에 사용되는 화학물질 후보군 검색 시스템 및 방법 |
-
2011
- 2011-10-06 KR KR1020110102047A patent/KR101313035B1/ko active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100042453A (ko) * | 2008-10-16 | 2010-04-26 | 주식회사 엘지화학 | 디스플레이 소재에 사용되는 화학물질 후보군 검색 시스템 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
KR20120085162A (ko) | 2012-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101267372B1 (ko) | 순수한 유기화합물의 수용해도를 예측하는 다중선형회귀-인공신경망 혼성모형 | |
KR101313036B1 (ko) | 순수한 화합물의 기체점성도를 예측하는 svrc 모형 | |
KR101267408B1 (ko) | 순수한 유기화합물의 정상끓는점에서의 액체밀도를 예측하는 다중선형회귀-인공신경망 혼성모형 | |
KR101267373B1 (ko) | 순수한 유기화합물의 표준상태 생성에너지를 예측하는 다중선형회귀-인공신경망 모형 | |
KR101313031B1 (ko) | 순수한 유기화합물의 정상끓는점에서의 기화열을 예측하는 다중선형회귀-인공신경망 혼성모형 | |
KR101313035B1 (ko) | 순수한 유기화합물의 액체점성도를 예측하는 svrc 모형 | |
KR101302460B1 (ko) | 순수한 유기화합물의 액체 열전도율을 예측하는 svrc 모형 | |
KR101267385B1 (ko) | 순수한 유기화합물의 기화열을 예측하는 svrc 모형 | |
KR101325112B1 (ko) | 순수한 유기화합물의 융해열을 예측하는 다중선형회귀-인공신경망 혼성모형 | |
KR101313030B1 (ko) | 순수한 유기화합물의 298k에서의 기화열을 예측하는 다중선형회귀-인공신경망 혼성모형 | |
KR101313026B1 (ko) | 순수한 유기화합물의 정상끓는점을 예측하는 다중선형회귀-인공신경망 혼성모형 | |
KR101300628B1 (ko) | 순수한 유기화합물의 인화점을 예측하는 다중선형회귀-인공신경망 모형 | |
KR101325117B1 (ko) | 순수한 유기화합물의 액체의 열용량을 예측하는 svrc 모형 | |
KR101295859B1 (ko) | 순수한 유기화합물의 기체 열전도율을 예측하는 svrc 모형 | |
KR101295861B1 (ko) | 순수한 유기화합물의 인화 하한 부피 퍼센트를 예측하는 다중선형회귀-인공신경망 혼성모형 | |
KR101258863B1 (ko) | 순수한 화합물의 액체증기압을 예측하는 svrc 모형 | |
KR101267356B1 (ko) | 순수한 유기화합물의 표준상태 절대 엔트로피를 예측하는 다중선형회귀-인공신경망 혼성모형 | |
KR101325107B1 (ko) | 유기화합물의 임계온도를 예측하는 다중선형회귀-인공신경망 혼성모형 | |
KR101325120B1 (ko) | 순수한 유기화합물의 298.15k에서의 포화액체밀도를 예측하는 다중선형회귀-인공신경망 혼성모형 | |
KR101325125B1 (ko) | 순수한 유기화합물의 임계부피를 예측하는 다중선형회귀-인공신경망 혼성 모형 | |
KR101325124B1 (ko) | 순수한 유기화합물의 표면장력을 예측하는 qspr 모형 | |
KR101325101B1 (ko) | 순수한 유기화합물의 이심인자를 예측하는 다중선형회귀-인공신경망 혼성모형 | |
KR101325103B1 (ko) | 유기화합물의 임계압력을 예측하는 다중선형회귀-인공신경망 혼성모형 | |
KR101267418B1 (ko) | 순수한 유기화합물의 인화 하한 온도를 예측하는 다중선형회귀-인공신경망 혼성모형 | |
KR101300633B1 (ko) | 순수한 유기화합물의 편극도를 예측하는 다중선형회귀-인공신경망 혼성모형 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
G15R | Request for early opening | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20160923 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20170920 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20180920 Year of fee payment: 6 |