KR102523472B1 - 신규 물질의 구조 생성 방법 및 장치 - Google Patents

신규 물질의 구조 생성 방법 및 장치 Download PDF

Info

Publication number
KR102523472B1
KR102523472B1 KR1020160097764A KR20160097764A KR102523472B1 KR 102523472 B1 KR102523472 B1 KR 102523472B1 KR 1020160097764 A KR1020160097764 A KR 1020160097764A KR 20160097764 A KR20160097764 A KR 20160097764A KR 102523472 B1 KR102523472 B1 KR 102523472B1
Authority
KR
South Korea
Prior art keywords
factor
presenter
processor
machine learning
arbitrary
Prior art date
Application number
KR1020160097764A
Other languages
English (en)
Other versions
KR20180014471A (ko
Inventor
유지호
강석호
권영천
김경덕
신재광
이효석
최윤석
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020160097764A priority Critical patent/KR102523472B1/ko
Priority to US15/664,960 priority patent/US10957419B2/en
Publication of KR20180014471A publication Critical patent/KR20180014471A/ko
Application granted granted Critical
Publication of KR102523472B1 publication Critical patent/KR102523472B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/90Programming languages; Computing architectures; Database systems; Data warehousing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Bioethics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Feedback Control In General (AREA)

Abstract

적어도 하나의 프로세서가, 데이터베이스에 저장된, 물질의 표현자, 물질의 물성, 그리고 물질의 구조를 바탕으로 구성된 기계 학습 모델에 대해서 기계 학습을 수행하는 단계, 그리고 기계 학습의 결과를 바탕으로 목표 물성을 충족시키는 신규 물질의 후보 구조를 생성하는 단계를 포함하는 신규 물질의 구조를 생성하는 방법 및 장치가 제공된다.

Description

신규 물질의 구조 생성 방법 및 장치{Method and apparatus for searching new material}
본 기재는 신소재 개발을 위한 신규 물질의 구조를 생성하는 방법 및 장치에 관한 것이다.
제1 원리 양자 계산(First Principles Calculation) 기술의 발전으로 인해서, 실험을 통한 직접적인 측정 없이 물질의 특성을 예측하는 것이 가능해지고 있다. 그리고 슈퍼 컴퓨터 기반의 고성능 계산(high-performance computing) 기술의 발전에 힘입어, 신소재 후보 물질에 대한 평가가 종래 실험에 의한 직접 합성 및 측정에 비해 훨씬 빠르게 수행될 수 있게 되었다. 초고속 전산 스크리닝(high-throughput computational screening) 기법은, 신소재 개발을 위한 가상 물질을 대량으로 생성하고 전산 상으로 빠르게 평가함으로써 가능성 있는 후보 물질을 선별하는 신소재 개발 방법론으로서, 다양한 신소재 개발 연구 분야에서 활용되고 있다.
초고속 전산 스크리닝 기법을 위해서, 스크리닝의 탐색 범위가 결정된다. 스크리닝의 탐색 범위는, 특정 데이터베이스 내의 물질을 결정하는 조건에 따라서 연구자에 의해 선택되거나, 기존 물질을 어떤 원칙에 의해 변형시키거나 조합하여 새로운 물질을 생성하는 방식으로 결정될 수 있다. 초고속 전산 스크리닝의 성공 여부는 탐색 범위를 얼마나 잘 결정하느냐에 달려 있지만, 스크리닝의 탐색 범위는 대체로 연구자의 경험과 직관을 바탕으로 결정되고 있다.
일반적으로 소재 개발의 목표는, 기존의 물질의 성능을 훨씬 상회하는 물질을 개발하는 것이므로, 목표 성능을 얻기까지는, 탐색 범위 설정 및 전산 스크리닝이 여러 차례에 걸쳐서 반복적으로 수행될 필요가 있다. 통상, 결정된 탐색 범위 안에서 목표로 하는 신물질 후보가 발굴되지 않은 경우, 기존의 스크리닝 결과를 분석하여 새로운 탐색 범위 설정을 위한 아이디어를 도출하고, 도출된 아이디어를 바탕으로 새로운 탐색 범위를 결정한다. 하지만 이때, 계산 데이터의 양이 방대하여 연구자가 직접 분석하고 다음 탐색 영역을 결정하는 데에 어려움이 있다.
일 실시예는, 물질의 표현자, 물질의 물성, 그리고 물질의 구조를 바탕으로 수행된 기계 학습의 결과에 따라서 목표 물성을 충족시키는 신규 물질의 후보 구조를 생성하는 방법을 제공한다.
다른 실시예는, 물질의 표현자, 물질의 물성, 그리고 물질의 구조를 바탕으로 수행된 기계 학습의 결과에 따라서 목표 물성을 충족시키는 신규 물질의 후보 구조를 생성하는 장치를 제공한다.
일 실시예에 따르면, 신규 물질의 구조를 생성하는 방법이 제공된다. 구조 생성 방법은, 적어도 하나의 프로세서가, 데이터베이스에 저장된, 물질의 표현자, 물질의 물성, 그리고 물질의 구조를 바탕으로 구성된 기계 학습 모델에 대해서 기계 학습을 수행하는 단계, 그리고 적어도 하나의 프로세서가, 기계 학습의 결과를 바탕으로 목표 물성을 충족시키는 신규 물질의 후보 구조를 생성하는 단계를 포함한다.
상기 구조 생성 방법에서, 물질의 표현자, 물질의 물성, 그리고 물질의 구조 간의 관계에 대해서 기계 학습을 수행하는 단계는, 적어도 하나의 프로세서가, 표현자 및 물성 간의 관계에 대해서 기계 학습을 수행하여 표현자와 물성 간의 관계를 나타내는 인자를 결정하는 단계, 그리고 인자를 바탕으로 물질의 구조가 생성될 수 있도록, 적어도 하나의 프로세서1가, 인자와 구조 간의 관계에 대해서 기계 학습을 수행하는 단계를 포함할 수 있다.
상기 구조 생성 방법에서, 인자와 구조 간의 관계에 대해서 기계 학습을 수행하는 단계는, 적어도 하나의 프로세서가, 인자와 구조 간의 관계를 나타내는 구조 인자를 결정하는 단계를 포함할 수 있다.
상기 구조 생성 방법에서, 인자는, 복수의 계층을 포함하고, 구조 인자를 결정하는 단계는, 적어도 하나의 프로세서가, 복수의 계층별로 구조 인자를 결정하는 단계를 포함할 수 있다.
상기 구조 생성 방법에서, 인자를 결정하는 단계는, 적어도 하나의 프로세서가, 표현자 및 물성에 관한 데이터를 바탕으로 표현자로부터 인자를 도출하기 위한 인코딩 함수를 학습하는 단계, 그리고 적어도 하나의 프로세서가, 표현자에 인코딩 함수를 적용하여 인자를 결정하는 단계를 포함할 수 있다.
상기 구조 생성 방법에서, 인자와 구조 간의 관계에 대해서 기계 학습을 수행하는 단계는, 적어도 하나의 프로세서가, 인자 및 구조에 관한 데이터를 바탕으로 인자로부터 후보 구조를 생성하기 위한 디코딩 함수를 학습하는 단계를 포함할 수 있다.
상기 구조 생성 방법에서, 후보 구조를 생성하는 단계는, 적어도 하나의 프로세서가, 목표 물성으로부터 목표 물성에 대응하는 인자를 샘플링 하는 단계, 그리고 적어도 하나의 프로세서가, 목표 물성에 대응하는 인자에 디코딩 함수를 적용하여 후보 구조를 생성하는 단계를 포함할 수 있다.
상기 구조 생성 방법에서, 물질의 표현자, 물질의 물성, 그리고 물질의 구조 간의 관계에 대해서 기계 학습을 수행하는 단계는, 적어도 하나의 프로세서가, 표현자 및 물성에 관한 데이터를 바탕으로 인자로부터 물성을 예측하기 위한 예측 함수를 학습하는 단계를 포함할 수 있다.
상기 구조 생성 방법에서, 후보 구조를 생성하는 단계는, 적어도 하나의 프로세서가, 임의의 표현자를 생성하는 단계, 적어도 하나의 프로세서가, 임의의 표현자에 예측 함수를 적용하여 임의의 표현자에 대응하는 물질의 물성을 예측하는 단계, 그리고 적어도 하나의 프로세서가, 임의의 표현자에 대응하는 물질의 예측된 물성이 목표 물성을 충족하는지 판단하는 단계를 포함할 수 있다.
상기 구조 생성 방법에서, 후보 구조를 생성하는 단계는, 임의의 표현자에 대응하는 물질의 예측된 물성이 목표 물성을 충족하지 못하는 경우, 적어도 하나의 프로세서가, 임의의 표현자와 다른 임의의 표현자를 생성하는 단계, 적어도 하나의 프로세서가, 다른 임의의 표현자에 예측 함수를 적용하여 다른 임의의 표현자에 대응하는 물질의 물성을 예측하는 단계, 그리고 적어도 하나의 프로세서가, 다른 임의의 표현자에 대응하는 물질의 예측된 물성이 목표 물성을 충족하는지 판단하는 단계를 더 포함할 수 있다.
상기 구조 생성 방법에서, 후보 구조를 생성하는 단계는, 적어도 하나의 프로세서가, 임의의 표현자에 대응하는 물질의 예측된 물성이 목표 물성을 충족하는 경우, 임의의 표현자에 인자를 도출하기 위한 인코딩 함수를 적용하여 임의의 표현자에 대응하는 인자를 결정하는 단계, 그리고 적어도 하나의 프로세서가, 임의의 표현자에 대응하는 인자에 인자로부터 후보 구조를 생성하기 위한 디코딩 함수를 적용하여 임의의 표현자에 대응하는 후보 구조를 생성하는 단계를 더 포함할 수 있다.
상기 구조 생성 방법은, 적어도 하나의 프로세서가, 임의의 표현자에 대응하는 후보 구조에 대해서 유효성 검사 및 중복 검사를 수행하는 단계를 더 포함할 수 있다.
다른 실시예에 따르면, 신규 물질의 구조를 생성하는 장치가 제공된다. 상기 구조 생성 장치는, 물질의 표현자, 물질의 물성, 그리고 물질의 구조를 저장하도록 구성된 데이터베이스, 그리고, 표현자, 물성, 구조를 바탕으로 구성된 기계 학습 모델에 대해서 기계 학습을 수행하고, 기계 학습의 결과를 바탕으로 목표 물성을 충족시키는 신규 물질의 후보 구조를 생성하도록 구성된 적어도 하나의 구조 생성 프로세서를 포함한다.
상기 구조 생성 장치에서, 적어도 하나의 구조 생성 프로세서는, 물질의 표현자, 물질의 물성, 그리고 물질의 구조 간의 관계에 대해서 기계 학습을 수행할 때, 표현자와 물성 간의 관계에 대해서 기계 학습을 수행하여 표현자와 물성 간의 관계를 나타내는 인자를 결정하고, 인자를 바탕으로 물질의 구조가 생성될 수 있도록, 인자와 구조 간의 관계에 대해서 기계 학습을 수행할 수 있다.
상기 구조 생성 장치에서, 적어도 하나의 구조 생성 프로세서는, 인자와 구조 간의 관계에 대해서 기계 학습을 수행할 때, 인자와 구조 간의 관계를 나타내는 구조 인자를 결정할 수 있다.
상기 구조 생성 장치에서, 인자는, 복수의 계층을 포함하고, 적어도 하나의 구조 생성 프로세서는, 구조 인자를 결정할 때, 복수의 계층별로 구조 인자를 결정할 수 있다.
상기 구조 생성 장치에서, 적어도 하나의 구조 생성 프로세서는, 인자를 결정할 때, 표현자 및 물성에 관한 데이터를 바탕으로 표현자로부터 인자를 도출하기 위한 인코딩 함수를 학습하고, 표현자에 인코딩 함수를 적용하여 인자를 결정할 수 있다.
상기 구조 생성 장치에서, 적어도 하나의 구조 생성 프로세서는, 인자와 구조 간의 관계에 대해서 기계 학습을 수행할 때, 인자 및 구조에 관한 데이터를 바탕으로 인자로부터 후보 구조를 생성하기 위한 디코딩 함수를 학습할 수 있다.
상기 구조 생성 장치에서, 적어도 하나의 구조 생성 프로세서는, 후보 구조를 생성할 때, 목표 물성으로부터 목표 물성에 대응하는 인자를 샘플링 하고, 목표 물성에 대응하는 인자에 디코딩 함수를 적용하여 후보 구조를 생성할 수 있다.
상기 구조 생성 장치에서, 적어도 하나의 구조 생성 프로세서는, 물질의 표현자, 물질의 물성, 그리고 물질의 구조 간의 관계에 대해서 기계 학습을 수행할 때, 표현자 및 물성에 관한 데이터를 바탕으로 인자로부터 물성을 예측하기 위한 예측 함수를 학습할 수 있다.
상기 구조 생성 장치에서, 적어도 하나의 구조 생성 프로세서는, 후보 구조를 생성할 때, 임의의 표현자를 생성하고, 임의의 표현자에 예측 함수를 적용하여 임의의 표현자에 대응하는 물질의 물성을 예측하며, 임의의 표현자에 대응하는 물질의 예측된 물성이 목표 물성을 충족하는지 판단할 수 있다.
상기 구조 생성 장치에서, 적어도 하나의 구조 생성 프로세서는, 후보 구조를 생성할 때, 임의의 표현자에 대응하는 물질의 예측된 물성이 목표 물성을 충족하지 못하는 경우, 임의의 표현자와 다른 임의의 표현자를 생성하고, 다른 임의의 표현자에 예측 함수를 적용하여 다른 임의의 표현자에 대응하는 물질의 물성을 예측하며, 다른 임의의 표현자에 대응하는 물질의 예측된 물성이 목표 물성을 충족하는지 판단할 수 있다.
상기 구조 생성 장치에서, 적어도 하나의 구조 생성 프로세서는, 후보 구조를 생성할 때, 임의의 표현자에 대응하는 물질의 예측된 물성이 목표 물성을 충족하는 경우, 임의의 표현자에 인자를 도출하기 위한 인코딩 함수를 적용하여 임의의 표현자에 대응하는 인자를 결정하고, 임의의 표현자에 대응하는 인자에 인자로부터 후보 구조를 생성하기 위한 디코딩 함수를 적용하여 임의의 표현자에 대응하는 후보 구조를 생성할 수 있다.
상기 구조 생성 장치에서, 적어도 하나의 구조 생성 프로세서는 또한, 임의의 표현자에 대응하는 후보 구조에 대해서 유효성 검사 및 중복 검사를 수행할 수 있다.
데이터에 기반한 머신 러닝을 통해 목표 물성을 가질 것으로 기대되는 신물질의 구조를 생성함으로써, 반도체, 디스플레이, 배터리, 촉매, 진단기기 등 다양한 분야에서 보다 향상된 성능을 갖는 신소재 물질을 개발할 수 있다.
도 1은 일 실시예에 따른 신규 물질의 구조 생성 장치를 나타낸 블록도이다.
도 2는 일 실시예에 따른 구조 생성 장치의 데이터베이스 및 구조 생성 방법의 워크플로우를 나타낸 개념도이다.
도 3은 일 실시예에 따른 물질의 구조식 및 물질의 표현자 간의 관계를 나타낸 도면이다.
도 4는 일 실시예에 따른 신규 물질의 구조 생성 방법을 개략적으로 나타낸 흐름도이다.
도 5는 일 실시예에 따른 기계 학습 모델을 나타낸 개념도이다.
도 6은 다른 실시예에 따른 기계 학습 모델을 나타낸 개념도이다.
도 7은 일 실시예에 따른 구조를 나타내는 문자열 출력 방법을 나타낸 개념도이다.
도 8은 또 다른 실시예에 따른 기계 학습 모델을 나타낸 개념도이다.
도 9는 또 다른 실시예에 따른 기계 학습 모델을 나타낸 개념도이다.
도 10은 다른 실시예에 따른 신규 물질의 구조 생성 장치를 나타낸 블록도이다.
아래에서는 첨부한 도면을 참고로 하여 본 기재의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 기재는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 기재를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
도 1은 일 실시예에 따른 신규 물질의 구조 생성 장치를 나타낸 블록도이다.
도 1을 참조하면, 신규 물질의 구조 생성 장치(100)는, 구조 생성 프로세서(110) 및 데이터베이스(120)를 포함한다.
구조 생성 프로세서(110)는, 물질, 물질의 물성, 그리고 물질의 구조를 바탕으로 기계 학습을 수행하고, 물질, 물성, 구조 간의 관계를 모델링하며, 신규 물질의 후보 구조를 생성한다. 구조 생성 프로세서(110)는 기계 학습부(111) 및 디코더(120)를 포함할 수 있다.
데이터베이스(120)에는 물질의 표현자(descriptor), 물질의 물성, 그리고 물질의 구조가 하나의 세트로 저장된다. 구조 생성 프로세서(110)는 데이터베이스(120)에 저장된 물질의 표현자, 물질의 물성, 그리고 물질의 구조를 바탕으로 기계 학습을 수행할 수 있다. 예를 들어 데이터베이스(120)에는 물질의 표현자-물질의 물성-물질의 구조로 구성된 세트가 수천~수만 개 이상 저장될 수 있다. 물질의 표현자 및 물질의 물성은 물성 추출 장치(미도시)에 의해 물질의 구조로부터 추출될 수 있다.
도 2는 일 실시예에 따른 구조 생성 장치의 데이터베이스 및 구조 생성 방법의 워크플로우를 나타낸 개념도이다.
도 2를 참조하면, 일 실시예에 따른 데이터베이스(120)는, 계산 정보 데이터베이스(121), 물질 정보 데이터베이스(122), 그리고 모델 정보 데이터베이스(123)를 포함한다.
계산 정보 데이터베이스(121)에는 물질 정보 데이터베이스(122)에 저장된 정보를 바탕으로 구조 생성 프로세서(110)에 의해 시뮬레이션 된 결과가 저장된다. 이때 시뮬레이션 결과는 양자 계산 결과일 수 있다. 양자 계산에 사용된 옵션, 계산 진행 상태, 계산 출력 결과 등도 시뮬레이션 결과와 함께 계산 정보 데이터베이스(121)에 저장될 수 있다. 물성 추출 장치는 계산 정보 데이터베이스(121)에 저장된 시뮬레이션 결과를 바탕으로 물질의 구조로부터 물질의 물성을 추출할 수 있다.
물질 정보 데이터베이스(122)에는, 각 물질에 대한 표현자, 구조(예를 들어, 구조식 또는 SMILES(Simplified Molecular-Input Line-Entry System) 문자열 등), 그리고 물성에 관한 정보가 그룹핑 되어 저장된다. 새롭게 생성된 후보 구조의 경우, 물성에 관한 정보가 아직 저장되어 있지 않을 수 있다. 새롭게 생성된 후보 구조의 물성에 관한 정보는, 계산 정보 데이터베이스(121)에 저장된 시뮬레이션 결과를 바탕으로 물질의 구조로부터 추출된 후 물질 정보 데이터베이스(122)에 저장될 수 있다. 물질 정보 데이터베이스(122)에 저장된, 표현자-물성-구조 데이터는 기계 학습 모델을 생성하기 위한 학습 데이터로 사용된다.
모델 정보 데이터베이스(123)에는, 물질 정보 데이터베이스(122)에 저장된 학습 데이터를 바탕으로 생성된 기계 학습 모델에 관한 정보가 저장된다. 기계 학습 모델에 관한 정보는 모델의 버전, 모델의 구조, 그리고 모델의 파라미터에 관한 정보를 포함한다. 모델의 구조에 관한 정보는, 기계 학습 모델에 포함된 신경망의 계층 개수 또는 각 계층의 노드 개수를 포함한다. 모델의 파라미터는 기계 학습 모델에 포함된 계층 간의 관계를 정의하기 위한 가중치를 나타낸다. 일 실시예에 따른 구조 생성 장치(100)는, 모델 정보 데이터베이스(123)에 업데이트 된 최신 기계 학습 모델을 로딩하여, 입력된 목표 물성을 충족시키는 후보 구조를 생성할 수 있다. 새롭게 생성된 후보 구조는, 예측 물성이 목표 물성을 충족하는지, 이상한 구조를 포함하고 있는지 물질 정보 데이터베이스(122)에 이미 저장된 중복 구조인지 등이 검사된다. 이후, 새롭게 생성된 후보 구조에 관한 정보(구조를 나타내는 문자열)가 물질 정보 데이터베이스(122)에 저장된다. 이때, 물질의 표현자 정보 및 3차원 구조 정보 등도 물질 정보 데이터베이스(122)에 그룹핑 되어 저장될 수 있다.
도 2에 도시된 워크플로우는, 기계 학습 모델을 바탕으로 신규 물질의 후보 구조를 새롭게 생성하고, 새롭게 생성된 후보 구조에 대해 양자 계산을 수행하여 지속적으로 기계 학습 모델을 업데이트하는 순환 과정이다. 즉, 일 실시예에 따른 구조 생성 장치(100)는 물질 정보 데이터베이스(122)에 저장되어 있지 않은 물성 영역으로 기계 학습 모델을 진화시킬 수 있다.
도 2에 도시된 워크플로우의 반복 시행을 통해서, 기계 학습 모델이 목표 물성을 찾는 방향으로 지속적으로 업데이트 될 수 있다. 일 실시예에 따른 구조 생성 프로세서(110)의 동작 조건이 목표 물성에 따라서 지정됨에 따라, 목표 물성을 갖는 물질의 구조를 생성하기 위한 워크플로우가 자동적으로 반복 시행되고, 구조 생성 장치(100)는 목표 물성을 충족하는 신규 물질의 구조를 계속해서 생성할 수 있다.
도 3은 일 실시예에 따른 물질의 구조식 및 물질의 표현자 간의 관계를 나타낸 도면이다.
물질의 구조(앞으로 '구조'라 함)는, 물질의 원자(atom) 레벨의 구조를 의미한다. 제1 원리 시뮬레이션을 통해서 물성을 도출하기 위해서, 원자 레벨로 구조가 표현될 것이 요구되므로, 새로운 후보 물질을 디자인하기 위해서는 원자 레벨로 물질 구조가 도출될 수 있어야 한다. 구조는, 원자와 원자 간의 연결 관계(bond)에 기반하는 구조식일 수 있고, 간단한 형식의 문자열(1차원) 형태일 수도 있다. 구조를 표현하는 문자열 형식으로서, SMILES 코드 또는 InChi(International Chemical Identifier) 코드 등이 있다. 예를 들어, 구조의 구조식을 나타내는 문자열은 아래 수학식 1과 같을 수 있다.
Figure 112016074461610-pat00001
물질의 표현자(앞으로 '표현자'라 함)는 물질의 특징을 표현하기 위해서 사용되는 지표 값으로서, 주어진 물질에 대해서 비교적 간단한 연산 처리를 수행함으로써 획득될 수 있는 값이다. 일 실시예에 따른 표현자는, 특정한 부분 구조의 포함 여부를 표시하는 분자 구조 핑거프린트(fingerprint)(예를 들어, Morgan Fingerprint, Extended Connectivity Fingerprint(ECFP)) 또는 분자량이나 분자 구조 내에 포함된 부분 구조(예를 들어, 링)의 개수 등 바로 계산될 수 있는 값으로 구성된 정량적 구조-물성 상관관계(quantitative structure-property relationships, QSPR) 표현자를 포함할 수 있다. 아래 표 1은 일 실시예에 따른 표현자를 나타낸다.
부분 구조 개수
Figure 112016074461610-pat00002
4
Figure 112016074461610-pat00003
2
Figure 112016074461610-pat00004
1
Figure 112016074461610-pat00005
0
도 3 및 표 1을 참조하면, 물질의 구조에 포함된 부분 구조의 개수를 바탕으로 표현자 "4210"이 결정될 수 있다. 표현자가 이진 코드로 표현되는 경우, 표현자는 "1110"이 될 수 있다. 이 경우, 1 또는 0은 부분 구조의 포함 여부만을 나타낸다. 예를 들어, 1은 부분 구조가 포함되었음을 나타내고 0은 부분 구조가 포함되지 않았음을 나타낼 수 있다.
물질의 물성(앞으로 '물성'이라 함)은 물질이 가지고 있는 특성을 의미하며, 실험을 통해 측정되거나 시뮬레이션을 통해 계산된 실수 값이 될 수 있다. 예를 들어, 물질이 디스플레이 소재인 경우 빛에 대한 투과 파장, 발광 파장 등이 될 수 있고, 물질이 배터리 소재인 경우 전압이 될 수 있다. 표현자의 경우와는 달리, 물성을 계산하는 데에는 복잡한 시뮬레이션이 필요하고 많은 시간이 소모될 수 있다.
아래에서는, 일 실시예에 따른 구조 생성 프로세서(110) 및 데이터베이스(120)의 동작에 대하여 도 4 및 도 5를 참조하여 상세히 설명한다.
도 4는 일 실시예에 따른 신규 물질의 구조 생성 방법을 개략적으로 나타낸 흐름도이다.
일 실시예에 따른 신규 물질의 구조 생성 방법은, 크게 기계 학습 단계 및 구조 생성 단계를 포함한다. 일 실시예에 따른 구조 생성 장치는, 기계 학습 단계를 통해 표현자, 물성, 그리고 구조식 사이의 관계를 나타내는 인자(hidden factor)를 결정하고, 기계 학습 모델의 형태를 결정한다. 이때, 기계 학습 모델의 형태는 표현자, 물성, 구조식, 그리고 인자 간의 관계를 정의하는 데 사용되는 파라미터 값을 바탕으로 결정될 수 있다.
인자는 표현자(x), 물성(y), 그리고 구조(s) 간의 관계를 나타내기 위한 드러나지 않은 핵심적인 요소이다. 구조 생성 프로세서(110)는 데이터베이스(120)에 저장된 표현자-물성-구조식 관계를 바탕으로 기계 학습을 수행함으로써 숨겨진 인자를 결정하고, 인자가 표현자, 물성, 그리고 구조식과 어떻게 연결되어 있는지 알아낸다. 인자는, 표현자 및 물성의 관계에 대한 물성 인자 및 물성 인자 및 구조식 간의 관계에 대한 구조 인자를 포함할 수 있다. 그리고 인자는 복수의 계층을 포함할 수 있다. 물성 인자가 복수의 계층을 포함하는 경우, 물성 인자와 구조식 간의 관계를 나타내는 구조 인자는 각 계층별로 결정될 수 있다.
먼저, 구조 생성 프로세서(110)는, 데이터베이스(120)에 저장된 표현자-물성 관계(데이터 (x, y))를 바탕으로 인코딩 함수(e(·)) 및 예측 함수(f(·))에 대해서 기계 학습을 수행한다(S101). 즉, 구조 생성 프로세서(110)는 데이터 (x, y)를 바탕으로 인코딩 함수 및 예측 함수를 학습한다. 이때, 구조 생성 프로세서(110)는 샘플링 함수(g(·))도 학습할 수 있다. 그리고 구조 생성 프로세서(110)는, 표현자 x에 학습된 인코딩 함수를 적용하여 인자(h=e(x))를 결정한다(S102). 구조 생성 프로세서(110)는, 데이터 (x, y)의 확률이 최대화 되도록, 또는 예측에 의한 물성값 f(e(x))과 실제 물성 y와의 차이가 최소화되도록 물성 인자를 결정할 수 있다.
도 5는 일 실시예에 따른 기계 학습 모델을 나타낸 개념도이다.
도 5를 참조하면, 인코딩 함수 e(·)는, 물질의 표현자로부터 숨겨진 인자를 도출해내기 위한 함수이다. 표현자가 x인 경우, 인코딩 함수를 통해 표현자 x에 대한 인자 h(=e(x))가 결정될 수 있다. 예측 함수 f(·)는, 인코딩의 결과로 획득된 인자를 기반으로, 물질의 물성을 예측하기 위한 함수이다. 물성이 y인 경우, 인자 h에 예측 함수를 취하면 y=f(h) 이다. 샘플링 함수 g(·)는, 목표 물성 y가 주어진 경우 목표 물성에 대응하는 인자를 도출하기 위한 함수이다. 샘플링 함수에 의해서 도출되는 인자가 h인 경우 h=g(y)가 성립한다. 일 실시예에 따른 구조 생성 프로세서(110)는, 주어진 목표 물성에 대해서 g(x)는 하나로 결정되지 않고 다양한 형태로 존재할 수 있으므로, 생성된 구조에 대한 유효성 검사가 반복 수행될 때마다 매회 랜덤하게 다른 결과를 얻을 수 있도록 샘플링 함수를 구성할 수 있다.
구조 생성 프로세서(110)는 데이터베이스(120)에 저장된 물질의 구조에 관한 데이터(구조식 등) s 및 인자 h를 바탕으로 디코딩 함수(d(·))에 대해서 기계 학습을 수행한다(S103). 디코딩 함수가 학습되는 과정에서 구조 인자가 결정될 수 있다. 디코딩 함수 d(·)는, 물성 또는 표현자로부터 도출된 인자를 이용하여 물질의 구조를 원자 레벨에서 생성할 수 있는 함수이다. 구조가 S로 표현될 때, S=d(h)가 성립한다.
이후, 구조 생성 프로세서(110)는 기계 학습의 결과를 바탕으로 목표 물성을 충족하는 신규 물질의 구조를 생성한다.
샘플링 함수를 구성된 경우(S104), 구조 생성 프로세서(110)는 목표 물성으로부터 목표 물성에 대응하는 인자 h를 샘플링한다(h=g(y))(S105). 이때, 인자가 복수의 계층을 포함하는 경우, 복수의 인자가 샘플링 될 수 있다. 그리고 구조 생성 프로세서(110)는 결정된 인자에 디코딩 함수를 적용하여 구조를 생성한다(S=d(h))(S106). 이후, 생성된 구조 S에 대해서 유효성 검사 및 중복 검사가 수행된다(S107). 이때, 디코더(120)가 샘플링된 복수의 인자에 대해서 복수의 구조를 생성하는 경우, 복수의 구조 S에 대한 유효성 검사 및 중복 검사가 수행될 수 있다. 샘플링 함수가 구성되지 않은 경우, 구조 생성 프로세서(110)는 임의의 표현자 x를 생성한다(S108). 이때 표현자 x는 핑거프린트 기법에 따라 랜덤 이진 코드(binary code)로 생성되거나, 유전 알고리즘(genetic algorithm) 또는 볼츠만 머신(Boltzmann machine)에 의해 생성될 수 있다. 유전 알고리즘은 기존 후보 물질의 교배 및 변이를 통해서 신규 후보 물질을 생성하는 알고리즘으로서, 교배 및 변이 과정이 임의적이라는 점이 표현자 x의 생성에 사용될 수 있다.
구조 생성 프로세서(110)는 생성된 임의의 표현자 x의 물성을 예측하고(S109), 예측 물성(y=f(e(x)))이 목표 물성에 해당하는지 확인한다(S110). 예측 물성이 목표 물성을 충족하지 못하면, 구조 생성 프로세서(110)는 다시 임의의 표현자 x를 생성하고 물성을 예측한다. 예측된 물성이 목표 물성을 충족하면, 구조 생성 프로세서(110)는 표현자 x를 인코딩 하여 인자를 결정하고(h=e(x))(S111), 결정된 인자에 디코딩 함수를 적용하여 구조를 생성한다(S=d(h))(S112). 이후, 생성된 구조 S에 대해서 유효성 검사 및 중복 검사가 수행된다(S107).
이후, 생성된 구조가 유효성 검사 및 중복 검사에 통과하면, 생성된 구조는 신규 물질의 후보 구조로 결정되고, 데이터베이스(120)에 추가된다. 데이터베이스(120)에 추가된 후보 구조는 시뮬레이션 등을 통해 추가 검증될 수 있다.
도 6은 다른 실시예에 따른 기계 학습 모델을 나타낸 개념도이다.
도 6을 참조하면, 표현자로서 확장된 연결 핑거프린트(extended connectivity fingerprint, ECFP)가 사용되고, 물성으로서 발광 파장이 사용되며, 구조로서 SMILES 문자열이 사용된다. 다른 실시예에 따른 기계 학습 모델은, 인코딩, 예측, 샘플링을 수행하는 DBM(deep Boltzmann machine) 부분과, 디코딩을 수행하는 RNN(recurrent neural network) 부분을 포함한다.
DBM 부분에서, 표현자는 최하단의 가시 계층(visible layer)이 되고, 물성은 최상단의 목표 계층(target layer)이 되며, 표현자와 물성 사이에 복수의 숨겨진 계층(hidden layer)이 존재한다. 목표 계층으로서, 예측하려는 물성 값의 형태에 따라서, 실수값을 나타내는 가우시안(Gaussian) 형태의 계층이 사용되거나, 또는 분류 결과를 나타내는 소프트맥스(softmax) 형태의 계층이 사용될 수 있다. 숨겨진 계층의 각 계층의 유닛 값은 이진 값이 될 수 있다. 그리고 복수의 숨겨진 계층 중 하나의 계층이 인자를 나타내도록 지정될 수 있다. 예를 들어, 숨겨진 계층이 3개인 경우, 가운데 위치한 계층이 인자를 나타내는 계층으로 지정될 수 있다. 복수의 숨겨진 계층 중 인자를 나타내는 계층으로 사용될 계층을 결정하는 것은, 디코더의 출력(즉, 생성된 구조)에 따를 수 있다. 예를 들어, 생성된 구조가 갖는 물성이 목표 물성을 충족시킬 것으로 기대되는 계층이 인자를 나타내는 계층으로 결정될 수 있다.
다른 실시예에 따르면, DBM 부분의 기계 학습, 기계 학습 모델을 이용한 인코딩, 예측, 그리고 샘플링은, 이미 알려진 기술이 사용될 수 있다. 하지만, 인코딩 및 예측의 경우, 표현자가 입력으로 되고, 기계 학습 모델의 나머지 부분에 대해서 추론 알고리즘이 적용됨으로써, 인자 및 물성이 계산될 수 있다. 샘플링의 경우, 목표 물성이 입력으로 되고, 샘플링 알고리즘이 적용됨으로써, 인자가 계산될 수 있다.
RNN 부분은 DBM 부분에서 결정된 인자를 기계 학습 모델의 입력으로 하고, 구조를 나타내는 문자열을 출력할 수 있다. RNN 부분은, LSTM(long short term memory) 유닛으로 구성된 두 개의 층을 포함할 수 있다. 구조를 나타내는 문자열로는 SMILES 문자열 유형의 분자 구조 코드가 사용된다. SMILES 문자열 유형의 분자 구조 코드는 시작되는 글자를 기준으로 3글자씩 그룹핑되어, 각 시간대의 입력 및 출력이 될 수 있다.
도 7은 일 실시예에 따른 구조를 나타내는 문자열 출력 방법을 나타낸 개념도이다.
도 7을 참조하면, 구조 S를 나타내는 문자열이 "ABCDEFG"일 때, 각 시간대의 입력 및 출력은, "ABC", "BCD", "CDE", "DEF", "EFG"가 될 수 있다. 즉, RNN 부분의 각 유닛은 시각 t에서 입력된 문자열의 다음 문자열을 시각 t+1의 입력으로 사용할 수 있다.
RNN 부분은, 데이터 (h, S)(즉, 인자 및 구조 데이터)에 대하여, 구조 S를 나타내는 문자열의 생성 확률을 최대화하도록 기계 학습을 수행할 수 있다. 문자열의 생성 확률 p는 아래 수학식 2와 같이 표현될 수 있다.
Figure 112016074461610-pat00006
기계 학습을 통해서 RNN 부분의 구성이 완료되면(즉, 구조 인자를 결정하는 데 사용되는 RNN 모델의 파라미터 값을 결정하면), 표현자를 디코딩하여 얻은 인자, 또는 물성을 샘플링하여 얻은 인자에 대해 디코딩을 수행할 수 있다. 다른 실시예에 따르면 디코딩은, 인자를 입력으로 하여 디코딩된 문자열 S의 첫 부분(S(1))을 획득하고, 획득된 S(1)을 입력으로 하여 S(2)를 획득하고, 획득된 S(2)를 입력으로 하여 S(3)를 획득하는 방식으로 순차적으로 진행된다. 도 7을 참조하면, 특정 시점 t에서의 문자열 S(t)의 앞 부분 두 개의 문자가, 시점 t-1의 문자열 S(t-1)의 뒤 부분 두 개의 문자와 같다. 이후, 각 시점의 S(t)가 집성(aggregation) 되어 하나의 문자열 S가 출력된다.
도 8은 또 다른 실시예에 따른 기계 학습 모델을 나타낸 개념도이다.
또 다른 실시예에 따르면, DBM 대신 DNN(deep neural network)가 사용될 수도 있다. 표현자에 DNN 모델로 학습된 인코딩 함수를 적용하여 인수를 얻고, 인수에 RNN 모델로 학습된 디코딩 함수를 적용하면, 새로운 분자 구조를 나타내는 SMILES 문자열이 생성될 수 있다. DNN에 의해 기계 학습 단계가 수행되는 경우, DNN 부분은 표현자를 입력 계층으로 갖고, 인자를 나타내는 복수의 숨겨진 계층을 가지며, 물성을 출력 계층으로 갖는다. 숨겨진 계층이 3개일 때, 두 번째 계층(가운데 계층)이 인자를 표현하는 계층으로 지정될 수 있다. DNN 모델은 피드-포워드(feed-forward) 형태의 신경 네트워크 모델로서, 임의의 표현자에 대한 물성을 정확하고 신속하게 예측할 수 있다. 따라서, DNN 모델은, 랜덤하게 생성된 많은 개수의 표현자에 대해 물성을 신속하고 정확하게 예측하여, 신규 물질의 후보 구조를 디자인하는데 사용될 수 있다. 많은 개수의 표현자를 랜덤하게 생성하기 위하여, 유전 알고리즘이 사용될 수 있다. 이때 유전 알고리즘은, 표현자의 예측 물성을 목표 물성과 비교하기 위한 피트니스 함수(fitness function)를 최대화하는 것으로 결정될 수 있다.
도 9는 또 다른 실시예에 따른 기계 학습 모델을 나타낸 개념도이다.
위에서 설명한 기계 학습 모델은, 표현자와 물성 간의 관계로부터 인자를 도출하고, 도출된 인자와 구조 간의 관계로부터 디코딩 함수를 학습하는 2단계 학습 프로세스를 갖는다. 2단계 학습 프로세스의 첫 번째 단계에서, 구조 생성 프로세서(110)는 관계 y=f(e(x))로부터 f(·) 및 e(·)를 결정한다. 구조 생성 프로세서(110)는 2단계 학습 프로세스의 두 번째 단계에서, e(·)를 사용하여 h=e(x)를 결정하고, 관계 s=d(h)로부터 d(·)를 결정한다. 이때, 첫 번째 단계에서 y를 바탕으로 결정된 e(·)는 두 번째 단계에서 그대로 사용된다.
하지만, 또 다른 실시예에 따른 기계 학습 모델에서 구조 생성 프로세서(110)는, 위의 2단계 학습 프로세서를 하나의 모델로 구성함으로써 기계 학습을 1단계로 수행한다. 이때 물성에 관한 정보 및 구조에 관한 정보가 인자 결정에 동시에 활용됨으로써, 구조 생성에 유리한 인자가 도출될 수 있다. 도 9를 참조하면, 구조 생성 프로세서(110)는, 관계 [y, s]=[f(e(x)), d(e(x))]로부터 f(·), d(·), 그리고 e(·)를 결정한다. 따라서, 또 다른 실시예에 따른 기계 학습 모델에서 e(·)를 학습하는 데에는 기존에 활용된, f(e(x)) 와 물성 y 와의 차이뿐만 아니라, d(e(x))와 구조 s 와의 차이도 활용된다.
예를 들어, |x|는 x의 크기를 나타내는 적절함 함수일 때, 2단계 학습의 첫 번째 및 두 번째 단계는 아래 수학식 3과 같다.
Figure 112016074461610-pat00007
수학식 3의 두 번째 단계에서 e(·)의 형태는 변경되지 않고, 첫 번째 단계에서와 같다.
하지만, 1단계로 수행되는 기계 학습에서 관계는 아래 수학식 4와 같다.
Figure 112016074461610-pat00008
도 10은 다른 실시예에 따른 신규 물질의 구조 생성 장치를 나타낸 블록도이다.
도 10을 참조하면, 다른 실시예에 따른 구조 생성 장치(1000)는, 프로세서(1010) 및 메모리(1020)를 포함한다. 메모리(1020)는 프로세서(1010)와 연결되어 프로세서(1010)를 구동하기 위한 다양한 정보 또는 프로세서(1010)에 의해 실행되는 적어도 하나의 프로그램을 저장할 수 있다. 프로세서(1010)는 실시예에서 제안한 기능, 단계, 또는 방법을 구현할 수 있다. 다른 실시예에 따른 구조 생성 장치(1000)의 동작은 프로세서(1010)에 의해 구현될 수 있다.
다른 실시예에서 메모리(1020)는 프로세서(1010)의 내부 또는 외부에 위치할 수 있고, 메모리(1020)는 이미 알려진 다양한 수단을 통해 프로세서(1010)와 연결될 수 있다. 메모리(1020)는 다양한 형태의 휘발성 또는 비휘발성 저장 매체이며, 예를 들어, 메모리는 읽기 전용 메모리(read-only memory, ROM) 또는 랜덤 액세스 메모리(random access memory, RAM)를 포함할 수 있다.
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims (24)

  1. 신규 물질의 구조를 생성하는 방법으로서,
    적어도 하나의 프로세서가, 제1 기계 학습 모델을 사용하여, 물질의 표현자 및 상기 물질의 물성 간의 관계에 대한 인자를 결정하는 단계, 그리고
    상기 적어도 하나의 프로세서가, 제2 기계 학습 모델을 사용하여, 상기 인자를 바탕으로 목표 물성을 충족시키는 상기 신규 물질의 후보 구조를 생성하는 단계
    를 포함하고,
    상기 물질의 상기 표현자, 상기 물질의 상기 물성, 그리고 상기 물질의 상기 구조는 데이터베이스 내에 저장되어 있고, 상기 제1 기계 학습 모델은 상기 인자를 포함하는 기계 학습 결과를 제공하도록 기계 학습된, 구조 생성 방법.
  2. 제1항에서,
    상기 적어도 하나의 프로세서가, 상기 표현자 및 상기 물성 간의 관계에 대한 상기 인자를 출력할 수 있도록 상기 제1 기계 학습 모델에 대해 기계 학습을 수행하는 단계, 그리고
    상기 인자를 바탕으로 상기 물질의 구조가 생성될 수 있도록, 상기 적어도 하나의 프로세서가, 상기 제2 기계 학습 모델에 대해 기계 학습을 수행하는 단계
    를 더 포함하는, 구조 생성 방법.
  3. 제2항에서,
    상기 제2 기계 학습 모델에 대해 기계 학습을 수행하는 단계는,
    상기 적어도 하나의 프로세서가, 상기 인자와 상기 구조 간의 관계를 나타내는 구조 인자를 결정하는 단계
    를 포함하는, 구조 생성 방법.
  4. 제3항에서,
    상기 인자는, 복수의 계층을 포함하고,
    상기 구조 인자를 결정하는 단계는,
    상기 적어도 하나의 프로세서가, 상기 복수의 계층별로 상기 구조 인자를 결정하는 단계
    를 포함하는, 구조 생성 방법.
  5. 제2항에서,
    상기 제1 기계 학습 모델에 대해 기계 학습을 수행하는 단계는,
    상기 적어도 하나의 프로세서가, 상기 표현자 및 상기 물성에 관한 데이터를 바탕으로 상기 표현자로부터 상기 인자를 도출하기 위한 인코딩 함수를 학습하는 단계, 그리고
    상기 적어도 하나의 프로세서가, 상기 표현자에 상기 인코딩 함수를 적용하여 상기 인자를 결정하는 단계
    를 포함하는, 구조 생성 방법.
  6. 제2항에서,
    상기 제2 기계 학습 모델에 대해 기계 학습을 수행하는 단계는,
    상기 적어도 하나의 프로세서가, 상기 인자 및 상기 구조에 관한 데이터를 바탕으로 상기 인자로부터 상기 후보 구조를 생성하기 위한 디코딩 함수를 학습하는 단계
    를 포함하는, 구조 생성 방법.
  7. 제1항에서,
    상기 후보 구조를 생성하는 단계는,
    상기 적어도 하나의 프로세서가, 상기 목표 물성으로부터 상기 목표 물성에 대응하는 인자를 샘플링 하는 단계, 그리고
    상기 적어도 하나의 프로세서가, 상기 목표 물성에 대응하는 인자에 디코딩 함수를 적용하여 상기 후보 구조를 생성하는 단계
    를 포함하는, 구조 생성 방법.
  8. 제2항에서,
    상기 제1 기계 학습 모델에 대해 기계 학습을 수행하는 단계는,
    상기 적어도 하나의 프로세서가, 상기 표현자 및 상기 물성에 관한 데이터를 바탕으로 상기 인자로부터 상기 물성을 예측하기 위한 예측 함수를 학습하는 단계
    를 포함하는, 구조 생성 방법.
  9. 제8항에서,
    상기 후보 구조를 생성하는 단계는,
    상기 적어도 하나의 프로세서가, 임의의 표현자를 생성하는 단계,
    상기 적어도 하나의 프로세서가, 상기 임의의 표현자에 상기 예측 함수를 적용하여 상기 임의의 표현자에 대응하는 물질의 물성을 예측하는 단계, 그리고
    상기 적어도 하나의 프로세서가, 상기 임의의 표현자에 대응하는 물질의 상기 예측된 물성이 상기 목표 물성을 충족하는지 판단하는 단계
    를 포함하는, 구조 생성 방법.
  10. 제9항에서,
    상기 후보 구조를 생성하는 단계는,
    상기 임의의 표현자에 대응하는 물질의 상기 예측된 물성이 상기 목표 물성을 충족하지 못하는 경우, 상기 적어도 하나의 프로세서가, 상기 임의의 표현자와 다른 임의의 표현자를 생성하는 단계,
    상기 적어도 하나의 프로세서가, 상기 다른 임의의 표현자에 상기 예측 함수를 적용하여 상기 다른 임의의 표현자에 대응하는 물질의 물성을 예측하는 단계, 그리고
    상기 적어도 하나의 프로세서가, 상기 다른 임의의 표현자에 대응하는 물질의 상기 예측된 물성이 상기 목표 물성을 충족하는지 판단하는 단계
    를 더 포함하는, 구조 생성 방법.
  11. 제9항에서,
    상기 후보 구조를 생성하는 단계는,
    상기 적어도 하나의 프로세서가, 상기 임의의 표현자에 대응하는 물질의 상기 예측된 물성이 상기 목표 물성을 충족하는 경우, 상기 임의의 표현자에 상기 인자를 도출하기 위한 인코딩 함수를 적용하여 상기 임의의 표현자에 대응하는 인자를 결정하는 단계, 그리고
    상기 적어도 하나의 프로세서가, 상기 임의의 표현자에 대응하는 인자에 상기 인자로부터 상기 후보 구조를 생성하기 위한 디코딩 함수를 적용하여 상기 임의의 표현자에 대응하는 후보 구조를 생성하는 단계
    를 더 포함하는, 구조 생성 방법.
  12. 제11항에서,
    상기 적어도 하나의 프로세서가, 상기 임의의 표현자에 대응하는 후보 구조에 대해서 유효성 검사 및 중복 검사를 수행하는 단계
    를 더 포함하는 구조 생성 방법.
  13. 신규 물질의 구조를 생성하는 장치로서,
    물질의 표현자, 상기 물질의 물성, 그리고 상기 물질의 구조를 저장하도록 구성된 데이터베이스,
    제1 기계 학습 모델을 사용하여 상기 표현자 및 상기 물성 간의 관계에 대한 인자를 결정하도록 구성된 제1 프로세서, 그리고
    제2 기계 학습 모델을 사용하여 상기 인자를 바탕으로 목표 물성을 충족시키는 상기 신규 물질의 후보 구조를 생성하도록 구성된 제2 프로세서
    를 포함하고,
    상기 제1 기계 학습 모델은 상기 인자를 포함하는 기계 학습 결과를 제공하도록 기계 학습된, 구조 생성 장치.
  14. 제13항에서,
    상기 제1 프로세서는,
    상기 표현자 및 상기 물성 간의 관계에 대한 상기 인자를 출력할 수 있도록 상기 제1 기계 학습 모델에 대해 기계 학습을 수행하고, 상기 제2 프로세서는 상기 인자를 바탕으로 상기 물질의 구조가 생성될 수 있도록, 상기 제2 기계 학습 모델에 대해 기계 학습을 수행하는, 구조 생성 장치.
  15. 제14항에서,
    상기 제2 프로세서는, 상기 제2 기계 학습 모델에 대해 기계 학습을 수행할 때,
    상기 인자와 상기 구조 간의 관계를 나타내는 구조 인자를 결정하는, 구조 생성 장치.
  16. 제15항에서,
    상기 인자는, 복수의 계층을 포함하고,
    상기 제2 프로세서는, 상기 구조 인자를 결정할 때,
    상기 복수의 계층별로 상기 구조 인자를 결정하는, 구조 생성 장치.
  17. 제14항에서,
    상기 제1 프로세서는, 상기 인자를 결정할 때,
    상기 표현자 및 상기 물성에 관한 데이터를 바탕으로 상기 표현자로부터 상기 인자를 도출하기 위한 인코딩 함수를 학습하고, 상기 표현자에 상기 인코딩 함수를 적용하여 상기 인자를 결정하는, 구조 생성 장치.
  18. 제14항에서,
    상기 제2 프로세서는, 상기 제2 기계 학습 모델에 대해 기계 학습을 수행할 때,
    상기 인자 및 상기 구조에 관한 데이터를 바탕으로 상기 인자로부터 상기 후보 구조를 생성하기 위한 디코딩 함수를 학습하는, 구조 생성 장치.
  19. 제13항에서,
    상기 제2 프로세서는, 상기 후보 구조를 생성할 때,
    상기 목표 물성으로부터 상기 목표 물성에 대응하는 인자를 샘플링 하고, 상기 목표 물성에 대응하는 인자에 디코딩 함수를 적용하여 상기 후보 구조를 생성하는, 구조 생성 장치.
  20. 제14항에서,
    상기 제1 프로세서는, 상기 제1 기계 학습 모델에 대해 기계 학습을 수행할 때,
    상기 표현자 및 상기 물성에 관한 데이터를 바탕으로 상기 인자로부터 상기 물성을 예측하기 위한 예측 함수를 학습하는, 구조 생성 장치.
  21. 제20항에서,
    상기 제2 프로세서는, 상기 후보 구조를 생성할 때,
    임의의 표현자를 생성하고, 상기 임의의 표현자에 상기 예측 함수를 적용하여 상기 임의의 표현자에 대응하는 물질의 물성을 예측하며, 상기 임의의 표현자에 대응하는 물질의 상기 예측된 물성이 상기 목표 물성을 충족하는지 판단하는, 구조 생성 장치.
  22. 제21항에서,
    상기 제2 프로세서는, 상기 후보 구조를 생성할 때,
    상기 임의의 표현자에 대응하는 물질의 상기 예측된 물성이 상기 목표 물성을 충족하지 못하는 경우, 상기 임의의 표현자와 다른 임의의 표현자를 생성하고, 상기 다른 임의의 표현자에 상기 예측 함수를 적용하여 상기 다른 임의의 표현자에 대응하는 물질의 물성을 예측하며, 상기 다른 임의의 표현자에 대응하는 물질의 상기 예측된 물성이 상기 목표 물성을 충족하는지 판단하는, 구조 생성 장치.
  23. 제21항에서,
    상기 제2 프로세서는, 상기 후보 구조를 생성할 때,
    상기 임의의 표현자에 대응하는 물질의 상기 예측된 물성이 상기 목표 물성을 충족하는 경우, 상기 임의의 표현자에 상기 인자를 도출하기 위한 인코딩 함수를 적용하여 상기 임의의 표현자에 대응하는 인자를 결정하고, 상기 임의의 표현자에 대응하는 인자에 상기 인자로부터 상기 후보 구조를 생성하기 위한 디코딩 함수를 적용하여 상기 임의의 표현자에 대응하는 후보 구조를 생성하는, 구조 생성 장치.
  24. 제23항에서,
    상기 제2 프로세서는 또한, 상기 임의의 표현자에 대응하는 후보 구조에 대해서 유효성 검사 및 중복 검사를 수행하는, 구조 생성 장치.
KR1020160097764A 2016-08-01 2016-08-01 신규 물질의 구조 생성 방법 및 장치 KR102523472B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020160097764A KR102523472B1 (ko) 2016-08-01 2016-08-01 신규 물질의 구조 생성 방법 및 장치
US15/664,960 US10957419B2 (en) 2016-08-01 2017-07-31 Method and apparatus for new material discovery using machine learning on targeted physical property

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160097764A KR102523472B1 (ko) 2016-08-01 2016-08-01 신규 물질의 구조 생성 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20180014471A KR20180014471A (ko) 2018-02-09
KR102523472B1 true KR102523472B1 (ko) 2023-04-18

Family

ID=61009772

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160097764A KR102523472B1 (ko) 2016-08-01 2016-08-01 신규 물질의 구조 생성 방법 및 장치

Country Status (2)

Country Link
US (1) US10957419B2 (ko)
KR (1) KR102523472B1 (ko)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101778679B1 (ko) * 2015-10-02 2017-09-14 네이버 주식회사 딥러닝을 이용하여 텍스트 단어 및 기호 시퀀스를 값으로 하는 복수 개의 인자들로 표현된 데이터를 자동으로 분류하는 방법 및 시스템
KR102587959B1 (ko) 2018-01-17 2023-10-11 삼성전자주식회사 뉴럴 네트워크를 이용하여 화학 구조를 생성하는 장치 및 방법
KR102547802B1 (ko) 2018-08-23 2023-06-26 삼성전자주식회사 뉴럴 네트워크를 이용하여 화학 구조를 생성하는 장치 및 방법
CN109376933A (zh) * 2018-10-30 2019-02-22 成都云材智慧数据科技有限公司 基于神经网络的锂离子电池负极材料能量密度预测方法
KR102288059B1 (ko) * 2018-10-31 2021-08-10 주식회사 인실리코 인공지능을 활용한 소재 조성 추천 방법 및 이를 이용한 소재 조성 추천 장치
US11901045B2 (en) * 2019-01-15 2024-02-13 International Business Machines Corporation Machine learning framework for finding materials with desired properties
CN113454728A (zh) * 2019-02-12 2021-09-28 Jsr株式会社 数据处理方法、数据处理装置以及数据处理系统
JP6974651B2 (ja) * 2019-03-15 2021-12-01 富士フイルム株式会社 特徴推定方法、特徴推定装置、プログラム及び記録媒体
US11586982B2 (en) 2019-09-18 2023-02-21 Samsung Electronics Co., Ltd. Electronic and atomic structure computation utilizing machine learning
US20210098084A1 (en) * 2019-09-30 2021-04-01 Nissan North America, Inc. Method and System for Material Screening
US11537898B2 (en) 2019-10-02 2022-12-27 Samsung Electronics Co., Ltd. Generative structure-property inverse computational co-design of materials
US11854672B2 (en) 2019-10-10 2023-12-26 Samsung Electronics Co., Ltd. Method and apparatus for generating chemical structure
CN111080124A (zh) * 2019-12-13 2020-04-28 中国航空工业集团公司西安飞机设计研究所 飞行器复合材料备用供应商的验证方法
KR102275046B1 (ko) * 2019-12-24 2021-07-08 한국화학연구원 소재의 조성-공정에 대한 특성선택 알고리즘을 적용한 물성예측 인공지능 모델 생성 장치 및 그 생성 방법
KR102427304B1 (ko) * 2020-06-12 2022-07-28 부산대학교 산학협력단 머신러닝을 이용한 구조용 에폭시 접착제의 포뮬레이션 예측 방법
CN112382352B (zh) * 2020-10-30 2022-12-16 华南理工大学 基于机器学习的金属有机骨架材料结构特征快速评估方法
KR102633477B1 (ko) 2021-10-13 2024-02-06 한국화학연구원 인공지능 기반 복합 소재의 최적 공정 조건에 대한 탐색 최적화 시스템 및 그 방법
CN114373523B (zh) * 2022-03-22 2022-06-03 合肥工业大学 基于松鼠优化算法和机器学习算法的玻璃硬度预测方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4939666A (en) 1987-09-02 1990-07-03 Genex Corporation Incremental macromolecule construction methods
US5463564A (en) 1994-09-16 1995-10-31 3-Dimensional Pharmaceuticals, Inc. System and method of automatically generating chemical compounds with desired properties
FR2773240B1 (fr) 1997-12-30 2002-11-29 Synt Em Procede pour prevoir, identifier et decrire des molecules susceptibles de presenter un comportement recherche, notamment dans le domaine de la pharmacie et molecules obtenues par ce procede
JP2003058579A (ja) 2001-08-21 2003-02-28 Bridgestone Corp 設計・配合の最適化方法
US7747391B2 (en) * 2002-03-01 2010-06-29 Maxygen, Inc. Methods, systems, and software for identifying functional biomolecules
KR100456627B1 (ko) 2002-12-10 2004-11-10 한국전자통신연구원 3차원 구조기반의 거대분자의 기능 예측 시스템 및 그 방법
EP1589463A1 (en) * 2004-04-21 2005-10-26 Avantium International B.V. Molecular entity design method
JP2006323833A (ja) 2005-04-19 2006-11-30 Zoegene Corp 生理活性化合物の設計方法及び設計装置、並びに生理活性化合物の設計プログラム
JP2010198561A (ja) 2009-02-27 2010-09-09 Hitachi Chem Co Ltd 物質作用配合解析機構
KR101267373B1 (ko) 2011-10-05 2013-05-24 주식회사 켐에쎈 순수한 유기화합물의 표준상태 생성에너지를 예측하는 다중선형회귀-인공신경망 모형
KR102457974B1 (ko) * 2015-11-04 2022-10-21 삼성전자주식회사 신규 물질 탐색 방법 및 장치

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
G. Schneider et al., Artificial neural networks for computer-based molecular design, Prog. Biophys. Mol. Biol. Vol.70, pp175-222(1998)*
L. C. Yee et al., Current Modeling Methods Used in QSAR/QSPR, Statistical Modelling of Molecular Descriptors in QSAR/QSPR, Vol.2(2012)*
T. Miyao et al., Inverse QSPR/QSAR Analysis for Chemical Structure Generation(from y to x), J. Chem. Inf. Model. Vol.56, pp286-299(2016.01.28.)*

Also Published As

Publication number Publication date
US10957419B2 (en) 2021-03-23
KR20180014471A (ko) 2018-02-09
US20180032663A1 (en) 2018-02-01

Similar Documents

Publication Publication Date Title
KR102523472B1 (ko) 신규 물질의 구조 생성 방법 및 장치
Ru et al. Interpretable neural architecture search via bayesian optimisation with weisfeiler-lehman kernels
Li et al. Pure density functional for strong correlation and the thermodynamic limit from machine learning
Ardakani et al. Soil compaction parameters prediction using GMDH-type neural network and genetic algorithm
CN109657805B (zh) 超参数确定方法、装置、电子设备及计算机可读介质
CN109791642B (zh) 工作流的自动生成
KR102457974B1 (ko) 신규 물질 탐색 방법 및 장치
EP3514734A1 (en) Method and apparatus for generating a chemical structure using a neural network
US20200342953A1 (en) Target molecule-ligand binding mode prediction combining deep learning-based informatics with molecular docking
CN112136181A (zh) 使用强化学习的分子设计
US20220383177A1 (en) Enhancing combinatorial optimization with quantum generative models
US20210374544A1 (en) Leveraging lagging gradients in machine-learning model training
Zheng et al. A self-adaptive temporal-spatial self-training algorithm for semisupervised fault diagnosis of industrial processes
Sharma et al. Classification algorithms on a large continuous random dataset using rapid miner tool
CN113988272A (zh) 一种生成神经网络的方法、装置、计算机设备和存储介质
KR20180056013A (ko) 나노 물질의 독성을 예측하는 방법 및 장치
CN111967941B (zh) 一种构建序列推荐模型的方法和序列推荐方法
KR102406375B1 (ko) 원천 기술의 평가 방법을 포함하는 전자 장치
Bhardwaj et al. Use of ANN, C4. 5 and random forest algorithm in the evaluation of seismic soil liquefaction
KR102221263B1 (ko) 뇌기능 지식 베이스 자가 성장 시스템 및 방법
Li et al. Discovering Mathematical Formulas from Data via GPT-guided Monte Carlo Tree Search
Hong et al. Adaax: Explaining recurrent neural networks by learning automata with adaptive states
Gómez-Pulido et al. Novel and classic metaheuristics for tunning a recommender system for predicting student performance in online campus
Vrunda et al. Sentimental analysis of Twitter data and Comparison of covid 19 Cases trend Using Machine learning algorithms
Aloisio et al. Machine learning predictions of code-based seismic vulnerability for reinforced concrete and masonry buildings: Insights from a 300-building database

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant