KR20210116139A - 기계 학습 기반 분자의 분광 특성 예측 시스템 및 그 방법 - Google Patents

기계 학습 기반 분자의 분광 특성 예측 시스템 및 그 방법 Download PDF

Info

Publication number
KR20210116139A
KR20210116139A KR1020200039313A KR20200039313A KR20210116139A KR 20210116139 A KR20210116139 A KR 20210116139A KR 1020200039313 A KR1020200039313 A KR 1020200039313A KR 20200039313 A KR20200039313 A KR 20200039313A KR 20210116139 A KR20210116139 A KR 20210116139A
Authority
KR
South Korea
Prior art keywords
molecular
information
characteristic
spectral
surrounding
Prior art date
Application number
KR1020200039313A
Other languages
English (en)
Other versions
KR102392500B1 (ko
Inventor
박성남
정준영
한민희
최동훈
정민석
Original Assignee
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교 산학협력단 filed Critical 고려대학교 산학협력단
Priority to US17/199,618 priority Critical patent/US20210287137A1/en
Publication of KR20210116139A publication Critical patent/KR20210116139A/ko
Application granted granted Critical
Publication of KR102392500B1 publication Critical patent/KR102392500B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures

Landscapes

  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)

Abstract

기계 학습 기반 분자의 분광 특성 예측 시스템 및 그 방법에 관한 것으로서, 일실시예에 따른 분광 특성 예측 시스템은 적어도 하나의 타겟 분자에 대응되는 분자 정보와 주변 분자계 정보를 수신하고, 분자 정보와 주변 분자계 정보를 벡터화하는 전처리부와, 벡터화된 분자 정보에 대응되는 분자 특성과 벡터화된 주변 분자계 정보에 대응되는 주변 분자계 특성을 추출하는 특성 추출부와, 분자 특성과 주변 분자계 특성을 입력으로 수신하는 통합 특성 추출 알고리즘을 이용하여 분자 특성과 주변 분자계 특성간의 통합 특성을 추출하는 통합 특성 추출부 및 통합 특성에 대응되는 타겟 분자의 분광 특성의 예측값을 출력하는 분광 특성 출력부를 포함한다.

Description

기계 학습 기반 분자의 분광 특성 예측 시스템 및 그 방법{SYSTEM AND METHOD FOR PREDICTING THE SPECTROSCOPIC PROPERTIES OF MOLECULES BASED ON MACHINE LEARNING}
본 발명은 기계 학습 기반 분자의 분광 특성 예측 시스템 및 그 방법에 관한 것으로, 보다 상세하게는 주어진 타겟 분자와 주변 분자계의 상호작용을 고려하는 기계 학습 방법을 통해 타겟 분자의 분광 특성을 예측하는 기술적 사상에 관한 것이다.
또한, 본 발명은 교육부의 이공분야 대학중점연구소지원사업의 일환으로 수행한 연구로부터 도출된 것이다[연구재단 사사번호: 2019R1A6A1A11044070, 연구기간: 2020-03-01 ~ 2021-02-28, 부처명: 교육부, 연구관리전문기관: 한국연구재단, 연구사업명: 이공분야 대학중점연구소지원사업, 연구과제명:
Figure pat00001
-전자 기반 에너지·환경 혁신소재 연구, 기여율: 10%, 주관기관: 고려대학교 산학협력단].
흡광 스펙트럼에서 흡광 최대 파장, 흡광 반치전폭(full width at half maximum), 파장에 따른 몰 흡광 계수, 형광(fluorescence)과 인광(phosphorescence)을 포함하는 발광(luminescence) 스펙트럼에서 발광 최대 파장, 발광 반치전폭, 파장에 따른 발광 세기, 발광 수명, 발광 양자 수율, 단일항 및 삼중항 에너지, CIE 1931 색공간, 스핀 궤도 상호작용(spin orbit coupling) 상수 등의 다양한 분광 특성은 유기 발광 다이오드, 염료, 형광 염료, 형광 센서, 생체 내 영상 형광 표지자 등의 다양한 소재 및 발광 분자를 개발하는데 중요한 핵심 특성이다.
즉, 분자의 분광 특성을 빠르고 정확히 예측하는 기술이 최근 중요 기술로 부각되고 있으며, 이는 다양한 연구 분야에서 필요한 흡광, 발광 분자를 개발하는데 크게 활용되는 기술이다.
구체적으로, 분자의 분광 특성을 통해 분자가 흡수하는 색, 방출하는 색 및 빛의 세기 등을 용이하게 예측할 수 있으며, 이는 염료, 유기발광다이오드(Organic Light Emitting Diodes; OLED) 및 생체 내 영상 형광 표지자 등에 대한 성능을 좌우한다.
현재는 양자 화학 이론 기반의 계산을 이용하여 원하는 유기분자나 무기분자에 대한 최적 구조, 에너지, 흡광 및 발광 스펙트럼, 적외선(infrared, IR) 및 라만(Raman) 스펙트럼 등과 다양한 특성을 예측하는 방법이 사용되고 있다.
특히, 현재 많이 사용되고 있는 양자 화학 이론 기반의 DFT(density functional theory) 계산법의 경우에 예측된 결과의 정확도가 범함수(functional)와 기저계(basis set)에 의존한다.
즉, 상술한 DFT 계산법을 사용하기 위해서 고성능 컴퓨터가 필요하며, 분자의 크기에 따라 보통 몇 시간에서 며칠의 계산 시간이 소요된다.
또한, DFT 계산법으로 분자의 분광 특성 중 발광 양자 수율과 발광 수명 등을 예측하는 것은 사실상 불가능하다.
따라서, 기존의 방법 보다 분자의 분광 특성을 휠씬 빠르고 정확하게 예측할 수 있으며, 이론 기반 계산법으로 예측이 불가능한 특성까지 예측할 수 있는 새로운 기술이 필요한 실정이다.
일본등록특허 제5211347호, "단백질-화합물 간 상호작용 예측 방법"
본 발명은 타겟 분자의 광학 특성을 빠르고 정확하게 예측함으로써 개발 시간과 비용을 크게 줄일 수 있는 분광 특성 예측 시스템 및 그 방법을 제공하고자 한다.
또한, 본 발명은 빅데이터 기반 기계 학습 원리를 기반으로 주어진 분자의 분광 특성을 주변 분자계의 영향을 고려하면서 빠르고 정확히 예측할 수 있는 분광 특성 예측 시스템 및 그 방법을 제공하고자 한다.
본 발명의 일실시예에 따른 분광 특성 예측 시스템은 적어도 하나의 타겟 분자에 대응되는 분자 정보와 주변 분자계 정보를 수신하고, 분자 정보와 주변 분자계 정보를 벡터화하는 전처리부와, 벡터화된 분자 정보에 대응되는 분자 특성과 벡터화된 주변 분자계 정보에 대응되는 주변 분자계 특성을 추출하는 특성 추출부와, 분자 특성과 주변 분자계 특성을 입력으로 수신하는 통합 특성 추출 알고리즘을 이용하여 분자 특성과 주변 분자계 특성간의 통합 특성을 추출하는 통합 특성 추출부 및 통합 특성에 대응되는 타겟 분자의 분광 특성의 예측값을 출력하는 분광 특성 출력부를 포함할 수 있다.
일측에 따르면, 특성 추출부는 벡터화된 분자 정보를 입력으로 수신하는 분자 특성 추출 알고리즘을 이용하여 분자 특성을 추출하는 분자 특성 추출부 및 벡터화된 주변 분자계 정보를 입력으로 수신하는 주변 분자계 특성 추출 알고리즘을 이용하여 주변 분자계 특성을 추출하는 주변 분자계 특성 추출부를 더 포함할 수 있다.
일측에 따르면, 전처리부는 분자 정보와 주변 분자계 정보를 SMILES(simplified molecular-input line-entry system) 표현으로 변환하고, 변환된 분자 정보와 변환된 주변 분자계 정보를 벡터화할 수 있다.
일측에 따르면, 전처리부는 변환된 분자 정보와 변환된 주변 분자계 정보에 각각 대응되는 핑거 프린트(fingerprint), 분자설명인자(molecular descriptor), 분자의 화학 구조식에 대한 이미지, 분자 그래프(molecular graph), 분자 좌표(molecular coordinates) 및 SMILES 코드 중 적어도 하나의 정보를 이용하여 벡터화할 수 있다.
일측에 따르면, 분자 정보는 타겟 분자에 대한 화학 구조식 정보를 포함할 수 있다.
일측에 따르면, 주변 분자계 정보는 다수의 용매(solvents)에 대한 정보를 포함할 수 있다.
일측에 따르면, 분자 특성 추출 알고리즘, 주변 분자계 특성 추출 알고리즘 및 통합 특성 추출 알고리즘 중 적어도 하나의 알고리즘은 적어도 하나의 은닉 계층(hidden layer)을 포함하는 신경망 알고리즘일 수 있다.
일측에 따르면, 분광 특성은 흡광 최대 파장, 흡광 반치전폭(full width at half maximum), 몰 흡광 계수, 발광 최대 파장, 발광 반치전폭, 발광 세기, 발광 수명, 발광 양자 수율, 단일항 에너지, 삼중항 에너지, CIE 1931 색공간 및 스핀 궤도 상호작용(spin orbit coupling) 상수 중 적어도 하나에 대한 특성 정보를 포함할 수 있다.
일실시예에 따른 분광 특성 예측 방법은 전처리부에서 적어도 하나의 타겟 분자에 대응되는 분자 정보와 주변 분자계 정보를 수신하고, 분자 정보와 주변 분자계 정보를 벡터화하는 단계와, 특성 추출부에서 벡터화된 분자 정보에 대응되는 분자 특성과 벡터화된 주변 분자계 정보에 대응되는 주변 분자계 특성을 추출하는 단계와, 통합 특성 추출부에서 분자 특성과 주변 분자계 특성을 입력으로 수신하는 통합 특성 추출 알고리즘을 이용하여 분자 특성과 주변 분자계 특성간의 통합 특성을 추출하는 단계 및 분광 특성 출력부에서 통합 특성에 대응되는 타겟 분자의 분광 특성의 예측값을 출력하는 단계를 포함할 수 있다.
일측에 따르면, 분자 특성과 주변 분자계 특성을 추출하는 단계는 분자 특성 추출부에서 벡터화된 분자 정보를 입력으로 수신하는 분자 특성 추출 알고리즘을 이용하여 분자 특성을 추출하는 단계 및 주변 분자계 특성 추출부에서, 벡터화된 주변 분자계 정보를 입력으로 수신하는 주변 분자계 특성 추출 알고리즘을 이용하여 주변 분자계 특성을 추출하는 단계를 더 포함할 수 있다.
일실시예에 따르면, 본 발명은 타겟 분자의 광학 특성을 빠르고 정확하게 예측함으로써 개발 시간과 비용을 크게 줄일 수 있다.
일실시예에 따르면, 본 발명은 빅데이터 기반 기계 학습 원리를 기반으로 주어진 분자의 분광 특성을 주변 분자계의 영향을 고려하면서 빠르고 정확히 예측할 수 있다.
도 1는 일실시예에 따른 분광 특성 예측 시스템을 설명하기 위한 도면이다.
도 2는 일실시예에 따른 분광 특성 예측 시스템의 구현예를 설명하기 위한 도면이다.
도 3은 일실시예에 따른 분광 특성 예측 시스템의 동작 과정을 설명하기 위한 도면이다.
도 4는 일실시예에 따른 전처리부의 구현예를 설명하기 위한 도면이다.
도 5는 일실시예에 따른 특성 추출부의 구현예를 설명하기 위한 도면이다.
도 6은 일실시예에 따른 통합 특성 추출부의 구현예를 설명하기 위한 도면이다.
도 7은 일실시예에 따른 분광 특성 출력부의 구현예를 설명하기 위한 도면이다.
도 8은 일실시예에 따른 분광 특성 예측 시스템의 제1 동작예를 설명하기 위한 도면이다.
도 9는 일실시예에 따른 분광 특성 예측 시스템의 제1 동작예에 따른 분광 특성의 예측 결과를 설명하기 위한 도면이다.
도 10은 일실시예에 따른 분광 특성 예측 시스템의 제2 동작예를 설명하기 위한 도면이다.
도 11은 일실시예에 따른 분광 특성 예측 시스템의 제2 동작예에 따른 분광 특성의 예측 결과를 설명하기 위한 도면이다.
도 12는 일실시예에 따른 분광 특성 예측 시스템과 기존 기술간의 성능 비교 결과를 설명하기 위한 도면이다.
도 13은 일실시예에 따른 분광 특성 예측 시스템과 기존 기술간의 평균 절대 오차의 비교 결과를 설명하기 위한 도면이다.
도 14는 일실시예에 따른 분광 특성 예측 방법을 설명하기 위한 도면이다.
이하, 본 문서의 다양한 실시 예들이 첨부된 도면을 참조하여 기재된다.
실시 예 및 이에 사용된 용어들은 본 문서에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 해당 실시 예의 다양한 변경, 균등물, 및/또는 대체물을 포함하는 것으로 이해되어야 한다.
하기에서 다양한 실시 예들을 설명에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다.
그리고 후술되는 용어들은 다양한 실시 예들에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다.
본 문서에서, "A 또는 B" 또는 "A 및/또는 B 중 적어도 하나" 등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다.
"제1," "제2," "첫째," 또는 "둘째," 등의 표현들은 해당 구성요소들을, 순서 또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다.
어떤(예: 제1) 구성요소가 다른(예: 제2) 구성요소에 "(기능적으로 또는 통신적으로) 연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다.
본 명세서에서, "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, 하드웨어적 또는 소프트웨어적으로 "~에 적합한," "~하는 능력을 가지는," "~하도록 변경된," "~하도록 만들어진," "~를 할 수 있는," 또는 "~하도록 설계된"과 상호 호환적으로(interchangeably) 사용될 수 있다.
어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다.
예를 들면, 문구 "A, B, 및 C를 수행하도록 구성된(또는 설정된) 프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(예: CPU 또는 application processor)를 의미할 수 있다.
또한, '또는' 이라는 용어는 배타적 논리합 'exclusive or' 이기보다는 포함적인 논리합 'inclusive or' 를 의미한다.
즉, 달리 언급되지 않는 한 또는 문맥으로부터 명확하지 않는 한, 'x가 a 또는 b를 이용한다' 라는 표현은 포함적인 자연 순열들(natural inclusive permutations) 중 어느 하나를 의미한다.
상술한 구체적인 실시예들에서, 발명에 포함되는 구성 요소는 제시된 구체적인 실시 예에 따라 단수 또는 복수로 표현되었다.
그러나, 단수 또는 복수의 표현은 설명의 편의를 위해 제시한 상황에 적합하게 선택된 것으로서, 상술한 실시 예들이 단수 또는 복수의 구성 요소에 제한되는 것은 아니며, 복수로 표현된 구성 요소라 하더라도 단수로 구성되거나, 단수로 표현된 구성 요소라 하더라도 복수로 구성될 수 있다.
한편 발명의 설명에서는 구체적인 실시 예에 관해 설명하였으나, 다양한 실시 예들이 내포하는 기술적 사상의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다.
그러므로 본 발명의 범위는 설명된 실시 예에 국한되어 정해져서는 아니되며 후술하는 청구범위뿐만 아니라 이 청구범위와 균등한 것들에 의해 정해져야 한다.
도 1는 일실시예에 따른 분광 특성 예측 시스템을 설명하기 위한 도면이다.
도 1을 참조하면, 일실시예에 따른 분광 특성 예측 시스템(100)은 머신 러닝에 기반하는 예측 모델을 이용하여 주변 분자계에 대응되는 타겟 분자의 분광 특성을 예측할 수 있다.
구체적으로, 분자의 분광 특성을 예측하기 위한 종래의 연구들은 슈뢰딩거 방정식(schrodinger equation) 또는 콘-샴 방정식(kohn-shan equation)에 기초하는 TD-HF (time-dependent hartree-fock) 및 TD-DFT(time-dependent density functional theory) 등의 방법을 이용한다.
그러나, TD-HF 및 TD-DFT와 같은 방법은 이론에 기반하여 계산하기 때문에 매우 큰 계산 비용이 필요하다. 또한 이론이 존재하지 않는 흡광 반치전폭, 발광 반치전폭, 발광 수명, 발광 양자 수율과 같은 값을 예측할 수 없다는 문제점이 있다.
반면, 일실시예에 따른 분광 특성 예측 시스템(100)은 복수 개의 은닉 계층(hidden layer)과 이들에 포함되는 복수 개의 유닛(hidden unit)으로 구성되는 신경망(neural network) 기반의 예측 모델(머신 러닝 모델)을 구비하고, 예측 모델을 입력으로 타겟 분자에 관한 정보와 주변 분자계에 관한 빅데이터 정보를 수신함으로써, 타겟 분자에 대한 정보가 은닉 계층을 통과하면서 예측하고자 하는 문제를 보다 잘 설명할 수 있는 정보로 변형될 수 있다.
즉, 분광 특성 예측 시스템(100)은 전문가의 사전 지식 또는 직관이 필요없기 때문에 분광 특성의 추출 과정에서 주관적 요인을 제거할 수 있고 보다 높은 일반화 능력을 갖는 예측 모델을 구현할 수 있다.
또한, 분광 특성 예측 시스템(100)은 기존 이론 대비 보다 빠른 속도(분자당 1초 미만) 및 높은 정확도로 분광특성을 예측할 수 있고, 이론이 없어 예측할 수 없는 분광특성도 예측할 수 있다.
일실시예에 따른 분광 특성 예측 시스템(100)은 이후 도 2를 통해 보다 구체적으로 설명하기로 한다.
도 2는 일실시예에 따른 분광 특성 예측 시스템의 구현예를 설명하기 위한 도면이다.
도 2를 참조하면, 일실시예에 따른 분광 특성 예측 시스템(200)은 타겟 분자의 광학 특성을 빠르고 정확하게 예측함으로써 개발 시간과 비용을 크게 줄일 수 있다.
또한, 빅데이터 기반 기계 학습 원리를 기반으로 주어진 분자의 분광 특성을 주변 분자계의 영향을 고려하면서 빠르고 정확히 예측할 수 있다.
이를 위해, 분광 특성 예측 시스템(200)은 전처리부(210), 특성 추출부(220), 통합 특성 추출부(230) 및 분광 특성 추출부(240)를 포함할 수 있으며, 특성 추출부(220)는 분자 특성 추출부(221) 및 주변 분자계 특성 추출부(222)를 더 포함할 수 있다.
일실시예에 따른 전처리부(210)는 적어도 하나의 타겟 분자에 대응되는 분자 정보와 주변 분자계 정보를 수신하고, 분자 정보와 주변 분자계 정보를 벡터화할 수 있다.
예를 들면, 분자 정보는 타겟 분자에 대한 화학 구조식 정보를 포함할 수 있으며, 여기서 타겟 분자는 발색단(chromophores)에 대응되는 분자일 수 있다.
또한, 주변 분자계 정보는 다수의 용매(solvents)에 대한 정보를 포함할 수 있다.
구체적으로, 다수의 용매에 대한 정보는 기체 상의 경우에는 주변 분자계가 없거나 해당하는 주위 기체 분자, 액체 상의 경우에는 단일 또는 공용매(cosolvent)와 같은 복수의 용매, 고체 상의 경우에는 단일 또는 공용매(cosolvent), 매질(matrix) 호스트(host)와 같은 복수의 고체상 용매에 대한 화학 구조식 정보를 포함할 수 있다.
일측에 따르면, 전처리부(210)는 분자 정보와 주변 분자계 정보를 SMILES(simplified molecular-input line-entry system) 표현으로 변환하고, 변환된 분자 정보와 변환된 주변 분자계 정보를 벡터화할 수 있으며, SMILES는 화학 물질의 구성 원소, 결합 종류, 방향족성(aromaticity), 브랜치의 유무 등의 화학적 구조 정보를 ASCII 코드의 문자열로 표현하는 방법을 의미한다.
예를 들면, 전처리부(210)는 변환된 분자 정보와 변환된 주변 분자계 정보에 각각 대응되는 핑거 프린트(fingerprint), 분자설명인자(molecular descriptor), 분자의 화학 구조식에 대한 이미지, 분자 그래프(molecular graph), 분자 좌표(molecular coordinates) 및 SMILES 코드 중 적어도 하나의 정보를 이용하여 벡터화할 수 있다. 예를 들면, 분자 좌표는 분자 내 원자의 3차원 좌표(cartesian coordinates) 또는 Z-매트릭스(Z-matrix)를 포함할 수 있으나, 이에 한정 되지 않고 기공지된 모든 형태의 분자 좌표를 포함할 수 있다.
다시 말해, 전처리부(210)는 SMILES 표현으로 변환된 정보에 대응되는 적어도 하나의 정보를 벡터화 처리할 수 있다.
일실시예에 따른 특성 추출부(220)는 벡터화된 분자 정보에 대응되는 분자 특성과 벡터화된 주변 분자계 정보에 대응되는 주변 분자계 특성을 추출할 수 있다.
일측에 따르면, 분자 특성 추출부(221)는 벡터화된 분자 정보를 입력으로 수신하는 분자 특성 추출 알고리즘을 이용하여 분자 특성을 추출할 수 있다.
또한, 주변 분자계 특성 추출부(222)는 벡터화된 주변 분자계 정보를 입력으로 수신하는 주변 분자계 특성 추출 알고리즘을 이용하여 주변 분자계 특성을 추출할 수 있다.
일실시예에 따른 통합 특성 추출부(230)는 분자 특성과 주변 분자계 특성을 입력으로 수신하는 통합 특성 추출 알고리즘을 이용하여 분자 특성과 주변 분자계 특성간의 통합 특성을 추출할 수 있다.
다시 말해, 통합 특성 추출부(230)는 통합 특성 추출 알고리즘을 이용하여 타겟 분자에 대한 분자 특성과 주변 분자계 특성간의 상호작용 특성을 추출할 수 있다.
일측에 따르면, 통합 특성 추출부(230)는 통합 특성 추출 알고리즘에 기초한 훈련(training) 과정을 통해 훈련된 상호작용 결과를 추출할 수도 있다.
일측에 따르면, 분자 특성 추출부(221)에 구비된 분자 특성 추출 알고리즘, 주변 분자계 특성 추출부(222)에 구비된 주변 분자계 특성 추출 알고리즘 및 통합 특성 추출부(230)에 구비된 통합 특성 추출 알고리즘 중 적어도 하나의 알고리즘은 적어도 하나의 은닉 계층(hidden layer)을 포함하는 신경망 알고리즘일 수 있다.
바람직하게는, 분자 특성 추출 알고리즘, 주변 분자계 특성 추출 알고리즘 및 통합 특성 추출 알고리즘은 멀티 레이어 퍼셉트론(multi-layer perceptron)을 기반으로 하는 신경망 알고리즘일 수 있다.
예를 들면, 적어도 하나의 알고리즘은 입력 계층, 출력 계층, 입력 계층과 출력 계층 사이에 구비되는 적어도 하나의 은닉 계층으로 구성되고, 입력 계층, 적어도 하나의 은닉 계층 및 출력 계층 각각은 적어도 하나의 노드(입력 노드, 은닉 노드 및 출력 노드)를 구비할 수 있다.
또한, 적어도 하나의 알고리즘은 입력조건이 입력 계층에 입력되면, 적어도 하나의 은닉 계층에 있는 은닉 노드에 의해 수행된 연산결과가 다음 계층에 있는 은닉 노드의 입력값이 되며, 이러한 과정을 출력 계층까지 수행하여 최종 결과를 출력할 수 있다.
일실시예에 따른 분광 특성 출력부(240)는 통합 특성에 대응되는 타겟 분자의 분광 특성의 예측값을 출력할 수 있다.
일측에 따르면, 분광 특성 출력부(240)는 훈련된 상호작용 결과에 대응되는 분광 특성의 예측값을 출력할 수 있다.
예를 들면, 분광 특성은 자외선, 가시광선, 적외선 영역대에서 주변 분자계에 영향을 받는 흡광 스펙트럼에서 흡광 최대 파장, 흡광 반치전폭(full width at half maximum), 파장에 따른 몰 흡광 계수, 형광(fluorescence)과 인광(phosphorescence)을 포함하는 발광(luminescence) 스펙트럼에서 발광 최대 파장, 발광 반치전폭, 파장에 따른 발광 세기, 발광 수명, 발광 양자 수율, 단일항 에너지, 삼중항 에너지, CIE 1931 색공간 및 스핀 궤도 상호작용(spin orbit coupling) 상수 중 적어도 하나에 대한 특성 정보를 포함할 수 있다.
한편, 통합 특성 추출부(230)는 분광 특성 출력부(240)로부터 출력되는 분광 특성의 예측값과 예측값에 대응되는 기대값에 기초하여, 통합 특성 추출 알고리즘의 은닉 계층의 수와 연결강도를 조절할 수 있다.
예를 들면, 연결강도는 알고리즘의 각 계층에 있는 노드를 연결시켜주는 역할을 수행하는 것으로, 이 연결은 같은 계층에 있는 노드를 연결할 수 없고 다른 계층에 있는 노드를 연결할 수 있으며, 일반적으로 하나의 노드는 다음 층에 있는 모든 노드와 연결될 수 있다.
또한, 예측값에 대응되는 기대값은 전문가 또는 기저장된 빅데이터 정보에 의해 검증된 타겟 분자의 분광특성 값일 수 있다.
구체적으로, 통합 특성 추출부(230)는 출력된 분광 특성의 예측값과 예측값에 대응되는 기대값을 비교하고, 비교된 값들의 차이(오차)를 감소시키는 방향으로 은닉 노드간의 연결강도를 조절할 수 있다.
도 3은 일실시예에 따른 분광 특성 예측 시스템의 동작 과정을 설명하기 위한 도면이다.
도 3을 참조하면, 일실시예에 따른 분광 특성 예측 시스템(300)은 머신러닝을 이용하여 주변 분자계에 대응되는 타겟 분자의 분광 특성을 예측할 수 있으며, 이를 위해, SMILES 변환 과정, 백터화 과정, 특성 추출 과정, 상호 작용 과정 및 분광 특성 예측 과정을 순차적으로 수행할 수 있다.
구체적으로, SMILES 변환 과정은 입력으로 수신되는 분자 정보(molecule)와, 주변 분자계 정보(surroundings) 각각을 SMILES로 표현할 수 있다. 즉, SMILES 변환 과정은 컴퓨터가 분자를 인식할 수 있는 문자열로 변환할 수 있다.
다음으로, 벡터화 과정은 SMILES로 표현된 분자 정보와 주변 분자계 정보 각각을 벡터 형식으로 표현할 수 있다. 즉, 벡터화 과정은 기계학습을 하기위해 SMILES로 표현된 정보를 적절한 표현형으로 변환할 수 있다.
다음으로, 특성 추출 과정은 벡터화된 분자 정보를 입력으로 수신하는 분자 특성 추출 알고리즘을 이용하여 벡터화된 분자 정보에 대한 분자 특성을 추출하고, 벡터화된 주변 분자계 정보를 입력으로 수신하는 주변 분자계 특성 추출 알고리즘을 이용하여 벡터화된 주변 분자계 정보에 대한 주변 분자계 특성을 추출할 수 있다. 즉, 특성 추출 과정은 은닉 계층(hidden layers)을 포함하는 신경망 알고리즘을 통해 분자 특성 및 주변 분자계 특성을 추출할 수 있다.
다음으로, 통합 특성 추출 과정은 추출된 분자 특성 및 추출된 주변 분자계 특성을 입력으로 수신하는 통합 특성 추출 알고리즘을 이용하여 추출된 분자 특성과 추출된 주변 분자계간의 통합 특성(상호작용 결과)를 추출할 수 있다. 즉, 통합 특성 추출 과정은 타겟 분자와 주변 분자계의 상호작용을 고려한 결과를 출력할 수 있다.
다음으로, 분광 특성 예측 과정은 추출된 통합 특성에 대응되는 타겟 분자의 분광 특성의 예측값을 출력할 수 있다.
즉, 상호 작용 과정 및 분광 특성 예측 과정은 은닉 계층(hidden layers)을 포함하는 신경망 알고리즘을 이용하여 타겟 분자의 분광 특성의 예측값을 출력할 수 있다.
도 4는 일실시예에 따른 전처리부의 구현예를 설명하기 위한 도면이다.
도 4를 참조하면, 일실시예에 따른 전처리부(410)는 적어도 하나의 타겟 분자에 대응되는 분자 정보와 주변 분자계 정보를 수신하고, 수신한 분자 정보와 주변 분자계 정보를 SMILES(simplified molecular-input line-entry system) 표현으로 변환하며, 변환된 분자 정보와 변환된 주변 분자계 정보를 벡터화할 수 있다.
일측에 따르면, 전처리부(410)는 SMILES 표현으로 변환된 정보에 대응되는 핑거 프린트(fingerprint), 분자설명인자(molecular descriptor), 분자의 화학 구조식에 대한 이미지(image), 분자 그래프(molecular graph), 분자 좌표(molecular coordinates) 및 SMILES 코드(SMILES) 중 적어도 하나의 정보를 이용하여 벡터화할 수 있다. 예를 들면, 분자 좌표는 분자 내 원자의 3차원 좌표(Cartesian coordinates) 및 Z-매트릭스(Z-matrix)를 포함할 수 있으나, 이에 한정되지 않고 기공지된 모든 분자 좌표를 포함할 수 있다.
구체적으로, 전처리부(410)는 핑거 프린트를 이용하여 벡터화하는 경우, MACCS(molecular access system) key, morgan fingerprints 및 RDKit 중 적어도 하나를 이용하여 분자 내 특정한 구조의 존재 여부를 표현하는 벡터를 생성할 수 있다.
또한, 전처리부(410)는 분자설명인자를 이용하여 벡터화하는 경우, 고리의 개수, 분자량, 수소주개의 개수, logP 및 회전가능한 결합의 개수 중 적어도 하나의 분자설명인자 정보를 벡터화할 수 있으나, 이에 한정되지 않고 기공지된 모든 분자설명인자들이 적용될 수 있다.
또한, 전처리부(410)는 분자의 화학 구조식에 대한 이미지(image)를 이용하여 벡터화하는 경우, 이미지에 대한 각 위치별로 RGB값을 표현하거나 그레이-스케일(grey-scale)에서의 값을 이용하여 표현하는 방법을 통해 이미지를 벡터화할 수 있다.
또한, 전처리부(410)는 분자 그래프를 이용하여 벡터화하는 경우, 분자가 결합된 방법을 표현하는 에지 매트릭스(edge matrix)와 분자 내 원자들의 정보를 표현하는 노드 매트릭스(node matrix)를 벡터화할 수 있다.
또한, 전처리부(410)는 분자 좌표(molecular coordinates)를 이용하여 벡터화하는 경우, 분자 내 원자의 3차원 좌표(cartesian coordinates)를 이용하여 표현하거나 분자 내 원자들의 결합길이, 결합각, 이면각(dihedral angle)과 같은 내부 좌표(internal coordinates)로 표현되는 Z-matrix를 벡터화 할 수 있다.
도 5는 일실시예에 따른 특성 추출부의 구현예를 설명하기 위한 도면이다.
도 5를 참조하면, 일실시예에 따른 특성 추출부는 벡터화된 분자 정보를 입력으로 수신하는 분자 특성 추출 알고리즘을 이용하여 벡터화된 분자 정보에 대응되는 분자 특성을 추출하고, 벡터화된 주변 분자계 정보를 입력으로 수신하는 주변 분자계 특성 추출 알고리즘을 이용하여 벡터화된 주변 분자계 정보에 대응되는 주변 분자계 특성을 추출할 수 있다.
다시 말해, 일실시예에 따른 특성 추출부는 벡터화된 분자 정보 및 벡터화된 주변 분자계 정보를 입력으로 수신하여 통합 특성 추출 알고리즘에 입력으로 사용될 특성 매트릭스(분자 특성, 주변 분자계 특성)을 출력할 수 있다.
일측에 따르면, 분자 특성의 추출 과정 및 주변 분자계 특성의 추출 과정은 서로 다른 유닛(분자 특성 추출부 및 주변 분자계 특성 추출부)을 통해 서로 독립적으로 평행하게 진행될 수 있다.
일측에 따르면, 분자 특성 추출 알고리즘 및 주변 분자계 특성 추출 알고리즘은 주어진 입력에 따라 멀티 레이어 퍼셉트론(multi-layer perceptron)만을 이용할 수 있다.
또한, 분자 특성 추출 알고리즘 및 주변 분자계 특성 추출 알고리즘은 입력된 정보의 벡터화 형식에 따라 멀티 레이어 퍼셉트론 이외에 추가적인 알고리즘이 적용될 수 있으며, 여기서 추가적인 알고리즘은 벡터화 형식이 이미지인 경우에는 CNN(convolutional neural network), 문자열인 경우 RNN(recurrent neural network), 그래프인 경우 GCN(graph convolutional network)일 수 있다.
또한, 분자 특성 추출 알고리즘 및 주변 분자계 특성 추출 알고리즘은 추가적인 알고리즘이 적용된 이후에, 적어도 하나 이상의 멀티 레이어 퍼셉트론 계층이 적용될 수 있다.
도 6은 일실시예에 따른 통합 특성 추출부의 구현예를 설명하기 위한 도면이다.
도 6을 참조하면, 일실시예에 따른 통합 특성 추출부(600)는 추출된 분자 특성 및 추출된 주변 분자계 특성을 입력으로 수신하는 통합 특성 추출 알고리즘을 이용하여 분자 특성과 주변 분자계 특성간의 통합 특성(상호작용 결과)를 추출할 수 있다.
예를 들면, 통합 특성 추출 알고리즘은 입력 데이터간의 상호작용의 계산 결과를 하나의 출력 계층을 통해 출력하는 유닛으로서, 멀티-레이어 퍼셉트론 계층으로 구성될 수 있다.
도 7은 일실시예에 따른 분광 특성 출력부의 구현예를 설명하기 위한 도면이다.
도 7을 참조하면, 일실시예에 따른 분광 특성 출력부(700)는 입력되는 통합 특성에 대응되는 타겟 분자의 분광 특성의 예측값을 출력할 수 있으며, 멀티-레이어 퍼셉트론 계층을 통해 예측값을 출력할 수 있다.
이때, 분광 특성 출력부(700)는 흡광 스펙트럼에서 흡광 최대 파장, 흡광 반치전폭(full width at half maximum), 파장에 따른 몰 흡광 계수, 형광(fluorescence)과 인광(phosphorescence)을 포함하는 발광(luminescence) 스펙트럼에서 발광 최대 파장, 발광 반치전폭, 파장에 따른 발광 세기, 발광 수명, 발광 양자 수율, 단일항 및 삼중항 에너지, CIE 1931 색공간 및 스핀 궤도 상호작용 상수 중 어느 하나의 분광 특성을 출력하거나, 적어도 둘 이상의 분광 특성의 예측값을 동시에 출력할 수 있다.
도 8은 일실시예에 따른 분광 특성 예측 시스템의 제1 동작예를 설명하기 위한 도면이다.
도 8을 참조하면, 일실시예에 따른 분광 특성 예측 시스템(800)의 분자 특성 추출부(810)에 구비된 분자 특성 추출 알고리즘 및 주변 분자계 특성 추출부(820)에 구비된 주변 분자계 특성 추출 알고리즘은 분자 그래프(molecular graph)에 기초하여 벡터화된 분자 정보 및 주변 분자계 정보를 각각 입력으로 수신하여, 분자 특성 및 주변 분자 특성을 출력할 수 있다.
예를 들면, 분자 특성 추출 알고리즘 및 주변 분자계 특성 추출 알고리즘은 분자의 결합에 대한 정보를 포함한 에지 매트릭스(edge matrix)와 분자 내 원자의 정보를 포함한 노드 메트릭스(node matrix)로 구성될 수 있고, 6 계층의 GCN(graph convolutonal network)을 통과한 후 한 개의 퍼셉트론층을 통과하여 분자 특성을 표현한 512 엘리먼트(elements)로 구성된 층을 통해 분자 특성 및 주변 분자 특성을 출력할 수 있다.
추출된 분자 특성 및 주변 분자계 특성은 통합 특성 추출부(830)에서 연결(concatenation)되고, 하나의 퍼셉트론층을 통과하여 통합 특성이 추출될 수 있으며, 추출된 통합 특성은 분광 특성 출력부(840)로 입력되어 분광 특성의 예측값이 출력될 수 있다.
예를 들면, 분광 특성 출력부(840)는 분자 그래프에 기반하여 벡터화된 입력이 특성 추출부로 입력되면, 분광 특성으로서 흡광 최대 파장, 형광 파장(발광 파장), 형광 수명(발광 수명), 형광 양자 수율(발광 양자 수율) 및 몰 흡광 계수에 대한 특성 정보를 출력할 수 있다.
도 9는 일실시예에 따른 분광 특성 예측 시스템의 제1 동작예에 따른 분광 특성의 예측 결과를 설명하기 위한 도면이다.
도 9를 참조하면, 도 9의 (a) 내지 (e)는 다수의 문헌으로부터 수집한 1만 5천개의 분자와 주변 분자계 데이터베이스에 대한 첫 번째 최대 흡광 파장, 최대 형광 파장, 형광 수명, 형광 양자 수율 및 첫 번째 최대 흡광 파장의 몰흡광 계수를 도 8의 분광 특성 예측 시스템을 통해 설명한 모델로 동시에 훈련시킨 후 예측한 결과(분광 특성의 예측값)을 나타내고, 도 9의 (f)는 도 8의 분광 특성 예측 시스템을 통해 설명한 모델로 타겟 분자의 최대 흡광 파장을 실제 예측한 결과(분광 특성의 예측값)를 나타낸다.
도 9에 따르면, 일실시예에 따른 분광 특성 예측 시스템은 주변 분자계 효과에 따른 분자의 분광특성의 변화를 보다 정확하게 예측할 수 있었으며, 한 개의 분광특성뿐만 아니라 동시에 여러개의 분광특성도 예측할 수 있었다.
도 10은 일실시예에 따른 분광 특성 예측 시스템의 제2 동작예를 설명하기 위한 도면이다.
도 10을 참조하면, 분자 특성 추출부(1010)에 구비된 분자 특성 추출 알고리즘 및 주변 분자계 특성 추출부(1020)에 구비된 주변 분자계 특성 추출 알고리즘은 핑거 프린트(fingerprint)에 기초하여 벡터화된 분자 정보 및 주변 분자계 정보를 각각 입력으로 수신하여, 분자 특성 및 주변 분자 특성을 출력할 수 있다.
예를 들면, 분자 특성 추출 알고리즘 및 주변 분자계 특성 추출 알고리즘은 한 개의 퍼셉트론층을 통과하여 분자 특성을 표현한 64 엘리먼트로 구성된 층을 통해 분자 특성 및 주변 분자 특성을 출력할 수 있다.
추출된 분자 특성 및 주변 분자계 특성은 통합 특성 추출부(1030)에서 연결(concatenation)되고, 하나의 퍼셉트론층을 통과하여 통합 특성이 추출될 수 있으며, 추출된 통합 특성은 분광 특성 출력부(1040)로 입력되어 분광 특성의 예측값이 출력될 수 있다.
예를 들면, 분광 특성 출력부(1040)는 핑거 프린트에 기초하여 벡터화된 입력이 특성 추출부로 입력되면, 분광 특성으로서 흡광 파장, 형광 파장(발광 파장) 및 형광 양자 수율(발광 양자 수율)에 대한 특성 정보의 예측값을 출력할 수 있다.
도 11은 일실시예에 따른 분광 특성 예측 시스템의 제2 동작예에 따른 분광 특성의 예측 결과를 설명하기 위한 도면이다.
도 11을 참조하면, 도 11의 (a) 내지 (c)는 도 10의 분광 특성 예측 시스템을 통해 출력되는 흡광 파장, 형광 파장(발광 파장) 및 형광 양자 수율(발광 양자 수율)에 대한 특성 정보를 나타낸다.
도 11에 따르면, 도 10을 통해 설명한 핑거 프린트에 기초한 제2 동작예에서도 도 8을 통해 설명한 분자 그래프에 기초한 제1 동작예와 마찬가지로 주변 분자계에 대응되는 타겟 분자의 분광 특성을 성공적으로 예측할 수 있었다.
도 12는 일실시예에 따른 분광 특성 예측 시스템과 기존 기술간의 성능 비교 결과를 설명하기 위한 도면이다.
도 12를 참조하면, 도 12의 (a) 내지 (d)는 일실시예에 따른 분광 특성 예측 시스템(ML)과 기 공지된 이론 기반의 계산 방법(theory)간의 분자 당 계산 시간(computation time), 흡광 파장의 오차, 형광 파장의 오차 및 몰 흡광 계수의 오차를 나타낸다.
도 12의 (a) 내지 (d)에 따르면, 일실시예에 따른 분광 특성 예측 시스템(ML)은 기존 기술(theory) 대비, 분자 당 계산 시간이 63,000배 감소하고, 흡광 파장의 오차가 2.2배 감소하며, 형광 파장의 오차가 3.2배 감소하고, 몰 흡광 계수의 오차가 1.5배 감소 되었다.
즉, 일실시예에 따른 분광 특성 예측 시스템(ML)은 기존 기술(theory) 보다 예측 시간을 단축함과 동시에, 예측의 정확도 또한 향상시킬 수 있음을 확인할 수 있었다.
도 13은 일실시예에 따른 분광 특성 예측 시스템과 기존 기술간의 평균 절대 오차의 비교 결과를 설명하기 위한 도면이다.
도 13을 참조하면, 도 13의 (a) 내지 (e)는 일실시예에 따른 분광 특성 예측 시스템(ML)과 기 공지된 이론 기반의 계산 방법(DFT)를 통해 출력되는 통합 특성(흡광 파장, 형광 파장, 형광 수명, 형광 양자 수율, 몰 흡광 계수)의 평균 절대 오차(mean absolute error, MAE)의 연산 결과를 나타낸다.
도 13의 (a) 내지 (e)에 따르면, 기존 기술(DFT)은 계산을 위한 이론이 존재하지 않는 분광특성인 형광 수명 및 양자 수율은 예측이 불가한 것을 확인할 수 있다.
반면, 일실시예에 따른 분광 특성 예측 시스템(ML)은 형광 수명 및 양자 수율 또한 예측이 가능함을 확인할 수 있었으며, 분자와 주변 분자계의 동일한 89개 쌍에 대한 결과로 같은 컴퓨터 환경에서 2초 미만이라는 짧은 시간 안에 예측값 출력이 가능함을 확인할 수 있었다.
또한, 분광 특성 예측 시스템(ML)과 기존 기술(DFT) 간의 평균 절대 오차(MAE) 비교 결과, 분광 특성 예측 시스템(ML)의 예측값의 MAE가 기존 기술(DFT)의 예측값 보다 2배 내지 3배 정도 작은 것을 확인할 수 있었다.
도 14는 일실시예에 따른 분광 특성 예측 방법을 설명하기 위한 도면이다.
다시 말해, 도 14는 도 1 내지 도 13을 통해 설명한 일실시예에 따른 분광 특성 예측 시스템의 동작 방법을 설명하는 도면으로, 이후 도 14를 통해 설명하는 내용 중 도 1 내지 도 13을 통해 설명한 내용과 중복되는 설명은 생략하기로 한다.
도 14를 참조하면, 1410단계에서 일실시예에 따른 분광 특성 예측 방법은 전처리부에서 적어도 하나의 타겟 분자에 대응되는 분자 정보와 주변 분자계 정보를 수신하고, 분자 정보와 주변 분자계 정보를 벡터화할 수 있다.
다음으로, 1420단계에서 일실시예에 따른 분광 특성 예측 방법은 특성 추출부에서 벡터화된 분자 정보에 대응되는 분자 특성과 벡터화된 주변 분자계 정보에 대응되는 주변 분자계 특성을 추출할 수 있다.
일측에 따르면, 1421단계에서 일실시예에 따른 분광 특성 예측 방법은 분자 특성 추출부에서 벡터화된 분자 정보를 입력으로 수신하는 분자 특성 추출 알고리즘을 이용하여 분자 특성을 추출할 수 있다.
또한, 1422단계에서 일실시예에 따른 분광 특성 예측 방법은 주변 분자계 특성 추출부에서 벡터화된 주변 분자계 정보를 입력으로 수신하는 주변 분자계 특성 추출 알고리즘을 이용하여 주변 분자계 특성을 추출할 수 있다.
다음으로, 1430단계에서 일실시예에 따른 분광 특성 예측 방법은 통합 특성 추출부에서 분자 특성과 주변 분자계 특성을 입력으로 수신하는 통합 특성 추출 알고리즘을 이용하여 분자 특성과 주변 분자계 특성간의 통합 특성을 추출할 수 있다.
다음으로, 1440단계에서 일실시예에 따른 분광 특성 예측 방법은 분광 특성 출력부에서 통합 특성에 대응되는 타겟 분자의 분광 특성의 예측값을 출력할 수 있다.
결국, 본 발명을 이용하면, 타겟 분자의 광학 특성을 빠르고 정확하게 예측함으로써 개발 시간과 비용을 크게 줄일 수 있다.
또한, 본 발명은 빅데이터 기반 기계 학습 원리를 기반으로 주어진 분자의 분광 특성을 주변 분자계의 영향을 고려하면서 빠르고 정확히 예측할 수 있다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.
200: 분광 특성 예측 시스템 210: 전처리부
220: 특성 추출부 221: 분자 특성 추출부
222: 주변 분자계 특성 추출부 230: 통합 특성 추출부
240: 분광 특성 추출부

Claims (10)

  1. 적어도 하나의 타겟 분자에 대응되는 분자 정보와 주변 분자계 정보를 수신하고, 상기 분자 정보와 상기 주변 분자계 정보를 벡터화하는 전처리부;
    상기 벡터화된 분자 정보에 대응되는 분자 특성과 상기 벡터화된 주변 분자계 정보에 대응되는 주변 분자계 특성을 추출하는 특성 추출부;
    상기 분자 특성과 상기 주변 분자계 특성을 입력으로 수신하는 통합 특성 추출 알고리즘을 이용하여 상기 분자 특성과 상기 주변 분자계 특성간의 통합 특성을 추출하는 통합 특성 추출부 및
    상기 통합 특성에 대응되는 상기 타겟 분자의 분광 특성의 예측값을 출력하는 분광 특성 출력부
    를 포함하는 분광 특성 예측 시스템.
  2. 제1항에 있어서,
    상기 특성 추출부는,
    상기 벡터화된 분자 정보를 입력으로 수신하는 분자 특성 추출 알고리즘을 이용하여 상기 분자 특성을 추출하는 분자 특성 추출부 및
    상기 벡터화된 주변 분자계 정보를 입력으로 수신하는 주변 분자계 특성 추출 알고리즘을 이용하여 상기 주변 분자계 특성을 추출하는 주변 분자계 특성 추출부
    를 더 포함하는 분광 특성 예측 시스템.
  3. 제1항에 있어서,
    상기 전처리부는,
    상기 분자 정보와 상기 주변 분자계 정보를 SMILES(simplified molecular-input line-entry system) 표현으로 변환하고, 상기 변환된 분자 정보와 상기 변환된 주변 분자계 정보를 벡터화하는
    분광 특성 예측 시스템.
  4. 제3항에 있어서,
    상기 전처리부는,
    상기 변환된 분자 정보와 상기 변환된 주변 분자계 정보에 각각 대응되는 핑거 프린트(fingerprint), 분자설명인자(molecular descriptor), 분자의 화학 구조식에 대한 이미지, 분자 그래프(molecular graph), 분자 좌표(molecular coordinates) 및 SMILES 코드 중 적어도 하나의 정보를 이용하여 벡터화하는
    분광 특성 예측 시스템.
  5. 제1항에 있어서,
    상기 분자 정보는,
    상기 타겟 분자에 대한 화학 구조식 정보를 포함하는
    분광 특성 예측 시스템.
  6. 제1항에 있어서,
    상기 주변 분자계 정보는,
    다수의 용매(solvents)에 대한 정보를 포함하는
    분광 특성 예측 시스템.
  7. 제2항에 있어서,
    상기 분자 특성 추출 알고리즘, 상기 주변 분자계 특성 추출 알고리즘 및 상기 통합 특성 추출 알고리즘 중 적어도 하나의 알고리즘은,
    적어도 하나의 은닉 계층(hidden layer)을 포함하는 신경망 알고리즘인
    분광 특성 예측 시스템.
  8. 제1항에 있어서,
    상기 분광 특성은,
    흡광 최대 파장, 흡광 반치전폭(full width at half maximum), 파장에 따른 몰 흡광 계수, 발광 최대 파장, 발광 반치전폭, 발광 세기, 발광 수명, 발광 양자 수율, 단일항 에너지, 삼중항 에너지, CIE 1931 색공간 및 스핀 궤도 상호작용(spin orbit coupling) 상수 중 적어도 하나에 대한 특성 정보를 포함하는
    분광 특성 예측 시스템.
  9. 전처리부에서, 적어도 하나의 타겟 분자에 대응되는 분자 정보와 주변 분자계 정보를 수신하고, 상기 분자 정보와 상기 주변 분자계 정보를 벡터화하는 단계;
    특성 추출부에서, 상기 벡터화된 분자 정보에 대응되는 분자 특성과 상기 벡터화된 주변 분자계 정보에 대응되는 주변 분자계 특성을 추출하는 단계;
    통합 특성 추출부에서, 상기 분자 특성과 상기 주변 분자계 특성을 입력으로 수신하는 통합 특성 추출 알고리즘을 이용하여 상기 분자 특성과 상기 주변 분자계 특성간의 통합 특성을 추출하는 단계 및
    분광 특성 출력부에서, 상기 통합 특성에 대응되는 상기 타겟 분자의 분광 특성의 예측값을 출력하는 단계
    를 포함하는 분광 특성 예측 방법.
  10. 제9항에 있어서,
    상기 분자 특성과 상기 주변 분자계 특성을 추출하는 단계는,
    분자 특성 추출부에서, 상기 벡터화된 분자 정보를 입력으로 수신하는 분자 특성 추출 알고리즘을 이용하여 상기 분자 특성을 추출하는 단계 및
    주변 분자계 특성 추출부에서, 상기 벡터화된 주변 분자계 정보를 입력으로 수신하는 주변 분자계 특성 추출 알고리즘을 이용하여 상기 주변 분자계 특성을 추출하는 단계를 더 포함하는
    분광 특성 예측 방법.
KR1020200039313A 2020-03-13 2020-03-31 기계 학습 기반 분자의 분광 특성 예측 시스템 및 그 방법 KR102392500B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/199,618 US20210287137A1 (en) 2020-03-13 2021-03-12 System for predicting optical properties of molecules based on machine learning and method thereof

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20200031586 2020-03-13
KR1020200031586 2020-03-13

Publications (2)

Publication Number Publication Date
KR20210116139A true KR20210116139A (ko) 2021-09-27
KR102392500B1 KR102392500B1 (ko) 2022-04-29

Family

ID=77926131

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200039313A KR102392500B1 (ko) 2020-03-13 2020-03-31 기계 학습 기반 분자의 분광 특성 예측 시스템 및 그 방법

Country Status (1)

Country Link
KR (1) KR102392500B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024085616A1 (ko) * 2022-10-18 2024-04-25 주식회사 엘지경영개발원 인공지능 기반의 혼합물 물성 예측 장치, 방법 및 프로그램

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5211347B2 (ko) 1972-12-23 1977-03-30

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5211347B2 (ko) 1972-12-23 1977-03-30

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
C. W. Coley et al., Convolutional Embedding of Attributed Molecular Graphs for Physical Property Prediction, J. Chem. Inf. Model. Vol.57, pp1757-1772(2017)* *
E. J. Beard et al., Comparative dataset of experimental and computational attibutes of UV/vis absorption spectra, Sci. Data Vol.6, 307(2019)* *
K. Ghosh et al., Deep Learning Spectroscopy: Neural Networks for Molecular Excitation Spectra, Adv. Sci. Vol.6, 1801367(2019)* *
Y. Zhuo et al., Identifying an efficient, thermally robust inorganic phosphor host via machine learning, Nat. Commun. Vol.9, 4377(2018)* *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024085616A1 (ko) * 2022-10-18 2024-04-25 주식회사 엘지경영개발원 인공지능 기반의 혼합물 물성 예측 장치, 방법 및 프로그램

Also Published As

Publication number Publication date
KR102392500B1 (ko) 2022-04-29

Similar Documents

Publication Publication Date Title
Singh et al. Deep learning for plant stress phenotyping: trends and future perspectives
CN107516041B (zh) 基于深度神经网络的WebShell检测方法及其系统
Beker et al. Prediction of major regio‐, site‐, and diastereoisomers in Diels–Alder reactions by using machine‐learning: the importance of physically meaningful descriptors
Cakir et al. Malware classification using deep learning methods
Sun et al. Deep learning and visualization for identifying malware families
US20200175015A1 (en) Crf-based span prediction for fine machine learning comprehension
US20210287137A1 (en) System for predicting optical properties of molecules based on machine learning and method thereof
US8874432B2 (en) Systems and methods for semi-supervised relationship extraction
Gogar et al. Deep neural networks for web page information extraction
Chaudhuri et al. CrossATNet-a novel cross-attention based framework for sketch-based image retrieval
US11615603B2 (en) Method and system for learning spectral features of hyperspectral data using DCNN
KR102392500B1 (ko) 기계 학습 기반 분자의 분광 특성 예측 시스템 및 그 방법
Osipenko et al. Transfer learning for small molecule retention predictions
Dong et al. Joint contextual representation model-informed interpretable network with dictionary aligning for hyperspectral and LiDAR classification
Ji et al. Deep pedestrian attribute recognition based on LSTM
Suo et al. Bispectral coding: compressive and high-quality acquisition of fluorescence and reflectance
Hu et al. PCANet: A common solution for laser-induced fluorescence spectral classification
Keserwani et al. Zero shot learning based script identification in the wild
Képeš et al. Interpreting convolutional neural network classifiers applied to laser-induced breakdown optical emission spectra
CN115373737B (zh) 一种基于特征融合的代码克隆检测方法
Haque et al. ShonkhaNet: a dynamic routing for Bangla handwritten digit recognition using capsule network
Wang et al. Fluorescent taggants with temporally coded signatures
Luo et al. Autoencoder with extended morphological profile for hyperspectral image classification
Boroojerdi et al. Handwritten multi-digit recognition with machine learning
Pradhan et al. Implementation of PCA for recognition of hand gesture representing alphabets

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant