KR20240000042A

KR20240000042A - 딥러닝 기반의 분자 설계 시스템 및 딥러닝 기반의 분자 설계 방법

Info

Publication number: KR20240000042A
Application number: KR1020220076504A
Authority: KR
Inventors: 박성남; 정준영; 한민희; 정민석; 최동훈
Original assignee: 고려대학교 산학협력단
Priority date: 2022-06-23
Filing date: 2022-06-23
Publication date: 2024-01-02
Also published as: WO2023249441A1

Abstract

본 발명인 딥러닝 기반의 분자 설계 시스템은, i번째 분자의 분자정보, 주변분자계정보, 및 분자특성정보를 수신하고 벡터화하는 벡터화부, 벡터화된 분자정보에서 분자속성을 추출하고 벡터화된 주변분자계정보에서 주변분자계속성을 추출하고 벡터화된 분자특성정보에서 분자특성속성을 추출하는 속성추출부, 분자속성, 주변분자계속성, 및 분자특성속성을 입력으로 수신하는 신경망 알고리즘인 통합속성 추출알고리즘을 이용하여 i번째 분자의 통합속성을 추출하는 통합속성추출부, 통합속성을 입력으로 수신하는 신경망 알고리즘인 분자설계확률 계산알고리즘을 이용하여 i번째 분자를 기초로 분자설계를 위한 분자설계확률벡터를 추출하는 분자설계확률계산부 및 분자설계확률벡터에 기초하여 i+1번째 분자의 분자정보를 추출하거나 설계중지명령을 출력하여 최종분자를 출력하는 분자설계부를 포함하고, i는 1보다 크거나 같은 정수이다.

Description

딥러닝 기반의 분자 설계 시스템 및 딥러닝 기반의 분자 설계 방법{SYSTEM AND METHOD FOR MOLECULE DESIGN BASED ON DEEP LEARNING}

본 발명은 딥러닝 기반의 분자 설계 시스템 및 딥러닝 기반의 분자 설계 방법에 관한 것이다. 구체적으로, 특정한 분자특성을 가질 뿐만 아니라 주변분자계의 영향을 고려하여 분자를 설계하기 위한 딥러닝 기반의 분자 설계 시스템 및 딥러닝 기반의 분자 설계 방법에 관한 것이다.

목적에 맞는 소재를 개발하기 위해 많은 소재분자들이 개발되고 있다. 일반적으로, 연구자의 경험과 이론을 바탕으로 특정한 분자특성을 지닐 것으로 예측되는 소재분자들을 개발하고자 하지만, 연구자의 경험과 이론의 한계로 인해 원하는 분자특성을 가지는 소재분자들을 개발하기에는 어려움이 있다.

이에, 다양한 시행착오를 통해 원하는 분자특성을 가지는 소재분자를 개발하나 많은 시간과 비용이 소요되는 등 다양한 문제점이 발생되고 있다.

한편, 최근에는 머신러닝 또는 딥러닝 기술을 이용하여 원하는 분자특성을 갖는 소재분자를 설계하고자 하는 다양한 시도가 있으나, 소재분자의 주변환경을 고려하지 못하여, 분자설계의 정확도가 떨어진다.

이에, 시간과 비용을 단축시킬 수 있을 뿐만 아니라 주변환경을 고려하여 원하는 특성을 갖는 분자를 정확히 설계하는 기술이 필요한 실정이다.

본 발명이 해결하고자 하는 기술적 과제는 주변환경(또는, 주변분자계)을 고려하여 원하는 분자특성을 가지는 분자를 설계하기 위한 딥러닝 기반의 분자 설계 시스템 및 딥러닝 기반의 분자 설계 방법에 관한 것이다.

본 발명의 한 실시예에 따른 딥러닝 기반의 분자 설계 시스템은 i번째 분자의 분자정보, 주변분자계정보, 및 분자특성정보를 수신하고 벡터화하는 벡터화부, 상기 벡터화된 분자정보에서 분자속성을 추출하고 벡터화된 주변분자계정보에서 주변분자계속성을 추출하고 벡터화된 분자특성정보에서 분자특성속성을 추출하는 속성추출부, 분자속성, 주변분자계속성, 및 분자특성속성을 입력으로 수신하는 신경망 알고리즘인 통합속성 추출알고리즘을 이용하여 i번째 분자의 통합속성을 추출하는 통합속성추출부, 통합속성을 입력으로 수신하는 신경망 알고리즘인 분자설계확률 계산알고리즘을 이용하여 i번째 분자를 기초로 분자설계를 위한 분자설계확률벡터를 추출하는 분자설계확률계산부 및 분자설계확률벡터에 기초하여 i+1번째 분자의 분자정보를 추출하거나 설계중지명령을 출력하여 최종분자를 출력하는 분자설계부를 포함하고, i는 1보다 크거나 같은 정수이다.

또한, 본 발명의 한 실시예에 따른 벡터화부는, i번째 분자의 분자정보를 SMILES(Simplified Molecular-Input Line-Entry System)표현으로 수신하고, 분자핑거프린트(Molecular Fingerprint), 분자설명자(Molecular Descriptor), 화학구조식에 대한 이미지, 분자그래프(Molecular Graph), 분자좌표(Molecular Coordinates), 및 SMILES코드 중 적어도 하나의 표현방법을 이용하여 벡터화하는 분자정보벡터화부, i번째 분자의 주변분자계정보를 SMILES(Simplified molecular-Input Line-Entry System)표현으로 수신하고, 분자핑거프린트(Molecular Fingerprint), 분자설명자(Molecular Descriptor), 화학구조식에 대한 이미지, 분자그래프(Molecular Graph), 분자좌표(Molecular Coordinates), 및 SMILES코드 중 적어도 하나의 표현방법을 이용하여 벡터화하는 주변분자계정보벡터화부 및 i번째 분자의 분자특성정보를 문자열 또는 실수값 집합의 형태로 입력받고, 토큰화(tokenization), 정규화(normalization), 및 원-핫 인코딩(one-hot encoding) 중 적어도 하나의 표현방법을 이용하여 벡터화하는 분자특성정보벡터화부를 포함한다.

또한, 본 발명의 한 실시예에 따른 속성추출부는, 벡터화된 i번째 분자의 분자정보를 입력으로 수신하는 신경망 알고리즘인 분자속성 추출알고리즘을 이용하여 i번째 분자의 분자속성을 추출하는 분자속성추출부, 벡터화된 i번째 분자의 주변분자계정보를 입력으로 수신하는 신경망 알고리즘인 주변분자계속성 추출알고리즘을 이용하여 i번째 분자의 주변분자계속성을 추출하는 주변분자계속성추출부 및 벡터화된 i번째 분자의 분자특성정보를 입력으로 수신하는 신경망 알고리즘인 분자특성속성 추출알고리즘을 이용하여 i번째 분자의 분자특성속성을 추출하는 분자특성속성추출부를 포함한다.

또한, 본 발명의 한 실시예에 따른 분자정보는 화학구조식에 대한 정보를 포함하고, 주변분자계정보는 하나 이상의 용매에 대한 정보를 포함하고, 분자특성정보는 분자의 구조적, 화학적, 물리적, 분광학적, 전기화학적, 반응성 중 적어도 하나 이상에 대한 정보를 포함한다.

또한, 본 발명의 한 실시예에 따른 첫번째 분자의 분자정보는 화학구조식이 없거나 사용자에 의해 제공되는 어느 하나의 화학구조식에 대한 정보를 포함한다.

또한, 본 발명의 한 실시예에 따른 분자설계부는, 분자설계확률벡터를 구성하는 어느 하나의 원소를 이용하여 산출된 확률값에 따라 i+1번째 분자를 설계하기 위한 i+1번째 분자의 분자정보를 추출하고, i+1번째 분자의 분자정보는 i번째 분자를 구성하는 어느 하나의 원자에 한개의 원자를 결합하거나, i번째 분자를 구성하는 원자 사이를 연결하는 결합을 추가하여 설계된 i+1번째 분자의 화학구조식에 대한 정보를 포함한다.

또한, 본 발명의 한 실시예에 따른 분자설계부는, 분자설계확률벡터를 구성하는 어느 하나의 원소를 이용하여 산출된 확률값에 따라 설계중지명령을 출력하여 i번째 분자를 최종분자로 결정한다.

또한, 본 발명의 한 실시예에 따른 분자속성 추출알고리즘, 주변분자계속성 추출알고리즘, 분자특성속성 추출알고리즘, 통합속성 추출알고리즘, 및 분자설계확률 계산알고리즘은 적어도 하나 이상의 은닉계층(Hidden Layer)을 포함하는 신경망 알고리즘이다.

또한, 본 발명의 한 실시예에 따른 딥러닝 기반의 분자 설계 방법은 벡터화부에 의해 i번째 분자의 분자정보, 주변분자계정보, 및 분자특성정보를 수신하고 벡터화하는 단계, 속성추출부에 의해 벡터화된 분자정보에서 분자속성을 추출하고 벡터화된 주변분자계정보에서 주변분자계속성을 추출하고 벡터화된 분자특성정보에서 분자특성속성을 추출하는 단계, 통합속성추출부에 의해 분자속성, 주변분자계속성, 및 분자특성속성을 입력으로 수신하는 신경망 알고리즘인 통합속성 추출알고리즘을 이용하여 i번째 분자의 통합속성을 추출하는 단계, 분자설계확률계산부에 의해 통합속성을 입력으로 수신하는 신경망 알고리즘인 분자설계확률 계산알고리즘을 이용하여 i번째 분자를 기초로 분자설계의 진행을 위한 분자설계확률벡터를 출력하는 단계 및 분자설계부에 의해 분자설계확률벡터에 기초하여 i+1번째 분자의 분자정보를 추출하거나 설계중지명령을 출력하여 최종분자를 출력하는 단계를 포함하고, i는 1보다 크거나 같은 정수이다.

또한, 본 발명의 한 실시예에 따른 딥러닝 기반의 분자 설계 방법을 실행시키는 프로그램이 기록된 컴퓨터로 판독가능한 기록매체를 포함한다.

본 발명에 따른 딥러닝 기반의 분자 설계 시스템 및 딥러닝 기반의 분자 설계 방법은 주변분자계를 고려하여 원하는 분자특성을 가지는 분자를 설계하여 분자설계의 정확도를 높일 수 있다.

또한, 본 발명에 따른 딥러닝 기반의 분자 설계 시스템 및 딥러닝 기반의 분자 설계 방법은 사용자에 의해 입력된 정보에 기초하여 원하는 분자특성을 가지는 분자를 설계하므로, 분자설계과정에서의 시행착오를 줄일 수 있을 뿐만 아니라 소요되는 시간 및 개발 비용을 감축시킬 수 있는 효과가 있다.

도 1은 본 발명의 한 실시예에 따른 딥러닝 기반의 분자 설계 시스템의 구성에 관한 도면이다.
도 2a는 본 발명의 한 실시예에 따른 속성추출부의 구현예에 관한 도면이다. 도 2b는 본 발명의 한 실시예에 따른 통합속성추출부의 구현예에 관한 도면이다. 도 2c는 본 발명의 한 실시예에 따른 분자설계확률계산부의 구현예에 관한 도면이다. 도 2d는 본 발명의 한 실시예에 따른 분자설계부의 구현예에 관한 도면이다.
도 3a은 본 발명의 한 실시예에 따른 딥러닝 기반 분자 설계 시스템에서 최종분자를 설계하는 구현예에 관한 도면이다. 도 3b는 본 발명의 다른 실시예에 따른 딥러닝 기반 분자 설계 시스템에서 최종분자를 설계하는 구현예에 관한 도면이다.
도 4는 본 발명의 한 실시예에 따른 벤젠을 첫번째 분자로하여 분자설계확률벡터에 따라 최종분자를 설계하는 과정에 관한 도면이다.
도 5a는 본 발명의 한 실시예에 따른 분자정보, 주변분자계정보, 및 분자특성정보에 기초하여 최종분자를 설계한 결과에 관한 도면이다. 도 5b는 본 발명의 다른 실시예에 따른 분자정보, 주변분자계정보, 및 분자특성정보에 기초하여 최종분자를 설계한 결과에 관한 도면이다. 도 5c는 본 발명의 다른 실시예에 따른 분자정보, 주변분자계정보, 및 분자특성정보에 기초하여 최종분자를 설계한 결과에 관한 도면이다. 도 5d는 본 발명의 다른 실시예에 따른 분자정보, 주변분자계정보, 및 분자특성정보에 기초하여 최종분자를 설계한 결과에 관한 도면이다.
도 6은 본 발명의 한 실시예에 따른 딥러닝 기반의 분자 설계 방법에 관한 흐름도이다.

이하, 첨부한 도면을 참고로 하여 본 발명의 여러 실시 예들에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예들에 한정되지 않는다.

본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 동일 또는 유사한 구성요소에 대해서는 동일한 참조 부호를 붙이도록 한다. 따라서 앞서 설명한 참조 부호는 다른 도면에서도 사용할 수 있다.

또한, 도면에서 나타난 각 구성의 크기 및 두께는 설명의 편의를 위해 임의로 나타내었으므로, 본 발명이 반드시 도시된 바에 한정되지 않는다. 도면에서 여러 층 및 영역을 명확하게 표현하기 위하여 두께를 과장되게 나타낼 수 있다.

또한, 설명에서 "동일하다"라고 표현한 것은, "실질적으로 동일하다"는 의미일 수 있다. 즉, 통상의 지식을 가진 자가 동일하다고 납득할 수 있을 정도의 동일함일 수 있다. 그 외의 표현들도 "실질적으로"가 생략된 표현들일 수 있다.

또한, 설명에서 어떤 부분이 어떤 구성요소를 '포함'한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 본 명세서에서 사용되는 '~부'는 적어도 하나의 기능이나 동작을 처리하는 단위로서, 예를 들어 소프트웨어, FPGA 또는 하드웨어 구성요소를 의미할 수 있다. '~부'에서 제공하는 기능은 복수의 구성요소에 의해 분리되어 수행되거나, 다른 추가적인 구성요소와 통합될 수도 있다. 본 명세서의 '~부'는 반드시 소프트웨어 또는 하드웨어에 한정되지 않으며, 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고, 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 이하에서는 도면을 참조하여 본 발명의 실시예에 대해서 구체적으로 설명하기로 한다.

도 1은 본 발명의 한 실시예에 따른 딥러닝 기반의 분자 설계 시스템의 구성에 관한 도면이다.

본 발명의 한 실시예에 따른 딥러닝 기반의 분자 설계 시스템(100)은 벡터화부(110), 속성추출부(120), 통합속성추출부(130), 분자설계확률계산부(140), 및 분자설계부(150)를 포함할 수 있다.

벡터화부(110)는 분자정보벡터화부(111), 주변분자계정보벡터화부(112), 및 분자특성정보벡터화부(113)를 포함할 수 있다. 속성추출부(120)는 분자속성추출부(121), 주변분자계속성추출부(122), 및 분자특성속성추출부(123)를 포함할 수 있다.

벡터화부(110)는 i(단, i는 1보다 크거나 같은 정수)번째 분자의 분자정보, 주변분자계정보, 및 분자특성정보를 수신하고 벡터화할 수 있다.

구체적으로, 분자정보벡터화부(111)는 i번째 분자의 분자정보를 SMILES(Simplified Molecular-Input Line-Entry System)표현으로 수신하고, 분자핑거프린트(Molecular Fingerprint), 분자설명자(Molecular Descriptor), 화학구조식에 대한 이미지, 분자그래프(Molecular Graph), 분자좌표(Molecular Coordinates), 및 SMILES코드 중 적어도 하나의 표현방법을 이용하여 벡터화할 수 있다.

이때, SMILES(Simplified Molecular-Input Line-Entry System)란 화학물질의 구성원소, 결합의 종류, 방향족성(Aromaticity), 브랜치의 유무 등 화학적 구조 정보를 ASCII 코드의 문자열로 표현하는 방법을 의미한다.

주변분자계정보벡터화부(112)는 상술한 분자정보벡터화부(111)와 동일하게 i번째 분자의 주변분자계정보를 SMILES(Simplified molecular-Input Line-Entry System)표현으로 수신하고, 분자핑거프린트(Molecular Fingerprint), 분자설명자(Molecular Descriptor), 화학구조식에 대한 이미지, 분자그래프(Molecular Graph), 분자좌표(Molecular Coordinates), 및 SMILES코드 중 적어도 하나의 표현방법을 이용하여 벡터화할 수 있다.

분자특성정보벡터화부(113)는 i번째 분자의 분자특성정보를 문자열 또는 실수값 집합의 형태로 입력받고, 토큰화(tokenization), 정규화(normalization), 및 원-핫 인코딩(one-hot encoding) 중 적어도 하나의 표현방법을 이용하여 벡터화할 수 있다.

이때, 분자정보는 분자의 화학구조식에 관한 정보를 포함할 수 있다. 예를 들어, i번째 분자의 분자정보는 i번째 분자의 화학구조식에 관한 정보를 포함할 수 있으며, 첫번재 분자의 분자정보는 화학구조식에 관한 정보가 없거나 사용자에 의해 제공되는 특정한 어느 하나의 분자의 화학구조식에 관한 정보를 포함할 수 있다.

또한, 주변분자계정보는 분자가 설계되는 주변환경(이하, 주변분자계라 명명함)인 하나 이상의 용매(Solvents)에 대한 정보를 포함할 수 있다.

구체적으로, 주변분자계가 기체상인 경우 주변분자계가 없거나 기체분자에 대한 정보를 포함할 수 있다. 주변분자계가 액체상인 경우 주변분자계는 단일용매 또는 공용매(Cosolvent)와 같은 복수의 용매에 대한 정보를 포함할 수 있다. 주변분자계가 고체상인 경우 단일용매 또는 공용매(Cosolvent), 매질(Matrix), 호스트(Host)와 같은 복수의 용매에 대한 정보를 포함할 수 있다.

또한, 분자특성정보는 분자의 구조적, 화학적, 물리적, 분광학적, 전기화학적, 반응성 중 적어도 하나 이상에 대한 정보를 포함할 수 있다.

예를 들어, 분자특성정보는 분자의 구조적, 화학적, 물리적, 분광학적, 전기화학적, 반응성 중 어느 하나에 대한 정보만을 포함할 수 있다. 또는, 분자특성정보는 분자의 구조적, 화학적, 물리적, 분광학적, 전기화학적, 반응성 중 적어도 2개 이상의 정보를 포함할 수 있다.

분자속성추출부(121)는 i번째 벡터화된 분자정보에서 분자속성을 추출할 수 있다.

분자속성추출부(121)는 신경망 알고리즘의 형태인 분자속성 추출알고리즘을 미리 저장할 수 있다. 분자속성추출부(121)는 벡터화된 i번째 분자의 분자정보를 신경망 알고리즘 형태인 분자속성 추출알고리즘에 입력하여 i번째 분자의 분자속성을 추출할 수 있다.

주변분자계속성추출부(122)는 i번째 벡터화된 주변분자계정보에서 주변분자계속성을 추출할 수 있다.

주변분자계속성추출부(122)는 신경망 알고리즘의 형태인 주변분자계속성 추출알고리즘을 미리 저장할 수 있다. 주변분자계속성추출부(122)는 벡터화된 i번째 분자의 주변분자계정보를 신경망 알고리즘 형태인 주변분자계속성 추출알고리즘에 입력하여 i번째 분자의 주변분자계속성을 추출할 수 있다.

분자특성속성추출부(123)는 i번째 벡터화된 분자특성정보에서 분자특성속성을 추출할 수 있다.

분자특성속성추출부(123)는 신경망 알고리즘의 형태인 분자특성속성 추출알고리즘을 미리 저장할 수 있다. 분자특성속성추출부(123)는 벡터화된 i번째 분자의 분자특성정보를 신경망 알고리즘 형태인 분자특성속성 추출알고리즘에 입력하여 i번째 분자의 분자특성속성을 추출할 수 있다.

한편, 분자속성추출부(121)는 사용되는 분자속성 추출알고리즘에 따라서 주변분자계속성추출부(122)에서 추출된 i번째 분자의 주변분자계속성, 분자특성속성추출부(123)에서 추출된 i번째 분자의 분자특성속성, 이하 서술할 통합속성추출부(130)에서 추출된 i번째 분자의 통합속성을 추가로 입력받아 i번째 분자의 분자속성을 추출할 수 있다.

분자속성추출부(121)에서 i번째 분자의 분자속성을 추출하는 과정, 주변분자계속성추출부(122)에서 i번째 분자의 주변분자계속성을 추출하는 과정, 및 분자특성속성추출부(123)에서 분자특성속성을 추출하는 과정은 이하 도 2a에서 구체적으로 서술하기로 한다.

통합속성추출부(130)는 i번째 분자의 분자속성, i번째 분자의 주변분자계속성, 및 i번째 분자의 분자특성속성을 이용하여 i번째 분자의 통합속성을 추출할 수 있다.

구체적으로, 통합속성추출부(130)는 신경망 알고리즘의 형태인 통합속성 추출알고리즘을 미리 저장할 수 있다. 통합속성추출부(130)는 속성추출부(120)로부터 제공된 i번째 분자의 분자속성, i번째 분자의 주변분자계속성, 및 i번째 분자의 분자특성속성을 신경망 알고리즘 형태인 통합속성 추출알고리즘에 입력하여 i번째 분자의 통합속성을 추출할 수 있다.

통합속성추출부(130)에서 i번째 분자의 통합속성을 추출하는 과정은 이하 도 2b에서 구체적으로 서술하기로 한다.

분자설계확률계산부(140)는 i번째 분자의 통합속성을 이용하여 i번째 분자를 기초로 분자설계를 위한 분자설계확률벡터를 출력할 수 있다.

구체적으로, 분자설계확률계산부(140)는 신경망 알고리즘의 형태인 분자설계확률 계산알고리즘을 미리 저장할 수 있다. 분자설계확률계산부(140)는 통합속성추출부(130)로부터 제공된 i번째 분자의 통합속성을 신경망 알고리즘 형태인 분자설계확률 계산알고리즘에 입력하여 i번째 분자를 기초로 분자설계를 위한 분자설계확률벡터를 추출할 수 있다.

분자설계확률계산부(140)에서 i번째 분자를 기초로 분자설계를 위한 분자설계확률벡터를 추출하는 과정은 아래 도 2c에서 구체적으로 서술하기로 한다.

분자설계부(150)는 분자설계확률계산부(140)에서 추출된 분자설계확률벡터를 구성하는 원소를 이용하여 산출된 확률값에 따라 i+1번째 분자를 설계하기 위한 i+1번째 분자의 분자정보를 추출할 수 있다.

이때, i+1번째 분자의 분자정보는 i번째 분자를 구성하는 어느 하나의 원자에 한 개의 원자를 결합하거나, i번째 분자를 구성하는 원자 사이를 연결하는 결합을 추가하여 설계된 i+1번째 분자의 화학구조식에 대한 정보를 포함한다.

또는, 분자설계부(150)는 분자설계확률계산부(140)에서 추출된 분자설계확률벡터를 구성하는 원소를 이용하여 산출된 확률값에 따라 설계중지명령을 출력하여 i번째 분자를 최종분자로 결정하고 출력할 수 있다.

분자설계부(150)에서 분자설계확률벡터를 이용하여 i+1번째 분자의 분자정보를 추출하거나 설계중지명령을 출력하여 최종분자를 결정하는 과정은 아래 도 2d에서 구체적으로 서술하기로 한다.

상술한 분자설계부(150)에서 분자설계확률벡터에 기초하여 i+1번째 분자의 분자정보가 추출된 경우, 분자정보벡터화부(111)로 입력될 수 있으며, 분자설계부(150)에서 설계중지명령이 출력될 때까지 상술한 과정을 반복하여 분자를 설계하여 최종분자를 결정할 수 있다.

도 1에서 상술한 바와 같이, 본 발명의 한 실시예에 따른 딥러닝 기반의 분자 설계 시스템(100)은 주변분자계를 고려하면서 특정한 분자특성을 지닌 최종분자를 설계함으로써 개발시간과 비용을 크게 줄일 수 있다.

도 2a는 본 발명의 한 실시예에 따른 속성추출부의 구현예에 관한 도면이다. 도 2b는 본 발명의 한 실시예에 따른 통합속성추출부의 구현예에 관한 도면이다. 도 2c는 본 발명의 한 실시예에 따른 분자설계확률계산부의 구현예에 관한 도면이다. 도 2d는 본 발명의 한 실시예에 따른 분자설계부의 구현예에 관한 도면이다.

도 2a 내지 도 2d를 참고하면, 본 발명의 한 실시예에 따른 속성추출부(120), 통합속성추출부(130), 분자설계확률계산부(140), 및 분자설계부(150)에서 구현되는 분자속성 추출알고리즘, 주변분자계속성 추출알고리즘, 분자특성속성 추출알고리즘, 통합속성 추출알고리즘, 및 분자설계확률 계산알고리즘은 적어도 하나 이상의 은닉층(Hidden Layer)을 포함하는 신경망 알고리즘일 수 있다.

본 발명의 한 실시예에 따른 분자속성추출부(121)에서 분자의 분자정보를 추출하는 과정, 주변분자계속성추출부(122)에서 주변분자계속성을 추출하는 과정, 분자특성속성추출부(123)에서 분자특성속성을 추출하는 과정은 서로 독립적으로 수행될 수 있다.

이하, 도 2a에서는 본 발명의 주변분자계속성추출부(122)를 예로 들어 설명한다.

도 2a를 참고하면, 주변분자계속성추출부(122)에 미리 저장된 주변분자계속성 추출알고리즘은 하나 이상의 은닉계층(Hidden Layer)을 포함하는 신경망 알고리즘의 형태이며 멀티 레이어 퍼셉트론(Multi-Layer Perceptron, MLP)으로 구현될 수 있다.

이때, 주변분자계속성추출부(122)의 주변분자속성 추출알고리즘에 입력되는 i번째 분자의 주변분자계정보의 벡터화형식에 따라 주변분자계속성 추출알고리즘은 상술한 멀티 레이어 퍼셉트론(Multi-Layer Perceptron, MLP)외에 추가적인 알고리즘이 적용될 수 있다.

예를 들어, 주변분자계속성추출부(122)의 주변분자속성 추출알고리즘에 입력되는 i번째 분자의 주변분자계정보의 벡터화형식이 이미지형식인 경우 추가적인 알고리즘은 CNN(Convolutional Neural Network)일 수 있다. 또는, 문자열형식인 경우 추가적인 알고리즘은 RNN(Recurrent Neural Network)일 수 있다. 또는, 그래프형식인 경우 추가적인 알고리즘은 GCN(Graph Convolutional Network)일 수 있다.

한편, 상술한 추가적인 알고리즘이 적용되기 전에 상술한 멀티 레이어 퍼셉트론(Multi-Layer Perceptron, MLP)이 먼저 적용될 수 있고, 또는, 상술한 추가적인 알고리즘이 적용된 후에 상술한 멀티 레이어 퍼셉트론(Multi-Layer Perceptron, MLP)이 적용될 수 있다.

또는, 상술한 추가적인 알고리즘이 서로 조합되어 상술한 멀티 레이어 퍼셉트론(Multi-Layer Perceptron, MLP)의 전, 후에 적용될 수 있다.

즉, 주변분자계속성 추출알고리즘은 멀티 레이어 퍼셉트론(Multi-Layer Perceptron, MLP) 또는 멀티 레이어 퍼셉트론(Multi-Layer Perceptron, MLP)과 추가적인 알고리즘의 조합 또는 멀티 레이어 퍼셉트론(Multi-Layer Perceptron, MLP)과 추가적인 알고리즘의 조합의 조합으로 구현될 수 있다.

주변분자계속성추출부(122)는 벡터화된 i번째 분자의 주변분자계정보를 신경망 알고리즘 형태인 상술한 주변분자계속성 추출알고리즘에 입력하여 i번째 분자의 주변분자계속성을 추출할 수 있다.

분자속성추출부(121)에서 i번째 분자의 분자속성을 추출하는 과정과 분자특성속성추출부(123)에서 i번째 분자의 분자특성속성을 추출하는 과정은 상술한 주변분자계속성추출부(122)에서 i번째 분자의 주변분자계속성을 추출하는 과정과 실질적으로 동일하거나 유사하므로, 중복되는 내용은 생략하기로 한다.

한편, 분자속성추출부(121)에서 i번째 분자의 분자속성을 추출하는 과정은 주변분자계속성추출부(122)에서 추출된 i번째 분자의 주변분자계속성과 분자특성속성추출부(123)에서 추출된 i번째 분자의 분자특성속성, 이하 도 2b에서 서술할 통합속성추출부(130)에서 추출된 i번째 분자의 통합속성을 추가로 입력받아 i번째 분자의 분자속성을 추출할 수 있다.도 2b를 참고하면, 통합속성추출부(130)에 미리 저장된 통합속성 추출알고리즘은 하나 이상의 은닉계층(Hidden Layer)을 포함하는 신경망 알고리즘의 형태이며, 적어도 하나 이상의 멀티 레이어 퍼셉트론(Multi-Layer Perceptron, MLP)으로 구현될 수 있다.

통합속성추출부(130)는 속성추출부(120)로부터 제공된 i번째 분자의 분자속성, i번째 분자의 주변분자계속성, 및 i번째 분자의 분자속성을 신경망 알고리즘 형태인 상술한 통합속성 추출알고리즘에 입력하여 i번째 분자의 통합속성을 추출할 수 있다.

도 2c를 참고하면, 분자설계확률계산부(140)에 미리 저장된 분자설계확률 계산알고리즘은 하나 이상의 은닉계층(Hidden Layer)을 포함하는 신경망 알고리즘의 형태이며 멀티 레이어 퍼셉트론(Multi-Layer Perceptron, MLP)으로 구현될 수 있다.

이때, 분자설계확률계산부(140)의 분자설계확률 계산알고리즘은 상술한 멀티 레이어 퍼셉트론(Multi-Layer Perceptron, MLP)외에 추가적인 알고리즘이 적용될 수 있다.

예를 들어, 분자설계확률계산부(140)의 분자설계확률 계산알고리즘에는 상술한 멀티 레이어 퍼셉트론(Multi-Layer Perceptron, MLP)외에 RNN(Recurrent Neural Network)형식의 추가적인 알고리즘이 적용될 수 있다.

분자설계확률계산부(140)는 통합속성추출부(130)로부터 제공된 i번째 분자의 통합속성을 신경망 알고리즘 형태인 상술한 분자설계확률 계산알고리즘에 입력하여 i번째 분자를 기초로 분자설계를 위한 분자설계확률벡터를 추출할 수 있다.

이때, 적어도 하나 이상의 원소가 상기 분자설계확률벡터를 구성할 수 있다. 분자설계확률벡터를 구성하는 각각의 원소는 i번째 분자를 구성하는 어느 하나의 원자에 한 개의 원자를 결합하여 i+1번째 분자를 설계하기 위한 확률값, i번째 분자를 구성하는 원자 사이를 연결하는 결합을 추가하여 i+1번째 분자를 설계하기 위한 확률값, 및 설계중지명령을 출력하여 i번째 분자를 최종분자로 결정하기 위한 확률값을 의미할 수 있다.

도 2d를 참고하면, 분자설계부(150)는 분자설계확률계산부(140)에서 추출된 분자설계확률벡터를 구성하는 원소를 이용하여 산출된 확률값에 따라 i+1번째 분자를 설계하기 위한 i+1번째 분자의 분자정보를 추출할 수 있다.

구체적으로, 도 2c에서 상술한 바와 같이, 분자설계부(150)는 분자설계확률계산부(140)에서 추출된 분자설계확률벡터를 구성하는 어느 하나의 원소를 선택하고 확률값을 산출할 수 있다.

분자설계부(150)는 상술한 확률값에 따라 i번째 분자를 구성하는 어느 하나의 원자에 한 개의 원자를 결합하거나, i번째 분자를 구성하는 원자 사이를 연결하는 결합을 추가하여 i+1번째 분자를 설계하기 위한 i+1번째 분자의 분자정보를 추출할 수 있다.

분자설계부(150)는 상술한 확률값에 따라 설계중지명령을 출력하여 i번째 분자를 최종분자로 결정하고 출력할 수 있다.

도 3a은 본 발명의 한 실시예에 따른 딥러닝 기반 분자 설계 시스템에서 최종분자를 설계하는 구현예에 관한 도면이다. 도 3b는 본 발명의 다른 실시예에 따른 딥러닝 기반 분자 설계 시스템에서 최종분자를 설계하는 구현예에 관한 도면이다.

먼저, 도 3a를 참고하여 본 발명의 한 실시예에 따른 딥러닝 기반 분자 설계 시스템에서 최종분자를 설계하는 구현예를 설명한다.

분자정보벡터화부(111)에는 i번째 분자의 분자정보가 수신될 수 있으며 벡터화될 수 있다. 주변분자계정보벡터화부(112)에는 i번째 분자의 주변분자계정보가 수신될 수 있으며 벡터화될 수 있다.

이때, 분자정보벡터화부(111)에서 벡터화된 i번째 분자의 분자정보와 주변분자계정보벡터화부(112)에서 벡터화된 i번째 분자의 주변분자계정보는 분자그래프(Molecular Graph)의 표현방법을 이용하여 벡터화될 수 있다.

분자특성정보벡터화부(113)에서 i번째 분자의 분자특성정보가 수신될 수 있으며 벡터화될 수 있다.

분자정보벡터화부(111)에서 벡터화된 i번째 분자의 분자정보는 분자속성추출부(121)로 입력될 수 있다. 이때, i번째 분자의 분자정보는 32개, 64개, 128개, 128개, 256개, 256개의 노드(또는, 요소)로 구성된 6계층의 GCN(Graph Convolutional Network)을 순차적으로 통과하고 각 GCN(Graph Convolutional Network)의 출력값으로 총 6개의 i번째 분자의 분자속성이 추출될 수 있다.

주변분자계정보벡터화부(112)에서 벡터화된 i번째 분자의 주변분자계정보는 주변분자계속성추출부(122)로 입력될 수 있다. 이때, i번째 분자의 주변분자계정보는 128개, 128개, 128개, 128개, 128개, 256개의 노드(또는, 요소)로 구성된 GCN(Graph Convolutional Network) 및, 32개의 노드(또는, 요소)로 구성된 멀티 레이어 퍼셉트론(Multi-Layer Perceptron, MLP)을 순차적으로 통과하여 i번째 분자의 주변분자계속성이 추출될 수 있다.

분자특성정보벡터화부(113)에서 벡터화된 i번째 분자의 분자특성정보는 분자특성속성추출부(123)로 입력될 수 있다. 이때, i번째 분자의 분자특성정보는 32개의 노드(또는, 요소)로 구성된 멀티 레이어 퍼셉트론(Multi-Layer Perceptron, MLP)을 통과하여 i번째 분자의 분자특성속성이 추출될 수 있다.

분자속성추출부(121)에서 추출된 i번째 분자의 분자속성, 주변분자계속성추출부(122)에서 추출된 i번째 분자의 주변분자계속성, 및 분자특성속성추출부(123)에서 추출된 i번째 분자의 분자특성속성은 통합속성추출부(130)에 입력되어 서로 연결(Concatenate)될 수 있다.

통합속성추출부(130)에 입력된 i번째 분자의 분자속성, 주변분자계속성, 및 분자특성속성은 256개의 노드(또는, 요소)로 구성된 멀티 레이어 퍼셉트론(Multi-Layer Perceptron, MLP)을 통과하여 i번째 분자의 통합속성이 추출될 수 있다.

통합속성추출부(130)에서 추출된 i번째 분자의 통합속성은 분자설계확률계산부(140)으로 입력될 수 있다.

분자설계확률계산부(140)로 입력된 i번째 분자의 통합속성은 512개의 노드(또는, 요소)로 구성된 멀티 레이어 퍼셉트론(Multi-Layer Perceptron, MLP) 및 512개의 노드(또는, 요소)로 구성된 RNN(Recurrent Neural Network)을 통과하여 i번째 분자를 기초로 분자설계를 위한 분자설계확률벡터가 추출될 수 있다.

분자설계확률계산부(140)에서 추출된 분자설계확률벡터는 분자설계부(150)으로 입력될 수 있다.

분자설계부(150)는 입력된 분자설계확률벡터를 구성하는 각 요소를 가중치로 하여 확률값을 계산하고, 상기 확률값에 기초하여 분자설계확률벡터를 구성하는 어느 하나의 요소를 선택할 수 있다. 분자설계부(150)는 선택한 요소에 따라 i+1번째 분자를 설계하기 위한 i+1번째 분자의 분자정보를 추출하거나 설계중지명령을 출력할 수 있다.

분자설계부(150)에서 i+1번째 분자를 설계하기 위한 i+1번째 분자의 분자정보가 추출된 경우, 추출된 i+1번째 분자의 분자정보는 분자정보벡터화부(111)에 재입력되어 상술한 과정이 반복되며, 분자설계부(150)에서 설계중지명령이 출력될 때까지 분자설계가 진행된다.

한편, 분자설계부(150)에서 설계중지명령이 출력된 경우, i번째 분자를 최종분자로 결정하고 출력할 수 있다.

이하, 도 3b를 참고하여 본 발명의 다른 실시예에 따른 딥러닝 기반 분자 설계 시스템에서 최종분자를 설계하는 구현예를 설명한다.

도 3b는 상술한 도 3a와 비교하여 분자특성속성추출부(123)가 제외된다.

분자정보벡터화부(111)에서 벡터화된 i번째 분자의 분자정보는 분자속성추출부(121)로 입력될 수 있다. 이때, i번째 분자의 분자정보는 32개, 64개, 128개, 128개, 256개, 256개의 노드(또는, 요소)로 구성된 6계층의 GCN(Graph Convolutional Network)을 각각 통과하고 총 6개의 i번째 분자의 분자속성이 추출될 수 있다.

주변분자계정보벡터화부(112)에서 i번째 분자의 주변분자계정보는 주변분자계속성추출부(122)로 입력될 수 있다. 이때, i번째 분자의 주변분자계정보는 128개, 128개, 128개, 128개, 128개, 256개의 노드(또는, 요소)로 구성된 GCN(Graph Convolutional Network) 및, 5개의 노드(또는, 요소)로 구성된 1개의 멀티 레이어 퍼셉트론(Multi-Layer Perceptron, MLP)을 순차적으로 통과하여 i번째 분자의 주변분자계속성이 추출될 수 있다.

분자특성정보벡터화부(113)에서 벡터화된 i번째 분자의 분자특성정보 및 주변분자계속성추출부(122)에서 추출된 i번째 분자의 주변분자계속성은 통합속성추출부(130)에 입력되어 서로 연결(Concatenate)될 수 있다.

통합속성추출부(130)에 입력되어 연결된 i번째 분자의 분자특성정보 및 주변분자계속성은 32개, 64개, 128개, 128개, 256개, 256개의 노드(또는, 요소)로 구성된 6개의 멀티 레이어 퍼셉트론(Multi-Layer Perceptron, MLP)을 각각 통과할 수 있다.

6개의 멀티 레이어 퍼셉트론(Multi-Layer Perceptron, MLP)을 각각 통과한 출력값은 GCN(Graph Convolutional Network)을 각각 통과하여 추출된 총 6개의 i번째 분자의 분자속성과 더해진(Sum) 후, 다음 계층의 GCN(Graph Convolutional Network)에 입력되거나 전부 연결(Concatenate)된 후 256개의 노드(또는, 요소)로 구성된 1개의 멀티 레이어 퍼셉트론(Multi-Layer Perceptron, MLP)을 통과하여 i번째 분자의 통합속성이 추출될 수 있다.

도 4는 본 발명의 한 실시예에 따른 벤젠을 첫번째 분자로하여 분자설계확률벡터에 따라 최종분자를 설계하는 과정에 관한 도면이다.

도 4를 참고하면, 첫번째 분자의 분자정보 즉, 첫번째 분자가 벤젠으로 입력된 경우, 분자설계확률계산부(140)에서 분자설계확률벡터를 추출하고 분자설계부(150)에서 분자설계확률벡터를 구성하는 원소를 이용하여 최종분자를 설계할 수 있다.

예를 들어, 분자설계확률계산부(140)는 첫번째 분자를 기초로 분자설계를 위한 분자설계확률벡터를 추출할 수 있다.

분자설계부(150)는 분자설계확률벡터를 구성하는 원소를 이용하여 산출된 확률값에 따라 2번째 분자를 설계하기 위한 2번째 분자의 분자정보를 추출할 수 있다.

도 4를 참고하면 분자설계부(150)에 의해 분자설계확률벡터를 구성하는 원소에 대한 확률값을 산출하여, 어느 하나의 확률값에 기초하여 다음분자가 설계되는 경우를 실선화살표로 표시하였고, 다음분자가 설계되지 않는 경우는 점선화살표로 표시하였다.

분자설계부(150)는 분자설계확률벡터를 구성하는 원소를 이용하여 확률값을 산출하고, 상기 확률값 중 가장 큰 확률값에 대응하는 분자정보에 따라 다음분자를 설계할 수 있다.

또는, 분자설계부(150)는 분자설계확률벡터를 구성하는 원소를 이용하여 확률값을 산출하고, 상기 확률값을 가중치로 하여 다음분자를 설계할 수 있다.

최종적으로 51.3%에 대응하는 설계중지명령이 출력된 경우 분자설계부(150)는 분자설계를 중지하고 최종분자를 출력할 수 있다.

도 5a는 본 발명의 한 실시예에 따른 분자정보, 주변분자계정보, 및 분자특성정보에 기초하여 최종분자를 설계한 결과에 관한 도면이다. 도 5b는 본 발명의 다른 실시예에 따른 분자정보, 주변분자계정보, 및 분자특성정보에 기초하여 최종분자를 설계한 결과에 관한 도면이다. 도 5c는 본 발명의 또 다른 실시예에 따른 분자정보, 주변분자계정보, 및 분자특성정보에 기초하여 최종분자를 설계한 결과에 관한 도면이다.

도 5a를 참고하면, 첫번째 분자의 분자정보는 화학구조식이 없고, 주변분자계정보는 톨루엔(toluene)에 대한 정보를 포함하고, 분자특성정보는 최대흡광파장에 대한 정보를 포함하도록 설정하여 최종분자를 설계한 결과에 대한 도면이다. 또한, 도 5a에서는 상술한 분자설계를 10000번 이상 반복하여 최종분자를 설계한 결과에 해당한다.

딥러닝 기반의 분자 설계 시스템(100)에서 분자특성정보에 포함된 최대흡광파장을 400nm로 설정하여 분자설계를 수행한 경우, 최대흡광파장이 400nm를 가지는 최종분자의 비율은 최대흡광파장이 400nm를 가지는 비교군(데이터베이스)에 비해 400nm를 중심으로 밀집됨을 알 수 있다.

또한, 딥러닝 기반의 분자 설계 시스템(100)에서 분자특성정보에 포함된 최대흡광파장을 500nm로 설정하여 분자설계를 수행한 경우, 최대흡광파장이 500nm를 가지는 최종분자의 비율은 최대흡광파장이 500nm를 가지는 비교군(데이터베이스)에 비해 500nm를 중심으로 밀집됨을 알 수 있다.

또한, 딥러닝 기반의 분자 설계 시스템(100)에서 분자특성정보에 포함된 최대흡광파장을 600nm로 설정하여 분자설계를 수행한 경우, 최대흡광파장이 600nm를 가지는 최종분자의 비율은 최대흡광파장이 600nm를 가지는 비교군(데이터베이스)에 비해 600nm를 중심으로 밀집됨을 알 수 있다.

또한, 딥러닝 기반의 분자 설계 시스템(100)에서 분자특성정보에 포함된 최대흡광파장을 700nm로 설정하여 분자설계를 수행한 경우, 최대흡광파장이 700nm를 가지는 최종분자의 비율은 최대흡광파장이 700nm를 가지는 비교군(데이터베이스)에 비해 700nm를 중심으로 밀집됨을 알 수 있다.

또한, 딥러닝 기반의 분자 설계 시스템(100)에서 분자특성정보에 포함된 최대흡광파장을 800nm로 설정하여 분자설계를 수행한 경우, 최대흡광파장이 800nm를 가지는 최종분자의 비율은 최대흡광파장이 800nm를 가지는 비교군(데이터베이스)에 비해 800nm를 중심으로 밀집됨을 알 수 있다.

즉, 본 발명의 한 실시예에 따른 딥러닝 기반의 분자 설계 시스템(100)은 주변분자계를 고려하여 원하는 분자특성을 가지는 분자를 정확도가 높게 설계할 수 있다.

도 5b를 참고하면, 첫번째 분자의 분자정보는 벤젠에 대한 화학구조식에 대한 정보를 포함하고, 주변분자계정보는 톨루엔에 대한 정보를 포함하고, 분자특성정보는 최대흡광파장 및 최대발광파장에 대한 정보를 포함하도록 설정하여 최종분자를 설계한 결과에 대한 도면이다. 또한, 도 5b에서는 상술한 분자설계를 10000번 이상 반복하여 최종분자를 설계한 결과에 해당한다.

딥러닝 기반의 분자 설계 시스템(100)에서 분자특성정보에 포함된 최대흡광파장을 400nm로 설정하고, 최대발광파장을 450nm로 설정하여 분자설계를 수행한 경우 최종분자의 비율은 최대흡광파장이 400nm이고 최대발광파장이 450nm에 밀집됨을 알 수 있다.

또한, 딥러닝 기반의 분자 설계 시스템(100)에서 분자특성정보에 포함된 최대흡광파장을 400nm로 설정하고, 최대발광파장을 500nm로 설정하여 분자설계를 수행한 경우 최종분자의 비율은 최대흡광파장이 400nm이고 최대발광파장이 500nm에 밀집됨을 알 수 있다.

또한, 딥러닝 기반의 분자 설계 시스템(100)에서 분자특성정보에 포함된 최대흡광파장을 500nm로 설정하고, 최대발광파장을 600nm로 설정하여 분자설계를 수행한 경우 최종분자의 비율은 최대흡광파장이 500nm이고 최대발광파장이 600nm에 밀집됨을 알 수 있다.

또한, 딥러닝 기반의 분자 설계 시스템(100)에서 분자특성정보에 포함된 최대흡광파장을 600nm로 설정하고, 최대발광파장을 650nm로 설정하여 분자설계를 수행한 경우 최종분자의 비율은 최대흡광파장이 600nm이고 최대발광파장이 650nm에 밀집됨을 알 수 있다.

즉, 본 발명의 한 실시예에 따른 딥러닝 기반의 분자 설계 시스템(100)은 주변분자계를 고려하여 둘 이상의 원하는 분자특성을 가지는 분자를 정확도가 높게 설계할 수 있다.

도 5c를 참고하면, 첫번째 분자의 분자정보는 화학구조식이 포함되지 않고, 주변분자계정보는 톨루엔에 대한 정보를 포함하고, 분자특성정보는 최대흡광파장(370nm), 흡차반치전폭(4600 cm1), 물흡광계수(4.5), 최대발광파장(450nm), 발광반치전폭(3000 cm1), 발광양자수율(0.5), 발광수명(1.45ns)에 대한 정보를 모두 포함하도록 설정하여 최종분자를 설계한 도면이다.

도 5c와 같이, 딥러닝 기반의 분자 설계 시스템(100)에 상술한 바와 같이 분자의 분자정보, 주변분자계정보, 및 7개의 분자특성정보를 동시에 함께 입력하더라도 입력된 분자특성정보를 중심으로 밀집된 비율을 가지는 최종분자가 설계됨을 알 수 있다.

즉, 본 발명의 한 실시예에 따른 딥러닝 기반의 분자 설계 시스템(100)은 주변분자계를 고려하여 다양한 분자특성을 가지는 분자를 정확도가 높게 설계할 수 있다.

도 5d를 참고하면, 첫번째 분자의 분자정보는 화학구조식이 포함되지 않고, 분자특성정보는 최대흡광파장(370nm), 흡차반치전폭(4700 cm1), 물흡광계수(3.6), 최대발광파장(550nm), 발광반치전폭(3800 cm1), 발광양자수율(0.01), 발광수명(2.0ns)에 대한 정보를 모두 포함하고 주변분자계정보는 물(H2O)에 대한 정보를 포함하는 경우와 톨루엔에 대한 정보를 포함하는 경우로 설정하여 최종분자를 각각 설계한 도면이다.

도 5d를 참고하면, 주변분자계정보가 물에 대한 정보를 포함하는 경우와 주변분자계정보가 톨루엔에 대한 정보를 포함하는 경우 서로 다른 최종분자를 설계함을 알 수 있다.

구체적으로, 주변 분자계가 물인 경우 용매의 극성이 크기 때문에 스토크스 이동(Stokes shift)이 비교적 작은 분자로도 이룰 수 있으나, 주변 분자계가 톨루엔인 경우 용매의 극성이 작기 때문에 분자 내에서 주개(donor)-받개(acceptor)의 거리를 상대적으로 더 멀게 분자가 설계되었음을 확인할 수 있다.

즉, 본 발명의 한 실시예에 따른 딥러닝 기반의 분자 설계 시스템(100)은 주변분자계를 고려하여 원하는 분자특성을 가지는 분자를 정확도가 높게 설계할 수 있음을 알 수 있다.

도 6은 본 발명의 한 실시예에 따른 딥러닝 기반의 분자 설계 방법에 관한 흐름도이다.

단계(S10)에서 i번째 분자의 분자정보, 주변분자계정보, 및 분자특성정보를 수신하고 벡터화할 수 있다.

구체적으로, 벡터화부(110)는 i(단, i는 1보다 크거나 같은 정수)번째 분자의 분자정보, 주변분자계정보, 및 분자특성정보를 수신하고 벡터화할 수 있다.

단계(S11)에서 벡터화된 분자정보에서 분자속성을 추출하고 벡터화된 주변분자계정보에서 주변분자계속성을 추출하고 벡터화된 분자특성정보에서 분자특성속성을 추출할 수 있다.

구체적으로, 분자속성추출부(121)는 벡터화된 i번째 분자의 분자정보를 신경망 알고리즘 형태인 분자속성 추출알고리즘에 입력하여 i번째 분자의 분자속성을 추출할 수 있다.

주변분자계속성추출부(122)는 벡터화된 i번째 분자의 주변분자계정보를 신경망 알고리즘 형태인 주변분자계속성 추출알고리즘에 입력하여 i번째 분자의 주변분자계속성을 추출할 수 있다.

분자특성속성추출부(123)는 벡터화된 i번째 분자의 분자특성정보를 신경망 알고리즘 형태인 분자특성속성 추출알고리즘에 입력하여 i번째 분자의 분자특성속성을 추출할 수 있다.

단계(S12)에서 분자속성, 주변분자계속성, 및 분자특성속성을 입력으로 수신하는 신경망 알고리즘인 통합속성 추출알고리즘을 이용하여 상기 i번째 분자의 통합속성을 추출할 수 있다.

구체적으로, 통합속성추출부(130)는 속성추출부(120)로부터 제공된 i번째 분자의 분자속성, i번째 분자의 주변분자계속성, 및 i번째 분자의 분자속성을 신경망 알고리즘 형태인 통합속성 추출알고리즘에 입력하여 i번째 분자의 통합속성을 추출할 수 있다.

단계(S13)에서 통합속성을 입력으로 수신하는 신경망 알고리즘인 분자설계확률 계산알고리즘을 이용하여 i번째 분자를 기초로 분자설계의 진행을 위한 분자설계확률벡터를 추출할 수 있다.

구체적으로, 분자설계확률계산부(140)는 통합속성추출부(130)로부터 제공된 i번째 분자의 통합속성을 신경망 알고리즘 형태인 분자설계확률 계산알고리즘에 입력하여 i번째 분자를 기초로 분자설계를 위한 분자설계확률벡터를 추출할 수 있다.

단계(S14)에서 분자설계확률벡터에 기초하여 i+1번째 분자의 분자정보를 추출하거나 설계중지명령을 출력하여 최종분자를 출력할 수 있다.

구체적으로, 분자설계부(150)는 분자설계확률계산부(140)에서 추출된 분자설계확률벡터를 구성하는 원소를 이용하여 산출된 확률값에 따라 i+1번째 분자를 설계하기 위한 i+1번째 분자의 분자정보를 추출할 수 있다.

지금까지 참조한 도면과 기재된 발명의 상세한 설명은 단지 본 발명의 예시적인 것으로서, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시 예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.

이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(Arithmetic Logic Unit), 디지털 신호 프로세서(Digital Signal Processor), 마이크로컴퓨터, FPGA(Field Programmable Gate Array), PLU(Programmable Logic Unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다.

처리 장치는 운영 체제 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술 분야에서 통상의 지식을 가진 자는 처리 장치가 복수 개의 처리 요소(Processing Element) 및/또는 복수 유형의 처리요소를 포함할 수 있음을 이해할 것이다.

예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(Parallel Processor) 와 같은, 다른 처리 구성(Processing configuration)도 가능하다. 소프트웨어는 컴퓨터 프로그램(Computer Program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다.

소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody) 될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.

컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CDROM, DVD와 같은 광기록 매체(optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다. 그러므로, 다른 구현들, 다른 실시예들 및 청구범위와 균등한 것들도 후술하는 청구범위의 범위에 속한다.

100: 딥러닝 기반의 분자 설계 시스템
110: 벡터화부
120; 속성추출부
130: 통합속성추출부
140: 분자설계확률계산부
150: 분자설계부

Claims

i번째 분자의 분자정보, 주변분자계정보, 및 분자특성정보를 수신하고 벡터화하는 벡터화부;
상기 벡터화된 분자정보에서 분자속성을 추출하고 상기 벡터화된 주변분자계정보에서 주변분자계속성을 추출하고 상기 벡터화된 분자특성정보에서 분자특성속성을 추출하는 속성추출부;
상기 분자속성, 상기 주변분자계속성, 및 상기 분자특성속성을 입력으로 수신하는 신경망 알고리즘인 통합속성 추출알고리즘을 이용하여 상기 i번째 분자의 통합속성을 추출하는 통합속성추출부;
상기 통합속성을 입력으로 수신하는 신경망 알고리즘인 분자설계확률 계산알고리즘을 이용하여 상기 i번째 분자를 기초로 분자설계를 위한 분자설계확률벡터를 추출하는 분자설계확률계산부; 및
상기 분자설계확률벡터에 기초하여 i+1번째 분자의 분자정보를 추출하거나 설계중지명령을 출력하여 최종분자를 출력하는 분자설계부를 포함하고,
상기 i는 1보다 크거나 같은 정수인,
딥러닝 기반의 분자 설계 시스템.
제1 항에 있어서,
상기 벡터화부는,
상기 i번째 분자의 분자정보를 SMILES(Simplified Molecular-Input Line-Entry System)표현으로 수신하고, 분자핑거프린트(Molecular Fingerprint), 분자설명자(Molecular Descriptor), 화학구조식에 대한 이미지, 분자그래프(Molecular Graph), 분자좌표(Molecular Coordinates), 및 SMILES코드 중 적어도 하나의 표현방법을 이용하여 벡터화하는 분자정보벡터화부;
상기 i번째 분자의 주변분자계정보를 상기 SMILES(Simplified molecular-Input Line-Entry System)표현으로 수신하고, 상기 분자핑거프린트(Molecular Fingerprint), 상기 분자설명자(Molecular Descriptor), 상기 화학구조식에 대한 이미지, 분자그래프(Molecular Graph), 상기 분자좌표(Molecular Coordinates), 및 상기 SMILES코드 중 적어도 하나의 표현방법을 이용하여 벡터화하는 주변분자계정보벡터화부; 및
상기 i번째 분자의 분자특성정보를 문자열 또는 실수값 집합의 형태로 입력받고, 토큰화(tokenization), 정규화(normalization), 및 원-핫 인코딩(one-hot encoding) 중 적어도 하나의 표현방법을 이용하여 벡터화하는 분자특성정보벡터화부를 포함하는,
딥러닝 기반의 분자 설계 시스템.
제2 항에 있어서,
상기 속성추출부는,
상기 벡터화된 i번째 분자의 분자정보를 입력으로 수신하는 신경망 알고리즘인 분자속성 추출알고리즘을 이용하여 상기 i번째 분자의 분자속성을 추출하는 분자속성추출부;
상기 벡터화된 i번째 분자의 주변분자계정보를 입력으로 수신하는 신경망 알고리즘인 주변분자계속성 추출알고리즘을 이용하여 상기 i번째 분자의 주변분자계속성을 추출하는 주변분자계속성추출부; 및
상기 벡터화된 i번째 분자의 분자특성정보를 입력으로 수신하는 신경망 알고리즘인 분자특성속성 추출알고리즘을 이용하여 상기 i번째 분자의 분자특성속성을 추출하는 분자특성속성추출부를 포함하는,
딥러닝 기반의 분자 설계 시스템.
제1 항에 있어서,
상기 분자정보는 화학구조식에 대한 정보를 포함하고,
상기 주변분자계정보는 하나 이상의 용매에 대한 정보를 포함하고,
상기 분자특성정보는 상기 분자의 구조적, 화학적, 물리적, 분광학적, 전기화학적, 반응성 중 적어도 하나 이상에 대한 정보를 포함하는,
딥러닝 기반의 분자 설계 시스템.
제4 항에 있어서,
상기 첫번째 분자의 분자정보는 상기 화학구조식이 없거나 사용자에 의해 제공되는 어느 하나의 화학구조식에 대한 정보를 포함하는,
딥러닝 기반의 분자 설계 시스템.
제1 항에 있어서,
상기 분자설계부는,
상기 분자설계확률벡터를 구성하는 어느 하나의 원소를 이용하여 산출된 확률값에 따라 상기 i+1번째 분자를 설계하기 위한 상기 i+1번째 분자의 분자정보를 추출하고,
상기 i+1번째 분자의 분자정보는 상기 i번째 분자를 구성하는 어느 하나의 원자에 한개의 원자를 결합하거나, 상기 i번째 분자를 구성하는 원자 사이를 연결하는 결합을 추가하여 설계된 상기 i+1번째 분자의 화학구조식에 대한 정보를 포함하는,
딥러닝 기반의 분자 설계 시스템.
제1 항에 있어서,
상기 분자설계부는,
상기 분자설계확률벡터를 구성하는 어느 하나의 원소를 이용하여 산출된 확률값에 따라 상기 설계중지명령을 출력하여 상기 i번째 분자를 상기 최종분자로 결정하는,
딥러닝 기반의 분자 설계 시스템.
제3 항에 있어서,
상기 분자속성 추출알고리즘, 상기 주변분자계속성 추출알고리즘, 상기 분자특성속성 추출알고리즘, 상기 통합속성 추출알고리즘, 및 상기 분자설계확률 계산알고리즘은 적어도 하나 이상의 은닉계층(Hidden Layer)을 포함하는 상기 신경망 알고리즘인,
딥러닝 기반의 분자 설계 시스템.
벡터화부에 의해 i번째 분자의 분자정보, 주변분자계정보, 및 분자특성정보를 수신하고 벡터화하는 단계;
속성추출부에 의해 상기 벡터화된 분자정보에서 분자속성을 추출하고 상기 벡터화된 주변분자계정보에서 주변분자계속성을 추출하고 상기 벡터화된 분자특성정보에서 분자특성속성을 추출하는 단계;
통합속성추출부에 의해 상기 분자속성, 상기 주변분자계속성, 및 상기 분자특성속성을 입력으로 수신하는 신경망 알고리즘인 통합속성 추출알고리즘을 이용하여 상기 i번째 분자의 통합속성을 추출하는 단계;
분자설계확률계산부에 의해 상기 통합속성을 입력으로 수신하는 신경망 알고리즘인 분자설계확률 계산알고리즘을 이용하여 상기 i번째 분자를 기초로 분자설계의 진행을 위한 분자설계확률벡터를 출력하는 단계; 및
분자설계부에 의해 상기 분자설계확률벡터에 기초하여 i+1번째 분자의 분자정보를 추출하거나 설계중지명령을 출력하여 최종분자를 출력하는 단계를 포함하고,
상기 i는 1보다 크거나 같은 정수인,
딥러닝 기반의 분자 설계 방법.
제9 항의 딥러닝 기반의 분자 설계 방법을 실행시키는 프로그램이 기록된 컴퓨터로 판독가능한 기록매체.