KR20220112692A - 원자 구조를 이용한 분자 특성 예측 방법 및 이를 위한 장치 - Google Patents

원자 구조를 이용한 분자 특성 예측 방법 및 이를 위한 장치 Download PDF

Info

Publication number
KR20220112692A
KR20220112692A KR1020220012352A KR20220012352A KR20220112692A KR 20220112692 A KR20220112692 A KR 20220112692A KR 1020220012352 A KR1020220012352 A KR 1020220012352A KR 20220012352 A KR20220012352 A KR 20220012352A KR 20220112692 A KR20220112692 A KR 20220112692A
Authority
KR
South Korea
Prior art keywords
molecule
node
similar
molecular
predicted
Prior art date
Application number
KR1020220012352A
Other languages
English (en)
Inventor
류하선
곽영신
정철규
Original Assignee
주식회사 엘지화학
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 엘지화학 filed Critical 주식회사 엘지화학
Publication of KR20220112692A publication Critical patent/KR20220112692A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/80Data visualisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명은, 분자 데이터 세트에서 하나 이상의 제1 분자에 대한 데이터를 획득하는 단계; 소스 분자에 포함된 원자 및 상기 제1 분자에 포함된 원자에 대해 노드 임베딩(node embedding)을 수행하는 단계; 제1 모델을 통해 상기 소스 분자와 상기 제1 분자간에 예측되는 특성(predicted property) 의 유사 여부를 결정하는 단계; 노드 임베딩된 상기 소스 분자의 노드와 노드 임베딩된 상기 제1 분자의 노드를 기초로 상기 소스 분자와 상기 제1 분자간에 유사한 원자의 존재 여부를 결정하는 단계; 및 상기 예측되는 특성의 유사 여부와 상기 유사한 원자의 존재 여부를 기초로, 제2 분자의 분자 그래프 구조를 기초로 상기 제2 분자의 특성을 예측하는 단계를 포함하는 분자 특성 예측 방법 및 이를 위한 장치를 제공한다.

Description

원자 구조를 이용한 분자 특성 예측 방법 및 이를 위한 장치{METHOD FOR PREDICTING MOLECULAR PROPERTIES WITH ATOMIC STRUCTURE AND DEVICE THEREFOR}
본 발명은 원자 구조를 이용하여 분자 특성을 예측하기 위한 방법 및 이를 위한 장치에 관한 발명이다.
신약의 개발은 통상적으로 많은 비용이 들고 오랜 기간이 소요된다. 약물 발견은 약물에 의해 영향을 받을 타겟을 확인하여, 타겟에 영향을 주는 잠재적인 약물을 찾고, 이 잠재적인 약물 중 어떤 것이 안전하고 예측 가능한지를 결정하는 것으로 시작된다.
신약 개발 과정은 잠재적 약제인 분자를 타겟(예컨대, 인체 또는 미생물의 단백질)에 매칭시키는 단계로부터 출발한다. 이 과정에서 분자의 구조적 유사성에 따른 생화학적 활성을 추론하여 예측 모델을 만들고, 이를 사용하여 후보 화합물 중 타겟(예컨대, 단백질)에 대해 높은 활성을 가진 화합물을 스크리닝하게 된다. 최근에는 딥 러닝 기술을 통해서 분자 활성도의 예측 정확성을 높이는 연구들이 진행되고 있으며, 인공지능 기술을 활용하여 분자 활성도를 예측하는 방법으로는 신경망(Neural Network) 모델을 사용한 방법이 최근 사용되고 있다.
그래프 신경망(Graph Neural Networks, GNN)은 분자 활성 또는 특성 예측과 같은 초기 단계 약물 발견에서 유망한 결과를 보여준다. 그러나 신경망의 블랙박스 특성으로 인해 결과를 해석하기가 어려운 문제가 있다. 특히 신약 개발은 여러 단계로 구성되어 있으며 모든 제약 조건을 한 번에 충족하는 분자를 설계하는 것이 거의 불가능하기 때문에 설명 능력(Explainability)은 신약 개발 분야에서 특히 중요하다. 그렇기 때문에 분자의 구조적 유사성에 따른 생화학적 활성을 추론하기 위해 분자 그래프 구조와 활성 간의 관계에 대한 종단 간 설명을 제공하는 모델이 필요하다.
본 명세서의 실시 예는 상술한 문제점을 해결하기 위하여 제안된 것으로, 분자 그래프를 임베딩한 노드의 최종 표현과 분자의 분포 준수 설명(distribution compliant explanation)을 기반으로, 유사한 특성을 가진 분자에 존재하고 다른 특성을 가진 분자에는 존재하지 않는 원자 구조를 식별할 수 있는 분자 특성 예측 방법 및 이를 위한 장치를 제공하는 데 있다.
또한, 본 명세서의 실시 예가 해결하고자 하는 과제는, 분자의 특성 예측을 위한 분자의 중요한 부분을 식별하여 예측 모델을 기계 학습할 수 있는 분자 특성 예측 방법 및 이를 위한 장치를 제공하는 데 있다.
본 실시 예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 이하의 실시 예들로부터 또 다른 기술적 과제들이 유추될 수 있다.
상술한 과제를 달성하기 위하여, 본 명세서의 일 실시 예에 따르는 분자 특성 예측 방법은, 분자 데이터 세트에서 하나 이상의 제1 분자에 대한 데이터를 획득하는 단계; 소스 분자에 포함된 원자 및 상기 제1 분자에 포함된 원자에 대해 노드 임베딩(node embedding)을 수행하는 단계; 제1 모델을 통해 상기 소스 분자와 상기 제1 분자간에 예측되는 특성(predicted property)의 유사 여부를 결정하는 단계; 노드 임베딩된 상기 소스 분자의 노드와 노드 임베딩된 상기 제1 분자의 노드를 기초로 상기 소스 분자와 상기 제1 분자간에 유사한 원자의 존재 여부를 결정하는 단계; 및 상기 예측되는 특성의 유사 여부와 상기 유사한 원자의 존재 여부를 기초로, 제2 분자의 분자 그래프 구조를 기초로 상기 제2 분자의 특성을 예측하는 단계를 포함할 수 있다.
본 명세서의 일 실시 예에 따르는 분자 특성 예측 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 비일시적 기록매체로서, 상기 분자 특성 예측 방법은: 분자 데이터 세트에서 하나 이상의 제1 분자에 대한 데이터를 획득하는 단계; 소스 분자에 포함된 원자 및 상기 제1 분자에 포함된 원자에 대해 노드 임베딩을 수행하는 단계; 제1 모델을 통해 상기 소스 분자와 상기 제1 분자간에 예측되는 특성의 유사 여부를 결정하는 단계; 노드 임베딩된 상기 소스 분자의 노드와 노드 임베딩된 상기 제1 분자의 노드를 기초로 상기 소스 분자와 상기 제1 분자간에 유사한 원자의 존재 여부를 결정하는 단계; 및 상기 예측되는 특성의 유사 여부와 상기 유사한 원자의 존재 여부를 기초로, 제2 분자의 분자 그래프 구조를 기초로 상기 제2 분자의 특성을 예측하는 단계를 포함할 수 있다.
본 명세서의 일 실시 예에 따르는 원자 구조를 기초로 분자 특성을 예측하는 전자 장치에 있어서, 상기 전자 장치는, 분자 데이터 세트를 저장하는 저장부; 및 적어도 하나의 프로세서를 포함하는 제어부를 포함하고, 상기 제어부는, 상기 분자 데이터 세트에서 하나 이상의 제1 분자에 대한 데이터를 획득하고, 소스 분자에 포함된 원자 및 상기 제1 분자에 포함된 원자에 대해 노드 임베딩을 수행하고, 제1 모델을 통해 상기 소스 분자와 상기 제1 분자간에 예측되는 특성의 유사 여부를 결정하고, 노드 임베딩된 상기 소스 분자의 노드와 노드 임베딩된 상기 제1 분자의 노드를 기초로 상기 소스 분자와 상기 제1 분자간에 유사한 원자의 존재 여부를 결정하고, 상기 예측되는 특성의 유사 여부와 상기 유사한 원자의 존재 여부를 기초로, 제2 분자의 분자 그래프 구조를 기초로 상기 제2 분자의 특성을 예측할 수 있다.
본 명세서의 실시 예에 따르면, 분자의 연속적인 특성과 관련된 하위 구조를 식별하여 분자 그래프 구조와 활성 간의 관계를 추론하는 모델을 제공할 수 있다.
또한 본 명세서의 실시 예에 따르면, 신약 개발 분야에서 원하는 특성을 가진 분자를 생성하기 위해 유지 및 변경해야 할 부분을 추론해주는 모델을 제공할 수 있다.
발명의 효과는 이상에서 언급한 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 청구범위의 기재로부터 당해 기술 분야의 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
도 1은 분자 구조와 활성 간의 관계를 나타내는 가상 예이다.
도 2는 일 실시 예에 따른 분자 특성 예측 방법에 의한 그래프 신경망 예측 결과를 나타낸 도면이다.
도 3은 일 실시 예에 따른 분자 특성 예측 방법을 나타낸 흐름도이다.
도 4는 일 실시 예에 따른 FreeSolv 특성의 예측 결과를 나타낸 도면이다.
도 5는 일 실시 예에 따른 친유성 특성의 예측 결과를 나타낸 도면이다.
도 6은 일 실시 예에 따른 EGFR에 대한 생물학적 활성의 예측 결과를 나타낸 도면이다.
도 7은 일 실시 예에 따른 분자 특성 예측 장치를 도식화한 블록도이다.
이하, 본 발명의 실시 예를 첨부된 도면을 참조하여 상세하게 설명한다. 실시 예를 설명함에 있어서 본 발명이 속하는 기술 분야에 익히 알려져 있고 본 발명과 직접적으로 관련이 없는 기술 내용에 대해서는 설명을 생략한다. 이는 불필요한 설명을 생략함으로써 본 발명의 요지를 흐리지 않고 더욱 명확히 전달하기 위함이다.
마찬가지 이유로 첨부 도면에 있어서 일부 구성요소는 과장되거나 생략되거나 개략적으로 도시되었다. 또한, 각 구성요소의 크기는 실제 크기를 전적으로 반영하는 것이 아니다. 각 도면에서 동일한 또는 대응하는 구성요소에는 동일한 참조 번호를 부여하였다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
이 때, 처리 흐름도 도면들의 각 블록과 흐름도 도면들의 조합들은 컴퓨터 프로그램 명령어에 의해 수행될 수 있음을 이해할 수 있을 것이다. 이들 컴퓨터 프로그램 명령어는 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 명령어가 흐름도 블록(들)에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 명령어는 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 명령어는 흐름도 블록(들)에서 설명된 기능을 수행하는 명령 수단을 내포하는 제조 품목을 생산하는 것도 가능하다. 컴퓨터 프로그램 명령어는 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성하여 흐름도 블록(들)에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.
또한, 각 블록은 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 명령어를 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실행 예들에서는 블록들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.
이 때, 본 실시 예에서 사용되는 '~부'라는 용어는 소프트웨어 또는 FPGA또는 ASIC과 같은 하드웨어 구성요소를 의미하며, '~부'는 어떤 역할들을 수행한다. 그렇지만 '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함한다. 구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로 더 분리될 수 있다. 뿐만 아니라, 구성요소들 및 '~부'들은 디바이스 또는 보안 멀티미디어카드 내의 하나 또는 그 이상의 CPU들을 재생시키도록 구현될 수도 있다.
머신 러닝 분야에서는, 분자 구조와 같은 그래프 형태의 데이터를 처리하기 위하여 그래프 신경망 (Graph Neural Network, GNN) 모델이 사용될 수 있다. 그래프 신경망은 그래프 도메인에 표시된 데이터를 처리하는 일종의 신경망이다. 그래프 신경망 모델은 소셜 네트워크, 자연 과학, 지식 그래프 등 다양한 영역에서 널리 사용된다. 특히 분자의 마디와 모서리가 분자의 원자와 결합을 나타내는 그래프로 쉽게 표현될 수 있는 분자의 특성상, 그래프 신경망 모델은 약물-타겟 상호작용 식별, 분자의 물리화학적 특성 예측, 원하는 특성을 가진 새로운 분자 생성과 같은 소분자 약물 발견 분야의 과제를 해결하기 위해 사용될 수 있다.
그래프 신경망 모델에는 그래프 합성곱 신경망 (Graph Convolutional Network, GCN), 그래프 어텐션 네트워크(Graph Attention Network), 메세지 패싱(Message Passing), 그래프 동형사상 네트워크(Graph Isomorphism Network, GIN) 모델, D-MPNN(Directed Message Passing Neural Network) 모델 등이 있을 수 있으며, 이에 제한되지 않는다. 이 중 그래프 합성곱 신경망 모델은 그래프 합성곱을 이용하여 그래프에 포함된 노드(node)나 그래프 자체를 벡터 형태의 데이터로 변환한다. 분자에 그래프 합성곱 신경망 모델을 적용한다면, 분자 내 각 원자는 노드로 표현되며, 결합된 원자들 사이에는 결합을 나타내는 엣지(edge)가 추가될 것이다. 그리고, 그래프 합성곱 신경망 모델은 어떠한 노드의 잠재 벡터(latent vector)를 해당 노드와 엣지로 연결된 주변 노드(neighbor node)를 기반으로 계산한다. 결과적으로, 그래프 합성곱 신경망 모델은 그래프에 존재하는 모든 노드에 대한 m 차원의 잠재 특성 행렬(latent feature matrix)을 생성할 수 있다. 그래프 합성곱 신경망 모델은 LRP(Layer-wise Relevance Propagation)를 사용하여 해석할 수 있다.
D-MPNN 모델은 원래는 structure2vec로 불렸으며, 회귀(regression) 모델과 같은 기존 모델 및 MPNN(Message Passing Neural Network)과 같은 그래프 기반 모델을 포함한 다른 방법과 비교하여, 분자 특성 예측 작업의 절반 이상에서 비슷하거나 더 나은 성능을 보여준다.
그래프 신경망 모델의 해석과 관련하여, D-MPNN 및 RationaleRL에는 MCTS(Monte Carlo Tree Search) 기반 결과 해석을 위해 하위 그래프를 식별하는 기능이 있다. 그리고 GNNExplainer는 원본 그래프에 상호(mutual) 정보를 최대화하여 하위 그래프를 추출하기 위한 마스크(mask)를 학습하여 그래프 신경망 모델의 예측을 설명한다. Contrastive GNN Explanation(CoGE)은 배포 준수 설명 및 대조 설명의 개념을 활용한다. 그리고 CoGE를 그래프 분류 작업에 적용하여 레이블이 같은 그래프와 유사한 하위 그래프 및 레이블이 다른 그래프와 유사하지 않은 하위 그래프를 식별할 수 있다.
그래프 신경망 모델이 예측 및 생성 작업 모두에서 높은 성능을 입증하므로 그래프 신경망 모델에서의 예측을 이해하는 것은 신약 개발 분야에서 특히 중요하다. 하지만 이러한 그래프 신경망 모델의 블랙박스 특성상 예측을 수행하는 이유를 설명하기는 어려움이 있다. 예컨대, 승인된 약물은 관심 단백질에 대한 생물학적 활성과 세포막을 관통하는 적당한 친유성과 같은 여러 제약 조건을 충족하는 분자일 것이다. 그리고 이러한 요건을 충족하는 신약을 한 번에 개발하는 것은 거의 불가능하기 때문에, 사용자는 'lead optimization'라고 하는 단계별 특성 개선 과정을 통해 화합물을 만든다. 따라서 그래프 신경망 모델의 예측을 설명한다면 사용자가 원하는 특성을 지니는 화합물을 생성하기 위해 분자 구조에서 유지 및 변경해야 할 부분에 대해 영감을 줄 수 있다.
본 개시에서는 일 실시 예에 따라, 대조적인 설명(contrastive explanation)을 기반으로 분자 그래프의 구조와 분자 활성 간의 관계를 설명할 수 있는 모델을 제안한다. 대조적인 설명은 어떠한 특성에 대해 A가 아닌 B라는 분자 그래프 구조가 해당 특성을 나타내는지에 대한 설명을 포함한다. 본 개시의 분자 특성 예측 모델은 분자 그래프 구조와 활성 간의 관계에 대한 종단 간(end to-end) 설명을 제공할 수 있으며, 이러한 대조적인 설명을 기반으로 연속적인 특성 값과 분자 특성과 관련된 분자의 하위 구조를 식별할 수 있다. 또한, 본 개시의 분자 특성 예측 모델은 실제 분자의 활성과 특성 데이터 세트에 대한 접근 방식을 평가하고 활성과 관련된 하위 구조를 추론할 수 있다.
본 개시의 일 실시 예에 따른 분자 특성 예측 모델은 EGSAR(Explaining molecular Graph neural networkS using optimal trAnpoRtation plans of node embedding) 방식을 포함할 수 있다. EGSAR은 분자의 특성 예측을 설명하기 위한 분자 특성 예측 설명 방법으로서, 신약 설계에 널리 사용되는 접근 방식인 QSAR(Quantitative Structure-Activity Relationship)에 근간을 두며, 분자 그래프 구조와 그 특성 사이의 관계에 초점을 맞추고 연속적인 값을 나타낼 수 있다. 본 개시의 일 실시 예에 따른 분자 특성 예측 모델은 그래프 신경망 모델에서 노드의 최종 표현과 분포 준수 설명(distribution compliant explanation)을 기반으로 유사한 특성을 가진 분자에 존재하고 다른 특성을 가진 분자에는 존재하지 않는 원자를 찾을 수 있다.
본 개시의 일 실시 예에 따른 분자 특성 예측 모델은 특성 예측 작업을 위해 분자 그래프를 입력으로 받는 훈련된 그래프 신경망 모델이 필요하다. 일 실시 예에 따르면, 분자 그래프는 3-튜플(tuple) G=(V, E, u)로 정의되며, 여기서 V는 노드의 집합, E은 엣지의 집합, u는 전역 속성(global attribute)를 나타낸다. 그래프 신경망은 그래프를 입력으로 사용하는 신경망이므로, 분자 그래프 신경망에서 입력 그래프는 분자이고 노드와 엣지는 각각 분자의 원자와 결합을 나타낸다. 그래프 신경망 모델은 일반적으로 업데이트 함수(예를 들어, 학습된 그래프 신경망 모델 Φ)를 포함하는 그래프 네트워크(GN) 블록을 통해 노드, 엣지 및/또는 그래프 표현을 업데이트할 수 있다. 이에 따라 그래프 신경망은 학습된 그래프 신경망 모델 Φ과 다음 수학식 1과 같은 관계를 갖는다.
Figure pat00001
그래프가 그래프 신경망의 모든 그래프 네트워크 블록을 통과한 후 그래프는 노드 hv, 엣지 he 및/또는 그래프 hG에 대해 학습된 특징 벡터 및 최종 임베딩을 얻을 수 있다. 일 실시 예에 따른 특성 예측 작업에서 학습된 특징 벡터는 판독(readout) 기능과 피드-포워드(feed-forward) 신경망을 통해 그래프 G의 예측 값
Figure pat00002
을 생성하는 데 사용될 수 있다.
도 1은 분자 구조와 활성 간의 관계(molecular structure-activity relationship)를 나타내는 가상 예(hypothetical example)이다.
도 1에서 소스(source) 분자(110)의 녹색 상자 영역은 활성에 중요한 원자를 나타낸다. 하나 이상의 타겟(target) 분자들(120)은 훈련 데이터 세트에서 선택될 수 있다. IC50는 분자의 활성도를 나타내기 위한 것으로서, 약물이 특정 생물학적 과정을 50 %까지 억제할 수 있는 농도를 나타낸다. pIC50는 IC50를 몰 농도로 나타낸 것으로서, pIC50 값이 높을수록 더 강력한 억제제임을 나타낸다. 타겟 분자들(120)을 pIC50 값을 기초로 포지티브 세트와 네거티브 세트로 분류하면 소스 분자(110)의 녹색 상자 영역을 오버룩(overlook)할 수 있다.
본 개시의 일 실시 예에 따른 분자 특성 예측 모델은 분자 그래프 구조와 특성 관계에 대한 대조적인 설명을 위해 훈련 데이터의 특성 분포를 이용한다. 일 실시 예에 따른 분자 특성 예측 모델은 CoGE와 달리 분자 그래프 구조와 다수의(예컨대, 100가지) 특성 간의 관계를 분석하기 위해 그래프 신경망 모델을 사용할 수 있다.
도 1과 같이 분자 특성은 일반적으로 연속 값을 갖기 때문에 특정 임계값을 기준으로 포지티브 세트와 네거티브 세트를 구분하기 어렵고, 임계값에 따라 예측이나 설명의 결과가 달라질 수 있다. 또한 동일한 범주 내에서 분자 특성의 값의 차이는 무시될 수 있다. 따라서 연속 값 특성이 있는 작업에 적용할 수 있도록 신경망 알고리즘을 수정하고 특성 값의 척도를 고려할 필요성이 있다.
도 2는 일 실시 예에 따른 분자 특성 예측 방법에 의한 그래프 신경망 예측 결과를 나타낸 도면이다.
본 개시의 일 실시 예에 따른 분자 특성 예측 모델은 종래의 구조-활성 관계(structure-activity relationships, SAR) 또는 구조-속성 관계(structure-property relationships, SPR) 분석을 내포할 수 있다. 도 2에서 제1 분석 프로세스(210)는 이와 같은 종래의 SAR/SPR 분석에 의한 그래프 신경망 예측 결과를 나타낸다. 분자 구조와 실험 활동 또는 특성 값 사이의 관계를 설명하기 위해 사용자는 주어진 속성을 가진 분자 세트를 검토하여 하위 구조 사양과 속성 값에 대한 기여도를 추론할 수 있다. 의약 화학자와 같은 사용자는 일반적으로 활성이 높은 분자에 존재하고 활성이 낮은 분자에는 존재하지 않는 하위 구조를 확인하고자 한다. 제1 분석 프로세스(210)의 사각 박스(211)는 분자의 특성에 대해 중요한 것으로 간주될 수 있는 분자의 특정 하위 구조를 나타낸다. 일 예로, 낮은 logP 특성에 중요한 원자 구조를 찾기 위하여 SAR/SPR 분석을 수행한 결과, 낮은 logP 특성을 지니는 분자에는 존재하나 높은 logP 특성을 지니는 분자에는 존재하지 않는 원자 구조(사각 박스(211)에 나타난 원자)를 확인할 수 있다.
이러한 그래프 신경망의 예측 결과를 설명하기 위해 본 개시의 일 실시 예에 따른 특성 예측 모델은 그래프의 노드 임베딩과 훈련에 사용된 분자의 예측된 특성 값을 탐색하고 유사한 예측 특성을 가진 분자에는 일반적으로 존재하고 다른 예측 특성을 가진 분자에는 존재하지 않는 하위 구조를 식별할 수 있다. 도 2에서 제2 분석 프로세스(220)는 일 실시 예에 따른 특성 예측 모델을 이용하여 제1 분석 프로세스(210)의 예측 결과에 대한 분석 과정을 확인할 수 있다. 일반적으로 노드 임베딩의 값은 연속적이므로 한 그래프의 노드가 다른 그래프에 존재하는지 여부를 이분화 할 수는 없다. 이를 해결하기 위해 두 그래프의 노드 임베딩 사이의 거리를 계산하고 관심(interest) 분자의 그래프의 노드에서 다른 그래프까지의 거리를 사용할 수 있다. 일 실시 예에 따르면 그래프의 각 노드에 대해 노드에서 다른 그래프의 노드까지의 거리는 노드 임베딩을 기반으로 계산되고 각 노드의 총 거리는 거리를 합산하여 얻을 수 있다. 그런 다음 그래프의 예측 결과를 위한 중요한 노드로서 유사한 예측 특성을 가진 그래프와 거리가 작고, 예측 특성이 다른 그래프와 거리가 큰 노드를 그래프에서 찾을 수 있다. 제2 분석 프로세스(220)의 사각 박스(221)는 낮은 logP 특성에 중요한 노드를 찾기 위해, 낮은 logP 예측 값을 가진 그래프와 거리가 작고, 높은 logP 예측 값을 가진 그래프와 거리가 큰 노드를 나타낸다.
도 3은 일 실시 예에 따른 분자 특성 예측 방법을 나타낸 흐름도이다.
본 개시의 분자 특성 예측 방법은, 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 비일시적 기록매체로서 구현될 수 있다.
본 개시의 분자 특성 예측 모델은 특성 예측을 위한 판독 단계 이전의 최종 노드 임베딩과, 훈련된 신경망 모델을 이용한 관심 분자 및 훈련 데이터에 대한 예측 특성을 추출할 수 있다.
본 개시의 일 실시 예에 따른 분자 특성 예측 모델은 훈련된 그래프 신경망 모델을 통해 각 원자가 관심(interest) 분자의 특성을 예측하는 데 얼마나 기여하는지 정량화할 수 있다. 이를 위해 본 개시의 분자 특성 예측 모델은 타겟 분자와 소스 분자의 원자 간 유사성을 측정하기 위해 원자를 노드 임베딩을 사용하여 표현할 수 있다. 또한, 본 개시의 분자 특성 예측 모델은 타겟 분자가 소스 분자와 유사하거나 유사하지 않은 특성을 가지고 있는지 확인할 수 있다. 그리고, 본 개시의 분자 특성 예측 모델은 타겟 분자와 소스 분자가 유사한 원자를 가지는지 확인할 수 있다. 이를 위하여 일 실시 예에 따른 분자 특성 예측 모델은 소스 분자의 원자와 유사한 원자는 유사한 특성을 갖는 분자에 존재하고 유사하지 않은 특성을 갖는 분자에는 존재하지 않는다고 가정할 수 있다. 일 실시 예에 따르면, 임의의 두 분자 구조가 유사한 특성을 가진다는 의미는, 두 분자를 포함하는 다수의 분자에 대한 특성 분포에서 임의의 기준(criteria)에 대해 두 분자의 특성 값이 동일한 경향성을 가진다는 것을 의미한다. 또한, 임의의 두 분자가 유사한 원자를 포함한다는 의미는, 각 분자 구조에 (완전히 동일한 형태가 아니더라도) 동일한 유형의 원자 구조(예를 들어, 링 구조, 산소, 아민형 질소 등)가 포함되어 있다는 것을 의미한다.
단계 S301에서, 분자 데이터 세트에서 하나 이상의 타겟 분자에 대한 데이터를 획득할 수 있다. 일 실시 예에 따르면 분자 데이터 세트는 그래프 신경망 모델을 훈련시키기 위한 훈련 세트(training set)로서, 분자 구조와 특성 값으로 구성된 데이터 세트일 수 있다. 일 실시 예에 따르면 하나 이상의 타겟 분자는 분자 데이터 세트에서 정해진 개수만큼 무작위로 샘플링될 수 있다. 소스 분자는 분자 데이터 세트와 독립적으로 선택될 수 있으며, 분자 데이터 세트가 방대한 양의 분자 데이터를 포함할 수 있으므로, 소스 분자에 대한 정보가 분자 데이터 세트에 포함되어 있을 수도 있다.
단계 S302에서, 소스 분자에 포함된 원자 및 타겟 분자에 포함된 원자에 대해 노드 임베딩을 수행할 수 있다. 일 실시 예에 따르면, 분자의 원자를 나타내기 위해 원자의 최종 노드 임베딩(final node embedding)을 사용하여 표현할 수 있다. 최종 노드 임베딩은 노드의 임베딩을 집계하는 절차인 판독 단계(readout phase) 이후 분자의 특성 예측에 사용될 수 있다. 일 실시 예에 따르면, 분자 데이터 세트를 이용하여 훈련된 그래프 신경망 모델을 통해 각 원자에 대한 최종 노드 임베딩을 추출할 수 있다. 예를 들어, D-MPNN 모델과 같이 Atom descriptor와 같은 추가 기능이 특성 예측에 사용되는 경우, 최종 노드 임베딩과 추가적인 특징(feature)을 연결(concatenation)하여 원자를 나타내는 데 사용할 수 있다.
단계 S303에서, 제1 모델을 통해 소스 분자와 타겟 분자 간에 예측되는 특성의 유사 여부를 결정할 수 있다. 일 실시 예에 따르면, 분자 특성의 유사 여부를 결정하기 위해 학습된 제1 모델은 그래프 신경망 모델을 포함할 수 있다. 일 실시 예에 따라, 분자 데이터 세트는 복수 개의 분자의 분자 구조 및 특성 값에 대한 데이터를 포함하고, 그래프 신경망 모델은 이러한 분자 데이터 세트를 기초로 학습된 모델일 수 있다.
일 실시 예에 따르면, 소스 분자와 타겟 분자의 특성이 유사한지 확인하기 위해 분자 데이터 세트의 예측 특성 분포를 활용할 수 있다. 예를 들어, 제1 모델을 통해 분자 데이터 세트에 포함된 복수의 분자에 대한 예측되는 특성의 강도(예컨대, pIC50)를 나타내는 예측 특성 분포를 생성할 수 있다. 그리고 예측 특성 분포를 기초로 분자 데이터 세트의 예측 특성 평균을 계산하고, 제1 모델을 통해 타겟 분자의 제1 예측 특성 값 및 소스 분자의 제2 예측 특성 값을 계산할 수 있다. 다음으로, 예측 특성 평균과 제1 예측 특성 값의 차이인 제1 차이 값 및 예측 특성 평균과 제2 예측 특성 값의 차이인 제2 차이 값을 계산하고, 제1 차이 값 및 제2 차이 값의 부호를 기초로 소스 분자와 타겟 분자의 예측되는 특성의 유사 여부를 결정할 수 있다.
보다 상세하게는, 예측 특성 분포의 평균인 μ를 계산하고, 소스 분자
Figure pat00003
와 μ의 예측 특성 차이(즉, Φ(
Figure pat00004
) - μ) 및 분자 데이터 세트에서 타겟 분자
Figure pat00005
의 예측 특성과 μ의 차이(즉, Φ(
Figure pat00006
) - μ)를 계산할 수 있다. 만약 두 차이점의 부호가 동일하면 소스 분자와 대상 분자가 유사한 예측 특성을 갖는 것으로 간주할 수 있다. 반대로 두 차이점의 부호가 다르다면 소스 분자와 대상 분자는 상이한 예측 특성을 가질 것이다. 대안적으로, 타겟 분자
Figure pat00007
의 예측 특성과 μ의 차이에 소스 분자
Figure pat00008
와 μ의 예측 특성 차이를 곱한 값이 양수인 경우 소스 분자와 대상 분자가 유사한 예측 특성을 갖는 것으로 간주할 수 있다. 본 개시의 분자 특성 예측 모델은 분자가 왜 높은 특성 값을 갖는지 설명하는 것이 아니라 분자가 높은 특성 값을 가질 것으로 예측되는 이유를 설명하기 위해, 분자 데이터 세트의 실제(real) 값이 아니라 예측된(predicted) 값을 사용할 수 있다.
단계 S304에서, 노드 임베딩된 소스 분자의 노드와 노드 임베딩된 타겟 분자의 노드를 기초로 소스 분자와 타겟 분자간에 유사한 원자의 존재 여부를 결정할 수 있다. 임베딩 공간(embedding space)에서 각 노드는 대응되는 가중치를 가지며 동일한 분자에 대한 모든 노드의 가중치 합은 1이다. 일 실시 예에 따르면, 그래프의 노드 임베딩의 전체 분포를 고려하여 한 그래프의 노드에서 다른 그래프까지의 거리를 계산하기 위해 최적 운송 이론(optimal transport theory)을 사용할 수 있으며, 최적 운송 거리(Optimal Transportation Distance)를 사용하여 유사한 노드의 존재를 확인할 수 있다.
최적 운송 이론에서 최적의 운송 거리는 집단 크기가 각각 nr 및 nc 인 두 분포 r 및 c의 매개변수화된 거리이다. 분포 r과 c 사이의 최적의 운송 거리를 계산하려면 r의 각 요소로부터 c의 각 요소까지의 코스트 행렬 M (그라운드 메트릭(ground metric)이라고도 함)이 필요하다. M의 각 요소 mij는 r의 i를 c의 j으로 이동하는 데 필요한 노력(effort)을 나타낸다. 코스트 행렬 M이 주어졌을 때 r과 c, dM(r, c) 사이의 최적 운송 거리와 이에 대응하는 nr x nc 최적 운송 계획 행렬 P는 다음 수학식 2와 같이 정의될 수 있다.
Figure pat00009
여기서 <P, M>은 두 행렬 P와 M 사이의 프로베니우스 내적(Frobenius inner product)이다. 수학식 2를 통해 최적 운송 거리 dM(r, c)와 최적 운송 계획 행렬(또는 결합 확률) P를 동시에 정량화 할 수 있다. P의 각 요소(element) pij는 r에서 c까지의 전체 운송 거리가 최소, 즉 최적 운송 거리일 때 r의 i가 c의 j로 이동할 확률을 나타낸다. 그러면 r의 각 요소에서 c까지의 총 운송 거리는 다음 수학식 3과 같이 계산할 수 있다.
Figure pat00010
여기서 °는 아다마르 곱(Hadamard product)을 나타내고, 1은 nr x 1 행 합(row sum) 행렬이고, drc는 nr x 1 행렬이며, 각 요소는 행렬(M °P)의 행 합이다. drc의 각 요소는 r에서 i의 c의 요소들까지의 총 운송 거리를 나타낸다.
본 개시의 일 실시 예에 따라, 소스 분자의 노드 각각의 타겟 분자의 노드 각각에 대한 코스트(cost)를 계산하고, 소스 분자의 노드 각각에 대해 계산된 코스트를 합할 수 있다. 그리고 코스트의 합이 최소가 되는 소스 분자의 노드에 대한 가중치 집합을 계산하여, 이를 기초로 소스 분자와 타겟 분자 간의 유사한 원자를 결정할 수 있다. 예를 들어, 코스트를 최적화하는 가중치 집합에서 가중치 값이 가장 큰 가중치를 포함하는 노드에 대응되는 원자를 유사한 원자로 결정할 수 있다.
단계 S305에서, 예측되는 특성의 유사 여부와 유사한 원자의 존재 여부에 기초하여, 임의의 분자의 분자 그래프 구조를 기초로 해당 분자의 특성을 예측할 수 있다. 일 실시 예에 따르면, 분자 그래프 구조를 기초로 예측되는 분자 특성을 설명하기 위한 제2 모델을 통해 임의의 분자에 대한 분자 특성 예측을 설명할 수 있다. 일 실시 예에 따르면, 제2 모델은 본 개시의 분자 특성 예측을 설명하기 위한 모델로서 EGSAR 모델을 포함할 수 있다.
표 1은 본 개시의 일 실시 예에 따른 분자 특성 예측 모델의 동작을 나타낸 알고리즘이다.
Figure pat00011
일 실시 예에 따른 분자 특성 예측 모델은, 관심 그래프
Figure pat00012
, GNN 훈련에 사용되는 그래프 세트
Figure pat00013
, 훈련된 GNN
Figure pat00014
및 싱크혼(Sinkhorn) 알고리즘의 하이퍼파라미터 λ을 입력 값으로 하여 노드 중요도 스코어
Figure pat00015
을 출력한다.
먼저,
Figure pat00016
의 초기값을 0으로 설정하여, 노드 임베딩 값
Figure pat00017
,
Figure pat00018
Figure pat00019
의 그래프
Figure pat00020
에 대한 예측 값
Figure pat00021
,
Figure pat00022
Figure pat00023
를 통해 계산하고,
Figure pat00024
Figure pat00025
Figure pat00026
를 통해 컴퓨팅한다.
Figure pat00027
에 포함된
Figure pat00028
에 대해
Figure pat00029
를 통해
Figure pat00030
Figure pat00031
를 컴퓨팅한 뒤,
Figure pat00032
의 평균과 표준편차
Figure pat00033
Figure pat00034
를 컴퓨팅한다.
다음으로
Figure pat00035
에 포함된
Figure pat00036
에 대해
Figure pat00037
Figure pat00038
로 정규화하고,
Figure pat00039
Figure pat00040
간의 코스트 행렬
Figure pat00041
를 컴퓨팅한다. 그리고 싱크혼 알고리즘을 이용하여 최적 수송 계획
Figure pat00042
를 컴퓨팅하고,
Figure pat00043
의 노드에서
Figure pat00044
까지의 거리
Figure pat00045
를 컴퓨팅한다. 마지막으로 스코어를 누산하여
Figure pat00046
값을 구할 수 있다.
보다 상세한 알고리즘 동작은 다음과 같다. 먼저, 훈련된 그래프 신경망의 모든 그래프 네트워크 블록을 통해 그래프를 전달하고, 예측을 만드는 데 사용되는 각 그래프의 최종 노드 임베딩을 분포에 일치시킬 수 있다. 그래프
Figure pat00047
의 경우
Figure pat00048
의 최종 노드 임베딩 그룹은
Figure pat00049
에 의해 nr x d 행렬로 표현되며, 여기서 nr
Figure pat00050
의 노드 수이고 d는 최종 노드 임베딩의 차원을 나타낸다. 그래프 신경망 모델 훈련에 사용되는 그래프 세트
Figure pat00051
의 그래프
Figure pat00052
에 대해
Figure pat00053
의 노드 임베딩 그룹은
Figure pat00054
에 의해 nc x d 행렬로 표현될 수 있다.
Figure pat00055
Figure pat00056
사이의 최적 운송 거리를 계산하려면
Figure pat00057
Figure pat00058
사이의 코스트 행렬
Figure pat00059
가 필요하다.
Figure pat00060
Figure pat00061
사이의 제곱 유클리드 거리를 사용하여
Figure pat00062
를 다음 수학식 4와 같이 계산할 수 있다.
Figure pat00063
여기서
Figure pat00064
는 nr x nc 행렬이다.
Figure pat00065
의 각 요소 mij
Figure pat00066
,
Figure pat00067
에 있는 노드 i 및
Figure pat00068
,
Figure pat00069
에 있는 노드 j의 d차원 임베딩 벡터 사이의 유클리드 거리 제곱이다.
일 실시 예에 따르면, 정확한 솔버(solver)로 수학식 2를 푸는 코스트는 O(d3log(d))보다 클 수 있다. 여기서 d는 분포의 차원이다. 그래프 신경망 모델에서 사용되는 노드 임베딩의 차원은 일반적으로 수백 차원이며 정확한 솔버를 사용하여 노드 임베딩 간의 최적 운송 거리를 계산하는 것은 매우 시간이 많이 소요될 수 있다. 이를 해결하기 위해 싱크혼 알고리즘을 사용하여
Figure pat00070
Figure pat00071
사이의 최적 운송 거리를 계산할 수 있다. 이 알고리즘은 추가 엔트로피 정규화 항을 활용하고 최적의 운송 거리에 대한 속도 향상 계산을 제공한다.
싱크혼 알고리즘에서 코스트 행렬
Figure pat00072
가 주어지면 최적 운송 거리
Figure pat00073
및 이에 대응하는
Figure pat00074
Figure pat00075
사이의 최적 운송 계획
Figure pat00076
는 다음의 수학식 5 및 6을 통해 계산될 수 있다.
Figure pat00077
Figure pat00078
여기서 Ω(P)는 P의 엔트로피이고, λ는 엔트로피 정규화 항에 대한 하이퍼 파라미터이며 λ > 0 값을 갖는다. 코스트 행렬
Figure pat00079
는 M을 정규화하도록 권장되기 때문에 그의 최대값 max(
Figure pat00080
)으로 나누어진다.
그런 다음
Figure pat00081
Figure pat00082
를 사용하여
Figure pat00083
의 노드에서
Figure pat00084
까지의 총 운송 거리를 다음의 수학식 7과 같이 계산할 수 있다.
Figure pat00085
여기서 °는 아다마르 곱을 나타내고, 1은 nr x 1 행 합 행렬,
Figure pat00086
는 요소가 행렬
Figure pat00087
°
Figure pat00088
의 행 합인 nr x 1 행렬이다.
Figure pat00089
의 각 요소는
Figure pat00090
의 각 노드에서
Figure pat00091
의 노드까지의 운송 거리의 합을 나타낸다.
일 실시 예에 따르면, 본 개시의 특성 예측 모델을 통해 두 그래프
Figure pat00092
Figure pat00093
의 그래프 신경망 예측 값인
Figure pat00094
Figure pat00095
가 유사한지 여부를 결정하기 위한 측정값을 그래프 신경망 모델을 통해 정의할 수 있다. 이를 위해 그래프 신경망 훈련에 사용되는 그래프의 예측 값 집합
Figure pat00096
를 고려할 수 있다.
2개의 예측값
Figure pat00097
Figure pat00098
를 훈련에 사용된 그래프의 예측값 분포를 기반으로 정규화 한 후 정규화 된 두 값을 비교할 수 있다. 특히 분자적 성질은 때때로 정규분포와 유사한 분포를 따르기 때문에 z-스코어 정규화를 사용할 수 있다.
Figure pat00099
의 평균과 표준편차
Figure pat00100
Figure pat00101
를 사용하여
Figure pat00102
Figure pat00103
의 정규화된 스코어인
Figure pat00104
Figure pat00105
를 다음 수학식 8과 같이 계산할 수 있다.
Figure pat00106
그런 다음
Figure pat00107
Figure pat00108
를 비교할 수 있다.
Figure pat00109
Figure pat00110
의 부호가 같으면 두 그래프의 예측을 유사한 것으로 간주하고, 부호가 다르면 유사하지 않은 것으로 간주한다. 이러한 정규화는 훈련 데이터의 분포나 작업의 목표에 따라 다른 정규화 기술로 대체될 수 있을 것이다.
다음으로 일 실시 예에 따른 특성 예측 모델을 통해 그래프
Figure pat00111
의 노드에 대한 스코어
Figure pat00112
Figure pat00113
,
Figure pat00114
Figure pat00115
를 사용하여 다음 수학식 9와 같이 계산할 수 있다.
Figure pat00116
여기서 ·는 스칼라 곱셈이고
Figure pat00117
은 nr x 1 행렬이다.
수학식 9의 최종 스코어 행렬
Figure pat00118
의 각 요소는 그래프
Figure pat00119
에 있는 노드 i의 그래프의 예측 값
Figure pat00120
에 대한 중요도 스코어이며, 훈련에 사용된 그래프의 예측 값들을 검토한 누적 효과를 나타낸다.
Figure pat00121
의 노드에서
Figure pat00122
까지의 거리 행렬
Figure pat00123
의 각 요소는 해당 노드와 유사한 노드가
Figure pat00124
에 존재하는지 여부를 나타낸다.
Figure pat00125
의 그래프의 정규화된 예측값
Figure pat00126
은 일 실시 예에 따른 특성 예측 모델로 하여금 관심 그래프
Figure pat00127
의 예측값이
Figure pat00128
와 유사한지 여부를 결정할 뿐만 아니라 예측값 간의 유사성 규모도 고려할 수 있다.
Figure pat00129
은 하나의 그래프에 대해 항상 동일하므로, 하나의 그래프에서 노드의 중요성을 정량화할 경우에는 필요 없지만 관심 있는 여러 그래프를 분석하는 데 사용될 수 있다. 예를 들어, 큰 양수의
Figure pat00130
을 갖는 그래프에서 노드의 중요도 스코어는 작은 양수의
Figure pat00131
을 갖는 그래프의 노드 스코어보다 상대적으로 크다. 수학식 9에서는 중요한 노드가 큰 양의 값을 갖도록 하기 위해 -1을 곱하였다. 그래프
Figure pat00132
의 노드 i가 예측값이 유사한 그래프와의 거리가 작고. 예측값이 다른 그래프와의 거리가 크면 높은 스코어를 획득할 수 있다.
본 개시의 분자 특성 예측 모델은 공개 데이터 세트를 통해 그 예측 성능을 테스트 할 수 있다. 일 예로 Google Research 에서 2020년 공개한 그래프 설명 성능 데이터 세트를 이용하여 본 개시의 분자 특성 예측 모델의 성능을 테스트 할 수 있다. 표 2는 4가지의 그래프 신경망 종류(GCN, GAT, MPNN, Graph Net)와 본 개시의 일 실시 예에 따른 방법론(EGSAR(OT), 최적 운송 거리 적용 버전)을 조합하여 분자 특성 예측에 대한 설명 성능을 테스트한 결과를 나타낸다.
표 2의 테스트에서는 5가지 예측 설명 성능 테스트 세트로서, "Benzene" 구조 존재 예측, "Amine & Ether & Benzene" 구조 존재 예측, "Fluoride & Carbonyl" 구조 존재 예측, "unbranched alkane & carbonyl" 구조 존재 예측 및 logP 예측을 이용하였다. 이러한 5가지의 예측 설명 성능 테스트 세트와 앞서 설명한 4가지의 그래프 신경망 종류의 조합에 따른 20개의 조합에 대해, 기존 다른 방법론들(Random Baseline, GradInput, GradCAM-last, SmoothGrad(GI), GradCAM-all, IG, CAM, EGSAR(ED, 최적 운송 거리 적용 없이, 유클리드 거리만 적용한 버전)과 본 개시의 일 실시 예에 따른 방법론(EGSAR(OT))의 평균 성능을 비교하였다. 표 2에서는, 특성 예측 설명 방법론들(표 2에서 Attribution Method 열)에 대한 평균 성능 순위(표 2에서 Average rank 열) 및 가장 높은 성능의 그래프 신경망과의 조합 시 평균 성능 순위(표 2에서 Average rank (best case) 열)를 나타낸다. 표 2는 본 개시의 일 실시 예에 따른 방법론(EGSAR(OT))이 기존의 방법론과 비교했을 때 평균적으로 가장 우수한 성능을 보이는 것을 보여준다. 또한, 최적 운송 거리를 사용할 시 유클리드 거리를 사용하는 것보다 성능이 높아지는 것을 확인할 수 있다.
Attribution Method Average rank Average rank (best case)
Random Baseline 7.18 8.80
GradInput 6.68 7.10
GradCAM-last 6.20 5.40
SmoothGrad(GI) 6.15 6.30
GradCAM-all 6.02 6.00
IG 3.05 4.00
CAM 2.95 2.00
EGSAR(ED) 4.05 3.60
EGSAR(OT) 2.72 1.80
본 개시의 분자 특성 예측 모델은 실제 분자 데이터 세트에 적용될 수 있다. 일 예로, 용해도 및 친유성에 대한 구조적 관계가 잘 알려져 있는 FreeSolv 및 친유성(Lipophilicity)이라는 두 가지 데이터 세트와 ChEMBL27의 표피 성장 인자 수용체(EGFR, ChEMBL ID: CHEMBL203)의 생물학적 활성에 대한 데이터 세트를 고려할 수 있다. EGFR 단백질은 가장 실험적인 데이터를 가지고 있는 단백질 중 하나이며, 분자의 어느 부분이 단백질과 상호작용하는 데 중요한지를 나타내는 분자단백질 복합체의 X-선 구조를 가지고 있다. EGFR에 대한 생물학적 활성을 측정하기 위한 다양한 데이터 유형 중 IC50를 선택하고 IC50 값을 pIC50로 변환한다. 이러한 세 가지 데이터 세트의 통계를 표 3에서 확인할 수 있다.
표 3에서는 그래프 신경망 모델 훈련에 사용되는 분자 데이터의 개수(표 3에서 Training 열), 그 중 테스트의 대상이 되는 타겟 분자의 개수(표 3에서 Test 열), 분자 데이터 세트의 예측된 특성의 평균과 표준편차(표 3에서 μ 및 σ 열)를 포함한다.
Data Set Training Test μ σ
FreeSolv 628 14 -3.81 3.85
Lipophilicity 4,182 18 2.19 1.20
EGFR (CHEMBL) 3,667 2 6.85 1.36
도 4는 일 실시 예에 따른 FreeSolv 특성의 예측 결과를 나타낸 도면이다.
일 실시 예에 따라, 분자 데이터 세트의 수화 자유 에너지 분포를 고려하여 FreeSolv 데이터 세트에서 14개의 분자를 무작위로 샘플링할 수 있다. 그런 다음 분자 데이터 세트 내의 다른 분자로 훈련된 D-MPNN을 사용하여, 무작위로 샘플링된 분자의 수화 자유 에너지를 예측하고, 예측값과 실험값의 비교를 통해 본 개시의 분자 특성 예측 모델이 특성을 잘 예측하는지 여부를 확인할 수 있다.
도 4를 참조하면, 제1 그래프(410)는 분자 데이터 세트의 수화 자유 에너지 분포를 도시하고, 제2 그래프(420)는 특성에 대한 실험값과 예측값을 도시한다. 제1 분자 구조들(430)에서는 특성 예측값이 낮은 4개 분자의 예를 나타내고, 제2 분자 구조들(440)에서는 특성 예측값이 높은 4개 분자의 예를 나타낸다. 제1 분자 구조들(430)에서 등고선으로 표시된 부분은 가중치가 음수인 원자를 나타내고 가중치가 양수인 원자는 표시되지 않았다. 제2 분자 구조들(440)에서 등고선으로 표시된 부분은 가중치가 양수인 원자를 나타내고 가중치가 음수인 원자는 표시되지 않았다.
제1 분자 구조들(430)과 제2 분자 구조들(440)을 비교하면, 특성 예측값이 높은 분자들에 대해 수화 자유 에너지에 주요 기여를 하는 산소가 높은 가중치를 갖는 것을 확인할 수 있다. 또한, 특성 예측값이 낮은 분자들에 대해서는 융합 고리 구조에 낮은 가중치가 할당되는 것을 확인할 수 있다. 이와 같이, 융합된 고리 구조의 대부분은 다른 부착된 원자와 함께 낮은 특성 예측값을 갖는 분자에 존재한다.
도 5는 일 실시 예에 따른 친유성 특성의 예측 결과를 나타낸 도면이다.
일 실시 예에 따라, 분자 데이터 세트의 수화 자유 에너지 분포를 고려하여 친유성 데이터 세트에서 18개의 분자를 무작위로 샘플링할 수 있다. 그런 다음 분자 데이터 세트 내의 다른 분자로 훈련된 D-MPNN을 사용하여, 무작위로 샘플링된 분자의 logD 값을 예측하고, 예측값과 실험값의 비교를 통해 본 개시의 분자 특성 예측 모델이 특성을 잘 예측하는지 여부를 확인할 수 있다.
도 5를 참조하면, 제1 그래프(510)는 분자 데이터 세트의 logD 값을 도시하고, 제2 그래프(520)는 특성에 대한 실험값과 예측값을 도시한다. 제1 분자 구조들(530)에서는 특성 예측값이 낮은 4개 분자의 예를 나타내고, 제2 분자 구조들(540)에서는 특성 예측값이 높은 4개 분자의 예를 나타낸다. 제1 분자 구조들(530)에서 등고선으로 표시된 부분은 가중치가 음수인 원자를 나타내고, 가중치가 양수인 원자는 표시되지 않았다. 제2 분자 구조들(540)에서 등고선으로 표시된 부분은 가중치가 양수인 원자를 나타내고, 가중치가 음수인 원자는 표시되지 않았다.
제1 분자 구조들(530)과 제2 분자 구조들(540)을 비교하면, 특성 예측값이 높은 분자들에 대해 대부분의 고리 구조가 높은 가중치를 갖는 것을 확인할 수 있다. 또한, 특성 예측값이 낮은 분자들에 대해서는 아민형 sp3 질소에 낮은 가중치가 할당되는 것을 확인할 수 있다.
도 6은 일 실시 예에 따른 EGFR에 대한 생물학적 활성의 예측 결과를 나타낸 도면이다.
일 실시 예에 따라, EGFR 단백질을 억제하는 2개의 승인된 약물인 엘로티닙(erlotinib)과 라파티닙(lapatinib)을 타겟 분자로서 선택한다. 이들 약물은 어느 원자 부분이 EGFR 단백질과 상호작용하는 데 필수적인 역할을 하는지 잘 알려져 있다. 본 개시의 분자 특성 예측 모델을 이용하여 각 약물의 pIC50을 예측하고 특성에 대응되는 하위 구조를 식별할 수 있다.
비교를 위해 CoGE도 엘로티닙과 라파티닙을 타겟 분자로서 특성 예측을 수행한다. CoGE은 연속적인 pIC50 값에 대해 특성 값을 두 개의 임계값이 있는 이진(활성/비활성) 입력으로 변환할 수 있다. 예를 들어, pIC50 값이 특성 평균(6.85)보다 크면 활성으로, 평균보다 작으면 비활성으로 판단할 수 있다. 대안적으로, pIC50 값이 7보다 크면 활성, 6보다 작으면 비활성인 것으로 판단할 수도 있다.
도 6을 참조하면, 양수의 가중치를 가진 원자는 등고선으로 표시되고 음수 가중치는 표시되지 않는다. 제1 분자 구조들(610)은 엘로티닙과 라파티닙 각각에 대하여 본 개시의 분자 특성 예측 모델(예를 들어, EGSAR)을 이용하여 EGFR에 대한 생물학적 활성에 연관된 원자 구조를 추론한 것이다. 그리고 제2 분자 구조들(620)은 엘로티닙과 라파티닙 각각에 대하여 대조군인 CoGE를 이용하여 EGFR에 대한 생물학적 활성에 연관된 원자 구조를 추론한 것이다. 제1 분자 구조들(610)에서 사각 박스(611 및 612) 안에 도시된 원자 구조는 생물학적 활성과 관련된 것이다. 제2 분자 구조들(620)에서 사각 박스(621 및 622) 안의 영역은 생물학적 활성이 아니라 용해도와 관련이 있는 것이다. 즉, 본 개시의 분자 특성 예측 모델이 생물학적 활성과 관련된 원자 구조에 대해 높은 가중치를 도출해 낸다는 것을 확인할 수 있다.
일 실시 예에 따르면, 본 개시의 분자 특성 예측 모델이 연속적인 특성 값을 가진 분자 데이터 세트에 적용되어 특성 예측을 위해 분자의 중요한 부분을 식별할 수 있으므로, 신약 개발을 위한 생성 모델과 추가적으로 결합될 수도 있다.
도 7은 일 실시 예에 따른 분자 특성 예측 장치(700)를 도식화한 블록도이다. 일 실시 예에 따르면, 장치(700)는 저장부(710)와 적어도 하나의 프로세서를 포함하는 제어부(720)를 포함할 수 있다.
저장부(710)는 분자 데이터 세트와 같이 분자에 관한 정보를 저장하도록 구성되며, 프로그램 데이터를 저장하고 실행할 수 있다. 제어부(720)는 분자 데이터 세트에서 하나 이상의 제1 분자에 대한 데이터를 획득하고, 소스 분자에 포함된 원자 및 제1 분자에 포함된 원자에 대해 노드 임베딩을 수행할 수 있다. 그리고 제어부(720)는 제1 모델을 통해 소스 분자와 제1 분자간에 예측되는 특성의 유사 여부를 결정하고, 노드 임베딩된 소스 분자의 노드와 노드 임베딩된 제1 분자의 노드를 기초로 소스 분자와 제1 분자간에 유사한 원자의 존재 여부를 결정할 수 있다. 그리고 제어부(720)는 예측되는 특성의 유사 여부와 유사한 원자의 존재 여부를 기초로, 분자 그래프 구조를 기초로 분자의 특성을 예측하기 위한 제2 모델을 활용할 수 있다.
도 7의 분자 특성 예측 장치(700)는 예시적인 것이며, 저장부(710) 및 제어부(720) 외에 다른 구성요소를 더 포함할 수 있다. 또한, 장치(700)는 구성요소를 통해 전술한 실시 예들을 실시할 수 있다.
한편, 본 명세서와 도면에는 본 발명의 바람직한 실시 예에 대하여 개시하였으며, 비록 특정 용어들이 사용되었으나, 이는 단지 본 발명의 기술 내용을 쉽게 설명하고 발명의 이해를 돕기 위한 일반적인 의미에서 사용된 것이지, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시 예 외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명한 것이다.

Claims (13)

  1. 분자 데이터 세트에서 하나 이상의 제1 분자에 대한 데이터를 획득하는 단계;
    소스 분자에 포함된 원자 및 상기 제1 분자에 포함된 원자에 대해 노드 임베딩(node embedding)을 수행하는 단계;
    제1 모델을 통해 상기 소스 분자와 상기 제1 분자간에 예측되는 특성(predicted property)의 유사 여부를 결정하는 단계;
    노드 임베딩된 상기 소스 분자의 노드와 노드 임베딩된 상기 제1 분자의 노드를 기초로 상기 소스 분자와 상기 제1 분자간에 유사한 원자의 존재 여부를 결정하는 단계; 및
    상기 예측되는 특성의 유사 여부와 상기 유사한 원자의 존재 여부를 기초로, 제2 분자의 분자 그래프 구조를 기초로 상기 제2 분자의 특성을 예측하는 단계를 포함하는, 분자 특성 예측 방법.
  2. 제1항에 있어서,
    상기 제1 모델은 그래프 신경망(Graph Neural Network)을 포함하며,
    상기 분자 데이터 세트는 복수 개의 분자의 분자 구조 및 특성 값에 대한 데이터를 포함하고, 상기 그래프 신경망은 상기 분자 데이터 세트를 기초로 학습된 모델인, 분자 특성 예측 방법.
  3. 제1항에 있어서,
    상기 예측되는 특성의 유사 여부를 결정하는 단계는:
    상기 제1 모델을 통해, 상기 분자 데이터 세트에 포함된 복수의 분자에 대한 상기 예측되는 특성의 강도를 나타내는 예측 특성 분포를 생성하는 단계;
    상기 예측 특성 분포를 기초로 상기 분자 데이터 세트의 예측 특성 평균을 계산하는 단계;
    상기 제1 모델을 통해 상기 제1 분자의 제1 예측 특성 값 및 상기 소스 분자의 제2 예측 특성 값을 계산하는 단계;
    상기 예측 특성 평균과 상기 제1 예측 특성 값의 차이인 제1 차이 값 및 상기 예측 특성 평균과 상기 제2 예측 특성 값의 차이인 제2 차이 값을 계산하는 단계;
    상기 제1 차이 값 및 상기 제2 차이 값의 부호를 기초로 상기 예측되는 특성의 유사 여부를 결정하는 단계를 포함하는, 분자 특성 예측 방법.
  4. 제3항에 있어서,
    상기 예측되는 특성의 유사 여부를 결정하는 단계는, 상기 제1 차이 값 및 상기 제2 차이 값의 부호가 동일한 경우 상기 예측되는 특성이 유사한 것으로 판단하는, 분자 특성 예측 방법.
  5. 제3항에 있어서,
    상기 예측되는 특성의 유사 여부를 결정하는 단계는, 상기 제1 차이 값과 상기 제2 차이 값을 곱한 값이 양수인 경우 상기 예측되는 특성이 유사한 것으로 판단하는, 분자 특성 예측 방법.
  6. 제1항에 있어서,
    상기 노드 임베딩에 따른 노드 각각은 대응되는 가중치를 포함하는, 분자 특성 예측 방법.
  7. 제6항에 있어서,
    상기 유사한 원자의 존재 여부를 결정하는 단계는:
    상기 소스 분자의 노드 각각의 상기 제1 분자의 노드 각각에 대한 코스트를 계산하는 단계;
    상기 소스 분자의 노드 각각에 대해 계산된 상기 코스트를 합하는 단계;
    상기 코스트의 합이 최소가 되는 상기 소스 분자의 노드에 대한 가중치 집합을 계산하는 단계; 및
    상기 가중치 집합을 기초로 유사한 원자를 결정하는 단계를 포함하는, 분자 특성 예측 방법.
  8. 제7항에 있어서,
    상기 코스트의 합은 최적 운송 거리(optimal transportation distance)를 이용하여 계산되는, 분자 특성 예측 방법.
  9. 제7항에 있어서,
    상기 코스트는 상기 소스 분자의 노드에 대응되는 가중치에 상기 소스 분자의 노드와 상기 제1 분자의 노드 사이의 거리를 곱한 값에 대응되는, 분자 특성 예측 방법.
  10. 제9항에 있어서,
    상기 소스 분자의 노드와 상기 제1 분자의 노드 사이의 거리는 유클리드 노름(Euclidean norm)을 사용하여 계산되는, 분자 특성 예측 방법.
  11. 제7항에 있어서,
    상기 가중치 집합을 기초로 유사한 원자를 결정하는 단계는, 상기 가중치 집합에서 가중치 값이 가장 큰 가중치를 포함하는 노드에 대응되는 원자를 상기 유사한 원자로 결정하는, 분자 특성 예측 방법.
  12. 분자 특성 예측 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 비일시적 기록매체로서, 상기 분자 특성 예측 방법은:
    분자 데이터 세트에서 하나 이상의 제1 분자에 대한 데이터를 획득하는 단계;
    소스 분자에 포함된 원자 및 상기 제1 분자에 포함된 원자에 대해 노드 임베딩(node embedding)을 수행하는 단계;
    제1 모델을 통해 상기 소스 분자와 상기 제1 분자간에 예측되는 특성(predicted property)의 유사 여부를 결정하는 단계;
    노드 임베딩된 상기 소스 분자의 노드와 노드 임베딩된 상기 제1 분자의 노드를 기초로 상기 소스 분자와 상기 제1 분자간에 유사한 원자의 존재 여부를 결정하는 단계; 및
    상기 예측되는 특성의 유사 여부와 상기 유사한 원자의 존재 여부를 기초로, 제2 분자의 분자 그래프 구조를 기초로 상기 제2 분자의 특성을 예측하는 단계를 포함하는, 컴퓨터 판독 가능한 비일시적 기록매체.
  13. 원자 구조를 기초로 분자 특성을 예측하는 전자 장치에 있어서, 상기 전자 장치는,
    분자 데이터 세트를 저장하는 저장부; 및
    적어도 하나의 프로세서를 포함하는 제어부를 포함하고, 상기 제어부는,
    상기 분자 데이터 세트에서 하나 이상의 제1 분자에 대한 데이터를 획득하고,
    소스 분자에 포함된 원자 및 상기 제1 분자에 포함된 원자에 대해 노드 임베딩(node embedding)을 수행하고,
    제1 모델을 통해 상기 소스 분자와 상기 제1 분자간에 예측되는 특성(predicted property) 의 유사 여부를 결정하고,
    노드 임베딩된 상기 소스 분자의 노드와 노드 임베딩된 상기 제1 분자의 노드를 기초로 상기 소스 분자와 상기 제1 분자간에 유사한 원자의 존재 여부를 결정하고,
    상기 예측되는 특성의 유사 여부와 상기 유사한 원자의 존재 여부를 기초로, 제2 분자의 분자 그래프 구조를 기초로 상기 제2 분자의 특성을 예측하는 전자 장치.
KR1020220012352A 2021-02-04 2022-01-27 원자 구조를 이용한 분자 특성 예측 방법 및 이를 위한 장치 KR20220112692A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20210016359 2021-02-04
KR1020210016359 2021-02-04

Publications (1)

Publication Number Publication Date
KR20220112692A true KR20220112692A (ko) 2022-08-11

Family

ID=82803114

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220012352A KR20220112692A (ko) 2021-02-04 2022-01-27 원자 구조를 이용한 분자 특성 예측 방법 및 이를 위한 장치

Country Status (1)

Country Link
KR (1) KR20220112692A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102579279B1 (ko) 2022-12-26 2023-09-14 충남대학교산학협력단 자연어 처리 모델을 이용한 신약 후보물질의 약리학적 성질 예측 방법
WO2024085562A1 (ko) * 2022-10-19 2024-04-25 주식회사 엘지화학 고분자 그래프 신경망 및 그 구현 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024085562A1 (ko) * 2022-10-19 2024-04-25 주식회사 엘지화학 고분자 그래프 신경망 및 그 구현 방법
KR102579279B1 (ko) 2022-12-26 2023-09-14 충남대학교산학협력단 자연어 처리 모델을 이용한 신약 후보물질의 약리학적 성질 예측 방법

Similar Documents

Publication Publication Date Title
Chen et al. Negative samples reduction in cross-company software defects prediction
US10622098B2 (en) Systems and methods for predicting chemical reactions
Sanyal et al. ProteinGCN: Protein model quality assessment using graph convolutional networks
US8898093B1 (en) Systems and methods for analyzing data using deep belief networks (DBN) and identifying a pattern in a graph
KR20220112692A (ko) 원자 구조를 이용한 분자 특성 예측 방법 및 이를 위한 장치
Aguilera-Mendoza et al. Automatic construction of molecular similarity networks for visual graph mining in chemical space of bioactive peptides: an unsupervised learning approach
US20210182602A1 (en) Flexible imputation of missing data
Chu et al. Hierarchical graph representation learning for the prediction of drug-target binding affinity
CN111627494B (zh) 基于多维特征的蛋白质性质预测方法、装置和计算设备
Chiu Combining techniques for software quality classification: An integrated decision network approach
de Andrade Silva et al. An experimental study on the use of nearest neighbor-based imputation algorithms for classification tasks
Benatia et al. Machine learning approach for the predicting performance of SpMV on GPU
Das et al. Predicting anatomical therapeutic chemical drug classes from 17 molecules’ properties of drugs by multi-label binary relevance approach with mlsmote
Harari et al. Automatic features generation and selection from external sources: a DBpedia use case
Liu et al. Towards accurate subgraph similarity computation via neural graph pruning
Dodds et al. Sample efficient reinforcement learning with active learning for molecular design
Dehmer et al. A comparative analysis of the Tanimoto index and graph edit distance for measuring the topological similarity of trees
CN114678083A (zh) 一种化学品遗传毒性预测模型的训练方法及预测方法
Chowdhury et al. Detection of Sars-Cov-2 from human chest CT images in Multi-Convolutional Neural Network’s environment
Raghava et al. Machine learning methods for software defect prediction a revisit
Lau et al. Drug repurposing for Leishmaniasis with Hyperbolic Graph Neural Networks
Parikh et al. Deep learning based automated chest X-ray abnormalities detection
Mekni et al. Encoding Protein-Ligand Interactions: Binding Affinity Prediction with Multigraph-based Modeling and Graph Convolutional Network
Wei Exploring Machine Learning Applications to Enable Next-Generation Chemistry
Wu et al. Instructbio: A large-scale semi-supervised learning paradigm for biochemical problems

Legal Events

Date Code Title Description
E902 Notification of reason for refusal