KR20200129130A - 약물 발견에 대한 애플리케이션 및 분자 시뮬레이션에 의한 공간 그래프 컨볼루션을 위한 시스템 및 방법 - Google Patents

약물 발견에 대한 애플리케이션 및 분자 시뮬레이션에 의한 공간 그래프 컨볼루션을 위한 시스템 및 방법 Download PDF

Info

Publication number
KR20200129130A
KR20200129130A KR1020207028478A KR20207028478A KR20200129130A KR 20200129130 A KR20200129130 A KR 20200129130A KR 1020207028478 A KR1020207028478 A KR 1020207028478A KR 20207028478 A KR20207028478 A KR 20207028478A KR 20200129130 A KR20200129130 A KR 20200129130A
Authority
KR
South Korea
Prior art keywords
graph
molecules
spatial
convolutions
neural networks
Prior art date
Application number
KR1020207028478A
Other languages
English (en)
Inventor
에반 나다니엘 페인버그
비제이 사티아난드 판데
바라스 람선다
Original Assignee
더 보드 어브 트러스티스 어브 더 리랜드 스탠포드 주니어 유니버시티
더 보드 어브 트러스티스 어브 더 리랜드 스탠포드 주니어 유니버시티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 더 보드 어브 트러스티스 어브 더 리랜드 스탠포드 주니어 유니버시티, 더 보드 어브 트러스티스 어브 더 리랜드 스탠포드 주니어 유니버시티 filed Critical 더 보드 어브 트러스티스 어브 더 리랜드 스탠포드 주니어 유니버시티
Publication of KR20200129130A publication Critical patent/KR20200129130A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • G06N3/0481
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C10/00Computational theoretical chemistry, i.e. ICT specially adapted for theoretical aspects of quantum chemistry, molecular mechanics, molecular dynamics or the like
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Medicinal Chemistry (AREA)
  • Biotechnology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Physiology (AREA)
  • Genetics & Genomics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Peptides Or Proteins (AREA)

Abstract

본 발명의 실시 형태에 따른 공간 그래프 컨볼루션을 위한 시스템 및 방법이 예시된다. 하나의 실시 형태는 분자들에 대한 특성들을 예측하기 위한 방법을 포함하며, 여기서, 상기 방법은 분자들의 세트의 공간 그래프 표현으로 그래프 컨볼루션들의 제1 세트를 수행하되, 여기서, 상기 그래프 컨볼루션들의 제1 세트가 상기 분자들의 세트 사이의 결합에 기초하는 단계, 상기 공간 그래프 표현으로 그래프 컨볼루션들의 제2 세트를 수행하되, 여기서, 상기 그래프 컨볼루션들의 제2 세트가 적어도 상기 분자들의 세트의 각 원자와 다른 원자들 사이의 거리에 기초하는 단계, 상기 공간 그래프 표현으로 그래프 수집을 수행하여 특징 벡터를 생성하는 단계, 및 상기 특징 벡터에 기초하여 상기 분자들의 세트에 대한 하나 이상의 특성들의 세트를 예측하는 단계를 포함한다.

Description

약물 발견에 대한 애플리케이션 및 분자 시뮬레이션에 의한 공간 그래프 컨볼루션을 위한 시스템 및 방법
관련 출원에 대한 상호 참조
본 출원은 2018 년 3월 5일자로 출원된 "약물 발견에 대한 애플리케이션에 의한 공간 그래프 컨볼루션"이라는 발명의 명칭을 갖는 미국 가특허 출원 US 62/638,803의 이익과 이에 대한 우선권을 주장한다. 미국 가특허 출원 US 62/638,803의 개시 내용은 그 전체가 본 출원에 참조로 포함된다.
기술분야
본 발명은 일반적으로 분자 특성들을 예측하는 것에 관한 것이며, 보다 구체적으로는 공간 그래프 컨볼루션을 이용하여 분자 특성들을 예측하는 것에 관한 것이다.
대부분의 FDA 승인 약물은 표적 생물학적 거대 분자에 결합하여 치료학적 반응을 유도하는 작은 유기 분자이다. 일단 결합되면, 작은 분자 리간드는 다른 리간드의 결합을 억제하거나 표적의 공간 배좌 앙상블 (conformational ensemble)을 알로스테릭하게 조정한다. 따라서, 결합은 치료학적 리간드의 임의의 거동에 중요하다. 분자의 치료학적 효과를 최대화하기 위해, 목적하는 표적에 대한 이의 친화도 - 또는 결합 자유 에너지 (ΔG) - 를 최대화해야 하는 동시에, 다른 거대 분자에 대한 이의 친화도를 최소화해야 한다. 역사적으로, 과학자들은 리간드와 이의 표적을 모델링하기 위해 화학정보학적 및 구조 기반의 접근법을 모두 사용하였으며, 대부분의 기계 학습 (machine learning: ML) 접근법은 도메인 전문 지식 중심의 특징들을 사용한다.
발명의 개요
본 발명의 실시 형태에 따른 공간 그래프 컨볼루션을 위한 시스템 및 방법이 예시된다. 하나의 실시 형태는 분자들에 대한 특성들을 예측하기 위한 방법을 포함하며, 여기서, 상기 방법은 분자들의 세트의 공간 그래프 표현으로 그래프 컨볼루션들의 제1 세트를 수행하되, 여기서, 상기 그래프 컨볼루션들의 제1 세트가 상기 분자들의 세트 사이의 결합에 기초하는 단계, 상기 공간 그래프 표현으로 그래프 컨볼루션들의 제2 세트를 수행하되, 여기서, 상기 그래프 컨볼루션들의 제2 세트가 적어도 상기 분자들의 세트의 각 원자와 다른 원자들 사이의 거리에 기초하는 단계, 상기 공간 그래프 표현으로 그래프 수집을 수행하여 특징 벡터를 생성하는 단계, 및 상기 특징 벡터에 기초하여 상기 분자들의 세트에 대한 하나 이상의 특성들의 세트를 예측하는 단계를 포함한다.
추가의 실시 형태에서, 상기 방법은 상기 하나 이상의 분자들의 세트에 대한 원자 정보를 수신하기 위한 단계를 추가로 포함한다.
더 또 다른 실시 형태에서, 상기 방법은 상기 분자들의 세트의 공간 그래프 표현을 구축하기 위한 단계를 추가로 포함한다.
더 추가의 실시 형태에서, 상기 공간 그래프 표현을 구축하는 단계는 거리 행렬 및 인접 텐서 (adjacency tensor)를 생성하는 것을 포함하고, 여기서, 상기 거리 행렬은 상기 분자들의 세트의 원자들 사이의 거리를 나타내고, 상기 인접 텐서는 원자들 사이의 복수의 상이한 엣지 유형을 나타낸다.
더 또 다른 실시 형태에서, 상기 분자들의 세트는 리간드 분자 및 표적 분자를 포함하고, 여기서, 상기 거리 행렬의 행 (row)은 상기 리간드 분자 및 표적 분자의 구성원에 의해 정렬된다.
더 추가의 실시 형태에서, 상기 분자들의 세트 사이의 결합은 공유 결합을 포함한다.
또 다른 추가의 실시 형태에서, 상기 분자들의 세트 사이의 결합은 π-π 스태킹 (stacking), 수소 결합 및 소수성 접촉 중 적어도 하나를 포함한다.
더 추가의 실시 형태에서, 상기 그래프 컨볼루션들의 제2 세트는 상기 분자들의 세트 사이의 결합에 추가로 기초한다.
다시 또 다른 실시 형태에서, 상기 그래프 컨볼루션들의 제1 세트는 상기 분자들의 세트 사이의 결합들의 제1 세트에 기초하고, 상기 그래프 컨볼루션들의 제2 세트는 상기 분자들의 세트 사이의 결합들의 제2 세트에 기초한다.
다시 추가의 실시 형태에서, 상기 결합들의 제1 세트는 상기 결합들의 제2 세트의 서브 세트이다.
보다 더 또 다른 실시형태에서, 상기 그래프 컨볼루션들의 제1 세트를 수행하는 단계는 상기 그래프 컨볼루션의 각 층에서 게이트 제어 순환 단위 (gated recurrent unit: GRU) 연산을 수행하는 것을 포함한다.
보다 더 추가의 실시 형태에서, 상기 그래프 컨볼루션들의 제1 세트를 수행하는 단계는 제1 복수의 신경 네트워크들을 이용하는 것을 포함하고, 상기 복수의 신경 네트워크들의 각 신경 네트워크는 상이한 결합 유형을 위해 사용된다.
더 또 다른 추가의 실시 형태에서, 상기 그래프 컨볼루션들의 제2 세트를 수행하는 단계는 제2 복수의 신경 네트워크들을 이용하는 것을 포함하고, 상기 제1 복수의 신경 네트워크들에 대한 가중치는 상기 제2 복수의 신경 네트워크들과 공유된다.
보다 더 추가의 실시 형태에서, 상기 그래프 컨볼루션들의 제2 세트를 수행하는 단계는 제2 복수의 신경 네트워크들을 이용하는 것을 포함하고, 상기 제2 복수의 신경 네트워크들의 신경 네트워크들은 상기 분자들의 세트의 원자들 사이의 거리에 관한 거리 정보를 이용한다.
다시 더 또 다른 실시 형태에서, 상기 분자들의 세트는 리간드 분자 및 표적 분자를 포함하고, 상기 그래프 수집은 상기 리간드 분자에 대해서만 수행된다.
다시 더 추가의 실시 형태에서, 상기 특성들의 세트는, 상기 분자들의 세트의 제1 분자가 상기 분자들의 세트의 제2 분자와 결합하는지 여부를 포함한다.
본 발명의 실시 형태에 따른 공간 컨볼루션 그래프 모델들을 트레이닝시키기 위한 시스템 및 방법이 예시된다. 하나의 실시 형태는 공간 컨볼루션 그래프 모델을 트레이닝시키기 위한 방법을 포함한다. 상기 방법은, 분자들의 세트의 공간 컨볼루션 그래프 모델로 그래프 컨볼루션들의 제1 세트를 수행하되, 여기서, 상기 그래프 컨볼루션들의 제1 세트가 상기 분자들의 세트 사이의 결합에 기초하는 단계, 상기 공간 컨볼루션 그래프 모델로 그래프 컨볼루션들의 제2 세트를 수행하되, 여기서, 상기 그래프 컨볼루션들의 제2 세트가 적어도 상기 분자들의 세트의 각 원자와 다른 원자들 사이의 거리에 기초하는 단계, 상기 공간 컨볼루션 그래프 모델로 그래프 수집을 수행하는 단계, 상기 그래프 수집에 기초하여 상기 분자들의 세트에 대한 손실을 계산하는 단계, 및 상기 계산된 손실에 기초하여 상기 공간 컨볼루션 그래프 모델을 업데이트하는 단계를 포함한다.
더 또 다른 추가의 실시 형태에서, 상기 방법은 하나 이상의 신경 네트워크들의 세트를 트레이닝시켜 역장 (force field)에 대한 하나 이상의 파라미터들의 세트를 예측하기 위해 상기 공간 컨볼루션 그래프 모델의 층들을 사용하는 단계를 추가로 포함한다.
보다 더 추가의 실시 형태에서, 상기 파라미터들의 세트는 하나 이상의 특성들의 세트와 연관되고, 여기서, 상기 특성들의 세트는 전하, 결합, 각도 및 2면각 중 적어도 하나를 포함한다.
다시 더 또 다른 실시 형태에서, 상기 공간 컨볼루션 그래프 모델은 제1 공간 컨볼루션 그래프 모델이고, 상기 방법은 위치 에너지를 예측하기 위해 제2 공간 컨볼루션 그래프 모델을 트레이닝시키는 단계, 및 상기 제1 및 제2 공간 컨볼루션 그래프 모델들에 기초하여 분자 시스템의 위치 에너지를 예측하는 단계를 추가로 포함한다.
다시 더 추가의 실시 형태에서, 상기 제2 공간 컨볼루션 그래프 모델을 트레이닝시키는 단계는 상기 제1 및 제2 공간 컨볼루션 그래프 모델들 사이에 하나 이상의 층들의 세트를 공유하는 것을 포함한다.
다시 또 다른 추가의 실시 형태에서, 상기 역장은 AMBER (Assisted Model Building with Energy Refinement) 함수 형태이다.
다시 더 추가의 실시 형태에서, 상기 방법은 하나 이상의 신경 네트워크들의 세트를 트레이닝시켜 입력 분자 시스템의 위치 에너지를 예측하기 위해 상기 공간 컨볼루션 그래프 모델의 층들을 사용하기 위한 단계를 추가로 포함한다.
보다 더 또 다른 추가의 실시 형태에서, 상기 방법은 상기 공간 그래프 컨볼루션 모델에 의해 예측된 위치 에너지를 최소화함으로써 상기 분자들의 세트의 공간 배좌의 세트를 식별하기 위한 단계를 추가로 포함한다.
추가의 실시 형태에서, 상기 방법은 상기 분자들의 세트의 운동을 예측하기 위한 단계를 추가로 포함한다.
추가의 실시 형태들 및 특징들은 부분적으로는 이하의 상세한 설명에서 제시되며, 부분적으로는 본 명세서를 검토할 때 당해 분야의 통상의 기술자들에게 명백해질 것이거나 본 발명의 실시에 의해 학습될 수 있다. 본 발명의 본질 및 이점에 대한 추가의 이해는 본 개시 내용의 일부를 형성하는 본 명세서의 나머지 부분 및 도면을 참조함으로써 실현될 수 있다.
상세한 설명 및 청구범위는 이하의 도면 및 데이터 그래프를 참조하여 보다 완전히 이해될 것이며, 이러한 도면 및 데이터 그래프는 본 발명의 예시적인 실시 형태로서 제시되며 본 발명의 범위의 완전한 인용으로서 해석되어서는 안된다.
도 1은 게이트 제어 신경 네트워크 (Gated Graph Neural Network: GGNN)의 시각적 묘사를 예시한 것이다.
도 2는 본 발명의 일부 실시 형태에 따른 모델링 및 예측을 제공하는 시스템을 예시한 것이다.
도 3은 본 발명의 일부 실시 형태에 따른 모델링 및 예측을 제공하는 모델링 요소를 예시한 것이다.
도 4는 본 발명의 일부 실시 형태에 따른 모델링 및 예측을 제공하는 모델링 애플리케이션을 예시한 것이다.
도 5는 본 발명의 한 실시 형태에 따른 단계적 컨볼루션을 수행하기 위한 프로세스를 개념적으로 예시한 것이다.
도 6은 다단계 공간 게이트 제어 그래프 신경 네트워크의 시각적 묘사를 예시한 것이다.
도 7은 본 발명의 다양한 실시 형태에 따른 다단계 공간 게이트 제어 그래프 네트워크의 제1 스테이지를 예시한 것이다.
도 8은 본 발명의 다양한 실시 형태에 따른 다단계 공간 게이트 제어 그래프 네트워크의 제2 스테이지를 예시한 것이다.
본 발명의 다수의 실시 형태에 따른 시스템 및 방법은 단백질-리간드 결합 친화도에 대한 최신 성능을 위해 특별히 디자인되고 이러한 성능을 달성한다. 본 출원에서의 많은 예가 결합 친화도와 관련하여 기재되지만, 독성, 용해도 및 전자 특성 (그러나, 이들에 한정되는 것은 아님)과 같은 많은 분자 특성들은 본 발명의 사상을 벗어나지 않고 예측될 수 있다. 다수의 실시 형태에서, 프로세스는 분자 특성들을 예측하기 위해 결합 유형 및 공간적 거리에 기초한 다단계 프로세스를 이용한다. 일부 실시 형태에서, 새로운 계량 (metric) 회귀 강화 인자
Figure pct00001
는 화학적 데이터에 대한 계산 모델의 조기 강화 (early enrichment)를 측정하기 위해 계산된다. 본 발명의 다양한 실시 형태에 따른 프로세스는 모델 일반화 가능성을 보다 정확하게 측정할 수 있는 구조적 동족 관계 클러스터링에 기초한 교차 검증 전략을 구현하며, 이는 약물 발견을 위한 기계 학습의 목표와 표준 기계 학습 작업을 결정적으로 구별한다.
약물 발견의 아크 (arc)는 방대한 길이 스케일에 걸친 다중 파라미터 최적화 문제를 수반한다. 주요 파라미터는 용해도 (옹스트롬)부터 단백질-리간드 결합 (나노미터), 생체내 독성 (미터)까지 다양하다. 역사적으로, 과학자들은 리간드와 이의 표적을 모델링하기 위해 화학정보학적 및 구조 기반의 접근법을 모두 사용하였으며, 대부분의 기계 학습 (ML) 접근법은 도메인 전문 지식 중심의 특징들을 사용한다. 특징 학습 (feature learning) - 특징 가공 (feature engineering) 대신 - 을 통해, 심층 신경 네트워크는 약물 발견과 관련된 분자 특성들을 예측하기 위해 전통적인 물리학 기반 및 지식 기반 기계 학습 모델을 모두 능가할 것으로 전망한다.
대부분의 통상적인 DNN 아키텍처의 트레이닝은 방대한 양의 데이터를 필요로 한다: 예를 들어, ImageNet은 현재 14,000,000개 이상의 라벨링된 이미지를 포함한다. 대조적으로, 약물 유사 분자의 특성들에 대해 공개적으로 이용 가능한 최대 데이터 세트는, 단백질-리간드 공결정 구조의 4,000개 조금 넘는 샘플 및 관련 결합 친화도 값을 갖는 PDBBind 2017; 거의 10,000개의 작은 분자 및 관련 독성 엔드포인트를 갖는 Tox21; 약 22,000개의 작은 분자 및 관련 전자 특성을 갖는 QM8; 및 1,000개 조금 넘는 작은 분자 및 관련 용해도 값을 갖는 ESOL을 포함한다. 이러한 고품질 과학 데이터 부족은 분자 기계 학습을 위한 혁신적인 신경 아키텍쳐를 필요로 한다.
성공적인 DNN은 종종 이미지에서의 픽셀 근접성 (pixel proximity)과 같은 데이터에서 관련 구조를 활용한다. 단백질-리간드 결합 친화도의 예측은 컴퓨터 비전 문제와 유사하게 볼 수 있다. 이웃 픽셀들이 물리적 물체들 사이의 친밀감 (closeness)을 함축하는 것처럼, 결합 포켓 (binding pocket)은 복셀 그리드 (voxel grid)로 나누어질 수 있다. 여기서, 이웃 복셀은 이웃 원자와 빈 공간 블록을 나타낸다. 불행히도, 이러한 3D 컨볼루션 접근법은 몇 가지 잠재적 단점들을 갖는다. 첫째, 입력 및 숨겨진 가중치는 3차원에서 훨씬 더 많은 메모리를 필요로 한다. 둘째, 파라미터가 차원수에 따라 기하급수적으로 증가하기 때문에, 모델은 "차원수의 저주 (curse of dimensionality)"로 시달린다. 친화도 예측 및 관련 작업에 대한 질적으로 가장 간단한 모델은 리간드의 특징들만 통합하고 거대 분자 표적(들)을 무시한다.
그래프 컨볼루션 신경 네트워크 (graph convolutional neural network: GCNN)는 유사하게 데이터의 고유 구조를 활용한다. 그래프 컨볼루션은 분자 구조와 대칭을 활용하여 보다 적은 파라미터를 사용할 수 있다. 그래프 컨볼루션은 순열 및 각 인접 노드 (node)의 상대적 위치에 대해 대칭적일 수 있으므로, 모델 파라미터의 수를 유의하게 감소시킬 수 있다. 본 발명의 여러 실시 형태에 따른 모델은 상이한 분자들 사이의 분자내 상호 작용 및 비공유 상호 작용을 모두 포함하도록 그래프 컨볼루션을 일반화할 수 있다.
여러 실시 형태에서, 프로세스는, 미분 가능한 (differentiable) 결합 원자 유형의 유도와 공간을 통한 원자들 사이의 정보 전달을 구별하는, 단계적 게이트 제어 그래프 신경 네트워크를 사용할 수 있다. 본 발명의 일부 실시 형태에 따른 프로세스는 공급원으로부터 표적 원자까지의 거리와 표적 원자의 특징 맵 (feature map)을 모두 사용하는 새로운 업데이트 규칙에 기초한 보다 유연한 모델을 사용한다. 표적 원자 정보의 메시지 함수 내로의 직접 통합은 일부 단백질-리간드 결합 친화도 벤치마크에서 신호를 증가시킬 수 있다.
여러 실시 형태에서, N개의 노드, 노드 당 f in 특징 및 단일 엣지 유형을 포함하는 주어진 그래프는 노드 특징 x 및 대칭 인접 행렬 A (노드 쌍이 서로의 이웃 세트 N에 속하는지 여부를 나타냄)로 이루어진 것으로 나타낼 수 있다. 이제 도면으로 돌아가서, 게이트 제어 신경 네트워크 (GGNN)의 시각적 묘사는 도 1에 예시되어 있다. GGNN (100)은 원자를 나타내는 노드 (110~120)와 결합을 나타내는 엣지 (130~140)로 예시되어 있다. 본 예에서, 작은 분자 프로판아미드가 네트워크의 상이한 업데이트 층들 사이의 정보 전달을 예시하기 위해 선택된다. 카보닐 탄소 (110)의 경우, 특징 행렬 x의 관련 행은 이의 요소를 나타내기 위해 [1,0,0]일 수 있으며, 인접 행렬 A의 상응하는 행은 3개의 이웃 원자에 대한 이의 결합을 나타내기 위해 [0,1,0,1,1]일 수 있다.
다수의 실시 형태에서, 그래프 컨볼루션 업데이트는 노드 및 이의 이웃을 입력으로 취하고 각 노드에 대한 특징들의 새로운 세트를 출력하는 각 노드에서 함수를 적용하는 것을 수반한다. 그래프 컨볼루션은 문헌 [Gilmer et al., "Neural message passing for quantum chemistry", Proceedings of the 34th International Conference on Machine Learning]에 기재되어 있으며, 이의 개시 내용은 그 전체가 본 출원에 참조로 포함된다. 그래프 컨볼루션은 하기와 같이 표현될 수 있으며:
Figure pct00002
여기서,
Figure pct00003
은 숨겨진 층 t에서 노드 i의 노드 특징을 나타내고,
Figure pct00004
는 노드 i의 이웃을 나타내고, U (t) m (t) 는 각각 숨겨진 층 t에서 업데이트 및 메시지 함수이다. 특정 실시 형태에서, 다중 엣지 유형이 있는 경우, 다중 메시지 함수는 엣지 유형
Figure pct00005
에 대한 층 t에서의 메시지 함수인 m (t,e) 로 정의될 수 있다.
다수의 실시 형태에서, 모델의 모든 층에서의 업데이트 함수는 익숙한 게이트 제어 순환 단위 (GRU)이다. 그러나, 당해 분야의 통상의 기술자는 다른 업데이트 함수가 본 발명의 사상을 벗어나지 않고 사용될 수 있다는 것을 인식할 것이다. 일부 실시 형태에서, 메시지 함수는 각 엣지 유형에 대해 상이하지만 또한 층들 전체에 걸쳐 동일한 단순한 선형 연산이고:
Figure pct00006
여기서, A (e) 는 인접 행렬이고, W (e) 는 각각 엣지 유형 e에 대한 가중치 행렬이다.
그래프 컨볼루션 아키텍처의 GGNN 계열은 그래프에 대한 복잡성을 감소시키기 위해 효과적인 최적화를 포함한다. d를 각 노드의 내부 숨겨진 표현의 차원이고, n을 그래프에서 노드의 수라고 한다. 조밀한 그래프를 위한 단일 메시지 전달 단계는
Figure pct00007
곱셈을 필요로 한다. d차원 노드 임베딩 (embedding)을 k 상이한
Figure pct00008
차원 임베딩으로 나누면, 이러한 런타임은
Figure pct00009
으로 감소한다. 대부분의 분자는 희박하거나 상대적으로 작은 그래프이기 때문에, 이러한 층들은 전형적으로
Figure pct00010
이다. 다양한 실시 형태에서, 그래프의 스펙트럼 표현을 이용하는 것 (그러나, 이에 한정되는 것은 아님)과 같은 다른 최적화가 사용될 수 있다.
입력 수작업 특징의 비선형 조합을 학습하는 통상적인 FCNN과 달리, 본 발명의 일부 실시 형태에 따라 기재된 업데이트는 주어진 원자의 보다 기본적인 특징과 이의 바로 옆 이웃의 특징의 비선형 조합을 학습한다. 정보는 각 그래프 컨볼루션으로 점점 멀어지는 원자들을 통해 전달되며, GRU는 정보가 선택적으로 추가될 수 있도록 한다. 궁극적으로, GCNN은 특징 행렬 x를 통한 노드별 특징과 인접 행렬 A를 통한 구조 정보를 모두 포함하고 이용한다. 분류와 회귀 설정 모두에서, GCNN은 "그래프 수집" 단계에서 종료될 수 있으며, 이러한 단계는 최종 임베딩의 행을 합하며 노드 순서 (node ordering)에 불변이다. 후속 FCNN은 목적하는 크기의 출력 (f out)을 생성한다. 이것은 본 발명의 다수의 실시 형태에 따라 사용되는 그래프 컨볼루션 업데이트를 위한 시작점을 완료한다:
Figure pct00011
특정 실시 형태에서, GCNN에 의한 다중 표적에 대한 친화도의 예측은 각 표적에 대해 상이한 모델을 훈련시키거나 단일 다중 작업 (multitask) 네트워크를 훈련시킴으로써 구현될 수 있다. 본 발명의 다양한 실시 형태에 따른 후자의 설정은 마지막 가중치 행렬
Figure pct00012
을 사용할 수 있으며, 여기서, T는 데이터 세트에서 표적의 수를 나타낸다. 상응하는 다중 작업 손실 함수는 표적 전체에 걸친 평균 이진 교차 엔트로피 손실 (binary cross-entropy loss)이다:
Figure pct00013
본 발명의 다수의 실시 형태에 따른 시스템 및 방법은 리간드에 추가하여 표적에 대한 구조 정보를 이용한다. 보다 원칙적인 DNN 예측 변수에 대한 아키텍처에 동기를 부여하기 위해, 다음 표기법과 프레임워크가 사용된다. 거리 행렬은
Figure pct00014
이며, 이의 엔트리 Ri j 원자 i 원자 j 사이의 거리를 나타낸다.
지금까지, 대칭 행렬 A에 인코딩된 바와 같은 인접의 개념은 화학 결합에 제한되었다. 그러나, 인접은 또한 비공유 상호 작용 (예를 들어, π-π 스태킹, 수소 결합, 소수성 접촉)을 포함하도록 광범위한 이웃 유형을 포함할 수 있다. 인접은 도메인 전문 지식을 필요로 하지 않는다. 다양한 실시 형태에서, 문턱 값 (threshold value) 미만의 쌍 거리 (pairwise distance)도 또한 사용될 수 있다. 특정 방식에 관계없이, 거리 행렬 RA의 확장 버전의 구축에 동기를 부여한다. 이러한 프레임워크에서, A는 N × N × N et 모양의 텐서가 되며, 여기서. N et 은 엣지 유형의 수를 나타낸다.
행이 단백질 또는 리간드에 대한 원자 i 의 구성원에 의해 정렬되는 경우, AR은 모두 블록 행렬로 볼 수 있으며, 여기서, 대각 블록은 한 리간드 원자에서부터 또 다른 리간드 원자까지 또는 한 단백질 원자에서부터 또 다른 단백질 원자까지의 자가 엣지 (self-edge) (즉, 결합 및 비공유 상호 작용)이다. 비대각 블록 행렬은 단백질에서부터 리간드까지 및 리간드에서부터 단백질까지의 엣지를 인코딩할 수 있다. 단순화를 목적으로, 하나의 엣지 유형, N et = 1만 있는 특수한 경우는 다음과 같이 기재되며:
Figure pct00015
여기서, A i j 는 이웃에 대해 1이며 그 외에는 0이고,
Figure pct00016
이다. 이러한 프레임워크 내에서, 공간 그래프 컨볼루션 - 유클리드 거리에 근거한 인접의 개념에 기초한 그래프 컨볼루션 - 은 상기에서 기재된 업데이트를 특징으로 하는 GGNN의 일반화로서 표현될 수 있다.
엣지 유형 일반화에 추가하여, 본 발명의 다수의 실시 형태에 따른 프로세스는 그래프 컨볼루션 층의 메시지 부분에 비선형성을 도입하며:
Figure pct00017
여기서, NN ( e )은 각 엣지 유형 e에 대한 신경 네트워크이며,
Figure pct00018
는 원자/노드 i에 대한 엣지 유형 e의 이웃을 나타낸다.
여러 실시 형태에서, 층의 개념은 주어진 유형의 여러 층들에 걸쳐 있을 수 있는 스테이지의 개념으로 일반화된다. 본 발명의 일부 실시 형태에 따른 프로세스는 3가지 주요 단계로 이루어진다: (1) 공유 전용 전달, (2) 이중 비공유 및 공유 전달, (3) 리간드 기반 그래프 수집. 보다 일반적으로, 일부 실시 형태에서는 프로세스가 하나 이상의 엣지 유형들의 제1 세트에 기초하여 제1 전달을 수행한다. 본 발명의 다양한 실시 형태에 따른 제2 스테이지는 결합 정보와 분리된, 거리 행렬로부터의 거리 정보 뿐만 아니라 결합 유형들을 포함할 수 있다. 거리 정보는 특정한 물리적 거리 측정값 및/또는 빈 거리 (binned distance) (그러나, 이들에 한정되는 것은 아님)를 포함할 수 있다. 본 발명의 다양한 실시 형태에 따른 제2 스테이지는 모든 엣지 유형들 또는 엣지 유형들의 서브 세트를 포함할 수 있다.
특정 실시 형태에서, 스테이지 (1)의 공유 전달은 (원자i , 원자 j) 사이에 결합이 있는 경우 엔트리 (i, j)에 1 및 그외에는 0을 포함하는 인접 행렬 A (1)의 제1 슬라이스 (slice)만을 수반한다. 직감적으로, 스테이지 (1)는 결합 원자의 지역 네트워크를 기반으로 하여 시스템에서 N 원자 각각에 대해 벡터 값 원자 유형들
Figure pct00019
의 새로운 세트를 계산한다. 본 발명의 다양한 실시 형태에 따른 원자 유형은 각 원자에 대한 특징 맵이다. 이어서, 본 발명의 다양한 실시 형태에 따른 스테이지 (2)는 (1)에서 계산된 벡터 값 원자 유형들
Figure pct00020
로 시작하는 전체 인접 텐서 A 모두에 기초한 전달을 수반한다. 스테이지 (1)가 아미노산과 리간드 원자 모두에 대한 새로운 결합 기반 "원자 유형"을 계산하는 동안, 스테이지 (2)는 원자들 사이의 결합 및 공간 정보를 모두 전달한다. 예를 들어, 스테이지 (1)가 아미드 카보닐 산소와 케톤 카보닐 산소를 구별하는 경우, 스테이지 (2)는 카보닐 산소가 또한 수소 결합 공여체의 3 옹스트롬 내에 있다는 것을 제1 층에서 전달할 수 있다. 마지막으로, 스테이지 (3)에서는 그래프 수집이 리간드 원자에 대해서만 수행된다. 특정 실시 형태에서, 상기 리간드 전용 그래프 수집은 상기에서 기재된 블록 행렬 공식에 의해 계산적으로 간단하게 이루어진다.
다양한 실시 형태에서, 벡터 값 원자 유형들의 새로운 세트가 결합 원자의 지역 네트워크를 기반으로 하여 시스템에서 각 원자에 대해 계산된다.
스테이지 1:
Figure pct00021
다수의 실시 형태에서, 제2 스테이지는 (1)에서 계산된 벡터 값 원자 유형들
Figure pct00022
로 시작하는 전체 인접 텐서 A 모두에 기초한 전달을 수반한다. 스테이지 (1)가 아미노산과 리간드 원자 모두에 대한 새로운 결합 기반 "원자 유형"을 계산하는 동안, 스테이지 (2)는 원자들 사이의 결합 및 공간 정보를 모두 전달한다. 특정 실시 형태에서, 거리 행렬로부터의 공간 정보는 결합 정보에 추가하여 제2 스테이지에서 이용된다.
스테이지 2:
Figure pct00023
다양한 실시 형태에서, 그래프 수집은 제3 스테이지 (3)에서 수행된다. 본 발명의 다수의 실시 형태에 따른 프로세스는 리간드 원자에 대해서만 그래프 수집을 수행한다.
스테이지 3:
Figure pct00024
여기서, i ( b ), j ( b ), i ( sp ), j ( sp )는 결합 및 공간 신경 네트워크이고,
Figure pct00025
은 스테이지 2의 끝에 j 번째 원자에 대한 특징 맵을 나타낸다.
보다 일반적으로, 엣지 유형들이 따로따로 처리된다는 것과 S 스테이지를 고려해 볼 때, 엣지 정보, 다중 엣지 유형들, 거리 정보 및 스테이지를 통합하는 개념은 다음 공식들로 요약될 수 있다.
본 발명의 다양한 실시 형태에 따른 하나의 공식에서, 각 엣지 유형은 따로따로 처리될 수 있다:
스테이지 1:
Figure pct00026
스테이지 S:
Figure pct00027
여기서, 예를 들어, K S S 번째 스테이지에서 그래프 컨볼루션 층들의 수를 정의하고,
Figure pct00028
K S 그래프 컨볼루션 층들 이후 스테이지 S에서 i 번째 원자의 특징 맵을 정의하고,
Figure pct00029
는 스테이지 S에서 사용되는 엣지 유형들의 수 (엣지 유형들의 총수 N et 의 서브 세트임)를 나타내고, R i j 은 행렬 R의 i 번째 행과 j 번째 열 (column) 엔트리 (따라서, 원자/노드 v i v j 사이의 거리)를 나타내고, NN (S,e) e 번째 엣지 유형에 대해 스테이지 S에서의 신경 네트워크를 나타내고 (동일한 신경 네트워크는 가중치 공유 (weight tying)를 위해 상이한 스테이지에서 주어진 엣지 유형에 대해 사용될 수 있음), f S 는 스테이지 S의 끝에 각 원자에 대한 특징 맵의 차원을 나타내고, i ( S )j ( S )는 스테이지 S에 대한 수집되는 신경 네트워크이다. 각 스테이지/그래프 컨볼루션 층들의 세트에서, 엣지 유형들의 서브 세트 및 엣지 정보가 임의의 주어진 스테이지에서 이용될 수 있다고 언급되었기 때문에, 거리 정보 R i j 이나 소프트 또는 하드 거리 빈 (distance bin)도 GRU 함수 내에서 주어진 NN에 의해 이용될 필요가 없다는 것에 유의해야 한다. 환언하면, 스테이지들의 일부는 원자들 사이의 결합 또는 다른 비공간적 관계에만 의존할 수 있다.
본 발명의 다양한 실시 형태에 따른 또 다른 공식에서, 엣지 유형은 유연한 또는 연속적인/조밀한 엣지 유형일 수 있다.
스테이지 1:
Figure pct00030
스테이지 S:
Figure pct00031
여기서, 예를 들어, K S S 번째 스테이지에서 그래프 컨볼루션 층들의 수를 정의하고,
Figure pct00032
K S 그래프 컨볼루션 층들 이후 스테이지 S에서 i 번째 원자의 특징 맵을 정의하고, R i j 은 행렬 R의 i 번째 행과 j 번째 열 엔트리 (따라서, 원자/노드 v i v j 사이의 거리)를 나타내고, NN (S) 은 스테이지 S에서의 신경 네트워크를 나타내고, e i j vi v j 사이에서 사전 특징화되거나 학습된 (pre-featurized or learned) 엣지 특징을 나타내는 벡터이고, f S 는 스테이지 S의 끝에 각 원자에 대한 특징 맵의 차원을 나타내고, i ( S )j ( S )는 스테이지 S에 대한 수집되는 신경 네트워크이다. 상기에서 기재된 공식들에서, 각 스테이지는 거리 행렬 R을 이용하지만, 거리 행렬 R은 스테이지들의 하나 이상으로부터 생략될 수 있다. 다수의 실시 형태에서, 스테이지들의 제1 서브 세트는 거리 행렬을 이용할 수 있는 반면, 스테이지들의 제2 서브 세트는 거리 행렬을 전혀 포함하지 않을 수 있다. 일부 실시 형태에서, 각 스테이지의 마지막 층은 간단히
Figure pct00033
로서 설정될 수 있다. 대안적으로 또는 결합하여, 본 발명의 다수의 실시 형태에 따른 각 스테이지의 마지막 층은
Figure pct00034
또는
Figure pct00035
로서 설정될 수 있다.
일부 실시 형태에서, e i j 는 미리 정의되는 대신 그 자체가 미분 가능한 함수일 수 있다. 하나의 예에서,
Figure pct00036
는 스테이지 S 및 그래프 컨볼루션 층 3에서 원자 ij 사이의 엣지이다. 본 예에서,
Figure pct00037
. 다수의 실시 형태에서, e i j 는 주어진 스테이지에서 그래프 컨볼루션 층 이후 당해 스테이지에서 원자 i 및 원자 j의 특징 맵에 의존하는 신경 네트워크일 수 있다. 일부 실시 형태에서, e ij 는 RNN일 수 있다. 예를 들어,
Figure pct00038
.
단백질-리간드 결합의 특정한 경우에서, 그래프 수집 연산은 S 스테이지 이후에 다음과 같이 정의된다:
수집 스테이지:
Figure pct00039
그러나, N Lig 원자에 대한 합을 본 발명의 실시 형태에 따른 특정 애플리케이션의 요구 사항에 적절하게 그래프에서의 노드들의 임의의 서브 세트로 대체할 수 있다. 또한, 상기 ReLU 비선형성을 S자 모양, Leaky ReLU, 쌍곡선 정접 (tanh) 등과 같은 다른 비선형성으로 대체하는 것과 같은 그래프 수집 신경 네트워크들의 다른 유형들이 본 발명의 일부 실시 형태에 따라 사용될 수 있으며, 순환 신경 네트워크와 같은 완전 연결 신경 네트워크 외에 다른 연산도 사용될 수 있다.
시스템 및 방법
본 발명의 일부 실시 형태에 따른 모델링 및 예측을 제공하는 시스템은 도 2에 도시되어 있다. 네트워크 (200)는 통신 네트워크 (260)를 포함한다. 통신 네트워크 (260)는 네트워크 (260)에 연결된 장치가 다른 연결된 장치와 통신할 수 있도록 하는 인터넷과 같은 네트워크이다. 서버 시스템 (210, 240 및 270)은 네트워크 (260)에 연결된다. 각각의 서버 시스템 (210, 240 및 270)은 네트워크 (260)를 통해 사용자에게 클라우드 서비스들을 제공하는 프로세스를 실행하는 내부 네트워크를 통해 서로 통신으로 연결된 하나 이상의 서버 컴퓨터 시스템들의 그룹이다. 본 논의의 목적상, 클라우드 서비스들은 네트워크를 통해 장치에 데이터 및/또는 실행 가능한 애플리케이션을 제공하기 위해 하나 이상의 서버 시스템들에 의해 실행되는 하나 이상의 애플리케이션이다. 서버 시스템들 (210, 240 및 270)은 내부 네트워크를 통해 연결된 3개의 서버들을 각각 갖는 것으로 도시되어 있다. 그러나, 서버 시스템들 (210, 240 및 270)은 다수의 서버들을 포함할 수 있으며, 다수의 추가의 서버 시스템들은 네트워크 (260)에 연결되어 가상 서버 시스템들을 포함하지만 이에 한정되지 않는 클라우드 서비스들을 제공할 수 있다. 본 발명의 다양한 실시 형태에 따르면, 분자 특성들을 모델링하고 예측하기 위한 프로세스는 단일 서버 시스템 및/또는 네트워크 (260)를 통해 통신하는 서버 시스템들의 그룹 상에서 실행되는 하나 이상의 소프트웨어 애플리케이션들에 의해 제공된다.
사용자들은 본 발명의 다양한 실시 형태에 따라 분자 특성들을 모델링하고 예측하기 위한 프로세스를 수행하기 위해 네트워크 (260)에 연결되는 개인 장치들 (280 및 220)을 사용할 수 있다. 예시된 실시 형태에서, 개인 장치 (280)는 네트워크 (260)에 대한 통상적인 "유선" 연결을 통해 연결되는 데스크탑 컴퓨터로서 도시되어 있다. 그러나, 개인 장치 (280)는 데스크탑 컴퓨터, 랩탑 컴퓨터, 스마트 텔레비전, 엔터테인먼트 게이밍 콘솔, 또는 "유선" 또는 "무선" 네트워크 연결을 통해 네트워크 (260)에 연결되는 임의의 다른 장치일 수 있다. 모바일 장치 (220)는 무선 연결을 사용하여 네트워크 (260)에 연결된다. 무선 연결은 무선 주파수 (Radio Frequency: RF) 신호, 적외선 신호, 또는 네트워크 (260)에 연결하기 위한 무선 신호 전달의 임의의 다른 형태를 사용하는 연결이다. 도 2에서, 모바일 장치 (220)는 모바일 전화기이다. 그러나, 모바일 장치 (220)는 모바일 폰, 개인 휴대 정보 단말기 (Personal Digital Assistant: PDA), 태블릿, 스마트폰, 가상 현실 헤드셋, 증강 현실 헤드셋, 혼합 현실 헤드셋, 또는 본 발명을 벗어나지 않고 무선 연결을 통해 네트워크 (260)에 연결되는 임의의 다른 유형의 장치일 수 있다. 본 발명의 일부 실시 형태에 따르면, 분자 특성들을 모델링하고 예측하기 위한 프로세스는 사용자 장치에 의해 수행된다. 용이하게 이해될 수 있는 바와 같이, 분자 특성들을 모델링하고 예측하는데 사용되는 특정 컴퓨팅 시스템은 주어진 애플리케이션의 요구 사항에 크게 의존하며, 임의의 특정 컴퓨팅 시스템(들) 구현에 한정되는 것으로 간주되어서는 안된다.
본 발명의 여러 실시 형태에 따른 모델링 요소는 도 3에 예시되어 있다. 본 발명의 다수의 실시 형태에 따른 모델링 요소들은 모바일 장치, 컴퓨터, 서버 및 클라우드 서비스 중 하나 이상 (그러나, 이들에 한정되는 것은 아님)을 포함할 수 있다. 모델링 요소 (300)는 프로세서 (310), 통신 인터페이스 (320) 및 메모리 (330)를 포함한다.
당해 분야의 통상의 기술자는 특정 모델링 요소가 본 발명을 벗어나지 않고 간결성을 위해 생략되는 다른 구성 요소들을 포함할 수 있다는 것을 인식할 것이다. 프로세서 (310)는 프로세서, 마이크로프로세서, 컨트롤러, 또는 메모리 (330)에 저장된 명령을 수행하여 당해 메모리에 저장된 데이터를 처리하는 프로세서, 마이크로프로세서 및/또는 컨트롤러의 조합 (그러나, 이에 한정되는 것은 아님)을 포함할 수 있다. 프로세서 명령은 본 발명의 특정 실시 형태에 따른 프로세스를 수행하도록 프로세서 (310)를 구성할 수 있다. 통신 인터페이스 (320)는 모델링 요소 (300)가 프로세서 (310)에 의해 수행된 명령에 기초하여 네트워크를 통해 데이터를 송수신할 수 있도록 한다.
메모리 (330)는 모델링 애플리케이션 (332), 분자 데이터 (334) 및 모델 데이터 (336)를 포함한다. 본 발명의 여러 실시 형태에 따른 모델링 애플리케이션들은 상이한 분자들의 상호 작용을 모델링하고 예측하기 위해 사용된다. 다수의 실시 형태에서, 모델링된 상호 작용들은 추가의 테스트를 위한 후보 분자들을 식별하는데 사용될 수 있다. 여러 실시 형태에서, 모델링 애플리케이션들은 분자 시뮬레이션 및/또는 분자 특성들의 데이터베이스 (그러나, 이들에 한정되는 것은 아님)를 비롯한 다양한 공급원으로부터 생성된 데이터를 포함하는 분자 데이터를 사용할 수 있다. 본 발명의 다양한 실시 형태에 따른 모델 데이터 (336)는 공간 그래프, 엣지형 신경 네트워크 및 완전 연결 분류 네트워크에 대한 데이터 (그러나, 이에 한정되는 것은 아님)를 포함할 수 있다. 본 발명의 다수의 실시 형태에 따른 모델은, 분자 시스템의 각 원자에 대한 특징 행렬을 식별하는 것, 및 결합/비결합, 양자 특성, 독성 및 용해도를 포함하지만 이들에 한정되지 않는 분자의 다양한 특성들을 분류하는 것 (그러나, 이들에 한정되는 것은 아님)과 같은 다양한 목적으로 사용될 수 있다.
모델링 요소 (300)의 특정 예가 도 3에 예시되어 있지만, 다양한 모델링 요소들 중 임의의 요소가 본 발명의 실시 형태에 따른 특정 애플리케이션의 요구 사항에 적절하게 본 출원에서 기재된 것과 유사한 프로세스를 수행하기 위해 이용될 수 있다.
본 발명의 한 실시 형태에 따라 후보 리간드들을 식별하기 위한 모델링 애플리케이션은 도 4에 예시되어 있다. 모델링 애플리케이션 (400)은 그래프 엔진 (405), 결합 피처라이저 (featurizer) (410), 공간 피처라이저 (415), 집계 엔진 (420) 및 분류 엔진 (425)을 포함한다. 본 발명의 다수의 실시 형태에 따른 모델링 애플리케이션들은 분자 시스템의 분자들의 세트에 대한 분자 데이터를 사용하여 시스템 내의 분자들 사이의 상호 작용들을 모델링하고 예측할 수 있다.
다양한 실시 형태에서, 그래프 엔진들은 분자들의 세트의 그래프 표현을 구축할 수 있다. 그래프 표현들은 결합 정보, 결합 유형들, 거리 정보, 원자 특성들 및 결합 친화도 (그러나, 이들에 한정되는 것은 아님)를 포함할 수 있다. 본 발명의 다수의 실시 형태에 따른 구성된 그래프 표현들은 인접 행렬 및/또는 거리 행렬을 포함할 수 있다.
본 발명의 다수의 실시 형태에 따른 결합 피처라이저들은 원자의 이웃들의 각각에 대한 원자의 결합들에 기초하여 분자 시스템의 각 원자에 대한 특징 행렬을 생성할 수 있다. 다수의 실시 형태에서, 결합 피처라이저들은 모델링 및 예측 프로세스의 상이한 스테이지에서 상이한 유형의 결합들에 대해 연산될 수 있다. 다양한 실시 형태에서, 결합 피처라이저들은 제1 스테이지에서의 공유 결합들에 기초하여 각 원자에 대한 특징 행렬들의 제1 세트를 결정할 수 있으며, 결합들의 다른 유형들에 기초하여 원자들에 대한 특징 행렬의 제2 세트를 결정하는데 사용될 수 있다. 본 발명의 일부 실시 형태에 따른 공간 피처라이저들은 결합 유형들에 추가하여 또는 결합 유형들 대신에 상이한 원자들 사이의 공간적 거리들에 기초하여 분자 시스템의 각 원자에 대한 특징 행렬들을 생성할 수 있다. 본 발명의 다양한 실시 형태에 따른 결합 피처라이저들은 각 원자에 대한 특징 행렬들에서 결합 및 공간 정보를 모두 통합하기 위해 프로세스의 일부 스테이지에서 공간 피처라이저들과 함께 연산할 수 있다. 결합 및 공간 피처라이저들은 각 결합 유형에 대해 및/또는 프로세스의 각 스테이지에 대해 다수의 신경 네트워크들을 구현할 수 있다.
본 발명의 다양한 실시 형태에 따른 집계 엔진들은 피처라이저들로부터 생성된 특징들을 집계하기 위해 사용될 수 있다. 다양한 실시 형태에서, 집계 엔진들은 결합 및/또는 공간 피처라이저들에 의해 생성된 특징 행렬들의 최종 세트를 집계할 수 있다. 다수의 실시 형태에서, 집계 엔진들은 분자 시스템의 분자들 중 하나 (예를 들어, 리간드)에 대해서만 연산한다.
다양한 실시형태에서, 분류 엔진들은 분자들의 세트 사이의 상호 작용을 분류하거나 예측하는데 사용될 수 있다. 본 발명의 일부 실시 형태에 따른 분류 엔진들은 완전 연결 신경 네트워크 (fully connected neural network: FCNN) 및/또는 랜덤 포레스트 (그러나, 이들에 한정되는 것은 아님)와 같은 분류기를 구현할 수 있다. 다양한 실시형태에서, 분류 엔진들은 피처라이저들 및/또는 집계 엔진에 의해 생성된 특징 행렬을 입력으로 취하고, 분자들의 세트가 특정 관계 (예를 들어, 결합/비결합, 작용제/길항제 등)를 가질 가능성을 출력한다. 모델링 애플리케이션의 특정 예가 도 4에 예시되어 있지만, 다양한 모델링 애플리케이션들 중 임의의 애플리케이션이 본 발명의 실시 형태에 따른 특정 애플리케이션들의 요구 사항에 적절하게 본 출원에서 기재된 것과 유사한 프로세스를 수행하는데 이용될 수 있다.
본 발명의 실시 형태에 따른 공간 컨볼루션들을 이용하여 분자 특성들을 모델링하고 예측하기 위한 시스템, 요소 및 애플리케이션의 특정 예가 상기에서 기재되어 있지만; 당해 분야의 통상의 기술자는 다수의 구조 및 시스템이 본 발명의 실시 형태에 따른 특정 애플리케이션들의 요구 사항에 적절하게 이용될 수 있다는 것을 인식할 것이다.
본 발명의 한 실시 형태에 따른 단계적 컨볼루션을 수행하기 위한 프로세스는 도 5에 개념적으로 예시되어 있다. 프로세스 (500)는 시스템에서 하나 이상의 분자들에 대한 원자 정보를 수신한다 (505). 다양한 실시 형태에서, 분자들은 공급원 (예를 들어, 리간드) 및 표적 분자를 포함할 수 있다. 본 발명의 여러 실시 형태에 따른 원자 정보는 거리 정보 및 화학적 특성들 (그러나, 이들에 한정되는 것은 아님)을 비롯한 각 분자에 관한 다양한 정보를 포함한다. 다수의 실시 형태에서, 원자 유형들 - 1 × f b 원자별 특징 맵 - 은 리간드 및 단백질 원자들 모두에 대해 동일한 초기 특징들로부터 유도된다. 프로세스 (500)는 리간드 및 표적 분자의 공간 그래프 표현을 구축한다 (510). 본 발명의 다양한 실시 형태에 따른 공간 그래프 표현들은 거리 행렬 및/또는 인접 행렬을 포함한다. 본 발명의 일부 실시 형태에 따른 거리 행렬들은 시스템에서 서로 다른 원자로부터의 각 원자에 대한 거리 정보를 포함한다. 다수의 실시 형태에서, 인접 행렬들은 다중 층들 (또는 차원들)을 포함하며, 여기서, 각 층은 상이한 엣지 유형을 따라 인접성을 나타낸다. 예를 들어, 제1 층에서의 인접성은 2개의 원자가 공유 결합을 공유하는 것을 나타내는 반면, 상이한 층에서의 인접성은 상이한 결합 유형을 나타낸다. 일부 실시 형태에서, 인접성은 임의의 특정 결합이 아니라 2개의 원자들이 서로의 문턱 거리 (threshold distance) 내에 있는지 여부를 나타낸다.
본 발명의 다수의 실시 형태에 따른 프로세스는 다수의 그래프 컨볼루션 스테이지들을 수행할 수 있다. 프로세스 (500)는 그래프 컨볼루션 스테이지를 수행한다 (515). 일부 실시 형태에서, 상이한 그래프 컨볼루션 스테이지들은 분자 시스템에 관한 정보의 상이한 서브 세트들에 기초할 수 있으며, 여기서, 상기 정보는 결합 유형, 거리 유형 및/또는 다른 엣지 유형 (그러나, 이들에 한정되는 것은 아님)을 포함할 수 있다. 예를 들어, 일부 스테이지들은 결합 유형들에만 기초할 수 있는 반면, 다른 스테이지들은 특정 엣지 유형들 및 거리 정보에 기초할 수 있다. 본 발명의 다양한 실시 형태에 따른 단일 그래프 컨볼루션 스테이지는 상이한 엣지 유형들의 서브 세트에 기초할 수 있는 반면, 상이한 컨볼루션 스테이지는 상이한 서브 세트 또는 상이한 엣지 유형들의 완전한 세트에 기초한다. 예를 들어, 특정 실시 형태에서, 초기 그래프 컨볼루션 스테이지는 공유 결합의 존재를 나타내는 인접 행렬의 제1 층에 기초하는 반면, 후속 그래프 컨볼루션 스테이지는 모든 결합 유형들 뿐만 아니라 원자 거리들에 기초한다.
다수의 실시 형태에서, 각 그래프 컨볼루션 스테이지는 각 원자에 대한 특징 벡터를 생성하고, 각 스테이지에 대한 입력들에 기초하여 각 원자에 대한 특징들을 학습한다. 본 발명의 다양한 실시 형태에 따른 특징 벡터는 후속 그래프 컨볼루션 스테이지에 대한 입력들로 사용될 수 있다. 본 발명의 다양한 실시 형태에 따른 각 그래프 컨볼루션 스테이지는 신경 네트워크들의 세트를 이용할 수 있다. 다수의 실시 형태에서, 각 개별 신경 네트워크는 각 엣지 유형에 대해 트레이닝된다. 다수의 실시 형태에서, 신경 네트워크들은 완전 연결 신경 네트워크들, 컨볼루션 네트워크들 및 순환 네트워크들 (recurrent network)을 포함할 수 있지만, 이들에 한정되는 것은 아니다. 특정 엣지 유형에 대한 신경 네트워크들은 상이한 스테이지들의 가중치를 함께 공유하기 위해 본 발명의 다양한 실시 형태에 따른 상이한 스테이지들 전체에 걸쳐 사용될 수 있다. 그러나, 다수의 실시 형태에서는 상이한 신경 네트워크가 각 엣지 유형 및 스테이지에 대해 트레이닝되고 이용된다.
프로세스 (500)는 수행할 더 많은 스테이지들이 있는지 여부를 결정한다 (520). 다수의 실시 형태에서, 명시된 수의 스테이지들이 수행된다. 프로세스가 수행할 더 많은 스테이지들이 있다고 결정하면, 프로세스는 단계 (515)로 돌아간다. 모든 스테이지들이 완료되면, 프로세스 (500)는 그래프 컨볼루션 스테이지들 이후에 정보를 집계하기 위해 그래프 수집을 수행한다 (525). 다수의 실시 형태에서, 그래프 수집은 리간드 분자의 원자들에 대해서만 수행된다. 다양한 실시 형태에서, 그래프 수집 단계는 리간드 분자의 분류를 예측하도록 트레이닝되는 완전 연결 신경 네트워크를 사용하여 수행된다. 분류는 표적 분자와 결합하는 예상 능력 (그러나, 이에 한정되는 것은 아님)을 포함할 수 있다.
본 발명의 실시 형태에 따른 공간 컨볼루션들을 이용하여 원자들을 분류하기 위한 특정 프로세스가 상기에서 기재되어 있지만; 당해 분야의 통상의 기술자는 다수의 프로세스가 본 발명의 실시 형태에 따른 특정 애플리케이션들의 요구 사항에 적절하게 이용될 수 있다는 것을 인식할 것이다.
본 발명의 다양한 실시 형태에 따른 다단계 공간 게이트 제어 그래프 신경 네트워크의 시각적 묘사가 도 6에 예시되어 있다. 제1 스테이지 (605)는 결합만을 통해 그래프 컨볼루션들을 수반하는데, 이는 분자 모델링의 보다 전통적인 형태들에서 미분 가능한 원자 유형들과 대략 유사한 새로운 노드 (원자) 특징 맵을 유도한다. 제2 스테이지 (610)는 결합 기반 및 공간적 거리 기반 정보 전달을 모두 수반한다. 제3 스테이지 (615)에서, 특징 맵이 결합 리간드 정보 및 단백질 원자들에 대한 공간적 근접성으로부터 유도되는 리간드 원자들에 대해 그래프 수집 작업이 수행된다. (역사적 이유로) 이후 시뮬레이션에서 (종종 불량하게) 상호 운용해야 하는 리간드들 및 단백질들에 대해 고유 역장을 갖는 분자 역학 역장과는 대조적으로, 본 발명의 일부 실시 형태에 따른 프로세스는 통합 프레임워크로부터 생체 분자 상호 작용의 물리 화학적 특성들을 유도할 수 있다.
추가로 예시하기 위해, 본 발명의 다양한 실시 형태에 따른 제1 및 제2 스테이지는 전체 인접 텐서 A의 상이한 서브 세트들을 이용한다. 본 발명의 다양한 실시 형태에 따른 제1 스테이지는 도 7에 예시되어 있다. 본 예에서, 인접 텐서 A의 마지막 차원의 제1 슬라이스에 인코딩된 공유 또는 결합 상호 작용 엣지 유형들만이 이용된다. 본 발명의 다수의 실시 형태에 따른 제2 스테이지는 도 8에 예시되어 있다. 본 예에서, 인접 텐서 A의 마지막 차원 전체에 걸친 결합 및 비결합 상호 작용 엣지 유형들이 모두 이용된다. 다양한 실시 형태에서, 제2 스테이지는 또한 다양한 원자들 사이의 거리를 기술하는 공간 데이터를 포함할 수 있다.
예측 변수 성능의 전통적인 계량은 일반적인 문제와 약물 발견 관련 문제로 어려움을 겪는다. 회귀 변수의 경우, R2 - "결정 계수" - 와 평균 제곱근 오차 (root-mean square error: RMSE)는 모두 단일 데이터 포인트 이상치에 민감하다. 분류기와 회귀 변수 모두에 대한 RMSE는 트레이닝 데이터 분포도 영모형 (null model) 성능도 고려하지 않는다. 수신기 연산 특성 곡선 아래 면적은 분류기에 대한 RMSE의 이러한 결함을 수정할 수 있다. 그러나, 앞서 언급된 모든 계량은 모든 데이터 포인트에 균등하게 가중치를 부여하는 글로벌 통계 자료이다. 이러한 특성은 분포의 꼬리를 예측하는데 가장 관심이 있는 약물 발견에서 특히 바람직하지 않다: 모델 예측이 수백만 개의 분자들을 포함하는 전체 라이브러리에 대해 수행되지만, 최고 득점 분자들만 구매하거나 합성할 것이다.
이에 대응하여, 화학정보학적 커뮤니티는 조기 강화의 개념을 채택하여 모델의 최고 성과자 (performer)의 중요성을 더욱 강조한다. 현재, 조기 강화 측정의 이러한 진전은 분류에 한정되었으며, 아직 회귀를 포함하지 않았다. 본 발명의 다수의 실시 형태에 따른 프로세스는 EFχ와 유사한 회귀의 조기 강화를 위한 새로운 계량
Figure pct00040
을 이용한다. 주어진 표적의 경우:
Figure pct00041
여기서, 샘플 i에 대한 실험 (관측) 측정값인 y i 는 샘플 i에 대한 모델 (예측) 측정값인
Figure pct00042
에 따라 내림차순으로 순위가 매겨진다. 환언하면, 예를 들어, y i (즉, log(K i ) 값)와 동일한 단위를 갖는
Figure pct00043
를 계산하기 보다는, 최고 χ% 득점 샘플의 관측값에 대한 평균 z 점수가 계산된다. 불행히도, 이러한 비정규화 접근법은 데이터 세트의 분포에 의존한다. 예를 들어, log(K i ) 측정값의 분포에서, 평균으로부터의 최대 편차가 1.0인 경우, 모델이 수행할 수 있는 최선의 방법은 1.0의
Figure pct00044
을 달성하는 것이다.
본 발명의 다양한 실시 형태에 따른 프로세스는 데이터의 표준 편차인 σ(y)에 의한 나누기를 통해 정규화된다. 이것은 공통 측정 단위를 사용하지만 해당 측정값의 상이한 분산을 사용하는 데이터 세트 전체에 걸쳐 모델 성능의 비교를 가능하게 한다. 따라서, 상한은 (15)의 우측편과 같으며, 여기서, 분자들의 인덱스화된 세트 i는 χ·N 가장 실험적 활성 분자들의 서브 세트를 구성한다. 이러한 값은 χ 값 뿐만 아니라 트레이닝 데이터의 분포 모두에 의존한다.
Figure pct00045
는 χ·N z 점수에 대한 평균이며, 이러한 점수 자체는 평균 실험 활성을 벗어난 표준 편차의 실제 수치이다. 따라서,
Figure pct00046
값은 1.0을 초과 할 수 있는데, 이는 최고 예측 분자들의 χ 백분율이 평균보다 1.0 초과의 평균 표준 편차를 갖는다는 것을 의미하기 때문이다.
공간 그래프 컨볼루션들은 친화도 예측에서 최신 성능을 나타낸다. 본 발명의 여러 실시 형태에 따른 공간 그래프 컨볼루션들은 보다 원칙적인 심층 학습 접근법을 사용한다. 입력 특징들은 원자, 결합 및 거리에 대한 기본 정보일 뿐이다. 다양한 실시 형태에서, 이러한 프레임워크는 소수성 효과, π-스태킹 또는 수소 결합과 같은 전통적인 수작업 특징들을 사용하지 않는다. 대신에, 본 발명의 다양한 실시 형태에 따른 고수준 상호 작용 "특징들"은 중간 그래프 컨볼루션 신경 네트워크 층들을 통해 학습된다. 보다 간단한 입력 특징화에도 불구하고, 본 발명의 다양한 실시 형태에 따른 공간 그래프 컨볼루션들은 이전의 전문 지식 중심의 접근법과 동일한 비교적 소량의 데이터를 사용하여 결합 자유 에너지에 대한 단백질-리간드 구조들의 정확한 맵핑을 학습할 수 있다. 기계 학습이 실제 약물 발견 설정에 적용되려면, 화학적 공간의 친숙한 영역 내에서 내삽할 뿐만 아니라 이의 덜 차트화된 영역으로 일반화하는 주어진 모델의 능력을 측정하는 것이 중요하다.
한 양태에서, 본 개시 내용은 분자들에 대한 특성들을 예측하기 위한 방법 및 시스템을 제공한다. 상기 방법은 (a) N 원자들 및 N et 엣지 유형들에 의해 그래프로서 분자들의 세트의 표현을 수득하는 단계; (b) 상기 N et 엣지 유형들의 서브 세트를 갖는 분자들의 세트의 그래프 표현으로 그래프 컨볼루션들의 제1 세트를 수행하는 단계; (c) 상기 N et 엣지 유형의 서브 세트를 각각 갖는 그래프 컨볼루션들의 추가 세트를 0과 S-1 사이에서 수행하는 단계; 및 (d) 특성 예측이 필요한 경우, 추가 신경 네트워크 층들이 뒤따르는 그래프의 서브 그래프에 대해 그래프 수집을 수행하는 단계를 포함한다.
상기 시스템은 (a) N 원자들 및 N et 엣지 유형들에 의해 그래프로서 분자들의 세트의 표현을 수득하고; (b) 상기 N et 엣지 유형들의 서브 세트를 갖는 분자들의 세트의 그래프 표현으로 그래프 컨볼루션들의 제1 세트를 수행하고; (c) 상기 N et 엣지 유형들의 서브 세트를 각각 갖는 그래프 컨볼루션들의 추가 세트를 0과 S-1 사이에서 수행하고; (d) 특성 예측이 필요한 경우, 추가 신경 네트워크 층들이 뒤따르는 그래프의 서브 그래프에 대해 그래프 수집을 수행하도록 개별적으로 또는 집합적으로 구성되는 하나 이상의 프로세서들을 포함한다.
일부 실시 형태에서, 분자들의 세트의 표현은 NxN 거리 행렬을 추가로 포함한다. 상기 N et 엣지 유형들은 결합 유형, 염 브릿지, 파이 스태킹, 거리 빈, 거리 기준 세트, 원시 거리 (raw distance) 또는 이들의 조합을 포함할 수 있다. 일부 실시 형태에서, (b)는 NxN 거리 행렬로부터 직접 정보를 통합하는 것을 추가로 포함한다. 일부 실시 형태에서, (c)는 NxN 거리 행렬로 그래프 컨볼루션들을 수행하는 것을 추가로 포함한다. 일부 실시 형태에서, 그래프의 서브 그래프는 하나 이상의 분자들의 것일 수 있다.
일부 실시 형태에서, 상기 그래프의 서브 그래프는 1개의 서브 그래프, 2개의 서브 그래프, 3개의 서브 그래프, 4개의 서브 그래프, 5개의 서브 그래프 또는 그 이상일 수 있다. 일부 실시 형태에서, 상기 그래프의 서브 그래프는 1 내지 1000000개의 서브 그래프, 1 내지 10000개의 서브 그래프, 1 내지 1000개의 서브 그래프, 1 내지 100개의 서브 그래프, 1 내지 50개의 서브 그래프, 1 내지 20개의 서브 그래프, 1 내지 10개의 서브 그래프 또는 1 내지 5개의 서브 그래프일 수 있다.
한 양태에서, 본 개시 내용은 분자들에 대한 특성들을 예측하기 위한 방법을 제공한다. 상기 방법은 (a) 분자들의 세트의 공간 그래프 표현으로 그래프 컨볼루션들의 제1 세트를 수행하되, 여기서, 상기 그래프 컨볼루션들의 제1 세트가 상기 분자들의 세트 사이의 결합에 기초하는 단계, (b) 상기 공간 그래프 표현으로 그래프 컨볼루션들의 제2 세트를 수행하되, 여기서, 상기 그래프 컨볼루션들의 제2 세트가 적어도 상기 분자들의 세트의 각 원자와 다른 원자들 사이의 거리에 기초하는 단계, (c) 상기 공간 그래프 표현으로 그래프 수집을 수행하는 단계, 및 (d) 상기 분자들의 세트에 대한 하나 이상의 특성들의 세트를 예측하는 단계를 포함한다. 상기 분자들의 세트는 1개의 분자, 2개의 분자 또는 그 이상의 분자일 수 있다.
일부 실시 형태에서, 하나 이상의 특성들의 세트를 예측하는 단계는 그래프 수집으로부터 데이터를 평가하는 것을 포함한다. 본 발명의 다수의 실시 형태에 따른 프로세스는 하나 이상의 분자들의 세트에 대한 원자 정보를 수신할 수 있다. 상기 원자 정보는 분자내 결합 길이, 분자내 결합 강도, 분자내 결합각, 분자내 2면각, 2개 및/또는 그 이상의 분자들 사이의 2면각, 2개 및/또는 그 이상의 분자들 사이의 결합각, 동일하거나 2개 및/또는 그 이상의 상이한 분자들의 원자 쌍들 사이의 원자간 거리, 동일하거나 2개 및/또는 그 이상의 상이한 분자들의 원자 트리플들 사이의 원자간 각도, 2개 및/또는 그 이상의 분자들 사이의 결합 거리, 분자의 전하, 분자의 전기 음성도, 주어진 원자 쌍의 쌍극자, 분자의 쌍극자, 하나 이상의 분자들의 세트의 쌍극자, 및/또는 2개 및/또는 그 이상의 분자들 사이의 힘일 수 있지만, 이들에 한정되는 것은 아니다. 2개 및/또는 그 이상의 분자들 사이의 힘은 정전기, 이온 인력, 중간 쌍극자-쌍극자, 약한 런던 분산, 소수성 상호 작용, 친수성 상호 작용, 반 데르 발스, 수소 결합, 공유 결합, 금속 결합, 자기적 및/또는 물리적일 수 있지만, 이들에 한정되는 것은 아니다. 분자내 원자 또는 원자들의 원자 정보는 화학 원소, 원자 번호, 양성자 수, 전자 수, 대략적인 질량, 전하, 직경, 모양, 궤도 모양, 크기, 에너지 수준, 원자가, 자기 모멘트 및/또는 동위 원소를 포함할 수 있지만, 이들에 한정되는 것은 아니다.
다양한 실시 형태에서, 상기 공간 그래프 표현을 구축하는 단계는 거리 행렬 및 인접 텐서를 생성하는 것을 포함할 수 있고, 여기서, 상기 거리 행렬은 상기 분자들의 세트의 원자들 사이의 거리들을 나타내고, 상기 인접 텐서는 원자들 사이의 복수의 상이한 엣지 유형들을 나타낸다. 엣지 유형들은 공유 결합, 이온 결합, 극성 결합, 금속 결합, 비공유 결합 (예를 들어, π-π 스태킹), 염 브릿지, 거리 빈 (가우시안 및/또는 기타 기준 세트에서의 하드 컷오프 및/또는 확장) 및/또는 수소 결합을 포함할 수 있지만, 이들에 한정되는 것은 아니다.
다수의 실시 형태에서, 상기 분자들의 세트는 리간드 분자 및 표적 분자를 포함하고, 여기서, 상기 거리 행렬의 행은 상기 리간드 분자 및 표적 분자의 구성원에 의해 정렬된다.
일부 실시 형태에서, 상기 분자들의 세트 사이의 결합은 공유 결합을 포함한다. 다수의 실시 형태에서, 상기 분자들의 세트 사이의 결합은 π-π 스태킹, 수소 결합 및 소수성 접촉 중 적어도 하나를 포함한다. 일부 실시 형태에서, 상기 세트내 상이한 분자들의 원자들 사이의 결합/엣지는 소프트 또는 하드 빈의 거리로 구성된다. 일부 실시 형태에서, 상기 분자들의 세트는 하나의 분자를 포함할 수 있다. 일부 실시 형태에서, 상기 분자들의 세트는 용매 분자들에 의해 둘러싸인 하나의 분자를 포함할 수 있다.
일부 실시 형태에서, 상기 그래프 컨볼루션들의 제2 세트는 상기 분자들의 세트 사이의 결합에 추가로 기초한다. 일부 실시 형태에서, 상기 그래프 컨볼루션들의 제1 세트는 상기 분자들의 세트 사이의 결합들의 제1 세트에 기초하고, 상기 그래프 컨볼루션들의 제2 세트는 상기 분자들의 세트 사이의 결합들의 제2 세트에 기초한다. 일부 실시 형태에서, 상기 결합들의 제1 세트는 상기 결합들의 제2 세트의 서브 세트이다.
본 발명의 다수의 실시 형태에 따라 상기 그래프 컨볼루션들의 제1 세트를 수행하는 단계는 상기 그래프 컨볼루션들의 각 층에서 연산을 수행하는 것을 포함한다. 일부 실시 형태에서, 상기 연산은 게이트 제어 순환 단위 (GRU), 장단기 메모리 (long shortterm memory: LSTM), 게이트 제어 선형 단위 (gated linear unit: GLU), 순환 신경 네트워크, 완전 연결 신경 네트워크들 또는 이들의 조합일 수 있지만, 이들에 한정되는 것은 아니다. 다수의 실시 형태에서, 상기 그래프 컨볼루션들의 제1 세트를 수행하는 단계는 상기 그래프 컨볼루션들의 각 층에서 게이트 제어 순환 단위 (GRU) 연산을 수행하는 것을 포함한다.
여러 실시 형태에서, 상기 그래프 컨볼루션들의 제1 세트를 수행하는 단계는 제1 복수의 신경 네트워크들을 이용하는 것을 포함하고, 여기서, 상기 복수의 신경 네트워크들의 각 신경 네트워크는 상이한 결합 유형에 대해 사용될 수 있다. 다수의 실시 형태에서, 상기 그래프 컨볼루션들의 제2 세트를 수행하는 단계는 제2 복수의 신경 네트워크들을 이용하는 것을 포함하고, 여기서, 상기 제1 복수의 신경 네트워크들에 대한 가중치는 상기 제2 복수의 신경 네트워크들과 공유될 수 있다.
여러 실시 형태에서, 상기 그래프 컨볼루션들의 제2 세트를 수행하는 단계는 제2 복수의 신경 네트워크들을 이용하는 것을 포함하고, 여기서, 상기 제2 복수의 신경 네트워크들의 신경 네트워크들은 상기 분자들의 세트의 원자들 사이의 거리에 관한 거리 정보를 이용할 수 있다.
일부 실시 형태에서, 상기 분자들의 세트는 리간드 분자 및 표적 분자를 포함하고, 상기 그래프 수집은 상기 리간드 분자에 대해서만 수행될 수 있다.
일부 실시 형태에서, 상기 특성들의 세트는, 상기 분자들의 세트의 제1 분자가 상기 분자들의 세트의 제2 분자와 결합하는지 여부를 포함한다.
또 다른 양태에서, 본 개시 내용은 공간 컨볼루션 그래프 모델을 트레이닝시키기 위한 방법을 제공한다. 상기 방법은, 분자들의 세트의 공간 컨볼루션 그래프 모델로 그래프 컨볼루션들의 제1 세트를 수행하되, 여기서, 상기 그래프 컨볼루션들의 제1 세트가 상기 분자들의 세트 사이의 결합에 기초하는 단계; 상기 공간 컨볼루션 그래프 모델로 그래프 컨볼루션들의 제2 세트를 수행하되, 여기서, 상기 그래프 컨볼루션들의 제2 세트가 적어도 상기 분자들의 세트의 각 원자와 다른 원자들 사이의 거리에 기초하는 단계; 상기 공간 컨볼루션 그래프 모델로 그래프 수집을 수행하는 단계; 상기 분자들의 세트에 대한 손실을 계산하는 단계; 및 상기 계산된 손실에 기초하여 상기 공간 컨볼루션 그래프 모델을 업데이트하는 단계를 포함한다.
일부 실시 형태에서, 상기 분자들의 세트의 운동을 예측하는 단계는 확률적 시뮬레이션을 수행하고, 예를 들어, 용매화 효과를 추정하고, 공간 배좌 엔트로피를 추정하고, 단백질과 리간드 모두의 상이한 공간 배좌 (예를 들어, 결합의 "유도 적합" 모델)를 탐색함으로써 계산될 수 있다. 본 발명의 여러 실시 형태에 따른 운동의 예측은 단백질에 대한 리간드 결합 (그러나, 이에 한정되는 것은 아님)과 같은 주요 생물리학적 프로세스를 시뮬레이션하는데 사용될 수 있으며, 이는 분자들의 세트의 운동을 예측하여 계산될 수 있는 여러 특성들에 의존할 수 있다.
특정 실시 형태에서, 프로세스 및 시스템은 하나 이상의 신경 네트워크들의 세트를 트레이닝시켜 역장에 대한 하나 이상의 파라미터들의 세트를 예측하기 위해 상기 공간 컨볼루션 그래프 모델의 층들을 사용할 수 있다. 상기 네트워크의 층들은 역장에 대한 하나 이상의 파라미터들의 세트를 예측하기 위해 1, 2, 3, 4, 5, 10, 20, 50, 100, 1000, 10000개 또는 그 이상의 신경 네트워크들의 세트를 트레이닝시킬 수 있다. 상기 네트워크의 층들은 역장에 대한 하나 이상의 파라미터들의 세트를 예측하기 위해 1~10000, 1~1000, 1~500, 1~100, 1~10 또는 1~5개의 신경 네트워크들의 세트를 트레이닝시킬 수 있다. 신경 네트워크들은 역장에 대한 1, 2, 3, 4, 5, 10, 20, 50, 100, 1000, 10000개 또는 그 이상의 파라미터들의 세트를 예측하는데 사용될 수 있다. 신경 네트워크들은 역장에 대한 1~10000, 1~1000, 1~500, 1~100, 1~10 또는 1~5개의 파라미터들의 세트를 예측하는데 사용될 수 있다.
다양한 실시형태에서, 상기 파라미터들의 세트는 하나 이상의 특성들의 세트와 연관될 수 있고, 여기서, 상기 특성들의 세트는 전하, 결합, 각도 및 2면각 중 적어도 하나를 포함한다. 상기 파라미터들의 세트는 1, 2, 3, 4, 5, 10, 20, 50, 100, 1000, 10000개 또는 그 이상의 특성들의 세트와 연관될 수 있다. 상기 파라미터들의 세트는 1~10000, 1~1000, 1~500, 1~100, 1~10 또는 1~5개의 특성들의 세트와 연관될 수 있다.
특정 실시 형태에서, 상기 공간 컨볼루션 그래프 모델은 제1 공간 컨볼루션 그래프 모델일 수 있고, 상기 방법은 위치 에너지를 예측하기 위해 제2 공간 컨볼루션 그래프 모델을 트레이닝시키는 단계; 및 상기 제1 및 제2 공간 컨볼루션 그래프 모델들에 기초하여 분자 시스템의 위치 에너지를 예측하는 단계를 추가로 포함한다.
다양한 실시형태에서, 상기 제2 공간 컨볼루션 그래프 모델을 트레이닝시키는 단계는 상기 제1 및 제2 공간 컨볼루션 그래프 모델들 사이에 하나 이상의 층들의 세트를 공유하는 것을 포함한다. 상기 제2 공간 컨볼루션 그래프 모델을 트레이닝시키는 단계는 상기 제1 및 제2 공간 컨볼루션 그래프 모델들 사이에 1, 2, 3, 4, 5, 10, 20, 50, 100, 1000, 10000개 또는 그 이상의 층들의 세트를 공유하는 것을 포함할 수 있다. 상기 제2 공간 컨볼루션 그래프 모델을 트레이닝시키는 단계는 상기 제1 및 제2 공간 컨볼루션 그래프 모델들 사이에 1~10000, 1~1000, 1~500, 1~100, 1~10 또는 1~5개의 층들의 세트를 공유하는 것을 포함할 수 있다.
일부 실시 형태에서, 상기 역장은 AMBER 함수 형태이다. 일부 실시 형태에서, 상기 역장 함수는 완전 신경 전위 (fully neural potential)일 수 있으며, AMBER, CHARMM (CMAP 용어 포함 또는 제외), GROMOS, AMOEBA 또는 이들의 조합과 같으나 이들에 한정되지 않는 고정 형태 전위의 특성을 취할 수 있다.
다수의 실시 형태에서, 시스템 및 프로세스는 하나 이상의 신경 네트워크들의 세트를 트레이닝시켜 입력 분자 시스템의 위치 에너지를 예측하기 위해 상기 공간 컨볼루션 그래프 모델의 층들을 사용할 수 있다. 상기 공간 컨볼루션 그래프 모델의 층들은 입력 분자 시스템의 위치 에너지를 예측하기 위해 1, 2, 3, 4, 5, 10, 20, 50, 100, 1000, 10000개 또는 그 이상의 신경 네트워크들의 세트를 트레이닝시키는데 사용될 수 있다. 상기 공간 컨볼루션 그래프 모델의 층들은 입력 분자 시스템의 위치 에너지를 예측하기 위해 1~10000, 1~1000, 1~500, 1~100, 1~10, 1~5개 또는 그 이상의 신경 네트워크들의 세트를 트레이닝시키는데 사용될 수 있다.
다양한 실시형태에서, 상기 공간 그래프 컨볼루션 모델에 의해 예측된 위치 에너지를 최소화함으로써 상기 분자들의 세트의 공간 배좌들의 세트를 식별하는 단계.
또 다른 양태에서, 본 개시 내용은 분자들의 세트의 공간 그래프 표현으로 그래프 컨볼루션들의 제1 세트를 수행하되, 여기서, 상기 그래프 컨볼루션들의 제1 세트가 상기 분자들의 세트 사이의 결합에 기초하고; 상기 공간 그래프 표현으로 그래프 컨볼루션들의 제2 세트를 수행하되, 여기서, 상기 그래프 컨볼루션들의 제2 세트가 적어도 상기 분자들의 세트의 각 원자와 다른 원자들 사이의 거리에 기초하고; 상기 공간 그래프 표현으로 그래프 수집을 수행하고; 상기 분자들의 세트에 대한 하나 이상의 특성들의 세트를 예측하도록 개별적으로 또는 집합적으로 구성되는 하나 이상의 프로세서들을 포함하는, 분자들에 대한 특성들을 예측하기 위한 시스템을 제공한다.
또 다른 양태에서, 본 개시 내용은 약물 발견을 위한 방법 및 시스템을 제공한다. 상기 방법은 기계 학습에 의해 예측된 분자 특성들로부터 후보 리간드를 식별하는 단계를 포함할 수 있다. 일부 실시 형태에서, 후보 리간드를 식별하는 단계는, 분자들의 세트의 공간 그래프 표현으로 그래프 컨볼루션들의 제1 세트를 실행하되, 여기서, 상기 그래프 컨볼루션들의 제1 세트가 상기 분자들의 세트 사이의 결합에 기초하는 것; 상기 공간 그래프 표현으로 그래프 컨볼루션들의 제2 세트를 실행하되, 여기서, 상기 그래프 컨볼루션들의 제2 세트가 적어도 상기 분자들의 세트의 각 원자와 다른 원자들 사이의 거리에 기초하는 것; 상기 공간 그래프 표현으로 그래프 수집을 수행하는 것; 상기 분자들의 세트에 대한 하나 이상의 특성들의 세트를 예측하는 것; 및 상기 분자들의 세트에 대한 하나 이상의 특성들의 세트로부터 후보 리간드를 예측하는 것을 포함한다.
일부 실시 형태에서, 상기 시스템은 분자들의 세트의 공간 그래프 표현으로 그래프 컨볼루션들의 제1 세트를 실행하되, 여기서, 상기 그래프 컨볼루션들의 제1 세트가 상기 분자들의 세트 사이의 결합에 기초하고; 상기 공간 그래프 표현으로 그래프 컨볼루션들의 제2 세트를 실행하되, 여기서, 상기 그래프 컨볼루션들의 제2 세트가 적어도 상기 분자들의 세트의 각 원자와 다른 원자들 사이의 거리에 기초하고; 상기 공간 그래프 표현으로 그래프 수집을 실행하고; 상기 분자들의 세트에 대한 하나 이상의 특성들의 세트를 예측하고; 상기 분자들의 세트에 대한 하나 이상의 특성들의 세트로부터 후보 리간드를 예측하도록 개별적으로 또는 집합적으로 구성되는 하나 이상의 프로세서들을 포함한다.
일부 실시 형태에서, 상기 하나 이상의 특성들의 세트는 결합 친화도를 포함한다. 일부 실시 형태에서, 상기 하나 이상의 특성들의 세트는 리간드 공간 배좌를 포함한다. 일부 실시 형태에서, 상기 하나 이상의 특성들의 세트는 리간드의 전하, 독성, 흡수, 분포, 대사, 제거, CYP450 서브 타입 억제, 대사 안정성, 막 투과성, 경구 생체 이용률, 양자 전자 특성, 용해도, LogD 또는 이들의 조합일 수 있다.
일부 실시 형태에서, 사전 트레이닝된 모델이 상기 분자들의 세트에 대한 상기 하나 이상의 특성들의 세트로부터 후보 리간드를 예측하는 것을 보조하기 위해 이용될 수 있다.
다양한 실시 형태에서, 제안된 아키텍처의 성능을 이전 방법과 비교하기 위해, 당해 성능은 PDBBind 2007에 기초하여 평가되었다. 일부 실시 형태에서, 상기 PDBBind 2007 데이터 세트는 (a) 단백질-리간드 공결정 구조물 및 관련 결합 자유 에너지 값을 포함하는 "정제된 (refined)" 세트로 시작하고; (b) "코어" 세트를 제거하여 테스트 세트를 형성함으로써 분할되고, (c) 나머지 샘플은 학습 데이터의 역할을 한다. 본 개시 내용에서, 이러한 트레인 테스트 분할은 이하 "PDBBind 2007, 정제된 트레인, 코어 테스트"를 지칭하며, 성능을 본 개시 내용에서 기재된 RF 점수, X 점수 및 네트워크와 비교한다.
본 명세서에서, 본 개시 내용은 일부 실시 형태에서 모든 트레이닝 데이터를 거리 계량과 같은 쌍 구조 및 순서 동족 관계에 기초한 계층적 클러스터링에 의해 3개의 별개 폴드 - 훈련, 검증 및 테스트 서브 세트 - 로 분할하는 교차 검증 전략을 조사한다. 다양한 실시 형태에서, 벤치마킹을 위한 교차 검증은 하이퍼 파라미터 세트를 사용한다.
실시예
하기 실시예들은 예시를 위해 제공되지만 청구된 발명을 한정하는 것은 아니다. 심층 신경 네트워크 알고리즘의 성능은 선택된 하이퍼 파라미터에 매우 민감하다. 이러한 민감도는 엄격한 교차 검증의 중요성을 강조한다. 제안된 아키텍처의 성능을 이전 방법과 비교하기 위해, 당해 성능을 PDBBind 2007에 기초하여 평가하였다. 이전 작업에서, 상기 PDBBind 2007 데이터 세트는 (a) 1,300개의 단백질-리간드 공결정 구조물 및 관련 결합 자유 에너지 값을 포함하는 "정제된" 세트로 시작하고; (b) 195개의 샘플을 포함하는 "코어" 세트를 제거하여 테스트 세트를 형성함으로써 분할되고, (c) 나머지 1,095개의 샘플은 학습 데이터의 역할을 한다. 본 개시 내용에서, 이러한 트레인 테스트 분할은 하기 "PDBBind 2007, 정제된 트레인, 코어 테스트"를 지칭하며, 본 개시 내용에서 기재된 RF 점수, X 점수 및 네트워크들과 성능을 비교한다.
본 명세서에서, 본 개시 내용은 일부 실시 형태에서 모든 트레이닝 데이터를 거리 계량과 같은 쌍 구조 및 순서 상동성에 기초한 계층적 클러스터링에 의해 3개의 별개 폴드 - 훈련, 검증 및 테스트 서브 세트 - 로 분할하는 교차 검증 전략을 조사한다. 표준 PDBBind 2007 "정제된 트레인, 코어 테스트" 벤치마크에서, 공간 그래프 컨볼루션은 여러 계량에 의해 반영된 최신 성능을 달성한다. PotentialNet은 Pearson 및 Spearman 상관 계수에 따른 RF 점수 및 X 점수를 능가한다. (7)~(14)에 대한 Pearson 상관 관계 점수는 상기 벤치마크에서 지금까지 최고 성능 모델인 TopologyNet에 대해 보고된 점수의 오차 내에 있다. 표 I, II 및 III에서 보고된 모든 결과를 포함하여 이에 대한 교차 검증을 수행하여, 개별 검증 세트에 대해 가장 높게 수행된 하이퍼 파라미터 세트에 대해 테스트 세트에 대한 성능을 기록하였다 (표 VII). 대조적으로, TopologyNet 모델을 검증 및 훈련 세트의 조합으로 트레이닝시키고, 테스트 세트에 대해 직접 평가하였다. 따라서, TopologyNet의 성능은 해당 방법의 성능을 부풀리게 할 가능성이 있는 트레인-검증-테스트 분할 보다는 오히려 트레인-검증 유형 분할을 반영한다. 표 IV~VI은 양자 특성, 독성 및 용해도의 예측에 대한 비교 결과를 나타낸다.
Figure pct00047
Figure pct00048
Figure pct00049
Figure pct00050
Figure pct00051
Figure pct00052
Figure pct00053
이러한 실시예들은 예시를 위해 제공되지만 청구된 발명을 한정하는 것은 아니다.
공간 그래프 컨볼루션에 의한 분자 역학
신경 네트워크 커뮤니티가 생성적 적대 네트워크 (generative adversarial network: GAN) 및 변이형 오토인코더 (variational autoencoder: VAE)와 같은 생성적 모델에 증가하는 공급원을 투자하는 동안, 자연 과학은 17 세기부터 생성적 모델의 계열인 물리학에 대해 연구해 왔다. 광학 물리학은 생물학적 거대 분자와 이에 결합하는 작은 분자 약물의 실시간 원자 용해 거동의 관찰을 못하게 한다. 양자 역학 (quantum mechanic: QM)은 이러한 실험적 관찰에 근본적인 한계를 두고 있는 반면, 이의 수학적 프레임워크에 대한 지식은 또한 임의의 정밀도로 이러한 원자론적 거동을 이론적으로 모델링할 수 있는 능력을 부여한다.
3가지 운동 법칙 및 간단한 역 제곱 법칙 전위에 근거한 최초의 뉴턴 역학은 초기 조건이 주어지면 물체의 미래 위치의 매우 정확한 예측을 가능하게 하였다. 20 세기에, 마이크로 및 나노 규모 현상의 측정이 더욱 보편화됨에 따라, 양자 역학이 아원자, 원자 및 분자 시스템의 장기적, 확률적 거동을 예측하는데 있어 전례가 없는 정확성을 실현하기 위해 발명되었다.
분자 역학 (molecular dynamics: MD)은 기본적인 슈뢰딩거 방정식에 대한 뉴턴 근사치를 만들어 순수한 QM 보다 분자의 이러한 이론적인 조도를 보다 계산적으로 다루기 쉽게 만드는 기술 계열이다. 2가지 근본적인 트레이드오프가 분자 시스템의 검사에 존재한다: 분자의 실험적 관찰에서 공간 및 시간 해상도 사이의 트레이드오프, 및 시스템에서 모든 원자를 명시적으로 모델링하는 계산 방법의 속도와 정확도 사이의 트레이드오프. 분자 역학은 뉴턴 역학을 사용하여 양자 역학에서 구현된 보다 현실적이지만 보다 느리게 평가되는 물리적 모델을 근사치로 계산하는 시뮬레이션 유형이다. 분자 역학의 부정확성은 주로 역장 오류 - 시스템에서 원자 위치에 기초한 위치 에너지 함수의 부정확성 - 및 시뮬레이션의 불충분한 시간 척도로부터 유래한다.
본 발명의 여러 실시 형태에 따른 시스템 및 방법은 분자 시스템에 대한 에너지 및 이에 따른 역장의 보다 정확한 추정을 발달시키기 위한 프레임워크를 제공한다. 본 발명의 다수의 실시 형태에 따른 프로세스는 작은 유기 분자의 거동을 보다 정확하게 나타내기 위해 AMBER (Assisted Model Building with Energy Refinement) 함수 형태를 다시 파라미터화하기 위해 공간 그래프 컨볼루션을 효율적으로 사용한다. 본 발명의 일부 실시 형태에 따른 프로세스는 개별 아미노산 및 염기에서부터 단백질 및 핵산까지 임의의 주어진 질의 생체 분자 시스템에 대한 새로운 파라미터를 자동으로 생성할 수 있다. 특정 실시 형태에서, 프로세스는 최근 수십 년 동안 MD 시뮬레이션을 지배해온 AMBER 함수 형태를 기반으로 새로운 역장을 트레닝시키기 위해 그래프 컨볼루션을 효율적으로 사용할 수 있다. 다수의 실시 형태에서, 심층 신경 네트워크 (deep neural network: DNN)는 고정된 단순한 초기 특징화 및 원자의 동적 상대 위치로부터 유래하는 미분 가능한 학습 원자 유형에 기초하여 에너지를 계산하는 새로운 함수 형태를 학습하는데 이용될 수 있다. 특정 실시 형태에서, 위치 에너지 함수는 상기에서 기재된 것과 같은 공간 그래프 컨볼루션에 기초하여 구성되고 평가될 수 있다. 본 발명의 특정 실시 형태에 따른 그래프 컨볼루션 전위 (graph convolutional potential: GCP) 모델은 작은 분자들의 세트의 다중 배좌이성체에 대해 에너지의 고수준 양자 역학 계산으로 이루어진 데이터 세트에 대해 트레이닝되고 평가될 수 있다. 본 발명의 다양한 실시 형태에 따른 역전달로 계산된 이러한 에너지 함수의 기울기는 AMBER 함수 형태의 고유 한계에 의해 제한되지 않는 보다 더 정확한 분자 역학 시뮬레이션을 위한 기초를 형성할 수 있다.
매우 보편화된 AMBER 함수 형태는 양자 역학 계산, NMR 및 기타 경험적 데이터의 조합을 사용하여 AMBER 및 CHARMM 역장에서 적합하다. 함수 형태는 하기와 같이 기술된다:
Figure pct00054
스칼라 출력 V(r N )는 원자의 위치, 원자의 "유형", 및 이들 원자와 연관된 파라미터 (결합, 반 데르 발스 힘, 정전기력) 및 이의 2-튜플 (tuple), 3-튜플 (각도) 및 4-튜플 (2면각)의 함수인 위치 에너지이다. 일부 실시 형태에서, 신경 네트워크는 트레이닝된다. 본 발명의 여러 실시 형태에 따른 신경 네트워크는 입력 초기 특징 텐서 (x,A,R)로 간주되고 (16)에서 파라미터를 계산하여 위치 에너지를 가장 정확하게 계산할 수 있으며, 여기서, xN × f in 행렬이고, 각각의 N 원자는 f in 특징의 행 벡터로 표시되며, AN et 엣지 유형 (결합 유형, 비공유 상호 작용 등)에서 인접 행렬의 N × N × N et 텐서이고, RN × N 거리 행렬이다.
특정 실시 형태에서, 프로세스는 전통적인 역장에서 별개의 "원자 유형"과 유사한 각 원자에 대한 조밀하고 미분 가능한 특징 맵을 유도할 수 있다. 이러한 일부 실시 형태에서, 데이터 세트 (예를 들어, ANI-1 데이터 세트)는 "특징화" (전하, 평형 결합 길이, 각도, 2면각 및 이의 힘의 상수)를 적용하는 새로운 AMBER 유사 역장 (force field: FF)을 데이터 세트에 대한 트레이닝에 기초하여 아미노산 및 이의 작은 분자에 적합하도록 이용될 수 있다. 최근에 공개된 ANI-1 데이터 세트는 밀도 함수 이론 (density functional theory: DFT), 양자 화학 방법을 통해 계산된 약 60,000개의 작은 유기 분자 전체에 걸쳐 퍼진 약 2천만개의 총 공간 배좌 및 관련 에너지 값을 포함한다. 특정 실시 형태에서, 파라미터가 그래프 컨볼루션으로부터 파생되는 완전 PotentialNet 또는 그래프 컨볼루션 전위 또는 AMBER 함수 형태에 기초한 역장은 양자 화학 계산 (예를 들어, ANI-1 데이터 세트), NMR 실험 데이터 등으로부터의 데이터로 트레이닝될 수 있다. 주어진 작은 분자의 경우, xA는 고정될 것이지만, R은 각 배좌이성체에 따라 달라질 것이다. 본 발명의 다수의 실시 형태에 따른 공간 그래프 컨볼루션은 원자 수준 특징을 학습할 수 있으며, 여기서, 이러한 원자 수준 특징은 전통적인 역장에서 흔한 "원자 유형"에 대한 연속적인 미분 가능한 유사체이다.
스테이지 1:
Figure pct00055
스테이지 S:
Figure pct00056
원자 특징 맵의 파라미터로의 맵핑
Figure pct00057
여기서,
Figure pct00058
은 원자 수준 특징의 각 행 벡터를 점전하를 나타내는 단일 스칼라로 맵핑하는 신경 네트워크이며,
Figure pct00059
는 원자 수준 특징의 연결된 2-튜플을 평형 결합 길이 및 힘의 상수로 맵핑하는 신경 네트워크이며,
Figure pct00060
는 원자 수준 특징의 연결된 3-튜플을 평형 접촉각 (equilibrium angle) 및 힘의 상수로 맵핑하는 신경 네트워크, 원자 수준 특징의 연결된 4-튜플을 평형 2면각, 주파수 및/또는 진폭으로 맵핑하는 신경 네트워크, 원자 수준 특징의 연결된 2-튜플을 반 데르 발스 힘으로 맵핑하는 신경 네트워크이다. 본질적으로, 새로운 AMBER 유사 역장의 각 파라미터는 공간 그래프 컨볼루션의 중간 층 (또는 동등하게는 마지막 층)에서 학습된 원자 특징을 기반으로 하는 신경 네트워크로 학습될 수 있다. 다양한 실시 형태에서, 별개 엣지 유형은 공간 그래프 컨볼루션과 함께 사용될 수 있다.
트레이닝 세트에 없는 새로운 분자의 경우, 본 발명의 여러 실시 형태에 따른 프로세스는, 단일 포워드 패스로, 고정된 특징화 x, A를 입력하고, OpenMM, AMBER, DESMOND 및 GROMACS (그러나, 이들에 한정되는 것은 아님)와 같은 분자 역학 시뮬레이션 패키지에서 MD 시뮬레이션을 수행하는데 필요한 기타 파라미터 및 점전하를 출력할 수 있다. 추가의 계산 단계는 상대적으로 간단한 연습 (exercise)인 역장 파일의 자동 생성일 수 있다.
완전 그래프 컨볼루션 전위
다수의 실시 형태에서, 시스템 및 방법은 그래프 컨볼루션 아키텍처에 근거한 심층 신경 네트워크로서 단대단 (end-to-end) 트레이닝된 완전히 새로운 위치 에너지 함수 형태를 이용한다. 그래프 이론 문헌에서, 노드별 스칼라 또는 벡터를 나타내는 "노드 수준 출력"은 그래프에서 모든 노드와 엣지의 함수인 단일 스칼라 또는 벡터인 "그래프 수준 출력"과 구별된다. 일부 실시 형태에서, 그래프 수준 출력은 원자/노드 순서에 불변인 "그래프 수집" 층을 통해 달성될 수 있으며:
Figure pct00061
여기서, 최종 가중치 행렬
Figure pct00062
은 최종 출력 h ( 출력 )의 목적하는 차원과 동일한 수의 행을 갖는다.
최종 출력이 스칼라 값이고 공간 그래프 컨볼루션 모델 (또는 PotentialNet)이 레이블로서 에너지 값에 연결된 입력 분자 시스템으로 트레이닝되는 경우, 본 발명의 일부 실시 형태에 따른 모델은 하기와 같은 위치 에너지 함수로서 처리될 수 있다:
Figure pct00063
본 발명의 여러 실시 형태에 따른 위치 에너지 φ (x, A, R)의 계산은 각 그래프 컨볼루션 층에 대해
Figure pct00064
(N 이웃 ·N·N 파라미터 ) 계산을 필요로 한다. 분자 시뮬레이션 커뮤니티에서 사용되는 기술인 이웃 목록이 없으면, 이러한 계산 비용은
Figure pct00065
(N 2 ·N 파라미터 )까지 올라갈 수 있다. N 원자 각각의 경우, 그래프 컨볼루션 층 당 전체 메시지를 수득하기 위해 전자 경우에서의 N 이웃 또는 후자 경우에서의 N-1 피드 포워드 신경 네트워크 (feed forward neural network)를 계산해야 한다.
AMBER 역장 함수 형태는 생체 거대 분자 및 작은 분자 동력학 뿐만 아니라 이들 사이의 상호 작용의 해명을 성공적으로 가능하게 하였다. 일부 실시 형태에서, 총 위치 에너지의 계산은 공간 그래프 컨볼루션 (또는 PotentialNet)과 AMBER 함수 형태 (초기 추측으로서 GAFF에 의한 고정된 또는 학습 가능한 파라미터 포함)의 합으로 계산된다:
Figure pct00066
일부 실시 형태에서, AMBER 함수 형태와 공간 그래프 컨볼루션 (또는 AmberNet)의 조합이 고려된다:
Figure pct00067
다수의 실시 형태에서, 이러한 혼성에서의 네트워크 파라미터의 총 수는 원자 특징 h ( 공간 )를 유도하는 중간 층을 공유함으로써 감소될 수 있다.
분자의 각 공간 배좌를 특징화하는 것은 (a) 각 원소 및 이의 혼성화 유형의 원-핫 (one-hot) 특징만큼 간단할 수 있는 원자 수준 특징, (b) 결합의 인접 텐서 및 (c) 원자간 거리를 수반한다. 다수의 실시 형태에서, 신경 네트워크 회귀 변수는 각 배좌이성체의 입력 x, AR을 에너지로 맵핑하기 위해 PotentialNet에 기초하여 트레이닝된다. 본 발명의 여러 실시 형태에 따른 교차 검증 전략은 무작위, 시간적 (이용 가능한 경우), 스캐폴드 및 SMILES 거리 병합 분할 (agglomerative splitting)를 포함하지만, 이들에 한정되는 것은 아니다. 여기서, 목표는 실험 또는 DFT 오류와 동등한 최신 에너지 추정치를 달성하는 것이어야 한다.
일부 실시 형태에서, PotentialNet (x, A, R) (예를 들어, 배좌이성체를 에너지 값으로 맵핑하는 ANI-1 및/또는 다른 데이터 세트에 의해)를 트레이닝시킨 후, 이러한 모델의 파라미터는
Figure pct00068
을 산출하도록 고정될 수 있다.
뉴턴 시스템에서, 하기와 같이 원자에 대한 힘을 표현할 수 있다:
Figure pct00069
특정 실시 형태에서, 기울기
Figure pct00070
는 다수의 심층 신경 네트워크 소프트웨어 패키지에 의해 구현되는 역전달 알고리즘으로 계산될 수 있다. 입력 특성 x, 입력 인접 행렬 A 및 초기 위치 R 0이 주어지면, 에너지
Figure pct00071
의 초기 추정치는 네트워크의 단일 포워드 패스로 수득될 수 있다. 그런 다음, 역전달은 R에 인코딩된 좌표에 대한 1차 도함수 정보를 생성한다. 그 후,
Figure pct00072
에 인코딩된 기울기 정보는 본 발명의 일부 실시 형태에 따라 에너지
Figure pct00073
를 감소시키기 위해 N 원자의 위치를 이동시키는데 사용될 수 있다. 원자간 거리 행렬 R이 특징으로서 입력될 수 있지만, 다수의 실시 형태에서는 초기 3 차원 위치 x, y, z가 입력 특징의 역할을 할 수 있으며, R이 신경 네트워크 내에서 쉽게 미분 가능하게 계산될 수 있다. 본 발명의 다수의 실시 형태에 따른 기울기는 각 원자의 x, y, z 위치를 업데이트하기 위해 약간의 작은 단계 크기로 사용될 수 있다. 그 후, 일부 실시 형태에서, 기울기는 업데이트된 좌표 및 생성된 거리 행렬 R1,
Figure pct00074
으로 재계산될 수 있고, 위치는 다시 업데이트될 수 있고, 프로세스는 계산된 힘
Figure pct00075
이 특정 허용치 (tolerance) 아래로 떨어질 때까지 반복적으로 계속될 수 있다.
뉴턴 시스템에서, 운동 방정식을 하기와 같이 표현할 수 있다:
Figure pct00076
본 발명의 다수의 실시 형태에 따른 프로세스는 속도 벌레뜨 알고리즘 (Verlet algorithm) (그러나, 이에 한정되는 것은 아님)을 비롯한 다양한 방법을 사용하여 일부 초기 좌표 (및 관련 원자간 거리 행렬 R 0)가 주어진 원자의 위치를 전달할 수 있다. 초기 속도는 맥스웰-볼츠만 분포 (Maxwell-Boltzmann distribution) (그러나, 이에 한정되는 것은 아님)와 같은 통계 역학 기술에 의해 결정될 수 있는 반면, 초기 위치는 결정학과 에너지 최소화의 조합을 통해 결정될 수 있다. 본 발명의 여러 실시 형태에 따른 에너지 최소화는 상기에서 기재된 것들과 같은 방법으로 수행될 수 있다. 특정 실시 형태에서, 트레이닝 데이터 세트는 다양한 배좌이성체에서 물 분자를 포함하지 않으므로, (25)에서
Figure pct00077
에 TIP3P 또는 유사한 전위를 추가하는 것이 바람직할 수 있다.
다수의 실시 형태에서, 2면각 공간에서만 GCP로 제1 MD 시뮬레이션을 수행하는 것이 바람직 할 수 있다. 일부 생물리학자들은 거대 분자의 생물학적 관련 동력학의 대부분이 오로지 회전 가능한 결합의 2면각 운동으로부터 유래한다고 주장해왔다. 2면각 또는 비틀림각은 연속된 일련의 4개의 결합 원자로 정의되는 2개의 평면 사이의 각도로 정의된다. 분자 시뮬레이션을 2면각 공간으로 제한하는 여러가지 방법들이 있다. 첫째로, 일부 실시 형태에서는 전위의 기울기가 d 2면각 θ에 대해 직접 취해질 수 있다:
Figure pct00078
결국, 본 발명의 일부 실시 형태에 따른 프로세스는 원시 x, y, z 좌표의 관점에서 2면각/내부 좌표 공간 도함수를 도함수로 전달하기 위해 추가의 도함수를 계산할 수 있다. 당해 분야의 통상의 기술자는 2면각 공간에서 MD를 수행하기 위한 다수의 방법들이 있다는 것을 인식할 것이다.
다양한 실시 형태에서, PotentialNet 또는 다르게는 AmberNet로부터의 완전 그래프 컨볼루션 에너지가 분자 도킹 에너지 함수에 대한 기초로 사용될 수 있다. 다수의 실시 형태에서, 주어진 리간드의 주어진 공간 배좌를 특정 배향으로 씨딩함으로써, 에너지 최소화 또는 확률 동력학 시뮬레이션을 사용하여 수용체에서 리간드의 글로벌 에너지 최소 공간 배좌 또는 도킹 포즈를 예측할 수 있다. 상기에서 기재된 바와 같이, PotentialNet의 다양한 변형태는 주어진 리간드-단백질 상호 작용의 결합 자유 에너지/결합 친화도/역가를 예측하는데 사용될 수 있다. 일부 실시 형태에서, 프로세스는 PotentialNet의 순수 그래프 컨볼루션 형태를 AmberNet 유사 전위와 결합할 수 있다. 결합 에너지를
Figure pct00079
으로 계산함으로써, 공간 배좌 엔트로피, 비틀림 변형 조건, 분자내 충돌, 및 고전적 분자 도킹 접근법으로부터의 다른 개념과 같은 개념을 통합할 수 있지만, 심층 신경 네트워크을 사용하여 이러한 파라미터를 유도할 수 있다. 다수의 실시 형태에서, 그래프 컨볼루션은 생체 분자 시스템의 집단 역학을 모니터링하고 구동하기 위해 반응 좌표를 계산하기 위한 자연 함수 형태일 수 있다.
본 발명이 특정한 구체적 양태로 기재되었지만, 다수의 추가 변경 및 변형이 당해 분야의 통상의 기술자에게 명백할 것이다. 따라서, 본 발명은 구체적으로 기재된 것과 다르게 실시될 수 있다는 것을 이해해야 한다. 따라서, 본 발명의 실시형태들은 모든 측면에서 제한적이 아니라 예시적인 것으로 간주되어야 한다.

Claims (62)

  1. 분자들에 대한 특성들을 예측하기 위한 방법으로서,
    분자들의 세트의 공간 그래프 표현으로 그래프 컨볼루션들 (convolution)의 제1 세트를 수행는 단계 - 상기 그래프 컨볼루션들의 제1 세트가 상기 분자들의 세트 사이의 결합에 기초함 -;
    상기 공간 그래프 표현으로 그래프 컨볼루션들의 제2 세트를 수행하는 단계 - 상기 그래프 컨볼루션들의 제2 세트가 적어도 상기 분자들의 세트의 각 원자와 다른 원자들 사이의 거리에 기초함 -;
    상기 공간 그래프 표현으로 그래프 수집을 수행하여 특징 벡터를 생성하는 단계; 및
    상기 특징 벡터에 기초하여 상기 분자들의 세트에 대한 하나 이상의 특성들의 세트를 예측하는 단계를 포함하는, 방법.
  2. 제1항에 있어서, 상기 하나 이상의 분자들의 세트에 대한 원자 정보를 수신하는 단계를 더 포함하는, 방법.
  3. 제1항에 있어서, 상기 분자들의 세트의 공간 그래프 표현을 구축하는 단계를 더 포함하는, 방법.
  4. 제3항에 있어서, 상기 공간 그래프 표현을 구축하는 단계가 거리 행렬 및 인접 텐서 (adjacency tensor)를 생성하는 단계를 포함하고, 상기 거리 행렬이 상기 분자들의 세트의 원자들 사이의 거리를 나타내고, 상기 인접 텐서가 원자들 사이의 복수의 상이한 엣지 유형들을 나타내는, 방법.
  5. 제4항에 있어서, 상기 분자들의 세트가 리간드 분자 및 표적 분자를 포함하고, 상기 거리 행렬의 행이 상기 리간드 분자 및 표적 분자의 구성원에 의해 정렬되는, 방법.
  6. 제1항에 있어서, 상기 분자들의 세트 사이의 결합이 공유 결합을 포함하는, 방법.
  7. 제1항에 있어서, 상기 분자들의 세트 사이의 결합이 π-π 스태킹 (stacking), 수소 결합 및 소수성 접촉 중 적어도 하나를 포함하는, 방법.
  8. 제1항에 있어서, 상기 그래프 컨볼루션들의 제2 세트가 상기 분자들의 세트 사이의 결합에 더 기초하는, 방법.
  9. 제8항에 있어서, 상기 그래프 컨볼루션들의 제1 세트가 상기 분자들의 세트 사이의 결합들의 제1 세트에 기초하고, 상기 그래프 컨볼루션들의 제2 세트가 상기 분자들의 세트 사이의 결합들의 제2 세트에 기초하는, 방법.
  10. 제9항에 있어서, 상기 결합들의 제1 세트가 상기 결합들의 제2 세트의 서브 세트인, 방법.
  11. 제1항에 있어서, 상기 그래프 컨볼루션들의 제1 세트를 수행하는 단계가 상기 그래프 컨볼루션들의 각 층에서 게이트 제어 순환 단위 (gated recurrent unit: GRU) 연산을 수행하는 것을 포함하는, 방법.
  12. 제1항에 있어서, 상기 그래프 컨볼루션들의 제1 세트를 수행하는 단계가 제1 복수의 신경 네트워크들을 이용하는 단계를 포함하고, 상기 제1 복수의 신경 네트워크들의 각 신경 네트워크가 상이한 결합 유형에 대해 사용되는, 방법.
  13. 제12항에 있어서, 상기 그래프 컨볼루션들의 제2 세트를 수행하는 단계가 제2 복수의 신경 네트워크들을 이용하는 단계를 포함하고, 상기 제1 복수의 신경 네트워크들에 대한 가중치가 상기 제2 복수의 신경 네트워크들과 공유되는, 방법.
  14. 제12항에 있어서, 상기 그래프 컨볼루션들의 제2 세트를 수행하는 단계가 제2 복수의 신경 네트워크들을 이용하는 단계를 포함하고, 상기 제2 복수의 신경 네트워크들의 신경 네트워크들이 상기 분자들의 세트의 원자들 사이의 거리에 관한 거리 정보를 이용하는, 방법.
  15. 제1항에 있어서, 상기 분자들의 세트가 리간드 분자 및 표적 분자를 포함하고, 상기 그래프 수집이 상기 리간드 분자에 대해서만 수행되는, 방법.
  16. 제1항에 있어서, 상기 특성들의 세트가, 상기 분자들의 세트의 제1 분자가 상기 분자들의 세트의 제2 분자와 결합하는지 여부를 포함하는, 방법.
  17. 공간 컨볼루션 그래프 모델을 트레이닝시키기 위한 방법으로서,
    분자들의 세트의 공간 컨볼루션 그래프 모델로 그래프 컨볼루션들의 제1 세트를 수행하는 단계 - 상기 그래프 컨볼루션들의 제1 세트가 상기 분자들의 세트 사이의 결합에 기초함 -;
    상기 공간 컨볼루션 그래프 모델로 그래프 컨볼루션들의 제2 세트를 수행하는 단계 - 상기 그래프 컨볼루션들의 제2 세트가 적어도 상기 분자들의 세트의 각 원자와 다른 원자들 사이의 거리에 기초함 -;
    상기 공간 컨볼루션 그래프 모델로 그래프 수집을 수행하는 단계;
    상기 그래프 수집에 기초하여 상기 분자들의 세트에 대한 손실을 계산하는 단계; 및
    상기 계산된 손실에 기초하여 상기 공간 컨볼루션 그래프 모델을 업데이트하는 단계를 포함하는, 방법.
  18. 제17항에 있어서, 하나 이상의 신경 네트워크들의 세트를 트레이닝시켜 역장 (force field)에 대한 하나 이상의 파라미터들의 세트를 예측하기 위해 상기 공간 컨볼루션 그래프 모델의 층들을 사용하는 단계를 더 포함하는, 방법.
  19. 제18항에 있어서, 상기 파라미터들의 세트가 하나 이상의 특성들의 세트와 연관되고, 상기 특성들의 세트가 전하, 결합, 각도 및 2면각 중 적어도 하나를 포함하는, 방법.
  20. 제18항에 있어서, 상기 공간 컨볼루션 그래프 모델이 제1 공간 컨볼루션 그래프 모델이고, 상기 방법이,
    위치 에너지를 예측하기 위해 제2 공간 컨볼루션 그래프 모델을 트레이닝시키는 단계; 및
    상기 제1 및 제2 공간 컨볼루션 그래프 모델들에 기초하여 분자 시스템의 위치 에너지를 예측하는 단계
    를 더 포함하는, 방법.
  21. 제20항에 있어서, 상기 제2 공간 컨볼루션 그래프 모델을 트레이닝시키는 단계가 상기 제1 및 제2 공간 컨볼루션 그래프 모델들 사이에 하나 이상의 층들의 세트를 공유하는 단계를 포함하는, 방법.
  22. 제18항에 있어서, 상기 역장이 AMBER (Assisted Model Building with Energy Refinement) 함수 형태인, 방법.
  23. 제17항에 있어서, 하나 이상의 신경 네트워크들의 세트를 트레이닝시켜 입력 분자 시스템의 위치 에너지를 예측하기 위해 상기 공간 컨볼루션 그래프 모델의 층들을 사용하는 단계를 더 포함하는, 방법.
  24. 제23항에 있어서, 상기 공간 그래프 컨볼루션 모델에 의해 예측된 위치 에너지를 최소화함으로써 상기 분자들의 세트의 공간 배좌들(conformations)의 세트를 식별하는 단계를 더 포함하는, 방법.
  25. 제17항에 있어서, 상기 분자들의 세트의 운동을 예측하는 단계를 더 포함하는, 방법.
  26. 분자들에 대한 특성들을 예측하기 위한 시스템으로서,
    분자들의 세트의 공간 그래프 표현으로 그래프 컨볼루션들의 제1 세트를 수행하고 - 상기 그래프 컨볼루션들의 제1 세트가 상기 분자들의 세트 사이의 결합에 기초함 -;
    상기 공간 그래프 표현으로 그래프 컨볼루션들의 제2 세트를 수행하고 - 상기 그래프 컨볼루션들의 제2 세트가 적어도 상기 분자들의 세트의 각 원자와 다른 원자들 사이의 거리에 기초함 -;
    상기 공간 그래프 표현으로 그래프 수집을 수행하고;
    상기 분자들의 세트에 대한 하나 이상의 특성들의 세트를 예측하도록
    개별적으로 또는 집합적으로 구성되는 하나 이상의 프로세서들
    을 포함하는, 시스템
  27. 제26항에 있어서, 상기 하나 이상의 프로세서들이 상기 하나 이상의 분자들의 세트에 대한 원자 정보를 수신하도록 개별적으로 또는 집합적으로 구성되는, 시스템.
  28. 제26항에 있어서, 상기 하나 이상의 프로세서들이 상기 분자들의 세트의 공간 그래프 표현을 구축하도록 개별적으로 또는 집합적으로 구성되는, 시스템.
  29. 제28항에 있어서, 상기 공간 그래프 표현이 거리 행렬 및 인접 텐서를 포함하고, 상기 거리 행렬이 상기 분자들의 세트의 원자들 사이의 거리들을 나타내고, 상기 인접 텐서가 원자들 사이의 복수의 상이한 엣지 유형들을 나타내는, 시스템.
  30. 제29항에 있어서, 상기 분자들의 세트가 리간드 분자 및 표적 분자를 포함하고, 상기 거리 행렬의 행이 상기 리간드 분자 및 표적 분자의 구성원에 의해 정렬되는, 시스템.
  31. 제26항에 있어서, 상기 분자들의 세트 사이의 결합이 공유 결합을 포함하는, 시스템.
  32. 제26항에 있어서, 상기 분자들의 세트 사이의 결합이 π-π 스태킹, 수소 결합 및 소수성 접촉 중 적어도 하나를 포함하는, 시스템.
  33. 제26항에 있어서, 상기 그래프 컨볼루션들의 제2 세트가 상기 분자들의 세트 사이의 결합에 더 기초하는, 시스템.
  34. 제33항에 있어서, 상기 그래프 컨볼루션들의 제1 세트가 상기 분자들의 세트 사이의 결합들의 제1 세트에 기초하고, 상기 그래프 컨볼루션들의 제2 세트가 상기 분자들의 세트 사이의 결합들의 제2 세트에 기초하는, 시스템.
  35. 제34항에 있어서, 상기 결합들의 제1 세트가 상기 결합들의 제2 세트의 서브 세트인, 시스템.
  36. 제26항에 있어서, 상기 하나 이상의 프로세서들이 상기 그래프 컨볼루션들의 제1 세트를 수행하도록 개별적으로 또는 집합적으로 구성되는 것은, 하나 이상의 프로세서들이 상기 그래프 컨볼루션들의 각 층에서 게이트 제어 순환 단위 (GRU) 연산을 수행하도록 개별적으로 또는 집합적으로 구성되는 것을 포함하는, 시스템.
  37. 제26항에 있어서, 상기 하나 이상의 프로세서들이 상기 그래프 컨볼루션들의 제1 세트를 수행도록 개별적으로 또는 집합적으로 구성되는 것은, 하나 이상의 프로세서들이 제1 복수의 신경 네트워크들을 이용하는 것을 포함하고, 상기 복수의 신경 네트워크들의 각 신경 네트워크가 상이한 결합 유형에 대해 사용되는, 시스템.
  38. 제37항에 있어서, 상기 하나 이상의 프로세서들이 상기 그래프 컨볼루션들의 제2 세트를 수행하도록 개별적으로 또는 집합적으로 구성되는 것은, 하나 이상의 프로세서들이 제2 복수의 신경 네트워크들을 이용하도록 개별적으로 또는 집합적으로 구성되는 것을 포함하고, 상기 제1 복수의 신경 네트워크들에 대한 가중치가 상기 제2 복수의 신경 네트워크들과 공유되는, 시스템.
  39. 제38항에 있어서, 상기 하나 이상의 프로세서들이 상기 그래프 컨볼루션들의 제2 세트를 수행하도록 개별적으로 또는 집합적으로 구성되는 것은, 하나 이상의 프로세서들이 제2 복수의 신경 네트워크들을 이용하도록 개별적으로 또는 집합적으로 구성되는 것을 포함하고, 상기 제2 복수의 신경 네트워크들의 신경 네트워크들이 상기 분자들의 세트의 원자들 사이의 거리에 관한 거리 정보를 이용하는, 시스템.
  40. 제26항에 있어서, 상기 분자들의 세트가 리간드 분자 및 표적 분자를 포함하고, 상기 그래프 수집이 상기 리간드 분자에 대해서만 수행되는, 시스템.
  41. 제26항에 있어서, 상기 특성들의 세트가, 상기 분자들의 세트의 제1 분자가 상기 분자들의 세트의 제2 분자와 결합하는지 여부를 포함하는, 시스템.
  42. 공간 컨볼루션 그래프 모델을 트레이닝시키기 위한 시스템으로서,
    분자들의 세트의 공간 컨볼루션 그래프 모델로 그래프 컨볼루션들의 제1 세트를 수행하고 - 상기 그래프 컨볼루션들의 제1 세트가 상기 분자들의 세트 사이의 결합에 기초함 -;
    상기 공간 컨볼루션 그래프 모델로 그래프 컨볼루션들의 제2 세트를 수행하고 - 상기 그래프 컨볼루션들의 제2 세트가 적어도 상기 분자들의 세트의 각 원자와 다른 원자들 사이의 거리에 기초함 -;
    상기 공간 컨볼루션 그래프 모델로 그래프 수집을 수행하고;
    상기 분자들의 세트에 대한 손실을 계산하고;
    상기 계산된 손실에 기초하여 상기 공간 컨볼루션 그래프 모델을 업데이트하도록
    개별적으로 또는 집합적으로 구성되는 하나 이상의 프로세서들
    을 포함하는, 시스템.
  43. 제42항에 있어서, 하나 이상의 신경 네트워크들의 세트를 트레이닝시켜 역장에 대한 하나 이상의 파라미터들의 세트를 예측하기 위해 상기 네트워크의 층들을 사용하도록 개별적으로 또는 집합적으로 구성되는 하나 이상의 프로세서들을 더 포함하는, 시스템.
  44. 제43항에 있어서, 상기 파라미터들의 세트가 하나 이상의 특성들의 세트와 연관되고, 상기 특성들의 세트가 전하, 결합, 각도 및 2면각 중 적어도 하나를 포함하는, 시스템.
  45. 제42항에 있어서, 상기 공간 컨볼루션 그래프 모델이 제1 공간 컨볼루션 그래프 모델이고, 상기 시스템이, 위치 에너지를 예측하기 위해 제2 공간 컨볼루션 그래프 모델을 트레이닝시키고; 상기 제1 및 제2 공간 컨볼루션 그래프 모델들에 기초하여 분자 시스템의 위치 에너지를 예측하도록 개별적으로 또는 집합적으로 구성되는 하나 이상의 프로세서들을 더 포함하는, 시스템.
  46. 제45항에 있어서, 상기 제2 공간 컨볼루션 그래프 모델을 트레이닝시키도록 개별적으로 또는 집합적으로 구성되는 상기 하나 이상의 프로세서들이, 상기 제1 및 제2 공간 컨볼루션 그래프 모델들 사이의 하나 이상의 층들의 세트를 공유하도록 개별적으로 또는 집합적으로 구성되는 하나 이상의 프로세서들을 포함하는, 시스템.
  47. 제43항에 있어서, 상기 역장이 AMBER (Assisted Model Building with Energy Refinement) 함수 형태인, 시스템.
  48. 제42항에 있어서, 하나 이상의 신경 네트워크들의 세트를 트레이닝시켜 입력 분자 시스템의 위치 에너지를 예측하기 위해 상기 공간 컨볼루션 그래프 모델의 층들을 사용하도록 개별적으로 또는 집합적으로 구성되는 하나 이상의 프로세서들을 더 포함하는, 시스템.
  49. 제48항에 있어서, 상기 공간 그래프 컨볼루션 모델에 의해 예측된 위치 에너지를 최소화함으로써 상기 분자들의 세트의 공간 배좌들의 세트를 식별하도록 개별적으로 또는 집합적으로 구성되는 하나 이상의 프로세서들을 더 포함하는, 시스템.
  50. 제42항에 있어서, 상기 분자들의 세트의 운동을 예측하도록 개별적으로 또는 집합적으로 구성되는 하나 이상의 프로세서들을 더 포함하는, 시스템.
  51. 분자들에 대한 특성들을 예측하기 위한 방법으로서,
    N 원자들 및 N et 엣지 유형들에 의해 그래프로서 분자들의 세트의 표현을 수득하는 단계;
    상기 N et 엣지 유형들의 서브 세트를 갖는 분자들의 세트의 그래프 표현으로 그래프 컨볼루션들의 제1 세트를 수행하는 단계;
    상기 N et 엣지 유형들의 서브 세트를 각각 갖는 그래프 컨볼루션들의 하나 이상의 추가 세트들을 수행하는 단계; 및
    추가의 신경 네트워크 층들이 뒤따르는 상기 그래프의 서브 그래프에 대해 그래프 수집을 수행하는 단계를 포함하는, 방법.
  52. 제51항에 있어서, 상기 분자들의 세트의 표현이 NxN 거리 행렬을 더 포함하는, 방법.
  53. 제51항에 있어서, 상기 N et 엣지 유형들이 결합 유형, 염 브릿지, 파이 스태킹, 거리 빈 (distance bin), 거리 기준 세트 및 원시 거리 (raw distance) 중 적어도 하나를 포함하는, 방법.
  54. 제51항에 있어서, 상기 그래프 컨볼루션들의 제1 세트를 수행하는 단계가 NxN 거리 행렬로부터 직접 정보를 통합하는 것을 포함하는, 방법.
  55. 제51항에 있어서, 상기 그래프 컨볼루션들의 하나 이상의 추가 세트들을 수행하는 단계가 NxN 거리 행렬에 기초하는, 방법.
  56. 제51항에 있어서, 상기 그래프의 서브 그래프가 하나 이상의 분자들의 것일 수 있는, 방법.
  57. 분자들에 대한 특성들을 예측하기 위한 시스템으로서,
    N 원자들 및 N et 엣지 유형들에 의해 그래프로서 분자들의 세트의 표현을 수득하고;
    상기 N et 엣지 유형들의 서브 세트를 갖는 분자들의 세트의 그래프 표현으로 그래프 컨볼루션들의 제1 세트를 수행하고;
    상기 N et 엣지 유형들의 서브 세트를 각각 갖는 그래프 컨볼루션들의 하나 이상의 추가 세트들의 세트를 수행하고;
    추가의 신경 네트워크 층들이 뒤따르는 상기 그래프의 서브 그래프에 대해 그래프 수집을 수행하도록
    개별적으로 또는 집합적으로 구성되는 하나 이상의 프로세서들을 포함하는, 시스템.
  58. 제57항에 있어서, 상기 분자들의 세트의 표현이 NxN 거리 행렬을 더 포함하는, 시스템.
  59. 제57항에 있어서, 상기 N et 엣지 유형들이 결합 유형, 염 브릿지, 파이 스태킹, 거리 빈, 거리 기준 세트 및 원시 거리 중 적어도 하나를 포함하는, 시스템.
  60. 제57항에 있어서, 상기 그래프 컨볼루션들의 제1 세트를 수행하는 것이 NxN 거리 행렬로부터 직접 정보를 통합하는 것을 포함하는, 시스템.
  61. 제57항에 있어서, 상기 그래프 컨볼루션들의 하나 이상의 추가 세트들을 수행하는 것이 NxN 거리 행렬에 기초하는, 시스템.
  62. 제57항에 있어서, 상기 그래프의 서브 그래프가 하나 이상의 분자들의 것일 수 있는, 시스템.
KR1020207028478A 2018-03-05 2019-03-05 약물 발견에 대한 애플리케이션 및 분자 시뮬레이션에 의한 공간 그래프 컨볼루션을 위한 시스템 및 방법 KR20200129130A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862638803P 2018-03-05 2018-03-05
US62/638,803 2018-03-05
PCT/US2019/020837 WO2019173401A1 (en) 2018-03-05 2019-03-05 Systems and methods for spatial graph convolutions with applications to drug discovery and molecular simulation

Publications (1)

Publication Number Publication Date
KR20200129130A true KR20200129130A (ko) 2020-11-17

Family

ID=67768623

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207028478A KR20200129130A (ko) 2018-03-05 2019-03-05 약물 발견에 대한 애플리케이션 및 분자 시뮬레이션에 의한 공간 그래프 컨볼루션을 위한 시스템 및 방법

Country Status (8)

Country Link
US (2) US11727282B2 (ko)
EP (1) EP3762405A4 (ko)
JP (1) JP7495124B2 (ko)
KR (1) KR20200129130A (ko)
CN (1) CN112533941A (ko)
AU (1) AU2019231255A1 (ko)
CA (1) CA3093246A1 (ko)
WO (1) WO2019173401A1 (ko)

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7495124B2 (ja) 2018-03-05 2024-06-04 ザ ボード オブ トラスティーズ オブ ザ レランド スタンフォード ジュニア ユニバーシティー 薬物発見および分子シミュレーションへの適用を伴う空間グラフ畳み込みのためのシステムおよび方法
US20200342953A1 (en) * 2019-04-29 2020-10-29 International Business Machines Corporation Target molecule-ligand binding mode prediction combining deep learning-based informatics with molecular docking
US11817184B2 (en) * 2019-05-16 2023-11-14 Robert Bosch Gmbh Graph neural network force field computational algorithms for molecular dynamics computer simulations
US20210065913A1 (en) * 2019-09-04 2021-03-04 University Of Central Florida Research Foundation, Inc. Artificial intelligence-based methods for early drug discovery and related training methods
JP7453244B2 (ja) * 2019-09-20 2024-03-19 株式会社Preferred Networks 推定装置、訓練装置、推定方法及びモデル生成方法
US11386507B2 (en) * 2019-09-23 2022-07-12 International Business Machines Corporation Tensor-based predictions from analysis of time-varying graphs
US11664094B2 (en) * 2019-12-26 2023-05-30 Industrial Technology Research Institute Drug-screening system and drug-screening method
CN113140260B (zh) * 2020-01-20 2023-09-08 腾讯科技(深圳)有限公司 合成物的反应物分子组成数据预测方法和装置
CN111370073B (zh) * 2020-02-27 2023-04-07 福州大学 一种基于深度学习的药物互作规则预测方法
CN111710376B (zh) * 2020-05-13 2023-04-07 中国科学院计算机网络信息中心 大分子及团簇体系分块计算负载均衡方法及系统
CN111710375B (zh) * 2020-05-13 2023-07-04 中国科学院计算机网络信息中心 一种分子性质预测方法及系统
CN111681718B (zh) * 2020-06-11 2022-08-23 湖南大学 一种基于深度学习多源异构网络的药物重定位方法
CN111798934B (zh) * 2020-06-23 2023-11-14 苏州浦意智能医疗科技有限公司 一种基于图神经网络的分子性质预测方法
CN111816252B (zh) * 2020-07-21 2021-08-31 腾讯科技(深圳)有限公司 一种药物筛选方法、装置及电子设备
CN111933225B (zh) * 2020-09-27 2021-01-05 平安科技(深圳)有限公司 药物分类方法、装置、终端设备以及存储介质
US11815945B2 (en) * 2020-09-29 2023-11-14 Robert Bosch Gmbh Efficient scaling of neural-network interatomic potential prediction on CPU clusters
SE545151C2 (en) * 2020-10-26 2023-04-18 Compular Ab Method and device for determining bonds in particle trajectories
CN112466410B (zh) * 2020-11-24 2024-02-20 江苏理工学院 蛋白质与配体分子结合自由能的预测方法及装置
CN112800749A (zh) * 2021-01-08 2021-05-14 北京师范大学 一种基于h-gcn的学术空间构建方法
CN112990721B (zh) * 2021-03-24 2023-04-21 山西大学 一种基于缴费行为的电力用户价值分析方法及系统
WO2022221705A1 (en) * 2021-04-16 2022-10-20 The Regents Of The University Of California Machine learning enabled techniques for material design and ultra-incompressible ternary compounds derived therewith
CN113327652B (zh) * 2021-05-11 2023-07-25 扬州大学 基于注意力机制和图卷积神经网络的晶体性质预测方法
CN113241130B (zh) * 2021-06-08 2022-04-22 西南交通大学 一种基于图卷积网络的分子结构预测方法
JP7382538B2 (ja) * 2021-06-11 2023-11-16 株式会社Preferred Networks 情報処理装置、情報処理方法、プログラムおよび情報処理システム
CN113409893B (zh) * 2021-06-25 2022-05-31 成都职业技术学院 一种基于图像卷积的分子特征提取及性能预测方法
CN113488114B (zh) * 2021-07-13 2024-03-01 南京邮电大学 含螺环的芴基分子晶体中分子间非共价键弱相互作用能预测方法及其预测模型训练方法
CN113610286B (zh) * 2021-07-27 2024-03-29 中国地质大学(武汉) 顾及时空相关性和气象因素的pm2.5浓度预测方法及装置
CN113707236B (zh) * 2021-08-30 2024-05-14 平安科技(深圳)有限公司 基于图神经网络的药物小分子性质预测方法、装置及设备
CN115732038A (zh) * 2021-08-31 2023-03-03 微软技术许可有限责任公司 蛋白质分子与配体分子的结合分析
WO2023104284A1 (en) * 2021-12-06 2023-06-15 Deeplab Ike Efficient protein -ligand screening using graph neural networks
CN114141317A (zh) * 2021-12-07 2022-03-04 北京百度网讯科技有限公司 化合物性质预测模型训练方法、装置、设备以及存储介质
CN114300035A (zh) * 2021-12-21 2022-04-08 上海交通大学 一种用于蛋白质力场模拟的个性化参数生成方法
WO2023122268A1 (en) * 2021-12-23 2023-06-29 Kebotix, Inc. Predicting molecule properties using graph neural network
WO2023141345A1 (en) * 2022-01-24 2023-07-27 Kenneth Bean System and method for predictive candidate compound discovery
CN114613446A (zh) * 2022-03-11 2022-06-10 冰洲石生物科技(上海)有限公司 交互式/化学合成路线设计方法、系统、介质及电子设备
CN114944053B (zh) * 2022-03-16 2023-05-23 浙江工业大学 一种基于时空超图神经网络的交通流预测方法
WO2023190403A1 (ja) * 2022-03-30 2023-10-05 株式会社Preferred Networks 推定装置
CN114841261A (zh) * 2022-04-29 2022-08-02 华南理工大学 增量宽度和深度学习的药物反应预测方法、介质和设备
CN114944204A (zh) * 2022-05-13 2022-08-26 北京字节跳动网络技术有限公司 用于管理分子预测的方法、装置、设备和介质
CN115762658B (zh) * 2022-11-17 2023-07-21 四川大学 基于图卷积神经网络的共晶密度预测方法
CN116700206B (zh) * 2023-05-24 2023-12-05 浙江大学 基于多模态神经网络的工业控制系统异常检测方法及装置
CN117672415A (zh) * 2023-12-07 2024-03-08 北京航空航天大学 一种基于图神经网络的原子间相互作用势构建方法及系统
CN117612633B (zh) * 2024-01-23 2024-04-09 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种药物分子性质预测方法

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6128606A (en) 1997-03-11 2000-10-03 At&T Corporation Module for constructing trainable modular network in which each module inputs and outputs data structured as a graph
US20040248801A1 (en) 2000-03-21 2004-12-09 Kiessling Laura L. Methods and reagents for regulation of cellular responses in biological systems
EP1272839A4 (en) * 2000-03-23 2006-03-01 California Inst Of Techn METHOD AND APPARATUS FOR PREDICTING LINK INTERACTIONS FOR LIGANDS
US7235367B2 (en) 2000-07-12 2007-06-26 Genetics Institute, Llc. Method using crystal structure of estrogen receptor-β complex
WO2002101077A2 (en) 2001-06-11 2002-12-19 The Donald Danforth Plant Science Center Docking of small ligands to low-resolution and theoretically predicted receptor structures
AU2002345707A1 (en) 2001-06-13 2002-12-23 The Regents Of University Of Michigan Dopamine receptor ligands and therapeutic methods based thereon
US7381535B2 (en) 2002-07-10 2008-06-03 The Board Of Trustees Of The Leland Stanford Junior Methods and compositions for detecting receptor-ligand interactions in single cells
WO2003087310A2 (en) 2002-04-04 2003-10-23 California Institute Of Technology Directed protein docking algorithm
US20050055187A1 (en) 2003-06-10 2005-03-10 Sherman Brian Woody Method and system for interactive molecular docking and feedback
WO2005008240A2 (en) 2003-07-03 2005-01-27 Biogen Idec Ma Inc. STRUCTURAL INTERACTION FINGERPRINT (SIFt)
US7756674B2 (en) 2007-08-03 2010-07-13 The Trustees Of Columbia University In The City Of New York Methods of calculating differences of binding affinities between congeneric pairs of ligands by way of a displaced solvent functional
US8874432B2 (en) * 2010-04-28 2014-10-28 Nec Laboratories America, Inc. Systems and methods for semi-supervised relationship extraction
EP2890715B1 (en) 2012-08-03 2020-12-16 Dana-Farber Cancer Institute, Inc. Single agent anti-pd-l1 and pd-l2 dual binding antibodies and methods of use
WO2014124020A1 (en) 2013-02-05 2014-08-14 The Board Of Trustees Of The Leland Stanford Junior University Method for selecting agents that bind to transmembrane receptors in a conformationally-selective manner
DK3049979T3 (da) * 2013-09-27 2020-02-17 Codexis Inc Struktur-baseret prædiktiv konstruktion
WO2015066415A1 (en) * 2013-11-01 2015-05-07 University Of Florida Research Foundation, Inc. Movable type method applied to protein-ligand binding
JP6364488B2 (ja) 2013-11-26 2018-07-25 ユニバーシティー オブ ノース テキサス ヘルス サイエンス センター アット フォートワースUniversity Of North Texas Health Science Center At Fort Worth 認知欠損を治療するための個別化医療的手法
CN106133734A (zh) 2013-12-13 2016-11-16 艾伯塔大学校董事会 选择具有降低心脏毒性风险的化合物的系统及方法
US20150178442A1 (en) 2013-12-23 2015-06-25 Schrodinger, Inc. Methods and systems for calculating free energy differences using a modified bond stretch potential
US9373059B1 (en) * 2014-05-05 2016-06-21 Atomwise Inc. Systems and methods for applying a convolutional network to spatial data
JP6353799B2 (ja) 2015-03-10 2018-07-04 一夫 桑田 プログラムおよび支援方法
US10259824B2 (en) 2015-05-01 2019-04-16 The Regents Of The University Of California Complement C3d-binding compounds
US10366324B2 (en) * 2015-09-01 2019-07-30 Google Llc Neural network for processing graph data
WO2017070160A1 (en) 2015-10-20 2017-04-27 Georgetown University Systems and methods for in silico drug discovery
EP3365330B1 (en) 2015-10-22 2023-06-07 Mangosuthu University Of Technology Pharmacophores, compounds and methods having application in the treatment of cancer through inhibition of cyp17a1 and cyp19a1
WO2017192872A1 (en) 2016-05-05 2017-11-09 Bowman Gregory R Methods of protein docking and rational drug design
US11521712B2 (en) * 2017-05-19 2022-12-06 Accutar Biotechnology Inc. Computational method for classifying and predicting ligand docking conformations
US20190139622A1 (en) * 2017-08-03 2019-05-09 Zymergen, Inc. Graph neural networks for representing microorganisms
US20190050537A1 (en) 2017-08-08 2019-02-14 International Business Machines Corporation Prediction and generation of hypotheses on relevant drug targets and mechanisms for adverse drug reactions
US10923214B2 (en) * 2017-09-07 2021-02-16 Accutar Biotechnology Inc. Neural network for predicting drug property
CN107729717B (zh) 2017-11-03 2019-09-27 四川大学 一种计算机模拟获取g蛋白偶联受体中间态结构的方法
WO2019099573A1 (en) 2017-11-14 2019-05-23 The Board Of Trustees Of The Leland Stanford Junior University Ligands of the mu, kappa, and delta opioid receptors
US20190272887A1 (en) 2018-03-05 2019-09-05 The Board Of Trustees Of The Leland Stanford Junior University Machine Learning and Molecular Simulation Based Methods for Enhancing Binding and Activity Prediction
JP7495124B2 (ja) 2018-03-05 2024-06-04 ザ ボード オブ トラスティーズ オブ ザ レランド スタンフォード ジュニア ユニバーシティー 薬物発見および分子シミュレーションへの適用を伴う空間グラフ畳み込みのためのシステムおよび方法
US11537719B2 (en) 2018-05-18 2022-12-27 Deepmind Technologies Limited Deep neural network system for similarity-based graph representations

Also Published As

Publication number Publication date
JP2021515234A (ja) 2021-06-17
AU2019231255A1 (en) 2020-10-01
US20190272468A1 (en) 2019-09-05
US11727282B2 (en) 2023-08-15
CN112533941A (zh) 2021-03-19
WO2019173401A1 (en) 2019-09-12
JP7495124B2 (ja) 2024-06-04
EP3762405A1 (en) 2021-01-13
CA3093246A1 (en) 2019-09-12
EP3762405A4 (en) 2021-12-01
US20230281465A1 (en) 2023-09-07

Similar Documents

Publication Publication Date Title
KR20200129130A (ko) 약물 발견에 대한 애플리케이션 및 분자 시뮬레이션에 의한 공간 그래프 컨볼루션을 위한 시스템 및 방법
Baldassarre et al. GraphQA: protein model quality assessment using graph convolutional networks
Hong et al. DeepHiC: A generative adversarial network for enhancing Hi-C data resolution
Myint et al. Recent advances in fragment-based QSAR and multi-dimensional QSAR methods
Li et al. Effective drug–target interaction prediction with mutual interaction neural network
Tashkova et al. Parameter estimation with bio-inspired meta-heuristic optimization: modeling the dynamics of endocytosis
CN114333986A (zh) 模型训练、药物筛选和亲和力预测的方法与装置
Li et al. Multiphysical graph neural network (MP-GNN) for COVID-19 drug design
KR102284532B1 (ko) 분자 활성도 예측 방법 및 이를 위한 장치
WO2022108733A1 (en) Generating anti-infective design spaces for selecting drug candidates
de Andrade Silva et al. An experimental study on the use of nearest neighbor-based imputation algorithms for classification tasks
Rajapakse et al. Stability of building gene regulatory networks with sparse autoregressive models
Panda et al. A novel improved prediction of protein structural class using deep recurrent neural network
Kim et al. Network-based approaches for disease-gene association prediction using protein-protein interaction networks
Wei et al. Deep learning-based method for compound identification in NMR spectra of mixtures
CN115116539A (zh) 对象确定方法、装置、计算机设备和存储介质
Zhang et al. Line graph contrastive learning for link prediction
Bryer et al. Performance efficient macromolecular mechanics via sub-nanometer shape based coarse graining
Li et al. An improved parallelized multi-objective optimization method for complex geographical spatial sampling: AMOSA-II
Wang et al. Human activity recognition based on an efficient neural architecture search framework using evolutionary multi-objective surrogate-assisted algorithms
CN109360601A (zh) 一种基于排挤策略的多模态蛋白质结构预测方法
Yao et al. Chemical property relation guided few-shot molecular property prediction
Ruzgas et al. Nonparametric multivariate density estimation: case study of cauchy mixture model
Fatemi et al. Classification of drugs according to their milk/plasma concentration ratio
Kumari et al. Quantitative structure retention-relationship modeling: Towards an innovative general-purpose strategy

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal