KR20230152043A - 능동 학습에 의한 약물 최적화 - Google Patents

능동 학습에 의한 약물 최적화 Download PDF

Info

Publication number
KR20230152043A
KR20230152043A KR1020237030565A KR20237030565A KR20230152043A KR 20230152043 A KR20230152043 A KR 20230152043A KR 1020237030565 A KR1020237030565 A KR 1020237030565A KR 20237030565 A KR20237030565 A KR 20237030565A KR 20230152043 A KR20230152043 A KR 20230152043A
Authority
KR
South Korea
Prior art keywords
compounds
computer
drug design
population
training set
Prior art date
Application number
KR1020237030565A
Other languages
English (en)
Inventor
에밀 니콜라에 니히타
Original Assignee
엑스사이언티아 에이아이 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엑스사이언티아 에이아이 리미티드 filed Critical 엑스사이언티아 에이아이 리미티드
Publication of KR20230152043A publication Critical patent/KR20230152043A/ko

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/20Identification of molecular entities, parts thereof or of chemical compositions
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/60In silico combinatorial chemistry
    • G16C20/64Screening of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Medicinal Chemistry (AREA)
  • Data Mining & Analysis (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

본 발명은 능동 학습에 의한 컴퓨터를 이용한 약물 설계 방법을 제공한다. 본 방법은 그 각각이 하나 또는 그 이상의 구조적 특징들을 갖는, 화합물들의 모집단을 정의하는 단계, 복수의 생물학적 특성들이 알려져 있는, 상기 모집단으로부터 화합물들의 훈련 집합을 정의하는 단계, 그 각각이 원하는 생물학적 특성을 정의하는, 복수의 목적들을 정의하는 단계를 포함한다. 본 방법은 상기 화합물들의 훈련 집합을 이용해, 상기 모집단 내 화합물들의 생물학적 특성들을 근사하는 확률 분포를 상기 모집단 냉 화합물들의 구조적 특징들의 목적 함수로서 출력하기 위해 베이지안 통계 모델을 훈련하는 단계를 포함한다. 본 방법은 상기 훈련 집합에 없는, 상기 모집단으로부터 복수의 화합물들의 부분집합을 결정하는 단계를 포함하고, 상기 부분집합은 정의된 복수의 목적들에 기초하고 또한 훈련된 상기 베이지안 통계 모델로부터의 확률 분포에 기초하여 획득 함수의 최적화에 따라 결정된다. 본 방법은 합성을 위해 결정된 부분집합 내 화합물들 중 적어도 일부를 선택하는 단계를 포함한다.

Description

능동 학습에 의한 약물 최적화
본 발명은 약물과 같은, 화합물의 컴퓨터를 이용한 설계 방법들 및 시스템들에 관한 것이다. 특히, 본 발명은 선택된 표적 분자들과 상호작용하는 약물들의 설계에 사용되기 위한, 능동 학습을 통한 컴퓨터를 이용한 모델들의 최적화를 위한 방법들, 및 이러한 시스템 및 방법들을 사용하여 설계되는 약물들에 관한 것이다.
신약 발굴(drug discovery)은, 예를 들어 전임상 시험(pre-clinical trials)과 같이, 신약 개발(drug development)의 다음 단계로의 진행을 위한 후보 화합물들을 식별(identify)하는 과정이다. 이러한 후보 화합물들(candidate compounds)은 추가 개발을 위해 소정의 기준을 만족시켜야 한다. 현대의 신약 발굴은 초기 스크리닝 '적중(hit)' 화합물들의 식별 및 최적화를 수반한다. 특히, 이러한 화합물들은 요구되는 기준에 대하여 최적화될 필요가 있는데, 이것은 다수의 상이한 생물학적 특성들의 최적화를 포함할 수 있다. 최적화되어야 하는 특성들은, 예를 들어, 원하는 표적에 대한 효능(efficacy/potency); 원하지 않는 표적에 대한 선택성; 낮은 독성 가능성; 및 우수한 약물 대사 및 약물동태학적 특성(ADME)를 포함할 수 있다. 구체적인 요건들을 만족시키는 화합물만이 신약 개발 과정을 지속할 수 있는 후보 화합물이 된다.
신약 발굴 과정은 초기 스크리닝 적중들에서 후보 화합물들까지의 최적화 동안 상당 수의 화합물들을 만들고/합성하는 것을 수반할 수 있다. 특히, 이 합성되는 화합물들은 생물학적 활성과 같은, 그들의 특성들을 결정하기 위해 측정된다. 하지만, 특정 신약 발굴 프로젝트의 일부로서 만들어질 수 있는 화합물들의 수는 합성되고 테스트될 수 있는 화합물들의 수보다 훨씬 - 아마도 수십 배 - 많을 것이다. 그러므로 합성되는 화합물들의 측정의 결과들은 후보 화합물에 의해 요구되는 다양한 기준에 비해 더욱 개선된 특성들을 갖는 화합물들을 획득할 가능성을 최대화하기 위해 분석되어 다음에 합성할 화합물에 대한 결정을 알리는 데 사용된다.
특정 단계에서 하나 또는 그 이상의 화합물들의 생물학적 활성에 대한 합성 및 후속 측정은 신약 발굴 과정의 설계 주기(design cycle, 또는 반복(iteration))으로 지칭된다. 통상적으로, 한번에 하나의 화합물을 합성하고 테스트하는 것보다 더 효율적이기 때문에 각 과정의 설계 주기에서 화합물들의 한 집합이 합성되고 테스트된다. 하지만, 사용 가능한 리소스 수준은 보통 주어진 설계 주기에서 합성될 수 있는 한 집합 내의 화합물들의 수에 상한이 있음을 의미한다.
실제-실험실(wet-lab) 기반의 신약 발굴 프로젝트 동안, 후보 화합물이 발견되기 전에 서너 설계 주기에 걸쳐서 수백 또는 심지어 수천의 화합물들이 통상 합성된다. 이는 시간이 오래 걸리고 비용이 많이 드는 비효율적인 과정이다: 단 하나의 합성물의 합성에 수천 파운드의 비용이 들 수 있고, 또한 단 하나의 후보 화합물을 획득하는 데 평균 3 내지 5 년이 걸릴 수 있다.
컴퓨터를 이용한 방법들의 사용은 의약 화학자 단독에 의해 수행될 수 있는 것에 비해 기-합성된 화합물에 수행될 수 있는 분석의 수준을 크게 향상시킨다. 특히, 기계 학습(machine learning, ML), 인공 지능(artificial intelligence, AI), 또는 다른 수학적 방법들이, 생물학적 활성 수준과 같은, 파라미터들과 원하는 특성들 간의 관계를 식별하기 위해, 인간의 능력을 넘는 수준에서, 수많은 설계 파라미터들을 병렬로 평가하는 데 사용될 수 있다. 수학적 방법들은 그후 후보 화합물의 요구되는 기준에 대하여 어떠한 화합물이 원하는 특성들의 더 큰 수/수준을 나타낼 가능성이 높은지에 대한 더 나은 예측을 하기 위해 이 식별된 관계를 사용할 수 있다. 이것은 이러한 수학적 방법들이 후보 화합물에 필요한 만큼, 원하는 특성들의 조합을 달성하는 화합물을 획득하기 위해, 설계 주기들의 수를 감소시키고, 또한 이로써 합성될 필요가 있는 화합물의 수를 감소시키는 데 사용될 수 있어, 신약 발굴 프로젝트에 연관된 비용 및 시간을 감소시킬 수 있음을 의미한다.
따라서 다수의 원하는 특성들을 가진 후보 화합물을 찾는 작업은 이전에 합성된 화합물들로부터 획득된 지식을 이용해 원하는 다양한 특성들을 가진 '최적' 화합물을 획득하는 것을 목표로 하는, 최적화 문제로 간주될 수 있다. 신약 발굴 맥락에서 이러한 컴퓨터를 이용한 최적화 문제에 직면했을 때 해결해야 하는 많은 문제들이 있다.
문제들 중 하나는 화합물들의 모집단 내 화합물들 간의 함수적 관계(functional relationships) 유형들이 선험적으로(a priori) 알려져 있지 않다는 것이다. 즉, 예를 들어, 화합물들의 구조적 특징들과 생물학적 특성들 사이의 관계들을 설명하는 목적 함수(objective function)의 형태는 알려져 있지 않다. 이것은 함수 형태의 사전 지식에 의존하는 일부 알려진 최적화 기술들이 신약 발굴 맥락에 적합하지 않을 수 있음을 의미한다.
다른 문제는 입력 공간 점들에서 목적 함수를 평가하는 데 비용이 많이 든다는 것이다. 이것은 화합물을 합성하고 테스트하는 데, 즉 평가 비용이 시간이 많이 소모되고 고가이기 때문이다. 이로써, 목적 함수를 근사하고자 하는 평가 점들의 훈련 집합은 상대적으로 적은 점들을 포함할 수 있고, 단기간에 훈련 집합의 크기를 크게 증가시키는 것은 가능하지 않을 수 있다. 이것은 목적 함수를 근사하는 모델이 얼마나 효과적으로 훈련될 수 있는지에 영향을 미칠 수 있고, 따라서 이러한 모델이 정확한 예측 또는 근사를 수행할 수 있는 능력에 영향을 미칠 수 있다.
또 다른 문제는 알려진 많은 최적화 기법들이 알려지지 않은 함수를 평가하는 단 하나의 점을 선택하도록 설계된다는 것이다. 하지만, 상기에서 언급된 바와 같이, 신약 발굴 프로젝트에서 효율을 이유로 주어진 설계 주기에서 복수의 화합물들이 합성하고 테스트하기 위해 선택되는 경우는 통상적이다. 즉, 주어진 반복에서 평가를 위해 복수의 점들이 동시에 최적화되고 선택될 필요가 있다.
또한, 알려진 최적화 기법들은 목적 함수의 단 하나의 파라미터를 최적화하는 데 사용될 수 있다. 즉, 최적화 루틴은 최적화하기 위한 단 하나의 목적을 가진다. 하지만, 상기에서 기술된 바와 같이, 통상적으로 화합물이 적합한 후보 화합물이 되기 위해서는 최적화되어야 하는 다수의 기준이 있을 것이다. 즉, 함수의 복수의 파라미터들이 고려 중인 특정 신약 발굴 프로젝트의 후보 화합물의 원하는 다양한 생물학적 특성들에 따라 병렬적으로 최적화되어야 한다.
마지막으로, 많은 최적화 루틴들은 목적 함수의 입력 공간이 연속적인 것에 의존하므로 그래디언트-기반 접근법들(gradient-based approaches)과 같은 기법들이 사용될 수 있다. 하지만, 명백하게, 신약 발굴 맥락에서 입력 공간은 불연속적이어서 (각 화합물은 입력 공간 내의 한 점을 나타냄) 연속적인 입력 공간에 의존하는 기법들은 사용되지 않을 수 있다.
본 발명의 착수에는 이러한 배경이 있다.
본 발명의 일 측면에 따르면 컴퓨터를 이용한 약물 설계 방법이 제공된다. 이 방법은 복수의 화합물들의 모집단을 정의하는 단계를 포함하는데, 각 화합물은 하나 또는 그 이상의 구조적 특징들을 가진다. 이 방법은 복수의 특성들이 알려져 있는, 상기 모집단으로부터 화합물들의 훈련 집합을 정의하는 단계를 포함한다. 이 특성들은 화합물의 관련된 물리적, 화학적 또는 생물학적 특성일 수 있고, 이것은 화합물들의 생물학적, 생화학적, 화학적, 생물물리학적, 생리학적 및/또는 약리학적 특성들을 포함하도록 고려될 수 있다. 이 방법은 그 각각이 원하는 특성을 정의하는, 복수의 목적들을 정의하는 단계를 포함한다. 이 방법은 상기 화합물들의 훈련 집합을 이용해, 상기 모집단 내의 화합물들의 특성들을 근사하는 확률 분포를 상기 모집단 내의 화합물들의 구조적 특징들의 목적 함수로서 출력하기 위해 베이지안 통계 모델을 훈련하는 단계를 포함한다. 이 방법은 상기 훈련 집합에 없는, 상기 모집단으로부터 복수의 화합물들의 부분집합을 결정하는 단계를 포함한다. 상기 부분집합은 정의된 복수의 목적들에 기초하고 또한 훈련된 상기 베이지안 통계 모델로부터의 확률 분포에 기초하여 획득 함수의 최적화에 따라 결정된다. 이 방법은 합성을 위해 및/또는 (컴퓨터를 이용한) 분자 동역학 분석/시뮬레이션을 수행하기 위해 결정된 부분집합 내의 화합물들 중 적어도 일부를 선택하는 단계를 포함한다. 이 선택은 원하는 특성들을 갖는 화합물을 획득하기 위해 약물 설계 과정의 일부로 수행될 수 있다. 편리하게도, 이 개시를 통해 이러한 화합물의 특성들은 '생물학적 특성들'로 총체적으로 언급될 수 있고, 이로써, 여기서 사용되는 바와 같이 '생물학적 특성(biological property)'은 생물학적, 생화학적, 화학적, 생물물리학적, 생리학적 및/또는 약리학적 특성들과 중첩되거나/그 범위 내에 포함되는 것으로 보다 더 구체적으로 고려될 수 있는 이러한 특성들을 포함하는, (화학적) 화합물의 관련 특성을 포괄할 수 있다.
이 방법은, 상기 목적들 중 하나 또는 그 이상에 대하여, 선호도-조정된(preference-modified) 확률 분포를 획득하기 위해 상기 베이지안 통계 모델(Bayesian statistical model)로부터의 확률 분포에 개별적인 효용 함수(utility function)를 적용함으로써 각 목적의 생물학적 특성에 연관된 선호도를 매핑하는 단계를 포함한다. 획득 함수(acquisition function)의 최적화는 상기 선호도-조정된 확률 분포에 기초할 수 있다.
상기 선호도는 상기 복수의 목적들 중 나머지 목적들에 대한 각 목적의 우선순위를 나타낼 수 있다.
일부 실시예들에 있어서, 상기 화합물들 중 하나의 특성들 중 하나에 대하여, 생물학적 특성에 대한 확률 분포에 연관된 불확실성 값이 낮을수록, 각 생물학적 특성에 연관된 선호도는 커지는 것에 대응하는 경우일 수 있다.
상기 선호도는 예를 들어 화학자들에 의한, 사용자-정의 선호도일 수 있다.
상기 효용 함수 중 하나 또는 그 이상은 구분 함수들(piecewise functions)일 수 있다. 상기 구분 함수들은 구분 선형 함수들일 수 있다.
일부 실시예들에 있어서, 상기 획득 함수를 최적화하는 것은, 상기 모집단 내 각 화합물에 대하여 획득 함수를 평가하는 것, 선택적으로, 상기 훈련 집합 내 화합물들을 배제하는 것을 포함할 수 있다. 상기 부분집합은 평가된 획득 함수 값들에 기초하여 결정될 수 있다.
일부 실시예들에 있어서, 상기 정의된 복수의 목적들에 기초한 획득 함수의 최적화는 화합물들의 파레토-최적 집합을 제공할 수 있다. 상기 결정된 부분집합에 대한 복수의 화합물들 중 하나 또는 그 이상은 상기 파레토-최적 집합으로부터 선택될 수 있다. 상기 파레토-최적 집합으로부터의 선택은 사용자-정의 선호도에 따르는 것일 수 있다.
상기 베이지안 통계 모델로부터의 확률 분포는 상기 복수의 목적들 중 각기 하나에 연관된 각 생물학적 특성에 대한 확률 분포를 포함할 수 있다.
이 방법은 집계 함수(aggregation function)를 상기 복수의 확률 분포들에 적용함으로써 상기 베이지안 통계 모델로부터의 복수의 확률 분포들을 1차원 집계된 확률 분포에 매핑시키는 단계를 포함할 수 있다. 상기 획득 함수의 최적화는 상기 집계된 확률 분포에 기초할 수 있다.
상기 집계 함수는 합 연산자; 평균 연산자; 및, 곱 연산자 중 하나 또는 그 이상을 포함할 수 있다.
상기 획득 함수는 예측 개선 함수; 확률 개선 함수; 및, 신뢰 범위 함수 중 적어도 하나일 수 있다.
상기 획득 함수는 다차원 획득 함수일 수 있다. 일부 실시예들에 있어서, 각 차원은 상기 복수의 목적들 중 각 목적에 대응할 수 있다. 선택적으로 상기 다차원 획득 함수는 초부피 예측 개선 함수(hypervolume expected improvement function)일 수 있다.
일부 실시예들에 있어서, 상기 베이지안 통계 모델을 훈련하는 단계는 상기 베이지안 통계 모델의 복수의 하이퍼파라미터들을 조정하는 단계를 포함할 수 있고, 상기 하이퍼파라미터들을 조정하는 단계는 최대 우도 추정 기법(maximum likelihood estimation technique) 및 교차 검증 기법(cross validation technique)의 조합의 적용을 포함할 수 있다.
일부 실시예들에 있어서, 상기 복수의 화합물들의 부분집합을 결정하는 단계는 상기 훈련된 베이지안 통계 모델로부터의 확률 분포에 기초하여 그리고 상기 정의된 복수의 목적들에 기초하여 상기 획득 함수를 최적화함으로써 상기 훈련 집합에 있지 않은, 상기 모집단으로부터 하나의 화합물을 식별하는 단계를 포함할 수 있다. 이 방법은 이하의 단계들: 상기 화합물들의 훈련 집합 및 상기 하나 또는 그 이상의 식별된 화합물들을 이용해 상기 베이지안 통계 모델을 재훈련하는 단계; 및, 상기 재훈련된 베이지안 통계 모델로부터의 확률 분포에 기초하여 그리고 상기 정의된 복수의 목적들에 기초하여 상기 획득 함수를 최적화함으로써, 상기 훈련 집합에 있지 않은, 상기 모집단으로부터 하나의 화합물을 식별하는 단계를, 상기 복수의 화합물들이 부분집합에 대하여 식별될 때까지 반복하는 단계를 포함할 수 있다.
일부 실시예들에 있어서, 상기 베이지안 통계 모델을 재훈련하는 단계는 상기 베이지안 통계 모델 내 상기 하나 또는 그 이상의 식별된 화합물들에 대하여 하나 또는 그 이상의 가짜(fake) 또는 더미(dummy) 생물학적 특성 값들을 설정하는 단계를 포함할 수 있다.
상기 가짜 생물학적 특성 값들은 크리깅 신자 접근법(kriging believer approach); 및 지속적 거짓말쟁이 접근법(constant liar approach) 중 하나에 따라 설정될 수 있다.
상기 베이지안 통계 모델에서, 각 화합물은 비트 벡터로서 나타내고, 상기 비트 벡터의 비트들은 상기 화합물 내 각 구조적 특징들의 존재 또는 부재를 나타낸다.
상기 베이지안 통계 모델은 가우시안 프로세스 모델(Gaussian process model)일 수 있다.
상기 훈련된 베이지안 통계 모델로부터의 확률 분포는 상기 모집단 내 화합물들의 근사된 생물학적 특성 값들을 나타내는 사후 평균(posterior mean)을 포함할 수 있다. 상기 훈련된 베이지안 통계 모델로부터의 확률 분포는 상기 모집단 내 근사된 생물학적 특성 값들에 연관된 불확실성을 나타내는 사후 분산(posterior variance)을 포함할 수 있다.
일부 실시예들에 있어서, 상기 획득 함수의 하나 또는 그 이상의 가중 파라미터들(weighting parameters)은 상기에서 기술된 컴퓨터를 이용한 약물 설계 방법을 이용하는 신약 발굴 과정의 원하는 전략에 따라 변형될 수 있다.
상기 원하는 전략은 상기 사후 평균에 연관된 획득 함수의 가중 파라미터에 종속하는, 활용 전략과, 상기 사후 분산에 연관된 획득 함수의 가중 파라미터에 종속하는, 탐색 전략 사이의 균형을 포함할 수 있다.
상기 가중 파라미터들은 원하는 전략을 설정하기 위해 사용자-정의될 수 있다.
상기 베이지안 통계 모델은 상기 화합물들의 생물학적 특성들을 근사하기 위해 상기 모집단 내 화합물들의 쌍들 간의 유사도를 나타내는 커널(kernel)을 이용할 수 있다.
상기 커널은 타니모토 유사도 커널(Tanimoto similarity kernel)일 수 있다.
이 방법은 상기 선택된 화합물들의 생물학적 특성들을 결정하기 위해 상기 결정된 부분집합의 선택된 화합물들 중 적어도 일부를 합성하는 단계를 포함할 수 있다.
이 방법은 갱신된 훈련 집합을 획득하기 위해 상기 훈련 집합에 상기 합성된 화합물들을 추가하는 단계를 포함할 수 있다.
이 방법은 상기 화합물들의 갱신된 훈련 집합을 이용해, 상기 목적 함수를 근사하는 확률 분포를 출력하기 위해 갱신된 베이지안 통계 모델을 훈련하는 단계; 상기 갱신된 훈련 집합에 있지 않은, 상기 모집단으로부터 복수의 화합물들의 새로운 부분집합을 결정하는 단계, 상기 새로운 부분집합은 상기 정의된 복수의 목적들에 종속하고 또한 상기 갱신된 베이지안 통계 모델로부터의 근사된 생물학적 특성들에 종속하는 획득 함수의 최적화에 따라 결정되고; 및 합성을 위해 상기 결정된 새로운 부분집합 내 화합물들 중 적어도 일부를 선택하는 단계를 포함할 수 있다.
이 방법은 상기 선택된 화합물들의 생물학적 특성들을 결정하기 위해 상기 결정된 새로운 부분집합의 선택된 화합물들을 합성하는 단계를 포함할 수 있다.
이 방법은 상기 훈련 집합에 상기 합성된 화합물들을 추가함으로써 상기 훈련 집합을 갱신하는 단계를 포함할 수 있다.
이 방법은 이하의 단계들: 상기 화합물들의 갱신된 훈련 집합을 이용해, 상기 목적 함수를 근사하는 확률 분포를 출력하기 위해 갱신된 베이지안 통계 모델을 훈련하는 단계; 상기 갱신된 훈련 집합에 있지 않은, 상기 모집단으로부터 복수의 화합물들의 새로운 부분집합을 결정하는 단계, 상기 새로운 부분집합은 상기 정의된 복수의 목적들에 종속하고 또한 상기 갱신된 베이지안 통계 모델로부터의 근사된 생물학적 특성들에 종속하는 획득 함수의 최적화에 따라 결정되고; 합성을 위해 상기 결정된 새로운 부분집합 내 화합물들 중 적어도 일부를 선택하는 단계; 상기 선택된 화합물들의 생물학적 특성들을 결정하기 위해 상기 결정된 부분집합의 선택된 화합물들을 합성하는 단계; 및 갱신된 훈련 집합을 획득하기 위해 상기 훈련 집합에 상기 합성된 화합물들을 추가하는 단계를, 정지 조건이 만족될 때까지 반복적으로 수행하는 단계를 포함할 수 있다.
상기 정지 조건은 합성된 화합물들 중 하나 또는 그 이상이 복수의 목적들을 달성하고; 합성된 화합물들 중 하나 또는 그 이상이 복수의 목적들 각각의 수용가능한 임계치들 내에 있고; 및 반복의 최대 횟수가 수행된 것 중 적어도 하나를 포함할 수 있다.
일부 실시예들에 있어서, 상기 복수의 목적들을 달성하거나, 또는 상기 복수의 목적들 각각의 수용가능한 임계치들 내에 있는 합성된 화합물은, 미리 결정된 표적 분자에 대하여 원하는 생물학적, 생화학적, 생리학적 및/또는 약리학적 활성을 갖는 후보 약물 또는 치료 분자일 수 있다.
상기 결정된 표적 분자는 시험관내 및/또는 생체내 치료, 진단 또는 실험 검정 표적일 수 있다.
상기 후보 약물 또는 치료 분자는 의약에; 예를 들어, 인간 또는 인간이 아닌 동물과 같은, 동물 치료를 위한 방법에 사용되기 위한 것일 수 있다.
상기 목적들 각각은 예를 들어 후보 화합물이 만족시켜야 하는 원하는 기준을 정의하는, 화학자에 의해, 사용자-정의될 수 있다.
일부 실시예들에 있어서, 상기 목적들 각각은 개별 특성에 대해 원하는 값; 개별 특성들에 대해 원하는 값들의 범위; 및 최대화 또는 최소화되도록 개별 특성에 대해 원하는 값 중 적어도 하나를 포함한다.
상기 선택된 부분집합 내 화합물들의 수는 예를 들어 신약 설계 프로젝트의 각 설계 주기 또는 반복에서 테스트 화합물들에 가용한 리소스 수준에 기초하여, 사용자-정의될 수 있다.
상기 모집단 내 복수의 화합물들 각각의 구조적 특징들은 화합물 내에 존재하는 부분들(fragments)에 대응할 수 있다.
상기 복수의 화합물들 각각에 존재하는 부분들은, 분자 지문으로 표현될 수 있다. 선택적으로 상기 분자 지문은 ECFP(Extended Connectivity Fingerprint), 선택적으로 ECFP0, ECFP2, ECFP4, ECFP6, ECFP8, ECFP10 또는 ECFP12이다.
상기 생물학적 특성들은 활성, 선택성, 독성, 흡수, 분포, 대사, 및 배설 중 하나 또는 그 이상을 포함할 수 있다.
본 발명의 다른 측면에 따르면 상기에서 기술된 방법에 의해 식별되는 화합물이 제공된다.
본 발명의 다른 측면에 따르면 컴퓨터 프로세서에 의해 실행될 때 상기 컴퓨터 프로세서가 상기에서 설명된 방법을 수행하도록 야기시키는 명령들을 저장하는 비일시적인, 컴퓨터-판독가능 저장 매체가 제공된다.
본 발명의 다른 측면에 따르면 컴퓨터를 이용한 약물 설계를 위한 컴퓨팅 장치가 제공된다. 이 컴퓨팅 장치는 복수의 화합물들의 모집단을 나타내는 데이터를 수신하도록 배치된 입력을 포함하고, 각 화합물은 하나 또는 그 이상의 구조적 특징들을 가진다. 이 입력은 복수의 생물학적 특성들이 알려져 있는, 상기 모집단으로부터 화합물들의 훈련 집합을 나타내는 데이터를 수신하도록 배치된다. 이 입력은 그 각각이 원하는 생물학적 특성을 정의하는, 복수의 목적들을 나타내는 데이터를 수신하도록 배치된다. 이 컴퓨팅 장치는 상기 화합물들의 훈련 집합을 이용해, 상기 모집단 내 화합물들의 생물학적 특성들을 근사하는 확률 분포를 상기 모집단 내 화합물들의 구조적 특징들의 목적 함수로서 제공하기 위해 베이지안 통계 모델을 훈련하도록 배치된다. 이 프로세서는 상기 훈련 집합에 없는, 상기 모집단으로부터 복수의 화합물들의 부분집합을 결정하도록 배치되고, 상기 부분집합은 정의된 복수의 목적들에 기초하고 또한 훈련된 상기 베이지안 통계 모델로부터의 확률 분포에 기초하여 획득 함수의 최적화에 따라 결정된다. 이 컴퓨팅 장치는 상기 결정된 부분집합을 출력하도록 배치되는 출력을 포함한다. 선택적으로 상기 컴퓨팅 장치는 합성을 위해 및/또는 (컴퓨터를 이용한) 분자 동역학 분석/시뮬레이션 수행을 위해 결정된 부분집합 내의 화합물들 중 적어도 일부를 선택하도록 배치된다. 또는, 이것은 사용자-선택에 의할 수 있다. 선택적으로, 이 컴퓨팅 장치는 상기 분자 동역학 분석/시뮬레이션을 수행하도록 배치된다.
본 발명의 예들이 이제 첨부된 도면들을 참조하여 설명될 것이다.
도 1은 정의된 함수의 가우시안 프로세스 모델 근사를 보여준다.
도 2는 가우시안 프로세스 모델 및 획득 함수가 반복 과정의 일부로서 목적 함수를 최적화하는 데 어떻게 사용되는지 보여준다.
도 3은 구분 선형 함수의 일 예를 보여준다.
도 4는 화합물들의 모집단을 이용해 훈련된 가우시안 프로세스 모델로부터의 1차원 사후 확률 분포 출력에 하나 또는 그 이상의 효용 함수들 및/또는 획득 함수들의 적용을 대략적으로 보여준다.
도 5는 본 발명의 일 예에 따른 컴퓨터를 이용한 약물 설계 방법의 단계들을 보여준다.
도 6은 분자들의 테스트 집합의 생물학적 활성들의 알려진 값들과 예측 값들을 비교하는 플롯들을 보여준다; 특히, 도 6a는 알려진 값들과 도 5의 방법에 의해 예측된 값들 사이의 비교를 보여주고; 도 6b는 알려진 값들과 종래 기술 방법에 의해 예측된 값들 사이의 비교를 보여주고; 도 6c는 종래 기술 방법에 의해 예측된 값들과 도 5의 방법에 의해 예측된 값들 사이의 비교를 보여준다.
도 7은 도 5의 방법에서의 집합 분산 임계치를 가지고, 도 6의 분자들의 테스트 집합의 생물학적 활성들의 알려진 값들과 예측 값들을 비교하는 플롯들을 보여준다; 특히, 도 7a는 알려진 값들과 도 5의 방법에 의해 예측된 값들 사이의 비교를 보여주고; 도 7b는 알려진 값들과 종래 기술 방법에 의해 예측된 값들 사이의 비교를 보여준다.
도 8은 도 5의 평균제곱오차(MSE)와 분산이 도 6의 테스트 집합에 대한 모델 불확실성에 따라 어떻게 변하는지 보여주는 플롯을 보여준다.
도 9는 도 5의 방법의 벤치마킹을 수행하기 위한 단계들을 대략적으로 보여준다.
도 10a는 분자들의 테스트 집합 내 분자들의, 특정 활성 파라미터에 대한, 생물학적 활성 값들의 분포를 보여주는 플롯을 보여주고, 또한 도 5의 방법을 수행하기 위한, 테스트 집합으로부터의, 분자들의 훈련 집합, 도 5의 방법에 의해 선택된, 테스트 집합으로부터의, 분자들의 선택된 집합, 및 훈련 집합 또는 선택된 집합 내에 있지 않는, 테스트 집합 내 분자들의 나머지 (알려지지 않은(unknown)) 집합을 보여주고; 및 도 10b는 도 10a의 훈련 집합 및 선택된 집합 내 분자들의 생물학적 활성 값들의 분포를 보여주는 플롯을 보여준다.
도 11a는 도 10a의 분자들의 테스트 집합 내 분자들의, 도 10a와 다른 활성 파라미터에 대한, 생물학적 활성 값들의 분포를 보여주는 플롯을 보여주고, 또한 도 5의 방법을 수행하기 위한, 테스트 집합으로부터의, 분자들의 훈련 집합, 도 5의 방법에 의해 선택된, 테스트 집합으로부터의, 분자들의 선택된 집합, 및 훈련 집합 또는 선택된 집합 내에 있지 않는, 테스트 집합 내 분자들의 나머지 집합을 보여주고; 및 도 11b는 도 11a의 훈련 집합 및 선택된 집합 내 분자들의 생물학적 활성 값들의 분포를 보여주는 플롯을 보여준다.
도 12는 도 10 및 도 11의 테스트 집합 내 분자들의 활성 파라미터들의 값들을 나타내는 플롯을 보여주고, 또한 도 5의 방법에 의해 어떠한 분자들이 선택되는지 나타낸다.
도 13은 분자들의 테스트 집합 내 분자들의 상대적 자유 결합 에너지 값들의 분포를 보여주는 플롯을 보여주고, 도 5의 방법을 수행하기 위한, 테스트 집합으로부터의, 분자들의 훈련 집합, 도 5의 방법에 의해 선택된, 테스트 집합으로부터의, 분자들의 선택된 집합, 및 훈련 집합 또는 선택된 집합 내에 있지 않는, 테스트 집합 내 분자들의 나머지 (알려지지 않은) 집합을 보여준다.
도 14a는 최적으로 선택된 집합들 및 무작위로 선택된 집합들에 비해, 도 13의 테스트 집합으로부터 분자들의 선택된 집합의 누적 상대 자유 결합 에너지가 도 5의 방법의 후속 반복들에 따라 어떻게 달라지는지에 대한 플롯을 보여주고; 및 도 14b는 상대 자유 결합 에너지를 최소화함에 따라 도 5의 방법의 30 회 반복 후 테스트 집합 내 상위 x 개의 분자들에 있는, 도 14a에서 선택된 분자들의 비율의 플롯을 보여준다.
도 15a는, 도 15a가 도 5의 방법을 통해 선택된 집합들 대신, 랜덤 포레스트 모델 그리디 선택된 집합들의 결과들을 보여준다는 것만 제외하고, 도 14a의 플롯을 보여주고; 및 도 15b는 상대적 자유 결합 에너지를 최소함에 따라 랜덤 포레스트 모델의 30 회 반복 후 테스트 집합 내 상위 x 개의 분자들에 있는, 도 14a에서 선택된 분자들의 비율의 플롯을 보여준다.
분자 또는 약물 설계는 지식을 발전시키기 위해 가설 생성 및 실험 주기를 사용하는 다차원 최적화 문제로 간주될 수 있다. 각 화합물 설계는 실험에서 반증되는 가설로 간주될 수 있다. 실험 결과들은 구조-활성 관계로서 표현되는데, 이것은 어떠한 화학적 구조가 원하는 특성들을 포함할 가능성이 있는지에 대한 가설들의 랜드스케이프를 구축한다. 약물 설계 과정은 또한 각 프로젝트가 원하는, 구체적인 속성들의 제품 프로필- 즉, 목표 기능 - 을 가지고 시작하기 때문에 최적화 문제이다. 하지만, 목표가 정확하게 기술될 수 있을지라도, 이전에는 최적 해법을 찾는 것이 비용이 많이 들고 어려운 과제였다. 이러한 유형의 문제에서 한 가지 특별한 어려움은 상대적으로 제한된 실험 결과들의 지식 기반으로부터 실현가능한 해법들의 방대한 공간에 걸쳐 가설들의 랜드스케이프를 효과적으로 구축하는 데 있다.
신약 발굴 과정은 통상 설계 주기들(design cycles)로 알려진 반복들(iterations)로 수행된다. 각 반복에서, 한 집합의 분자들 또는 화합물들이 합성되고, 그 생물학적 특성들이 측정된다. 활성들이 분석되어, 이전의 반복들에서 학습된 것에 기초하여, 새로운 화합물들의 집합이 제안된다. 이 과정은 임상 후보가 발견될 때까지 반복된다. 활성 뿐만 아니라, 측정되는 생물학적 특성들은 선택성, 독성, 친화성, 흡수, 분포, 대사, 및 배설 중 하나 또는 그 이상을 포함할 수 있다.
이 과정 중 특정 단계에서, 한 집합의 화합물들이 합성되거나 만들어지고, 그 생물학적 활성은 알려진다. 이 과정의 목표는, 큰 모집단 또는 화합물들의 풀로부터, 합성될 수는 있지만 이를 위해 단지 모집단으로부터 화합물들의 부분집합만을 합성할 리소스 및/또는 시간이 있는, 하나 또는 그 이상의 최적 화합물들을 발견하는 데 있다.
자동화되거나 또는 컴퓨터를 이용한 약물 설계 과정은 만들어질 수 있는 화합물들의 모집단 내에서 어떠한 화합물들이 최적 화합물들인지, 예를 들어, 특정한/바람직한 생물학적 활성을 최대화(또는 최소화)하는 화합물들인지, 예측하거나 또는 가설을 세우기 위해, 수학적 모델, 예를 들어 기계 학습(machine learning, ML) 모델을 이용한다.
능동 학습은 새로운 데이터 점들을 원하는 출력들로 라벨링하기 위해 학습 알고리즘이 사용자에게 - 또는 일부 다른 정보 소스 - 에게 상호작용적으로 질의할 수 있는 기계 학습의 특별한 경우이다. 이러한 기법이 사용되는 경우 중 하나는 라벨링되지 않은 데이터가 풍부하지만 수동으로 라벨링하는 것이 비용이 많이 드는 경우이고, 이것은 신약 발굴에서의 흔한 시나리오이다.
ML 모델은 실험 결과들로부터, 즉 이미 합성되었거나 테스트된 모집단 내의 화합물들로부터, 이용가능한 구조-활성 관계들을 이용해 훈련된다. 가능한 화합물들의 모집단으로부터 최고의 예측된 활성(또는 다른 바람직한 목표 특성)을 갖는 화합물들을 합성하기 위해 선택하는 ML 모델을 이용하는 전략 또는 접근은 '활용(exploitation)'으로 지칭된다. 활용 전략은 과정의 사용 단계로서 간주될 수 있다. 다양한 수학적 접근들이 활용을 수행하는 ML 모델을 제공하는 데 이용될 수 있다. 예를 들어, 이것들은 지원 벡터 머신 알고리즘들, 신경망, 및 의사결정 트리들을 포함한다.
활용 접근은 ML 모델의 예측 능력이 충분히 정확할 때에만, 즉 ML 모델이 충분히 잘 훈련된 경우에만 성공적일 것이다. 합성되고 테스트되는 모집단으로부터의 각 화합물은 ML 모델을 훈련시키는 데 사용되는 화합물들의 훈련 집합에 추가된다. 특정 반복에서 훈련 집합에 추가되는 분자들 또는 화합물들의 수는 통상적으로 리소스에 의해 제약된다. 다시 말하면, 각 반복에서 합성되는 화합물들의 부분집합 내의 화합물들의 수는 규정된(prescribed) 최대 수로 정의될 것이다.
ML 모델의 예측 능력은 훈련 집합 내에 충분한 수의 화합물들이 있을 때에만 충분히 정확할 것이다. 이와 같이, 소정 수의 반복들 또는 설계 주기들이 수행될 필요가 있을 수 있다 - 여기서 예를 들어 규정된 최대 수의 화합물들은 각 반복에서 훈련 집합에 추가된다 - ML 모델이 충분히 훈련되기 전에.
또한, ML 모델의 예측 능력은 훈련 집합 내의 화합물들이 합성을 위해 선택될 수 있는 화합물들의 전체 모집단을 충분히 대표하는 때에만 정확할 것이다. 그러므로, ML 모델이 충분히 잘 훈련되기 전에, ML 모델을 개선시키는 데 가장 도움이 될 수 있는 화합물들 - 즉, 가장 대표적일 수 있는 화합물들 - 이 주어진 반복에서 합성될 부분집합 내에 포함되는 것이 중요하다. 이에 기초하여 합성을 위한 화합물들을 선택하는 것은 '탐색(exploration)'으로 지칭된다. 서너 접근들, 예를 들어 모집단 내 화합물들 사이의 거리 측정들에 기초하거나, 또는 화학적 구조 측면에서 모집단 내 화합물들의 다양성에 기초한 기법들이, 탐색 전략의 일부로서 합성을 위한 화합물들을 선택하기 위해 알려져 있다. 탐색 전략은 이 과정의 학습 단계 또는 훈련 단계로서 간주될 수 있다.
따라서 활용 및 탐색 전략들은 신약 발굴 과정의 특별한 반복에서 합성을 위해 화합물들의 부분집합을 선택할 때 경쟁적 요구사항들을 가진다. 사실상, 어떠한 전략이 적절한지에 대한 선택은 신약 발굴 과정의 특정 단계에 따라 달라질 수 있을 것이다. 예를 들어, 신약 발굴 프로젝트의 초기 단계에서, 충분히 잘 훈련된 모델이 아직 구축되었을 가능성은 적다. 그러므로 이 단계에서 탐색 전략은 탐색의 보상이 궁극적으로 더 잘 훈련되고 이로써 더 정확한 모델이기 때문에 가장 적절한 전략일 수 있다. 활용 전략은 이 단계에서 활용이 훈련 집합의 대표성을 증가시키는 데 특별히 좋은 전략이 아니기 때문에 제한된 리소스를 최대한 활용하지 못할 수 있다. 반면에, ML 모델이 이미 충분히 잘 훈련되어 있다면 - 예를 들어, 신약 발굴 프로젝트의 이후 단계에서 - 합성을 위해 모델에 의해 선택된 화합물들의 부분집합이 원하는 특성들, 예를 들어 높은 생물학적 활성 수준들에 대하여 최적의 화합물들일 가능성이 높기 때문에 이 경우 활용은 적절한 전략일 수 있다. 이 단계에서, 탐색은 원하는 특성들을 가질 가능성이 있는 화합물들을 선택하기 위한 최적의 전략이 아니기 때문에 탐색 전략은 제한된 리소스를 최대한 활용하지 못할 수 있다.
상기에서 언급된 바와 같이, 활용 전략을 수행하기 위한 ML 모델은 ML 모델을 훈련하는 데 사용되는 집합 내에 충분한 수의 화합물들이 있고; 또한 이 훈련 집합 내의 화합물들이 이로부터 합성될 화합물들이 선택되는 화합물들의 풀을 충분히 대표할 때에만 정확한 예측을 할 (수 있을) 것이다. 이 중 첫번째는 (충분한 수의 이전에 합성된 화합물들에 관련된 데이터가 이미 이용가능하지 않는 한) 충분한 수의 합성된 화합물들을 획득하기 위해 소정 수의 설계 주기들이 수행될 필요가 있을 수 있음을 의미한다. 이 중 두번째는 신약 발굴 프로젝트의 초기 단계에서 처음 설계 주기들 동안, (오로지) 활용 전략만을 수행할 수 있는 ML 모델을 이용해 어떠한 화합물들을 합성될 집합 내에 포함할지에 대한 결정에 기초하는 것은 바람직하지 않을 수 있음을 의미한다. 이것은 이러한 ML 모델이 아직 충분한 수준까지 훈련되지 않은 모델에 따라 어떠한 화합물들이 매우 활성이 높은지 예측할 것이기 때문이고, 이것은 예측들이 정확할 가능성이 낮을 것임을 의미한다. 이에 더하여, 이러한 예측에 따라 합성물들을 합성하는 것은 ML 모델 예측이 화합물들의 훈련 집합으로부터 이미 식별된 관계들/정보에 더 집중하기 때문에, 후속 설계 주기에 대한 ML 모델을 개선하는 데 유용하지 않을 것이다. 특히, 순수하게 활용을 수행하는 ML 모델로부터의 예측은 어떠한 화합물들이 다음 설계 주기에 대한 ML 모델의 정확성을 개선시킬 목적으로 합성되어야 할지 제안하는 데 도움을 주지 않는다.
신약 발굴 프로젝트와 연관된 시간 및 비용을 줄이기 위해, 원하는 특성들을 갖는 후보 또는 최적의 화합물을 발견하는 데 필요한 반복 횟수 또는 설계 주기들을 최소화해야 한다. 따라서 원하는 특성들을 갖는 화합물들을 예측하기 위해 가능한 한 빨리, 즉 훈련 집합 내에 가능한 한 적은 수의 화합물들을 필요로 하는, 충분히 잘 훈련된 모델이 구축될 수 있는 것이 결정적이다. 이와 같이, 이러한 전략을 채용하는 반복들에서 후보 화합물이 나올 것 같지 않기 때문에, (적어도 어느 정도) 탐색이 필요한 경우에 반복 횟수를 최소화하기 위해 프로젝트의 초기 단계에서 가장 대표적인 화합물들이 합성을 위해 선택되는 것이 중요하다.
본 발명은 신약 발굴 과정의 일부로서 화합물들의 모집단으로부터 후보 화합물을 식별하기 위해 기계 학습 모델을 설계하고 이용하기 위한, 개선된 컴퓨터를 이용한 약물 설계 방법을 제공한다는 점에서 유리하다. 특히, 본 발명은 유리하게 각각 별도로 또는 병렬적으로, 활용 및 탐색 전략들 모두를 반영하고 수행할 수 있는 기계 학습 모델을 제공한다. 본 발명은 유리하게 신약 발굴 프로젝트의 주어진 설계 주기에서 합성을 위해 병렬적으로 복수의 화합물들의 최적화 및 선택을 허용하고, 본 발명은 유리하게 후보 화합물의 원하는 다양한 생물학적 특성들을 정의하는 복수의 설계 목적들에 대하여 화합물들의 최적화를 허용한다. 본 발명은 또한 특정 신약 발굴 프로젝트의 후보 화합물에 의해 최적화되거나 달성되는 목적들에 관하여 및/또는 합성할 어떠한 화합물들을 선택할 때 다양한 목적들을 만족시키는 화합물들 사이의 구별에 관하여 (예를 들어, 화학자의) 다양한 선호도들을 통합하기 위한 더 유연한 방법을 제공한다.
본 발명에 따르면, 컴퓨터를 이용한 약물 설계 방법의 한 단계는 복수의 화합물들 또는 분자들의 모집단(polulation)을 정의하는 것이다. 특히, 이 모집단은 특정 신약 발굴 프로젝트 중 합성을 위해 선택될 수 있는 화합물들의 집합이다. 모집단은 어떠한 적절한 방식으로든, 예를 들어 알려진 컴퓨터를 이용한 방법들을 통해 및/또는 수동 입력을 통해, 정의되거나 또는 획득될 수 있다. 예를 들어, 모집단은 생성 또는 진화 설계 알고리즘으로부터 획득되는 화합물들의 집합일 수 있다. 특히, 진화 설계 알고리즘은 본 방법이 사용될 수 있는 특정 프로젝트를 위해 최적 화합물의 원하는 특성들의 적어도 일부를 가지는 하나 또는 그 이상의 알려진 화합물들 - 예. 기존 약물 - 의 초기 집합에 기초하여 다수의 신규한 화합물들을 생성할 수 있다. 또는, 다수의 신규한 화합물들은 다른 적절한 방식으로 생성될 수 있다. 적어도 일부의 원하는 특징들을 가지고 생성되는 신규한 화합물들은 추후의 분석을 위해 유지될 수 있다. 일 예에 있어서, 화합물들의 시작 그룹(예를 들어, 수백 만의 화합물들을 포함하여)은 특정 프로젝트에 대해 적어도 일부의 원하는 특징들을 가진 특정 화합물들을 즉시 사용할 수 있도록 알려진 방법들을 추가함으로써 수적으로 감소될 수 있다. 하나 또는 그 이상의 필터들은 원하지 않는 화합물들을 제거하기 위해 유지되는 화합물들에 적용될 수 있다. 이 필터들은 원하지 않는 화합물들로부터 원하는 화합물들을 선택(또는 필터링)하기 위한 적절한 기준에 따라 정의될 수 있다. 예를 들어, 중복된 화합물들을 제거하기 위해 하나의 유용한 필터가 적용될 수 있다. 소정 수준의 독성을 갖는 화합물들을 제거하기 위해 다른 필터가 적용될 수 있다. 필터링된 화합물들의 집합은 그후 합성을 위한 선택이 행해질 수 있는 모집단을 형성할 수 있다.
모집단은 적절한 수의 화합물들을 포함할 수 있다. 일반적으로, 모집단은 예를 들어 가용한 리소스를 이유로, 특정 신약 발굴 프로젝트의 일부로서 합성될 수 있는 화합물들의 수보다 더 - 아마도 상당히 더 - 많은 화합물들을 포함할 것이다. 하지만, 모집단은 또한 일반적으로 본 발명에 따른 모집단의 컴퓨터를 이용한 분석이 실행가능하지 않도록 할 정도로 많은 화합물들을 포함하지는 않을 것이다. 예를 들어, 모집단 내의 화합물들의 수는 통상 수백 또는 수천 일 수 있지만, 어떠한 주어진 프로젝트에 있어서 그 모집단은 이보다 더 크거나 또는 더 작을 수 있음이 이해될 것이다.
모집단 내의 각각의 화합물은 그 화학적 구조를 형성하기 위해 결합하는 구조적 특징들의 수를 포함한다. 이러한 구조적 특징들은 어떠한 적절한 방식으로든 표현될 수 있다. 예를 들어, 화합물 또는 분자의 구조를 설명하기 위한 한 방법은 지문(fingerprinting)을 통해서이다. 특히, 특정 화합물의 지문은 화합물 내에 존재하거나 또는 존재하지 않는 특정 구조적 특징들 또는 하부구조들(부분들)을 반영하는 수학적 객체들 - 예를 들어, 연속하는 비트들 또는 정수 리스트 - 로 표현될 수 있다.
위상학적 지문, 구조적 지문, 및 원형 지문(circular fingerprints)과 같이, 수 개의 다른 지문들의 분류들이 있다. 일반적인 원형 지문 방법은 ECFP(Extended Connectivity Fingerprinting)이다. ECFP0, ECFP2, ECFP4, ECFP6, ECFP8, ECFP10 및 ECFP12와 같은, 다수의 ECFP 방법들이 알려져 있다. 업계에 알려진 바와 같이, 화합물의 지문을 결정하는 것은 일반적으로 화합물 내의 각 원자를 식별자로 할당하고, 이 식별자들을 인접 원자들에 기초하여 갱신하고, 중복을 제거하고, 그후 식별자들의 리스트로부터 벡터를 형성하는 것을 포함할 것이다.
컴퓨터를 이용한 약물 설계 방법의 다음 단계는 모집단으로부터 화합물들의 훈련 집합(traning set)을 정의하는 것이다. 훈련 집합은 그 생물학적 특성들이 알려져 있는 모집단 내 화합물들을 포함한다. 다시 말하면, 훈련 집합은 소정의 생물학적 특성들, 예를 들어 생물학적 활성을 결정하기 위해 실험적으로 합성되고 테스트된 모집단으로부터의 화합물들을 포함한다. 이와 같이, 훈련 집합 내의 화합물들의 수는 신약 발굴 프로젝트가 진행됨에 따라, 즉 더 많은 반복들 또는 설계 주기들이 수행됨에 따라, 증가한다. 약물 설계 프로젝트의 시작에서, 상대적으로 적은 수의 화합물들이 훈련 집합 내에 있을 수 있다. 예를 들어, 훈련 집합은 생물학적 특성들이 선험적으로(a priori) 알려진 화합물들, 예를 들어 다른 프로젝트의 일부로서 이전에 테스트되었고 또한 고려 중인 특정 프로젝트에 따른 최적 화합물의 원하는 특성들 중 적어도 일부를 가지는, 화합물들을 포함할 수 있다.
본 발명의 컴퓨터를 이용한 설계 방법을 수행하기 위해, 훈련 집합은 적어도 일부의 화합물들을 포함해야 함에 유의하자. 따라서, 약물 설계 프로젝트의 시작에서 정의된 모집단 내 어떠한 화합물들도 합성되고 테스트되지 않았다면, 즉 모집단의 생물학적 특성들이 알려져 있지 않다면, 본 발명에 따라 (이하에서 설명되는 바와 같이) ML 방법이 훈련되고 실행되기 전 초기 단계로서 적절한 방식으로 모집될 수 있다. 예를 들어, 초기 훈련 세트를 제공하기 위해 합성되는 화합물들은 다른 기법, 예를 들어 알려진 탐색 전략에 따라 또는 단순히 모집단으로부터 무작위로 선택될 수 있다.
컴퓨터를 이용한 약물 설계 방법의 다음 단계는 그 각각이 원하는 생물학적 특성을 정의하는 복수의 목적들(objectives)을 정의하는 것이다. 다시 말하면, 복수의 목적들은 특정 약물 설계 프로젝트에 대한 후보 화합물에 의해 보여질 수 있는 원하는 생물학적 특성들을 설명한다. 이 목적들은 화합물들에 의해 보여지는 다양한 생물학적 특성들에, 예를 들어, 생물학적 활성, 선택성, 독성, 흡수, 분포, 대사, 및 배설 중 하나 또는 그 이상에, 기초할 수 있다. 각 목적은 적절한 방식으로 특정 생물학적 특성에 대하여 정의될 수 있다. 예를 들어, 목적은 단순히 특정 생물학적 특성을 최대화하거나 또는 최소화하는 것일 수 있다. 또는, 목적은 특정 생물학적 특성에 대한 특정한 원하는 값을 달성하는 것일 수 있거나, 또는 목적은 후보 화합물에서 수용가능하도록 특정 생물학적 특성에 대한 원하는 값들의 범위를 허용할 수 있거나, 또는 소정의 임계 값보다 크거나 또는 작도록 특정 생물학적 특성의 값을 제한할 수 있다. 하나 또는 그 이상의 목적들은 주어진 생물학적 특성에 대하여 정의될 수 있다. 단지 설명을 위해, 소정의 신약 발굴 프로젝트를 위한 이상적인 분자 또는 화합물의 프로필의 일 예는 이하의 목적들 측면에서 표현될 수 있다: 가능한 한 높은 1차 표적 X에 대한 활성; 2와 6 사이의 친유성(log P); 및 엄격하게 5 미만의 원치 않는 표적 Y에 대한 활성(pIC50).
기술된 컴퓨터를 이용한 설계 방법의 부분으로서 사용되는 ML 모델의 (궁극적인) 목적은 정의된 목적들을 만족하는, 모집단으로부터 하나 또는 그 이상의 화합물들을 제안하거나 또는 예측하는 데 있다. 컴퓨터를 이용한 약물 설계 방법의 다음 단계는 이러한 ML 모델을 훈련하기 위해 화합물들의 정의된 훈련 집합을 이용하는 것이다. 특히, ML 모델은 그 출력이 모집단 내 화합물들의 구조적 특징들의 목적 함수로서 모집단 내의 화합물들의 생물학적 특성들을 근사하는 확률 분포인 베이지안 통계 모델이다.
베이지안 최적화는 그 형태가 알려지지 않은 함수(즉, '블랙박스 함수')를 최적화하고, 또한 입력 공간의 점들에서 그 함수가 비용이 많이 드는지 평가하는 유용한 방법이다. 그러므로 베이지안 최적화는 컴퓨터를 이용한 신약 발굴에 있어서 유용한 접근으로 고려될 수 있다. 이것은 화합물들의 모집단 내 화합물들 간의 함수적 관계의 유형들이 사전에 알려져 있지 않고, 또한 화합물을 합성하고 테스트하는, 즉 평가 비용이 시간 소모적이고 고가일 수 있기 때문이다.
베이지안 최적화는 실행가능한 집합 또는 검색 공간에서 목적 함수를 최대화/최소화하는 데 초점을 둔 ML-기반 최적화 방법들의 분류이다. 베이지안 최적화를 이용하는 문제점들에 대한 다수의 추가적인 일반 가정들은 전형적으로 만들어지거나, 또는 베이지안 최적화를 이용하여 해결되는 문제점들에 공통된다. 예를 들어, 입력 공간의 차원(dimensionality)은 일반적으로 너무 크지 않고, 목적 함수는 일반적으로 연속 함수이고, 전역 최대치/최소치가 검색되고, 그래디언트 정보가 함수의 평가들과 함께 주어지지 않으므로. 이로써 그래디언트 하강법(gradient descent) 또는 뉴턴 방법(Newton's method)과 같은, 도함수(derivatives)에 기초한 최적화 방법들을 차단한다. 신약 발굴 맥락에서, 이러한 일반적인 가정들 모두가 적용가능한 것이 아님은 명백하다. 예를 들어, 신약 발굴에 있어서 베이지안 최적화는 연속 공간 대신 불연속 공간 - 모집단으로부터의 화합물을 나타내는 각각의 불연속 점을 갖는 - 에서 모델링될 수 있다. 또한, 신약 발굴의 맥락에서의 문제는 상대적으로 높은 차원인 입력 공간을 가질 수 있다. 특히, 입력 공간의 각 차원은 주어진 화합물에 존재하거나 또는 존재하지 않는 특정 구조적 특징 또는 부분을 나타낼 수 있고, 모델 내 화합물들의 표현은 각 경우에 있어서 존재하거나 또는 존재하지 않는 것으로 인코딩되는 수천의 다른 이러한 구조적 특징들을 포함할 수 있다. 그러므로, 표준 베이지안 최적화 기법들 일부는 해당 경우에서와 같이 신약 발굴의 맥락에서 컴퓨터를 이용한 방법에 적합하지 않을 수 있고, 또한 적절한 변형들이 수행되어야 할 수 있음이 명백하다. 이것은 이하에서 더 상세하게 설명될 것이다.
베이지안 최적화는 베이지안 통계 모델, 또는 목적 함수를 모델링하기 위한 대리(surrogate)를 이용한다. 이 경우에 있어서, 목적 함수는 모집단 내 화합물들의 생물학적 특성들과 이 화합물들의 구조적 특징들 사이의 관계들을 기술한다. 베이지안 통계 모델은 주어진 점, 예를 들어 평가를 위한 후보인 점에서 목적 함수의 잠재적 값들을 기술하는 베이지안 사후 확률 분포를 제공한다. 하나 또는 그 이상의 새로운 점들에서 목적 함수가 평가/관찰될 때마다, 사후 확률 분포는 갱신된다. 다시 말하면, 모집단으로부터의 화합물이 그 생물학적 특성들을 결정하기 위해 합성될 때마다, 이 화합물은 그후 생물학적 특성들과 구조적 특징들 사이의 관계들을 근사하는 모델을 갱신하는 데 사용될 수 있다.
베이지안 최적화를 문제에 적용할 때, 사용되는 모델은 불확실성 측정, 즉 모델이 그 자체 예측에 대해 얼마나 확실한지를 정량화하는 방법을 생성한다. 베이지안 통계 모델은 가우시안 프로세스 모델일 수 있는데, 이것은 이러한 불확실성 측정(measure of uncertainty)을 포함한다. 가우시안 프로세스는 확률적 프로세스 - 즉, 시간 또는 공간으로 인덱싱된 임의 변수들의 집합(collection) - 이여서 이러한 임의 변수들의 모든 유한 집합(finite collection)은 다변량 분포를 가진다. 다시 말하면, 임의 변수들의 모든 유한한 선형 조합은 정규 분포된다. 일반적으로, 가우시안 프로세스 모델은, 훈련 여부에 관계 없이 모든 데이터가 동일한 가우시안 프로세스에서 생성된다고 가정하고, 이는 일반적으로 좋은 근사이다.
가우시안 프로세스 회귀는 함수를 모델링하기 위한 베이지안 통계적 접근법의 한 유형이다. 베이지안 통계에 알려지지 않은 양이 있을 때마다 - 예를 들어, 입력 점들의 유한 집합에서 목적 함수 값들의 벡터 - 일부 사전 확률 분포(또는 간단히, '사전(prior)')에 대해 자연에서 무작위로 추출되었음이 가정된다. 가우시안 프로세스 회귀는 이 사전 분포를, 특정 평균 벡터 및 공분산 행렬을 이용하여, 다변량 정규로 만든다.
평균 벡터는 입력 점들 각각에서 평균 함수(mean function)를 평가함으로써 구성될 수 있다. 한 가지 옵션은 평균 함수가 일정한 값이 되도록 설정하는 것이다; 하지만, 목적 함수가 어떠한 응용-특수 구조를 가지는 것으로 생각될 때, 평균 함수에 대한 다른 적절한 형태들, 예를 들어, 다항식 함수도 가능하다. 공분산 행렬은 각 점들의 쌍에서 공분산 함수 또는 커널을 평가함으로써 구성될 수 있다. 즉, 보이지 않는 점 - 즉, 평가되지 않았고 이로써 그 함수 값들이 알려지지 않은 점 - 에 대하여 값을 예측할 때, 이 모델은 점들 간 유사도 측정을 이용하는데, 이 유사도 측정은 커널 함수에 의해 제공된다. 커널은 입력 공간에서 더 근접하는 점들이 더 큰 양의 상관(positive correlation)을 가지도록 선택될 수 있다. 이것은 그 함수 값들이 입력 공간에서 더 멀리 있는 점들의 쌍보다 더 유사해야 한다는 믿음을 표현한다. 그러므로, 훈련 점들 - 즉, 평가되고 그 함수 값들이 알려진 점들 - 은 보이지 않는 점에 이웃하는 점들인데, 이웃하지 않는 훈련 점들에 비하여 보이지 않는 점에 대한 예측에 더 큰 가중치를 준다.
예를 들어, 입력 공간 내 다수의 점들이 관찰되고, 새로운 점에서 목적 함수의 값을 예측하고자 한다고 가정한다. 사전 분포는 가우시안 프로세스 회귀를 이용해 결정될 수 있고 그후 새로운 점에서 목적 함수의 조건부 분포는 베이즈 규칙(Bayes' rule)을 이용하여 관찰되는 점이 주어지면 계산될 수 있다(업계에 알려진 바와 같이). 이 조건부 분포는 베이지안 통계에서 사후 확률 분포(posterior probability distribution)로 지칭된다. 사후 평균은 커널에 따라 달라지는 가중치(weight)를 이용해, 알려진 데이터(즉, 평가되거나 관찰된 점들)에 기초하는 사전 및 예측 사이의 가중 평균(weighted average)일 수 있다. 사후 분산(즉, 불확실성)은 상기에서 언급된 점들에서 함수를 관찰함으로써 제거되는 분산에 대응하는 더 적은 수의 항인 사전 공분산과 같을 수 있다.
상기의 접근을 구현하는 간단한 예가 이제 설명을 위해 제공된다. 함수 를 고려하고, 6 개의 훈련 점들이 방사 기저 함수 커널(radial basis function kernel)을 사용하는 가우시안 프로세스 모델에 제공됨을 가정한다. 그후, 모델의 예측들은 간격 에서 생성된다. 도 1은 관찰 (훈련) 점들(training points), 함수 , 예측들의 평균(mean), 및 95% 신뢰 구간(confidence interval, 표준 편차의 2배, 즉 불확실성 측정)의 플롯을 보여준다. 관찰 점들로부터 멀리 떨어진 예측들에 연관된 불확실성은 관찰 점들에 더 근접한 예측들보다 더 큼을 알 수 있다.
상기에서 언급된 바와 같이, 커널들은 통상적으로 입력 공간 내 점들이 서로에게 근접하면 할수록, 이들의 상관도는 더 커지는, 즉 더 유사해지는 특성을 가진다. 하지만, 커널은 한 쌍의 점들이 입력 공간에서 얼마나 '서로 근접(close together)'하는지 측정하는 방법을 정의해야 한다. 통상적으로, 커널들은 유클리드 거리에 따라 달라지는 함수들이다. 하지만, 이러한 커널들은 차원이 높은 입력 점들은 잘 처리하지 못한다. 예를 들어, 유클리드 거리 측정에 기초하는 커널들은 입력 공간이 수십 차원까지에서는, 예를 들어 20 차원에서는 충분히 잘 작동할 수 있다. 하지만, 상기에서 언급된 바와 같이, ML 모델의 일부로서 분석하기 위해, 분자 또는 화합물은 수천 비트 정도의 길이, 예를 들어 2048-비트 지문을 갖는, 비트 벡트로 인코딩/표현될 수 있다. 여기서 각 비트는 특정 구조적 특징 또는 부분이 화합물 내에 존재하는지 또는 존재하지 않는지를 나타낸다. 다시 말하면, 이 맥락에서 입력 공간은 수천 차원을 갖는 것으로 간주될 수 있다. 예를 들어, 2048-비트 지문의 경우, 각 지문은 2048-차원의 단위 입방체의 꼭지점으로 간주될 수 있다. 이러한 맥락에서 유클리드 거리에 기초하는 커널이 사용될 수 있지만, 유클리드 거리 측정에 따라 대부분이 나머지들 모두로부터 동등하게 떨어져 있을 수 있기 때문에, 입력 공간 내 점들 - 즉 정의된 모집단 내 화합물들 - 간의 차이를 정확하게 반영하지 않을 수 있다.
본 발명의 맥락에서, 가우시안 프로세스 모델의 커널에 대한 기저로서 타니모토 유사도를 대신 사용하는 것이 유리할 수 있다. 타니모토 유사도 또는 계수는 샘플 집합들의 유사성 및 다양성 측정이고, 또한 집합들의 교집합의 크기를 샘플 집합들의 합집합의 크기로 나눈 것으로 정의될 수 있다. 타니모토 계수는 지문들 간의 유사성을 결정하기 위해 화학정보학에서 사용된다. 유익하게, 가우시안 프로세스 모델에 대하여 커널에 타니모토 계수의 적용은 현존하는 신약 발굴 사용예와 같은 고차원 적용들에서 유클리드 거리에 기반한 커널들이 겪을 수 있는 상기에서 기술된 문제들을 겪지 않도록 할 것이다. 이것은 타니모토 유사도가 코사인 유사도로 간주될 수 있고, 이로써 거리(유클리드-기반 커널들의 경우에서와 같이)라기보다는 각도 측정으로 간주될 수 있기 때문이다.
베이지안 최적화 모델 역시 하이퍼파라미터들로 지칭되는, 사전 분포 파라미터들을 포함한다. 특히, 사전 분포의 평균 함수 및 커널은 하이퍼파라미터들을 포함한다. 이 하이퍼파라미터들의 선택/최적화는 그 영향이 다양한 표준 샘플 크기들에 종종 중요할 수 있기 때문에 결정적이다. 신약 발굴 맥락에서, 베이지안 통계 모델의 하이퍼파라미터들을 선택하기 위한 표준 접근들은 적절하지 않거나 또는 최적이지 않을 수 있다. 그 이유 중 하나는 신약 발굴 분야에서 훈련 데이터는 일반적으로 상대적으로 적은 양이기 때문이다. 즉, 훈련 집합은 일반적으로 훈련 모델을 훈련하기 위해 상대적으로 적은 수의 화합물들을 포함한다. 물론, 많은, 또는 추가적인 화합물들을 훈련 집합에 추가하는 것은 샘플링되지 않았던 화합물들을 합성하고 테스트하는 데 상대적으로 비용 및 시간이 많이 들기 때문에 반드시 실행가능하지는 않다. 신약 발굴 맥락에서 모델 하이퍼파라미터들을 선택하는 일부 표준 접근들이 적절하지 않을 수 있는 다른 이유는 소위 '활성 절벽들(activity cliffs)' 때문이다. 즉, 매우 유사하거나, 또는 거의 동일한, 화학적 구조를 갖는 한 쌍의 분자들이 각 개별적인 활성들 측면에서는 상대적으로 큰 차이를 보임을 발견하는 것은 상대적으로 흔할 수 있다. 이 활성에 있어서의 상당한 차이는 상대적으로 적은 수의 주요 원자들이 화학적 구조에 추가되거나 또는 이로부터 제거되는 결과일 수 있다. 이러한 현상은 화합물들 간의 구조-활성 관계들을 예측하는 모델에 명백하게 세심한 주의를 필요로 한다.
베이지안 통계 모델의 하이퍼파라미터들이 선택될 수 있는 한 가지 방법은 (타입 II) MLE(maximum likelihood estimation) 접근을 이용하는 것에 의하는 것이다. 특히, 목적 함수의 관찰 집합 - 즉, 현재 경우에 있어서 알려진 생물학적 특성들을 갖는 화합물들의 훈련 집합 -이 주어지면 (하이퍼파라미터들에 따라 달라지는) 사전(the prior) 하에서, 또는 이에 따른 관찰들의 우도(likelihood)가, 계산된다. 우도는 다변량 정규 밀도이고, 하이퍼파라미터들은 그후 이 분포에서 우도를 최대화하는 값으로 설정된다. 그래디언트 하강법이 이 사전 하에서의 관찰들의 우도를 최대화하는 하이퍼파라미터들을 획득하는 데 사용될 수 있다. 이 모두는 훈련 데이터가 드물게 있거나 또는 존재하지 않는 화학적 공간의 알려지지 않은 영역들에 모델을 사용하려고 시도할 때 문제가 된다.
신약 발굴 맥락에서, 타입 II MLE를 이용하여 하이퍼파라미터들을 선택하는 것은 적은 양의 훈련 데이터 때문에 짧은 길이 크기들로 조정되는 모델로 귀결될 수 있고, 이것은 알려진 점이 원하거나 또는 최적보다 더 많은 정도까지 새로운 점들에 대한 예측들에 영향을 미칠 수 있음을 의미한다. 이러한 접근은 또한 모델 내 높은 수준들의 노이즈에까지 이를 수 있고, 훈련 데이터를 오버피팅하는 모델로 귀결될 수 있다. 그러므로, 이 기술된 문제들에 대한 수동 점검 필요 없이 신약 발굴을 위한 베이지안 통계 모델의 훈련을 확장하고 자동화하기 위해, 더 강건한 하이퍼파라미터 최적화 접근이 필요하다.
하이퍼파라미터들이 선택될 수 있는 다른 방법은 교차 검증 접근을 이용하는 것이다. 여기서 일반적인 접근은 훈련 집합을 다수의 부분집합들로 분기 또는 분할하고; 이 모델을 분할된 부분집합들 중 하나를 제외하고 모두를 이용하여 훈련하고; 그후 이 모델을 나머지 (테스트) 부분집합을 이용하여 테스트하는 것이다. 이것은 그후 테스트 부분집합으로서 다른 부분집합들 각각에 대하여 반복된다. 이것은 최적화되는 모델의 일반화 기능(generalisation capabilities)이기 때문에 ML 모델을 훈련하는 더 강건한 방식으로 간주될 수 있다. 하지만, 교차 검증 접근은 예를 들어, 타입 II MLE보다 상대적으로 계산 비용이 많이 들고 계산 속도가 느린 경향이 있다. 신약 발굴의 맥락에서 최적화될 필요가 있는 상대적으로 대량의 하이퍼파라미터들은(입력 데이터의 고차원 때문에) 이 경우에 있어서 순수한 교차 검증 접근은 계산 비용 측면에서 엄청나게 고가일 수 있음을 의미한다.
본 발명의 실시예들에 있어서, 베이지안 통계 모델을 훈련하는 것은 최대 우도 예측 기법과 교차 검증 기법의 조합을 적용함으로써 모델의 하이퍼파라미터들을 조정 또는 훈련하는 것을 포함할 수 있다. 이 2 가지 접근들 또는 기법들을 결합함으로써, 하이퍼파라미터들의 개선된 훈련이 상대적으로 적은 계산 비용으로 달성될 수 있다.
한 가지 방법으로, 이 조합 접근은 '조기 중단(early stopping)' 기법에 다소 유사한 것으로 간주될 수 있다. '조기 중단'은 기계 학습 기법이고, 여기서 모델은 그래디언트 하강법을 통해 단계들에서 훈련된다. 모든 단계마다, 또는 몇 단계마다, 일반적으로 검증 집합(validation set)으로 지칭되어 온 데이터 집합에 대하여, 모델의 성능이 평가된다. 이전 평가 이후에 성능이 감소되면, 훈련 데이터의 오버피팅을 방지하기 위해 모델은 훈련을 중지한다. 하지만, 대부분의 모델들은 검증 데이터를 전혀 본 적이 없는 한 이에 대하여 제대로 평가할 수 없다. 이것은 사실상, (모델이 오버피팅하는 것을 막도록) 모델이 실제로 이용가능한 데이터보다 더 적은 데이터를 이용해 훈련될 필요가 있음을 의미한다.
신약 발굴 맥락에서 베이지안 통계 (가우시안 프로세스) 모델에 대하여(즉, 분자 데이터에 작동하는), 이하의 접근은 유용할 수 있다. 모델의 하이퍼파라미터에 대한 초기 하이퍼파라미터 및 사전들에 있어서, 데이터 내의 노이즈 상에서 상대적으로 높은 사전으로 시작하는 것이 유용할 수 있다. 이것은 분자 데이터 내 활성 절벽들(상기에서 언급된)이 수치 오류 또는 잘못된 피팅을 생성하지 않도록 보장하기 위한 것이다. 이때 최대 우도 예측 접근의 표준 그래디언트 하강 단계는 전체 훈련 집합, 즉 생물학적 특성들이 알려져 있는 화합물들 전체에 대하여 모델(예. 타니모토 커널을 갖는)을 통해 수행될 수 있다. 교차 검증 단계는 그후 그래디언트 하강법의 몇 단계마다 수행될 수 있고, 여기서 교차 검증 간에 수행되는 단계들의 수는 필요에 따라 선택될 수 있다. 가우시안 프로세스 모델들의 특정 특성 때문에 예측들을 계산하는 데 사용되는 공분산 행렬이 단지 그 하이퍼파라미터들 및 초기 훈련 데이터에만 종속하는 것이 가능하다. 따라서, 몇 줄의 행들 및 열들이 삭제된 공분산 행렬은 훈련 집합으로부터 대응하는 수 개의 데이터 점들을 먼저 삭제함으로써 획득될 수 있는 공분산 행렬과 동일하다. 이것은 이미 결정된 공분산 행렬을 갖는 모델에 있어서, 행들 및 열들의 집합 수(예. 10 또는 다른 적절한 수)는 숨길 수 있지만, 모델은 동일한 하이퍼파라미터들을 가지고 훈련 점들의 수를 제외한 모두는 숨겨진 행들 및 열들에 대응함을 의미한다. 그후 이 더 작은 모델은 특정 관심 메트릭(예. 회귀의 경우 'R 제곱')을 획득하기 위해 숨겨진 점들에서 예측함으로써 검증될 수 있다. 대신, 이 프로세스가 k-폴드에 수행되면(여기서 k는 훈련 데이터가 분할되는 부분집합들의 수이다) - 즉, 데이터의 처음 1/k을 숨기고 이를 예측하고, 그후 데이터의 다음 1/k에 대하여 등 -결정적으로, 그후 그래디언트 하강법에 대해 전체 훈련 집합을 이용하면서, 모델의 일반화 기능의 보다 더 정확한 예측이 획득된다. 작은 훈련 집합들이 약물 설계에 대하여 기준이기 때문에, 모델이 오버피팅하지 않도록 훈련 집합 내 화합물들의 일부(예. 50 중 10, 또는 다른 적절한 수)를 사용할 여유가 없다. 상기의 방식으로 가우시안 프로세스 모델을 조정하여 이 문제를 방지한다. 다른 장점은 모델 검증이 거의 계산 비용 없이 제공된다는 것이다.
베이지안 최적화에 있어서, 베이지안 통계 모델 - 예. 가우시안 프로세스 모델 -이 훈련 집합을 이용해 목적 함수를 모델링하기 위해 훈련되기만 하면, 획득 함수가 입력 공간의 어떠한 점들에서 다음에 함수가 평가되거나, 샘플링되거나, 또는 관찰되어야 하는지 결정하는 데 사용된다. 특히, 획득 함수는 문제를 다루기 어려운 목적 함수에서 전역 최대치를 발견하는 것에서, 연속적이고 미분가능하고 빠르게 계산가능한 함수에서 전역 최대치를 발견하는 것으로 이동시키는 베이지안 최적화에 있어서 유용한 도구이다. 획득 함수는 분포 및 상태에서 실제 값으로의 맵으로서 간주될 수 있다. 분포는 정규 분포일 수 있고, 상태는 지금까지 획득된 최대치 함수 값, 평가를 위한 점들의 잔여 예산(remaining budget), 등과 같은 값들을 포함할 수 있다.
획득 함수는 입력 공간에 대한 검색을 지시하기 위해 베이지안 통계 모델로부터 출력 - 특히, 사후 확률 분포의 예측된 평균 및 분산 - 을 이용한다. 베이지안 통계 모델과 함께 획득 함수를 이용하면 ML 모델에 의해 제공되는 예측들에 포함되는 활용 접근 및 탐색 접근 간의 절충이 가능하다. 이것은 예측들이 평균 값들 및 분산 값들 모두를 포함하기 때문이다. 더 높은 분산 값들에 패널티를 제공하지만, 높은 평균 값들을 갖는 입력 공간의 영역들에 집중함으로써, 현재 모델의 활용이 달성된다. 한편, 높은 분산 값들을 갖는 입력 공간의 영역들에 집중함으로써, 검색은 만약 있다면, 적은 수의 관찰 점들을 갖는 입력 공간의 탐색되지 않은 영역들을 향해 편향되고, 이와 같이 입력 공간의 탐색이 달성된다. 획득 함수들은 특정 설계 또는 반복에서 모델의 활용 및 탐색 간 원하는 균형 또는 절충에 따라 설정될 수 있는 조정 파라미터들(tuning parameters)을 가진다.
획득 함수의 한 가지 유형은 예측 개선 함수이다. 이 유형의 획득 함수는 관찰 점들의 훈련 집합 내 현재 함수의 최대 값에 대하여 최대 예측 또는 예상 개선을 가지는 입력 공간 내 점을 다음 평가 점으로 선택한다. 다른 유형의 획득 함수는 확률 개선 함수이다. 이것은 훈련 집합 내 현재 함수의 최고 값에 대하여 개선을 보일 최고 확률을 가지는 입력 공간 내 점을 다음 평가 점으로 선택한다. 또 다른 유형의 획득 함수는 더 낮은 또는 더 높은 신뢰도 범위 함수이고, 이것은 사후 평균의 현재 분산 또는 표준 편차를 기준으로 다음 점을 선택한다. 예를 들어, 더 낮은 신뢰도 범위 획득 함수는 각 점에서 사후 평균 아래의 2 개의 표준 편차들인 곡선을 고려할 수 있고, 그후 이 목적 함수 모델의 더 낮은 신뢰도 엔벨롭은 다음 샘플 점을 결정하기 위해 최소화된다. 상기에서 언급된 바와 같이, 이 획득 함수들 각각에 대한 표현들은 관찰될 다음 점을 선택할 때 활용과 탐색 접근들 간의 원하는 균형에 따라 조정될 수 있는 가중 또는 조정 파라미터들을 포함한다. 획득 함수는 사후 분포의 사후 평균 및 분산 값들에 따라 달라질 수 있다. 획득 함수의 사후 평균 항에 대한 가중 파라미터는 원하는 수준의 활용을 설정하는 데 사용될 수 있고, (평균 가중 파라미터에 비해) 획득 함수의 사후 분산 항에 대한 가중 파라미터는 원하는 수준의 탐색을 설정하는 데 사용될 수 있다. 이러한 가중 파라미터들은 원하는 전략을 설정하기 위해 사용자-정의될 수 있다.
도 2는 목적 함수를 최적화하기 위해 어떻게 대리 함수(surrogate function), 예를 들어 가우시안 프로세스 모델이 샘플링된 점들을 이용해 모델링되는지에 대한 일 예를 보여준다. 프로세스의 각 반복에서, 획득 함수는 샘플링 또는 평가하기 위한 다음 점을 선택하기 위해 최적화된다. 각 후속하는 반복에서 더 많은 샘플링 점들이 이용가능함에 따라, 대리 함수는 더 정확해질 것이고 선택되는 다음 샘플링 점은 목적 함수를 최대화할 가능성이 더 커진다.
베이지안 최적화 기법들은 통상적으로 다음 알려져 있지 않은 목적 함수를 평가하는 하나의 점을 선택하는 데 사용될 수 있다. 하지만, 상기에서 언급된 바와 같이, 신약 발굴 프로젝트에서 이것은 통상적으로 효율성을 이유로 주어진 설계 주기에서 합성하고 테스트하기 위해 복수의 화합물들이 선택되는 경우이다. 즉, 복수의 점들이 주어진 반복에서 평가하기 위해 선택될 필요가 있다. 그러므로, 컴퓨터를 이용한 신약 설계 방법의 일 단계에 따르면, 훈련 집합 내에 있지 않은, 모집단으로부터의 복수의 화합물들의 부분집합이 결정되거나 선택된다. 특히, 부분집합은 훈련된 베이지안 통계 모델로부터 확률 분포에 기초하여 그리고 정의된 복수의 목적들에 기초하여 획득 함수의 최적화에 따라 결정된다. 즉, 이 방법은 자동으로 주어진 반복 또는 설계 주기에서 샘플링되는 복수의 화합물들을 선택한다. 부분집합에의 포함을 위해 이 방법이 선택하는 화합물들의 수는, 예를 들어 주어진 설계 주기에서 소정 수의 화합물들을 합성하고 테스트하기 위한 리소스의 이용가능한 수준들에 따라, 사용자-정의될 수 있다. 부분집합의 크기는 각 반복에 대하여 동일할 수 있거나 (즉, 매번 컴퓨터를 이용한 신약 설계 방법이 반복되거나), 또는 필요에 따라, 다양한 반복들에 대하여 변경될 수 있다.
부분집합을 결정하기 위해, 부분집합에 대하여 필요한 수의 화합물들이 선택될 때까지 계속해서 한번에 하나의 화합물을 선택하기 위해, 베이지안 통계 모델이 훈련될 수 있고, 획득 함수는 최적화될 수 있다. 특히, 베이지안 통계 모델이 훈련 집합에 대해 훈련된 후, 훈련 집합 내에 있지 않은, 모집단으로부터 하나의 화합물이 훈련된 베이지안 통계 모델로부터의 확률 분포에 기초하여 그리고 정의된 복수의 목적들에 기초하여 획득 함수를 최적화함으로써 식별될 수 있다. 이 처음에 선택된 화합물은 부분집합에 대하여 두번째 화합물을 발견하기 위해 최적화를 반복할 때 고려되어야 한다. 하지만, 처음에 선택된 화합물의 생물학적 특성들이 알려져 있지 않기 때문에, 더미 또는 가짜 라벨들이 이 생물학적 특성들의 프록시로서 처음에 선택된 화합물에 적용될 수 있다. 더미 라벨들 때문에, 식별된 화합물 주위의 예측되는 분산은 낮아질 것이다. 이 방법은 그후 (화합물들의 훈련 집합 뿐만 아니라) 처음에 선택된 화합물의 더미 라벨들을 이용하여 베이지안 통계 모델을 재훈련하는 단계를 포함할 수 있고, 그후 훈련 집합 내에 있지 않은, 모집단으로부터 두번째 화합물이 재훈련된 베이지안 통계 모델로부터 확률 분포에 기초하여 및 정의된 복수의 목적들에 기초하여 획득 함수를 최적화함으로써 부분집합에 대하여 식별될 수 있다. 이 두번째 선택된 화합물은 유사하게 주어진 더미 라벨들일 수 있어 베이지안 통계 모델은 더 재훈련될 수 있다. 특히, 이 방법은 이하의 단계들: 화합물들의 훈련 집합 및 지금까지 하나 또는 그 이상의 식별된 화합물들을 이용해 베이지안 통계 모델을 재훈련하는 단계; 또한 부분집합에 대한 다른 화합물을 식별하기 위해, 재훈련된 베이지안 통계 모델로부터 확률 분포에 기초하여 그리고 정의된 복수의 목적들에 기초하여 획득 함수를 최적화하는 단계를 반복하는 단계를 포함할 수 있다. 구체적으로, 이 단계들은 원하는 수의 화합물들이 부분집합에 대해 식별될 때까지 반복될 수 있다.
부분집합에 대하여 식별된 화합물 각각에 대한 가짜 또는 더미 라벨들 또는 생물학적 특성 값들은 다른 적절한 방식으로 설정되거나 또는 결정될 수 있다. 예를 들어, 더미 라벨들은 크리깅 신자 접근법(kriging believer approach)에 따라 설정될 수 있는데, 이것은 예측에 대한 낙관 또는 비관의 정도를 반영하기 위해 상한 및 하한을 통합하도록 선택적으로 변경되는, 베이지안 통계 모델로부터 생물학적 특성들의 예측 값들에 기초하여 더미 값들을 설정한다. 또는, 더미 라벨들은 지속적 거짓말쟁이 접근법(constant liar approach)에 따라 설정될 수 있고, 여기서 관련 값들 또는 라벨들은, 점에 상관없이, 상수들로 설정될 수 있다. 예를 들어, 모델의 평균은 이러한 적절한 상수일 수 있다.
(상기의 더미 라벨들 접근법을 이용한 순차적 선택과는) 다른 접근법이 사용될 수 있다. 예를 들어, 다중점 예측 개선(multipoint expected improvement, q-EI) 접근법을 이용해 한 무리의 화합물들이 선택될 수 있다. 이러한 접근법에서, (단일점보다는) 점들의 집합을 조건으로, 현재 최상의 해법으로부터 예측되는 증가가 계산된다. 불연속 공간에 대한 적절한 근사는 다중점 결정 전략의 이러한 다중점 획득 함수가 구현될 수 있게 한다.
많은 베이지안 최적화 기법들은 통상적으로 함수의 단일 파라미터, 즉 단일 목적을 최적화하는 데 사용될 수 있다. 하지만, 상기에서 설명된 바와 같이, 전형적으로 적절한 후보 화합물이 되기 위해서는 화합물이 최적화될 필요가 있는 다수의 기준들이 있을 것이다. 즉, 함수의 복수의 파라미터들은 고려 중인 특정 신약 발굴 프로젝트의 후보 화합물의 다양한 원하는 특성들에 따라 최적화될 필요가 있다. 즉, 최적화는 병렬적으로 복수의 목적들을 달성하는 것을 목표로 한다. 이 목적들은 종종 상충될 수 있다. 이에 더하여, 신약 발굴 맥락에서, 목적들의 선호도는 단조롭지 않다(일부 다른 응용들과는 달리).
베이지안 통계 모델로부터 확률 분포는 이로써 다차원 분포일 수 있다. 특히, 복수의 목적들 중 각각의 목적과 연관된 각각의 생물학적 특성에 대한 다차원 분포는 (1-차원) 분포를 포함할 수 있다. 각각의 목적들에 대하여 병렬적으로 이 복수의 분포들을 최적화하기 위한 한 가지 옵션은 다차원 획득 함수를 이용하는 것이다. 획득 함수의 각 차원은 각각의 목적에 대응할 수 있다. 예를 들어, 이러한 경우에 있어서 다차원 획득 함수는 초부피 예측 개선 함수일 수 있다.
다양한 차원들에서 복수의 목적들에 대하여 최적화하기 위한 다른 옵션은 문제를 1-차원 문제로 변환시키는 것이다. 특히, 하나 또는 그 이상의 집계 함수들(aggregation functions)은 다목적 최적화 문제를 단순화하는 데 사용될 수 있다. 이러한 집계 함수들은 베이지안 통계 모델로부터 각 차원에 대한 평균 및 분산(즉, 대응하는 목적을 갖는 생물학적 특성)을 입력으로 한다. 출력은 그후 평균 및 분산을 갖는 1-차원 분포이다. 다시 말하면, 모델의 예측들에 있어서의 불확실성은 획득 함수에 의해 활용(leverage)되는 집계 함수를 통해 수행된다. 나아가, 집계 함수에의 입력은 필요한 차원들의 수까지 용이하게 확장될 수 있다. 유리하게, 최적화는 그후 통상적으로 실행하기에 더 간단한, 1-차원 획득 함수를 이용해 수행될 수 있다. 예를 들어, 이러한 획득 함수는 상기에서 언급된 바와 같이, 예측 개선, 확률 개선, 또는 신뢰도 범위 함수일 수 있다. 차원들의 각 쌍 간의 통계적인 독립성은 집계 함수를 적용하기 위해 가정될 수 있다. 집계 함수는 예를 들어 이하의 결과들 중 하나 또는 그 이상을 이용해, 하나 또는 그 이상의 합, 평균, 기하 평균, 및 곱 함수 또는 연산자(그 각각은 개별 구성요소들에 대하여 선호도를 부여하기 위해 가중될 수 있다)를 포함할 수 있다.
임의 변수들 에 대하여:
독립 임의 변수들 에 대하여:
이 결과들은 기본적인 기대(expectation) 및 분산 특성들을 이용하여 스칼라 곱 뿐만 아니라, N 변수들로 일반화될 수 있다.
상기의 결과들이 유지되지 않을 수 있는, 일반 함수들 및 상관되는 입력들의 경우에 있어서, 예를 들어, 몬테 카를로 샘플링 기법이 사용될 수 있다. 특히, 경험적으로 입력들 사이의 상관을 결정하고, 다변량 분포로부터 샘플들을 획득한 후, 집계 함수는 이 샘플들에 대하여 결정될 수 있다. 평균 및 표준 편차는 그후 결과들로부터 추론될 수 있다. 집계의 1-차원 결과는 그후 1-차원 획득 함수에 제공될 수 있다.
최적화 문제의 복수의 목적들 중 다른 목적들은 서로 상충할 수 있기 때문에 - 즉, 하나의 목적에 대한 최적화는 다른 목적에 악영향을 미칠 수 있음 - 정의된 복수의 목적들에 기초한 획득 함수의 최적화는 화합물들의 파레토-최적 집합을 제공할 수 있다. 이 화합물들 중 하나 또는 그 이상은 그후 결정된 부분집합 내에 포함되기 위해 선택되어야 한다. 이것은 적절한 방식으로, 예를 들어 사용자-정의되는 선호도 또는 호감도(desirability)에 따라, 수행될 수 있다.
상충하는 목적들을 처리하고 다목적 최적화에 있어서 화합물들 간 관계를 끊기 위한 한 방법은 선호도들을 최적화로 인코딩하는 것이다. 이것은 각각의 목적들에 연관된 사후 우선순위 분포들에 효용 함수들의 적용을 통해 달성될 수 있다. 사용자가 선택들의 집합에 대하여 우선순위의 순서를 가지고 있는 경우에 있어서, 효용 함수는 실제 숫자들을 대안들 각각에 할당함으로써 그 선호도를 인코딩하는 데 사용될 수 있다. 이로써, 목적들 중 하나 또는 그 이상 각각에 대하여, 이 방법은 선호도-조정된 확률 분포를 획득하기 위해, 개별적인 효용 함수를 베이지안 통계 모델로부터 확률 분포에 적용함으로써, 각각의 목적의, 생물학적 특성에 연관된, 선호도 - 사용자-정의된 선호도 - 또는 분포를 매핑하는 단계를 포함할 수 있다. 획득 함수의 최적화는 선호도-조정된 확률 분포에 기초할 수 있다. 모델로부터의 예측에 연관된 불확실성이 획득 함수의 적용을 통해 전파된다는 것이 결정적이고, 효용 함수들(상기에서 기술된 집계 함수들 뿐만 아니라)은 불확실성이 그 출력에 유지된다는 점에서 유리하다.
일부 경우들에 있어서, 예를 들어, 후보 화합물을 획득하기 위해 다른 목적에 비하여 하나의 목적을 만족시키는 것이 더 중요하다면, 정의된 선호도는 복수의 목적들 중 다른 목적들에 대한 개별 목적의 우선순위를 나타낼 수 있다.
선호도들은 또한 모델의 특정 예측들에 기초하여 도입될 수 있다. 예를 들어, 선호도들은 어떠한 모델이 더 큰 확실성을 가지는지에 대한 예측들을 위해 인코딩될 수 있다. 다시 말하면, 화합물들 중 하나의 생물학적 특성들 중 하나에 있어서, 생물학적 특성에 대한 확률 분포에 연관된 불확실성 값이 낮을수록, 개별적인 생물학적 특성에 연관된 선호도는 더 커지는 경우일 수 있다. 이런 방식으로, 모델 예측의 불확실성은 (획득 함수에 의해 사용되는) 효용 함수들의 출력 뿐만 아니라 입력으로서도 유용하다. 단지 설명을 위한 일 예로서, 복수의 목적들이 엄밀하게 0과 2 사이에 있어야 하는 친유성(lipophilicity, log P) 뿐만 아니라, 다수의 활성 목적들을 최적화하기 위해 정의된다고 가정한다. (여기서 0과 2 사이의 값은 동일하게 바람직함). 베이지안 통계 모델 예측이 활성에 대하여 동일한 예측들, 동일한 log P 평균 예측, 및 0.5와 3 사이의 log P 표준 편차를 각각 갖는, 2 개의 화합물들, X 및 Y를 반환하는 경우를 고려한다. 이 경우에 있어서, 화합물 X는 친유성에 있어서 0과 2 사이의 원하는 범위 내에 있을 가능성이 더 높기 때문에 선호되는 화합물이다. 이 경우에 있어서, 예측 불확실성이 고려되지 않는다면, 평균 효용 함수 값들은 동일할 것이고, 이것은 사용자가 명확한 선호도를 가질지라도 이 방법은 X와 Y를 구별할 수 없음을 의미한다.
실제로, 선택들의 집합에 대한 선호도의 순서에 있어서, 그 순서에서 서로 근접하는 선택들은 유사한 선호도 수준들을 가지는 경향이 있다. 또한, 선택들이 실제 숫자들일 때, 효용 함수들은 연속일 수 있다. 본 방법의 효용 함수들은 유리하게도 구분 함수들, 특히 구분 선형 함수들(piecewise linear functions)로서 모델링될 수 있다. 즉, 플롯팅될 때, 직선 부분들로 구성되는 함수들은, 이하와 같이 정의된다:
여기서 는 N+1 선형 함수들이고 는 2 개의 연속하는 선들 사이의 점들이다. 도 3은 다른 화합물들에 대한 예측들에 대한 선호도 정도를 포함하기 위해 기술된 방법의 일부로서 사용될 수 있는 구분 선형 함수의 예를 보여준다.
구분 선형 함수들은 정규 분포들과 조합되어 사용될 수 있다. 본 컴퓨터를 이용한 약물 설계 방법에 있어서, 베이지안 통계 모델은 정규 분포로서 예측들을 제공하는데, 이것은 구분 선형 효용 함수들로 전달될 수 있다. 상기에서 언급된 바와 같이, 정규 분포들에 있어서의 불확실성은 (획득 함수(들)에 의해 후속적으로 사용되는) 효용 함수들을 통해 보존되어야 한다. 정규 분포로서 예측이 주어지면, 상기에서 설명된 효용 함수, 평균 및 표준 편차는 결정될 수 있다. 이하의 결과는 이 값들을 결정하는 데 사용된다.
라 하자. X에 대한 확률 밀도 함수(pdf)는 이하와 같다:
pdf 를 갖는 임의 변수 에 대한 함수는 이하와 같다:
오차 함수 는 이하와 같이 정의된다:
평균 및 표준 편차 를 갖는 정규 분포 에 대하여, 이 누적 밀도 함수 (cdf)는 이하와 같다:
의 표준 편차는 예측 값들의 항들로 기재될 수 있다:
예측 값
상기의 에 대한 표현으로부터:
여기서, 이다.
에 대하여:
이 결과는 이하를 획득하기 위해 상기에서 대체될 수 있다:
표준 편차
에 대하여:
상기로부터:
여기서 이다. 조작에 의해:
상기의 제곱근을 취하면 에 대한 표현이 제공된다.
마지막 항 은 상기에서 계산된 예측 값 표현의 제곱임에 유의하자.
구분 호감도 함수들(piecewise desirability functions)을 통해 평균 및 불확실성을 계산하는 분석 해법이 발견되었다. 결정적으로, 수식들은 벡터화될 수 있다, 즉 X에 대하여 법선의 N-차원 벡터들이 유지될 수 있다(N은 단지 1을 대신하는 정규 분포되는 변수들이다). 이것은 벡터화된 연산들 - 예. 덧셈. 곱셈, 지수화, 등 - 로서 중요하다. 하드웨어 가속화로부터의 이점을 활용하여, 매우 빠르게 계산할 수 있다.
도 4는 모집단 내 화합물들 또는 분자들이 어떻게 그 생물학적 특성들이 알려져 있는, 모집단으로부터 이 화합물들을 이용해 훈련된, ML 모델, 즉 베이지안 통계 모델로 공급될 수 있는지, 즉 훈련 집합 내 화합물들을 대략적으로 보여준다. 현재 다-목적 문제에 있어서, 베이지안 통계 모델은 사후 확률 분포 형태로 (개별 목적들에 대응하는) 복수의 예측들을 출력할 수 있다. 효용 함수들 또는 값들은 그후 개별 예측들에, 예를 들어 선호도를 예측들에 도입하기 위해, 생성된 예측들에 연관된 불확실성 측정들을 유지하면서, 적용될 수 있다. 집계 함수들 또는 값들은 그후 예측들의 차원을 단일 차원까지 감소시키기 위해 (선호도-조정된) 예측들에, 또 다시 예측들에 연관된 불확실성을 보존하면서, 적용될 수 있다. 집계된 예측들은 그후 합성을 위한 화합물들을 선택하기 위해 1-차원 획득 함수(모델의 활용과 탐색의 원하는 균형에 따라 선택적으로 사용자-정의된 가중을 포함하는)를 이용해 최적화될 수 있다.
도 5는 본 발명에 따른 컴퓨터를 이용한 약물 설계 방법(50)의 단계들을 요약한다. 단계 51에서, 복수의 화합물들의 모집단이 정의되는데, 여기서 각 화합물은 하나 또는 그 이상의 구조적 특징들을 가진다. 단계 52에서, 화합물들의 훈련 집합이 정의된다. 특히, 훈련 집합은 복수의 생물학적 특성들이 알려져 있는, 모집단으로부터, 예를 들어 이전에 합성되고 테스트된 화합물들을 포함한다. 단계 53에서, 복수의 목적들이 정의된다. 특히, 각 목적은 (고려 중인 특정 신약 발굴 프로젝트에 대한) 이상적/후보 화합물에 의해 보일 수 있는 생물학적 특성을 나타내거나 또는 이를 정의한다. 단계 54에서, 베이지안 통계 모델, 예를 들어, 가우시안 프로세스 모델은 화합물들의 훈련 집합을 이용해 훈련된다. 베이지안 통계 모델은 그후 모집단 내 화합물들의 생물학적 특성들을 근사하는 사후 확률 분포를 모집단 내 화합물들의 구조적 특징들의 목적 함수로서 출력하기 위해 실행된다. 사후 확률 분포는 복수의 사후 확률 분포들일 수 있다. 예를 들어 하나의 사후 확률 분포는 복수의 목적들 각각에 대응한다. 단계 55에서, 복수의 화합물들의 부분집합이 결정된다. 특히, 부분집합은 훈련 집합 내에 있지 않는, 모집단으로부터의 화합물들을 포함한다. 구체적으로, 부분집합은 훈련된 베이지안 통계 모델로부터 확률 분포에 기초하여 그리고 정의된 복수의 목적들에 기초하여 획득 함수의 최적화에 따라 결정된다(즉, 복수의 목적들을 동시에 최적화하기 위해). 다시 말하면, 최적화 프로파일에 가장 잘 맞는 화합물들(예. 이상적 화합물)이 선택된다. 부분집합에 대하여 한번에 하나의 화합물을 연속해서 선택하기 위해 부분집합은 모델 실행 및 획득 함수 최적화 단계들을 여러 번 반복하고, 또한 단계들이 반복될 때마다 모델을 재훈련함으로써 선택될 수 있다 (훈련 단계의 목적을 위해 지금까지 선택된 화합물들에 대해 가짜 라벨들을 이용해). 선택적으로, 하나 또는 그 이상의 효용 함수들은, 획득 함수의 적용 전에, 목적들에 관한 사용자-선호도를 모델 예측들에 도입하기 위해, 생성된 사후 확률 분포(들)에 적용될 수 있다. 선택적으로, 하나 또는 그 이상의 집계 함수들은 획득 함수의 적용 전에, 생성된 모델 예측들의 차원을 감소시키기 위해 적용될 수 있다. 결정된 부분집합 내 화합물들 중 적어도 일부는 그후 합성 및 테스트를 위해 선택될 수 있다. 이 합성된 화합물들은 그후 예를 들어 고려 중인 신약 발굴 프로젝트의 후속하는 설계 주기에서, 이 방법(50)의 다음 실행을 위한 훈련 집합에 추가될 수 있다.
본 발명의 방법은 적절한 컴퓨팅 장치에, 예를 들어 하나 또는 그 이상의 컴퓨터 프로세서들에 구현된 하나 또는 그 이상의 기능적 유닛들 또는 모듈들에 의해 구현될 수 있다. 이러한 기능적 유닛들은 기존 또는 고객 프로세서들 및 메모리를 이용하는 적절한 컴퓨팅 기판에서 실행되는 적절한 소프트웨어에 의해 제공될 수 있다. 하나 또는 그 이상의 기능적 유닛들은 공통된 컴퓨팅 기판(예를 들어, 기능적 유닛들은 동일한 서버에서 실행될 수 있다) 또는 별개의 기판들을 사용할 수 있거나, 또는 하나 또는 둘 모두는 복수의 컴퓨팅 장치들에 분산되어 있을 수 있다. 컴퓨터 메모리는 이 방법을 수행하기 위한 명령들을 저장할 수 있고, 프로세서(들)은 이 방법을 수행하기 위해 저장된 명령들을 실행할 수 있다.
기술된 가우시안 프로세스 모델과 표준 랜덤 포레스트 간의 비교가 이제 기술되고 설명된다. 알려진 생물학적 활성 PXC 50 - 특히, hERG 활성들 -을 갖는 14620 개의 분자들의 집합이 정의된다. 데이터 집합의 통계치들은 표 1에 표시되어 있다.
PXC50
개수 14620.000000
평균 5.241873
표준편차 0.887881
최소 -1.046000
25% 4.568818
50% 5.000000
75% 5.722058
최대 9.853872
데이터 집합의 처음 2000 개의 분자들은 모델들을 훈련하기 위한 훈련 데이터로서 사용된다 (가우시안 프로세스 모델에 대해 상기에서 기술된 방식으로). 각 모델의 성능은 데이터 집합 내 나머지 분자들을 이용해 평가된다. 가우시안 프로세스 모델에 사용된 커널은 잭카드 커널이고, 이것은 지문들 간의 잭카드(또는 타니모토) 거리를 이용한다.
도 6은 훈련된 가우시안 프로세스 및 랜덤 포레스트 모델들에 의해 예측되는 바와 같은 활성들에 대하여, 데이터 집합 내 분자들의 실제(real), 알려진 생물학적 활성들을 비교한다. 특히, 도 6a는 분자들 각각에 대한 가우시안 프로세스 모델에 의해 예측된 값들에 대하여, 실제 활성 값들의 스캐터 플롯을 보여준다. 각각의 점 - 분자들을 나타내는 -은 가우시안 프로세스 모델의 분산에 대해 연관된 의존도 정도를 가진다. 유사하게, 도 6b는 랜덤 포레스트 모델에 의해 예측되는 값들에 대하여, 실제 활성 값들의 플롯을 보여주고, 도 6c는 랜덤 포레스트 및 가우시안 프로세스 모델들로부터 획득된 예측된 활성들을 비교하는 플롯을 보여준다.
가우시안 프로세스 모델 내의 분산 임계치는 어떻게 모델의 확실성이 정확한 예측들과 상관되는지 보여주기 위해 조정될 수 있다. 예를 들어, 모델은 분산에 대한 다양한 상한 임계치들을 가지고 실행될 수 있다. 예를 들어, 1, 0.75, 0.6, 0.5, 0.4, 또는 다른 적절한 값. 도 7a는 0.5로 설정된 분산 임계치를 갖는 가우시안 프로세스 모델에 의해 예측된 값들에 대하여, 실제 활성 값들의 스캐터 플롯을 보여준다. 비교를 위해, 도 7b는 도 7a에 대하여 필터링된 분자들에 대한 랜덤 포레스트 모델에 의해 예측된 값들에 대하여, 실제 활성 값들의 스캐터 플롯을 보여준다. 마지막으로, 도 8은 모델 확실성에 따라 가우시안 프로세스 모델의 MSE(mean squared error) 및 분산(Variance)이 어떻게 변하는지에 대한 플롯을 보여준다.
벤치마킹을 위해 분자들의 기존의, 알려진 집합들에 상기에서 설명된 베이지안 최적화 접근법을 이용해 복수의 최적화 주기들이 시뮬레이션되는 또 다른 예가 기술된다. 도 9는 벤치마킹을 수행하기 위한 주요 단계들 또는 모듈들을 대략적으로 보여준다. 초기 상태(initial state) 또는 단계에서, 시뮬레이션을 커스터마이징하기 위한 파라미터들이 예를 들어 사용자에 의해 설정된다. 이러한 파라미터들은 획득 함수, 배치 크기 등을 포함할 수 있다. 모델이 선택할 수 있는 알려지지 않은 분자들과 마찬가지로, 모델에 이미 알려진 분자들이 설정된다. 복수의 특성들 또는 목적들 또한 설정된다. 배치 최적화 실행(Batch Optimization Run) 단계에서, 한 무리(batch)의 분자들을 선택하기 위해 (상기에서 설명된 바와 같이) 단일 최적화 단계가 수행된다. 모델은 그후 또 다른 최적화 단계가 수행될 수 있기 전에, 올바른 라벨들을 이용해, 선택된 배치를 모델에 공급함으로써 재훈련된다. 출력(Output)은 선택된 분자들 모두, 및/또는 모델 예측들과 연관된 다양한 로그/메트릭스를 포함할 수 있다.
알려진 분자들의 한 집합은 픽케트 등의 "유전 알고리즘을 이용한 MMP-12 억제제의 자동화된 리드 최적화"(Pickett et al., (2011) "Automated lead optimization of MMP-12 inhibitors using a genetic algorithm", ACS Medicinal Chemistry Letters, 2(1), 28-33)에 제시된 2500 개 화합물들의 데이터 집합이다. 이 데이터 집합은 2 개의 R-그룹들이 있는 코어를 선택함으로써 생성되었다. 코어는 고정되고, 각 R-그룹은 본질적으로 그 각각이 해당 코어를 포함하는 2500 개의 조합을 획득하기 위한 50 가지 다른 분자 구조들에 대한 자리표시자(placeholder)이다. 이 조합들 중, 1880 개의 분자들만이 성공적으로 합성되고 pIC50 값을 산출하기 위한 분석에 대해 테스트되었다. 복수의 합성 주기들은 이로써 발견된 pIC50 값들을 최대화하기 위해 능동/기계 학습 모델들(상기에서 설명된 것과 같은) 또는 화학자들에 의해 시뮬레이션될 수 있다.
한 실험에서, 많은 화학자들에게 동일한 초기 14 개의 화합물들 및 연관된 pIC50 값들을 제공하였다. 이 정보를 이용해, 화학자들은 연관된 pIC50 값들이 제공되는, 다른 무리의 14 개의 화합물들을 선택하는 작업을 하였다. 전체 140 개의 선택된 화합물들 및 14 개의 초기 화합물들을 위해, 이 과정은 10 개의 무리들(반복들)에 계속되었다. 화학자 각자의 수행능력이 최대치 pIC50 값을 갖는 화합물이 발견되었는지 여부, 선택된 화합물들에 대한 평균 pIC50 값, 및 선택된 상위 N 개의 화합물들에 기초하여 평가되었다. 설명된 가우시안 프로세스 모델은 동일한 실험을 시뮬레이션하는 데 사용되었다. 특히, 모델은 제공된 훈련 데이터(즉, 알려진 pIC50 값들)에서 훈련되었다. 베이지안 최적화 알고리즘은 목적들을 최적화하기 위해 (즉, pIC50 값을 최대화하기 위해) 한 무리의 화합물들을 선택하였다. 훈련 집합은 그후 선택된 화합물들을 포함하도록 갱신되었고, 모델은 재훈련되었으며, 최적화는 다시 수행되었다. 기존 능동 학습 접근법과 최상의 수행능력을 가진 화학자의 결과들 간의 비교는 표 2에 표시되어 있다.
유효하지 않은 분자들의 수 값들의 합 유효한 분자 값의 평균 최대 값 최소 값 상위 10 개의 값들
실제 후보들 24 690.9 5.9560 7.6 3.0 [7.3 7.3 7.3 7.4 7.4 7.4 7.5 7.5 7.6 7.6]
AL 후보들 25 882.3 6.8395 8.0 3.0 [7.5 7.5 7.5 7.5 7.6 7.6 7.6 7.8 7.8 8.0]
설명된 가우시안 프로세스 모델을 이용해 획득되는 결과들을 보여주는 다른 예가 설명된다. 이 예는 알려진 ChEMBL 및 GoStar 데이터베이스들로부터의 분자들을 이용해 수행된다. 일반적인 접근은 상대적으로 작은 분자들의 생성을 제공하고(즉, 훈련 집합), 이 훈련 집합에 기초하여 ML 모델들을 구축하는 것이다. 그후 기술된 방법에 따른 배치 베이지안 최적화가 관련 특성들에 대한 활성 데이터를 포함하는 모든 분자들의 집합으로부터, 표적들의 집합에 대한 활성을 최적화하는 분자들의 집합을 선택하기 위해 수행된다. 모델들은 선택된 집합으로부터 새로운 데이터로 재훈련된다. 이 과정은 다수의 주기들 또는 반복들에 대하여 반복된다.
이 기술된 예에서, CYP3A4 (UniProt ID P08684) 및 CYP1A2 (UniProt ID P05177) 중 적어도 하나에 대한 활성 데이터를 포함하는 13403 개의 분자들이 상기에서 언급된 데이터베이스로부터 추출된다. CYP3A4 (cytochrome P450 3A4)은 종종 간 및 장에서 발견되는 체내 효소이고, 독소를 산화시켜 체내에서 제거될 수 있다. CYP1A2 (cytochrome P450 1A2) 또한 소포체에 국한되는 체내 효소이다. 10 개의 분자들의 무작위 초기 집합이 획득되어, CYP 각각(즉, 생물학적 특성들 각각)에 대한 모델이 구축/훈련된다. 그후, 도 5의 베이지안 최적화 접근법의 10 라운드 또는 반복들이 수행되고, 13393 개의 나머지 분자들로부터, 각 반복에서 20 개의 분자들이 선택된다. 각 라운드 후, 선택된 분자들 각각에 대한 (알려진) 데이터가 공개되고 모델들을 재훈련/갱신하는 데 사용된다. 데이터베이스 내 일부 분자들은 CYP들에 대한 데이터를 가지지 않고, 이것은 모델들이 각 라운드 또는 반복에서 더 적은 데이터를 수신할 수 있음을 의미한다.
도 10a는 13403 개의 분자들의 집합 또는 모집단의 CYP3A4 활성 값들의 분포를 나타내는 플롯을 보여준다. 특히, 도 10a는 이 13403 개의 분자들을 초기 훈련(train) 집합 내 8 개의 분자들, 반복 최적화 동안 선택된(selected) 127 개의 분자들, 및 나머지 또는 알려지지 않은(unknown) 13268 개의 분자들로의 분해를 보여준다. 상기에서 언급된 바와 같이, 데이터베이스 내 일부 분자들은 CYP들 중 단 하나에 대해 알려진 데이터를 가진다. 이 경우에 있어서, 10 개의 분자들은 초기 훈련 집합을 위해 선택되지만, 이 중 단 8 개만이 CYP3A4 데이터를 가진다. 도 10b는 도 10a 및 상기에서 설명된 훈련 집합 및 선택된 집합들 내 분자들의 CYP3A4 활성 값들의 분포를 나타내는 플롯을 보여주는데, 도 10a에서보다 더 명확하게 볼 수 있다.
도 11a 및 도 11b는 도 10a 및 도 10b에 대응하는 플롯들 각각을 보여주지만, CYP3A4 대신 CYP1A2 활성 값들의 분포에 대한 것이다. 이 경우에 있어서, 모델을 훈련하기 위해 10 개의 처음에 선택된 분자들 중 4 개만이 이용가능한 CYP1A2 데이터를 가진다. 이용가능한 CYP1A2 데이터를 갖는 104 개의 분자들은 30 번의 반복들에서 선택되었다.
전반적으로, 무작위 선택(데이터 분포 분석) 및 여기에 기술된 방법에 따라 능동 학습을 사용하지 않는 기준치 모두와 비교할 때, 선택된 화합물들에서 상대적으로 큰 활성 강화가 있다. 이 결과들은 상기에서 설명된 표적들에 대하여, 각각 4 및 8 개의 값들(10 개의 초기 데이터 점들로부터)이 사용된다면 특히 유망하다.
도 12는 활성 값들이 이용가능한 집합 내 분자들에 대한 CYP3A4 및 CYP1A2 활성 값들의 플롯을 보여준다. 즉, 양자는 ChEMBL+GoStar로 측정된다. 도 12는 또한 나머지 분자들은 선택되지 않았고('False'), 기술된 방법의 반복들을 수행할 때 이 분자들 중 어느 것이 선택되었는지('True')를 나타낸다. 파레토 프론티어는 플롯의 우측 상부에 있다면(활성 값 최대화), 모집단 내 대략 13000 개의 분자들 중 대략 200 개의 분자들만이 선택되었지만, 파레토 프론티어에 근접한 근접성이 분자들의 선택된 집합에서 달성된다.
기술된 방법을 나타내는 또 다른 일 예는 자유 에너지 섭동 계산의 관점에서 제공된다. 1921 개의 분자들의 데이터 집합 및 대응하는 RBFE(Relative Binding Free Energy) 계산은 콘즈 등의 '합성적으로 다루기 쉬운 화학 공간을 빠르게 탐색하고 또한 실린-의존 키나제 2 억제제들의 효능을 최적화하기 위한 반응-기반 계수, 능동 학습, 및 자유 에너지 계산들(Reaction-Based Enumeration, Active Learning, and Free Energy Calculations to Rapidly Explore Synthetically Tractable Chemical Space and Optimize Potency of Cylin -Dependent Kinase 2 Inhibitors)', J. Chem. Inf. Model., 2019, 59, 9, 3782-3793로부터 추출된다. 이 예는 인용된 참고문헌에서 935 개 분자들의 초기 훈련 집합에서 시작하고, 그후 여기에 기술된 방법의 30 라운드 또는 반복이 각 라운드에서 선택되는 10 개의 분자들로 수행된다. 그 목적은 'Pred dG (kcal/mol)'로서 측정되는, RBFE 계산 결과를 최소화하는 것이다.
도 13은 데이터 집합 내 분자들의 RBFE 값들의 분포를 나타내는 플롯을 보여준다. 특히, 도 13은 초기 훈련 집합 내 935 개의 분자들('훈련(Train)'), 기술된 방법의 반복들을 수행할 때 선택되는 분자들('선택된(Selected)'), 데이터 집합 내 나머지 분자들('알려지지 않은(Unknown)') 간을 구별한다. 각 바의 하부 부분은 '훈련' 분자들, 각 바의 중간 부분은 '선택된' 분자들을 나타내고, 각 바의 상부 부분은 '알려지지 않은' 분자들을 나타낸다.
도 14a는 최적 선택 하에서, 즉 최저 dG 값들을 갖는 선택된 분자들을 선택함으로써, 어떻게 누적(cumulative) RBFE 값들이, 기술된 방법('Cumulative Pred dG')의 후속하는 반복들에 따라 변하는지에 대한 플롯을 보여준다. 이것은 최적으로 선택된 집합들('Best possible Pred dG') 및 임의 선택된 집합들(random)에 비교된다. 도 14b는 그후 RBFE 값들을 최소화하는 것에 따라 데이터 집합 내 상위 x 개의 분자들에 기술된 방법의 30 번의 반복들 후, 도 14a에서 선택된 분자들의 비율에 대한 플롯을 보여준다. 예를 들어, x=10에 있어서, 최저 dG 분자들의 80% 가 30 번의 반복들 끝에서 발견되었다. x=1에서, 100% 결과는 최저 dG 분자가 선택되었음을 의미한다.
도 15a는 도 15a가 기술된 방법을 통해 선택된 집합들 대신 랜덤 포레스트 모델 그리디 선택된 집합들의 결과들을 보여주는 것을 제외하고, 도 14a의 플롯을 보여준다. 도 15b는 RBFE 값들을 최소화함에 따라 테스트 집합 내 상위 x 개의 분자들에 랜덤 포레스트 모델의 30 번의 반복들 후 도 14a에서 선택된 분자들의 비율에 대한 플롯을 보여준다.
상기 예들은 기술된 베이지안 통계 접근법을 수행하기 위해 가우시안 프로세스 모델의 사용을 설명한다; 하지만, 다른 베이지안 모델 아키텍쳐들이 사용될 수 있다. 예를 들어, 베이지안 신경망 형태의 베이지안 통계 모델, 또는 불확실성 예측을 제공하는 드롭아웃이 있는 심층 신경망이 본 발명의 예들에서 사용될 수 있다. 나아가, 일반 아키텍쳐의 모델 앙상블이 사용될 수 있음이 이해될 것이다.
상기 예들은 예를 들어, 신약 발굴 과정의 일부로서, 합성을 위해, 모집단으로부터, 화합물들 또는 분자들을 선택하기 위해 베이지안 통계 모델의 사용을 설명한다. 본 발명의 예들에서, 기술된 베이지안 통계 접근법을 이용해 선택되는 화합물들 또는 분자들은 다른 목적을 위해 사용될 수 있다. 예를 들어, 기술된 접근법은 분자 동역학 분석을 수행하기 위해 모집단으로부터 어떠한 분자들을 선택하는 데 사용될 수 있다. 소정의 물리학-기반의 시뮬레이션들을 수행하는 것이 리소스 집약적인 경우일 수 있다. 예를 들어, 시간이 많이 들거나 및/또는 높은 컴퓨터 처리 능력을 필요로 하므로, 컴퓨팅 리소스 수준이 이용가능하다면 소정의 분자 동역학에 대한 통찰력을 최대화하는 방식으로 컴퓨터를 이용한 리소스들이 할당될 필요가 있다.
첨부된 절들 및 청구항들을 특히 참조하여 여기서 정의된 본 발명의 사상 및 범위를 벗어나지 않으면서 상기에서 기술된 예들에 많은 변형들이 이루어질 수 있다.
절들(CLAUSES)
1. 컴퓨터를 이용한 약물 설계 방법에 있어서,
복수의 화합물들의 모집단을 정의하는 단계, 각 화합물은 하나 또는 그 이상의 구조적 특징들을 가지고;
복수의 특성들이 알려져 있는, 상기 모집단으로부터 화합물들의 훈련 집합을 정의하는 단계;
그 각각이 원하는 특성을 정의하는, 복수의 목적들을 정의하는 단계;
상기 화합물들의 훈련 집합을 이용해, 상기 모집단 내의 화합물들의 특성들을 근사하는 확률 분포를 출력하기 위해 베이지안 통계 모델을 훈련하는 단계;
상기 훈련 집합에 없는, 상기 모집단으로부터 복수의 화합물들의 부분집합을 선택하는 단계, 상기 부분집합은 정의된 복수의 목적들에 기초하고 또한 훈련된 상기 베이지안 통계 모델로부터의 확률 분포에 기초하여 획득 함수의 최적화에 따라 결정되고; 및
합성을 위해 결정된 부분집합 내의 화합물들 중 적어도 일부를 선택하는 단계를 포함하는,
컴퓨터를 이용한 약물 설계 방법.
2. 제 1 절에 있어서, 상기 목적들 중 하나 또는 그 이상에 대하여,
선호도-조정된 확률 분포를 획득하기 위해 상기 베이지안 통계 모델로부터의 확률 분포에 개별적인 효용 함수를 적용함으로써 각 목적의 특성에 연관된 선호도를 매핑하는 단계를 포함하고, 여기서 상기 획득 함수의 최적화는 상기 선호도-조정된 확률 분포에 기초하는,
컴퓨터를 이용한 약물 설계 방법.
3. 제 2 절에 있어서, 상기 선호도는 상기 복수의 목적들 중 나머지 목적들에 대한 각 목적의 우선순위를 나타내는,
컴퓨터를 이용한 약물 설계 방법.
4. 제 2 절 또는 제 3 절에 있어서, 상기 화합물들 중 하나의 특성들 중 하나에 대하여, 특성에 대한 확률 분포에 연관된 불확실성 값이 낮을수록, 각 특성에 연관된 선호도는 커지는,
컴퓨터를 이용한 약물 설계 방법.
5. 제 2 절 내지 제 4 절 중 어느 한 방법에 있어서, 상기 선호도는 사용자-정의 선호도인,
컴퓨터를 이용한 약물 설계 방법.
6. 제 2 절 내지 제 5 절 중 어느 한 방법에 있어서, 상기 효용 함수 중 하나 또는 그 이상은 구분 함수들인,
컴퓨터를 이용한 약물 설계 방법.
7. 제 6 절에 있어서, 상기 구분 함수들은 구분 선형 함수들인,
컴퓨터를 이용한 약물 설계 방법.
8, 제 1 절 내지 제 7 절 중 어느 한 방법에 있어서, 상기 획득 함수를 최적화하는 것은, 상기 모집단 내 각 화합물에 대하여 획득 함수를 평가하는 것, 선택적으로, 상기 훈련 집합 내 화합물들을 배제하는 것을 포함하고, 상기 부분집합은 평가된 획득 함수 값들에 기초하여 결정되는,
컴퓨터를 이용한 약물 설계 방법.
9. 제 1 절 내지 제 8 절 중 어느 한 방법에 있어서, 상기 정의된 복수의 목적들에 기초한 획득 함수의 최적화는 화합물들의 파레토-최적 집합을 제공하고, 또한 상기 결정된 부분집합에 대한 복수의 화합물들 중 하나 또는 그 이상은 상기 파레토-최적 집합으로부터 선택되는,
컴퓨터를 이용한 약물 설계 방법.
10. 제 9 절에 있어서, 상기 파레토-최적 집합으로부터의 선택은 사용자-정의 선호도에 따르는,
컴퓨터를 이용한 약물 설계 방법.
11. 제 1 절 내지 제 10 절 중 어느 한 방법에 있어서, 상기 베이지안 통계 모델로부터의 확률 분포는 상기 복수의 목적들 중 각기 하나에 연관된 각 특성에 대한 확률 분포를 포함하는,
컴퓨터를 이용한 약물 설계 방법.
12. 제 11 절에 있어서, 집계 함수를 상기 복수의 확률 분포들에 적용함으로써 상기 베이지안 통계 모델로부터의 복수의 확률 분포들을 1차원 집계된 확률 분포에 매핑시키는 단계를 포함하고, 상기 획득 함수의 최적화는 상기 집계된 확률 분포에 기초하는,
컴퓨터를 이용한 약물 설계 방법.
13. 제 12 절에 있어서, 상기 집계 함수는 합 연산자; 평균 연산자; 및, 곱 연산자 중 하나 또는 그 이상을 포함하는,
컴퓨터를 이용한 약물 설계 방법.
14. 제 1 절 내지 제 13 절 중 어느 한 방법에 있어서, 상기 획득 함수는 예측 개선 함수; 확률 개선 함수; 및 신뢰 범위 함수 중 적어도 하나인,
컴퓨터를 이용한 약물 설계 방법.
15. 제 1 절 내지 제 11 절 중 어느 한 방법에 있어서, 상기 획득 함수는 다차원 획득 함수이고, 각 차원은 상기 복수의 목적들 중 각 목적에 대응하고; 선택적으로 상기 다차원 획득 함수는 초부피 예측 개선 함수인,
컴퓨터를 이용한 약물 설계 방법.
16. 제 1 절 내지 제 11 절 중 어느 한 방법에 있어서, 상기 베이지안 통계 모델을 훈련하는 단계는 상기 베이지안 통계 모델의 복수의 하이퍼파라미터들을 조정하는 단계를 포함하고, 상기 하이퍼파라미터들을 조정하는 단계는 최대 우도 예측 기법 및 교차 검증 기법의 조합의 적용을 포함하는,
컴퓨터를 이용한 약물 설계 방법.
17. 제 1 절 내지 제 12 절 중 어느 한 방법에 있어서, 상기 복수의 화합물들의 부분집합을 결정하는 단계는
상기 훈련된 베이지안 통계 모델로부터의 확률 분포에 기초하여 그리고 상기 정의된 복수의 목적들에 기초하여 상기 획득 함수를 최적화함으로써 상기 훈련 집합에 있지 않은, 상기 모집단으로부터 하나의 화합물을 식별하는 단계, 및 이하의 단계들:
상기 화합물들의 훈련 집합 및 상기 하나 또는 그 이상의 식별된 화합물들을 이용해 상기 베이지안 통계 모델을 재훈련하는 단계; 및,
상기 재훈련된 베이지안 통계 모델로부터의 확률 분포에 기초하여 그리고 상기 정의된 복수의 목적들에 기초하여 상기 획득 함수를 최적화함으로써, 상기 훈련 집합에 있지 않은, 상기 모집단으로부터 하나의 화합물을 식별하는 단계를, 상기 복수의 화합물들이 부분집합에 대하여 식별될 때까지 반복하는 단계를 포함하는,
컴퓨터를 이용한 약물 설계 방법.
18. 제 17 절에 있어서, 상기 베이지안 통계 모델을 재훈련하는 단계는 상기 베이지안 통계 모델 내 상기 하나 또는 그 이상의 식별된 화합물들에 대하여 하나 또는 그 이상의 가짜 특성 값들을 설정하는 단계를 포함하는,
컴퓨터를 이용한 약물 설계 방법.
19. 제 18 절에 있어서, 상기 가짜 특성 값들은 크리깅 신자 접근법; 및 지속적 거짓말쟁이 접근법 중 하나에 따라 설정되는,
컴퓨터를 이용한 약물 설계 방법.
20. 제 1 절 내지 제 19 절 중 어느 한 방법에 있어서, 상기 베이지안 통계 모델에서 각 화합물은 비트 벡터로서 나타내고, 상기 비트 벡터의 비트들은 상기 화합물 내 각 구조적 특징들의 존재 또는 부재를 나타내는,
컴퓨터를 이용한 약물 설계 방법.
21. 제 1 절 내지 제 20 절 중 어느 한 방법에 있어서, 상기 베이지안 통계 모델은 가우시안 프로세스 모델인,
컴퓨터를 이용한 약물 설계 방법.
22. 제 1 절 내지 제 21 절 중 어느 한 방법에 있어서, 상기 훈련된 베이지안 통계 모델로부터의 확률 분포는 상기 모집단 내 화합물들의 근사된 특성 값들을나타내는 사후 평균 및 상기 모집단 내 근사된 특성 값들에 연관된 불확실성을 나타내는 사후 분산을 포함하는,
컴퓨터를 이용한 약물 설계 방법.
23. 제 1 절 내지 제 22 절 중 어느 한 방법에 있어서, 상기 획득 함수의 하나 또는 그 이상의 가중 파라미터들은 상기의 언급된 방법을 이용하는 약물 설계 공정의 원하는 전략에 따라 변형되는,
컴퓨터를 이용한 약물 설계 방법.
24. 제 23 절에 있어서, 상기 원하는 전략은 상기 사후 평균에 연관된 획득 함수의 가중 파라미터에 종속하는, 활용 전략과, 상기 사후 분산에 연관된 획득 함수의 가중 파라미터에 종속하는, 탐색 전략 사이의 균형을 포함하는,
컴퓨터를 이용한 약물 설계 방법.
25. 제 23 절 또는 제 24 절에 있어서, 상기 가중 파라미터들은 원하는 전략을 설정하기 위해 사용자-정의되는,
컴퓨터를 이용한 약물 설계 방법.
26. 제 1 절 내지 제 25 절 중 어느 한 방법에 있어서, 상기 베이지안 통계 모델은 상기 화합물들의 특성들을 근사하기 위해 상기 모집단 내 화합물들의 쌍들 사이의 유사도를 나타내는 커널을 이용하는,
컴퓨터를 이용한 약물 설계 방법.
27. 제 27절에 있어서, 상기 커널은 타니모토 유사도 커널인,
컴퓨터를 이용한 약물 설계 방법.
28. 제 1 절 내지 제 27 절 중 어느 한 방법에 있어서, 상기 선택된 화합물들의 적어도 하나의 특성을 결정하기 위해 상기 결정된 부분집합의 선택된 화합물들 중 적어도 일부를 합성하는 단계를 포함하는,
컴퓨터를 이용한 약물 설계 방법.
29. 제 28 절에 있어서, 갱신된 훈련 집합을 획득하기 위해 상기 훈련 집합에 상기 합성된 화합물들을 추가하는 단계를 포함하는,
컴퓨터를 이용한 약물 설계 방법.
30. 제 29 절에 있어서,
상기 화합물들의 갱신된 훈련 집합을 이용해, 상기 목적 함수를 근사하는 확률 분포를 출력하기 위해 갱신된 베이지안 통계 모델을 훈련하는 단계;
상기 갱신된 훈련 집합에 있지 않은, 상기 모집단으로부터의 복수의 화합물들의 새로운 부분집합을 결정하는 단계, 상기 새로운 부분집합은 상기 정의된 복수의 목적들에 종속하고 또한 상기 갱신된 베이지안 통계 모델로부터의 근사된 특성들에 종속하는 획득 함수의 최적화에 따라 결정되고; 및
합성을 위해 상기 결정된 새로운 부분집합 내 화합물들 중 적어도 일부를 선택하는 단계를 포함하는,
컴퓨터를 이용한 약물 설계 방법.
31. 제 30 절에 있어서, 상기 선택된 화합물들의 적어도 하나의 특성을 결정하기 위해 상기 결정된 새로운 부분집합 중 선택된 화합물들을 합성하는 단계를 포함하는,
컴퓨터를 이용한 약물 설계 방법.
32. 제 31 절에 있어서, 상기 훈련 집합에 상기 합성된 화합물들을 추가함으로써 상기 훈련 집합을 갱신하는 단계를 포함하는,
컴퓨터를 이용한 약물 설계 방법.
33. 제 29 절 내지 제 32 절 중 어느 한 방법에 있어서, 이하의 단계들:
상기 화합물들의 갱신된 훈련 집합을 이용해, 상기 목적 함수를 근사하는 확률 분포를 출력하기 위해 갱신된 베이지안 통계 모델을 훈련하는 단계;
상기 갱신된 훈련 집합에 있지 않은, 상기 모집단으로부터의 복수의 화합물들의 새로운 부분집합을 결정하는 단계, 상기 새로운 부분집합은 상기 정의된 복수의 목적들에 종속하고 또한 상기 갱신된 베이지안 통계 모델로부터의 근사된 생물학적 특성들에 종속하는 획득 함수의 최적화에 따라 결정되고; 및
합성을 위해 상기 결정된 새로운 부분집합 내 화합물들 중 적어도 일부를 선택하는 단계;
상기 선택된 화합물들의 적어도 하나의 특성을 결정하기 위해 상기 결정된 부분집합 중 선택된 화합물들을 합성하는 단계; 및
갱신된 훈련 집합을 획득하기 위해 상기 훈련 집합에 상기 합성된 화합물들을 추가하는 단계를 정지 조건이 만족될 때까지 반복적으로 수행하는 단계를 포함하는,
컴퓨터를 이용한 약물 설계 방법.
34. 제 33 절에 있어서, 상기 정지 조건은
합성된 화합물들 중 하나 또는 그 이상이 복수의 목적들을 달성하고; 합성된 화합물들 중 하나 또는 그 이상이 복수의 목적들 각각의 수용가능한 임계치들 내에 있고; 및 반복들의 최대 횟수가 수행된 것 중 적어도 하나를 포함하는,
컴퓨터를 이용한 약물 설계 방법.
35. 제 28 절 내지 제 34 절 중 어느 한 방법에 있어서, 상기 복수의 목적들을 달성하거나, 또는 상기 복수의 목적들 각각의 수용가능한 임계치들 내에 있는 합성된 화합물은, 미리 결정된 표적 분자에 대하여 원하는 생물학적, 생화학적, 생리학적 및/또는 약리학적 활성을 갖는 후보 약물 또는 치료 분자인,
컴퓨터를 이용한 약물 설계 방법.
36. 제 35 절에 있어서, 상기 결정된 표적 분자는 시험관내 및/또는 생체내 치료, 진단 또는 실험 검정 표적인,
컴퓨터를 이용한 약물 설계 방법.
37. 제 35 절 또는 제 36절에 있어서, 상기 후보 약물 또는 치료 분자는 의약에; 예를 들어, 인간 또는 인간이 아닌 동물과 같은, 동물 치료를 위한 방법에 사용되기 위한 것인,
컴퓨터를 이용한 약물 설계 방법.
38. 제 1 절 내지 제 37 절 중 어느 한 방법에 있어서, 상기 목적들 각각은 사용자-정의되는,
컴퓨터를 이용한 약물 설계 방법.
39. 제 1 절 내지 제 38 절 중 어느 한 방법에 있어서, 상기 목적들 각각은 개별 특성에 대한 원하는 값; 개별 특성들에 대한 원하는 값들의 범위; 및 최대화 또는 최소화되도록 개별 특성에 대한 원하는 값 중 적어도 하나를 포함하는,
컴퓨터를 이용한 약물 설계 방법.
40. 제 1 절 내지 제 39 절 중 어느 한 방법에 있어서, 상기 선택된 부분집합 내 화합물들의 수는 사용자-정의되는,
컴퓨터를 이용한 약물 설계 방법.
41. 제 1 절 내지 제 40 절 중 어느 한 방법에 있어서, 상기 모집단 내 복수의 화합물들 각각의 구조적 특징들은 화합물 내에 존재하는 부분들, 화학적 잔기 또는 화학적 군들에 대응하는,
컴퓨터를 이용한 약물 설계 방법.
42. 제 41 절에 있어서, 복수의 화합물들 각각에 존재하는 부분들, 화학적 잔기 또는 화학적 군들은 분자 지문으로서 표현되고; 선택적으로 상기 분자 지문은 ECFP(Extended Connectivity Fingerprint), 선택적으로 ECFP0, ECFP2, ECFP4, ECFP6, ECFP8, ECFP10 또는 ECFP12인,
컴퓨터를 이용한 약물 설계 방법.
43. 제 1 절 내지 제 42 절 중 어느 한 방법에 있어서, 상기 특성들 또는 적어도 하나의 특성은 화합물들 각각의 생물학적, 생화학적, 화학적, 생물물리학적, 생리학적 및/또는 약리학적 특성인,
컴퓨터를 이용한 약물 설계 방법.
44. 제 1 절 내지 제 43 절 중 어느 한 방법에 있어서, 상기 특성들은 활성, 선택성, 독성, 흡수, 분포, 대사, 및 배설 중 하나 또는 그 이상을 포함하는,
컴퓨터를 이용한 약물 설계 방법.
45. 제 1 절 내지 제 44 절 중 어느 한 방법에 의해 식별되는 화합물.
46. 컴퓨터 프로세서에 의해 실행될 때 상기 컴퓨터 프로세서가 제 1 절 내지 제 44 절 중 어느 한 방법에 따른 방법을 수행하도록 야기시키는 명령들을 저장하는 비일시적인, 컴퓨터-판독가능 저장 매체.
47. 컴퓨터를 이용한 약물 설계를 위한 컴퓨팅 장치에 있어서,
복수의 화합물들의 모집단을 나타내는 데이터를 수신하고, 각 화합물은 하나 또는 그 이상의 구조적 특징들을 가지고, 복수의 생물학적 특성들이 알려져 있는, 상기 모집단으로부터 화합물들의 훈련 집합을 나타내는 데이터를 수신하고, 또한 그 각각이 원하는 생물학적 특성을 정의하는, 복수의 목적들을 나타내는 데이터를 수신하도록 배치되는 입력;
상기 화합물들의 훈련 집합을 이용해, 상기 모집단 내 화합물들의 생물학적 특성들을 근사하는 확률 분포를 상기 모집단 내 화합물들의 구조적 특징들의 목적 함수로서 제공하기 위해 베이지안 통계 모델을 훈련하도록 배치되고, 또한 상기 훈련 집합에 없는, 상기 모집단으로부터 복수의 화합물들의 부분집합을 결정하도록 배치되는 프로세서, 상기 부분집합은 정의된 복수의 목적들에 기초하고 또한 훈련된 상기 베이지안 통계 모델로부터의 확률 분포에 기초하여 획득 함수의 최적화에 따라 결정되고; 및
상기 결정된 부분집합을 출력하도록 배치되는 출력을 포함하고; 선택적으로 상기 컴퓨팅 장치는 합성을 위해 결정된 부분집합 내의 화합물들 중 적어도 일부를 선택하도록 배치되는,
컴퓨터를 이용한 약물 설계를 위한 컴퓨팅 장치.
48. 제 47 절에 있어서, 프로세서가 제 1 절 내지 제 44 절 중 어느 한 방법에 따른 단계들 중 적어도 일부를 실행하기 위해 컴퓨터-판독가능한 코드를 읽도록 구성되는,
컴퓨터를 이용한 약물 설계를 위한 컴퓨팅 장치.
49. 컴퓨터를 이용한 약물 설계 방법에 있어서,
복수의 화합물들의 모집단을 정의하는 단계, 각 화합물은 하나 또는 그 이상의 구조적 특징들을 가지고;
복수의 특성들이 알려져 있는, 상기 모집단으로부터 화합물들의 훈련 집합을 정의하는 단계;
그 각각이 원하는 특성을 정의하는, 복수의 목적들을 정의하는 단계;
상기 화합물들의 훈련 집합을 이용해, 상기 모집단 내의 화합물들의 특성들을 근사하는 확률 분포를 상기 모집단 내 화합물들의 구조적 특징들의 목적 함수로서 출력하기 위해 베이지안 통계 모델을 훈련하는 단계;
상기 훈련 집합에 없는, 상기 모집단으로부터 복수의 화합물들의 부분집합을 결정하는 단계, 상기 부분집합은 정의된 복수의 목적들에 기초하고 또한 훈련된 상기 베이지안 통계 모델로부터의 확률 분포에 기초하여 획득 함수의 최적화에 따라 결정되고; 및
분자 동역학 분석을 수행하기 위해 결정된 부분집합 내의 화합물들 중 적어도 일부를 선택하는 단계를 포함하는,
컴퓨터를 이용한 약물 설계 방법.
50. 제 49 절에 있어서, 상기 선택된 화합물들에 기초하여 분자 동역학 분석을 수행하는 단계를 포함하는,
컴퓨터를 이용한 약물 설계 방법.

Claims (29)

  1. 컴퓨터를 이용한 약물 설계 방법에 있어서,
    복수의 화합물들의 모집단을 정의하는 단계, 각 화합물은 하나 또는 그 이상의 구조적 특징들을 가지고;
    복수의 특성들이 알려져 있는, 상기 모집단으로부터 화합물들의 훈련 집합을 정의하는 단계;
    그 각각이 원하는 특성을 정의하는, 복수의 목적들을 정의하는 단계;
    상기 화합물들의 훈련 집합을 이용해, 상기 모집단 내의 화합물들의 특성들을 근사하는 확률 분포를 출력하기 위해 베이지안 통계 모델을 훈련하는 단계;
    상기 훈련 집합에 없는, 상기 모집단으로부터 복수의 화합물들의 부분집합을 선택하는 단계, 상기 부분집합은 정의된 복수의 목적들에 기초하고 또한 훈련된 상기 베이지안 통계 모델로부터의 확률 분포에 기초하여 획득 함수의 최적화에 따라 결정되고; 및
    합성을 위해 결정된 부분집합 내의 화합물들 중 적어도 일부를 선택하는 단계를 포함하는,
    컴퓨터를 이용한 약물 설계 방법.
  2. 제 1 항에 있어서, 상기 목적들 중 하나 또는 그 이상에 대하여,
    선호도-조정된 확률 분포를 획득하기 위해 상기 베이지안 통계 모델로부터의 확률 분포에 개별적인 효용 함수를 적용함으로써 각 목적의 특성에 연관된 선호도를 매핑하는 단계를 포함하고, 여기서 상기 획득 함수의 최적화는 상기 선호도-조정된 확률 분포에 기초하는,
    컴퓨터를 이용한 약물 설계 방법.
  3. 제 2 항에 있어서, 상기 선호도는 상기 복수의 목적들 중 나머지 목적들에 대한 각 목적의 우선순위를 나타내는,
    컴퓨터를 이용한 약물 설계 방법.
  4. 제 2 항 또는 제 3 항에 있어서, 상기 화합물들 중 하나의 특성들 중 하나에 대하여, 특성에 대한 확률 분포에 연관된 불확실성 값이 낮을수록, 각 특성에 연관된 선호도는 커지는,
    컴퓨터를 이용한 약물 설계 방법.
  5. 제 2 항 내지 제 4 항 중 어느 한 항에 있어서, 상기 효용 함수 중 하나 또는 그 이상은 구분 함수들이고; 선택적으로, 이 구분 함수들은 구분 선형 함수들인,
    컴퓨터를 이용한 약물 설계 방법.
  6. 제 1 항 내지 제 5 항 중 어느 한 항에 있어서, 상기 획득 함수를 최적화하는 것은, 상기 모집단 내 각 화합물에 대하여 획득 함수를 평가하는 것, 선택적으로, 상기 훈련 집합 내 화합물들을 배제하는 것을 포함하고, 상기 부분집합은 평가된 획득 함수 값들에 기초하여 결정되는,
    컴퓨터를 이용한 약물 설계 방법.
  7. 제 1 항 내지 제 6 항 중 어느 한 항에 있어서, 상기 정의된 복수의 목적들에 기초한 획득 함수의 최적화는 화합물들의 파레토-최적 집합을 제공하고, 또한 상기 결정된 부분집합에 대한 복수의 화합물들 중 하나 또는 그 이상은 상기 파레토-최적 집합으로부터 선택되는,
    컴퓨터를 이용한 약물 설계 방법.
  8. 제 1 항 내지 제 7 항 중 어느 한 항에 있어서, 상기 베이지안 통계 모델로부터의 확률 분포는 상기 복수의 목적들 중 각기 하나에 연관된 각 특성에 대한 확률 분포를 포함하는,
    컴퓨터를 이용한 약물 설계 방법.
  9. 제 8 항에 있어서, 집계 함수를 상기 복수의 확률 분포들에 적용함으로써 상기 베이지안 통계 모델로부터의 복수의 확률 분포들을 1차원 집계된 확률 분포에 매핑시키는 단계를 포함하고, 상기 획득 함수의 최적화는 상기 집계된 확률 분포에 기초하고; 선택적으로 상기 집계 함수는 합 연산자; 평균 연산자; 및, 곱 연산자 중 하나 또는 그 이상을 포함하는,
    컴퓨터를 이용한 약물 설계 방법.
  10. 제 1 항 내지 제 9 항 중 어느 한 항에 있어서, 상기 획득 함수는 예측 개선 함수; 확률 개선 함수; 및 신뢰 범위 함수 중 적어도 하나인,
    컴퓨터를 이용한 약물 설계 방법.
  11. 제 1 항 내지 제 8 항 중 어느 한 항에 있어서, 상기 획득 함수는 다차원 획득 함수이고, 각 차원은 상기 복수의 목적들 중 각 목적에 대응하고; 선택적으로 상기 다차원 획득 함수는 초부피 예측 개선 함수인,
    컴퓨터를 이용한 약물 설계 방법.
  12. 제 1 항 내지 제 11 항 중 어느 한 항에 있어서, 상기 베이지안 통계 모델을 훈련하는 단계는 상기 베이지안 통계 모델의 복수의 하이퍼파라미터들을 조정하는 단계를 포함하고, 상기 하이퍼파라미터들을 조정하는 단계는 최대 우도 예측 기법 및 교차 검증 기법의 조합의 적용을 포함하는,
    컴퓨터를 이용한 약물 설계 방법.
  13. 제 1 항 내지 제 12 항 중 어느 한 항에 있어서, 상기 복수의 화합물들의 부분집합을 결정하는 단계는
    상기 훈련된 베이지안 통계 모델로부터의 확률 분포에 기초하여 그리고 상기 정의된 복수의 목적들에 기초하여 상기 획득 함수를 최적화함으로써 상기 훈련 집합에 있지 않은, 상기 모집단으로부터 하나의 화합물을 식별하는 단계, 및 이하의 단계들:
    상기 화합물들의 훈련 집합 및 상기 하나 또는 그 이상의 식별된 화합물들을 이용해 상기 베이지안 통계 모델을 재훈련하는 단계; 및,
    상기 재훈련된 베이지안 통계 모델로부터의 확률 분포에 기초하여 그리고 상기 정의된 복수의 목적들에 기초하여 상기 획득 함수를 최적화함으로써, 상기 훈련 집합에 있지 않은, 상기 모집단으로부터 하나의 화합물을 식별하는 단계를, 상기 복수의 화합물들이 부분집합에 대하여 식별될 때까지 반복하는 단계를 포함하는,
    컴퓨터를 이용한 약물 설계 방법.
  14. 제 13 항에 있어서, 상기 베이지안 통계 모델을 재훈련하는 단계는 상기 베이지안 통계 모델 내 상기 하나 또는 그 이상의 식별된 화합물들에 대하여 하나 또는 그 이상의 가짜 특성 값들을 설정하는 단계를 포함하고; 선택적으로 상기 가짜 특성 값들은 크리깅 신자 접근법; 및 지속적 거짓말쟁이 접근법 중 하나에 따라 설정되는,
    컴퓨터를 이용한 약물 설계 방법.
  15. 제 1 항 내지 제 14 항 중 어느 한 항에 있어서, 상기 베이지안 통계 모델에서 각 화합물은 비트 벡터로서 나타내고, 상기 비트 벡터의 비트들은 상기 화합물 내 각 구조적 특징들의 존재 또는 부재를 나타내는,
    컴퓨터를 이용한 약물 설계 방법.
  16. 제 1 항 내지 제 15 항 중 어느 한 항에 있어서, 상기 베이지안 통계 모델은 가우시안 프로세스 모델인,
    컴퓨터를 이용한 약물 설계 방법.
  17. 제 1 항 내지 제 16 항 중 어느 한 항에 있어서, 상기 훈련된 베이지안 통계 모델로부터의 확률 분포는 상기 모집단 내 화합물들의 근사된 특성 값들을 나타내는 사후 평균 및 상기 모집단 내 근사된 특성 값들에 연관된 불확실성을 나타내는 사후 분산을 포함하는,
    컴퓨터를 이용한 약물 설계 방법.
  18. 제 1 항 내지 제 17 항 중 어느 한 항에 있어서, 상기 획득 함수의 하나 또는 그 이상의 가중 파라미터들은 상기 방법을 이용하는 약물 설계 공정의 원하는 전략에 따라 변형되고; 선택적으로 상기 원하는 전략은 상기 사후 평균에 연관된 획득 함수의 가중 파라미터에 종속하는, 활용 전략과, 상기 사후 분산에 연관된 획득 함수의 가중 파라미터에 종속하는, 탐색 전략 사이의 균형을 포함하는,
    컴퓨터를 이용한 약물 설계 방법.
  19. 제 1 항 내지 제 18 항 중 어느 한 항에 있어서, 상기 베이지안 통계 모델은 상기 화합물들의 특성들을 근사하기 위해 상기 모집단 내 화합물들의 쌍들 사이의 유사도를 나타내는 커널을 이용하고, 상기 커널은 타니모토 유사도 커널인,
    컴퓨터를 이용한 약물 설계 방법.
  20. 제 1 항 내지 제 19 항 중 어느 한 항에 있어서, 상기 선택된 화합물들의 적어도 하나의 특성을 결정하기 위해 상기 결정된 부분집합의 선택된 화합물들 중 적어도 일부를 합성하는 단계, 및 갱신된 훈련 집합을 획득하기 위해 상기 훈련 집합에 상기 합성된 화합물들을 추가하는 단계를 포함하는,
    컴퓨터를 이용한 약물 설계 방법.
  21. 제 20 항에 있어서,
    상기 화합물들의 갱신된 훈련 집합을 이용해, 상기 목적 함수를 근사하는 확률 분포를 출력하기 위해 갱신된 베이지안 통계 모델을 훈련하는 단계;
    상기 갱신된 훈련 집합에 있지 않은, 상기 모집단으로부터의 복수의 화합물들의 새로운 부분집합을 결정하는 단계, 상기 새로운 부분집합은 상기 정의된 복수의 목적들에 종속하고 또한 상기 갱신된 베이지안 통계 모델로부터의 근사된 특성들에 종속하는 획득 함수의 최적화에 따라 결정되고; 및
    합성을 위해 상기 결정된 새로운 부분집합 내 화합물들 중 적어도 일부를 선택하는 단계를 포함하는,
    컴퓨터를 이용한 약물 설계 방법.
  22. 제 21 항에 있어서, 상기 선택된 화합물들의 적어도 하나의 특성을 결정하기 위해 상기 결정된 새로운 부분집합 중 선택된 화합물들을 합성하는 단계, 및 상기 훈련 집합에 상기 합성된 화합물들을 추가함으로써 상기 훈련 집합을 갱신하는 단계를 포함하는,
    컴퓨터를 이용한 약물 설계 방법.
  23. 제 20 항 내지 제 22 항 중 어느 한 항에 있어서, 이하의 단계들:
    상기 화합물들의 갱신된 훈련 집합을 이용해, 상기 목적 함수를 근사하는 확률 분포를 출력하기 위해 갱신된 베이지안 통계 모델을 훈련하는 단계;
    상기 갱신된 훈련 집합에 있지 않은, 상기 모집단으로부터의 복수의 화합물들의 새로운 부분집합을 결정하는 단계, 상기 새로운 부분집합은 상기 정의된 복수의 목적들에 종속하고 또한 상기 갱신된 베이지안 통계 모델로부터의 근사된 생물학적 특성들에 종속하는 획득 함수의 최적화에 따라 결정되고; 및
    합성을 위해 상기 결정된 새로운 부분집합 내 화합물들 중 적어도 일부를 선택하는 단계;
    상기 선택된 화합물들의 적어도 하나의 특성을 결정하기 위해 상기 결정된 부분집합 중 선택된 화합물들을 합성하는 단계; 및
    갱신된 훈련 집합을 획득하기 위해 상기 훈련 집합에 상기 합성된 화합물들을 추가하는 단계를 정지 조건이 만족될 때까지 반복적으로 수행하는 단계를 포함하는,
    컴퓨터를 이용한 약물 설계 방법.
  24. 제 23 항에 있어서, 상기 정지 조건은
    합성된 화합물들 중 하나 또는 그 이상이 복수의 목적들을 달성하고; 합성된 화합물들 중 하나 또는 그 이상이 복수의 목적들 각각의 수용가능한 임계치들 내에 있고; 및 반복들의 최대 횟수가 수행된 것 중 적어도 하나를 포함하는,
    컴퓨터를 이용한 약물 설계 방법.
  25. 제 1 항 내지 제 24 항 중 어느 한 항에 있어서, 상기 모집단 내 복수의 화합물들 각각의 구조적 특징들은 화합물 내에 존재하는 부분들에 대응하고, 선택적으로 상기 복수의 화합물들 각각 내에 존재하는 부분들은 분자 지문으로서 표현되고; 선택적으로 상기 분자 지문은 ECFP(Extended Connectivity Fingerprint), 선택적으로 ECFP0, ECFP2, ECFP4, ECFP6, ECFP8, ECFP10 또는 ECFP12인,
    컴퓨터를 이용한 약물 설계 방법.
  26. 제 1 항 내지 제 25 항 중 어느 한 항에 있어서, 상기 특성들 또는 적어도 하나의 특성은 화합물들 각각의 생물학적, 생화학적, 화학적, 생물물리학적, 생리학적 및/또는 약리학적 특성이고; 선택적으로 상기 생물학적 특성들은 활성, 선택성, 독성, 흡수, 분포, 대사, 및 배설 중 하나 또는 그 이상을 포함하는,
    컴퓨터를 이용한 약물 설계 방법.
  27. 제 1 항 내지 제 26 항 중 어느 한 항에 따른 방법에 의해 식별되는 화합물.
  28. 컴퓨터 프로세서에 의해 실행될 때 상기 컴퓨터 프로세서가 제 1 항 내지 제 27 항 중 어느 한 항에 따른 방법을 수행하도록 야기시키는 명령들을 저장하는 비일시적인, 컴퓨터-판독가능 저장 매체.
  29. 컴퓨터를 이용한 약물 설계를 위한 컴퓨팅 장치에 있어서,
    복수의 화합물들의 모집단을 나타내는 데이터를 수신하고, 각 화합물은 하나 또는 그 이상의 구조적 특징들을 가지고, 복수의 생물학적 특성들이 알려져 있는, 상기 모집단으로부터 화합물들의 훈련 집합을 나타내는 데이터를 수신하고, 또한 그 각각이 원하는 생물학적 특성을 정의하는, 복수의 목적들을 나타내는 데이터를 수신하도록 배치되는 입력;
    상기 화합물들의 훈련 집합을 이용해, 상기 모집단 내 화합물들의 생물학적 특성들을 근사하는 확률 분포를 상기 모집단 내 화합물들의 구조적 특징들의 목적 함수로서 제공하기 위해 베이지안 통계 모델을 훈련하도록 배치되고, 또한 상기 훈련 집합에 없는, 상기 모집단으로부터 복수의 화합물들의 부분집합을 결정하도록 배치되는 프로세서, 상기 부분집합은 정의된 복수의 목적들에 기초하고 또한 훈련된 상기 베이지안 통계 모델로부터의 확률 분포에 기초하여 획득 함수의 최적화에 따라 결정되고; 및
    상기 결정된 부분집합을 출력하도록 배치되는 출력을 포함하고; 선택적으로 상기 컴퓨팅 장치는 합성을 위해 결정된 부분집합 내의 화합물들 중 적어도 일부를 선택하도록 배치되는,
    컴퓨터를 이용한 약물 설계를 위한 컴퓨팅 장치.

KR1020237030565A 2021-02-08 2022-02-08 능동 학습에 의한 약물 최적화 KR20230152043A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB2101703.3 2021-02-08
GBGB2101703.3A GB202101703D0 (en) 2021-02-08 2021-02-08 Drug optimisation by active learning
PCT/GB2022/050332 WO2022167821A1 (en) 2021-02-08 2022-02-08 Drug optimisation by active learning

Publications (1)

Publication Number Publication Date
KR20230152043A true KR20230152043A (ko) 2023-11-02

Family

ID=74879101

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237030565A KR20230152043A (ko) 2021-02-08 2022-02-08 능동 학습에 의한 약물 최적화

Country Status (7)

Country Link
US (1) US20240029834A1 (ko)
EP (1) EP4288966A1 (ko)
JP (1) JP2024505685A (ko)
KR (1) KR20230152043A (ko)
CN (1) CN116601715A (ko)
GB (1) GB202101703D0 (ko)
WO (1) WO2022167821A1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115050477B (zh) * 2022-06-21 2023-06-20 河南科技大学 一种贝叶斯优化的RF与LightGBM疾病预测方法
WO2024076972A1 (en) * 2022-10-03 2024-04-11 Genentech, Inc. Molecule design with multi-objective optimization of partially ordered, mixed-variable molecular properties
GB202219100D0 (en) * 2022-12-16 2023-02-01 Exscientia Ai Ltd De novo drug design using reinforcement learning
CN116959629B (zh) * 2023-09-21 2023-12-29 烟台国工智能科技有限公司 化学实验多指标优化方法、系统、存储介质和电子设备
CN117744894B (zh) * 2024-02-19 2024-05-28 中国科学院电工研究所 一种综合能源系统的主动学习代理优化方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4233057A1 (en) * 2020-10-23 2023-08-30 Exscientia Al Limited Drug optimisation by active learning

Also Published As

Publication number Publication date
WO2022167821A1 (en) 2022-08-11
US20240029834A1 (en) 2024-01-25
JP2024505685A (ja) 2024-02-07
GB202101703D0 (en) 2021-03-24
EP4288966A1 (en) 2023-12-13
CN116601715A (zh) 2023-08-15

Similar Documents

Publication Publication Date Title
KR20230152043A (ko) 능동 학습에 의한 약물 최적화
JP7490576B2 (ja) 訓練された統計モデルを使用するマルチモーダル予測のための方法および装置
Stanton et al. Accelerating bayesian optimization for biological sequence design with denoising autoencoders
Kundu et al. AltWOA: Altruistic Whale Optimization Algorithm for feature selection on microarray datasets
Camproux et al. A hidden markov model derived structural alphabet for proteins
Prangle et al. Semi-automatic selection of summary statistics for ABC model choice
US8332347B2 (en) System and method for inferring a network of associations
CN113241122A (zh) 自适应弹性网与深度神经网络融合的基因数据变量选择及分类方法
CN112215259A (zh) 基因选择方法和装置
CN111048145B (zh) 蛋白质预测模型的生成方法、装置、设备和存储介质
Oliveira Pereira et al. End-to-end deep reinforcement learning for targeted drug generation
JP2023547571A (ja) アクティブラーニングによる薬剤の最適化
Marbach et al. Bio-mimetic evolutionary reverse engineering of genetic regulatory networks
Ma et al. Drug-target binding affinity prediction method based on a deep graph neural network
Balamurugan et al. Biclustering microarray gene expression data using modified Nelder-Mead method
Jafari et al. An information gain approach to infer gene regulatory networks
Alkady et al. Swarm intelligence optimization for feature selection of biomolecules
Zhou et al. Computational systems bioinformatics: methods and biomedical applications
Jayasimha et al. An effective feature extraction with deep neural network architecture for protein-secondary-structure prediction
Deng Algorithms for reconstruction of gene regulatory networks from high-throughput gene expression data
Rueda Systematic and Stochastic Biclustering Algorithms for Microarray Data Analysis
Blomgren et al. Active Learning and Predictive Modeling Using Uncertainty Quantification
Pradhan et al. GA-ANN based dominant gene prediction in microarray dataset
CN116913536A (zh) 一种高维肿瘤数据特征选择方法
Pradhan Computational Machine Learning Application on Microarray Genomic Data