KR102604438B1

KR102604438B1 - 머신 러닝 및 분자 시뮬레이션에 기반한 결합 및 활성 예측 향상 방법

Info

Publication number: KR102604438B1
Application number: KR1020207028266A
Authority: KR
Inventors: 에반 나다니엘 페인버그; 비제이 사티아난드 판데
Original assignee: 더 보드 어브 트러스티스 어브 더 리랜드 스탠포드 주니어 유니버시티
Priority date: 2018-03-05
Filing date: 2019-03-05
Publication date: 2023-11-21
Also published as: US20190272887A1; WO2019173407A1; CN112204402B; EP3762730A1; CA3093260A1; JP7343911B2; AU2019231261A1; KR20200128710A; CN112204402A; JP2021515233A; EP3762730A4

Abstract

본 발명의 구체예에 따른 분자 시뮬레이션을 위한 시스템 및 방법이 예시된다. 일 구체예는 리간드와 수용체 간의 관계를 예측하는 방법을 포함한다. 이 방법은 수용체의 복수의 입체형태(conformation)를 확인하는 단계, 복수의 입체형태 각각 및 하나 이상의 리간드의 세트에 대한 도킹 스코어를 계산하는 단계, 및 하나 이상의 리간드의 세트와 복수의 입체형태 간의 관계를 예측하는 단계를 포함한다.

Description

머신 러닝 및 분자 시뮬레이션에 기반한 결합 및 활성 예측 향상 방법

관련 출원에 대한 상호 참조

본 출원은 2018년 3월 5일에 출원된, "머신 러닝 및 분자 시뮬레이션에 기반한 결합 및 활성 예측 향상 방법"을 발명의 명칭으로 하는 미국가출원 제62/638,805호에 대하여 35 U.S.C.§119(e) 하의 혜택과 우선권을 주장한다. 미국 가출원 제62/638,805호의 개시는 모든 목적을 위해 그 전체가 본원에 참고로 포함된다.

기술분야

본 발명은 일반적으로 머신 러닝 방법, 및 보다 구체적으로는 분자 시뮬레이션에서의 머신 러닝의 사용에 관한 것이다.

단일 부류의 단백질인 G-단백질 결합 수용체 (G-Protein Coupled Receptors, GPCR)은 FDA가 승인한 모든 약물의 표적의 1/3 이상을 차지한다. 이러한 GPCR 중 하나인 μ오피오이드 수용체 (μOR)는 기존 GPCR 약물의 이점과 단점을 잘 보여준다. 모르핀 및 하이드로코돈과 같은 오피오이드 만성 통증 치료제는 진통이라는 주요 치료 목표를 달성하면서도 호흡 억제 및 중독과 같은 심각한 부작용을 유발하는 μOR 작용제이다.

2015년에 30,000명 이상의 미국인이 오피오이드 약물 과다 복용으로 사망했했는데, 이는 불과 5년 전의 20,000 명보다 늘어난 수치이다. 지난 세기 동안 의약 화학자들은 의존성의 문제없이 오피오이드 진통제를 합성하기 위해 노력했지만 허사였다.

발명의 요지

본 발명의 구체예에 따른 분자 시뮬레이션을 위한 시스템 및 방법이 예시된다. 일 구체예는 리간드와 수용체 간의 관계를 예측하는 방법을 포함한다. 이 방법은 수용체의 복수의 입체형태(conformation)를 확인하는 단계, 복수의 입체형태 각각 및 하나 이상의 리간드의 세트에 대한 도킹 스코어를 계산하는 단계, 및 하나 이상의 리간드의 세트와 수용체의 복수의 입체형태 간의 관계를 예측하는 단계를 포함한다.

추가적인 구체예에서, 복수의 입체형태는 적어도 하나의 비-결정학적 상태를 포함한다.

또 다른 구체예에서, 복수의 입체형태를 확인하는 단계는 수용체와 리간드의 상호작용을 시뮬레이션하여 시뮬레이션 데이터를 생성하는 단계를 포함한다.

또 다른 구체예에서, 복수의 입체형태를 확인하는 단계는 상기 복수의 입체형태를 확인하기 위해 상기 시뮬레이션 데이터에 대해 클러스터링 동작(clustering operation)을 수행하는 단계를 더욱 포함한다.

또 다른 구체예에서, 클러스터링 동작은 미니배치 k-평균(minibatch k-means) 클러스터링 동작이다.

또 다른 구체예에서, 복수의 입체형태를 확인하는 단계는 상기 시뮬레이션 데이터에 대해 차원 축소 연산(a dimensionality reduction operation)을 수행하는 단계를 더욱 포함한다.

또 다른 추가적인 구체예에서, 복수의 입체형태를 확인하는 단계는 복수의 입체형태 각각의 입체형태에 대한 반응 좌표(reaction coordinate) 세트를 확인하는 단계를 포함한다.

또 다른 추가적인 구체예에서, 도킹 스코어를 계산하는 단계는 리간드 세트 및 복수의 입체형태 각각의 도킹을 시뮬레이션하는 단계를 포함한다.

또 다른 구체예에서, 도킹 스코어를 계산하는 단계는 도킹 스코어의 특징 행렬(feature matrix)을 구축하는 단계를 포함하고, 관계를 예측하는 단계는 상기 특징 행렬을 머신 러닝 모델에 입력하는 단계를 포함한다.

또 다른 구체예에서, 머신 러닝 모델은 랜덤 포레스트 모델을 포함한다.

또 다른 구체예에서, 랜덤 포레스트는 8.0 (10nM)의 pIC50 컷오프를 갖는다.

또 다른 구체예에서, 랜덤 포레스트는 제1 랜덤 포레스트 모델이고, 머신 러닝 모델은 제2 랜덤 포레스트 모델을 더욱 포함한다.

또 다른 추가적인 구체예에서, 제1 랜덤 포레스트 모델은 결합(binding)을 위한 것이고 제2 랜덤 포레스트 모델은 효능작용(agonism)을 위한 것이다.

또 다른 추가적인 구체예에서, 제1 랜덤 포레스트 모델 및 제2 랜덤 포레스트 모델은 상기 제1 랜덤 포레스트 모델 및 제2 랜덤 포레스트 모델 모두로부터 각각 최종 스코어를 생성하기 위해 라이브러리 리간드에 적용된다.

또 다른 구체예에서, 상기 방법은 공지된 약리학을 갖는 리간드 데이터베이스로부터의 리간드로 머신 러닝 모델을 훈련시키는 단계를 더욱 포함를 추가로 포함한다.

또 다른 추가적인 구체예에서, 관계를 예측하는 단계는 리간드가 수용체에 대해 작용제(agonist)인지 여부를 결정하는 것을 포함한다.

또 다른 추가적인 구체예에서, 상기 방법은 예측된 관계에 기초하여 하나 이상의 후보 리간드의 세트를 확인하는 단계, 및 수용체에 대한 후보 리간드 세트의 반응을 물리적으로 테스트하는 단계를 추가로 포함한다.

또 다른 추가적인 구체예에서, 관계를 예측하는 단계는 리간드 세트 및 복수의 입체형태의 각각의 입체형태에 대한 관계를 예측하는 단계, 및 복수의 입체형태에 대한 예측된 관계에 기초하여 리간드 세트 및 수용체의 총체적인 관계(aggregate relationship)를 예측하는 단계를 포함한다.

추가적인 구체예 및 특징들이 후술하는 설명에 부분적으로 설명되며, 일부는 명세서의 검토를 통해 당업자에게 명백해지거나 본 발명의 실행에 의해 학습될 수 있을 것이다. 본 발명의 특성 및 이점들에 대한 추가적인 이해는 본 개시의 일부를 형성하는 명세서 및 도면의 나머지 부분을 참조함으로써 실현될 수 있다.

본 특허 또는 출원 파일은 컬러로 실행된 도면을 하나 이상 포함한다. 컬러 도면이 포함된 본 특허 또는 특허 출원 공개본의 사본은 요청 및 필요한 비용의 지불시 특허청에서 제공한다.
발명의 설명 및 청구범위는 본 발명의 예시적인 구현예로서 제시되는 도면 및 데이터 그래프를 참조하여 보다 충분히 이해될 것이나, 이들이 본 발명의 범위의 완전한 언급으로서 이해되어서는 안된다.
도 1은 μOR의 다양한 상태의 예를 도시한다.
도 2는 μOR의 자유 에너지 랜드스케이프를 시각화한 것이다.
도 3은 본 발명의 일부 구체예에 따라 리간드 발견을 제공하는 시스템의 예를 도시한다.
도 4는 본 발명의 여러 구체예에 따른 리간드 발견 요소의 예를 도시한다.
도 5는 본 발명의 일 구체예에 따라 후보 리간드를 확인하기 위한 리간드 발견 애플리케이션의 예를 도시한다.
도 6은 본 발명의 구체예에 따른 리간드 발견을 위한 프로세스의 흐름도를 개념적으로 도시한다.
도 7은 본 발명의 일 구체예에 따른 MOR-1 결합자의 스크리닝의 예를 도시한다.
도 8A-8D는 FMP1-FMP32의 구조 및 분자량을 도시한다.
도 9는 본 발명의 구체예에 따라 CHO 세포의 막에서 125 I-IBNtxA (0.1 nM)에 대한 FMP4를 사용한 경쟁 연구를 도시한다.

본 발명의 특정 구체예에 따른 시스템 및 방법은 중개 연구자들이 신규한 G-단백질 결합 수용체 (GPCR) 약물 스캐폴드를 확인하는 데 도움을 줄 수 있다. 기존 케모타입의 유도체 합성에 대한 의약 화학 분야의 엄청난 노력에도 불구하고, 현재 FDA-승인된 오피오이드에는 급성 및 만성 통증 치료의 효용성을 제한하는 심각한 부작용들이 산재해있다. 본 발명의 여러 구체예에 따른 방법은 μOR (μOpioid Receptor)에서 활성화된 분자의 종래 알려지지 않은 화학적 공간을 탐색하기 위해 머신 러닝과 함께 결정학 및 분자 모델링을 활용한다. 많은 예들이 μOR을 참고하여 설명되지만, 당업자는 본 발명의 여러 구체예에 따른 접근법이 그외 단백질, 효소, GPCR, 키나아제, 이온 채널, 및 핵 수용체를 포함하는, 임의 종류의 입체형태적 가소성을 가질 것이라고 예상되는 임의의 수용체에 쉽게 적용될 수 있음을 쉽게 이해할 것이다.

현재 알려진 오피오이드의 상당 부분은 모르핀과 펜타닐이라는 두 스캐폴드 중 하나의 유사체들이다. 현재 알려진 오피오이드의 대부분은 3차 아민 질소 모티프에 집중되어 있다. 유도체들을 생성하는 이 세기적-오랜 전략에서 벗어나, 본 발명의 일부 구체예에 따른 시스템 및 방법은 새로운 부류의 μ오피오이드의 개발을 위해 완전히 새로운 화학적 공간 영역을 여는 데 사용될 수 있다. 일부 구체예에서, 본 개시 내용은 GPCR, 키나아제, 이온 채널 및 핵 수용체에 대한 신규 리간드를 개발하는 데 사용될 수 있는 시스템 및 방법을 제공한다.

근본적으로 새로운 분자를 개발하려면 발견에 대한 창의적인 접근 방식이 필요하다. 수십년 동안, 연구자들은 구조 생물학 (예를 들어, 결정학), 분자 시뮬레이션 (예를 들어, 분자 역학, 도킹) 및 머신 러닝 (예를 들어, QSAR (Quantitative Structure-Activity Relationship), 랜덤 포레스트 등)의 세 가지 핵심 방법을 약물 발견에 사용해 왔다. 그러나 겉보기에 직교하는 이 방법들을 통합할 수 있는 체계가 없었기 때문에, 이들 방법은 독립적으로 사용되어 왔다. 일부 구체예에서, 새로운 방법은 약물 설계에서 우리의 예측 능력을 크게 향상시키기 위해 이들 접근법 모두를 사용한다. 이 계획의 성공은 단백질 기능에 대한 핵심 가설을 보다 광범위하게 뒷받침한다: 단백질 수용체는 이들의 기능적 의무에서 복잡한 입체형태적 랜드스케이프를 샘플링한다.

계산 화학자들은 일부 표적들, 예를 들어 μ오피오이드 수용체 및 GPCR 패밀리의 다른 구성원이 많은 비-결정학적 상태들을 가진다는 사실에도 불구하고 일반적으로 단백질의 결정 구조에 대해 화합물을 가상으로 스크리닝하여 약물 후보들를 분석한다. 본 발명의 일부 구현예는 분자 역학 시뮬레이션을 통해 단백질, 예를 들어 μOR의 새로운 입체형태적 상태를 발견한 다음, 머신 러닝을 사용하여 리간드-구조 관계를 학습하여 리간드 기능을 예측하기 위한 방법을 제공한다. 본 발명의 여러 구체예에 따른 방법은 새로운 활성 선도 분자(lead molecule)를 체계적으로 발견하기 위해 머신 러닝과 함께 단백질의 입체형태적 가소성을 활용한다. 이러한 템플릿을 출발점으로 사용하는 고전적인 의약 화학 접근법을 이용한 구조-활성 연구는 수용체에서 더 높은 친화성을 갖는 화합물을 유발할 수 있다.

다른 GPCR과 마찬가지로, μOR는 바이너리 스위치(binary switch)가 아니다. 오히려, 생물물리학적 실험은 일반적으로 GPCR과 특히 μOR이 다양한 입체형태적 상태들을 가진다는 것을 나타낸다. μOR은 기능적으로 관련이 있고 약리학적으로 예측가능한 다양한 상태를 샘플링한다. 이 상태의 다양성은 현재의 약물 발견 과학자들이 접근할 수 없다. 본 발명의 많은 구현예에 따른 방법은 이러한 상태를 확인하고 통합하기 위해 전례없는 밀리초-규모의 분자 역학 시뮬레이션을 사용하는 새로운 계산 방법을 제공하며, 이는 활성 예측에서 증가된 AUC를 생성하고 새로운 화학적 스캐폴드의 발견을 강화한다. 특히, 이 예시에서 두 결정 구조를 넘어 중요한 μOR 상태를 확인하는 것은 수용체에서 리간드의 활성을 예측하는 능력을 향상시킬 수 있다. 이 방법은 수용체에 결합할 수있는 다른 관심 분자 (또는 단일 분자)에 적용할 수 있다.

일부 구체예에서, 이 접근법의 핵심 요소는 수용체의 여러 입체형태 각각에 대한 각 리간드의 친화도를 추정하는 것이다. 리간드-유래 특징만을 근거로 하는 이전의 많은 가상 스크리닝 접근법과는 대조적으로, 본 발명의 일부 구현예에 따른 방법은 각 수용체 입체형태에 대한 특정 리간드의 친화도에 기초한다. 특정 구현예에서, 이러한 입체형태는 단일 MD 시뮬레이션 사전 단계에서 획득될 수 있고 수용체의 기능성에 대해 설정된 구조적 기초를 포괄할 수 있다. 대조적으로, 유도 적합 도킹(induced fit docking)은 단백질에 대한 단일 도킹 (친화도) 점수를 추정하기 위해 다른 입체형태를 샘플링한다. 입체형태적 샘플링은 시공간적으로 제한되어, 결합 포켓까지만 확장되고, 각 리간드에 대해 반복되어야 하며, 친화도와 상관관계가 있는 단일 숫자를 출력하므로, 본질적으로 효능작용(agonism)을 예측하기 위한 표적이 아니다.

관심있는 단백질(본 예시에서는 μOR)의 장기적 시간 척도 분자 역학 (molecular dynamics, MD) 시뮬레이션이, 리간드 없이 또는 여러 리간드들 중 하나에 결합되어 수행된다. 본 예시에서, 시뮬레이션은 BU72, 수펜타닐, TRV130 및 IBNtxA와 같은 여러 작용제들 중 하나에 결합하여 수행되었다. 본 발명의 다수의 구체예에 따른 MD 시뮬레이션은 단백질 (예를 들어, μOR)이 취할 수 있는, 이질적(heterogeneous)이지만 포괄적인 입체형태들의 스펙트럼을 제공할 수 있다. 이 데이터셋는 수용체의 입체형태적 역학에 초점을 맞춘 종래의 작업들을 확장한다. 대규모의 병렬 MD 데이터셋 (예를 들어, 전례없는 1.1 밀리 초의 μOR 시뮬레이션으로 구성된 데이터셋)을 체계적으로 처리하기 위해, 다수의 구체예에 따른 동적 동기화된(kinetically motivated) 머신 러닝 접근법은 (1) 최첨단 Sparse 시간-구조　기반의 독립적인 성분 분석 (tICA) 알고리즘과 같은 (그러나 이에 제한되지 않는) 다양한 방법을 사용하여 수용체(예를 들어, μOR)의 가장 두드러진 반응 좌표 (이 경우, 가장 느린 동적 모드)를 확인하고 (2) 미니배치 k-평균 클러스터링과 같은 (그러나 이에 제한되지 않는) 클러스터링 방법을 사용하여 별개의 수용체 상태들을 정의하는데 적용될 수 있다. 일부 구체예에서, (1)은 Sparse 시간-구조　기반의 독립적인 성분 분석, 시간-구조　기반의 독립적인 성분 분석, 주 성분 분석 (PCA) 및/또는 독립적인 성분 분석 (ICA)을 활용할 수 있다. 일부 구체예에서, (2)는 미니배치 K-평균 클러스터링, K-평균 클러스터링, 확률적 경사하강법 (SGD) K-평균, k-메도이드, 가우시안 혼합 모델링, Jenks 내추럴 브레이크 최적화, 퍼지 C-평균 클러스터링, k-평균++, X-평균 클러스터링, G-평균 클러스터링, 내부 클러스터 평가, 및/또는 Minkowski 가중치 k-평균을 활용할 수 있다.

일부 구체예에서, 후보 리간드의 계산 시뮬레이션이 수용체에 결합할 때 리간드(들)는 도킹될 수 있다. 일부 구체예에서, 결합은 2개 이상의 분자들 간의 인력 상호작용일 수 있으며, 이는 분자들이 서로 매우 근접한 안정된 결합을 초래한다. 일부 구체예에서, 결합은 비-공유적일 수 있다. 일부 구체예에서, 결합은 가역적 공유결합일 수 있다. 일부 구체예에서, 결합은 비가역적 공유결합일 수 있다. 일부 구체예에서, 결합은 화학적 결합을 포함할 수 있다.

여러 실시예에서, 이 비지도(unsupervised) 단계는 결정 구조와 구별되는 비-정규적(non-canonical) 상태와 중간 상태 둘 다로 구성된 μOR의 주요 입체형태를 밝혀낸다. μOR의 다양한 상태의 예를 도 1에 나타내었다. 이 도면은 활성 결정 구조 (PDB:5C1M) (105), MD 상태 3 (110), 및 MD 상태 3 로의 FMP4의 도킹 포즈(pose) (115)를 보여준다. FMP4는 본 발명의 수많은 구체예에 따른 공정을 통해 μOR에 대해 친화성을 갖는 것으로 확인된 분자이며, 수용체에 대한 작용제이기도 하다. 실선 화살표는 결정 구조로부터의 MD 변화를 나타낸다. 파선은 FMP4와 μOR 결합 포켓 잔기 사이의 비-공유적 상호작용을 나타낸다. FMP4는 활성 결정의 잔기 M151 및 H297과 입체구조적으로 충돌하여, 이 구조에 대한 도킹 스코어가 매우 낮을 수 있다. M151 및 H297의 이동은 리간드의 비-스트레인(non-strained) 형태에서 유리한 비공유 리간드-단백질 상호작용을 가능하게 한다. 모르피난 페놀과는 달리, FMP4의 페닐 고리는 π-T 방향족 상호작용으로 주요 활성화 잔기 W293과 결합한다.

μOR의 상태 공간을 열거함으로써, 수용체의 입체형태를 쿼리하여 모든 원자 구조 정보로 합리적 설계에 동기를 부여할 수 있다. 피할 수 없는 데이터의 홍수는 MD에서 비롯되며, 방대한 시뮬레이션 데이터셋에서만 실행가능한 지식을 도출하는 것은 중요한 데이터 과학 과제이다. 나노 초당 1 프레임으로 저장된 1 밀리 초의 MD에는 백만개의 입체형태들이 포함되는데, 이는 전문가의 눈으로 보기에는 너무 많은 것이다. 오히려, 동적 동기화된(kinetically motivated) 통계적 접근법을 추구함으로써, 본 발명의 많은 구체예에 따른 방법은 다루기 쉬운 범위 내에서 수용체의 주요 형태를 발견하는 것을 가능하게 했다.

도 2는 μOR의 자유 에너지 랜드스케이프를 시각화한 것이다. 특히, 이 예시에서, μOR의 자유 에너지 랜드스케이프는 가장 느린 두 집단 자유도에 투영된다. tICA 좌표 1이 활성 및 비활성 (PDB:4DKL) 결정 구조를 구분하는 반면, tICA 좌표 2는 여러 비-결정학적 비활성 및 활성-유사 상태를 정의하는 직교 자유도이다. 이러한 상태에는 상태 3 (State 3)이 포함되는데, 이는 FMP4가 수용체와 결합하는 능력에 매우 중요하다.

최근의 연구들에 비추어 볼 때, 이러한 구조들은 μOR에 대한 합리적인 약물 발견 캠페인을 강화시키기 위해 직접 사용할 수있는, 잠재적으로 약물화 가능한 상태가 될 수 있다. 이러한 잠재력을 실현하기 위해, 본 발명의 일부 구체예에 따른 프로세스는 지도(supervised) 머신 러닝 모델을 훈련하여 두 가지 이진 분류자(binary classifier) 작업에서 상당한 개선을 입증한다: (1) 길항제와 작용제를 구별하는 능력, 및 (2) 수용체에서 결합자와 비-결합자를 구별하는 능력.

일부 구체예에서, 구조를 기능에 연결하기 위해 랜덤 포레스트가 배치된다. 당업자는 다른 머신 러닝 방법 (비제한적인 예시로, 서포트 벡터 머신, 결정 트리, 및 인공 신경망)이 본 발명에서 벗어나지 않고 사용될 수 있음을 이해할 것이다. 공지된 약리학을 갖는 리간드 (예를 들어, 오피오이드)의 데이터베이스는 결정 구조뿐만 아니라 각 상태의 하나 이상의 대표적인 입체형태의 세트 모두에 도킹될 수 있다. 본 발명의 다양한 구체예에 따른 상이한 입체형태들은 비-결정학적 상태 또는 수용체의 다른 입체형태를 포함할 수 있다. 본 발명의 특정 구체예에 따른 입체형태는, 실험 (비제한적인 예시로, 결정학, 핵 자기 공명 (NMR), 저온-전자 현미경 (cryoEM))을 포함한 다양한 방법을 통해서, 및/또는 계산 (비제한적인 예시로, 분자 역학 시뮬레이션, 몬테카를로 시뮬레이션, 심층 신경망 구동 입체형태 생성 등)을 통해서 확인될 수 있다.

특정 구체예에서, 각각의 MD 입체형태에 대한 각 리간드의 도킹 스코어는 관심 수용체에서의 효능작용(agonism) 및 결합 둘 다에 대한 이진 분류자 모델에 대한 입력 또는 특징 행렬로서 사용될 수 있다. 다수의 구체예에서, 특징 행렬은 각 행이 리간드이고 각 열이 특징 (각 MD 상태 및 각 결정 구조에 대한 도킹 스코어)이 되는 구조이다. 다양한 구체예에서, 특징 행렬의 항목 (i, j)은 i 번째 리간드의 j 번째 입체형태 상태에 대한 도킹 스코어이다. 도킹 스코어는 서로에 대한, 즉, 리간드 집합에 대한 순위를 결정하는데 사용될 수 있다. 도킹 스코어는 단백질 전체 또는 해당 단백질의 주어진 상태에 대한 분자의 결합 친화도를 연관시킬 수 있다. 이 행렬(matrix)는 도킹 스코어에 대한 다양한 함수에 사용되어 전체 친화도의 더 나은 예측 변수/상관관계인 단일 숫자를 생성할 수 있다. 일부 구체예에서, N 리간드에 대한 결합 친화도 또는 효능작용에 대한 사전 정보는, K 입체형태 상태 각각에 대한 N 리간드 각각의 도킹 스코어에 의해, K 도킹 스코어의 세트를 결합 친화도에 매핑하는 기능을 얻을 수 있다.

결정학 및 MD 모두로부터의 구조 정보의 이러한 이중의 비지도 및 지도 ML-기반 합성은 두 작업 모두에서 통계적으로 유의미한 강화를 가져온다. 일 예시에서, 본 발명의 일부 구체예에 따른 방법 (결정 구조에 더하여 MD 상태에 도킹을 포함함)은, 결정 구조 단독과 비교하여, 효능작용 및 결합에 있어서 AUC (Area Under the Curve) 중앙값 (median AUC)의 개선을 달성했다. 일부 구체예에서, AUC 개선 중앙값(median AUC improvement)은 효능작용에서 약 0.11이다. 일부 구체예에서, AUC 개선 중앙값은 효능작용에서 0.01 내지 0.5이다. 일부 구체예에서, AUC 개선 중앙값은 효능작용에서 0.5 내지 1.0이다. 일부 구체예에서, AUC 개선 중앙값은 효능작용에서 0.1 내지 0.3이다. 일부 구체예에서, AUC 개선 중앙값은 효능작용에서 0.3 내지 0.6이다. 일부 구체예에서, AUC 개선 중앙값은 효능작용에서 0.6 내지 0.9이다. 일부 구체예에서, AUC 개선 중앙값은 결합에서 약 0.15이다. 일부 구체예에서, AUC 개선 중앙값은 결합에서 0.01 내지 0.5이다. 일부 구체예에서, AUC 개선 중앙값은 결합에서 0.5 내지 1.0이다. 일부 구체예에서, AUC 개선 중앙값은 결합에서 0.1 내지 0.3이다. 일부 구체예에서, AUC 개선 중앙값은 결합에서 0.3 내지 0.6이다. 일부 구체예에서, 중앙값 AUC 개선은 결합에서 0.6 내지 0.9이다.

효능작용에 대한 강건성에 대한 추가 시험으로서, 스캐폴드 분할(scaffold split)을 사용하였다. 구체적으로, 메타돈 또는 펜타닐의 유사체들을 훈련 데이터에서 제거하고 홀드-아웃 테스트 세트에 배치한, 일련의 모델을 훈련하였다. 즉, 이들 모델 중 어느 것도 메타돈 (또는 펜타닐) 유사체들에 대한 사전 지식이 없었다. 그럼에도 불구하고, 이 모델들은 메타돈- 및 펜타닐- 유래 작용제들을 무작위 길항제 세트와 성공적으로 구별했다. 결합 예측 작업에 대해 유사한 스캐폴드 분할을 정의하여, AUC에서 비슷한 이득을 얻었다. 따라서, 본 발명의 많은 구체예에 따른 방법은 리간드의 화학적 구성을 명백히 포함하지 않기 때문에, 기존의 유도체 외에도 새로운 오피오이드-활성 스캐폴드를 발견하기 위해 더 잘 갖춰질 수 있다. 이러한 결과에 기초하여, 시뮬레이션에서 리간드에 의해 안정화되며 결정학만으로는 예측할 수 없는 입체형태 상태를 통합함으로써 본 발명의 다수의 구현예에 따른 오피오이드 예측을 강화한다.

리간드 모델링 및 예측을 위한 시스템 및 방법

도 3은 본 발명의 일부 구체예에 따른 모델링 및 예측을 제공하는 시스템을 나타낸다. 네트워크 (300)는 통신 네트워크 (360)를 포함한다. 통신 네트워크 (360)는 네트워크 (360)에 연결된 장치가 다른 연결된 장치와 통신 할 수 있도록 하는, 인터넷과 같은 네트워크이다. 서버 시스템 (310, 340, 및 370)은 네트워크 (360)에 연결된다. 각각의 서버 시스템 (310, 340 및 370)은, 네트워크 (360)를 통해 사용자에게 클라우드 서비스를 제공하는 프로세스를 실행하는 내부 네트워크를 통해, 서로 통신 적으로 연결된 하나 이상의 서버 컴퓨터 시스템의 그룹이다. 이 논의의 목적상, 클라우드 서비스는, 네트워크를 통해 장치에 데이터 및/또는 실행가능한 애플리케이션을 제공하기 위해 하나 이상의 서버 시스템에 의해 실행되는 하나 이상의 애플리케이션이다. 서버 시스템 (310, 340 및 370)은 내부 네트워크를 통해 연결된 3 개의 서버를 각각 갖는 것으로 도시되어 있다. 그러나, 서버 시스템 (310, 340 및 370)은 임의의 수의 서버를 포함할 수 있고, 임의의 추가적인 수의 서버 시스템이 네트워크 (360)에 연결되어, 가상화된 서버 시스템을 포함하지만 이에 제한되지 않는 클라우드 서비스를 제공 할 수 있다. 본 발명의 다양한 구체예에 따르면, 리간드 특성을 모델링하고 예측하기 위한 프로세스는, 단일 서버 시스템 및/또는 네트워크 (360)를 통해 통신하는 서버 시스템 그룹에서 실행되는 하나 이상의 소프트웨어 애플리케이션에 의해 제공된다.

사용자는 본 발명의 다양한 구체예에 따라 리간드 특성을 모델링하고 예측하기 위한 프로세스를 수행하기 위해 네트워크 (360)에 연결되는 개인용 디바이스 (380 및 320)를 사용할 수 있다. 도시된 구체예에서, 개인용 디바이스 (380)는 종래의 "유선" 연결을 통해 네트워크 (360)에 연결된 데스크탑 컴퓨터로서 도시된다. 그러나, 개인용 디바이스 (380)는 데스크탑 컴퓨터, 랩탑 컴퓨터, 스마트 텔레비전, 엔터테인먼트 게임 콘솔, 또는 "유선"또는 "무선" 네트워크 연결을 통해 네트워크 (360)에 연결되는 임의의 다른 장치일 수 있다. 모바일 디바이스 (320)는 무선 연결을 사용하여 네트워크 (360)에 연결된다. 무선 연결은 무선 주파수 (RF) 신호, 적외선 신호, 또는 기타 임의 형태의 무선 신호를 사용하여 네트워크 360에 연결하는 연결이다. 도 3에서, 모바일 디바이스 (320)는 모바일 전화기이다. 그러나, 모바일 디바이스 (320)는 모바일 폰, PDA (Personal Digital Assistant), 태블릿, 스마트폰, 가상 현실 헤드셋, 증강 현실 헤드셋, 혼합 현실 헤드셋, 또는 본 발명을 벗어나지 않고 무선 연결을 통해 네트워크 (360)에 연결되는 임의 유형의 디바이스일 수 있다. 본 발명의 일부 구체예에 따르면, 리간드 특성을 모델링하고 예측하기 위한 프로세스는 사용자 디바이스에 의해 수행된다.

쉽게 이해할 수있는 바와 같이, 리간드 특성을 모델링하고 예측하는데 사용되는 특정 컴퓨팅 시스템은, 주어진 애플리케이션의 요구 사항에 크게 의존하며, 임의의 특정 컴퓨팅 시스템 구현에 제한되는 것으로 간주되어서는 안된다.

도 4는 본 발명의 여러 구체예에 따른 리간드 발견 요소(ligand discovery elements)를 도시한다. 본 발명의 많은 구체예에 따른 리간드 발견 요소는 모바일 디바이스, 컴퓨터, 서버 및 클라우드 서비스 중 하나 이상을 포함 할 수 있지만 이에 제한되지는 않는다. 리간드 발견 요소 (400)는 프로세서 (410), 통신 인터페이스 (420) 및 메모리 (430)를 포함한다.

당업자는 특정 리간드 발견 요소가 본 발명을 벗어나지 않으면서 간결성을 위해 생략 된 다른 구성 요소를 포함할 수 있음을 이해할 것이다. 프로세서 (410)는 메모리에 저장된 데이터를 처리하기 위해 메모리 (430)에 저장된 명령을 수행하는, 프로세서, 마이크로프로세서, 컨트롤러, 또는 프로세서, 마이크로프로세서 및/또는 컨트롤러의 조합을 포함할 수 있으나, 이에 제한되지 않는다. 프로세서 명령은 본 발명의 특정 구체예에 따른 프로세스를 수행하도록 프로세서 (410)를 구성할 수 있다. 통신 인터페이스 (420)는 트레이닝 요소 (400)가 프로세서 (410)에 의해 수행된 명령에 기초하여 네트워크를 통해 데이터를 송수신 할 수 있게 한다.

메모리 (430)는 리간드 발견 애플리케이션 (432), 수용체 데이터 (434), 리간드 데이터 (436) 및 모델 데이터 (438)를 포함한다. 본 발명의 여러 구체예에 따른 리간드 발견 애플리케이션은, 리간드를 분석하고, 수용체와의 상호작용을 테스트할 수 있는 후보 리간드를 확인하기 위해 사용된다. 여러 구체예에서, 리간드 발견 애플리케이션은, 분자 도킹 시뮬레이션 및/또는 공지된 약리학을 갖는 오피오이드 데이터베이스를 포함하는 (그러나 이에 제한되지 않는) 다양한 소스로부터 생성된 데이터를 포함하는, 수용체 데이터 및/또는 리간드 데이터를 사용할 수 있다. 본 발명의 다양한 구체예에 따른 모델 데이터 (438)는, 개별 입체형태 상태를 확인하기위한 클러스터링, 작용제/길항제로서 리간드 분류, 및 결합/비-결합으로서 리간드 분류와 같은 (그러나 이에 제한되지 않는) 다양한 목적에 사용될 수 있는, 비지도 및 지도 모델에 대한 데이터를 포함할 수 있다.

리간드 발견 요소 (400)의 특정 예가 도 4에 나타나 있지만, 본 발명의 구체예에 따른 특정 애플리케이션의 요구 사항에 본원에 설명된 것과 유사한 프로세스를 수행하기 위해 임의의 다양한 트레이닝 요소들이 적절하게 이용될 수 있다.

도 5는 본 발명의 일 구체예에 따라 후보 리간드를 확인하기 위한 리간드 발견 애플리케이션을 나타낸다. 리간드 발견 애플리케이션 (500)은 시뮬레이션 엔진 (505), 클러스터링 엔진 (510), 스코어링 엔진 (515) 및 분류 엔진 (520)을 포함한다. 본 발명의 많은 구체예에 따른 리간드 발견 애플리케이션은 리간드 및 수용체 데이터를 분석하여 수용체와 관련된 다양한 용도를위한 후보 리간드를 동정할 수 있다.

다양한 구체예에서, 시뮬레이션 엔진을 사용하여 다양한 수용체 입체형태를 시뮬레이션할 수 있다. 많은 구체예에서, 시뮬레이션 엔진은 리간드와 수용체 사이의 도킹 스코어를 계산할 수 있다.

본 발명의 수많은 구체예에 따른 클러스터링 엔진은 시뮬레이션된 데이터에 기초하여 별개의 수용체 입체형태 상태들을 확인할 수 있다. 여러 구체예에서, 클러스터링 엔진은 미니배치 k-평균 클러스터링 및 응집형 계층적 클러스터링과 같은 (그러나 이에 제한되지 않는) 클러스터링 프로세스를 사용한다.

본 발명의 다양한 구체예에 따른 스코어링 엔진은 수용체를 갖는 리간드에 대한 도킹 스코어를 계산할 수 있다. 다수의 구체예에서, 스코어링 엔진은 시뮬레이션 엔진으로부터 리간드 및 수용체의 시뮬레이션을 평가할 수 있다. 시뮬레이션은 클러스터링 엔진에 의해 확인된 수용체의 여러 개별 입체형태를 갖는 리간드의 시뮬레이션을 포함할 수 있다. 다수의 구체예에서, 스코어링 엔진은 리간드 집합 및 수용체의 입체형태 상태 집합에 대한 도킹 스코어의 특징 행렬을 생성할 수 있다.

다양한 구체예에서, 분류 엔진은 리간드와 수용체 사이의 상호작용을 분류하거나 예측하는데 사용될 수 있다. 일부 구체예에서, 분류 엔진은 지도 학습 알고리즘 또는 비지도 학습 알고리즘, 예를 들어 (이에 제한되지는 않지만) 서포트 벡터 머신, 선형 회귀, 로지스틱 회귀, 나이브 베이즈 (naive bayes), 선형 판별 분석, 결정 트리, k-최근접 이웃 알고리즘, 신경망, 및/또는 유사성 학습일 수 있다. 일부 구체예에서, 지도 학습은 반-지도 학습, 능동 학습, 구조 예측, 및/또는 랭킹 학습일 수 있다. 본 발명의 일부 구체예에 따른 분류 엔진은, 완전 연결된 신경망 (FCNN) 및/또는 랜덤 포레스트와 같은 (그러나 이에 제한되지는 않는) 분류자를 구현할 수 있다. 다양한 구체예에서, 분류 엔진은 스코어링 엔진에 의해 생성된 특징 행렬을 입력으로 취하고, 리간드가 수용체와 특정 상관관계 (예를 들어, 결합/비-결합, 작용제/길항제 등)를 가질 가능성을 출력한다. 일부 구체예에서, 도킹 스코어는 다음 방정식에 의해, 생성된 두개의 최종 스코어의 곱으로 계산된다:

리간드 발견 애플리케이션의 특정 예가 도 5에 나타나 있지만, 본 발명의 구체예에 따른 특정 애플리케이션의 요구 사항에 본원에 설명된 것과 유사한 프로세스를 수행하기 위해 임의의 다양한 리간드 발견 애플리케이션들이 적절하게 이용될 수 있다.

도 6은 본 발명의 일 구체예에 따른 리간드 발견을 위한 프로세스의 흐름도를 도시한다. 프로세스 (600)는 수용체의 복수의 입체형태를 확인한다(605). 많은 구체예에서, 상이한 입체형태 (또는 상태)는 수용체의 장기적 시간 척도 분자 도킹 (MD) 시뮬레이션을 기반으로 한다. 본 발명의 여러 구체예에 따른 시뮬레이션은, 수용체만으로 수행되거나 또는 알려진 리간드와 수용체의 상호작용에 기초하여 수행될 수 있다. 여러 구체예에서, MD 시뮬레이션에 의해 생성된 상태 데이터에서 클러스터를 확인하는 클러스터링 프로세스에 기초하여 상이한 입체형태들이 확인된다. 본 발명의 다양한 구체예에 따른 클러스터링은 미니배치 K-평균 클러스터링 및 응집형 계층적 클러스터링을 포함하는 (그러나 이에 제한되지 않는) 다양한 방식으로 수행될 수 있다. 본 발명의 다수의 구체예에 따른 상이한 개별 입체형태들은, 결정 상태, 결정 상태 사이의 중간, 및 결정 구조와 구별되는 비-정규 상태를 포함하는 (그러나 이에 제한되지 않는) 수용체의 다양한 상태를 나타낼 수 있다.

프로세스 (600)는 하나 이상의 리간드의 세트 및 확인된 입체형태들의 각 입체형태에 대한 도킹 스코어를 계산한다 (610). 다수의 구체예에서, 도킹 스코어는 리간드 세트와 수용체의 각 입체형태 사이의 상호작용을 시뮬레이션할 수있는 분자 도킹 시뮬레이션을 사용하여 계산될 수 있다. 본 발명의 수많은 실시예에 따라 계산된 도킹 스코어는 각 리간드-입체형태 조합에 대한 도킹 스코어와 함께 특징 행렬로 제공될 수 있다.

프로세스 (600)는 리간드 세트와 수용체 사이의 상호작용을 예측한다 (615). 많은 구체예에서, 예측된 상호작용은 리간드 세트가 수용체와 결합하는지 여부를 포함할 수 있다. 대안적으로 또는 결합적으로, 예측된 상호작용은 리간드 세트가 수용체에 작용제인지 여부를 포함할 수 있다. 본 발명의 많은 구체예에 따른 상호작용 예측은, 리간드를 특정 수용체에 결합자 또는 작용제로서 분류하도록 훈련된 랜덤 포레스트를 사용하여 수행될 수 있다. 특정 구체예에서, 리간드와 수용체 사이의 상호작용을 예측하는 것은 수용체의 각 입체형태와 리간드 사이의 상호작용을 예측한 다음, 리간드와 수용체 사이의 상호작용을 전체로서 총체적인 예측(aggregate prediction)을 계산하는 것을 포함한다. 다양한 구체예에서, 예측된 상호작용은 하나 이상의 리간드의 세트를 확인하고 확인된 리간드와 수용체의 상호작용을 물리적으로 테스트하는 데 사용된다.

한 측면에서, 본 개시 내용은 리간드와 수용체 간의 관계를 예측하는 방법으로서, 수용체의 복수의 입체형태를 확인하는 단계; 복수의 입체형태 각각 및 하나 이상의 리간드의 세트에 대한 도킹 스코어를 계산하는 단계; 및 하나 이상의 리간드의 세트와 수용체의 복수의 입체형태 간의 관계를 예측하는 단계를 포함하는 방법을 제공한다.

일부 구체예에서, 복수의 입체형태는 단일 수용체의 입체형태를 포함한다. 일부 구체예에서, 입체형태는 실험 (결정학, NMR, CryoEM 등) 또는 계산 (분자 역학 시뮬레이션, 몬테카를로 시뮬레이션, 심층 신경망 구동 입체형태 생성) 또는 이들의 조합에서 비롯될 수 있다.

일부 구체예에서, 복수의 입체형태는 적어도 하나의 비-결정학적 상태를 포함한다.

다양한 구체예에서, 복수의 입체형태를 확인하는 단계는 리간드와 수용체의 상호작용을 시뮬레이션하여 시뮬레이션 데이터를 생성하는 것을 포함한다.

여러 구체예에서, 복수의 입체형태를 확인하는 단계는 복수의 입체형태를 확인하기 위해 시뮬레이션 데이터에 대해 클러스터링 동작을 수행하는 것을 더욱 포함한다.

여러 구체예에서, 복수의 입체형태를 확인하는 단계는 시뮬레이션 데이터에 대해 차원 축소 연산을 수행하는 것을 더욱 포함한다. 본 발명의 수많은 구체예에 따른 차원 축소 연산은 tICA, sparse tICA, ICA, PCA, t-SNE, 및 기타 또는 이들의 조합을 포함할 수 있으나, 이에 제한되지 않는다.

다양한 구체예에서, 복수의 입체형태를 확인하는 단계는 복수의 입체형태 각각의 입체형태에 대한 반응 좌표 세트를 확인하는 것을 포함한다.

수많은 구체예에서, 도킹 스코어를 계산하는 단계는 리간드 세트 및 복수의 입체형태 각각의 도킹을 시뮬레이션하는 것을 포함한다.

몇몇 구체예에서, 도킹 스코어를 계산하는 단계는 도킹 스코어의 특징 행렬을 구축하는 것을 포함하고, 관계를 예측하는 단계는 상기 특징 행렬을 머신 러닝 모델에 입력하는 것을 포함한다. 일부 구체예에서, 머신 러닝 모델은 랜덤 포레스트이다.

다수의 구체예에서, 공지된 약리학을 갖는 리간드의 데이터베이스로부터의 리간드로 머신 러닝 모델을 추가로 훈련시킨다. 일부 구체예에서, 분자는 오피오이드일 수 있다.

다음으로, 관계를 예측하는 단계는 리간드가 수용체와 작용제인지 여부를 결정하는 것을 포함한다.

다음으로, 예측된 관계에 기초하여 하나 이상의 후보 리간드의 세트를 확인하는 단계; 및 수용체에 대한 후보 리간드 세트의 반응을 물리적으로 테스트하는 단계.

다음으로, 관계를 예측하는 단계는 다음을 포함한다: 리간드 세트 및 복수의 입체형태의 각각의 입체형태에 대한 관계를 예측하는 단계; 및 복수의 입체형태에 대한 예측된 관계에 기초하여 리간드 세트 및 수용체의 총체적인 관계를 예측하는 단계.

일부 구체예에서, 랜덤 포레스트 모델은 8.0 (10nM)의 pIC50 컷오프를 갖는다. 다양한 구체예에서, 관계를 예측하는 단계는 IC50, EC50 및/또는 Ki와 같은 (그러나 이에 제한되지는 않는) 친화도 또는 효능작용의 정량적 메트릭을 예측하는 것을 포함한다. 대안적으로 또는 결합적으로, 본 발명의 많은 구체예에 따른 관계를 예측하는 단계는, 결합자 대 비-결합자와 같은 (그러나 이에 제한되지 않는) 관계를 분류하는 것을 포함할 수 있다. 여러 구체예에서, 관계를 분류하는 것은 일부 컷오프 또는 임계값, 예를 들어 8.0 (10 nM)의 pIC50에 기초할 수 있다.

다음으로, 제1 랜덤 포레스트 모델 및 제2 랜덤 포레스트 모델을 더 포함하며 두 모델은 모두 훈련된다.

다음으로, 제1 랜덤 포레스트 모델은 결합을 위한 것이고 제2 랜덤 포레스트 모델은 효능작용을 위한 것이다.

다음으로, 제1 랜덤 포레스트 모델 및 제2 랜덤 포레스트 모델은 상기 제1 랜덤 포레스트 모델 및 제2 랜덤 포레스트 모델 모두로부터 각각 최종 스코어를 생성하기 위해 라이브러리 리간드에 적용된다.

또 다른 측면에서, 본 개시 내용은 리간드와 수용체 간의 관계를 예측하기 위한 시스템을 제공하며, 시스템은 다음을 포함한다: 개별적으로 또는 집합적으로 구성된 하나 이상의 프로세서로서, 수용체의 복수 입체형태를 확인하고; 복수의 입체형태 각각 및 하나 이상의 리간드의 세트에 대한 도킹 스코어를 계산하고; 및 하나 이상의 리간드의 세트와 수용체의 복수의 입체형태 간의 관계를 예측하도록, 개별적으로 또는 집합적으로 구성된 하나 이상의 프로세서.

또 다른 측면에서, 본 개시 내용은 약물 발견을 위한 방법 및 시스템을 제공한다. 상기 방법은 머신 러닝을 사용하여 예측된 분자 특성으로부터 후보 리간드를 확인하는 것을 포함할 수 있다. 일부 구체예에서, 후보 리간드를 확인하는 것은, 수용체의 복수의 입체형태를 선택하는 단계; 복수의 입체형태 각각 및 하나 이상의 리간드의 세트에 대한 도킹 스코어를 계산하는 단계; 하나 이상의 리간드의 세트와 수용체의 복수의 입체형태 사이의 관계를 계산하는 단계; 및 하나 이상의 리간드의 세트와 수용체의 복수의 입체형태 사이의 관계로부터 후보 리간드를 예측하는 단계를 포함한다. 일부 구체예에서, 후보 리간드를 확인하기 위한 시스템은 다음을 포함한다: 개별적으로 또는 집합적으로 구성된 하나 이상의 프로세서로서, 수용체의 복수 입체형태를 선택하고; 복수의 입체형태 각각 및 하나 이상의 리간드의 세트에 대한 도킹 스코어를 계산하고; 및 하나 이상의 리간드의 세트와 수용체의 복수의 입체형태 간의 관계를 예측하도록, 개별적으로 또는 집합적으로 구성된 하나 이상의 프로세서.

본 발명의 구체예에 따른 리간드 발견을 위한 특정 프로세스는 위에 설명되어있다; 그러나, 당업자는 본 발명의 구체예에 따른 특정 애플리케이션의 요구 사항에 임의의 수의 프로세스가 적절하게 이용될 수 있음을 이해할 것이다.

본 발명이 특정 측면에서 설명되었지만, 많은 추가적인 수정 및 변형이 당업자에게 명백할 것이다. 따라서, 본 발명의 범위 및 사상을 벗어나지 않으면서, 구체적으로 설명된 것과 다른 방식으로 본 발명이 실시될 수 있음을 이해해야 한다. 따라서, 본 발명의 구체예는 모든 측면에서 제한적이 아니라 예시적인 것으로 간주되어야 한다.

실시예

다음의 실시예는 예시를 위해 제공되지만 청구항의 발명들을 제한하지 않는다.

실시예 1

명칭	작용	명칭	작용
7-pet	작용제	브로마돌린	작용제
아세틸펜타닐	작용제	부티르펜타닐	작용제
아세틸메타돌	작용제	c-8813	작용제
아크릴펜타닐	작용제	카펜타닐	작용제
ah-7921	작용제	세브라노파돌	작용제
알펜타닐	작용제	클로로몰피드	작용제
알리마돌	작용제	클로록시몰파민	작용제
3-알릴펜타닐	작용제	시프레파돌	작용제
알릴노르페티딘	작용제	클로니타젠	작용제
알릴프로딘	작용제	dadle	작용제
알파세틸메타돌	작용제	담고(damgo)	작용제
알파메타돌	작용제	데르모르핀	작용제
알파메틸티오펜타닐	작용제	데스메틸프로딘	작용제
아닐레리딘	작용제	데소모르핀	작용제
아자프로신	작용제	덱스트로모라미드	작용제
아지도모르핀	작용제	덱스트로프로폭시펜	작용제
bdpc	작용제	디암프로마이드	작용제
벤제티딘	작용제	디페녹신	작용제
베타세틸메타돌	작용제	디하이드로에토르핀	작용제
베타하이드록시펜타닐	작용제	디하이드로모르핀	작용제
베타하이드록시티오펜타닐	작용제	디메녹사돌	작용제
베타메타돌	작용제	디메페프타놀	작용제
베지트라미드	작용제	디메틸아미노피발로페논	작용제
브리펜타닐	작용제	디옥사페틸_부티레이트	작용제
디페녹시레이트	작용제	레페타민	작용제
디피파논	작용제	레바세틸메타돌	작용제
dpi-3290	작용제	레발로판	작용제
엘룩사돌린	작용제	레보메타돈	작용제
엔도모르핀	작용제	레보페나실모르판	작용제
엔도모르핀-1	작용제	레보르파놀	작용제
엔도모르핀-2	작용제	로펜타닐	작용제
에토헵타진	작용제	로페라미드	작용제
14-에톡시메토폰	작용제	메프로딘	작용제
에토니타젠	작용제	메테토헵타진	작용제
에토르핀	작용제	메타돈	작용제
에톡세리딘	작용제	메트헵타진	작용제
펜타닐	작용제	4-메톡시부티르펜타닐	작용제
4-플루오로부티르펜타닐	작용제	14-메톡시디하이드로모르피논	작용제
4-플루오로페티딘	작용제	14-메톡시메토폰	작용제
푸라닐펜타닐	작용제	알파-메틸아세틸펜타닐	작용제
푸레티딘	작용제	3-메틸부티르펜타닐	작용제
헤모르핀-4	작용제	n-메틸카펜타닐	작용제
헤테로코데인	작용제	메틸데소르핀	작용제
하이드로모르피놀	작용제	메틸디하이드로모르핀	작용제
하이드로모르폰	작용제	6-메틸렌디하이드로데스옥시모르핀	작용제
하이드록시페티딘	작용제	3-메틸펜타닐	작용제
ibntxa	작용제	베타-메틸펜타닐	작용제
ic-26	작용제	메틸케토베미돈	작용제
이소메사돈	작용제	3-메틸티오펜타닐	작용제
케타민	작용제	메토폰	작용제
케토베미돈	작용제	미트라기닌_슈도인독실	작용제
6-모노아세틸모르핀	작용제	페노페리딘	작용제
모르페리딘	작용제	4-페닐펜타닐	작용제
모르핀	작용제	14-페닐프로폭시메토폰	작용제
모르핀-6-글루쿠로니드	작용제	피세나돌	작용제
모르피논	작용제	피미노딘	작용제
mr-2096	작용제	피리트라미드	작용제
mt-45	작용제	프로딜리딘	작용제
노라시메타돌	작용제	프로딘	작용제
옥펜타닐	작용제	프로헵타진	작용제
오메펜타닐	작용제	프로페리딘	작용제
올리세리딘	작용제	프로필케토베미돈	작용제
옥스페네리딘	작용제	프로시돌	작용제
옥시모르파존	작용제	pzm21	작용제
옥시모르폴	작용제	r-4066	작용제
옥시모르폰	작용제	r-30490	작용제
파라플루오로펜타닐	작용제	라세모르판	작용제
펜타모르폰	작용제	레미펜타닐	작용제
pepap	작용제	ro4-1539	작용제
페티딘	작용제	sc-17599	작용제
페나독손	작용제	세모르폰	작용제
페남프로마이드	작용제	수펜타닐	작용제
페나리딘	작용제	티엔노르핀	작용제
페나조신	작용제	티오펜타닐	작용제
페네리딘	작용제	틸리딘	작용제
n-페네틸노르데소모르핀	작용제	트레펜타닐	작용제
n-페네틸노르모르핀	작용제	트리메페리딘	작용제
페노몰판	작용제	trimu_5	작용제
u-47700	작용제	베베노프란	길항제
u-77891	작용제	클로신나목스	길항제
비미놀	작용제	사이클로폭시	길항제
6베타-날트렉솔-d4	길항제	사이프로딤	길항제
베타-클로르날트렉사민	길항제	엡타조신	길항제
베타-푸날트렉사민	길항제	ly-255582	길항제
알비모판	길항제	메토신나목스	길항제
at-076	길항제	메틸날트렉손	길항제
아젤로프란	길항제	메틸사미도르판	길항제

실시예 2

스캐폴드 분할은 (1) 펜타닐과 비교하여 타니모토(Tanimoto) 점수가 0.5 이하인 작용제 리간드를 훈련 세트(train set)에 배치하고, (2) 펜타닐과 비교하여 타니모토 점수가 0.7 이상인 작용제 리간드를 테스트 세트(test set)에 배치하고, (3) 길항제를 훈련 세트와 테스트 세트 사이에 무작위로 배치하는 것으로 정의되었다.

a)

펜타닐 유사체 리간드 (테스트 세트):

['아세틸펜타닐', '아크릴펜타닐', '3-알릴펜타닐', '알파메틸티오펜타닐', '아자프로신', '베타하이드록시펜타닐', '베타하이드록시티오펜타닐', '부티르펜타닐', '카펜타닐', '데스메틸프로딘', '디암프로마이드', '펜타닐', '4-플루오로부티르펜타닐', '푸라닐펜타닐', '로펜타닐', '4-메톡시부티르펜타닐', '알파-메틸아세틸펜타닐', '3-메틸부티르펜타닐', 'n-메틸카펜타닐', '3-메틸펜타닐', '베타-메틸펜타닐', '3-메틸티오펜타닐', '옥펜타닐', '오메펜타닐', '파라플루오로펜타닐', 'pepap', '페남프로마이드', '페나리딘', '4-페닐펜타닐', '프로딜리딘', '프로딘', '프로헵타진', '프로시돌', 'r-30490', '레미펜타닐', '수펜타닐', '티오펜타닐', '트리메페리딘', 'u-47700']

비-펜타닐-유사체 작용제 (훈련 세트):

['7-pet', '알리마돌', '알파메타돌', '아지도모르핀', 'bdpc', '베타메타돌', 'c-8813', '세브라노파돌', '클로로몰피드', '클로록시몰파민', '시프레파돌', '클로니타젠', 'dadle', '담고(damgo)', '데소모르핀', '디하이드로에토르핀', '디하이드로모르핀', '디메녹사돌', '디메페프타놀', '디메틸아미노피발로페논', '엘룩사돌린', '엔도모르핀', '엔도모르핀-1', '14-에톡시메토폰', '에토니타젠', '에토르핀', '헤모르핀-4', '헤테로코데인', '하이드로모르피놀', '하이드로모르폰', 'ibntxa', '케타민', '레페타민', '레보페나실모르판', '레보르파놀', '14-메톡시디하이드로모르피논', '14-메톡시메토폰', '메틸데소르핀', '메틸디하이드로모르핀', '6-메틸렌디하이드로데스옥시모르핀', '메토폰', '미트라기닌_슈도인독실', '6-모노아세틸모르핀', '모르핀', '모르핀-6-글루쿠로니드', '모르피논', 'mr-2096', '올리세리딘', '옥시모르파존', '옥시모르폴', '옥시모르폰', '펜타모르폰', '페나조신', 'n-페네틸노르데소모르핀', 'n-페네틸노르모르핀', '페노몰판', '14-페닐프로폭시메토폰', '피세나돌', 'pzm21', '라세모르판', 'ro4-1539', 'sc-17599', '세모르폰', '티엔노르핀', '틸리딘', 'trimu_5', '비미놀']

길항제:

['레발로판', '6베타-날트렉솔-d4', '베타-클로르날트렉사민', '베타-푸날트렉사민', '알비모판', 'at-076', '아젤로프란', '베베노프란', '클로신나목스', '사이클로폭시', '사이프로딤', '엡타조신', 'ly-255582', '메토신나목스', '메틸날트렉손', '메틸사미도르판', '날메펜', '날록사존', '날록세골', '날록솔', '날록소나진', '날록손', '날트렉사존', '날트렉손', '옥실올판', '쿠아다조신', '사미도르판']

스캐폴드 분할은 (1) 메타돈과 비교하여 타니모토 점수가 0.5 이하인 작용제 리간드를 훈련 세트(train set)에 배치하고, (2) 메타돈과 비교하여 타니모토 점수가 0.7 이상인 작용제 리간드를 테스트 세트(test set)에 배치하고, (3) 길항제를 훈련 세트와 테스트 세트 사이에 무작위로 배치하는 것으로 정의되었다.

b)

메타돈 유사체 리간드 (테스트 세트).

['아세틸메타돌', '알파세틸메타돌', '알파메타돌', '베타세틸메타돌', '베타메타돌', '디피파논', 'ic-26', '이소메사돈', '케토베미돈', '레바세틸메타돌', '레보메타돈', '메타돈', '메틸케토베미돈', '노라시메타돌', '페나독손', '프로필케토베미돈', 'r4066']

비-메타돈 유사체 (훈련 세트).

['7-pet', '알리마돌', '아지도모르핀', 'bdpc', 'c-8813', '세브라노파돌', '클로로몰피드', '클로록시몰파민', '시프레파돌', '클로니타젠', 'dadle', '담고(damgo)', '데소모르핀', '디하이드로에토르핀', '디하이드로모르핀', '디메녹사돌', '디메페프타놀', '디메틸아미노피발로페논', '엘룩사돌린', '엔도모르핀', '엔도모르핀-1', '14-에톡시메토폰', '에토니타젠', '에토르핀', '헤모르핀-4', '헤테로코데인', '하이드로모르피놀', '하이드로모르폰', 'ibntxa', '케타민', '레페타민', '레보페나실모르판', '레보르파놀', '14-메톡시디하이드로모르피논', '14-메톡시메토폰', '메틸데소르핀', '메틸디하이드로모르핀', '6-메틸렌디하이드로데스옥시모르핀', '메토폰', '미트라기닌_슈도인독실', '6-모노아세틸모르핀', '모르핀', '모르핀-6-글루쿠로니드', '모르피논', 'mr-2096', '올리세리딘', '옥시모르파존', '옥시모르폴', '옥시모르폰', '펜타모르폰', '페나조신', 'n-페네틸노르데소모르핀', 'n-페네틸노르모르핀', '페노몰판', '14-페닐프로폭시메토폰', '피세나돌', 'pzm21', '라세모르판', 'ro4-1539', 'sc-17599', '세모르폰', '티엔노르핀', '틸리딘', 'trimu_5', '비미놀']

길항제:

실시예 3

a) 오피오이드 작용제와 길항제를 구별하고 b) μOR에서 결합자와 비-결합자를 구별하기 위한, 각 특징 (MD 상태, 결정 구조)의 랜덤 포레스트 평균 지니 불순물 감소 ("중요도").

a)

비활성 결정	0.063488	활성 결정	0.01358

State 14	0.033463	State 12	0.013346
State 3	0.031175	State 6	0.012534
State 17	0.02995	State 2	0.012306
State 10	0.029853	State 1	0.012289
State 23	0.025154	State 20	0.01123
State 5	0.024361
State 16	0.023912
State 21	0.023884
State 4	0.021384
State 22	0.020618
State 0	0.019934
State 13	0.01972
State 18	0.017975
State 7	0.017955
State 24	0.017434
State 11	0.017295
State 9	0.01617
State 8	0.015486
State 15	0.015193
State 19	0.013673

b)

비활성 결정	0.057546	활성 결정	0.01358

State 18	0.033463	State 20	0.039999
State 2	0.031175	State 3	0.037063
State 14	0.02995	State 24	0.035946
State 1	0.029853	State 19	0.035883
		State 17	0.035723
		State 5	0.035547
		State 22	0.034922
		State 16	0.034121
		State 0	0.034035
		State 21	0.033999
		State 4	0.033884
		State 6	0.033837
		State 13	0.033381
		State 10	0.032723
		State 11	0.032537
		State 23	0.032248
		State 12	0.032069
		State 9	0.031896
		State 15	0.031409
		State 8	0.030558
		State 7	0.030245

실시예 4

MD 상태와 결정 구조 둘 다에 도킹하면, 결정 단독에 비해 μOR 결합자와 비-결합자를 구별하는 능력이 통계적으로 크게 향상된다. 아래 표는 다양한 분할 및 모델 유형에 대해 1,000 개 이상의 학습-유효 분할의 검증 세트에 대한 중앙(median) ROC AUC (Area Under the Curve) 성능을 보여준다. 99% Wilson 스코어링 신뢰 구간 (CI)의 하한이 0.5보다 큰 경우, 결정 단독 및 결정 + MD 구조 방법 간의 차이는 통계적으로 유의한 것으로 간주하였다. 각 데이터셋에 대해 결정구조에 더하여 MD-유래 구조를 통합하면, AUC로 측정한 결합자와 비-결합자를 구별하는 능력이 통계적으로 유의미하게 향상된다. 특히, 펜타닐 (또는 메타돈) 유사체들을 훈련 세트에서 제거할 때, 모델은 펜타닐 (또는 메타돈) 유도체 작용제들를 무작위 길항제 세트와 구별할 수 있었다. 이것은 이러한 방식으로 적합한 모델이 기존의 유도체 외에도 새로운 오피오이드 작용제 스캐폴드를 발견할 수 있는 능력이 있음을 나타낸다.

데이터셋	교차 검증 분할유형	AUC (결정 단독)	AUC (결정 + MD 구조)	Wilson 99% 신뢰구간
작용제/길항제	랜덤	0.72	0.86	(0.82, 0.88)
작용제/길항제	메타돈	0.84	0.99	(0.82, 0.88)
작용제/길항제	펜타닐	0.77	0.93	(0.98, 1.0)
전문가가 선정한(expert curated) 데이터셋	랜덤	0.73	0.85	(0.67, 0.75)
전문가가 선정한(expert curated) 데이터셋	메타돈	0.89	0.94	(0.51, 0.59)
전문가가 선정한(expert curated) 데이터셋	펜타닐	0.81	0.91	(0.88, 0.93)

실시예 5

MD 상태와 결정 구조 둘 다에 도킹하면, 결정 단독에 비해 μOR 결합자와 비-결합자를 구별하는 능력이 통계적으로 크게 향상된다. 아래 표는 다양한 분할 및 모델 유형에 대해 1,000 개 이상의 학습-유효 분할의 검증 세트에 대한 중앙(median) ROC AUC (Area Under the Curve) 성능을 보여준다. 99% Wilson 스코어링 신뢰 구간 (CI)의 하한이 0.5보다 큰 경우, 결정 단독 및 결정 + MD 구조 방법 간의 차이는 통계적으로 유의한 것으로 간주하였다. 각 데이터셋에 대해 결정구조에 더하여 MD-유래 구조를 통합하면, AUC로 측정 한 결합자와 비-결합자를 구별하는 능력이 통계적으로 유의미하게 향상된다. 특히, 유사한 스캐폴드를 가진 분자 (타니모토 유사성 점수 > 0.7로 측정됨)를 훈련 데이터에서 제거할 때, 모델은 결합자와 비-결합자를 구별할 수 있다. 이것은 이러한 방식으로 적합한 모델이 기존의 유도체 외에도 새로운 오피오이드 작용제 스캐폴드를 발견할 수 있는 능력이 있음을 나타낸다.

데이터셋는 μOR에 대한 결합 친화도 값이 실험적으로 알려진 화합물로 구성된다. "측정된 Ki (Measured Ki)"라고 칭해진 데이터셋에는 실수(real-numbered) Ki 값을 가진 화합물만 포함되며; "모든(All)"이라고 칭해진 데이터셋에는 Ki가 나열되지 않았지만 "활성없음(Not Active)"라고 칭해진 화합물도 포함된다. 따라서 "측정된 Ki" 데이터셋은 "모든" 일련의 시리즈 데이터셋의 하위 집합이다. pIC50이 일부 컷오프 ("데이터셋" 표에 나열됨)보다 큰 화합물들을 결합자로 간주하고, 동일한 컷오프보다 pIC50이 낮은 화합물들을 비-결합자로 간주하였다. 예를 들어, "All, pIC50 cutoff = 7.0"은, (a) 측정가능한 pIC50이 < 7.0 인 리간드와 "활성없음(Not Active)"에 리스트된 리간드들은 모두 비-결합자로 간주하고, (b) 측정가능한 pIC50이 ~ 7.0 인 리간드와 기타 공지된 작용제 및 길항제들은 결합자로 간주하였다.

데이터셋	분할 (Split)	AUC (결정 단독)	AUC (결정 + MD 구조)	Wilson 99% 신뢰구간
Measured pIC50, cutoff = 6.0	랜덤	0.59	0.64	(0.76, 0.82)
Measured pIC50, cutoff = 7.0	랜덤	0.59	0.71	(0.99, 1.0)
Measured pIC50, cutoff = 8.0	랜덤	0.58	0.74	(0.99, 1.0)
All, pIC50, cutoff = 5.3	랜덤	0.78	0.87	(0.99, 1.0)
All, pIC50, cutoff = 6.0	랜덤	0.73	0.82	(0.99, 1.0)
All, pIC50, cutoff = 7.0	랜덤	0.67	0.78	(0.99, 1.0)
All, pIC50, cutoff = 8.0	랜덤	0.65	0.79	(0.99, 1.0)
All, pIC50, cutoff = 5.3	스캐폴드	0.77	0.81	(0.73, 0.80)
All, pIC50, cutoff = 6.0	스캐폴드	0.78	0.83	(0.73, 0.80)
All, pIC50, cutoff = 7.0	스캐폴드	0.66	0.79	(0.86, 0.91)
All, pIC50, cutoff = 8.0	스캐폴드	0.64	0.78	(0.85, 0.9)

실시예 6

여러 가지 신규한 오피오이드 활성 리간드, FMP4의 확인

본원의 방법으로 새로운 리간드인 FMP4를 확인했다. 특히, FMP4는 염기성 3차 아민 또는 페놀을 가지지 않는다는 점에서, 합성 오피오이드의 특징을 결여한다.

133,564 개의 소분자 그룹을 결정 구조와 μOR의 계산적으로 모델링된 입체이성체(conformer) 모두에 도킹하여 133,564 행 x 27 열 특징 행렬을 생성하였고, 여기서 항목 (i, j)은 i 번째 리간드의 j 번째 입체형태 상태에 대한 도킹 스코어이다. 결합 및 효능작용에 대해 훈련된 두 개의 랜던 포레스트 모델을 각 라이브러리 리간드에 적용하여, 두 값의 곱에서 계산된 최종 스코어를 산출했다:

모델 성능 및 히트(hits) 스캐폴드는 이진 분류자에 대해 선택한 pIC50 컷오프에 매우 민감하다. 결합에 대한 더 낮은 친화도 임계값을 가진 모델은 일반적으로 더 높은 AUC를 갖지만, 최상위 히트(hits)는 공지된 스캐폴드와 유사한 3차 염기성 질소를 갖는 화합물에 편향되는 것으로 나타난다. pIC50 컷오프가 8.0 (10nM) 인 랜덤 포레스트 모델을 사용하여 새로운 스캐폴드 발견을 최적화한다. 일부 구체예에서, pIC50은 적어도 3.0, 4.0, 5.0, 6.0, 7.0, 8.0, 9.0, 10.0, 11.0 또는 그 이상일 수 있다. 일부 구체예에서, pIC50은 3.0 내지 11.0, 3.0 내지 10.0, 3.0 내지 9.0, 3.0 내지 8.0, 3.0 내지 7.0, 3.0 내지 6.0, 3.0 내지 5.0, 5.0 내지 11.0, 5.0 내지 10.0, 5.0 내지 9.0, 5.0 내지 8.0, 5.0 내지 7.0, 8.0 내지 11.0, 또는 8.0 내지 10.0일 수 있다.

30 개의 이용가능한 최고 점수 화합물을 실험적으로 분석하였다. 30 개 중 3 개 이상이 μOR에 대한 마이크로몰의 친화도를 나타냈다. 그중 하나의 화합물인 FMP4는 염기성 아민이나 페놀이 없는 독특한 구조를 가지고 있다. 오피오이드 형질감염된 세포주에서의 추가 결합 분석에서, FMP4는 각각 MOR-1, KOR-1 및 DOR-1에서 3217±153nM, 2503±523nM, 및 8143±1398nM 의 결합 친화도를 가졌다. FMP4는 또한 [35S]GTPγS 기능 분석에서 약한 MOR-1 부분 작용제이다. FMP4는 공지된 오피오이드 작용제 및 길항제와 구별되며, μOR에 대해 공지된 다른 작용제 및 길항제에 비해 최대 Tanimoto 점수가 0.44 이다. 동일한 데이터셋의 FMP4 유사 화합물들이 결합 분석에서 특성화되었으며 두 화합물인 FMP1 및 FMP16은 MOR-1에서 <10μM 의 친화도를 나타내었다.

도 7은 MOR-1 결합자의 스크리닝을 보여준다: 단일 용량 10 μM 농도에서 MOR-1에서 125 IBNtxA 특이적 결합의 억제를 수행하였다. 3 개의 화합물인 FMP1, 4 및 16 (원으로 표시함)은 MOR-1 결합의 ~ 30 % 억제를 나타내었다 (빨간색 점선은 ~ 30 % 억제를 나타내는 화합물을 나타냄). 각 패널은 3회 이상 독립적으로 복제된 대표적인 실험이다. 도 8A-8D는 FMP1-FMP32의 구조 및 분자량을 나타낸다.

실시예 7

FMP4의 분석 및 μOR의 새로운 활성-유사 상태 확인

모델링은 FMP4가 고유한 방식으로 μOR에 결합하고 활성화를 촉진한다고 예측했다. FMP4는 효능작용 및 결합에 중요한 것으로 계산되는 MD 상태 3 (state 3)에 대해 비교적 높은 도킹 스코어를 갖는다. 도 1은 가장 느린 tICA 반응 좌표인 tIC.1이 두 결정학적 상태를 연결함을 보여준다. 도 2는 두 번째로 느린 tICA 인 tIC.2가 tIC.1과 동역학적으로 직교하고 여러 비-결정학적 상태를 정의함을 보여준다.

tIC.1에 따른 진행에 의해 그리고 막횡단 헬릭스(transmembrane helix) 6의 바깥쪽 방향 및 NPxxY 모티프 잔기 N332^7.48-Y336^7.53의 돌출 형태와 같은 GPCR 문헌의 전통적인 메트릭에 의해 측정된, MD 상태 3 (State 3)은 μOR의 새로운 활성-유사 상태이다. 직교 결합 부위 근처에서, 상태 3 (State 3)은 Q124^2.60, M151^3.36, H297^6.52, Y299^6.54및 W318^6.35의 재배열을 수반한다. M151^3.36 및 H297^6.52의 새로운 위치를 통해 FMP4는 도 1에서 볼 수 있듯이 활성 결정 구조에서 입체적으로 금지되는 포즈를 취할 수 있다. 공-결정화된 작용제와 달리, FMP4는 게이팅 μOR 활성화에 중요한 잔기인 W293^6.48과의 π-T 상호작용 및 H297^6.52와의 수소 결합에 관여한다.

도 9는 표시된 복제된 마우스 오피오이드 수용체를 안정적으로 발현하는 CHO 세포의 막에서 125 I-IBNtxA (0.1 nM)에 대해 FMP4를 사용하여 경쟁 연구를 수행했음을 나타낸다. 각 도면은 독립적으로 3회 이상 복제된 대표적인 실험이다. 오차 막대는 삼중 샘플의 SEM을 나타낸다. 보이지 않는 오차 막대는 기호의 크기보다 작다. FMP4는 MOR-1, KOR-1 및 DOR-1에서 각각 3217±153 nM, 2503± 523 nM 및 8143±1398 친화도를 가졌다.

Claims

하나 이상의 컴퓨터에서 수행되는, 리간드와 수용체 간의 관계를 예측하는 방법으로서, 하기 단계들을 포함하는, 방법:
- 수용체의 복수의 클러스터링된 입체형태(conformation)를 확인하는 단계로서, 다음을 포함하는 단계:
시간 간격에 걸쳐 수용체의 분자 역학의 시뮬레이션을 수행하는 단계로서, 상기 시뮬레이션은 수용체의 시뮬레이션된 입체형태의 집합을 정의하는 것인, 단계, 및
수용체의 시뮬레이션된 입체형태의 집합을 클러스터링하여, 수용체의 복수의 클러스터링된 입체형태를 생성하는 단계;
- 수용체의 복수의 클러스터링된 입체형태 각각에 대해, 수용체의 클러스터링된 입체형태와 리간드 간의 각각의 도킹 스코어를 계산하는 단계;
- 머신 러닝 모델에 의해, 수용체의 복수의 클러스터링된 입체형태 각각에 대한 각각의 도킹 스코어를 포함하는 머신 러닝 모델에 대한 모델 입력을 수신하는 단계로서, 상기 머신 러닝 모델은 지도(supervised) 머신 러닝 기술에 의해 훈련된 머신 러닝 모델 파라미터 세트에 의해 파라미터화되는, 단계; 및
- 머신 러닝 모델을 사용하여, 수용체의 복수의 클러스터링된 입체형태 각각에 대한 각각의 도킹 스코어를 포함하는 모델 입력을, 머신 러닝 모델 파라미터 세트의 훈련된 값에 따라 처리하여, 결합 스코어를 포함하는 머신 러닝 모델의 모델 출력을 생성하는 단계로서, 상기 결합 스코어는 수용체에 대한 리간드의 결합 친화도를 특성화하는 스코어인, 단계.
제1항에 있어서, 수용체의 시뮬레이션된 입체형태의 집합이 적어도 하나의 비-결정학적 상태를 포함하는 것인, 방법.
제1항에 있어서, 수용체의 분자 역학의 시뮬레이션을 수행하는 단계는, 수용체와 리간드의 상호작용을 시뮬레이션하는 것을 포함하는, 방법.
제1항에 있어서, 수용체의 시뮬레이션된 입체형태의 집합을 클러스터링하는 단계는, 수용체의 시뮬레이션된 입체형태의 집합에 대해 차원 축소 연산(dimensionality reduction operation)을 수행하는 것을 포함하는, 방법.
제1항에 있어서, 수용체의 복수의 클러스터링된 입체형태 각각에 대해, 수용체의 클러스터링된 입체형태와 리간드 간의 도킹 스코어를 계산하는 단계는, 수용체의 클러스터링된 입체형태 및 리간드의 도킹을 시뮬레이션하는 것을 포함하는, 방법.
제1항에 있어서, 상기 머신 러닝 모델은 하나 이상의 랜덤 포레스트 모델을 포함하는 것인, 방법.
제1항에 있어서, 수용체에 대한 리간드의 반응을 물리적으로 테스트하는 단계를 더 포함하는, 방법.
제1항에 있어서, 상기 머신 러닝 모델은 신경망 모델을 포함하는 것인, 방법.
제1항에 있어서, 머신 러닝 모델의 모델 출력은, 리간드가 수용체에 대한 작용제(agonist)일 가능성을 특성화하는 작용제 스코어를 더욱 포함하는 것인, 방법.
제1항에 있어서,
머신 러닝 모델의 모델 출력은, (i) 수용체에 대한 리간드의 결합 친화도를 특성화하는 결합 스코어, 및 (ii) 리간드가 수용체에 대한 작용제일 가능성을 특성화하는 작용제 스코어를 포함하고,
상기 방법은, 결합 스코어 및 작용제 스코어를 결합하여 전체 스코어를 생성하는 단계를 더욱 포함하는 것인, 방법.
제10항에 있어서, 결합 스코어 및 작용제 스코어를 결합하여 전체 스코어를 생성하는 단계는, 결합 스코어와 작용제 스코어의 곱을 계산하는 것을 포함하는, 방법.
제1항에 있어서, 분자 역학 시뮬레이션의 시간 간격은 적어도 1밀리초의 지속시간을 갖는 것인, 방법.
제1항에 있어서, 수용체의 시뮬레이션된 입체형태의 집합을 클러스터링하는 단계는, 수용체의 시뮬레이션된 입체형태의 집합에 k-평균(k-means) 클러스터링을 적용하는 것을 포함하는, 방법.
제1항에 있어서, 수용체의 시뮬레이션된 입체형태의 집합은 수용체의 적어도 100,000개의 시뮬레이션된 입체형태를 포함하는 것인, 방법.
제1항에 있어서, 수용체의 시뮬레이션된 입체형태의 집합을 클러스터링하는 단계는, 클러스터 세트를 생성하는 것을 포함하며, 클러스터 세트 내의 클러스터의 수는 수용체의 시뮬레이션된 입체형태의 집합 내의 수용체의 시뮬레이션된 입체형태의 수보다 적은 것인, 방법.
하나 이상의 컴퓨터에 의해 실행될 때 하나 이상의 컴퓨터가 리간드와 수용체 간의 관계를 예측하기 위한 작업을 수행하도록 하는 명령을 저장하는, 하나 이상의 비-일시적인 컴퓨터 저장 매체로서, 상기 작업은 하기 단계들을 포함하는 것인, 저장 매체:
- 수용체의 복수의 클러스터링된 입체형태(conformation)를 확인하는 단계로서, 다음을 포함하는 단계:
시간 간격에 걸쳐 수용체의 분자 역학의 시뮬레이션을 수행하는 단계로서, 상기 시뮬레이션은 수용체의 시뮬레이션된 입체형태의 집합을 정의하는 것인, 단계, 및
수용체의 시뮬레이션된 입체형태의 집합을 클러스터링하여, 수용체의 복수의 클러스터링된 입체형태를 생성하는 단계;
- 수용체의 복수의 클러스터링된 입체형태 각각에 대해, 수용체의 클러스터링된 입체형태와 리간드 간의 각각의 도킹 스코어를 계산하는 단계;
- 머신 러닝 모델에 의해, 수용체의 복수의 클러스터링된 입체형태 각각에 대한 각각의 도킹 스코어를 포함하는 머신 러닝 모델에 대한 모델 입력을 수신하는 단계로서, 상기 머신 러닝 모델은 지도(supervised) 머신 러닝 기술에 의해 훈련된 머신 러닝 모델 파라미터 세트에 의해 파라미터화되는, 단계; 및
- 머신 러닝 모델을 사용하여, 수용체의 복수의 클러스터링된 입체형태 각각에 대한 각각의 도킹 스코어를 포함하는 모델 입력을, 머신 러닝 모델 파라미터 세트의 훈련된 값에 따라 처리하여, 결합 스코어를 포함하는 머신 러닝 모델의 모델 출력을 생성하는 단계로서, 상기 결합 스코어는 수용체에 대한 리간드의 결합 친화도를 특성화하는 스코어인, 단계.
하나 이상의 컴퓨터; 및
상기 하나 이상의 컴퓨터에 통신 적으로 연결된 하나 이상의 저장 장치
를 포함하는 시스템으로서,
상기 하나 이상의 저장 장치는, 하나 이상의 컴퓨터에 의해 실행될 때 하나 이상의 컴퓨터가 리간드와 수용체 간의 관계를 예측하기 위한 작업을 수행하도록 하는 명령을 저장하고,
상기 작업은 하기 단계들을 포함하는 것인, 시스템:
- 수용체의 복수의 클러스터링된 입체형태(conformation)를 확인하는 단계로서, 다음을 포함하는 단계:
시간 간격에 걸쳐 수용체의 분자 역학의 시뮬레이션을 수행하는 단계로서, 상기 시뮬레이션은 수용체의 시뮬레이션된 입체형태의 집합을 정의하는 것인, 단계, 및
수용체의 시뮬레이션된 입체형태의 집합을 클러스터링하여, 수용체의 복수의 클러스터링된 입체형태를 생성하는 단계;
- 수용체의 복수의 클러스터링된 입체형태 각각에 대해, 수용체의 클러스터링된 입체형태와 리간드 간의 각각의 도킹 스코어를 계산하는 단계;
- 머신 러닝 모델에 의해, 수용체의 복수의 클러스터링된 입체형태 각각에 대한 각각의 도킹 스코어를 포함하는 머신 러닝 모델에 대한 모델 입력을 수신하는 단계로서, 상기 머신 러닝 모델은 지도(supervised) 머신 러닝 기술에 의해 훈련된 머신 러닝 모델 파라미터 세트에 의해 파라미터화되는, 단계; 및
- 머신 러닝 모델을 사용하여, 수용체의 복수의 클러스터링된 입체형태 각각에 대한 각각의 도킹 스코어를 포함하는 모델 입력을, 머신 러닝 모델 파라미터 세트의 훈련된 값에 따라 처리하여, 결합 스코어를 포함하는 머신 러닝 모델의 모델 출력을 생성하는 단계로서, 상기 결합 스코어는 수용체에 대한 리간드의 결합 친화도를 특성화하는 스코어인, 단계.
제17항에 있어서, 수용체의 시뮬레이션된 입체형태의 집합이 적어도 하나의 비-결정학적 상태를 포함하는 것인, 시스템.
제17항에 있어서, 수용체의 분자 역학의 시뮬레이션을 수행하는 단계는, 수용체와 리간드의 상호작용을 시뮬레이션하는 것을 포함하는, 시스템.
제17항에 있어서, 수용체의 시뮬레이션된 입체형태의 집합을 클러스터링하는 단계는, 수용체의 시뮬레이션된 입체형태의 집합에 대해 차원 축소 연산(dimensionality reduction operation)을 수행하는 것을 포함하는, 시스템.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제