KR20220111215A - 자기주의 기반 심층 신경망 모델을 이용한 약물-표적 상호작용 예측 장치 및 그 방법 - Google Patents

자기주의 기반 심층 신경망 모델을 이용한 약물-표적 상호작용 예측 장치 및 그 방법 Download PDF

Info

Publication number
KR20220111215A
KR20220111215A KR1020220045544A KR20220045544A KR20220111215A KR 20220111215 A KR20220111215 A KR 20220111215A KR 1020220045544 A KR1020220045544 A KR 1020220045544A KR 20220045544 A KR20220045544 A KR 20220045544A KR 20220111215 A KR20220111215 A KR 20220111215A
Authority
KR
South Korea
Prior art keywords
drug
protein
binding region
target interaction
target
Prior art date
Application number
KR1020220045544A
Other languages
English (en)
Inventor
남호정
이인구
Original Assignee
광주과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 광주과학기술원 filed Critical 광주과학기술원
Priority to KR1020220045544A priority Critical patent/KR20220111215A/ko
Publication of KR20220111215A publication Critical patent/KR20220111215A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/60In silico combinatorial chemistry
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/90Programming languages; Computing architectures; Database systems; Data warehousing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Medicinal Chemistry (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Pharmacology & Pharmacy (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Biomedical Technology (AREA)
  • Library & Information Science (AREA)
  • Biochemistry (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

본 발명은 딥 러닝을 이용한 약물-표적 단백질 상호작용 예측에 관한 것으로 본 발명에 따른 약물-표적 상호작용 예측 장치 및 방법은 약물과 단백질 사이의 상호작용 여부 뿐 아니라 약물과 단백질의 바인딩 영역을 함께 이용하여 트랜스포머 네트워크를 학습하고 어텐션 스코어를 사용하는 트랜스포머 네트워크를 이용하여 DTI와 바인딩 영역을 예측함으로써 DTI 예측 성능을 높일 수 있는 효과가 있다.

Description

자기주의 기반 심층 신경망 모델을 이용한 약물-표적 상호작용 예측 장치 및 그 방법{APPARATUS AND METHOD FOR PREDICTING DRUG-TARGET INTERACTION USING DEEP NEURAL NETWORK MODEL BASED ON SELF-ATTENTION}
본 발명은 약물-표적 상호작용 예측에 관한 것으로, 특히 인공지능을 이용한 약물-표적 상호작용 예측에 관한 것이다.
생명공학 연구 방법에 있어서 살아있는 생명체를 기반으로 실험하는 방법을 인 비보(In Vivo)라 하고 유리 시험관을 통한 방법을 인 비트로(In-Vitro)라 한다.
실험용 동물이나 시험관에 세포를 배양하여 약물 반응을 시험하는 경우 시간이나 비용의 문제뿐 아니라 윤리적인 문제에 직면하기 때문에 최근에는 실제 생명체나 세포가 아닌 컴퓨터의 시뮬레이션을 기반으로 약물의 상호작용을 예측하는 인 실리코(In-Silico) 방법이 시도되고 있다.
약물-표적 상호작용(DTI: Drug-Target Interaction)을 확인하는 것은 새로운 약물을 발견하는 데 있어 매우 중요한 단계이다. 약물의 종류는 무한대이므로 표적 단백질에 대해 모든 가능한 약물을 시도해 보는 것은 불가능하기 때문이다.
따라서 인 실리코 방법으로 약물 데이터베이스에서 표적 단백질에 적용 가능한 약물을 예측하는 방법은 약물 발견의 효율을 높일 수 있는 방법이 되고 있다. 특히 최근 약물 데이터베이스가 누적되고 컴퓨팅 파워가 증가함에 따라 딥러닝을 이용하여 DTI를 예측하는 시도들이 이루어지고 있다.
하지만 CNN(Convolutional Neural Network), RNN(Recursive Neural Network), 트랜스포머 기반의 인공지능 모델은 약물의 바인딩 영역(BR: Binding Region)을 명시적으로 학습하지 않기 때문에 예측의 정확도가 떨어지는 한계가 있다.
본 발명의 발명자들은 이러한 종래 기술의 약물-표적 상호작용 예측 방법들의 한계를 극복하기 위해 연구 노력해 왔다. CNN에 자기주의(Self-Attention) 기법을 결합하여 약물과 단백질 표적의 바인딩 영역과 DTI를 함께 예측함으로써 DTI 및 바인딩 영역 예측의 정확성을 높일 수 있는 약물-표적 상호작용 예측 장치 및 그 방법을 완성하기 위해 많은 노력 끝에 본 발명을 완성하기에 이르렀다.
본 발명은 약물이 표적 단백질에 접합하는 바인딩 영역을 예측하여 이를 DTI에도 반영함으로써 DTI와 바인딩 영역 예측의 정확성을 높일 수 있는 약물-표적 상호작용 예측 장치 및 그 방법을 제공하는 것을 목적으로 한다.
한편, 본 발명의 명시되지 않은 또 다른 목적들은 하기의 상세한 설명 및 그 효과로부터 용이하게 추론 할 수 있는 범위 내에서 추가적으로 고려될 것이다.
본 발명에 따른 자기주의 기반 심층 신경망을 이용한 약물-표적 상호작용 예측 방법은, (a) 약물 지문과 단백질 서열 데이터베이스에 의해 트랜스포머(Transformer) 네트워크를 학습하는 단계; (b) 약물 지문을 덴스(Dense) 레이어에 통과시켜 약물 토큰으로 변환하는단계; (c) 단백질 서열을 컨벌루션 연산한 후 일정한 단위 그리드로 나누어 맥스 풀링(Max Pooling)하여 단백질 그리드 인코딩으로 변환하는 단계; (d) 상기 약물 토큰과 단백질 그리드 인코딩을 연결하는 단계; (e) 상기 연결된 약물 토큰과 단백질 그리드 인코딩을 상기 트랜스포머 네트워크에 입력하는 단계; 및 (f) 상기 트랜스포머 네트워크의 출력에 의해 약물과 표적 단백질의 상호작용을 예측하는 단계를 포함한다.
상기 약물 지문은 모르간(Morgan) 알고리즘에 의해 해쉬된 모르간 지문인 것을 특징으로 한다.
상기 (a)단계의 약물 지문과 단백질 서열 데이터베이스는 약물과 단백질의 3차원 구조 및 바인딩 정보를 포함하는 것을 특징으로 한다.
상기 (a)단계에서 상기 바인딩 정보 중 바인딩 사이트(Site)를 상기 바인딩 사이트의 인근 서열까지 포함하는 바인딩 영역(Region)으로 변환하여 상기 트랜스포머(Transformer) 네트워크를 학습하는 것을 특징으로 한다.
상기 (c)단계는 CNN(Convolution Neural Network)을 이용하여 단백질 서열을 컨벌루션 연산하는 것을 특징으로 한다.
상기 약물 토큰과 상기 단위 그리드는 동일한 길이를 가지는 것을 특징으로 한다.
상기 (e)단계는 상기 연결된 약물 토큰과 단백질 그리드 인코딩을 각각 Q(Query), K(Key), V(Value) 벡터로 변환하여 상기 트랜스포머 네트워크에 입력하는 것을 특징으로 한다.
상기 트랜스포머 네트워크는 둘 이상의 트랜스포머 네트워크로 구성되는 것을 특징으로 한다.
상기 (f)단계는 상기 약물과 상기 단백질 그리드 인코딩 사이의 어텐션 스코어를 이용하여 상기 약물과 상기 단백질 사이의 관련성을 예측하는 것을 특징으로 한다.
본 발명에 따르면 단순히 DTI만을 예측하는 것이 아니라 약물이 표적 단백질에 접합하는 바인딩 영역을 함께 예측하여 그 결과를 DTI에 반영함으로써 DTI의 예측 정확성을 높일 수 있는 효과가 있다.
한편, 여기에서 명시적으로 언급되지 않은 효과라 하더라도, 본 발명의 기술적 특징에 의해 기대되는 이하의 명세서에서 기재된 효과 및 그 잠정적인 효과는 본 발명의 명세서에 기재된 것과 같이 취급됨을 첨언한다.
도 1은 본 발명의 바람직한 어느 실시예에 따른 약물-표적 상호작용 예측 장치의 개략적인 구조도이다.
도 2는 본 발명의 바람직한 어느 실시예에 따른 바인딩 영역의 한 예이다.
도 3은 본 발명의 바람직한 어느 실시예에 따른 약물 데이터와 단백질 서열의 변환 예이다.
도 4는 본 발명의 바람직한 어느 실시예에 따른 트랜스포머 네트워크의 연산 예이다.
도 5는 본 발명의 바람직한 어느 실시예에 따른 트랜스포머 네트워크의 출력 예이다.
도 6은 본 발명의 바람직한 어느 실시예에 따른 약물-표적 상호작용 예측 장치의 성능을 나타내는 그래프이다.
도 7은 본 발명의 바람직한 다른 실시예에 따른 약물-표적 상호작용 예측 방법의 흐름도이다.
※ 첨부된 도면은 본 발명의 기술사상에 대한 이해를 위하여 참조로서 예시된 것임을 밝히며, 그것에 의해 본 발명의 권리범위가 제한되지는 아니한다
이하, 도면을 참조하여 본 발명의 다양한 실시예가 안내하는 본 발명의 구성과 그 구성으로부터 비롯되는 효과에 대해 살펴본다. 본 발명을 설명함에 있어서 관련된 공지기능에 대하여 이 분야의 기술자에게 자명한 사항으로서 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.
'제1', '제2' 등의 용어는 다양한 구성요소를 설명하는데 사용될 수 있지만, 상기 구성요소는 위 용어에 의해 한정되어서는 안 된다. 위 용어는 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용될 수 있다. 예를 들어, 본 발명의 권리범위를 벗어나지 않으면서 '제1구성요소'는 '제2구성요소'로 명명될 수 있고, 유사하게 '제2구성요소'도 '제1구성요소'로 명명될 수 있다. 또한, 단수의 표현은 문맥상 명백하게 다르게 표현하지 않는 한, 복수의 표현을 포함한다. 본 발명의 실시예에서 사용되는 용어는 다르게 정의되지 않는 한, 해당 기술분야에서 통상의 지식을 가진 자에게 통상적으로 알려진 의미로 해석될 수 있다.
이하, 도면을 참조하여 본 발명의 다양한 실시예가 안내하는 본 발명의 구성과 그 구성으로부터 비롯되는 효과에 대해 살펴본다.
도 1은 본 발명의 바람직한 어느 실시예에 따른 약물-표적 상호작용 예측 장치의 개략적인 구조도이다.
본 발명에 따른 약물-표적 상호작용 예측 장치(100)는 학습 모듈(110), 약물-표적 상호작용(DTI: Drug-Target Interaction) 예측 모듈(120) 및 바인딩 영역(Binding Region) 예측 모듈(130)로 구성된다.
본 발명에 따르면 단백질 서열 데이터(1)와 약물 지문 데이터(2)를 입력으로 하여 인공 신경망을 거친 후 DTI 및 바인딩 영역을 예측할 수 있게 된다. 이를 위해 인공 신경망은 트랜스포머(Transformer) 네트워크를 이용한다. 트랜스포머 네트워크는 자기주의(Self-Attention) 방법을 이용함으로써 약물과 단백질 또는 단백질 상호간의 관련성을 알아낼 수 있고, 이에 기반하여 DTI 및 바인딩 영역의 예측이 가능하다. 따라서 본 발명의 딥러닝 모델은 HoTS(Highlight on Target Sequence)라 할 수 있다.
우선 학습 모듈(110)은 트랜스포머 네트워크를 학습하게 된다. 트랜스포머 네트워크는 약물과 단백질의 3차원 결합구조 데이터베이스와 DTI 데이터베이스에 의해 학습된다. 학습을 위해서는 바인딩 사이트(Site)를 바인딩 영역으로 변환하는 단계가 필요하다.
도 2는 본 발명의 바람직한 어느 실시예에 따른 바인딩 영역 변환의 한 예이다.
단백질의 바인딩 사이트는 그 크기가 매우 작아서 인공 신경망에서 인식하기 어려운 문제가 있다. 따라서 바인딩 사이트의 크기의 2~3배 정도의 단백질 서열 상의 일정한 영역을 바인딩 영역으로 설정하여 학습에 이용한다.
DTI 데이터베이스와 바인딩 영역의 3차원 결합구조 데이터베이스의 불일치를 막기 위해 DTI 데이터베이스 중 3차원 결합구조를 가지는 단백질만 이용할 수 있다.
예측 모델을 위한 트랜스포머 네트워크를 학습하는 방법은 다음과 같다.
우선 약물의 지문을 트랜스포머 네트워크 입력을 위한 벡터로 변환한다. 약물의 지문은 모르간(Morgan) 알고리즘을 통해 모르간 지문으로 표현될 수 있다. 모르간 지문은 반지름 2의 2048비트로 표현될 수 있다. 모르간 지문은 덴스 레이어(Dense Layer), 즉, 전부 연결 레이어(Fully Connected Layer)를 통과함으로써 일정 길이의 약물 토큰 벡터로 변환된다.
단백질 서열은 CNN(Convolution Neural Network)을 이용하여 컨벌루션 연산된다. 컨벌루션 연산 결과는 원래의 단백질 서열과 동일한 길이를 가진다. 연산 결과는 일정한 단위의 그리드(Grid)로 나뉘고 각각의 그리드에서 최대값이 추출된다(Max Pooling). 추출된 최대값들은 덴스 레이어를 통과함으로써 단백질 그리드 인코딩으로 변환된다. 이는 바인딩 영역과 모델 상호 의존성을 예측하는 데 더 효과적이다.
약물 토큰 벡터와 단백질 그리드 인코딩은 서로 연결되고 트랜스포머 네트워크로 입력됨으로써 트랜스포머 네트워크가 학습된다. 약물 토큰은 DTI를 의미하게 되고, 단백질 그리드 인코딩은 리간드와 그 선택성, 즉 바인딩 영역을 예측하게 된다.
BR 예측 모듈(130)은 약물 토큰과 단백질의 특정 부분의 관련성을 예측함으로써 바인딩 영역을 예측하게 된다.
앞의 예와 마찬가지로 약물 지문은 약물 토큰으로 변환되고, 단백질은 단백질 그리드 인코딩으로 변환되어 트랜스포머 네트워크로 입력된다.
도 3은 본 발명의 바람직한 어느 실시예에 따른 약물 데이터와 단백질 서열의 변환 예이다.
약물 지문인 모르간 지문(12)는 덴스 레이어를 통과하여 약물 토큰(22)으로 변환된다.
단백질 서열(11)은 컨벌루션 연산과 덴스 레이어를 통과한 후 맥스 풀링을 통해 단백질 그리드 인코딩(21)으로 변환된다.
약물 토큰(22)과 단백질 그리드 인코딩(21)은 가중치 행렬에 의해 각각 Q(Query), K(Key), V(Value) 벡터(31, 32)로 변환되어 트랜스포머 네트워크에 입력되게 된다.
도 4는 본 발명의 바람직한 어느 실시예에 따른 트랜스포머 네트워크의 연산 예이다.
D 길이를 가지는 (N+1)개의 Q 벡터들로 이루어진 행렬과 (N+1)개의 K백터들로 이루어지는 행렬 곱 연산에 의해 (N+1)행X(N+1)열의 결과 행렬(A)이 연산되고, 이 A와 D길이의 (N+1)개의 V 벡터로 이루어진 행렬 곱 연산에 의해 새로운 V벡터가 계산된다.
연산된 V벡터는 DTI 연산에 사용될 수 있고, 연산된 그리드 벡터는 리간드(Ligand) 선택성, 즉 바인딩 영역 예측에 사용될 수 있다.
도 5는 본 발명의 바람직한 어느 실시예에 따른 트랜스포머 네트워크의 출력 예이다.
BR 예측 모듈(130)은 트랜스포머 네트워크의 출력을 이용하여 바인딩 영역을 예측한다. 단백질 그리드 인코딩의 출력(41)은 (C, W, P)로 구성된다.
(C, W, P) 쌍에서 C는 예측된 바인딩 영역의 중심(Center)을 의미하고, W는 바인딩 영역의 폭(Width)을, P는 바인딩 확률(Confidence score)를 의미한다. 따라서 P값이 높을수록 해당 부분이 바인딩 영역일 확률이 높아지는 것이다.
(C, W, P)는 단백질 그리드 인코딩으로부터 덴스 레이어를 통과하고 활성화 함수를 이용하여 활성화(Activation)된다. 활성화 함수로는 시그모이드(Sigmoid) 함수 등이 이용될 수 있다. 따라서 (C, W, P)는 [0, 1] 사이의 값을 가지게 된다.
C(
Figure pat00001
) 값은 다음 식을 통해 예측된 단백질 바인딩 영역의 중심값(
Figure pat00002
)으로 변하게 된다.
Figure pat00003
여기서
Figure pat00004
는 단백질 그리드의 시작 인덱스이고,
Figure pat00005
는 그리드의 크리이다.
마찬가지로 W(
Figure pat00006
)값은 다음 식을 통해 예측된 단백질 바인딩 영역의 폭으로 변한다.
Figure pat00007
여기서
Figure pat00008
는 사전에 지정된 크기이고 e는 자연상수를 의미한다. 한 실시예로 가 10이면 예측된 폭의 범위는 [10, 27]이 된다.
DTI 예측 모듈(120)은 약물 토큰과 단백질이 상호작용하는지 예측하게 된다.
약물과 단백질의 상호 작용 예측을 위해 앞서 살펴본 바와 마찬가지의 방법으로 약물 토큰과 단백질 그리드 인코딩을 트랜스포머 네트워크에 입력한다.
트랜스포머 네트워크에서 약물 토큰은 약물 인코딩에 대한 단백질 그리드 인코딩의 어텐션 스코어와 단백질 그리드 인코딩들을 곱한 값들을 합산한다. 이후 덴스 레이어를 거치고 활성화 함수를 거치면 [0, 1] 사이의 값을 가지게 된다. 따라서 도 5에서 약물 토큰의 최종 출력(42)은 약물-표적 상호작용의 확률을 의미하게 되고 이 확률에 의해 DTI를 예측할 수 있는 것이다.
이처럼 본 발명에 따른 약물-표적 상호작용 예측 장치는 약물과 단백질 사이의 상호작용 여부 뿐 아니라 약물과 단백질의 바인딩 영역을 함께 학습하고 이를 이용하여 DTI와 바인딩 영역을 예측함으로써 DTI 예측 성능을 높일 수 있다.
도 6은 본 발명에 따른 약물-표적 상호작용 예측 장치(HoTS)의 성능을 나타낸 그래프이다.
본 발명에 따른 약물-표적 상호작용 예측 장치(HoTS)의 성능이 다른 방법들을 사용한 장치들에 비해 높게 나타남을 알 수 있다. 특히 본 발명에 따른 예측 장치라도 바인딩 영역을 학습하지 않은 장치(No BR Training)에 비해 바인딩 영역을 학습한 장치의 성능이 더 우수하게 나타나므로 바인딩 영역을 함께 학습하고 예측하는 것이 DTI의 성능에도 더 좋은 영향을 미침을 알 수 있다.
도 7은 본 발명의 바람직한 다른 실시예에 따른 약물-표적 상호작용 예측 방법을 다시 한 번 정리한 흐름도이다.
우선 본 발명의 약물-표적 상호작용 예측에 사용될 트랜스포머 네트워크를 학습해야 한다(S10).
트랜스포머 네트워크의 학습은 약물 지문 데이터베이스와 단백질 서열 데이터베이스를 사용하는데 약물과 단백질 사이의 DTI뿐 아니라 바인딩 영역을 함께 학습함으로써 바인딩 영역을 예측할 수 있을뿐 아니라 DTI 성능 또한 높일 수 있다.
트랜스포머 네트워크 학습이 끝나면 약물과 단백질의 상호작용을 예측할 수 있다.
약물의 지문은 모르간 지문이 이용될 수 있고, 덴스 레이어(Dense Layer), 즉, 전부 연결 레이어(Fully Connected Layer)를 통과함으로써 일정 길이의 약물 토큰 벡터로 변환된다(S20).
단백질 서열은 CNN(Convolution Neural Network)을 이용하여 컨벌루션 연산된다. 컨벌루션 연산 결과는 원래의 단백질 서열과 동일한 길이를 가진다. 연산 결과는 일정한 단위의 그리드(Grid)로 나뉘고 각각의 그리드에서 최대값이 추출된다(Max Pooling). 추출된 최대값들은 덴스 레이어를 통과함으로써 단백질 그리드 인코딩으로 변환된다(S30).
변환된 약물 토큰과 단백질 그리드 인코딩은 앞에서 학습한 트랜스포머 네트워크에 입력되어 트랜스포머 네트워크 연산이 이루어진다(S40). 이때 트랜스포머 네트워크는 둘 이상의 트랜스포머 네트워크로 이루어질 수 있다.
마지막으로 트랜스포머 네트워크의 출력에 의해 약물-표적 상호작용과 바인딩 영역을 예측한다(S50).
약물 토큰의 최종 출력은 약물-표적 상호작용의 확률을 의미하게 되고 이 확률에 의해 DTI를 예측할 수 있다.
단백질 그리드 인코딩의 최종 출력은 (C, W, P)로 구성되고, C는 예측된 바인딩 영역의 중심(Center)을 의미하고, W는 바인딩 영역의 폭(Width)을, P는 바인딩 확률(Confidence score)를 의미함으로써 단백질 서열에서 바인딩 영역을 예측할 수 있는 것이다.
이처럼 본 발명에 따른 약물-표적 상호작용 예측 장치 및 방법은 약물과 단백질 사이의 상호작용 여부 뿐 아니라 약물과 단백질의 바인딩 영역을 함께 학습하고 자기주의 방법을 사용하는 트랜스포머 네트워크를 이용하여 DTI와 바인딩 영역을 예측함으로써 DTI 예측 성능을 높일 수 있는 효과가 있다.
본 발명의 보호범위가 이상에서 명시적으로 설명한 실시예의 기재와 표현에 제한되는 것은 아니다. 또한, 본 발명이 속하는 기술분야에서 자명한 변경이나 치환으로 말미암아 본 발명이 보호범위가 제한될 수도 없음을 다시 한 번 첨언한다.

Claims (8)

  1. 하나 이상의 프로세서 및 메모리를 포함하는 제어부에 의해 수행되는 약물-표적 상호작용 예측 방법에 있어서:
    (a) 약물 지문과 상기 약물 지문이 결합하는 단백질 서열에 의해 자기주의 기반 심층 신경망을 이용하여 트랜스포머(Transformer) 네트워크를 학습하는 단계;
    (b) 약물 지문을 덴스(Dense) 레이어에 통과시켜 약물 토큰 벡터로 변환하는 단계;
    (c) 단백질 서열을 일정한 단위 그리드로 나누어 복수의 단백질 그리드 인코딩으로 변환하는 단계;
    (d) 상기 약물 토큰 벡터와 상기 복수의 단백질 그리드 인코딩을 각각 가중치 행렬에 의해 변환하여 상기 트랜스포머 네트워크에 입력하는 단계;
    (e) 상기 트랜스포머 네트워크에 의해 연산된 약물-단백질 상호 작용(DTI) 연산을 위한 제1벡터와 바인딩 영역 예측을 위한 복수의 제2벡터를 획득하는 단계;
    (f) 상기 복수의 제2벡터 각각으로부터 바인딩 영역의 중심, 바인딩 영역의 폭, 바인딩 영역에서의 바인딩 확률을 포함하는 바인딩 영역에 관한 정보를 획득하는 단계; 및
    (g) 상기 바인딩 영역에 관한 정보에서 상기 바인딩 확률이 높을수록 상기 약물 지문이 상기 단백질 서열에 접합하는 바인딩 영역일 확률이 높은 것으로 예측하는 단계;
    (h) 상기 제1벡터에 기반하여 약물과 표적 단백질의 상호작용을 예측하는 단계;를 포함하는, 자기주의 기반 심층 신경망을 이용한 약물-표적 상호작용 예측 방법.
  2. 제1항에 있어서,
    상기 (a) 단계는, 상기 약물과 표적 단백질의 상호작용과 상기 바인딩 영역을 함께 이용하여 상기 트랜스포머(Transformer) 네트워크를 학습하는 단계;를 포함하는 약물-표적 상호작용 예측 방법.
  3. 제1항에 있어서,
    상기 (d) 단계는, 상기 약물 토큰 벡터와 상기 복수의 단백질 그리드 인코딩을 상기 가중치 행렬에 의해 각각 Q(Query), K(Key), V(Value) 벡터로 변환하는 단계;를 포함하는 약물-표적 상호작용 예측 방법.
  4. 제3항에 있어서,
    상기 (e) 단계는,
    상기 (d) 단계에서 상기 복수의 단백질 그리드 인코딩에 대해 변환된 Q(Query) 벡터와 K(Key) 벡터의 행렬 곱 연산을 통해 제1행렬을 획득하는 단계;
    상기 제1행렬과 상기 V(Value) 벡터의 행렬 곱 연산에 의해 상기 복수의 제2벡터를 획득하는 단계;를 포함하는 약물-표적 상호작용 예측 방법.
  5. 제1항에 있어서,
    상기 (e) 단계는,
    상기 복수의 제2벡터를 덴스 레이어를 통과하고 활성화 함수를 이용하여 활성화(Activation)하여 상기 바인딩 영역에 관한 정보를 획득하는 단계;를 포함하는 약물-표적 상호작용 예측 방법.
  6. 제5항에 있어서,
    상기 (e) 단계는, 상기 활성화 함수는 시그모이드 함수인 것을 특징으로 하는 약물-표적 상호작용 예측 방법.
  7. 제1항에 있어서,
    상기 약물 지문은 모르간(Morgan) 알고리즘에 의해 해쉬된 모르간 지문인 것을 특징으로 하는, 약물-표적 상호작용 예측 방법.
  8. 제1항에 있어서,
    상기 (c) 단계는,
    상기 단백질 서열을 CNN(Convolution Neural Network)을 이용하여 단백질 서열을 컨벌루션 연산한 후 상기 일정한 단위 그리드로 나누어 맥스 풀링하여 상기 복수의 단백질 그리드 인코딩으로 변환하는 단계;를 포함하는 약물-표적 상호작용 예측 방법.
KR1020220045544A 2021-02-01 2022-04-13 자기주의 기반 심층 신경망 모델을 이용한 약물-표적 상호작용 예측 장치 및 그 방법 KR20220111215A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220045544A KR20220111215A (ko) 2021-02-01 2022-04-13 자기주의 기반 심층 신경망 모델을 이용한 약물-표적 상호작용 예측 장치 및 그 방법

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020210014357A KR102388215B1 (ko) 2021-02-01 2021-02-01 자기주의 기반 심층 신경망 모델을 이용한 약물-표적 상호작용 예측 장치 및 그 방법
KR1020220045544A KR20220111215A (ko) 2021-02-01 2022-04-13 자기주의 기반 심층 신경망 모델을 이용한 약물-표적 상호작용 예측 장치 및 그 방법

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020210014357A Division KR102388215B1 (ko) 2021-02-01 2021-02-01 자기주의 기반 심층 신경망 모델을 이용한 약물-표적 상호작용 예측 장치 및 그 방법

Publications (1)

Publication Number Publication Date
KR20220111215A true KR20220111215A (ko) 2022-08-09

Family

ID=81390770

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020210014357A KR102388215B1 (ko) 2021-02-01 2021-02-01 자기주의 기반 심층 신경망 모델을 이용한 약물-표적 상호작용 예측 장치 및 그 방법
KR1020220045544A KR20220111215A (ko) 2021-02-01 2022-04-13 자기주의 기반 심층 신경망 모델을 이용한 약물-표적 상호작용 예측 장치 및 그 방법

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020210014357A KR102388215B1 (ko) 2021-02-01 2021-02-01 자기주의 기반 심층 신경망 모델을 이용한 약물-표적 상호작용 예측 장치 및 그 방법

Country Status (3)

Country Link
US (1) US20240079098A1 (ko)
KR (2) KR102388215B1 (ko)
WO (1) WO2022163996A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116343911B (zh) * 2023-04-10 2024-03-01 徐州医科大学 基于三维空间生物反应的药物靶标亲和度预测方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102213670B1 (ko) * 2018-08-09 2021-02-08 광주과학기술원 약물-표적 상호 작용 예측을 위한 방법

Also Published As

Publication number Publication date
WO2022163996A1 (ko) 2022-08-04
KR102388215B1 (ko) 2022-04-19
US20240079098A1 (en) 2024-03-07

Similar Documents

Publication Publication Date Title
Dong et al. Nats-bench: Benchmarking nas algorithms for architecture topology and size
Xing et al. Boosting whale optimizer with quasi-oppositional learning and Gaussian barebone for feature selection and COVID-19 image segmentation
CN112364880B (zh) 基于图神经网络的组学数据处理方法、装置、设备及介质
Vandans et al. Identifying knot types of polymer conformations by machine learning
CN111898636B (zh) 一种数据处理方法及装置
CN112905801A (zh) 基于事件图谱的行程预测方法、系统、设备及存储介质
CN112070277A (zh) 基于超图神经网络的药物-标靶相互作用预测方法
JP2022530868A (ja) 機械学習に基づくターゲットオブジェクト属性予測方法、関連機器及びコンピュータプログラム
CN114860893A (zh) 基于多模态数据融合与强化学习的智能决策方法及装置
CN115221846A (zh) 一种数据处理方法及相关设备
Zheng et al. Ddpnas: Efficient neural architecture search via dynamic distribution pruning
WO2023284716A1 (zh) 一种神经网络搜索方法及相关设备
Chen et al. Binarized neural architecture search for efficient object recognition
CN111882042A (zh) 用于液体状态机的神经网络架构自动搜索方法、系统及介质
CN113808664B (zh) 基于机器学习的抗体筛选方法及装置
KR20220111215A (ko) 자기주의 기반 심층 신경망 모델을 이용한 약물-표적 상호작용 예측 장치 및 그 방법
Betechuoh et al. Using inverse neural networks for HIV adaptive control
Basterrech et al. Evolutionary Echo State Network: A neuroevolutionary framework for time series prediction
Li et al. Genetic algorithm search space splicing particle swarm optimization as general-purpose optimizer
Osman et al. Hybrid learning algorithm in neural network system for enzyme classification
El-Sebakhy Functional networks training algorithm for statistical pattern recognition
CN116805384A (zh) 自动搜索方法、自动搜索的性能预测模型训练方法及装置
CN114678083A (zh) 一种化学品遗传毒性预测模型的训练方法及预测方法
CN114464267A (zh) 模型训练与生成物预测的方法及装置
Zhang et al. A new PSOGSA inspired convolutional echo state network for long-term health status prediction