KR102237189B1 - 약물 효과 추정을 위한 기계학습 기반의 단백질-리간드 결합력 예측 모델 생성 장치 및 그 동작 방법 - Google Patents

약물 효과 추정을 위한 기계학습 기반의 단백질-리간드 결합력 예측 모델 생성 장치 및 그 동작 방법 Download PDF

Info

Publication number
KR102237189B1
KR102237189B1 KR1020190147354A KR20190147354A KR102237189B1 KR 102237189 B1 KR102237189 B1 KR 102237189B1 KR 1020190147354 A KR1020190147354 A KR 1020190147354A KR 20190147354 A KR20190147354 A KR 20190147354A KR 102237189 B1 KR102237189 B1 KR 102237189B1
Authority
KR
South Korea
Prior art keywords
vector
protein
ligand
prediction
machine learning
Prior art date
Application number
KR1020190147354A
Other languages
English (en)
Inventor
안재균
서상민
Original Assignee
유비엘바이오 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 유비엘바이오 주식회사 filed Critical 유비엘바이오 주식회사
Priority to KR1020190147354A priority Critical patent/KR102237189B1/ko
Application granted granted Critical
Publication of KR102237189B1 publication Critical patent/KR102237189B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/10Design of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Library & Information Science (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Medicinal Chemistry (AREA)
  • Biochemistry (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

약물 효과 추정을 위한 기계학습 기반의 단백질-리간드 결합력 예측 모델 생성 장치 및 그 동작 방법이 개시된다. 본 발명은 기계학습을 기반으로 단백질과 리간드 간의 결합력을 예측할 수 있는 단백질-리간드 결합력 예측 모델 생성 장치 및 그 동작 방법을 제시함으로써, 특정 질병에 대한 약물 효과의 추정이 가능하도록 지원할 수 있다.

Description

약물 효과 추정을 위한 기계학습 기반의 단백질-리간드 결합력 예측 모델 생성 장치 및 그 동작 방법{MACHINE LEARNING BASED PROTEIN-LIGAND BINDING PREDICTIVE MODEL GENERATION APPARATUS FOR DRUG EFFECT ESTIMATION AND OPERATING METHOD THEREOF}
본 발명은 약물 효과 추정을 위한 기계학습 기반의 단백질-리간드 결합력 예측 모델 생성 장치 및 그 동작 방법에 대한 것이다.
제약 기술의 발달로 치료 효과가 큰 약물들이 많이 개발되고 있다.
특정 질병을 치료하는데 있어서, 질병의 특성에 맞는 적절한 약물을 잘 선택할 필요가 있다.
이와 관련해서, 특정 질병을 구성하는 타겟 단백질에 대해 높은 반응성을 갖는 약물을 선택하는 과정이 중요한 이슈로 등장하고 있다.
약물에 대한 특정 타겟 단백질과의 반응성을 측정하는데 있어, 특정 단백질과 이와 결합되는 리간드(Ligand) 간의 결합력을 측정하는 방법을 고려할 수 있다.
리간드는 수용체에 결합하는 항체, 호르몬, 약제 등의 분자를 의미한다.
기존에는 특정 단백질과 리간드 간의 결합력을 확인하기 위해, 단백질과 리간드를 직접 결합시킨 후 이에 대한 결합력을 실험을 통해서 측정하는 방식이 사용되었다.
최근에는 일부의 샘플 데이터를 기초로 소정의 결과를 예측하기 위한 예측모델을 만들 수 있는 인공지능 기반의 기계학습 기술이 등장하고 있다. 이와 관련해서, 단백질과 리간드 간의 결합력을 예측하는 방법에 있어서도 일부의 샘플 데이터들을 이용한 기계학습을 수행함으로써, 단백질과 리간드 간의 결합력을 예측할 수 예측모델을 만들 수 있을 것이다.
따라서, 약물 효과 추정을 위한 기계학습 기반의 단백질-리간드 결합력 예측 모델 생성 기법에 대한 연구가 필요하다.
본 발명은 기계학습을 기반으로 단백질과 리간드 간의 결합력을 예측할 수 있는 단백질-리간드 결합력 예측 모델 생성 장치 및 그 동작 방법을 제시함으로써, 특정 질병에 대한 약물 효과의 추정이 가능하도록 지원하고자 한다.
본 발명의 일실시예에 따른 약물 효과 추정을 위한 기계학습 기반의 단백질-리간드 결합력 예측 모델 생성 장치는 미리 정해진 n(n은 2이상의 자연수)개의 원소(atom)들에 대한 정보가 저장되어 있는 원소 정보 저장부, 서로 다른 k(k는 2이상의 자연수)개의 단백질들과 서로 다른 t(t는 2이상의 자연수)개의 리간드(Ligand)들 사이에서 측정된 상기 n개의 원소들 간의 결합 거리를 성분으로 갖는 n차원의 kt개의 단백질-리간드 상관 벡터들이 저장되어 있는 상관 벡터 저장부, 상기 kt개의 단백질-리간드 상관 벡터들 각각에 대응되는 것으로 미리 정해진 결합력 측정 값이 저장되어 있는 측정 값 저장부, 상기 kt개의 단백질-리간드 상관 벡터들 중 어느 하나인 제1 단백질-리간드 상관 벡터에 대해 둘 이상의 가중치 행렬들을 곱하여 입력 행렬을 생성하고, 상기 입력 행렬을 컨볼루션 신경망(Convolutional Neural Network: CNN)에 입력으로 인가하여 컨볼루션 출력 벡터를 생성하며, 상기 컨볼루션 출력 벡터를 제1 심층 신경망에 입력으로 인가하여 제1 출력 벡터를 생성하는 제1 출력 벡터 생성부, 상기 제1 출력 벡터를 어텐션(Attention) 모델을 구성하는 디코더의 은닉 벡터로 취급하고, 상기 입력 행렬을 구성하는 각각의 행 벡터를 입력 시퀀스의 임베딩 벡터로 취급하여 상기 어텐션 모델에 인가한 후 상기 은닉 벡터와 상기 임베딩 벡터를 기초로 컨텍스트(context) 벡터를 생성함으로써, 어텐션 출력 벡터를 생성하는 어텐션 출력 벡터 생성부, 상기 어텐션 출력 벡터와 상기 제1 출력 벡터를 연접하여 연접 벡터를 생성한 후 상기 연접 벡터를 제2 심층 신경망에 입력으로 인가하여 벡터 차원 축소를 수행함으로써, 출력 값을 생성하는 출력 값 생성부, 상기 kt개의 단백질-리간드 상관 벡터들 중 상기 제1 단백질-리간드 상관 벡터를 제외한 나머지 단백질-리간드 상관 벡터들 전부에 대해 상기 제1 출력 벡터 생성부, 상기 어텐션 출력 벡터 생성부 및 상기 출력 값 생성부에 따른 출력 값 생성 과정의 반복 수행을 제어함으로써, 상기 kt개의 단백질-리간드 상관 벡터들 각각에 대응하는 kt개의 출력 값들을 생성하는 반복 수행 제어부 및 상기 kt개의 출력 값들과 상기 kt개의 단백질-리간드 상관 벡터들 각각에 대응하는 결합력 측정 값을 서로 비교하여 상기 둘 이상의 가중치 행렬들, 상기 컨볼루션 신경망, 상기 제1 심층 신경망, 상기 어텐션 모델, 상기 제2 심층 신경망에 대한 기계학습을 수행하는 기계학습 수행부를 포함한다.
또한, 본 발명의 일실시예에 따른 약물 효과 추정을 위한 기계학습 기반의 단백질-리간드 결합력 예측 모델 생성 장치의 동작 방법은 미리 정해진 n(n은 2이상의 자연수)개의 원소들에 대한 정보가 저장되어 있는 원소 정보 저장부를 유지하는 단계, 서로 다른 k(k는 2이상의 자연수)개의 단백질들과 서로 다른 t(t는 2이상의 자연수)개의 리간드들 사이에서 측정된 상기 n개의 원소들 간의 결합 거리를 성분으로 갖는 n차원의 kt개의 단백질-리간드 상관 벡터들이 저장되어 있는 상관 벡터 저장부를 유지하는 단계, 상기 kt개의 단백질-리간드 상관 벡터들 각각에 대응되는 것으로 미리 정해진 결합력 측정 값이 저장되어 있는 측정 값 저장부를 유지하는 단계, 상기 kt개의 단백질-리간드 상관 벡터들 중 어느 하나인 제1 단백질-리간드 상관 벡터에 대해 둘 이상의 가중치 행렬들을 곱하여 입력 행렬을 생성하고, 상기 입력 행렬을 컨볼루션 신경망에 입력으로 인가하여 컨볼루션 출력 벡터를 생성하며, 상기 컨볼루션 출력 벡터를 제1 심층 신경망에 입력으로 인가하여 제1 출력 벡터를 생성하는 단계, 상기 제1 출력 벡터를 어텐션 모델을 구성하는 디코더의 은닉 벡터로 취급하고, 상기 입력 행렬을 구성하는 각각의 행 벡터를 입력 시퀀스의 임베딩 벡터로 취급하여 상기 어텐션 모델에 인가한 후 상기 은닉 벡터와 상기 임베딩 벡터를 기초로 컨텍스트 벡터를 생성함으로써, 어텐션 출력 벡터를 생성하는 단계, 상기 어텐션 출력 벡터와 상기 제1 출력 벡터를 연접하여 연접 벡터를 생성한 후 상기 연접 벡터를 제2 심층 신경망에 입력으로 인가하여 벡터 차원 축소를 수행함으로써, 출력 값을 생성하는 단계, 상기 kt개의 단백질-리간드 상관 벡터들 중 상기 제1 단백질-리간드 상관 벡터를 제외한 나머지 단백질-리간드 상관 벡터들 전부에 대해 상기 제1 출력 벡터를 생성하는 단계, 상기 어텐션 출력 벡터를 생성하는 단계 및 상기 출력 값을 생성하는 단계에 따른 출력 값 생성 과정의 반복 수행을 제어함으로써, 상기 kt개의 단백질-리간드 상관 벡터들 각각에 대응하는 kt개의 출력 값들을 생성하는 단계 및 상기 kt개의 출력 값들과 상기 kt개의 단백질-리간드 상관 벡터들 각각에 대응하는 결합력 측정 값을 서로 비교하여 상기 둘 이상의 가중치 행렬들, 상기 컨볼루션 신경망, 상기 제1 심층 신경망, 상기 어텐션 모델, 상기 제2 심층 신경망에 대한 기계학습을 수행하는 단계를 포함한다.
본 발명은 기계학습을 기반으로 단백질과 리간드 간의 결합력을 예측할 수 있는 단백질-리간드 결합력 예측 모델 생성 장치 및 그 동작 방법을 제시함으로써, 특정 질병에 대한 약물 효과의 추정이 가능하도록 지원할 수 있다.
도 1은 본 발명의 일실시예에 따른 약물 효과 추정을 위한 기계학습 기반의 단백질-리간드 결합력 예측 모델 생성 장치의 구조를 도시한 도면이다.
도 2는 본 발명의 일실시예에 따른 약물 효과 추정을 위한 기계학습 기반의 단백질-리간드 결합력 예측 모델 생성 장치를 설명하기 위한 프레임워크를 도시한 도면이다.
도 3은 본 발명의 일실시예에 따른 약물 효과 추정을 위한 기계학습 기반의 단백질-리간드 결합력 예측 모델 생성 장치의 동작 방법을 도시한 순서도이다.
이하에서는 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명하기로 한다. 이러한 설명은 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였으며, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 본 명세서 상에서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 사람에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다.
본 문서에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다. 또한, 본 발명의 다양한 실시예들에 있어서, 각 구성요소들, 기능 블록들 또는 수단들은 하나 또는 그 이상의 하부 구성요소로 구성될 수 있고, 각 구성요소들이 수행하는 전기, 전자, 기계적 기능들은 전자회로, 집적회로, ASIC(Application Specific Integrated Circuit) 등 공지된 다양한 소자들 또는 기계적 요소들로 구현될 수 있으며, 각각 별개로 구현되거나 2 이상이 하나로 통합되어 구현될 수도 있다.
한편, 첨부된 블록도의 블록들이나 흐름도의 단계들은 범용 컴퓨터, 특수용 컴퓨터, 휴대용 노트북 컴퓨터, 네트워크 컴퓨터 등 데이터 프로세싱이 가능한 장비의 프로세서나 메모리에 탑재되어 지정된 기능들을 수행하는 컴퓨터 프로그램 명령들(instructions)을 의미하는 것으로 해석될 수 있다. 이들 컴퓨터 프로그램 명령들은 컴퓨터 장치에 구비된 메모리 또는 컴퓨터에서 판독 가능한 메모리에 저장될 수 있기 때문에, 블록도의 블록들 또는 흐름도의 단계들에서 설명된 기능들은 이를 수행하는 명령 수단을 내포하는 제조물로 생산될 수도 있다. 아울러, 각 블록 또는 각 단계는 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 명령들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 가능한 실시예들에서는 블록들 또는 단계들에서 언급된 기능들이 정해진 순서와 달리 실행되는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 실질적으로 동시에 수행되거나, 역순으로 수행될 수 있으며, 경우에 따라 일부 블록들 또는 단계들이 생략된 채로 수행될 수도 있다.
도 1은 본 발명의 일실시예에 따른 약물 효과 추정을 위한 기계학습 기반의 단백질-리간드 결합력 예측 모델 생성 장치의 구조를 도시한 도면이고, 도 2는 본 발명의 일실시예에 따른 약물 효과 추정을 위한 기계학습 기반의 단백질-리간드 결합력 예측 모델 생성 장치를 설명하기 위한 프레임워크를 도시한 도면이다.
도 1을 참조하면, 결합력 예측 모델 생성 장치(110)는 원소 정보 저장부(111), 상관 벡터 저장부(112), 측정 값 저장부(113), 제1 출력 벡터 생성부(114), 어텐션 출력 벡터 생성부(115), 출력 값 생성부(116), 반복 수행 제어부(117) 및 기계학습 수행부(118)를 포함한다.
원소 정보 저장부(111)에는 미리 정해진 n(n은 2이상의 자연수)개의 원소(atom)들에 대한 정보가 저장되어 있다.
예컨대, 원소 정보 저장부(111)에는 하기의 표 1과 같이 9개의 원소들에 대한 정보가 저장되어 있을 수 있다.
탄소 질소 산소 플루오린 염소 브로민 아이오딘
C N O F P S Cl Br I
상관 벡터 저장부(112)에는 서로 다른 k(k는 2이상의 자연수)개의 단백질들과 서로 다른 t(t는 2이상의 자연수)개의 리간드(Ligand)들 사이에서 측정된 상기 n개의 원소들 간의 결합 거리를 성분으로 갖는 n차원의 kt개의 단백질-리간드 상관 벡터들이 저장되어 있다.
예컨대, k를 10, t를 20이라고 하는 경우, 상관 벡터 저장부(112)에는 10개의 단백질들과 20개의 리간드들 사이에서 측정된 상기 표 1과 같은 9개의 원소들 간의 결합 거리를 성분으로 갖는 9차원의 200개의 단백질-리간드 상관 벡터들이 저장되어 있을 수 있다.
관련해서, 단백질 1과 리간드 1이 있다고 하고, 단백질 1과 리간드 1 사이에서 측정된 상기 표 1과 같은 9개의 원소들 간의 결합 거리가 하기의 표 2와 같다고 가정하자.
원소 C N O F P S Cl Br I
결합 거리 5
Figure 112019117825637-pat00001
12
Figure 112019117825637-pat00002
15
Figure 112019117825637-pat00003
23
Figure 112019117825637-pat00004
5
Figure 112019117825637-pat00005
6
Figure 112019117825637-pat00006
8
Figure 112019117825637-pat00007
17
Figure 112019117825637-pat00008
0
Figure 112019117825637-pat00009
여기서, 단백질 1과 리간드 1 중 어느 하나에서 아이오딘(I)이 존재하지 않는 경우, 아이오딘에 대한 단백질 1과 리간드 1 간의 결합 거리는 상기 표 2와 같이 0으로 나타낼 수 있다.
이렇게, 표 2와 같이, 단백질 1과 리간드 1 사이에서 측정된 9개의 원소들 간의 거리가 상기 표 2와 같다고 하는 경우, 단백질 1과 리간드 1 간의 단백질-리간드 상관 벡터는 [5 12 15 23 5 6 8 17 0]으로 나타낼 수 있다.
측정 값 저장부(113)에는 상기 kt개의 단백질-리간드 상관 벡터들 각각에 대응되는 것으로 미리 정해진 결합력 측정 값이 저장되어 있다.
관련해서, 전술한 예시와 같이, 상관 벡터 저장부(112)에 200개의 단백질-리간드 상관 벡터들이 저장되어 있다고 하는 경우, 200개의 단백질-리간드 쌍에서 미리 측정된 결합력 측정 값이 상기 200개의 단백질-리간드 상관 벡터들 각각에 대응되는 값으로 지정되어 측정 값 저장부(113)에 저장되어 있을 수 있다.
이렇게, 상관 벡터 저장부(112)에 저장되어 있는 kt개의 단백질-리간드 상관 벡터들과 측정 값 저장부(113)에 저장되어 있는 kt개의 단백질-리간드 상관 벡터들 각각에 대응되는 결합력 측정 값은 본 발명에서 기계학습을 수행하기 위한 트레이닝 데이터로 활용된다.
제1 출력 벡터 생성부(114)는 상기 kt개의 단백질-리간드 상관 벡터들 중 어느 하나인 제1 단백질-리간드 상관 벡터에 대해 둘 이상의 가중치 행렬들을 곱하여 입력 행렬(221)을 생성한다.
그리고, 제1 출력 벡터 생성부(114)는 상기 입력 행렬(221)이 생성되면, 상기 입력 행렬(221)을 도면부호 222에 도시된 컨볼루션 신경망(Convolutional Neural Network: CNN)에 입력으로 인가하여 복수의 컨볼루션 계층을 통해 컨볼루션 필터를 적용하고 풀링(pooling)을 수행함으로써, 컨볼루션 출력 벡터를 생성한다.
그러고 나서, 제1 출력 벡터 생성부(114)는 상기 컨볼루션 출력 벡터를 도면부호 223에 도시된 그림과 같은 제1 심층 신경망에 입력으로 인가하여 제1 출력 벡터를 생성한다.
어텐션 출력 벡터 생성부(115)는 상기 제1 출력 벡터를 도면부호 224에 도시된 그림과 같은 어텐션(Attention) 모델을 구성하는 디코더의 은닉 벡터로 취급하고, 상기 입력 행렬(221)을 구성하는 각각의 행 벡터를 입력 시퀀스의 임베딩 벡터로 취급하여 상기 어텐션 모델에 인가한 후 상기 은닉 벡터와 상기 임베딩 벡터를 기초로 컨텍스트(context) 벡터를 생성함으로써, 어텐션 출력 벡터를 생성한다.
어텐션 모델은 주로 기계 번역에서 입력 문장이 길어질 경우에 장기 의존성(long term dependencies) 문제가 발생하는 것을 해결하기 위해 만들어졌다. 기본 아이디어는 디코더에서 출력 단어를 예측하는 매 시점마다 인코더의 전체 입력 문장을 다시 한번 참고를 하는데, 이때 전체 입력 문장을 전부 다 동일한 비율로 참고하는 것이 아니라, 해당 시점에서 예측해야 할 단어와 연관이 있는 입력 단어 부분에 좀 더 집중해서 번역을 진행한다는 것이다.
이와 관련해서, 어텐션 출력 벡터 생성부(115)는 상기 제1 출력 벡터를 디코더의 은닉 벡터로 취급하고, 상기 입력 행렬(221)을 구성하는 각 행 백터를 입력 시퀀스의 임베딩 벡터로 보아, 상기 은닉 벡터와 상기 임베딩 벡터 간의 유사도를 나타내는 가중치들을 연산한 후 이 가중치들의 가중합을 연산함으로써, 컨텍스트 벡터를 생성할 수 있다. 이렇게, 컨텍스트 벡터가 생성되면, 어텐션 출력 벡터 생성부(115)는 상기 컨텍스트 벡터와 상기 제1 출력 벡터를 연접하여 상기 어텐션 출력 벡터를 생성할 수 있다.
출력 값 생성부(116)는 상기 어텐션 출력 벡터와 상기 제1 출력 벡터를 연접하여 연접 벡터를 생성한 후 상기 연접 벡터를 도면부호 225에 도시된 그림과 같은 제2 심층 신경망에 입력으로 인가하여 벡터 차원 축소를 수행함으로써, 출력 값을 생성한다.
반복 수행 제어부(117)는 상기 kt개의 단백질-리간드 상관 벡터들 중 상기 제1 단백질-리간드 상관 벡터를 제외한 나머지 단백질-리간드 상관 벡터들 전부에 대해 제1 출력 벡터 생성부(114), 어텐션 출력 벡터 생성부(115) 및 출력 값 생성부(116)에 따른 출력 값 생성 과정의 반복 수행을 제어함으로써, 상기 kt개의 단백질-리간드 상관 벡터들 각각에 대응하는 kt개의 출력 값들을 생성한다.
기계학습 수행부(118)는 상기 kt개의 출력 값들과 상기 kt개의 단백질-리간드 상관 벡터들 각각에 대응하는 결합력 측정 값을 서로 비교하여 상기 둘 이상의 가중치 행렬들, 상기 컨볼루션 신경망, 상기 제1 심층 신경망, 상기 어텐션 모델, 상기 제2 심층 신경망에 대한 기계학습을 수행한다.
이때, 본 발명의 일실시예에 따르면, 기계학습 수행부(118)는 상기 kt개의 출력 값들과 상기 kt개의 단백질-리간드 상관 벡터들 각각에 대응하는 결합력 측정 값을 기초로 사전 설정된 손실 함수(Loss Function)를 기반으로 한 손실 값을 연산하고, 상기 손실 값이 최소가 되도록 상기 둘 이상의 가중치 행렬들, 상기 컨볼루션 신경망, 상기 제1 심층 신경망, 상기 어텐션 모델, 상기 제2 심층 신경망에 대한 기계학습을 수행할 수 있다.
이때, 본 발명의 일실시예에 따르면, 기계학습 수행부(118)는 하기의 수학식 1에 따라 표현되는 상기 손실 함수를 기초로 상기 손실 값을 연산할 수 있다.
Figure 112019117825637-pat00010
여기서, L은 상기 손실 값,
Figure 112019117825637-pat00011
는 상기 kt개의 단백질-리간드 상관 벡터들 각각에 대응하는 결합력 측정 값 중 i번째 결합력 측정 값,
Figure 112019117825637-pat00012
는 상기 kt개의 출력 값들 중 i번째 출력 값을 의미한다.
이때, 본 발명의 일실시예에 따르면, 기계학습 수행부(118)는 상기 손실 값이 최소가 되도록 역전파(backpropagation) 처리를 수행함으로써, 상기 둘 이상의 가중치 행렬들, 상기 컨볼루션 신경망, 상기 제1 심층 신경망, 상기 어텐션 모델, 상기 제2 심층 신경망에 대한 기계학습을 수행할 수 있다.
예컨대, 전술한 예시와 같이, 상관 벡터 저장부(112)에 200개의 단백질-리간드 상관 벡터들이 저장되어 있다고 하고, 측정 값 저장부(113)에 200개의 각 상관 벡터에 대응되는 결합력 측정 값이 저장되어 있다고 하는 경우, 기계학습 수행부(118)는 200개의 단백질-리간드 상관 벡터들 각각에 대한 출력 값과 결합력 측정 값을 상기 수학식 1에 입력으로 인가하여 손실 값을 연산한 후 상기 손실 값이 최소가 되도록 상기 둘 이상의 가중치 행렬들, 상기 컨볼루션 신경망, 상기 제1 심층 신경망, 상기 어텐션 모델, 상기 제2 심층 신경망을 구성하는 각 수치 값이 조정되도록 하는 역전파 처리를 수행함으로써, 기계학습을 완료할 수 있다.
본 발명의 일실시예에 따르면, 결합력 예측 모델 생성 장치(110)는 예측용 상관 벡터 생성부(119), 예측용 제1 출력 벡터 생성부(120), 예측용 어텐션 출력 벡터 생성부(121), 예측용 출력 값 생성부(122) 및 결합력 예측부(123)를 더 포함할 수 있다.
예측용 상관 벡터 생성부(119)는 상기 둘 이상의 가중치 행렬들, 상기 컨볼루션 신경망, 상기 제1 심층 신경망, 상기 어텐션 모델, 상기 제2 심층 신경망에 대한 기계학습이 완료된 이후, 제1 단백질과 제1 리간드 사이에서 측정된 상기 n개의 원소들 간의 결합 거리가 입력으로 인가되면서, 상기 제1 단백질과 상기 제1 리간드 간의 결합력 예측 명령이 인가되면, 상기 제1 단백질과 상기 제1 리간드 사이에서 측정된 상기 n개의 원소들 간의 결합 거리를 성분으로 갖는 n차원의 예측용 단백질-리간드 상관 벡터를 생성한다.
예측용 제1 출력 벡터 생성부(120)는 상기 예측용 단백질-리간드 상관 벡터에 대해 기계학습이 완료된 상기 둘 이상의 가중치 행렬들 곱하여 예측용 입력 행렬(221)을 생성하고, 상기 예측용 입력 행렬(221)을 도면부호 222에 도시된 그림과 같은 기계학습이 완료된 상기 컨볼루션 신경망에 입력으로 인가하여 예측용 컨볼루션 출력 벡터를 생성하며, 상기 예측용 컨볼루션 출력 벡터를 도면부호 223에 도시된 그림과 같은 기계학습이 완료된 상기 제1 심층 신경망에 입력으로 인가하여 예측용 제1 출력 벡터를 생성한다.
그리고, 예측용 어텐션 출력 벡터 생성부(121)는 상기 예측용 제1 출력 벡터를 도면부호 224에 도시된 그림과 같은 기계학습이 완료된 상기 어텐션 모델을 구성하는 디코더의 은닉 벡터로 취급하고, 상기 예측용 입력 행렬(221)을 구성하는 각각의 행 벡터를 입력 시퀀스의 임베딩 벡터로 취급하여 기계학습이 완료된 상기 어텐션 모델에 인가한 후 상기 은닉 벡터와 상기 임베딩 벡터를 기초로 컨텍스트 벡터를 생성함으로써, 예측용 어텐션 출력 벡터를 생성한다.
예측용 출력 값 생성부(122)는 상기 예측용 어텐션 출력 벡터와 상기 예측용 제1 출력 벡터를 연접하여 예측용 연접 벡터를 생성한 후 상기 예측용 연접 벡터를 도면부호 225에 도시된 그림과 같은 기계학습이 완료된 상기 제2 심층 신경망에 입력으로 인가하여 벡터 차원 축소를 수행함으로써, 예측용 출력 값을 생성한다.
결합력 예측부(123)는 상기 예측용 출력 값을 상기 제1 단백질과 상기 제1 리간드 간의 결합력으로 예측한다.
도 3은 본 발명의 일실시예에 따른 약물 효과 추정을 위한 기계학습 기반의 단백질-리간드 결합력 예측 모델 생성 장치의 동작 방법을 도시한 순서도이다.
단계(S310)에서는 미리 정해진 n(n은 2이상의 자연수)개의 원소(atom)들에 대한 정보가 저장되어 있는 원소 정보 저장부를 유지한다.
단계(S320)에서는 서로 다른 k(k는 2이상의 자연수)개의 단백질들과 서로 다른 t(t는 2이상의 자연수)개의 리간드들 사이에서 측정된 상기 n개의 원소들 간의 결합 거리를 성분으로 갖는 n차원의 kt개의 단백질-리간드 상관 벡터들이 저장되어 있는 상관 벡터 저장부를 유지한다.
단계(S330)에서는 상기 kt개의 단백질-리간드 상관 벡터들 각각에 대응되는 것으로 미리 정해진 결합력 측정 값이 저장되어 있는 측정 값 저장부를 유지한다.
단계(S340)에서는 상기 kt개의 단백질-리간드 상관 벡터들 중 어느 하나인 제1 단백질-리간드 상관 벡터에 대해 둘 이상의 가중치 행렬들을 곱하여 입력 행렬을 생성하고, 상기 입력 행렬을 컨볼루션 신경망에 입력으로 인가하여 컨볼루션 출력 벡터를 생성하며, 상기 컨볼루션 출력 벡터를 제1 심층 신경망에 입력으로 인가하여 제1 출력 벡터를 생성한다.
단계(S350)에서는 상기 제1 출력 벡터를 어텐션 모델을 구성하는 디코더의 은닉 벡터로 취급하고, 상기 입력 행렬을 구성하는 각각의 행 벡터를 입력 시퀀스의 임베딩 벡터로 취급하여 상기 어텐션 모델에 인가한 후 상기 은닉 벡터와 상기 임베딩 벡터를 기초로 컨텍스트 벡터를 생성함으로써, 어텐션 출력 벡터를 생성한다.
단계(S360)에서는 상기 어텐션 출력 벡터와 상기 제1 출력 벡터를 연접하여 연접 벡터를 생성한 후 상기 연접 벡터를 제2 심층 신경망에 입력으로 인가하여 벡터 차원 축소를 수행함으로써, 출력 값을 생성한다.
단계(S370)에서는 상기 kt개의 단백질-리간드 상관 벡터들 중 상기 제1 단백질-리간드 상관 벡터를 제외한 나머지 단백질-리간드 상관 벡터들 전부에 대해 상기 제1 출력 벡터를 생성하는 단계, 상기 어텐션 출력 벡터를 생성하는 단계 및 상기 출력 값을 생성하는 단계에 따른 출력 값 생성 과정의 반복 수행을 제어함으로써, 상기 kt개의 단백질-리간드 상관 벡터들 각각에 대응하는 kt개의 출력 값들을 생성한다.
단계(S380)에서는 상기 kt개의 출력 값들과 상기 kt개의 단백질-리간드 상관 벡터들 각각에 대응하는 결합력 측정 값을 서로 비교하여 상기 둘 이상의 가중치 행렬들, 상기 컨볼루션 신경망, 상기 제1 심층 신경망, 상기 어텐션 모델, 상기 제2 심층 신경망에 대한 기계학습을 수행한다.
이때, 본 발명의 일실시예에 따르면, 단계(S380)에서는 상기 kt개의 출력 값들과 상기 kt개의 단백질-리간드 상관 벡터들 각각에 대응하는 결합력 측정 값을 기초로 사전 설정된 손실 함수를 기반으로 한 손실 값을 연산하고, 상기 손실 값이 최소가 되도록 상기 둘 이상의 가중치 행렬들, 상기 컨볼루션 신경망, 상기 제1 심층 신경망, 상기 어텐션 모델, 상기 제2 심층 신경망에 대한 기계학습을 수행할 수 있다.
이때, 본 발명의 일실시예에 따르면, 단계(S380)에서는 상기 수학식 1에 따라 표현되는 상기 손실 함수를 기초로 상기 손실 값을 연산할 수 있다.
이때, 본 발명의 일실시예에 따르면, 단계(S380)에서는 상기 손실 값이 최소가 되도록 역전파 처리를 수행함으로써, 상기 둘 이상의 가중치 행렬들, 상기 컨볼루션 신경망, 상기 제1 심층 신경망, 상기 어텐션 모델, 상기 제2 심층 신경망에 대한 기계학습을 수행할 수 있다.
또한, 본 발명의 일실시예에 따르면, 상기 결합력 예측 모델 생성 장치의 동작 방법은 상기 둘 이상의 가중치 행렬들, 상기 컨볼루션 신경망, 상기 제1 심층 신경망, 상기 어텐션 모델, 상기 제2 심층 신경망에 대한 기계학습이 완료된 이후, 제1 단백질과 제1 리간드 사이에서 측정된 상기 n개의 원소들 간의 결합 거리가 입력으로 인가되면서, 상기 제1 단백질과 상기 제1 리간드 간의 결합력 예측 명령이 인가되면, 상기 제1 단백질과 상기 제1 리간드 사이에서 측정된 상기 n개의 원소들 간의 결합 거리를 성분으로 갖는 n차원의 예측용 단백질-리간드 상관 벡터를 생성하는 단계, 상기 예측용 단백질-리간드 상관 벡터에 대해 기계학습이 완료된 상기 둘 이상의 가중치 행렬들 곱하여 예측용 입력 행렬을 생성하고, 상기 예측용 입력 행렬을 기계학습이 완료된 상기 컨볼루션 신경망에 입력으로 인가하여 예측용 컨볼루션 출력 벡터를 생성하며, 상기 예측용 컨볼루션 출력 벡터를 기계학습이 완료된 상기 제1 심층 신경망에 입력으로 인가하여 예측용 제1 출력 벡터를 생성하는 단계, 상기 예측용 제1 출력 벡터를 기계학습이 완료된 상기 어텐션 모델을 구성하는 디코더의 은닉 벡터로 취급하고, 상기 예측용 입력 행렬을 구성하는 각각의 행 벡터를 입력 시퀀스의 임베딩 벡터로 취급하여 기계학습이 완료된 상기 어텐션 모델에 인가한 후 상기 은닉 벡터와 상기 임베딩 벡터를 기초로 컨텍스트 벡터를 생성함으로써, 예측용 어텐션 출력 벡터를 생성하는 단계, 상기 예측용 어텐션 출력 벡터와 상기 예측용 제1 출력 벡터를 연접하여 예측용 연접 벡터를 생성한 후 상기 예측용 연접 벡터를 기계학습이 완료된 상기 제2 심층 신경망에 입력으로 인가하여 벡터 차원 축소를 수행함으로써, 예측용 출력 값을 생성하는 단계 및 상기 예측용 출력 값을 상기 제1 단백질과 상기 제1 리간드 간의 결합력으로 예측하는 단계를 더 포함할 수 있다.
이상, 도 3을 참조하여 본 발명의 일실시예에 따른 약물 효과 추정을 위한 기계학습 기반의 단백질-리간드 결합력 예측 모델 생성 장치의 동작 방법에 대해 설명하였다. 여기서, 본 발명의 일실시예에 따른 약물 효과 추정을 위한 기계학습 기반의 단백질-리간드 결합력 예측 모델 생성 장치의 동작 방법은 도 1 내지 도 2를 이용하여 설명한 약물 효과 추정을 위한 기계학습 기반의 단백질-리간드 결합력 예측 모델 생성 장치(110)의 동작에 대한 구성과 대응될 수 있으므로, 이에 대한 보다 상세한 설명은 생략하기로 한다.
본 발명의 일실시예에 따른 약물 효과 추정을 위한 기계학습 기반의 단백질-리간드 결합력 예측 모델 생성 장치의 동작 방법은 컴퓨터와의 결합을 통해 실행시키기 위한 저장매체에 저장된 컴퓨터 프로그램으로 구현될 수 있다.
또한, 본 발명의 일실시예에 따른 약물 효과 추정을 위한 기계학습 기반의 단백질-리간드 결합력 예측 모델 생성 장치의 동작 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.
110: 약물 효과 추정을 위한 기계학습 기반의 단백질-리간드 결합력 예측 모델 생성 장치
111: 원소 정보 저장부 112: 상관 벡터 저장부
113: 측정 값 저장부 114: 제1 출력 벡터 생성부
115: 어텐션 출력 벡터 생성부 116: 출력 값 생성부
117: 반복 수행 제어부 118: 기계학습 수행부
119: 예측용 상관 벡터 생성부 120: 예측용 제1 출력 벡터 생성부
121: 예측용 어텐션 출력 벡터 생성부 122: 예측용 출력 값 생성부
123: 결합력 예측부

Claims (12)

  1. 미리 정해진 n(n은 2이상의 자연수)개의 원소(atom)들에 대한 정보가 저장되어 있는 원소 정보 저장부;
    서로 다른 k(k는 2이상의 자연수)개의 단백질들과 서로 다른 t(t는 2이상의 자연수)개의 리간드(Ligand)들 사이에서 측정된 상기 n개의 원소들 간의 결합 거리를 성분으로 갖는 n차원의 kt개의 단백질-리간드 상관 벡터들이 저장되어 있는 상관 벡터 저장부;
    상기 kt개의 단백질-리간드 상관 벡터들 각각에 대응되는 것으로 미리 정해진 결합력 측정 값이 저장되어 있는 측정 값 저장부;
    상기 kt개의 단백질-리간드 상관 벡터들 중 어느 하나인 제1 단백질-리간드 상관 벡터에 대해 둘 이상의 가중치 행렬들을 곱하여 입력 행렬을 생성하고, 상기 입력 행렬을 컨볼루션 신경망(Convolutional Neural Network: CNN)에 입력으로 인가하여 컨볼루션 출력 벡터를 생성하며, 상기 컨볼루션 출력 벡터를 제1 심층 신경망에 입력으로 인가하여 제1 출력 벡터를 생성하는 제1 출력 벡터 생성부;
    상기 제1 출력 벡터를 어텐션(Attention) 모델을 구성하는 디코더의 은닉 벡터로 취급하고, 상기 입력 행렬을 구성하는 각각의 행 벡터를 입력 시퀀스의 임베딩 벡터로 취급하여 상기 어텐션 모델에 인가한 후 상기 은닉 벡터와 상기 임베딩 벡터를 기초로 컨텍스트(context) 벡터를 생성함으로써, 어텐션 출력 벡터를 생성하는 어텐션 출력 벡터 생성부;
    상기 어텐션 출력 벡터와 상기 제1 출력 벡터를 연접하여 연접 벡터를 생성한 후 상기 연접 벡터를 제2 심층 신경망에 입력으로 인가하여 벡터 차원 축소를 수행함으로써, 출력 값을 생성하는 출력 값 생성부;
    상기 kt개의 단백질-리간드 상관 벡터들 중 상기 제1 단백질-리간드 상관 벡터를 제외한 나머지 단백질-리간드 상관 벡터들 전부에 대해 상기 제1 출력 벡터 생성부, 상기 어텐션 출력 벡터 생성부 및 상기 출력 값 생성부에 따른 출력 값 생성 과정의 반복 수행을 제어함으로써, 상기 kt개의 단백질-리간드 상관 벡터들 각각에 대응하는 kt개의 출력 값들을 생성하는 반복 수행 제어부; 및
    상기 kt개의 출력 값들과 상기 kt개의 단백질-리간드 상관 벡터들 각각에 대응하는 결합력 측정 값을 서로 비교하여 상기 둘 이상의 가중치 행렬들, 상기 컨볼루션 신경망, 상기 제1 심층 신경망, 상기 어텐션 모델, 상기 제2 심층 신경망에 대한 기계학습을 수행하는 기계학습 수행부
    를 포함하는 약물 효과 추정을 위한 기계학습 기반의 단백질-리간드 결합력 예측 모델 생성 장치.
  2. 제1항에 있어서,
    상기 기계학습 수행부는
    상기 kt개의 출력 값들과 상기 kt개의 단백질-리간드 상관 벡터들 각각에 대응하는 결합력 측정 값을 기초로 사전 설정된 손실 함수(Loss Function)를 기반으로 한 손실 값을 연산하고, 상기 손실 값이 최소가 되도록 상기 둘 이상의 가중치 행렬들, 상기 컨볼루션 신경망, 상기 제1 심층 신경망, 상기 어텐션 모델, 상기 제2 심층 신경망에 대한 기계학습을 수행하는 약물 효과 추정을 위한 기계학습 기반의 단백질-리간드 결합력 예측 모델 생성 장치.
  3. 제2항에 있어서,
    상기 기계학습 수행부는
    하기의 수학식 1에 따라 표현되는 상기 손실 함수를 기초로 상기 손실 값을 연산하는 약물 효과 추정을 위한 기계학습 기반의 단백질-리간드 결합력 예측 모델 생성 장치.
    [수학식 1]
    Figure 112019117825637-pat00013

    여기서, L은 상기 손실 값,
    Figure 112019117825637-pat00014
    는 상기 kt개의 단백질-리간드 상관 벡터들 각각에 대응하는 결합력 측정 값 중 i번째 결합력 측정 값,
    Figure 112019117825637-pat00015
    는 상기 kt개의 출력 값들 중 i번째 출력 값을 의미함.
  4. 제3항에 있어서,
    상기 기계학습 수행부는
    상기 손실 값이 최소가 되도록 역전파(backpropagation) 처리를 수행함으로써, 상기 둘 이상의 가중치 행렬들, 상기 컨볼루션 신경망, 상기 제1 심층 신경망, 상기 어텐션 모델, 상기 제2 심층 신경망에 대한 기계학습을 수행하는 약물 효과 추정을 위한 기계학습 기반의 단백질-리간드 결합력 예측 모델 생성 장치.
  5. 제1항에 있어서,
    상기 둘 이상의 가중치 행렬들, 상기 컨볼루션 신경망, 상기 제1 심층 신경망, 상기 어텐션 모델, 상기 제2 심층 신경망에 대한 기계학습이 완료된 이후, 제1 단백질과 제1 리간드 사이에서 측정된 상기 n개의 원소들 간의 결합 거리가 입력으로 인가되면서, 상기 제1 단백질과 상기 제1 리간드 간의 결합력 예측 명령이 인가되면, 상기 제1 단백질과 상기 제1 리간드 사이에서 측정된 상기 n개의 원소들 간의 결합 거리를 성분으로 갖는 n차원의 예측용 단백질-리간드 상관 벡터를 생성하는 예측용 상관 벡터 생성부;
    상기 예측용 단백질-리간드 상관 벡터에 대해 기계학습이 완료된 상기 둘 이상의 가중치 행렬들을 곱하여 예측용 입력 행렬을 생성하고, 상기 예측용 입력 행렬을 기계학습이 완료된 상기 컨볼루션 신경망에 입력으로 인가하여 예측용 컨볼루션 출력 벡터를 생성하며, 상기 예측용 컨볼루션 출력 벡터를 기계학습이 완료된 상기 제1 심층 신경망에 입력으로 인가하여 예측용 제1 출력 벡터를 생성하는 예측용 제1 출력 벡터 생성부;
    상기 예측용 제1 출력 벡터를 기계학습이 완료된 상기 어텐션 모델을 구성하는 디코더의 은닉 벡터로 취급하고, 상기 예측용 입력 행렬을 구성하는 각각의 행 벡터를 입력 시퀀스의 임베딩 벡터로 취급하여 기계학습이 완료된 상기 어텐션 모델에 인가한 후 상기 은닉 벡터와 상기 임베딩 벡터를 기초로 컨텍스트 벡터를 생성함으로써, 예측용 어텐션 출력 벡터를 생성하는 예측용 어텐션 출력 벡터 생성부;
    상기 예측용 어텐션 출력 벡터와 상기 예측용 제1 출력 벡터를 연접하여 예측용 연접 벡터를 생성한 후 상기 예측용 연접 벡터를 기계학습이 완료된 상기 제2 심층 신경망에 입력으로 인가하여 벡터 차원 축소를 수행함으로써, 예측용 출력 값을 생성하는 예측용 출력 값 생성부; 및
    상기 예측용 출력 값을 상기 제1 단백질과 상기 제1 리간드 간의 결합력으로 예측하는 결합력 예측부
    를 더 포함하는 약물 효과 추정을 위한 기계학습 기반의 단백질-리간드 결합력 예측 모델 생성 장치.
  6. 미리 정해진 n(n은 2이상의 자연수)개의 원소(atom)들에 대한 정보가 저장되어 있는 원소 정보 저장부를 유지하는 단계;
    서로 다른 k(k는 2이상의 자연수)개의 단백질들과 서로 다른 t(t는 2이상의 자연수)개의 리간드(Ligand)들 사이에서 측정된 상기 n개의 원소들 간의 결합 거리를 성분으로 갖는 n차원의 kt개의 단백질-리간드 상관 벡터들이 저장되어 있는 상관 벡터 저장부를 유지하는 단계;
    상기 kt개의 단백질-리간드 상관 벡터들 각각에 대응되는 것으로 미리 정해진 결합력 측정 값이 저장되어 있는 측정 값 저장부를 유지하는 단계;
    상기 kt개의 단백질-리간드 상관 벡터들 중 어느 하나인 제1 단백질-리간드 상관 벡터에 대해 둘 이상의 가중치 행렬들을 곱하여 입력 행렬을 생성하고, 상기 입력 행렬을 컨볼루션 신경망(Convolutional Neural Network: CNN)에 입력으로 인가하여 컨볼루션 출력 벡터를 생성하며, 상기 컨볼루션 출력 벡터를 제1 심층 신경망에 입력으로 인가하여 제1 출력 벡터를 생성하는 단계;
    상기 제1 출력 벡터를 어텐션(Attention) 모델을 구성하는 디코더의 은닉 벡터로 취급하고, 상기 입력 행렬을 구성하는 각각의 행 벡터를 입력 시퀀스의 임베딩 벡터로 취급하여 상기 어텐션 모델에 인가한 후 상기 은닉 벡터와 상기 임베딩 벡터를 기초로 컨텍스트(context) 벡터를 생성함으로써, 어텐션 출력 벡터를 생성하는 단계;
    상기 어텐션 출력 벡터와 상기 제1 출력 벡터를 연접하여 연접 벡터를 생성한 후 상기 연접 벡터를 제2 심층 신경망에 입력으로 인가하여 벡터 차원 축소를 수행함으로써, 출력 값을 생성하는 단계;
    상기 kt개의 단백질-리간드 상관 벡터들 중 상기 제1 단백질-리간드 상관 벡터를 제외한 나머지 단백질-리간드 상관 벡터들 전부에 대해 상기 제1 출력 벡터를 생성하는 단계, 상기 어텐션 출력 벡터를 생성하는 단계 및 상기 출력 값을 생성하는 단계에 따른 출력 값 생성 과정의 반복 수행을 제어함으로써, 상기 kt개의 단백질-리간드 상관 벡터들 각각에 대응하는 kt개의 출력 값들을 생성하는 단계; 및
    상기 kt개의 출력 값들과 상기 kt개의 단백질-리간드 상관 벡터들 각각에 대응하는 결합력 측정 값을 서로 비교하여 상기 둘 이상의 가중치 행렬들, 상기 컨볼루션 신경망, 상기 제1 심층 신경망, 상기 어텐션 모델, 상기 제2 심층 신경망에 대한 기계학습을 수행하는 단계
    를 포함하는 약물 효과 추정을 위한 기계학습 기반의 단백질-리간드 결합력 예측 모델 생성 장치의 동작 방법.
  7. 제6항에 있어서,
    상기 기계학습을 수행하는 단계는
    상기 kt개의 출력 값들과 상기 kt개의 단백질-리간드 상관 벡터들 각각에 대응하는 결합력 측정 값을 기초로 사전 설정된 손실 함수(Loss Function)를 기반으로 한 손실 값을 연산하고, 상기 손실 값이 최소가 되도록 상기 둘 이상의 가중치 행렬들, 상기 컨볼루션 신경망, 상기 제1 심층 신경망, 상기 어텐션 모델, 상기 제2 심층 신경망에 대한 기계학습을 수행하는 약물 효과 추정을 위한 기계학습 기반의 단백질-리간드 결합력 예측 모델 생성 장치의 동작 방법.
  8. 제7항에 있어서,
    상기 기계학습을 수행하는 단계는
    하기의 수학식 1에 따라 표현되는 상기 손실 함수를 기초로 상기 손실 값을 연산하는 약물 효과 추정을 위한 기계학습 기반의 단백질-리간드 결합력 예측 모델 생성 장치의 동작 방법.
    [수학식 1]
    Figure 112019117825637-pat00016

    여기서, L은 상기 손실 값,
    Figure 112019117825637-pat00017
    는 상기 kt개의 단백질-리간드 상관 벡터들 각각에 대응하는 결합력 측정 값 중 i번째 결합력 측정 값,
    Figure 112019117825637-pat00018
    는 상기 kt개의 출력 값들 중 i번째 출력 값을 의미함.
  9. 제8항에 있어서,
    상기 기계학습을 수행하는 단계는
    상기 손실 값이 최소가 되도록 역전파(backpropagation) 처리를 수행함으로써, 상기 둘 이상의 가중치 행렬들, 상기 컨볼루션 신경망, 상기 제1 심층 신경망, 상기 어텐션 모델, 상기 제2 심층 신경망에 대한 기계학습을 수행하는 약물 효과 추정을 위한 기계학습 기반의 단백질-리간드 결합력 예측 모델 생성 장치의 동작 방법.
  10. 제6항에 있어서,
    상기 둘 이상의 가중치 행렬들, 상기 컨볼루션 신경망, 상기 제1 심층 신경망, 상기 어텐션 모델, 상기 제2 심층 신경망에 대한 기계학습이 완료된 이후, 제1 단백질과 제1 리간드 사이에서 측정된 상기 n개의 원소들 간의 결합 거리가 입력으로 인가되면서, 상기 제1 단백질과 상기 제1 리간드 간의 결합력 예측 명령이 인가되면, 상기 제1 단백질과 상기 제1 리간드 사이에서 측정된 상기 n개의 원소들 간의 결합 거리를 성분으로 갖는 n차원의 예측용 단백질-리간드 상관 벡터를 생성하는 단계;
    상기 예측용 단백질-리간드 상관 벡터에 대해 기계학습이 완료된 상기 둘 이상의 가중치 행렬들을 곱하여 예측용 입력 행렬을 생성하고, 상기 예측용 입력 행렬을 기계학습이 완료된 상기 컨볼루션 신경망에 입력으로 인가하여 예측용 컨볼루션 출력 벡터를 생성하며, 상기 예측용 컨볼루션 출력 벡터를 기계학습이 완료된 상기 제1 심층 신경망에 입력으로 인가하여 예측용 제1 출력 벡터를 생성하는 단계;
    상기 예측용 제1 출력 벡터를 기계학습이 완료된 상기 어텐션 모델을 구성하는 디코더의 은닉 벡터로 취급하고, 상기 예측용 입력 행렬을 구성하는 각각의 행 벡터를 입력 시퀀스의 임베딩 벡터로 취급하여 기계학습이 완료된 상기 어텐션 모델에 인가한 후 상기 은닉 벡터와 상기 임베딩 벡터를 기초로 컨텍스트 벡터를 생성함으로써, 예측용 어텐션 출력 벡터를 생성하는 단계;
    상기 예측용 어텐션 출력 벡터와 상기 예측용 제1 출력 벡터를 연접하여 예측용 연접 벡터를 생성한 후 상기 예측용 연접 벡터를 기계학습이 완료된 상기 제2 심층 신경망에 입력으로 인가하여 벡터 차원 축소를 수행함으로써, 예측용 출력 값을 생성하는 단계; 및
    상기 예측용 출력 값을 상기 제1 단백질과 상기 제1 리간드 간의 결합력으로 예측하는 단계
    를 더 포함하는 약물 효과 추정을 위한 기계학습 기반의 단백질-리간드 결합력 예측 모델 생성 장치의 동작 방법.
  11. 제6항 내지 제10항 중 어느 한 항의 방법을 컴퓨터와의 결합을 통해 실행시키기 위한 컴퓨터 프로그램을 기록한 컴퓨터 판독 가능 기록 매체.
  12. 제6항 내지 제10항 중 어느 한 항의 방법을 컴퓨터와의 결합을 통해 실행시키기 위한 저장매체에 저장된 컴퓨터 프로그램.
KR1020190147354A 2019-11-18 2019-11-18 약물 효과 추정을 위한 기계학습 기반의 단백질-리간드 결합력 예측 모델 생성 장치 및 그 동작 방법 KR102237189B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190147354A KR102237189B1 (ko) 2019-11-18 2019-11-18 약물 효과 추정을 위한 기계학습 기반의 단백질-리간드 결합력 예측 모델 생성 장치 및 그 동작 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190147354A KR102237189B1 (ko) 2019-11-18 2019-11-18 약물 효과 추정을 위한 기계학습 기반의 단백질-리간드 결합력 예측 모델 생성 장치 및 그 동작 방법

Publications (1)

Publication Number Publication Date
KR102237189B1 true KR102237189B1 (ko) 2021-04-07

Family

ID=75469216

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190147354A KR102237189B1 (ko) 2019-11-18 2019-11-18 약물 효과 추정을 위한 기계학습 기반의 단백질-리간드 결합력 예측 모델 생성 장치 및 그 동작 방법

Country Status (1)

Country Link
KR (1) KR102237189B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114360637A (zh) * 2022-01-10 2022-04-15 山东省计算中心(国家超级计算济南中心) 一种基于图注意力网络的蛋白质-配体亲和力评价方法
CN115738747A (zh) * 2022-11-29 2023-03-07 浙江致远环境科技股份有限公司 用于脱硫脱硝去除二噁英的陶瓷复合纤维催化滤管及其制备方法
KR102617957B1 (ko) 2023-04-14 2023-12-27 고려대학교산학협력단 비공유결합 기반 단백질-리간드 결합 친화도 예측 방법 및 장치

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Jaechang Lim 외, Predicting Drug-Target Interaction Using a Novel Graph Neural Network with 3D Structure-Embedded Graph Representation, JCIM, 2019.08.23., Vol.59, pp.3981-3988 *
Jose Jimenez 외, KDEEP: Protein-Ligand Absolute Binding Affinity Prediction via 3D-Convolutional Neural Networks, JCIM, 2018.01.08., Vol.58, pp287-296. *
Liangzhen Zheng 외, OnionNet: a Multiple-Layer Intermolecular-Contact-Based Convolutional Neural Network for Protein-Ligand Binding Affinity Prediction, ACS Omega, 2019.09.16., Vol.4, pp15956-15965. *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114360637A (zh) * 2022-01-10 2022-04-15 山东省计算中心(国家超级计算济南中心) 一种基于图注意力网络的蛋白质-配体亲和力评价方法
CN115738747A (zh) * 2022-11-29 2023-03-07 浙江致远环境科技股份有限公司 用于脱硫脱硝去除二噁英的陶瓷复合纤维催化滤管及其制备方法
CN115738747B (zh) * 2022-11-29 2024-01-23 浙江致远环境科技股份有限公司 用于脱硫脱硝去除二噁英的陶瓷复合纤维催化滤管及其制备方法
KR102617957B1 (ko) 2023-04-14 2023-12-27 고려대학교산학협력단 비공유결합 기반 단백질-리간드 결합 친화도 예측 방법 및 장치

Similar Documents

Publication Publication Date Title
KR102237189B1 (ko) 약물 효과 추정을 위한 기계학습 기반의 단백질-리간드 결합력 예측 모델 생성 장치 및 그 동작 방법
CN111368565B (zh) 文本翻译方法、装置、存储介质和计算机设备
CN113705779B (zh) 用于数据项生成的循环神经网络
KR102424540B1 (ko) 문장 생성 모델의 업데이트 방법 및 문장 생성 장치
EP3454302B1 (en) Approximating mesh deformation for character rigs
US20200126539A1 (en) Speech recognition using convolutional neural networks
CN109710915B (zh) 复述语句生成方法及装置
CN109785826B (zh) 用于嵌入式模型的迹范数正则化和更快推理的系统和方法
US20190155909A1 (en) Machine translation method and apparatus
KR102063562B1 (ko) 포인터 네트워크의 학습을 통해 고품질의 메쉬 구조의 생성을 지원하기 위한 그래픽 처리 장치 및 그 동작 방법
CN114503203A (zh) 使用自注意力神经网络的由氨基酸序列的蛋白质结构预测
CN109447096B (zh) 一种基于机器学习的扫视路径预测方法和装置
CN109858046A (zh) 利用辅助损失来学习神经网络中的长期依赖性
US11790274B2 (en) Training neural networks to generate structured embeddings
CN108805260A (zh) 一种图说生成方法及装置
WO2021263238A1 (en) Retrosynthesis using neural networks
US20220188382A1 (en) Information processing apparatus, information processing method, and computer-readable recording medium
CN113703768A (zh) 张量程序优化方法及装置
US11227206B1 (en) Generating output sequences from input sequences using neural networks
Sacks et al. Neural network approaches for soft biological tissue and organ simulations
US11570318B2 (en) Performing global image editing using editing operations determined from natural language requests
KR102482472B1 (ko) 기계학습 기반의 꼭짓점 추출을 통해 기울어진 차량 번호판 이미지를 직사각형화시킬 수 있는 전자 장치 및 그 동작 방법
JP2023543666A (ja) ペプチドベースのワクチン生成
CN114267366A (zh) 通过离散表示学习进行语音降噪
CN116485961A (zh) 一种手语动画生成方法、设备和介质

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant