KR20210027668A - 푸리에 디스크립터와 인공신경망을 이용한 타겟 단백질에 대한 화합물 활성 예측 시스템 - Google Patents

푸리에 디스크립터와 인공신경망을 이용한 타겟 단백질에 대한 화합물 활성 예측 시스템 Download PDF

Info

Publication number
KR20210027668A
KR20210027668A KR1020190107480A KR20190107480A KR20210027668A KR 20210027668 A KR20210027668 A KR 20210027668A KR 1020190107480 A KR1020190107480 A KR 1020190107480A KR 20190107480 A KR20190107480 A KR 20190107480A KR 20210027668 A KR20210027668 A KR 20210027668A
Authority
KR
South Korea
Prior art keywords
compound
activity
descriptor
protein
neural network
Prior art date
Application number
KR1020190107480A
Other languages
English (en)
Inventor
조경민
이승윤
김태훈
김남석
정동건
Original Assignee
주식회사 에일론
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 에일론 filed Critical 주식회사 에일론
Priority to KR1020190107480A priority Critical patent/KR20210027668A/ko
Publication of KR20210027668A publication Critical patent/KR20210027668A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

본 발명은 인공지능을 이용해 단백질과 화합물의 결합 정보를 학습하여, 주어진 단백질과 화합물이 결합하여 활성을 나타낼 수 있는지를 판단하고 예측하는, 푸리에 디스크립터와 인공신경망을 이용한 타겟 단백질에 대한 화합물 활성 예측 시스템에 관한 것으로서, 타겟 단백질에 대한 화합물의 활성 또는 비활성의 활성 데이터를 수집하는 활성데이터 수집부; 단백질 또는 화합물에 대한 3차원 형상을 형성하는 3D형상 형성부; 단백질 또는 화합물의 3차원 형상 데이터에 대해 푸리에 변환을 적용하여 디스크립터를 산출하는 디스크립터 산출부; 단백질의 디스크립터, 및 화합물의 디스크립터, 및, 활성 데이터를 이용하여, 신경망 모델을 학습시키는 모델 학습부; 및, 신경망 모델을 이용하여 검사대상 단백질에 대한 검사대상 화합물의 활성을 예측하는 활성 예측부를 포함하는 구성을 마련한다.
상기와 같은 시스템에 의하여, 인공지능을 이용해 단백질과 화합물의 결합 정보를 학습하여 그 활성을 예측함으로써, 실험적으로 테스트할 화합물을 빠르게 선정하여 유효물질 발굴에 걸리는 시간과 비용을 대폭 단축시킬 수 있다.

Description

푸리에 디스크립터와 인공신경망을 이용한 타겟 단백질에 대한 화합물 활성 예측 시스템 { A system of predicting compound activity for target protein using Fourier descriptor and artificial neural network }
본 발명은 신약개발에 있어서 초기단계인 유효물질 발굴 단계를 빠른 시간 내에 효율적으로 처리하기 위하여, 인공지능을 이용해 단백질과 화합물의 결합 정보를 학습하여, 주어진 단백질과 화합물이 결합하여 활성을 나타낼 수 있는지를 판단하고 예측하는, 푸리에 디스크립터와 인공신경망을 이용한 타겟 단백질에 대한 화합물 활성 예측 시스템에 관한 것이다.
특히, 본 발명은 3차원(3D)으로 표현된 단백질과 화합물의 표면 정보로부터 수학적 변환을 통해 특징 디스크립터를 생성하고, 특징 디스크립터를 이용하여 인공신경망을 통해 단백질의 기질 결합 위치와 화합물의 상보적 유사성을 학습시키고 화합물 활성을 예측하는, 푸리에 디스크립터와 인공신경망을 이용한 타겟 단백질에 대한 화합물 활성 예측 시스템에 관한 것이다.
일반적으로, 유효물질 또는 선도물질 발굴과정은 새로운 약물의 개발을 위한 기초연구부터 임상 그리고 허가에 이르는 여러 단계의 신약개발 사슬에서 극초기 단계이며 고품질의 선도물질은 임상 성공을 위한 기초를 다져주는 출발점이다.
신약개발은 일반적으로 개발하고자 하는 질병의 타깃 선정으로 시작되고 알려진 화합물을 스크리닝하고, 초기 유효물질을 고르고 검증하고, 간단한 최적화 과정을 거처서 선도물질을 선정하게 된다. 선정된 선도물질은 의약 화학의 여러가지 방법을 통하여 후보물질로 만들어지고 임상실험에 사용된다. 이러한 이유로 유효물질 또는 선도물질의 선정과정은 후보물질의 임상에서의 약리활성 및 독성에 관계되는 화합물의 구조적 특성의 출발점이고, 신약개발 사슬에서 중요한 단계이다.
종래기술에 따른 신약개발 발굴 과정은, 대량의 화합물의 약효 스크리닝 과정부터 출발한다. 즉, 이를 통해 도출해낸 초기 약리활성을 지니는 공통 구조를 유효물질로 하여, 구조적으로 유사한 화합물이나 유도체를 합성하여 약리활성도를 증가시키며 독성이나 부작용을 줄이고 체내 약물 전달 시스템의 문제를 해결한다. 그러나 이러한 화합물의 약효 스크리닝 과정은 근본적인 경험적 방법으로서 결과에 대한 사전 예측 없이 진행되기 때문에, 약효시험 비용이나 화합물 확보 및 관리비용 측면에서 막대한 비용과 시간이 필요하다는 문제점이 있다.
특히, 최근에는 유효물질을 찾기 위해 다중 스크리닝법이 적용되고 있다. 특정 타겟 단백질을 대상으로 천연물이나 화학 합성물 라이브러리를 스크리닝함으로써 타겟 단백질에 반응(결합 또는 발현)하는 후보물질을 동정하고 있다. 이러한 방법은 다양한 물질을 대상으로 스크리닝 할 수 있으므로 최적의 후보물질을 동정할 수 있는 장점이 있는 반면 시간과 경비가 많이 드는 단점이 있다.
즉, 유효물질 발굴을 위해서는 수많은 화합물 중에서 해당 질병의 기전을 조절하는 타겟 단백질에 활성을 나타내는 화합물을 찾아내야 한다. 그러나, 기 존재하는 화합물 또는 새롭게 합성 가능한 화합물의 수를 고려하면, 타겟 단백질에 어떤 화합물이 활성을 나타내는지를 실험적으로 찾아내는 것은 많은 시간과 비용이 소모된다.
이러한 문제를 해결하고자, 표적 단백질의 3차 구조가 밝혀진 경우에는 분자동역학 시뮬레이션 등 컴퓨터 시뮬레이션을 통하여 표적부위의 구조에 결합할 수 있는 후보물질을 효율적으로 동정하는 기술이 제시되고 있다[특허문헌 1]. 그러나 상기 선행기술은 유효물질 또는 선도물질을 도출하는 과정에서 연구자의 경험에 따라 결과가 달라질 수 있다는 문제점이 있다.
또한, 약리활성을 갖는 화합물들의 정보를 수집하여 약리활성 별로 그룹핑하고, 유사 약리활성 그룹 내 화합물들을 최소 화학적 기능 단위로 조각화하여 조각구조들을 도출하는 기술이 제시되고 있다[특허문헌 2]. 즉, 조각구조가 선도물질이 되어, 이를 기반으로 한 약물발견 및 가상 스크리닝이 사용된다. 그러나 상기 선행기술은 화합물의 약리 활성 정보가 필요하므로 이미 실험된 화합물들에 대해서만 분석이 가능하며, 조각구조로부터 다시 스크리닝 작업을 수행해야 한다는 문제점이 있다.
한국 공개특허공보 제10-2018-0058648호(2018.06.01.공개) 한국 공개특허공보 제10-2019-0000167호(2019.01.02.공개)
http://dude.docking.org/ Connolly, M. L., "Analytical molecular surface calculation.", J. Appl. Cryst. 1983, 16, 548-558
본 발명의 목적은 상술한 바와 같은 문제점을 해결하기 위한 것으로, 3차원(3D)으로 표현된 단백질과 화합물의 표면 정보로부터 수학적 변환을 통해 1차원 벡터의 특징 디스크립터를 생성하고, 특징 디스크립터를 이용하여 인공신경망을 통해 단백질의 기질 결합 위치와 화합물의 상보적 유사성을 학습시키고 화합물 활성을 예측하는, 푸리에 디스크립터와 인공신경망을 이용한 타겟 단백질에 대한 화합물 활성 예측 시스템을 제공하는 것이다.
또한, 본 발명의 목적은 단백질 및 화합물의 형상(또는 3차원 정보)을 코놀리 표면(Connolly surface) 생성을 통해 그물망(mesh) 형태로 표현하고, 특히, 단백질의 기질 결합부위의 형상을 추출하여 화합물에 상보적인 형태로 가공하고, 각각의 형상을 특징 디스크립터로 나타내어 인공신경망 학습을 위한 데이터로 사용하는, 푸리에 디스크립터와 인공신경망을 이용한 타겟 단백질에 대한 화합물 활성 예측 시스템을 제공하는 것이다.
특히, 본 발명의 목적은 추출된 단백질 기질 결합부위와 화합물의 형상에 대한 3차원 구조를 수학적으로 표현하기 위해 푸리에 변환(fourier transform)을 도입하는, 푸리에 디스크립터와 인공신경망을 이용한 타겟 단백질에 대한 화합물 활성 예측 시스템을 제공하는 것이다.
상기 목적을 달성하기 위해 본 발명은 푸리에 디스크립터와 인공신경망을 이용한 타겟 단백질에 대한 화합물 활성 예측 시스템에 관한 것으로서, 타겟 단백질에 대한 화합물의 활성 또는 비활성의 활성 데이터를 수집하는 활성데이터 수집부; 단백질 또는 화합물에 대한 3차원 형상을 형성하는 3D형상 형성부; 단백질 또는 화합물의 3차원 형상 데이터에 대해 푸리에 변환을 적용하여 디스크립터를 산출하는 디스크립터 산출부; 단백질의 디스크립터, 및 화합물의 디스크립터, 및, 활성 데이터를 이용하여, 신경망 모델을 학습시키는 모델 학습부; 및, 신경망 모델을 이용하여 검사대상 단백질에 대한 검사대상 화합물의 활성을 예측하는 활성 예측부를 포함하는 것을 특징으로 한다.
또한, 본 발명은 푸리에 디스크립터와 인공신경망을 이용한 타겟 단백질에 대한 화합물 활성 예측 시스템에 있어서, 상기 3D형상 형성부는 단백질 또는 화합물에 대한 코놀리 표면을 구하고, 구한 코놀리 표면으로부터 3차원 형상을 형성하는 것을 특징으로 한다.
또한, 본 발명은 푸리에 디스크립터와 인공신경망을 이용한 타겟 단백질에 대한 화합물 활성 예측 시스템에 있어서, 상기 3D형상 형성부는 단백질의 경우, 단백질의 기질 결합부위의 표면만을 추출하고, 추출된 표면에 대한 3차원 형상을 추출하는 것을 특징으로 한다.
또한, 본 발명은 푸리에 디스크립터와 인공신경망을 이용한 타겟 단백질에 대한 화합물 활성 예측 시스템에 있어서, 상기 3D형상 형성부는 추출된 표면을 삼각 그물망 구조(triangular mesh)로 변환하고, 면과 꼭지점의 정보를 통합하고 변환하여 3차원 형상을 생성하는 것을 특징으로 한다.
또한, 본 발명은 푸리에 디스크립터와 인공신경망을 이용한 타겟 단백질에 대한 화합물 활성 예측 시스템에 있어서, 상기 디스크립터 산출부는 추출된 3차원 형상 데이터를 구성하는 각 좌표를 구면 좌표계로 변환하고, 구면 좌표계의 좌표 데이터에 대해 푸리에 변환을 적용하여, 기저함수와 푸리에 계수들의 합으로 표현하고, 푸리에 계수를 이용하여 디스크립터를 생성하는 것을 특징으로 한다.
또한, 본 발명은 푸리에 디스크립터와 인공신경망을 이용한 타겟 단백질에 대한 화합물 활성 예측 시스템에 있어서, 상기 디스크립터 산출부는 구면 좌표계의 좌표 데이터 (θ,φ,r)에 대해, 푸리에 변환을 이용하여 다음 [수식 1]과 같이 기저함수의 합으로 표현할 때, 푸리에 계수 cl,k 를 푸리에 디스크립터로 생성하는 것을 특징으로 한다.
[수식 1]
Figure pat00001
단, r = f(θ,φ)이고, Yl,k 는 기저함수이고, cl,k 는 기저함수 Yl,k 에 대한 푸리에 계수이고, l은 디그리(degree)를 나타내고, k는 차수(order)를 나타내고, L은 디그리(degree)의 크기를 나타냄.
상술한 바와 같이, 본 발명에 따른 푸리에 디스크립터와 인공신경망을 이용한 타겟 단백질에 대한 화합물 활성 예측 시스템에 의하면, 인공지능을 이용해 단백질과 화합물의 결합 정보를 학습하여 그 활성을 예측함으로써, 실험적으로 테스트할 화합물을 빠르게 선정하여 유효물질 발굴에 걸리는 시간과 비용을 대폭 단축시킬 수 있는 효과가 얻어진다.
도 1은 본 발명을 실시하기 위한 전체 시스템의 구성도.
도 2는 본 발명에 따른 푸리에 디스크립터와 인공신경망을 이용한 타겟 단백질에 대한 화합물 활성 예측 시스템의 구성에 대한 블록도.
도 3은 본 발명의 일실시예에 따른 단백질의 기질 결합부위와 화합물의 표면 3차원 형상 추출을 예시한 도면으로서, (a) 화합물, (b) 단백질의 기질 결합부위에 대한 도면.
도 4는 본 발명의 일실시예에 따른 단백질과 화합물의 푸리에 변환에 의한 푸리에 계수 벡터를 산출하는 예시도.
도 5는 본 발명의 실험에 따른 푸리에 디스크립터(descriptor) 와 DNN을 이용한 활성 예측 모델의 성능 평가를 나타낸 표.
이하, 본 발명의 실시를 위한 구체적인 내용을 도면에 따라서 설명한다.
또한, 본 발명을 설명하는데 있어서 동일 부분은 동일 부호를 붙이고, 그 반복 설명은 생략한다.
먼저, 본 발명을 실시하기 위한 전체 시스템의 구성의 예들에 대하여 도 1을 참조하여 설명한다.
도 1(a)와 1(b)에서 보는 바와 같이, 본 발명에 따른 푸리에 디스크립터와 인공신경망을 이용한 타겟 단백질에 대한 화합물 활성 예측 시스템은 네트워크 상의 서버 시스템 또는 컴퓨터 단말 상의 프로그램 시스템으로 실시될 수 있다.
도 1(a)와 같이, 본 발명의 실시를 위한 전체 시스템의 일례는 분석 단말(10)과 활성 예측 시스템(30)으로 구성되고 서로 네트워크(20)로 연결된다. 또, 필요한 데이터를 저장하기 위한 데이터베이스(40)를 더 구비할 수 있다.
분석 단말(10)은 신약개발 연구원 등 사용자가 이용하는 PC, 노트북, 넷북, PDA, 모바일 등의 통상의 컴퓨팅 단말기이다. 사용자는 사용자 단말(10)을 통해 타겟 단백질 및 화합물의 3차원 구조 등 데이터를 활성 예측 시스템(30)으로 전달하거나, 그 활성 예측 결과 값을 활성 예측 시스템(30)으로부터 수신한다.
활성 예측 시스템(30)은 통상의 서버로서 네트워크(20)에 연결되어 인공신경망을 이용한 타겟 단백질에 대한 화합물 활성 예측을 지원하는 서비스를 제공한다. 한편, 활성 예측 시스템(30)은 상기 각 서비스를 인터넷 상의 웹페이지로 제공하는 웹서버 또는 웹어플리케이션 서버 등으로 구현될 수 있다. 또한, 활성 예측 시스템(30)은 클라우드 시스템으로 구현되어, 클라우드 기반으로 학습이나 분석 기능을 수행하고 활성 예측 서비스를 제공할 수 있다.
데이터베이스(40)는 활성 예측 시스템(30)에서 필요한 데이터를 저장하는 통상의 저장매체로서, 타겟 단백질 또는 화합물의 3차원 구조에 대한 데이터, 타겟 단백질과 화합물 간의 결합 또는 발현 등 활성 데이터 등을 저장한다.
한편, 데이터베이스(40)는 이미 구축된 천연물이나 화학 합성물 라이브러리의 데이터를 가져와서 구축될 수 있다.
구체적으로, 데이터베이스(40)는 활성 데이터를 저장하는 활성데이터 스토리지(41), 디스크립터를 저장하는 디스크립터 스토리지(42), 및, 신경망 모델(43)로 구성될 수 있다. 그러나 상기 데이터베이스(40)의 구성은 바람직한 일실시예일 뿐이며, 구체적인 시스템을 개발하는데 있어서, 접근 및 검색의 용이성 및 효율성 등을 감안하여 데이터베이스 구축이론에 의하여 다른 구조로 구성될 수 있다.
한편, 활성 예측 시스템(30)은 서버와 클라이언트로 구성된 서버-클라이언트 시스템으로 구성될 수 있다. 즉, 활성 예측 시스템(30)의 주요 학습이나 분석 기능은 서버에 구축되고, 사용자 인터페이스 또는 분석을 위한 간단한 전처리 작업 등은 분석 단말(10)에 클라이언트 모듈로 구축될 수 있다. 서버와 클라이언트 간의 작업 분담은 통상의 서버-클라이언트 구축 이론에 따라 다양한 형태로 구현될 수 있다.
또한, 활성 예측 시스템(30)에서 학습 기능이나 예측 기능을 엔진 모듈로 구축되고, 분석 단말(10)에 설치된 클라이언트 서비스 모듈이 엔진 모듈을 이용하여, 사전에 수집된 데이터로 인공지능 모델을 학습시키고, 학습된 모델을 통해 타겟 단백질에 대한 화합물의 활성을 예측 서비스를 제공할 수 있다. 이 경우, 분석 단말(10)은 또 다른 서버로서 역할을 수행할 수 있다.
또한, 도 1(b)와 같이, 본 발명의 실시를 위한 전체 시스템의 다른 예는 컴퓨터 단말(13)에 설치되는 프로그램 형태의 활성 예측 시스템(30)으로 구성된다. 즉, 활성 예측 시스템(30)의 각 기능들은 컴퓨터 프로그램으로 구현되어 컴퓨터 단말(10)에 설치되어, 컴퓨터 단말(10) 상의 프로그램 시스템으로 실시될 수 있다. 컴퓨터 단말(10)에 설치된 프로그램은 하나의 프로그램 시스템(30)과 같이 동작할 수 있다. 한편, 활성 예측 시스템(30)에서 필요한 데이터들은 컴퓨터 단말(10)의 하드디스크 등 저장공간에 저장되어 이용된다.
한편, 다른 실시예로서, 푸리에 디스크립터와 인공신경망을 이용한 타겟 단백질에 대한 화합물 활성 예측 시스템은 프로그램으로 구성되어 범용 컴퓨터에서 동작하는 것 외에 ASIC(주문형 반도체) 등 하나의 전자회로로 구성되어 실시될 수 있다. 또는 화합물 활성을 예측하는 것만을 전용으로 처리하는 전용 컴퓨터 단말(10)로 개발될 수도 있다. 이를 활성 예측 시스템(30)라 부르기로 한다. 그 외 가능한 다른 형태도 실시될 수 있다.
다음으로, 본 발명의 일실시예에 따른 푸리에 디스크립터와 인공신경망을 이용한 타겟 단백질에 대한 화합물 활성 예측 시스템을 도 2를 참조하여 설명한다.
도 2에서 보는 바와 같이, 본 발명에 따른 푸리에 디스크립터와 인공신경망을 이용한 타겟 단백질에 대한 화합물 활성 예측 시스템(30)은 타겟 단백질에 대한 화합물의 활성 또는 비활성 결과를 수집하는 활성데이터 수집부(31), 단백질 또는 화합물에 대한 3차원 형상을 형성하는 3D형상 형성부(32), 3차원 형상 데이터에 대해 푸리에 변환을 적용하여 디스크립터를 산출하는 디스크립터 산출부(33), 단백질 및 화합물의 디스크립터, 및, 활성데이터 데이터를 이용하여, 신경망 모델을 학습시키는 모델 학습부(34), 검사대상 단백질과 검사대상 화합물에 대하여 신경망 모델을 이용하여 활성을 예측하는 활성 예측부(35)로 구성된다.
먼저, 활성데이터 수집부(31)은 각 타겟 단백질에 대한 각 화합물의 활성 데이터를 수집한다.
활성 데이터는 특정 타겟 단백질(또는 표적 단백질) Pi에 대하여 특정 화합물 Cj이 활성 화합물(active)인지, 또는 비활성 화합물(inactive)인지를 나타내는 데이터이다. 즉, 활성 데이터는 { < Pi, Cj, Rij > }로 구성된다. 이때, Rij 는 활성화 또는 비활성화 값(이진 값)을 갖는다.
한편, 활성 데이터는 타겟 단백질에 대한 화합물의 활성 정도를 나타내는 활성값으로 표시될 수 있다. 이 경우, 사전에 정해진 기준값(또는 임계값)을 기준으로 활성 또는 비활성으로 구분될 수 있다.
활성화(active)는 타겟 단백질 Pi에 대하여 특정 화합물 Cj가 결합하였다는 것을 의미하고, 비활성화(inactive)는 그러하지 않다는 것을 나타낸다.
바람직하게는, 활성데이터 수집부(31)은 사전에 구축된 활성데이터의 데이터셋으로부터 활성데이터를 수집할 수 있다.
일례로서, DUD-E(A Database of Useful Decoys: Enhanced)[비특허문헌 1]에서 제공하는 데이터셋을 사용한다. DUD-E 데이터셋은 총 102개의 타겟 단백질에 대한 총 22,146개의 활성(active) 화합물(타겟 단백질당 평균 217개의 활성 화합물)과, 비활성(inactive) 화합물 대신 각 활성(active)에 대해 5~60여개씩 만들어진 디코이(decoy) 화합물을 제공한다. 이 중 4개의 타겟 단백질은 부적합성 등의 이유로 제거하였고, 남은 98개 단백질에 대한 데이터가 본 발명의 실험에 사용되었다. DUD-E 데이터셋의 용도는 벤치마크 데이터셋이다.
디코이 화합물은 이론상 비활성 화합물일 가능성이 높은 구조의 화합물로서, 현실적으로 비활성 화합물에 대한 데이터를 수집하기 곤란한 점을 반영한다. 즉, 활성 화합물에 대비되어 구별되게 하기 위한 목적으로 표준 데이터 설계자들이 구성한 화합물 데이터이다. 디코이 화합물은 실질적으로는 비활성 화합물에 준하는 용도로 사용된다.
다음으로, 3D형상 형성부(32)는 단백질 또는 화합물에 대한 3차원 형상을 형성한다. 이때, 단백질 또는 화합물은 앞서 수집된 활성 데이터에 속하는 타겟 단백질 또는 화합물들이다.
바람직하게는, 3D형상 형성부(32)는 단백질과 화합물이 결합된 상태에서의 타겟 단백질 또는 화합물의 3차원 형상을 형성한다. 즉, 화합물 또는 단백질이 실제 실험을 통한 결정구조(crystal structure)를 가지고 있는 경우, 해당 결정구조로부터 화합물 또는 단백질의 각 3차원 형상을 형성하고, 결정구조를 가지고 있지 않은 경우, 화학 결합 시뮬레이션 도구(예를 들어, 오토도킹 autodocing 프로그램) 등을 이용하여 화합물과 단백질을 가상으로 결합하고, 결합된 가상 3차원 구조로부터 화합물 또는 단백질의 각 3차원 형상을 형성한다.
바람직하게는, 3D형상 형성부(32)는 코놀리 표면[비특허문헌 2]을 이용하여, 타겟 단백질 또는 화합물의 3차원 형상을 형성한다. 구체적으로, 단백질 또는 화합물에 대한 코놀리 표면을 구하고, 코놀리 표면으로부터 3차원 형상 데이터를 생성한다. 즉, 도 3에서 보는 바와 같이, 코놀리 표면 생성 방법을 통해 단백질과 화합물의 3차원 데이터로부터 각각이 가지는 3차원 형상을 추출한다. 바람직하게는, 코놀리 표면 생성방법을 통해 추출되는 것이 표면의 3차원 위치정보이고, 그 위치 정보를 그물망(mesh) 구조의 삼각형을 이루는 꼭지점들의 3차원 좌표로 나타낸다. 즉, 그물망 구조에 의한 꼭지점들의 집합이 3차원 형상을 나타낸다.
코놀리 표면은 분자를 구성하는 각 원자의 반데르 발스(van der Waals) 반지름을 바탕으로 용매가 접근 가능한 범위를 나타내는 표면을 말한다. 즉, 코놀리 표면은 단백질 또는 화합물이 차지하는 공간에 대한 형상을 나타낸다.
바람직하게는, 3D형상 형성부(32)는 단백질의 경우에는 단백질의 기질 결합부위의 표면만을 추출하고, 추출된 표면에 대한 3차원 형상을 추출한다. 즉, 단백질의 전체 형상이 필요한 것이 아니라 화합물에 상보적인 기질 결합부위의 형상만이 필요한 것이므로, 단백질의 기질 결합부위의 표면만을 따로 추출하여도 된다.
바람직하게는, 3D형상 형성부(32)는 추출된 표면을 삼각 그물망 구조(triangular mesh)로 변환하고, 면과 꼭지점의 정보를 통합하고 변환하여 3차원 형상을 생성한다.
다음으로, 디스크립터 산출부(33)는 단백질 또는 화합물의 3차원 형상 데이터에 대해 푸리에 변환을 적용하여 디스크립터(descriptor)를 산출한다.
푸리에 변환(fourier transform, FT)은 함수 또는 신호를 그 함수를 구성하고 있는 주파수 성분들의 합으로 표현하는 방법이다. 변환된 함수는 주파수의 복소함수가 되고, 그의 절대값은 원래 함수를 구성하는 주파수 성분의 양을 나타낸다.
먼저, 디스크립터 산출부(33)는 단백질 또는 화합물에 대해 추출된 3차원 형상 데이터를 구성하는 각 좌표를, 구면 조화 함수(spherical harmonics)를 통해 구면 좌표계로 변환한다.
즉, 3차원 형상 데이터의 좌표 (x,y,z)를 구면 좌표계의 좌표 (θ,φ,r)로 변환된다.
다음으로, 디스크립터 산출부(33)는 구면 좌표계의 좌표 데이터 (θ,φ,r)에 대해, 푸리에 변환을 이용하면, 다음 식과 같이 기저함수와 그의 계수들의 합으로 표현할 수 있다.
[수학식 1]
Figure pat00002
여기서, Yl,k 는 기저함수를 나타내고, cl,k 는 기저함수 Yl,k 에 대한 푸리에 계수를 나타낸다. l은 디그리(degree)를 나타내고, k는 차수(order)를 나타낸다. L은 디그리(degree)의 크기를 나타낸다. L이 클수록 오차를 적게 근사할 수 있다.
즉, 모든 구면 좌표 (θ,φ,r)에 대해, r = f(θ,φ)로 나타나는데, 이때, 푸리에 변환을 적용하면, r = f(θ,φ)는 기저함수 Yl,k(θ,φ) 의 가중치(푸리에 계수에 의한 가중치) 합으로 표현될 수 있다.
한편, 푸리에 변환에 의해, 기저함수 Yl,k (수학식 2)와 푸리에 계수 cl,k (수학식 3)는 다음과 같이 표현된다.
[수학식 2]
Figure pat00003
여기서, 매개변수 θ는 0과 π의 사이 값을, 매개변수 φ는 0과 2π 사이의 값을 가지고, i는 복소수의 허수이다. 또한 함수 pl k는 르장드르 연관함수(Associated Legendre polynomials)이이다.
[수학식 3]
Figure pat00004
(l = 0,1,2,3,4,…,L, m = -l,...,0,...,l)
여기서, S2는 3차원 좌표계에서 원점을 중심으로 하고 반지름을 1로 하는 구이다. 그리고 f는 S2에서 정의되어 있는 푸리에 변환의 대상이 되는 물체의 형상을 수학적으로 표현한 함수이다.
다음으로, 디스크립터 산출부(33)는 푸리에 계수를 이용하여 디스크립터를 생성한다.
바람직하게는, 도 4에서 보는 바와 같이, 앞서 푸리에 변환을 통해 구한 푸리에 계수 cl,k 들을 1차원 벡터 (c0,0, c1,-1, cl,0, cl,1, c2,-2, c2,-1, c2,0, c2,1, c2,2, c3,-3, ..., cL,L)로 만들어, 만들어진 1차원 벡터를 디스크립터로 생성한다. 즉, 위와 같은 변환을 통해 단백질과 화합물의 3차원 구조는 푸리에 계수에 의한 1차원 벡터로 변환되었다.
더욱 바람직하게는, 푸리에 계수를 먼저 디그리(l)가 작은 수부터, 다음으로 차수(k)가 작은 수부터 순서대로로 나열한다.
다음으로, 모델 학습부(34)는 타겟 단백질의 디스크립터, 화합물의 디스크립터, 및, 활성 데이터를 이용하여, 신경망 모델을 학습시킨다.
신경망 모델은 DNN(Deep Neural Network) 또는 딥러닝 모델, 순환형 신경망(RNN), 합성곱 신경망(CNN) 등이 적용될 수 있다. 신경망 모델의 입력 데이터는 단백질의 디스크립터와 화합물의 디스크립터이고, 출력 데이터의 라벨 값은 활성(active)과 비활성(inactive)이다. 출력 데이터는 각 라벨 값의 확률 값으로 출력된다.
활성의 예측은 특정 타겟 단백질에 대한 특정 화합물에 대한 활성 여부를 예측하는 것이므로, 하나의 타겟 단백질과 하나의 화합물은 쌍(반응 쌍)으로 적용되어야 한다. 따라서 신경망 모델의 입력(또는 전체 디스크립터)는 반응 쌍의 타겟 단백질 및 화합물의 각각 디스크립터로 구성된다. 또한, 학습을 위한 결과 값(라벨 값)으로 활성 데이터가 사용된다. 즉, 활성 데이터로 해당 디스크립터를 라벨링한다. 활성 데이터는 앞서 활성데이터 수집부(31)에 의해 수집된 데이터이다.
이때, 신경망 모델에 입력되는 데이터(또는 전체 디스크립터)는 타겟 단백질과 그에 대응하는 화합물에 대한 각기 n개의 원소를 가진 두 벡터는 하나로 합쳐져 최종적으로 2n개의 원소를 가진 1차원 벡터이다.
다음으로, 활성 예측부(35)는 검사대상 단백질과 검사대상 화합물에 대하여, 각각의 디스크립터를 상기 신경망 모델에 입력시키고, 신경망 모델의 결과 값을 출력한다. 출력값이 활성이면 검사대상의 단백질에 대하여 검사대상 화합물이 활성 화합물이라고 예측하고, 출력이 비활성이면 검사대상의 단백질에 대하여 검사대상 화합물이 비활성화 화합물이라고 예측한다.
다음으로, 실험을 통한 본 발명의 효과를 도 5를 참조하여 설명한다.
발명의 효과를 확인하기 위하여, 데이터셋의 10%는 학습에 참여하지 않고 예측모델의 성능 측정에 사용하였다. 그 결과는 도 5의 표와 같다. AUC 점수(score)는 0.8008을 기록하였다.
본 발명은 단백질과 화합물의 3차원 구조를 표현하는 디스크립터(descriptor)로 푸리에 디스크립터를 사용하였다. 푸리에 디스크립터의 특징은, 대상의 회전과 위치변환에 디스크립터의 수치가 영향을 받지 않는다는 것이다. 따라서, 단백질과 화합물의 정확한 상대적 위치, 거리, 방향 등을 알지 못해도 인공신경망의 학습 및 테스트 데이터 적용이 가능하다.
또한, 본 발명은 여러 가지 단백질과 화합물의 상보적인 3차원 구조를 학습함으로써, 특정한 단백질에 대한 학습이 아닌, 일반적인 단백질과 화합물의 결합 특성에 대한 학습이 이루어졌다. 따라서 본 발명은 특정 단백질의 구조에 구애받지 않고 다양한 단백질에 대해 활성 화합물을 예측할 수 있어, 그 적용범위가 폭넓다는 장점이 있다.
이상, 본 발명자에 의해서 이루어진 발명을 실시 예에 따라 구체적으로 설명하였지만, 본 발명은 실시 예에 한정되는 것은 아니고, 그 요지를 이탈하지 않는 범위에서 여러 가지로 변경 가능한 것은 물론이다.
10 : 분석 단말 20 : 네트워크
30 : 활성 예측 시스템 31 : 활성데이터 수집부
32 : 3D형상 형성부 33 : 디스크립터 산출부
34 : 모델 학습부 35 : 활성 예측부
40 : 데이터베이스 41 : 활성데이터 스토리지
42 : 디스크립터 스토리지 43 : 신경망 모델

Claims (6)

  1. 푸리에 디스크립터와 인공신경망을 이용한 타겟 단백질에 대한 화합물 활성 예측 시스템에 있어서,
    타겟 단백질에 대한 화합물의 활성 또는 비활성의 활성 데이터를 수집하는 활성데이터 수집부;
    단백질 또는 화합물에 대한 3차원 형상을 형성하는 3D형상 형성부;
    단백질 또는 화합물의 3차원 형상 데이터에 대해 푸리에 변환을 적용하여 디스크립터를 산출하는 디스크립터 산출부;
    단백질의 디스크립터, 및 화합물의 디스크립터, 및, 활성 데이터를 이용하여, 신경망 모델을 학습시키는 모델 학습부; 및,
    신경망 모델을 이용하여 검사대상 단백질에 대한 검사대상 화합물의 활성을 예측하는 활성 예측부를 포함하는 것을 특징으로 하는 푸리에 디스크립터와 인공신경망을 이용한 타겟 단백질에 대한 화합물 활성 예측 시스템.
  2. 제1항에 있어서,
    상기 3D형상 형성부는 단백질 또는 화합물에 대한 코놀리 표면을 구하고, 구한 코놀리 표면으로부터 3차원 형상을 형성하는 것을 특징으로 하는 푸리에 디스크립터와 인공신경망을 이용한 타겟 단백질에 대한 화합물 활성 예측 시스템.
  3. 제2항에 있어서,
    상기 3D형상 형성부는 단백질의 경우, 단백질의 기질 결합부위의 표면만을 추출하고, 추출된 표면에 대한 3차원 형상을 추출하는 것을 특징으로 하는 푸리에 디스크립터와 인공신경망을 이용한 타겟 단백질에 대한 화합물 활성 예측 시스템.
  4. 제2항에 있어서,
    상기 3D형상 형성부는 추출된 표면을 삼각 그물망 구조(triangular mesh)로 변환하고, 면과 꼭지점의 정보를 통합하고 변환하여 3차원 형상을 생성하는 것을 특징으로 하는 푸리에 디스크립터와 인공신경망을 이용한 타겟 단백질에 대한 화합물 활성 예측 시스템.
  5. 제1항에 있어서,
    상기 디스크립터 산출부는 추출된 3차원 형상 데이터를 구성하는 각 좌표를 구면 좌표계로 변환하고, 구면 좌표계의 좌표 데이터에 대해 푸리에 변환을 적용하여, 기저함수와 푸리에 계수들의 합으로 표현하고, 푸리에 계수를 이용하여 디스크립터를 생성하는 것을 특징으로 하는 푸리에 디스크립터와 인공신경망을 이용한 타겟 단백질에 대한 화합물 활성 예측 시스템.
  6. 제5항에 있어서,
    상기 디스크립터 산출부는 구면 좌표계의 좌표 데이터 (θ,φ,r)에 대해, 푸리에 변환을 이용하여 다음 [수식 1]과 같이 기저함수의 합으로 표현할 때, 푸리에 계수 cl,k 를 푸리에 디스크립터로 생성하는 것을 특징으로 하는 푸리에 디스크립터와 인공신경망을 이용한 타겟 단백질에 대한 화합물 활성 예측 시스템.
    [수식 1]
    Figure pat00005

    단, r = f(θ,φ)이고, Yl,k 는 기저함수이고, cl,k 는 기저함수 Yl,k 에 대한 푸리에 계수이고, l은 디그리(degree)를 나타내고, k는 차수(order)를 나타내고, L은 디그리(degree)의 크기를 나타냄.
KR1020190107480A 2019-08-30 2019-08-30 푸리에 디스크립터와 인공신경망을 이용한 타겟 단백질에 대한 화합물 활성 예측 시스템 KR20210027668A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190107480A KR20210027668A (ko) 2019-08-30 2019-08-30 푸리에 디스크립터와 인공신경망을 이용한 타겟 단백질에 대한 화합물 활성 예측 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190107480A KR20210027668A (ko) 2019-08-30 2019-08-30 푸리에 디스크립터와 인공신경망을 이용한 타겟 단백질에 대한 화합물 활성 예측 시스템

Publications (1)

Publication Number Publication Date
KR20210027668A true KR20210027668A (ko) 2021-03-11

Family

ID=75143133

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190107480A KR20210027668A (ko) 2019-08-30 2019-08-30 푸리에 디스크립터와 인공신경망을 이용한 타겟 단백질에 대한 화합물 활성 예측 시스템

Country Status (1)

Country Link
KR (1) KR20210027668A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230085536A (ko) 2021-12-07 2023-06-14 사빅 에스케이 넥슬렌 컴퍼니 피티이 엘티디 공정제어를 위한 인공지능 모델의 생성방법, 인공지능 모델 기반 공정제어 시스템 및 이를 포함하는 반응기

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180058648A (ko) 2016-11-24 2018-06-01 한양대학교 산학협력단 비구조-구조 전이 부위를 표적으로 하는 신약 후보 물질 발굴 방법 및 신약 후보 물질 발굴 장치
KR20190000167A (ko) 2017-06-22 2019-01-02 한국과학기술원 유사 약리활성 그룹 화합물들의 조각구조 특성 연관규칙을 기반으로 신규 선도물질 예측 방법 및 시스템

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180058648A (ko) 2016-11-24 2018-06-01 한양대학교 산학협력단 비구조-구조 전이 부위를 표적으로 하는 신약 후보 물질 발굴 방법 및 신약 후보 물질 발굴 장치
KR20190000167A (ko) 2017-06-22 2019-01-02 한국과학기술원 유사 약리활성 그룹 화합물들의 조각구조 특성 연관규칙을 기반으로 신규 선도물질 예측 방법 및 시스템

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Connolly, M. L., "Analytical molecular surface calculation.", J. Appl. Cryst. 1983, 16, 548-558
http://dude.docking.org/

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230085536A (ko) 2021-12-07 2023-06-14 사빅 에스케이 넥슬렌 컴퍼니 피티이 엘티디 공정제어를 위한 인공지능 모델의 생성방법, 인공지능 모델 기반 공정제어 시스템 및 이를 포함하는 반응기
WO2023105392A1 (ko) 2021-12-07 2023-06-15 사빅 에스케이 넥슬렌 컴퍼니 피티이 엘티디 공정제어를 위한 인공지능 모델의 생성방법, 인공지능 모델 기반 공정제어 시스템 및 이를 포함하는 반응기

Similar Documents

Publication Publication Date Title
Putin et al. Adversarial threshold neural computer for molecular de novo design
Nguyen et al. Mathematical deep learning for pose and binding affinity prediction and ranking in D3R Grand Challenges
Rahman et al. DPP-PseAAC: a DNA-binding protein prediction model using Chou’s general PseAAC
Liu et al. SVM or deep learning? A comparative study on remote sensing image classification
Whitehead et al. Imputation of assay bioactivity data using deep learning
Li et al. TrimNet: learning molecular representation from triplet messages for biomedicine
WO2023029352A1 (zh) 基于图神经网络的药物小分子性质预测方法、装置及设备
US20170140278A1 (en) Using machine learning to predict big data environment performance
Ahmed et al. Efficient iterative virtual screening with Apache Spark and conformal prediction
Zheng et al. Deep-RBPPred: predicting RNA binding proteins in the proteome scale based on deep learning
WO2008086323A1 (en) Directed graph embedding
JP7430406B2 (ja) 深層特徴抽出を用いた能動的転移学習のためのシステムおよび方法
Oliveira et al. BioDinamica: a toolkit for analyses of biodiversity and biogeography on the Dinamica-EGO modelling platform
Hasebe Knowledge-embedded message-passing neural networks: improving molecular property prediction with human knowledge
Zhang et al. Planet: a multi-objective graph neural network model for protein–ligand binding affinity prediction
CN111627494A (zh) 基于多维特征的蛋白质性质预测方法、装置和计算设备
WO2021183871A1 (en) Hybrid computational system of classical and quantum computing for drug discovery and methods
CN107909141A (zh) 一种基于灰狼优化算法的数据分析方法及装置
Jia et al. Machine learning for in silico ADMET prediction
Gront et al. BioShell—a package of tools for structural biology computations
KR20210026543A (ko) 복수의 인공신경망 모델 기반 단백질 결합 화합물의 활성 예측 시스템
CN111354424A (zh) 一种潜在活性分子的预测方法、装置和计算设备
Evteev et al. SiteRadar: utilizing graph machine learning for precise mapping of protein–ligand-binding sites
US20230077708A1 (en) Microservice measurement and merging
Ding et al. Dance: A deep learning library and benchmark for single-cell analysis

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E601 Decision to refuse application