KR20210026542A - 기하학적 이미지를 이용한 인공신경망 기반 단백질 결합 화합물의 생물학적 활성 예측 시스템 - Google Patents

기하학적 이미지를 이용한 인공신경망 기반 단백질 결합 화합물의 생물학적 활성 예측 시스템 Download PDF

Info

Publication number
KR20210026542A
KR20210026542A KR1020190107482A KR20190107482A KR20210026542A KR 20210026542 A KR20210026542 A KR 20210026542A KR 1020190107482 A KR1020190107482 A KR 1020190107482A KR 20190107482 A KR20190107482 A KR 20190107482A KR 20210026542 A KR20210026542 A KR 20210026542A
Authority
KR
South Korea
Prior art keywords
protein
compound
data
activity
neural network
Prior art date
Application number
KR1020190107482A
Other languages
English (en)
Inventor
조경민
윤동오
강지성
하현수
이준희
Original Assignee
주식회사 에일론
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 에일론 filed Critical 주식회사 에일론
Priority to KR1020190107482A priority Critical patent/KR20210026542A/ko
Publication of KR20210026542A publication Critical patent/KR20210026542A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 단백질 및 화합물의 3차원 표면 정보를 2차원 기하학적 이미지로 변환하여 인공신경망으로 학습시키고 화합물 활성을 예측하는, 기하학적 이미지를 이용한 인공신경망 기반 단백질 결합 화합물의 생물학적 활성 예측 시스템에 관한 것으로서, 타겟 단백질에 대한 화합물의 활성 또는 비활성의 활성 데이터를 수집하는 활성데이터 수집부; 단백질 또는 화합물에 대한 3차원 형상을 형성하여 닫힌 표면 데이터로 3차원 형상 데이터를 생성하는 3D데이터 형성부; 단백질 또는 화합물의 3차원 형상 데이터를 2차원 평면에 매핑하고, 각 픽셀값이 3차원 형상 데이터의 기하학적 특성값으로 설정되는, 2차원 기하학적 이미지로 디스크립터를 산출하는 산출하는 디스크립터 산출부; 단백질의 디스크립터, 및 화합물의 디스크립터, 및, 활성 데이터를 이용하여, 신경망 모델을 학습시키는 모델 학습부; 및, 신경망 모델을 이용하여 검사대상 단백질에 대한 검사대상 화합물의 활성을 예측하는 활성 예측부를 포함하는 구성을 마련한다.
상기와 같은 시스템에 의하여, 인공지능을 이용해 단백질과 화합물의 결합 정보를 학습하여 그 활성을 예측함으로써, 실험적으로 테스트할 화합물을 빠르게 선정하여 유효물질 발굴에 걸리는 시간과 비용을 대폭 단축시킬 수 있다.

Description

기하학적 이미지를 이용한 인공신경망 기반 단백질 결합 화합물의 생물학적 활성 예측 시스템 { A system of predicting biological activity for compound with target protein using geometry images and artificial neural network }
본 발명은 신약개발에 있어서 초기단계인 유효물질 발굴 단계를 빠른 시간 내에 효율적으로 처리하기 위하여, 인공지능을 이용해 단백질과 화합물의 결합 정보를 학습하여, 주어진 단백질과 화합물이 결합하여 활성을 나타낼 수 있는지를 판단하고 예측하는, 기하학적 이미지를 이용한 인공신경망 기반 단백질 결합 화합물의 생물학적 활성 예측 시스템에 관한 것이다.
특히, 본 발명은 단백질 및 화합물의 3차원(3D) 표면 정보를 2차원(2D) 기하학적 이미지로 변환하고, 이들 데이터를 인공신경망으로 학습시킴으로써, 단백질의 결합 부위(바인딩 사이트)의 형태와 화합물의 크기 및 형태의 유사성을 인식하여, 유사도가 높은 화합물을 채택하도록 하는, 기하학적 이미지를 이용한 인공신경망 기반 단백질 결합 화합물의 생물학적 활성 예측 시스템에 관한 것이다.
컴퓨터를 활용한 신약개발은 신약 발굴(Drug Discovery) 단계에서 많이 쓰이는데, 화합물의 유효(Hit) 물질 발굴을 위해서는 크게 두 가지의 방식이 사용되어 지고 있다. 첫번째 방식은 화합물 기반 약물 설계로서, 어떤 화합물이 특정 구조 단백질에 결합을 한다는 사실에 기초해, 유사한 화학적 특징을 가진 화합물을 찾거나 만드는 방법이다. 두번째 방식은, 단백질 구조 기반 약물 설계로서, 단백질 3차원 구조 정보에 대한 사전 지식을 이용하여 이러한 구조의 형태와 크기가 비슷한 화합물 중 활성을 보이는 화합물을 찾아낸다.
단백질 구조 기반 약물 설계 방식도 크게 세가지로 나뉠 수 있다. 첫번째는 바인딩 사이트(binding site) 또는 바인딩 포켓(binding pocket) 형태의 정보에 가장 형태가 유사한 화합물을 도킹 프로그램을 활용하여 빠르게 찾아내는 방식이다[특허문헌 1]. 두번째로는, 바인딩 포켓(binding pocket)의 사이즈 및 크기에 맞게 화합물의 원소 혹은 분자 조각(molecular fragments)을 합치는 방식이다. 세번째로는, 바인딩 캐비티(binding cavity)에 활성을 보이는 화합물들 중 알려진 형태(conformation)를 최적화 시키는 방식이다. 이 중에서도, 컴퓨터 기술의 발달로 가상 스크리닝(virtual screening) 형태의 방법이 활발히 응용되어 지고 있다[특허문헌 2].
가상 스크리닝(virtual screening)의 기술적인 측면에서, 기존의 기계적인 수백~수천만의 화합물 라이브러리에서 타겟 단백질에 활성을 보이는 화합물을 찾는 방법에서, 현재는 인공신경망(딥러닝)을 활용한 방법들의 움직임이 활발하다. 2015년 아톰와이즈사는 세계 최초로 분자의 결합 친화성 및 신약 타겟(단백질)의 결합 구조를 예측하는 아톰넷(AtomNet) 기술을 선보이게 되었다.
아톰넷(AtomNet)의 핵심 기술인 DCNN(Deep Convolutional Neural Network) 심층 컨볼루션 신경망 기술은 현재 언어 및 영상 분야 예측에 가장 우수한 모델로 평가되고 있고, 그 이유는 CNN 아키텍쳐의 입력 데이터가 이미지라는 가정 덕분에 이미지 데이터가 갖는 특성들을 인코딩 할 수 있기 때문이다. 이러한 아키텍쳐는 포워드 함수(forward function)을 더욱 효과적으로 구현할 수 있고, 네트워크를 학습시키는데 필요한 모수(parameter)의 수를 크게 줄일 수 있게 해준다. 이로 인해, 기존 인공 신경망 기술의 단점으로 지적되어온 오버피팅(overfitting) 문제를 극복할 수 있다.
하지만, 모든 CNN의 구조가 오버피팅을 막을 수 있는 것은 아니다. 이를 해결하기 위한 다른 방법으로, 알렉스넷(AlexNet)은. 기존의 쓰이던 드롭아웃(dropout) 방식에 더해, 데이터 증강(data augmentation) 방법을 채택하여 데이터의 양을 늘림으로써 과적합을 방지하는 방법을 시도하였다. 방법적인 측면으론, 이미지 데이터를 회전(rotation), 변형(translation) 등과 같은 방법으로 학습데이터 양을 늘려 학습하는 방법을 채택하였다.
하지만, 이러한 탁월한 능력을 보여준 CNN 알고리즘도, 3D 구조를 학습하는 데에 큰 효능을 발휘하지 못하였는데, 그 이유는 3D 구조 정보를 복셀(voxel) 안의 점들의 집합으로만 구조 정보를 표현하였기에, 표면 정보가 누락되는 문제점이 발생한다. 이러한 표면 정보학습을 위해, Geometry Society에서는 물체의 표면 정보를 기하학적 방식으로 묘사하는 방법을 제시하고 있다. 특히, 3D 물체의 표면 정보를, 2D 기하학적 이미지(Geometry Images)를 CNN의 입력 데이터로 활용하여 3D 물체의 표면을 복원하는 것을 제시하고 있다[비특허문헌 1].
하지만, 일반적인 기학학적 이미지(Geometry Images) 변환 과정만으로는 다양한 3D 물체들의 표면 정보를 원활히 표현하기가 어렵고, 특히, 구멍이 난 부분 및 굴곡진 부분에 대한 세밀한 묘사 부분을 정확하게 표현하지 못한다는 문제점이 있다.
또한, 일반적인 모든 CNN(Convolutional Neural Network) 모델들이 적절히 가공되지 않은 이미지 데이터들의 특징을 잘 구분해낼 수 있는 것은 아니다. 예를 들어, 이미지 정보를 그대로 사용하거나 단순 복셀화(voxelized) 된 데이터 등 중요하지 않은 부수적 값들로 인하여, 생성된 데이터의 양이 상당히 많아지면, 전처리하는 과정 시간이 대량으로 소모되고 노이즈가 많아질 수 있다. 즉, CNN 학습 테스트 결과를 얻어내고자 할 경우에도 노이즈가 발생하여, 추론할 때 불필요한 정보들이 필요 정보들을 덮어버려 올바른 클래스로 데이터들을 분류하지 못한다. 이런 경우, 연산 시간은 많이 소모되는 데도 인공지능이 효율적이고 정확한 판단(classification)을 못 해낼 수 있는 문제점이 있다.
한국 공개특허공보 제10-2018-0058648호(2018.06.01.공개) 한국 공개특허공보 제10-2019-0000167호(2019.01.02.공개)
Deep Learning 3D Shape Surfaces Using Geometry Images, European Conference on Computer Vision, ECCV 2016: Computer Vision ?? ECCV 2016 pp 223-240. http://dude.docking.org/ Connolly, M. L., "Analytical molecular surface calculation.", J. Appl. Cryst. 1983, 16, 548-558
본 발명의 목적은 상술한 바와 같은 문제점을 해결하기 위한 것으로, 오탈릭 3차원 디스크립터(Authalic 3D Descriptor)를 활용하여 단백질의 바인딩 사이트 및 화합물의 물체 표면을 2D 기하학적 이미지로 변환시켜, 인공신경망을 통해 단백질의 기질 결합 위치와 화합물의 상보적 유사성을 학습시키고 화합물 활성을 예측하는, 기하학적 이미지를 이용한 인공신경망 기반 단백질 결합 화합물의 생물학적 활성 예측 시스템을 제공하는 것이다.
또한, 본 발명의 목적은 단백질 및 화합물의 공개된 데이터베이스가 제공하는 자료들이 자체 기준으로 큐레이션(curation) 되어 있고 중복되는 데이터가 혼재하므로, 데이터를 필터링하고 바인딩 사이트를 검증하여 데이터베이스를 보완하는, 기하학적 이미지를 이용한 인공신경망 기반 단백질 결합 화합물의 생물학적 활성 예측 시스템을 제공하는 것이다.
상기 목적을 달성하기 위해 본 발명은 기하학적 이미지를 이용한 인공신경망 기반 단백질 결합 화합물의 생물학적 활성 예측 시스템에 관한 것으로서, 타겟 단백질에 대한 화합물의 활성 또는 비활성의 활성 데이터를 수집하는 활성데이터 수집부; 단백질 또는 화합물에 대한 3차원 형상을 형성하여 닫힌 표면 데이터로 3차원 형상 데이터를 생성하는 3D데이터 형성부; 단백질 또는 화합물의 3차원 형상 데이터를 2차원 평면에 매핑하고, 각 픽셀값이 3차원 형상 데이터의 기하학적 특성값으로 설정되는, 2차원 기하학적 이미지로 디스크립터를 산출하는 디스크립터 산출부; 단백질의 디스크립터, 및 화합물의 디스크립터, 및, 활성 데이터를 이용하여, 신경망 모델을 학습시키는 모델 학습부; 및, 신경망 모델을 이용하여 검사대상 단백질에 대한 검사대상 화합물의 활성을 예측하는 활성 예측부를 포함하는 것을 특징으로 한다.
또한, 본 발명은 기하학적 이미지를 이용한 인공신경망 기반 단백질 결합 화합물의 생물학적 활성 예측 시스템에 있어서, 상기 3D데이터 형성부는 단백질 또는 화합물에 대한 코놀리 표면을 구하고, 구한 코놀리 표면으로부터 3차원 형상을 형성하는 것을 특징으로 한다.
또한, 본 발명은 기하학적 이미지를 이용한 인공신경망 기반 단백질 결합 화합물의 생물학적 활성 예측 시스템에 있어서, 상기 3D데이터 형성부는 단백질의 경우, 단백질의 기질 결합부위의 표면만을 추출하고, 추출된 표면에 대한 3차원 형상을 추출하는 것을 특징으로 한다.
또한, 본 발명은 기하학적 이미지를 이용한 인공신경망 기반 단백질 결합 화합물의 생물학적 활성 예측 시스템에 있어서, 상기 디스크립터 산출부는, (a) 구형 매개변수화(Spherical Parameterization)를 이용하여, 3차원 형상 데이터를 구면에 매핑시키는 단계, (b) 매핑된 구면 상의 형상 데이터를 팔면체의 표면 상에 매핑하는 단계, (c) 팔면체 표면 상에 매핑된 형상 데이터를 2차원 사각형에 매핑하는 단계, 및, (d) 2차원 사각형의 각 픽셀 값을, 해당 픽셀 위치에 대응되는 3차원 형상 데이터의 위치에서의 기하학적 특성값으로 설정하는 단계를 수행하는 것을 특징으로 한다.
또한, 본 발명은 기하학적 이미지를 이용한 인공신경망 기반 단백질 결합 화합물의 생물학적 활성 예측 시스템에 있어서, 상기 (a)단계에서, 매핑된 구면 상의 형상 데이터에 대하여, 오탈릭 매개변수화(Authalic Parameterization)를 이용하여, 3차원 형상 데이터에서의 각 메쉬(mesh)의 면적이, 이에 대응하는 구면(spherical surface) 상의 메쉬의 면적에 보전되도록, 구면 상의 데이터를 보정하는 것을 특징으로 한다.
또한, 본 발명은 기하학적 이미지를 이용한 인공신경망 기반 단백질 결합 화합물의 생물학적 활성 예측 시스템에 있어서, 상기 (c)단계에서, 8면체의 각 표면의 8개의 삼각형을 직각 이등변 삼각형으로 변환하고, 이들 직각 이등변 삼각형을 서로 조합하여 사각형 또는 정사각형을 형성하는 것을 특징으로 한다.
또한, 본 발명은 기하학적 이미지를 이용한 인공신경망 기반 단백질 결합 화합물의 생물학적 활성 예측 시스템에 있어서, 상기 기하학적 특성값은 3차원 x축의 x좌표값, y축의 y좌표값, z축의 z좌표값, 최대 곡률값, 최소 곡률값 중 어느 하나 이상인 것을 특징으로 한다.
상술한 바와 같이, 본 발명에 따른 기하학적 이미지를 이용한 인공신경망 기반 단백질 결합 화합물의 생물학적 활성 예측 시스템에 의하면, 인공지능을 이용해 단백질과 화합물의 결합 정보를 학습하여 그 활성을 예측함으로써, 단백질과 결합된 화합물의 구조 정보으로 바인딩 사이트 정보를 대량으로 짧은 시간 내에 추출할 수 있는 효과가 얻어진다. 이를 통해, 실험적으로 테스트할 화합물을 빠르게 선정하여 유효물질 발굴에 걸리는 시간과 비용을 대폭 단축시킬 수 있다.
또한, 본 발명에 의하면, 오탈릭 3차원 디스크립터(Authalic 3D Descriptor)를 활용하여 단백질의 바인딩 사이트 및 화합물의 물체 표면을 2D 기하학적 이미지로 변환함으로써, 불필요한 정보를 제거하고 축소된 차원 정보를 활용하고 데이터 정보 손실을 최소화 하고 정제된 데이터를 학습시켜 타겟 단백질과 화합물과의 생물학적 활성도를 보다 정확하게 산출하는 효과가 얻어진다. 즉, 3D 물체(단백질 포함)의 표면 정보를 정보의 왜곡이나 손실없이 2D 기하학적 이미지로 변환하여 3D 물체의 표면을 복원하는 것은 물론, CNN의 인풋 데이터로 사용되어, 화합물이 특정 바인딩사이트에서의 활성도를 예측할 수 있다.
또한, 본 발명에 의하면, 공개된 단백질 및 화합물 데이터베이스를 학습용으로 큐레이션(또는 커스터마이징)하여 데이터 셋(mol, pdb, obj, mat)을 생성함으로써, 단백질 클래스(class) 별로 집중된(focused) 라이브러리를 활용할 수 있는 효과가 얻어진다.
또한, 본 발명에 의하면, 오탈릭 매개변수화(Authalic Parametrization)에 특화된 합성곱 신경망(CNN) 구성으로 드랍아웃(dropout), 데이터 증강(data augmentation), 최적 학습 비율(optimal learning rate) 선정 방법들을 활용하여, 데이터 과적합 문제를 최소화할 수 있는 효과가 얻어진다
또한, 본 발명에 의하면, 오탈릭 3차원 디스크립터(Authalic 3D Descriptor)를 활용하여, 선, 면을 포함한 고유 모양 정보(intrinsic shape information)를 캡쳐할 수 있고, 회전 등에 강인한(rigid) 형태 및 비 강인한(non-rigid) 형태를 포함하는 2D 기하학적 이미지로 정보 왜곡 혹은 손실없이 변환을 할 수 있는 효과가 얻어진다.. 또한, 2D 기하학적 이미지는 메모리 사용량이 적고, 이미지 압축 및 세부적 조정이 용이하며, 연산의 복잡도가 낮고, 이미지 픽셀마다 외인성(extrinsic) 또는 내인성(intrinsic) 값으로 인코딩 할 수 있다.
도 1은 본 발명을 실시하기 위한 전체 시스템의 구성도.
도 2는 본 발명에 따른 기하학적 이미지를 이용한 인공신경망 기반 단백질 결합 화합물의 생물학적 활성 예측 시스템의 구성에 대한 블록도.
도 3은 본 발명의 일실시예에 따른 디스크립터를 생성하는 과정을 설명하는 흐름도.
도 4는 본 발명의 일실시예에 따른 3차원 형상에 구형 매개변수화(Spherical Parametrization)를 적용하여 기하학적 이미지(Geometry Images)를 생성하는 과정을 예시한 도면.
도 5는 본 발명의 일실시예에 따른 팔면체의 삼각 표면을 2차원 기하학적 이미지로 변환하는 방법을 도시한 도면.
도 6는 본 발명의 일실시예에 따른 화합물의 생물학적 활성도를 예측하는 인공 신경망 모델의 프로세스 및 구조를 도식적으로 나타낸 도면.
이하, 본 발명의 실시를 위한 구체적인 내용을 도면에 따라서 설명한다.
또한, 본 발명을 설명하는데 있어서 동일 부분은 동일 부호를 붙이고, 그 반복 설명은 생략한다.
먼저, 본 발명을 실시하기 위한 전체 시스템의 구성의 예들에 대하여 도 1을 참조하여 설명한다.
도 1(a)와 1(b)에서 보는 바와 같이, 본 발명에 따른 기하학적 이미지를 이용한 인공신경망 기반 단백질 결합 화합물의 생물학적 활성 예측 시스템은 네트워크 상의 서버 시스템 또는 컴퓨터 단말 상의 프로그램 시스템으로 실시될 수 있다.
도 1(a)와 같이, 본 발명의 실시를 위한 전체 시스템의 일례는 분석 단말(10)과 활성 예측 시스템(30)으로 구성되고 서로 네트워크(20)로 연결된다. 또, 필요한 데이터를 저장하기 위한 데이터베이스(40)를 더 구비할 수 있다.
분석 단말(10)은 신약개발 연구원 등 사용자가 이용하는 PC, 노트북, 넷북, PDA, 모바일 등의 통상의 컴퓨팅 단말기이다. 사용자는 사용자 단말(10)을 통해 타겟 단백질 및 화합물의 3차원 구조 등 데이터를 활성 예측 시스템(30)으로 전달하거나, 그 활성 예측 결과 값을 활성 예측 시스템(30)으로부터 수신한다.
활성 예측 시스템(30)은 통상의 서버로서 네트워크(20)에 연결되어 인공신경망을 이용한 타겟 단백질에 대한 화합물 활성 예측을 지원하는 서비스를 제공한다. 한편, 활성 예측 시스템(30)은 상기 각 서비스를 인터넷 상의 웹페이지로 제공하는 웹서버 또는 웹어플리케이션 서버 등으로 구현될 수 있다. 또한, 활성 예측 시스템(30)은 클라우드 시스템으로 구현되어, 클라우드 기반으로 학습이나 분석 기능을 수행하고 활성 예측 서비스를 제공할 수 있다.
데이터베이스(40)는 활성 예측 시스템(30)에서 필요한 데이터를 저장하는 통상의 저장매체로서, 타겟 단백질 또는 화합물의 3차원 구조에 대한 데이터, 타겟 단백질과 화합물 간의 결합 등 활성 데이터를 저장한다.
한편, 데이터베이스(40)는 이미 구축된 천연물이나 화학 합성물 라이브러리의 데이터를 가져와서 구축될 수 있다.
구체적으로, 데이터베이스(40)는 활성 데이터를 저장하는 활성데이터 스토리지(41), 디스크립터를 저장하는 디스크립터 스토리지(42), 3D데이터 스토리지(43), 및, 신경망 모델(44)로 구성될 수 있다. 그러나 상기 데이터베이스(40)의 구성은 바람직한 일실시예일 뿐이며, 구체적인 시스템을 개발하는데 있어서, 접근 및 검색의 용이성 및 효율성 등을 감안하여 데이터베이스 구축이론에 의하여 다른 구조로 구성될 수 있다.
한편, 활성 예측 시스템(30)은 서버와 클라이언트로 구성된 서버-클라이언트 시스템으로 구성될 수 있다. 즉, 활성 예측 시스템(30)의 디스크립터 생성, 주요 학습이나 분석 기능은 서버에 구축되고, 사용자 인터페이스 또는 분석을 위한 간단한 전처리 작업 등은 분석 단말(10)에 클라이언트 모듈로 구축될 수 있다. 서버와 클라이언트 간의 작업 분담은 통상의 서버-클라이언트 구축 이론에 따라 다양한 형태로 구현될 수 있다.
또한, 활성 예측 시스템(30)에서 학습 기능이나 예측 기능을 엔진 모듈로 구축되고, 분석 단말(10)에 설치된 클라이언트 서비스 모듈이 엔진 모듈을 이용하여, 사전에 수집된 데이터로 인공지능 모델을 학습시키고, 학습된 모델을 통해 타겟 단백질에 대한 화합물의 활성을 예측 서비스를 제공할 수 있다. 이 경우, 분석 단말(10)은 또 다른 서버로서 역할을 수행할 수 있다.
또한, 도 1(b)와 같이, 본 발명의 실시를 위한 전체 시스템의 다른 예는 컴퓨터 단말(13)에 설치되는 프로그램 형태의 활성 예측 시스템(30)으로 구성된다. 즉, 활성 예측 시스템(30)의 각 기능들은 컴퓨터 프로그램으로 구현되어 컴퓨터 단말(10)에 설치되어, 컴퓨터 단말(10) 상의 프로그램 시스템으로 실시될 수 있다. 컴퓨터 단말(10)에 설치된 프로그램은 하나의 프로그램 시스템(30)과 같이 동작할 수 있다. 한편, 활성 예측 시스템(30)에서 필요한 데이터들은 컴퓨터 단말(10)의 하드디스크 등 저장 공간에 저장되어 이용된다.
한편, 다른 실시예로서, 기하학적 이미지를 이용한 인공신경망 기반 단백질 결합 화합물의 생물학적 활성 예측 시스템은 프로그램으로 구성되어 범용 컴퓨터에서 동작하는 것 외에 ASIC(주문형 반도체) 등 하나의 전자회로로 구성되어 실시될 수 있다. 또는 화합물 활성을 예측하는 것만을 전용으로 처리하는 전용 컴퓨터 단말(10)로 개발될 수도 있다. 이를 활성 예측 시스템(30)라 부르기로 한다. 그 외 가능한 다른 형태도 실시될 수 있다.
다음으로, 본 발명의 일실시예에 따른 기하학적 이미지를 이용한 인공신경망 기반 단백질 결합 화합물의 생물학적 활성 예측 시스템을 도 2를 참조하여 설명한다.
도 2에서 보는 바와 같이, 본 발명에 따른 기하학적 이미지를 이용한 인공신경망 기반 단백질 결합 화합물의 생물학적 활성 예측 시스템(30)은 타겟 단백질에 대한 화합물의 활성 또는 비활성 결과를 수집하는 활성데이터 수집부(31), 단백질 또는 화합물에 대한 3차원 형상 데이터를 형성하는 3D데이터 형성부(32), 3차원 데이터에 대해 오탈릭 매개변수화(Authalic Parametrization)를 적용하여 디스크립터를 산출하는 디스크립터 산출부(33), 단백질 및 화합물의 디스크립터, 및, 활성데이터 데이터를 이용하여, 신경망 모델을 학습시키는 모델 학습부(34), 검사대상 단백질(또는 질의 단백질)과 검사대상 화합물(또는 질의 화합물)에 대하여 신경망 모델을 이용하여 활성을 예측하는 활성 예측부(35)로 구성된다.
먼저, 활성데이터 수집부(31)은 각 타겟 단백질에 대한 각 화합물의 활성 데이터를 수집한다.
활성 데이터는 특정 타겟 단백질(또는 표적 단백질) Pi에 대하여 특정 화합물 Cj이 활성 화합물(active)인지, 또는 비활성 화합물(inactive)인지를 나타내는 데이터이다. 즉, 활성 데이터는 { < Pi, Cj, Rij > }로 구성된다. 이때, Rij 는 활성화 또는 비활성화 값(이진 값)을 갖는다.
한편, 활성 데이터는 타겟 단백질에 대한 화합물의 활성 정도를 나타내는 활성값으로 표시될 수 있다. 이 경우, 사전에 정해진 기준값(또는 임계값)을 기준으로 활성 또는 비활성으로 구분될 수 있다.
활성화(active)는 타겟 단백질 Pi에 대하여 특정 화합물 Cj가 결합하였다는 것을 의미하고, 비활성화(inactive)는 그러하지 않다는 것을 나타낸다.
바람직하게는, 활성데이터 수집부(31)은 사전에 구축된 활성데이터의 데이터셋으로부터 활성데이터를 수집할 수 있다.
일례로서, DUD-E(A Database of Useful Decoys: Enhanced)[비특허문헌 2]에서 제공하는 데이터셋을 사용한다. DUD-E 데이터셋은 총 102개의 타겟 단백질에 대한 총 22,146개의 활성(active) 화합물(타겟 단백질당 평균 217개의 활성 화합물)과, 비활성(inactive) 화합물 대신 각 활성(active)에 대해 5~60여개씩 만들어진 디코이(decoy) 화합물을 제공한다. 이 중 4개의 타겟 단백질은 부적합성 등의 이유로 제거하였고, 남은 98개 단백질에 대한 데이터가 본 발명의 실험에 사용되었다. DUD-E 데이터셋의 용도는 벤치마크 데이터셋이다.
디코이 화합물은 이론상 비활성 화합물일 가능성이 높은 구조의 화합물로서, 현실적으로 비활성 화합물에 대한 데이터를 수집하기 곤란한 점을 반영한다. 즉, 활성 화합물에 대비되어 구별되게 하기 위한 목적으로 표준 데이터 설계자들이 구성한 화합물 데이터이다. 디코이 화합물은 실질적으로는 비활성 화합물에 준하는 용도로 사용된다.
다음으로, 3D데이터 형성부(32)는 단백질 또는 화합물에 대한 3차원 형상을 형성한다. 특히, 3차원 형상 데이터는 닫힌 표면 데이터로서, 바람직하게는, 닫힌 메쉬 표면(closed mesh surface)에 대한 3차원 데이터이다. 이때, 단백질 또는 화합물은 앞서 수집된 활성 데이터에 속하는 타겟 단백질 또는 화합물들이다.
바람직하게는, 3D데이터 형성부(32)는 단백질과 화합물이 결합된 상태에서의 타겟 단백질 또는 화합물의 3차원 형상을 형성한다. 즉, 화합물 또는 단백질이 실제 실험을 통한 결정구조(crystal structure)를 가지고 있는 경우, 해당 결정구조로부터 화합물 또는 단백질의 각 3차원 형상을 형성하고, 결정구조를 가지고 있지 않은 경우, 화학 결합 시뮬레이션 도구(예를 들어, 오토도킹 autodocing 프로그램) 등을 이용하여 화합물과 단백질을 가상으로 결합하고, 결합된 가상 3차원 구조로부터 화합물 또는 단백질의 각 3차원 형상을 형성한다.
또한, 3D데이터 형성부(32)는 코놀리 표면[비특허문헌 3]을 이용하여, 타겟 단백질 또는 화합물의 3차원 형상을 형성한다. 구체적으로, 단백질 또는 화합물에 대한 코놀리 표면을 구하고, 코놀리 표면으로부터 3차원 형상 데이터를 생성한다. 즉, 도 3에서 보는 바와 같이, 코놀리 표면 생성 방법을 통해 단백질과 화합물의 3차원 데이터로부터 각각이 가지는 3차원 형상을 추출한다. 바람직하게는, 코놀리 표면 생성방법을 통해 추출되는 것이 표면의 3차원 위치정보이고, 그 위치 정보를 그물망(mesh) 구조의 삼각형을 이루는 꼭지점들의 3차원 좌표로 나타낸다. 즉, 그물망 구조에 의한 꼭지점들의 집합이 3차원 형상을 나타낸다.
코놀리 표면은 분자를 구성하는 각 원자의 반데르 발스(van der Waals) 반지름을 바탕으로 용매가 접근 가능한 범위를 나타내는 표면을 말한다. 즉, 코놀리 표면은 단백질 또는 화합물이 차지하는 공간에 대한 형상을 나타낸다.
바람직하게는, 3D데이터 형성부(32)는 단백질의 경우에는 단백질의 기질 결합부위의 표면만을 추출하고, 추출된 표면에 대한 3차원 형상을 추출한다. 즉, 단백질의 전체 형상이 필요한 것이 아니라 화합물에 상보적인 기질 결합부위의 형상만이 필요한 것이므로, 단백질의 기질 결합부위의 표면만을 따로 추출하여도 된다.
즉, 단백질과 화합물(ligand)가 결합된 상태에서, 화합물의 표면 원소 좌표를 기준으로, 일정 범위(사전에 정해진 거리) 이내에 들어오는 단백질의 바인딩 사이트(binding-site) 또는 결합 부위 정보를 추출한다. 또한, 추출된 바인딩 사이트에서 폐곡면을 유지하면서, 3차원 형상 데이터를 생성한다.
바람직하게는, 3D데이터 형성부(32)는 추출된 표면을 삼각 그물망 구조(triangular mesh)로 변환하고, 면과 꼭지점의 정보를 통합하고 변환하여 3차원 형상을 생성한다.
다음으로, 디스크립터 산출부(33)는 단백질 또는 화합물의 3차원 형상 데이터에서 2차원 기하학적 이미지를 생성하고, 2차원 기하학적 이미지를 디스크립터(descriptor)로 산출한다.
도 3에서 보는 바와 같이, 디스크립터 산출부(33)는 3차원 형상 데이터를 구면에 매핑시키는 구형 매개변수화(Spherical Parameterization) 단계(S31), 오탈릭 매핑을 통해 구면 상의 형상 데이터를 보정하는 오탈릭 매개변수화(Authalic Parameterization) 단계(S32), 보정된 구면 상의 형상 데이터를 팔면체의 표면 상에 매핑하는 팔면체 매개변수화(Octahedron Parameterization) 단계(S33), 팔면체 상의 형상 데이터를 2차원 사각형에 매핑하는 사각형 매개화변수화(Square Parameterization) 단계(S34), 및, 2차원 기하학적 디스크립터를 생성하는 단계(S35)를 수행하여, 2차원 기하학적 이미지를 디스크립터로 산출한다.
도 4는 구형 메쉬(spherical mesh)에 매핑(mapping)된 꼭지점(vertex) 정보를 활용하여 최종적인 2D 기하학 이미지를 산출하는 형태를 나타낸 그림이다.
먼저, 구형 매개변수화(Spherical Parameterization)를 이용하여, 3차원 형상 데이터를 구면(spherical surface) 상에 매핑시킨다(S31).
이때, 3차원 형상 데이터는 3D데이터 형성부(32)에서 형성한 단백질 또는 화합물의 형상 또는 표면에 대한 3차원 데이터이다. 특히, 3차원 형상 데이터는 삼각 그물망 구조(triangular mesh)로 표현된 표면 데이터로서, 각 삼각형의 꼭지점(vertex) 데이터들이다. 즉, 3차원 형상 데이터는 꼭지점의 3차원 좌표들로 구성된다.
따라서 3차원 형상 데이터의 각 꼭지점을 구면 상에 매핑시킨다.
도 4의 예를 참조하면, (a) 3차원 형상 데이터에서, (b) 구면 상의 데이터로 매핑하는 것과 같다.
다음으로, 오탈릭 매개변수화(Authalic Parameterization)를 통해 구면 상의 형상 데이터를 보정한다(S32). 즉, 3차원 형상 데이터에서의 각 메쉬(mesh)의 면적이, 이에 대응하는 구면(spherical surface) 상의 메쉬의 면적에 보전되도록, 구면 상의 데이터를 보정한다. 즉, 면적왜곡비율이 최소화되도록 보정한다.
먼저, 프아송 방정식(Poisson Equation)을 활용하여 각 정점 u에 대한 스칼라장 g를 구한다.
즉, 프아송 방정식(Poisson Equation)에 의해 면적 왜곡(areal distortion)은 다음 식으로 표시될 수 있다.
[수학식 1]
Figure pat00001
여기서, ▽2 는 라플라스 연산자이고, g는 정점 집합(vertex set) V에 대한 함수를 나타낸다. 또한, δh는 면적 왜곡(areal distortion) 또는 면적왜곡 비율을 나타낸다.
이때, 면적왜곡 비율 δh는 오리지널 메쉬(3차원 형상 데이터) 면적 대비 구면 메쉬(구면 상 매핑된 데이터) 면적으로부터 구할 수 있다. 이에 대한 식은 다음과 같다.
[수학식 2]
Figure pat00002
여기서, δhu 는 정점 u에서의 면적왜곡 비율을 나타낸다. 또한, Au S 는 구면 상 정점 u에 인접한 보로누와 영역(voronoi region)을 나타내고, Au 는 오리지널 메쉬에서의 정점 u에서의 영역 또는 삼각 영역이다.
수학식 2를 앞서 수학식 1에 적용하여, 스칼라장 g를 구한다.
특히, 구면 상 메쉬 표면은 폐쇄 메쉬 표면(closed mesh surface)이다. 이런 경우, L = ▽2 조건이 유효하다. L은 코탄젠트 라플라시안(cotangent Laplacian)이다. 따라서 수학식 1은 다음 식과 같이 표시될 수 있다.
[수학식 3]
Figure pat00003
여기서, L에 대해 슈도우 인버스(pseudo inverse)를 구할 수 있다.
따라서 L의 슈도우 인버스를 수학식 3의 양변에 곱하여, 스칼라장 g를 구한다.
다음으로, 스칼라장 g를 이용하여, 각 면(face) fuvw 에서의 그래디언트 필드(gradient field) ▽g 를 구한다.
즉, 벡터 u, v, w의 3개 정점(코너)으로 이루어진 면(face) fuvw 를 고려한다. 그리고 n은 삼각형의 수직단위 법선 벡터(perpendicular unit normal vector)로 놓는다.
각 삼각형에서 선형보간법(linear interpolation)이 가능하다고 가정하면, 그래디언트 벡터 ▽g 는 3×3 선형 매트릭스 연산을 통해 쉽게 계산될 수 있다. 연산 식은 다음과 같다.
[수학식 4]
Figure pat00004
gu, gv, gw 는 스칼라장 g에서 각 정점 u, v, w에 대한 스칼라 값이다. 그리고 u, v, w는 정점 벡터이고, n은 법선 벡터이다.
즉, 수학식 4에 의해 그래디언트 벡터 ▽g 를 계산한다.
다음으로, 그래디어트 필드 또는 그래디언트 벡터를 이용하여, 각 정점 u에서의 그래디언트 필드 또는 그래디언트 벡터를 구한다. 즉, 그래디언트 벡터 ▽g 를 이용하여, 다음 식을 통해 정점 u에서의 그래디언트 벡터 ▽gu 를 산출한다.
[수학식 5]
Figure pat00005
여기서, fuvw는 정점 u의 주변의 면(faces)을 의미하고, cu vw는 정점 u의 에지(edge) vw에 대향하는 각도를 일컫는다. ▽g(fuvw)는 정점 u의 v, w 방향의 면(faces)들의 그래디언트 벡터 값이다.
즉, 수학식 5는 각 면 fuvw 의 입사 각도(incident angle) cu vw 에 대한 인접 면의 그래디언트의 가중 평균을 나타낸다.
수학식 5에서 구한 그래디언트 벡터 ▽gu 을 이용하여, 다음 식과 같이, 정점 v를 보정한다.
[수학식 6]
Figure pat00006
여기서, ρ는 보정계수이다.
수학식 6에서의 보정은 오리지널 메쉬(orginal mesh)의 정점을 보정한다.
그리고 오리지널 메쉬 상의 보정된 정점을 바리센트릭 매핑(Barcentric mapping)을 적용하여 구면 상에 매핑한다. 상기와 같은 과정에 의하여, 구면상 점을 보정하여 이동시킬 수 있다.
상기와 같은 오탈릭 매개변수화(Authalic Parametrization)에 의해, 바로 구면 좌표계로 옮기지 않고, 스칼라장(scalar field) 값, 그래디언트 벡트(griadient vector) 값, 면적 왜곡(areal distortion)을 계산한다. 이것은 바로 구면 좌표계로 옮겼을 때는 이미지 왜곡 현상이 심각하게 발생하는 것을 최소화 하기 위한 것이다. 또한, 메쉬 모델(mesh model)은 삼각 플립(triangle flips) 횟수를 줄임으로써 재삼각형화(retriangulation)의 연산 비용(computing costs)를 줄일 수 있다.
다음으로, 구면 상의 보정된 형상 데이터를 정팔면체의 표면 상에 매핑한다(S33). 즉, 팔면체 매개변수화(Octahedron Parameterization)를 통해, 구면 상의 형상 데이터(또는 메쉬)를 8면체의 도메인으로 변환한다. 즉, 구형 매개변수화(Spherical Parameterization)를 이용하여 8면체로 매핑시킨다.
바람직하게는, 8면체는 정팔면체이다.
도 4의 예를 참조하면, (b) 구면 상의 데이터에서, (c) 8면체 상의 데이터로 매핑하는 것과 같다.
다음으로, 팔면체 상의 형상 데이터를 2차원의 사각형에 매핑한다(S34).
즉, 도 5에서 보는 바와 같이, 변환된 8면체를 편평(flatten)하여 2차원 사각형에 매핑한다. 바람직하게는, 2차원 사각형은 N×N의 정사각형으로 형성한다. 일례로서, N은 128로 설정한다.
한편, 8면체의 각 표면의 8개의 삼각형을 조합하여 2차원 기하학적 이미지로 형성한다. 바람직하게는, 8면체의 각 표면의 8개의 삼각형을 직각 이등변 삼각형으로 변환하고, 이들 직각 이등변 삼각형을 서로 조합하여 사각형 또는 정사각형을 형성한다.
특히, 2D 이미지 또는 사각형 이미지는 에지(edge)와 코너(corner) 부분의 이미지 끊김 현상을 방지하기 위해, 8면체의 도메인에 해당하는 각각의 삼각형을 상하를 회전시킨 복사본을 이어 붙여, 각각의 정사각형 형태를 이루게 한다.
도 4의 예를 참조하면, (c) 8면체 상의 데이터에서, (d) 정사각형 상의 데이터로 매핑하는 것을 도시하고 있다.
다음으로, 매핑된 2차원 사각형에 대해 2차원 기하학적 이미지의 디스크립터를 생성한다(S35).
앞서 단계들에서, 3차원 형상 데이터, 구면 상의 매핑 데이터, 보정된 구면 상의 매핑 데이터, 8면체 상의 매핑 데이터, 2차원 사각형 상의 매핑 데이터로 서로 일대일 매핑 관계를 갖는다. 따라서 3차원 형상 데이터와 2차원 사각형은 서로 매핑되고, 특히, 3차원 형상 데이터의 각 꼭지점은 2차원 사각형의 각 꼭지점에 매핑된다.
2차원 이미지 또는 사각형의 각 픽셀의 픽셀 값을 픽셀 위치에 매핑되는 3차원 형상 데이터의 위치에서의 3차원 형상의 특징값(또는 기하학적 특성값)으로 설정한다. 즉, 2차원 이미지(또는 2차원 사각형)의 픽셀 위치 (x',y')는 3차원 형상 데이터의 한 점 (x,y,z)에 매핑된다. 꼭지점이 아닌 픽셀의 경우는, 보간법 등에 의해 대응되는 위치를 찾을 수 있다.
바람직하게는, 3차원 형상 데이터의 기하학적 특성값은 3차원 x축의 x좌표값, y축의 y좌표값, z축의 z좌표값, 주곡률값(최대 곡률값, 최소 곡률값) 등 어느 하나 이상을 사용한다. 바람직하게는, 5개의 기하학적 특성값을 모두 사용한다.
한편, 각 기하학적 특성값은 픽셀의 수치 범위(0~255)로 정규화(normalization) 될 수 있다.
따라서 각 기하학적 특성값을 픽셀값으로 갖는 2차원 기하학적 이미지를 각 기하학적 특성값 별로 생성한다. 바람직하게는, 모두 K개(예를 들어, 5개)의 2차원 기하학적 이미지가 생성된다.
다음으로, 모델 학습부(34)는 타겟 단백질의 디스크립터, 화합물의 디스크립터, 및, 활성 데이터를 이용하여, 신경망 모델을 학습시킨다. 특히, 모델 학습부(34)는 학습 데이터에 대하여 전처리를 수행하고, 전처리된 학습 데이터로 신경망 모델을 학습시킨다.
앞서 설명한 바와 같이, 디스크립터는 픽셀 값을 3차원 형상 데이터의 기하학적 특성값(정규화된 특성값)으로 갖는 K개의 2차원 기하학적 이미지이다. K개는 기하학적 특성값의 개수(종류의 개수)이다.
먼저, 특정 단백질에 대한 활성 화합물 그룹과 비활성 화합물 그룹 각각 내에서 셔플(shuffle)을 한다. 즉, 단백질(protein) 및 화합물(ligand) 별로 각각 데이터 셋을 형성하고, 활성, 비활성 여부에 따라 화합물을 따로 그룹화 한다. 그래서 각각의 단백질 별로 통합된 활성 화합물 데이터셋 그룹과, 비활성 화합물 데이터셋 그룹을 생성한다.
다음으로, 활성(active), 비활성(inactive) 화합물 데이터 셋(또는 디스크립터 셋)을 각기 대응되는 단백질의 디스크립터와 중합하여 결합(merge)한다. 즉, 각 단백질과 활성 데이터셋, 단백질과 비활성 데이터셋을 생성한다. 중합된 데이터셋 그룹을 셔플한다.
다음으로, 셔플된 중합 데이터셋 그룹에서 사전에 정해진 비율로 나누어 다수 개의 분할 조각(또는 조각 그룹)으로 생성한다. 바람직하게는, 하나의 조각 그룹에는 하나의 단백질에 대하여 활성 화합물 및 비활성 화합물의 정보를 모두 포함한다.
다음으로, 조각 그룹들에 대하여 학습 데이터용 조각 그룹과, 검증(validation) 조각 그룹으로 분할하고, 각 데이터셋에 해당 라벨 값을 할당한다. 바람직하게는, 하나의 조각 그룹을 검증(validation) 및 테스트(test) 용으로 사용한다.
다음으로, 학습 또는 예측에 사용되는 신경망 모델(44)에 대하여 보다 구체적으로 설명한다.
도 6는 화합물의 생물학적 활성도를 예측하는 인공 신경망 모델의 프로세스 및 구조를 도식적으로 나타낸 그림이다.
신경망 모델은 DNN(Deep Neural Network) 또는 딥러닝 모델, 순환형 신경망(RNN), 합성곱 신경망(CNN) 등이 적용될 수 있다. 신경망 모델의 입력 데이터는 단백질의 디스크립터와 화합물의 디스크립터이고, 출력 데이터는 활성(active)과 비활성(inactive)이다.
신경망 모델은 임의의 단백질과 화합물 정보가 입력되었을 때, 두 화합물 사이 결합의 상호작용을 판단하게 된다. 결합의 친밀도(binding affinity)의 기준치 이상 돌파하여 활성(active) 혹은 비활성(inactive)으로 판단하는 기능을 수행하며, 이는 학습으로 형성된 인공지능의 초매개변수(hyperparameters) 및 주어진 판정기준치(threshold), 최종 노트(note) 별 확률값에 의거한다.
활성의 예측은 특정 타겟 단백질에 대한 특정 화합물에 대한 활성 여부를 예측하는 것이므로, 하나의 타겟 단백질과 하나의 화합물은 쌍(반응 쌍)으로 적용되어야 한다. 따라서 신경망 모델의 입력(또는 전체 디스크립터)는 반응 쌍의 타겟 단백질 및 화합물의 각각 디스크립터로 구성된다. 또한, 학습을 위한 결과 값으로 활성 데이터가 사용된다. 활성 데이터는 앞서 활성데이터 수집부(31)에 의해 수집된 데이터이다. 활성 데이터는 라벨링되어 입력된다.
이때, 신경망 모델에 입력되는 데이터(또는 전체 디스크립터)는 타겟 단백질의 디스크립터와, 그에 대응하는 화합물에 대한 디스크립터를 융합한 디스크립터이다.
바람직하게는, 합성곱 신경망(CNN)과 DNN을 이용한다. 특히, 이미지를 학습하기 위해 가장 적절하다고 여겨지는 2D CNN(Convolutional Neural Network)에 DNN(Deep Neural Network)이 연결된 구조이다. CNN은 듀얼 시스템(Duel system) 형태에서 변형되고, DNN은 통상의 모델에 비해 상호작용(interaction)하는 구조에서 변경된다.
구체적인 CNN의 구조는 다음과 같다.
CNN 구조는, 컨볼루션 레이어(Convolution layer)가 총 8개로 구성된다. 각 레이어의 필터 커널 크기(filter kernel size)는 3x3 이다(302). 가중치(weights), 바이어스(biases) 등 필터 초매개변수(Filter hyperparameters)의 변수 초기화 방법은 He 초기화(Initialization)이다. 이는 ReLu 활성화 함수(CNN 부 레이어 활성화 함수)로 레이어들의 출력을 도출할 때 유용한 초기화 기법으로, 출력의 분포 양극화 현상(출력값의 최대값 또는 최솟값으로 해당 값들이 극단적으로 수렴하는 현상) 발생을 방지한다.
CNN 부분은 듀얼 시스템(Duel System)으로 구성된다. 각 시스템에서 첫 번째 레이어의 결과값이 5번째 레이어 결과값에 최대값 풀링(Max pooling), 평균 풀링(average pooling) 과정을 2번 거친 뒤 가산반영(1/3)을 하게 된다(303). 5번째 레이어의 결과값이 최대값 풀링(Max pooling), 평균 풀링(average pooling) 과정을 2번 거친 뒤 8번째 레이어 결과값에 가산반영(1/3)된다(306). 또한 듀얼 시스템 각각의 5번째 레이어 1차 결과값에 따른 시스템의 5번째 레이어 1차 결과값이 가산반영(1/3)되어 2차 결과값을 형성한다(5번째 레이어 2차 최종 결과값)(305). 일반적 레이어 진행((302),(304)) 또한 존재한다. 각각의 컨벌루션 레이어에는 배치 정규화(Batch Normalization) 방법이 적용된다.
배치 정규화(Batch Normalization) 방법은 활성화 함수의 활성화 값 또는 출력값을 정규화하는 작업을 말한다. 배치 정규화 방법은, 활성화 함수 직전 단계에서 수행하며, 신경망(neural network)의 각 레이어들에서 배치(batch)에 따른 데이터의 분포를 정규화시켜 준다. 이 방법을 활용하면, 학습할 때마다 활성화값(출력값)을 정규화하기 때문에 초기화(가중치 초기값) 문제에서 자유로워지며, 학습 속도가 개선되고(학습률 높게 설정 가능), 가중치 초깃값 선택의 의존성이 낮아지며, 오버피티 위험을 축소시키고, 후방 전파(back propagation)에서 그래디언트 소멸(gradient vanishing) 문제를 크게 낮추어 주는 이점이 있다.
본 모듈의 DNN 구조는 다음과 같다. CNN 듀얼시스템의 두 8번째 컨벌루션 레이어 결과들을 편평하게(flattening) 한 후 DNN(308)에 넣었으며, 두 1024개의 노드(node)에 CNN 최종 두 출력이 적절한 수식으로 조합된 뒤 펴진 후 고루 배열된 뒤 값들이 각 각 1024개의 다음 레이어로 처리되어 넘어간다. 이 때, 이 층의 두 출력 값 세트(set)들이 서로 반대쪽의 다음 레이어의 노드들로 가기 전 합해진 뒤 반으로 나누어져 다음 레이어의 각 두 1024개 노드셋으로 들어간다(309). 남은 3개의 레이어들을 진행한다. 도중에 두 노드셋이 절반씩 합쳐져 하나의 노드셋 형성(310)하여, 최종적으로 2개의 노드로 값이 형성되게 된다. 첫 번째 최종(final) 노드는 비활성(inactive)의 경우 확률값(probability)이고, 두 번째 최종 노드는 활성의 경우 확률값이다(311). 전체적인 레이어들의 활성화함수는 ReLu함수이다. 최종 출력 부분에서 활성(activation) 함수로 소프트맥스 함수(softmax function)가 사용되었으며, 형성된 확률 값들에 과적합을 최대한 방지하기 위하여 커널 정규화(kernel regularization)(L1, L2 합성 정규화) 함수 값이 추가되었다.
도 6에서, 파란 정육면체는 입력 데이터의 모양(shape)을 의미한다. 필터의 위쪽에 기재된 숫자는 스트라이드 사이즈(stride size)를 의미하고, 밑의 차원값(3x3)은 커널 사이즈(kernel size)를 의미한다. 풀링이 언급된 사각형 부분에서 2개의 숫자 값은 차례대로 스트라이드 사이즈, 커널 사이즈를 의미한다. 패딩(Padding)은 동일(same)로 지정되어, 실질적으로 풀링 과정을 거쳐도 이미지의 크기는 변화되지 않게 한다. 하이퍼파라미터는 학습 전에 설정된 변수들을 일컫고, 여기서는 3D 컨볼루션 레이어의 개수(8), 필터들의 크기와 개수, 완전 연결(fully connected) 레이어의 크기와 개수, 학습 비율, 커널 정규화 람다 학습 비율(lamda learning rate), 배치 사이즈(batch size), 배치 정규화(batch normalization) 관련 변수(beta, gamma 값) 등이 해당된다.
많은 하이퍼파라미터의 작용으로 인한 오버피팅(overfitting)을 막기 위하여, 모델 내에서 언급한 배치 정규화(batch normalization), 커널 정규화(kernel regularization), 초파라미터 초기화(hyperparameters initialization) 방식 변경, 모델 상층부 출력 결과를 하층부에 반영 등의 여러 기법들로, 오버피팅 최소화를 유도한다.
다음으로, 활성 예측부(35)는 검사대상 단백질과 검사대상 화합물에 대하여, 각각의 디스크립터를 상기 신경망 모델에 입력시키고, 신경망 모델의 결과 값을 출력한다. 출력값이 활성이면 검사대상의 단백질에 대하여 검사대상 화합물이 활성 화합물이라고 예측하고, 출력이 비활성이면 검사대상의 단백질에 대하여 검사대상 화합물이 비활성화 화합물이라고 예측한다.
이상, 본 발명자에 의해서 이루어진 발명을 실시 예에 따라 구체적으로 설명하였지만, 본 발명은 실시 예에 한정되는 것은 아니고, 그 요지를 이탈하지 않는 범위에서 여러 가지로 변경 가능한 것은 물론이다.
10 : 분석 단말 20 : 네트워크
30 : 활성 예측 시스템 31 : 활성데이터 수집부
32 : 3D데이터 형성부 33 : 디스크립터 산출부
34 : 모델 학습부 35 : 활성 예측부
40 : 데이터베이스 41 : 활성데이터 스토리지
42 : 3D데이터 스토리지 43 : 디스크립터 스토리지
44 : 신경망 모델

Claims (7)

  1. 기하학적 이미지를 이용한 인공신경망 기반 단백질 결합 화합물의 생물학적 활성 예측 시스템에 있어서,
    타겟 단백질에 대한 화합물의 활성 또는 비활성의 활성 데이터를 수집하는 활성데이터 수집부;
    단백질 또는 화합물에 대한 3차원 형상을 형성하여 닫힌 표면 데이터로 3차원 형상 데이터를 생성하는 3D데이터 형성부;
    단백질 또는 화합물의 3차원 형상 데이터를 2차원 평면에 매핑하고, 각 픽셀값이 3차원 형상 데이터의 기하학적 특성값으로 설정되는, 2차원 기하학적 이미지로 디스크립터를 산출하는 디스크립터 산출부;
    단백질의 디스크립터, 및 화합물의 디스크립터, 및, 활성 데이터를 이용하여, 신경망 모델을 학습시키는 모델 학습부; 및,
    신경망 모델을 이용하여 검사대상 단백질에 대한 검사대상 화합물의 활성을 예측하는 활성 예측부를 포함하는 것을 특징으로 하는 기하학적 이미지를 이용한 인공신경망 기반 단백질 결합 화합물의 생물학적 활성 예측 시스템.
  2. 제1항에 있어서,
    상기 3D데이터 형성부는 단백질 또는 화합물에 대한 코놀리 표면을 구하고, 구한 코놀리 표면으로부터 3차원 형상을 형성하는 것을 특징으로 하는 기하학적 이미지를 이용한 인공신경망 기반 단백질 결합 화합물의 생물학적 활성 예측 시스템.
  3. 제2항에 있어서,
    상기 3D데이터 형성부는 단백질의 경우, 단백질의 기질 결합부위의 표면만을 추출하고, 추출된 표면에 대한 3차원 형상을 추출하는 것을 특징으로 하는 기하학적 이미지를 이용한 인공신경망 기반 단백질 결합 화합물의 생물학적 활성 예측 시스템.
  4. 제1항에 있어서, 상기 디스크립터 산출부는,
    (a) 구형 매개변수화(Spherical Parameterization)를 이용하여, 3차원 형상 데이터를 구면에 매핑시키는 단계,
    (b) 매핑된 구면 상의 형상 데이터를 팔면체의 표면 상에 매핑하는 단계,
    (c) 팔면체 표면 상에 매핑된 형상 데이터를 2차원 사각형에 매핑하는 단계, 및,
    (d) 2차원 사각형의 각 픽셀 값을, 해당 픽셀 위치에 대응되는 3차원 형상 데이터의 위치에서의 기하학적 특성값으로 설정하는 단계를 수행하는 것을 특징으로 하는 기하학적 이미지를 이용한 인공신경망 기반 단백질 결합 화합물의 생물학적 활성 예측 시스템.
  5. 제4항에 있어서,
    상기 (a)단계에서, 매핑된 구면 상의 형상 데이터에 대하여, 오탈릭 매개변수화(Authalic Parameterization)를 이용하여, 3차원 형상 데이터에서의 각 메쉬(mesh)의 면적이, 이에 대응하는 구면(spherical surface) 상의 메쉬의 면적에 보전되도록, 구면 상의 데이터를 보정하는 것을 특징으로 하는 기하학적 이미지를 이용한 인공신경망 기반 단백질 결합 화합물의 생물학적 활성 예측 시스템.
  6. 제4항에 있어서,
    상기 (c)단계에서, 8면체의 각 표면의 8개의 삼각형을 직각 이등변 삼각형으로 변환하고, 이들 직각 이등변 삼각형을 서로 조합하여 사각형 또는 정사각형을 형성하는 것을 특징으로 하는 기하학적 이미지를 이용한 인공신경망 기반 단백질 결합 화합물의 생물학적 활성 예측 시스템.
  7. 제1항에 있어서,
    상기 기하학적 특성값은 3차원 x축의 x좌표값, y축의 y좌표값, z축의 z좌표값, 최대 곡률값, 최소 곡률값 중 어느 하나 이상인 것을 특징으로 하는 기하학적 이미지를 이용한 인공신경망 기반 단백질 결합 화합물의 생물학적 활성 예측 시스템.
KR1020190107482A 2019-08-30 2019-08-30 기하학적 이미지를 이용한 인공신경망 기반 단백질 결합 화합물의 생물학적 활성 예측 시스템 KR20210026542A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190107482A KR20210026542A (ko) 2019-08-30 2019-08-30 기하학적 이미지를 이용한 인공신경망 기반 단백질 결합 화합물의 생물학적 활성 예측 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190107482A KR20210026542A (ko) 2019-08-30 2019-08-30 기하학적 이미지를 이용한 인공신경망 기반 단백질 결합 화합물의 생물학적 활성 예측 시스템

Publications (1)

Publication Number Publication Date
KR20210026542A true KR20210026542A (ko) 2021-03-10

Family

ID=75148308

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190107482A KR20210026542A (ko) 2019-08-30 2019-08-30 기하학적 이미지를 이용한 인공신경망 기반 단백질 결합 화합물의 생물학적 활성 예측 시스템

Country Status (1)

Country Link
KR (1) KR20210026542A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116385698A (zh) * 2023-05-25 2023-07-04 腾讯科技(深圳)有限公司 网格重建模型的训练方法、网格重建方法及装置
CN117912591A (zh) * 2024-03-19 2024-04-19 鲁东大学 一种基于深度对比学习的激酶药物相互作用预测方法
CN117912591B (zh) * 2024-03-19 2024-05-31 鲁东大学 一种基于深度对比学习的激酶药物相互作用预测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180058648A (ko) 2016-11-24 2018-06-01 한양대학교 산학협력단 비구조-구조 전이 부위를 표적으로 하는 신약 후보 물질 발굴 방법 및 신약 후보 물질 발굴 장치
KR20190000167A (ko) 2017-06-22 2019-01-02 한국과학기술원 유사 약리활성 그룹 화합물들의 조각구조 특성 연관규칙을 기반으로 신규 선도물질 예측 방법 및 시스템

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180058648A (ko) 2016-11-24 2018-06-01 한양대학교 산학협력단 비구조-구조 전이 부위를 표적으로 하는 신약 후보 물질 발굴 방법 및 신약 후보 물질 발굴 장치
KR20190000167A (ko) 2017-06-22 2019-01-02 한국과학기술원 유사 약리활성 그룹 화합물들의 조각구조 특성 연관규칙을 기반으로 신규 선도물질 예측 방법 및 시스템

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Connolly, M. L., "Analytical molecular surface calculation.", J. Appl. Cryst. 1983, 16, 548-558
Deep Learning 3D Shape Surfaces Using Geometry Images, European Conference on Computer Vision, ECCV 2016: Computer Vision ?? ECCV 2016 pp 223-240.
http://dude.docking.org/

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116385698A (zh) * 2023-05-25 2023-07-04 腾讯科技(深圳)有限公司 网格重建模型的训练方法、网格重建方法及装置
CN116385698B (zh) * 2023-05-25 2023-09-08 腾讯科技(深圳)有限公司 网格重建模型的训练方法、网格重建方法及装置
CN117912591A (zh) * 2024-03-19 2024-04-19 鲁东大学 一种基于深度对比学习的激酶药物相互作用预测方法
CN117912591B (zh) * 2024-03-19 2024-05-31 鲁东大学 一种基于深度对比学习的激酶药物相互作用预测方法

Similar Documents

Publication Publication Date Title
Tewari et al. Advances in neural rendering
Zhang et al. Deep fusionnet for point cloud semantic segmentation
Zhang et al. A review of deep learning-based semantic segmentation for point cloud
Zhang et al. Detail preserved point cloud completion via separated feature aggregation
Han et al. Image-based 3D object reconstruction: State-of-the-art and trends in the deep learning era
Ye et al. 3d recurrent neural networks with context fusion for point cloud semantic segmentation
Griffiths et al. A review on deep learning techniques for 3D sensed data classification
AU2017248506B2 (en) Implementation of an advanced image formation process as a network layer and its applications
Fei et al. Comprehensive review of deep learning-based 3d point cloud completion processing and analysis
US20210295169A1 (en) Deep learning based identification of difficult to test nodes
US11514642B2 (en) Method and apparatus for generating two-dimensional image data describing a three-dimensional image
Lyu et al. Neural radiance transfer fields for relightable novel-view synthesis with global illumination
CN114049515A (zh) 图像分类方法、系统、电子设备和存储介质
US20230237342A1 (en) Adaptive lookahead for planning and learning
Lei et al. Mesh convolution with continuous filters for 3-d surface parsing
KR20210026542A (ko) 기하학적 이미지를 이용한 인공신경망 기반 단백질 결합 화합물의 생물학적 활성 예측 시스템
Jiang et al. Unsupervised contrastive learning with simple transformation for 3D point cloud data
Guo et al. Efficient convolutional networks learning through irregular convolutional kernels
US20220398283A1 (en) Method for fast and better tree search for reinforcement learning
Song et al. Implicit neural refinement based multi-view stereo network with adaptive correlation
Ben Charrada et al. TopoNet: Topology Learning for 3D Reconstruction of Objects of Arbitrary Genus
Li et al. Spnet: Multi-shell kernel convolution for point cloud semantic segmentation
Xu et al. PVLNet: Parameterized-View-Learning neural network for 3D shape recognition
KR20210026543A (ko) 복수의 인공신경망 모델 기반 단백질 결합 화합물의 활성 예측 시스템
Kunert et al. Neural network adaption for depth sensor replication

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E601 Decision to refuse application