KR102635777B1 - 분자 결합 부위를 검출하기 위한 방법 및 장치, 전자 디바이스 및 저장 매체 - Google Patents

분자 결합 부위를 검출하기 위한 방법 및 장치, 전자 디바이스 및 저장 매체 Download PDF

Info

Publication number
KR102635777B1
KR102635777B1 KR1020217028480A KR20217028480A KR102635777B1 KR 102635777 B1 KR102635777 B1 KR 102635777B1 KR 1020217028480 A KR1020217028480 A KR 1020217028480A KR 20217028480 A KR20217028480 A KR 20217028480A KR 102635777 B1 KR102635777 B1 KR 102635777B1
Authority
KR
South Korea
Prior art keywords
feature
site
target
coordinates
region
Prior art date
Application number
KR1020217028480A
Other languages
English (en)
Other versions
KR20210126646A (ko
Inventor
셴즈 리
광융 천
핑-안 왕
성유 장
Original Assignee
텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 filed Critical 텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Publication of KR20210126646A publication Critical patent/KR20210126646A/ko
Application granted granted Critical
Publication of KR102635777B1 publication Critical patent/KR102635777B1/ko

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/20Identification of molecular entities, parts thereof or of chemical compositions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/695Preprocessing, e.g. image segmentation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/20Protein or domain folding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/80Data visualisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Chemical & Material Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Genetics & Genomics (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioethics (AREA)
  • Multimedia (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)

Abstract

본 개시는 컴퓨터 기술들의 분야와 관련된 분자 결합 부위를 검출하기 위한 방법 및 장치, 전자 디바이스 및 저장 매체를 개시한다. 본 개시에서, 타깃 분자의 각각의 부위의 3차원(3D) 좌표가 획득되고, 각각의 부위에 대응하는 제1 타깃점 및 제2 타깃점이 결정되고, 각각의 부위의 3D 좌표의 회전 불변 위치 특징이 추가로 추출된다. 예측 확률에 기초하여 결합 부위를 결정하기 위해, 부위 검출 모델을 호출하여 추출된 위치 특징에 대한 예측을 수행함으로써, 각각의 부위가 결합 부위일 예측 확률을 획득한다. 제1 타깃점 및 제2 타깃점은 각각의 부위와 연관되고 어느 정도까지 공간 표현성을 가지며, 이는 타깃 분자의 세부 구조를 완전히 반영할 수 있는 회전 불변 위치 특징을 구성하는 데 도움이 되고, 이로써 타깃 분자에 대한 복셀 특징을 설계함으로써 야기되는 세부사항들의 손실을 피하고, 분자 결합 부위를 검출하는 프로세스의 정확도를 개선한다.

Description

분자 결합 부위를 검출하기 위한 방법 및 장치, 전자 디바이스 및 저장 매체
본 출원은 "분자 결합 부위를 검출하기 위한 방법 및 장치, 전자 디바이스 및 저장 매체"이라는 명칭으로 2020년 4월 9일자 출원된 중국 특허출원 제202010272124.0호에 대한 우선권을 주장하며, 이 특허출원은 그 전체가 인용에 의해 본 명세서에 포함된다.
본 개시는 컴퓨터 기술들의 분야에 관한 것으로, 특히 분자 결합 부위(molecule binding site)를 검출하기 위한 방법 및 장치, 전자 디바이스 및 저장 매체에 관한 것이다.
컴퓨터 기술들의 발전으로, 컴퓨터를 사용함으로써 단백질 분자의 결합 부위를 어떻게 검출하는지가 생의학(biomedical) 분야에서 최대 관심사이다. 단백질 분자의 결합 부위는 단백질 분자가 다른 분자에 결합하는, 단백질 분자 상의 위치 지점이고, 단백질 분자의 결합 부위는 일반적으로, 단백질 결합 포켓(pocket)으로 지칭된다. 단백질 분자의 결합 부위들을 결정하는 것은, 단백질의 구조 및 기능들을 분석하는 데 있어 의의가 있다. 따라서 단백질 분자의 결합 부위를 어떻게 정확하게 검출하는지가 중요한 연구 방향이다.
본 개시의 실시예들은 분자 결합 부위를 검출하는 프로세스의 정확도를 개선하도록, 분자 결합 부위를 검출하기 위한 방법 및 장치, 전자 디바이스 및 저장 매체를 제공한다. 기술적 솔루션들은 다음과 같다:
일 양상에 따르면, 분자 결합 부위를 검출하기 위한 방법이 제공되며, 이 방법은 전자 디바이스에 적용 가능하고:
검출 대상인 타깃 분자에서 적어도 하나의 부위의 3차원 3D 좌표를 획득하는 단계 ― 타깃 분자는 검출 대상인 결합 부위를 갖는 화학 분자임 ―;
상기 적어도 하나의 부위 각각에 대해:
제1 타깃점 및 제2 타깃점을 결정하는 단계 ― 제1 타깃점은 구형 공간(spherical space) 내의 모든 부위들의 중심점이고, 구형 공간은 구의 중심으로서 적어도 하나의 부위 각각을 그리고 반경으로서 타깃 길이를 갖는 구형 공간이며, 제2 타깃점은 원점에서 시작하여 적어도 하나의 부위 각각을 가리키는 벡터의 전방 연장선과 구형 공간의 외측 표면 사이의 교점임 ―;
적어도 하나의 부위 각각의 3D 좌표, 제1 타깃점의 3D 좌표, 및 제2 타깃점의 3D 좌표에 기초하여 적어도 하나의 부위 각각의 3D 좌표에서 회전 불변 위치 특징(rotation-invariant location feature)을 추출하는 단계 ― 회전 불변 위치 특징은 타깃 분자에서의 적어도 하나의 부위 각각의 위치 정보를 지시하는 데 사용됨 ―;
부위 검출 모델을 호출하여 추출된 회전 불변 위치 특징에 대한 예측 처리를 수행함으로써, 적어도 하나의 부위 각각의 예측 확률을 획득하는 단계 ― 각각의 예측 확률은 적어도 하나의 부위 각각이 결합 부위일 확률을 지시함 ―; 및
적어도 하나의 부위 각각의 예측 확률에 기초하여 타깃 분자의 적어도 하나의 부위 각각으로부터 결합 부위를 결정하는 단계를 포함한다.
삭제
삭제
삭제
일 양상에 따르면, 분자 결합 부위를 검출하기 위한 장치가 제공되며, 이 장치는:
검출 대상인 타깃 분자에서 적어도 하나의 부위의 3D 좌표를 획득하도록 구성된 획득 모듈 ― 타깃 분자는 검출 대상인 결합 부위를 갖는 화학 분자임 ―;
상기 적어도 하나의 부위 각각에 대해:
제1 타깃점 및 제2 타깃점을 결정하도록 구성된 제1 결정 모듈 ― 제1 타깃점은 구형 공간 내의 모든 부위들의 중심점이고, 구형 공간은 구의 중심으로서 적어도 하나의 부위 각각을 그리고 반경으로서 타깃 길이를 갖는 구형 공간이며, 제2 타깃점은 원점에서 시작하여 적어도 하나의 부위 각각을 가리키는 벡터의 전방 연장선과 구형 공간의 외측 표면 사이의 교점임 ―;
적어도 하나의 부위 각각의 3D 좌표, 제1 타깃점의 3D 좌표, 및 제2 타깃점의 3D 좌표에 기초하여 적어도 하나의 부위 각각의 3D 좌표에서 회전 불변 위치 특징을 추출하도록 구성된 추출 모듈 ― 회전 불변 위치 특징은 타깃 분자의 적어도 하나의 부위 각각의 위치 정보를 지시하는 데 사용됨 ―;
부위 검출 모델을 호출하여 추출된 회전 불변 위치 특징에 대한 예측 처리를 수행함으로써, 적어도 하나의 부위 각각의 예측 확률을 획득하도록 구성된 예측 모듈 ― 각각의 예측 확률은 적어도 하나의 부위 각각이 결합 부위일 확률을 지시함 ―; 및
적어도 하나의 부위 각각의 예측 확률에 기초하여 타깃 분자의 적어도 하나의 부위에서 결합 부위를 결정하도록 구성된 제2 결정 모듈을 포함한다.
삭제
삭제
삭제
일 양상에 따르면, 하나 이상의 프로세서들 및 하나 이상의 메모리들을 포함하는 전자 디바이스가 제공되며, 하나 이상의 메모리들은 적어도 하나의 프로그램 코드를 저장하고, 적어도 하나의 프로그램 코드는 앞서 말한 가능한 구현들 중 임의의 구현에 따라 분자 결합 부위를 검출하기 위한 방법을 구현하도록 하나 이상의 프로세서들에 의해 로딩되어 실행된다.
일 양상에 따르면, 적어도 하나의 프로그램 코드를 저장하는 비일시적 저장 매체가 제공되며, 적어도 하나의 프로그램 코드는 앞서 말한 가능한 구현들 중 임의의 구현에 따라 분자 결합 부위를 검출하기 위한 방법을 구현하도록 프로세서에 의해 로딩되어 실행된다.
본 개시의 실시예들에서 제공되는 기술적 솔루션들에 의해 야기되는 유리한 효과들은 적어도 다음과 같다:
각각의 부위에 대응하는 제1 타깃점 및 제2 타깃점을 결정하기 위해 타깃 분자의 각각의 부위의 3D 좌표가 획득된다. 각각의 부위의 3D 좌표, 각각의 제1 타깃점의 3D 좌표 및 각각의 제2 타깃점의 3D 좌표에 기초하여, 각각의 부위의 3D 좌표에서의 회전 불변 위치 특징이 추출되고, 예측 확률에 기초하여 타깃 분자의 결합 부위를 결정하기 위해, 부위 검출 모델이 호출되어 추출된 위치 특징에 대한 예측을 수행함으로써 각각의 부위가 결합 부위인지 여부의 예측 확률이 획득된다. 제1 타깃점 및 제2 타깃점은 각각의 부위와 연관되고, 어느 정도까지 공간 표현성을 갖는다. 따라서 각각의 부위의 3D 좌표, 각각의 제1 타깃점의 3D 좌표, 및 각각의 제2 타깃점의 3D 좌표에 기초하여, 타깃 분자의 세부 구조를 완전히 반영할 수 있는 회전 불변 위치 특징이 구성될 수 있으며, 이로써 타깃 분자에 대한 복셀(voxel) 특징을 설계함으로써 야기되는 세부사항들의 손실을 피할 수 있으므로, 위치 특징에 기반한 결합 부위 검출 동안 타깃 분자의 세부 구조의 위치 정보가 완전히 사용될 수 있고, 이로써 분자 결합 부위를 검출하는 프로세스의 정확도를 개선할 수 있다.
본 개시의 실시예들에서의 기술적 솔루션들을 보다 명확하게 설명하기 위해, 실시예들을 설명하는 데 필요한 첨부 도면들이 아래에 간략하게 설명된다. 명백히, 다음 설명들의 첨부 도면들은 본 개시의 일부 실시예들만을 도시할 뿐이고, 당해 기술분야에서 통상의 지식을 가진 자는 창의적인 노력들 없이 이러한 첨부 도면들에 따라 다른 첨부 도면들을 얻을 수 있다.
도 1은 본 개시의 실시예에 따른, 분자 결합 부위를 검출하기 위한 방법의 예시적인 구현 환경의 개략도이다.
도 2는 본 개시의 실시예에 따른, 분자 결합 부위를 검출하기 위한 방법의 흐름도이다.
도 3은 본 개시의 실시예에 따른, 분자 결합 부위를 검출하기 위한 방법의 흐름도이다.
도 4는 본 개시의 실시예에 따른, 제1 타깃점 및 제2 타깃점의 개략도이다.
도 5는 본 개시의 일 실시예에 따른 그래프 컨볼루션 네트워크(GCN: graph convolutional network)의 개략적인 원리도이다.
도 6은 본 개시의 실시예에 따른 에지 컨볼루션 계층의 개략적인 구조도이다.
도 7은 본 개시의 일 실시예에 따른, 분자 결합 부위를 검출하기 위한 장치의 개략적인 구조도이다.
도 8은 본 개시의 실시예에 따른 전자 디바이스의 개략적인 구조도이다.
본 개시의 목적들, 기술적 솔루션들 및 이점들을 보다 명확하게 하기 위해, 본 개시의 구현들은 첨부 도면들을 참조하여 아래에 상세히 추가 설명된다.
본 개시에서 "제1" 및 "제2"와 같은 용어들은, 기본적으로 동일한 기능들 및 목적들을 갖는 동일한 항목들 또는 유사한 항목들 간에 구별하기 위해 사용된다. "제1", "제2" 및 제n은 로직에서 또는 시간 시퀀스에서 어떠한 종속 관계도 갖지 않으며, 수량 또는 실행 시퀀스를 제한하지 않는다고 이해되어야 한다.
본 개시에서, "적어도 하나"는 하나 이상을 의미하고, "복수"는 2개 이상을 의미한다. 예를 들어, "복수의 제1 위치들"은 2개 이상의 제1 위치들을 의미한다.
인공 지능(AI: artificial intelligence)은, 인간의 지능을 시뮬레이션, 확장 및 확대하고, 환경을 지각하고, 지식을 획득하고, 지식을 사용하여 최적의 결과를 얻도록 디지털 컴퓨터 또는 디지털 컴퓨터에 의해 제어되는 기계를 사용하는 이론, 방법, 기술 및 애플리케이션 시스템이다. 즉, AI는 지능의 본질을 이해하려고 시도하고 인간의 지능과 유사한 방식으로 응답할 수 있는 새로운 지능화 기계를 생성하는 컴퓨터 과학의 포괄적인 기술이다. AI는 다양한 지능화 기계들의 설계 원리들 및 구현 방법들을 연구하여, 기계들이 지각, 추론 및 의사 결정의 기능들을 가질 수 있게 하는 것이다.
AI 기술은 포괄적인 학문이며, 하드웨어 레벨 기술 및 소프트웨어 레벨 기술을 포함하는 광범위한 분야에 관한 것이다. 기본 AI 기술들은 일반적으로 센서, 전용 AI 칩, 클라우드 컴퓨팅, 분산 저장, 빅데이터(big data) 처리 기술, 운영/상호 작용 시스템, 및 전자 기계 통합과 같은 기술들을 포함한다. AI 소프트웨어 기술들은 주로, 오디오 처리 기술, 컴퓨터 비전 기술, 자연어 처리 기술, 및 기계 러닝(ML: machine learning)/딥 러닝(deep learning)과 같은 여러 주요 방향들을 포함한다.
본 개시의 실시예들에서 제공되는 기술적 솔루션들은 AI 분야에서의 ML 기술에 관한 것이다. ML은 확률 이론, 통계, 근사 이론, 볼록 분석, 알고리즘 복잡도 이론 등을 수반하는 다방면의 학제간 주제이다. ML 기술은 컴퓨터가 새로운 지식 또는 스킬들을 얻고, 기존 지식 구조를 재구성하여, 자신의 성능을 계속 개선하기 위해 인간의 학습 행동을 어떻게 시뮬레이션 또는 구현하는지를 연구하는 것을 전문으로 한다. ML은 AI의 핵심이며, 컴퓨터를 지능적으로 만드는 기본적인 방법이며, 다양한 AI 분야들에 적용된다. ML 및 딥 러닝은 일반적으로, 인공 신경망, 신뢰 네트워크(belief network), 강화 학습(reinforcement learning), 전이 학습(transfer learning), 귀납 학습(inductive learning), 및 시연(demonstration)들로부터의 학습과 같은 기술들을 포함한다.
ML 기술의 연구 및 진척에 따라, ML 기술은 복수의 분야들에 연구되고 적용된다. 본 개시의 실시예들에서 제공되는 기술적 솔루션들은 생의학 분야에서의 ML 기술의 적용에 관한 것으로, 구체적으로는 분자 결합 부위를 검출하기 위한 AI 기반 방법에 관한 것이다. 결합 부위들은 현재 분자가 다른 분자들에 결합하는, 현재 분자 상의 다양한 부위들이며, 결합 부위는 일반적으로 결합 포켓 또는 결합 포켓 부위로 지칭된다.
단백질 분자를 일례로 사용함으로써 설명들이 이루어진다. 생물학 및 의학에서 중요한 단백질 분자들의 구조 지식이 지속적으로 증가함에 따라, 단백질 분자의 결합 부위를 예측하는 것이 점점 더 중요한 최대 관심사가 되고 있다. 단백질 분자들의 결합 부위들을 예측함으로써 단백질들의 분자 기능들이 더 잘 드러날 수 있다. 생물학적 프로세스들은 단백질 분자들의 상호 작용을 통해 구현된다. 따라서 생물학적 프로세스를 완전히 이해하거나 제어하기 위해, 기술자들은 단백질 분자 상호 작용 이면의 메커니즘을 밝혀낼 필요가 있다. 예를 들어, 생물학적 프로세스는 데옥시리보핵산(DNA: deoxyribonucleic acid) 합성, 신호 전달(signal transduction), 생명 신진대사 등을 포함한다. 단백질 분자 상호 작용 메커니즘의 연구에 있어 첫 번째 단계는, 단백질 분자들의 상호 작용 부위(즉, 결합 부위)를 식별하는 것이다. 따라서 단백질 분자들의 결합 부위를 예측하는 것은, 단백질 분자들의 구조들 및 기능들의 후속 분석 시에 기술자들을 보조할 수 있다.
추가로, 단백질 분자들의 결합 부위를 예측하는 것은 적절한 약물 분자들의 설계를 도울 수 있다. 단백질 분자들의 역할의 분석은 다양한 질병들의 치료에 있어서의 진척을 크게 돕는다. 단백질 분자들의 구조들 및 기능들의 분석을 통해, 일부 질병들의 발병기전(pathogenesis)이 밝혀질 수 있으며, 이로써 약물들의 타깃들에 대한 탐색 및 새로운 약물들의 연구 및 개발을 추가로 안내할 수 있다.
따라서 단백질 분자들의 결합 부위를 예측하는 것은, 단백질 분자들의 구조들 및 기능들을 드러내는 데 의의가 있을 뿐만 아니라, 단백질 분자들의 구조들 및 기능들을 드러냄으로써 일부 질병들의 발병기전을 병리적으로 밝혀낼 수 있으며, 이로써 약물들의 타깃들에 대한 탐색 및 새로운 약물들의 연구 및 개발을 안내할 수 있다.
본 개시의 실시예들에서의 분자 결합 부위를 검출하기 위한 방법이 타깃 분자의 결합 부위를 검출하는 데 사용된다. 그러나 타깃 분자는 앞서 말한 단백질 분자로 제한되지 않는다. 타깃 분자는 아데노신 삼인산(ATP: adenosine triphosphate) 분자, 유기 중합체 분자 또는 작은 유기 분자와 같은 화학 분자를 포함한다. 타깃 분자의 타입은 본 개시의 실시예들에서 구체적으로 제한되지 않는다.
본 개시의 실시예들에서 사용되는 용어들이 다음에 설명된다.
단백질 결합 포켓들은, 단백질 분자가 다른 분자들에 결합하는, 단백질 분자 상의 다양한 결합 부위들이다.
점군 데이터(point cloud data)는 특정 좌표계의 점들의 데이터 세트이다. 각각의 점의 데이터는 점의 3D 좌표, 컬러, 세기, 시간 등을 포함하는 풍부한 정보를 포함한다. 점군 데이터는 3D 레이저 스캐너를 사용하여 데이터 획득을 수행함으로써 획득될 수 있다.
딥 러닝의 대표적인 알고리즘 중 하나인 심층 컨볼루션 신경망(DCNN: deep convolutional neural network)은, 컨볼루션 계산을 포함하며 심층 구조를 갖는 순방향(feedforward) 신경망이다. DCNN의 구조는 입력 계층, 은닉 계층 및 출력 계층을 포함한다. 은닉 계층은 일반적으로 컨볼루션 계층, 풀링(pooling) 계층 및 완전 연결 계층(fully connected layer)을 포함한다. 컨볼루션 계층의 기능은 입력 데이터에 대해 특징 추출을 수행하는 것이다. 컨볼루션 계층은 복수의 컨볼루션 커널들을 포함한다. 컨볼루션 커널들을 구성하는 각각의 엘리먼트는 가중 계수 및 편차에 대응한다. 컨볼루션 계층이 특징 추출을 수행한 후에, 출력된 특징 맵이 특징 선택 및 스크리닝(screening)을 위해 풀링 계층으로 전이된다. 완전 연결 계층은 DCNN의 은닉 계층의 끝에 위치된다. 특징 맵은 완전 연결 계층에서 공간 위상학적(topological) 구조를 잃고, 벡터로서 전개되어, 인센티브 함수(incentive function)를 통해 출력 계층으로 전이된다. DCNN에 의해 연구되는 객체는 규칙적인 공간 구조, 예를 들어 이미지 또는 복셀을 가질 필요가 있다.
그래프 컨볼루션 네트워크(GCN)는 그래프 데이터에서 딥 러닝을 위한 방법이다. GCN은 입력 데이터에 대한 점들 및 에지들을 갖는 그래프 데이터를 구성하고, 복수의 은닉 계층들을 사용함으로써 점들 각각에 대한 고차원 특징을 추출한다. 특징은 점과 주변 점들 사이의 그래프 연결 관계를 의미한다. 마지막으로, 출력 계층을 사용함으로써 예상 출력 결과가 획득된다. GCN은 전자상거래(e-commence) 추천 시스템, 신약 연구 및 개발, 그리고 점군 분석과 같은 많은 작업들에서 성과를 거둔다. GCN 네트워크 구조는 스펙트럼 컨볼루션 신경망(CNN: spectral convolutional neural network), 그래프 어텐션 네트워크(graph attention network), 그래프 순환 어텐션 네트워크(graph recurrent attention network), 동적 그래프 CNN(DGCNN: dynamic graph CNN) 등을 포함한다. 종래의 GCN은 회전 불변성을 갖지 않는다.
다층 퍼셉트론(MLP: multilayer perceptron)은 입력 벡터들의 그룹을 출력 벡터들의 그룹에 맵핑할 수 있는 순방향 구조 인공 신경망이다.
일례로 단백질 분자를 사용하면, DCNN이 사용되어, 단백질 분자 결합 부위(단백질 결합 포켓)를 검출한다. 최근 몇 년 동안, DCNN은 이미지 및 비디오 분석, 인식 및 처리와 같은 분야들에서 잘 수행된다. 따라서 DCNN을 단백질 결합 포켓을 인식하는 작업으로 전이하는 것이 시도된다. 종래의 DCNN이 많은 작업들에서 성과를 거두었지만, DCNN에 의해 연구되는 객체, 이를테면 이미지 픽셀 또는 분자 복셀은 규칙적인 공간 구조를 가질 필요가 있다. 실생활에서 규칙적인 공간 구조(예를 들어, 단백질 분자)를 갖지 않는 많은 데이터의 경우, DCNN을 단백질 결합 포켓의 검출 프로세스로 전이하기 위해, 기술자들은 단백질 분자에 대한 규칙적인 공간 구조를 갖는 특징을 수동으로 설계하고 DCNN의 입력으로서 특징을 사용할 필요가 있다. 예를 들어, 단백질 결합 포켓이 검출될 때, 단백질 분자에 대해 복셀 특징이 설계될 필요가 있고, 그런 다음, 복셀 특징이 DCNN에 입력되어, DCNN을 사용함으로써, 입력된 복셀 특징에 대응하는 분자 구조가 단백질 결합 포켓인지 여부를 예측한다. 이러한 프로세스는 DCNN을 사용함으로써 이진 분류 문제를 처리하는 것으로 간주된다.
일 실시예에서, DeepSite 네트워크는 단백질 결합 포켓을 검출하기 위해 제안되는 제1 DCNN일 수 있다. 단백질 분자로부터 (본질적으로 하위 구조인) 특징이 DCNN의 입력으로서 수동으로 설계되고, 다층 CNN이 단백질 분자의 입력 하위 구조가 포켓 결합 부위인지 여부를 예측하는 데 사용된다. 후속하여, 다른 실시예에서, 기술자들은 2개의 양상들: 즉, 단백질 분자의 형상 및 결합 부위의 에너지로부터의 특징 추출을 수행하는 새로운 특징 추출 디바이스를 추가로 제공한다. 출력된 특징은 3D 복셀(즉, 복셀 특징)의 형태로 DCNN에 입력된다. 유사하게, 다른 실시예에서는, FRSite가 또한, 단백질 결합 포켓을 검출하기 위한 DCNN이 된다. DCNN의 입력으로서 복셀 특징이 단백질 분자로부터 추출되고, 결합 부위 검출을 위해 고속 CNN이 사용된다. 유사하게, 다른 실시예에서는, 딥 드롭(deep drop) 3D가 또한, 단백질 결합 포켓을 검출하기 위한 DCNN이 된다. 단백질 분자는 DCNN의 입력으로서 사용되는 3D 복셀로 직접 변환되어, 단백질 결합 포켓을 추가로 예측한다.
그러나 복셀 특징들에 기반한 앞서 말한 DCNN 검출 방법들은 복셀들의 분해능에 의해 심각하게 제한되며, 따라서 더 미세한 단백질 분자 구조를 처리할 수 없다. 게다가, 복셀 특징들은 방법들에서 DCNN의 입력들로서 수동으로 설계될 필요가 있다. 그러한 복셀 특징들이 기술자들에 의해 신중하게 설계되지만, 단백질 분자에 암시된 중요한 정보가 완전히 발현되는 것은 여전히 보장될 수 없다. 따라서 단백질 결합 포켓의 최종 검출 결과는 일반적으로, 설계된 복셀 특징에 대한 추출 방법에 의해 제한된다.
이를 고려하여, 본 개시의 실시예들은 타깃 분자의 결합 부위를 검출하기 위한, 분자 결합 부위를 검출하기 위한 방법을 제공한다. 타깃 분자가 단백질 분자인 예를 사용함으로써 설명들이 이루어진다. 단백질 분자의 (3D 좌표를 포함하는) 점군 데이터가 시스템 입력으로서 직접 사용되며, GCN과 같은 부위 검출 모델이 독립적인 탐색을 위해 사용된다. 부위 검출 모델은, 결합 포켓 검출에 가장 적합하고 효율적인 생물학적 특징을 자동으로 추출하기 위해, 단백질 분자의 조직 구조를 완전히 탐색할 수 있다. 따라서 단백질 분자의 점군 데이터로부터 단백질 결합 포켓이 정확하게 인식될 수 있다.
추가로, 종래의 GCN은 회전 불변성을 갖지 않는 한편, 단백질 분자는 3D 공간에서 임의의 형태로 회전할 수 있다. 배치된 네트워크 구조가 회전 불변성을 갖지 않는다면, 회전 이전 및 이후의 동일한 단백질 분자의 포켓 검출 결과들은 상당히 상이할 수 있으며, 이는 단백질 결합 포켓의 검출 정확도를 크게 감소시킨다. 종래의 GCN과 비교하여, 본 개시의 실시예들에서, 단백질 분자의 점군 데이터 내의 3D 좌표점은 각도 또는 길이와 같은 회전 불변 특징(즉, 위치 특징)으로 변환된다. 회전 가능하고 변경 가능한 3D 좌표점의 대체에서, 회전 불변 위치 특징이 시스템 입력으로서 사용되므로, 부위 검출 모델의 네트워크 구조는 회전 불변한다. 즉, 단백질 결합 포켓의 검출 결과는 단백질 분자의 입력 점군 데이터의 방향에 따라 변하지 않는다. 이는 단백질 결합 포켓의 검출 프로세스에 대한 중요한 특징이다. 본 개시의 이러한 실시예의 적용 시나리오는 아래에서 상세히 설명된다.
도 1은 본 개시의 실시예에 따른, 분자 결합 부위를 검출하기 위한 방법의 구현 환경의 개략도이다. 도 1을 참조하면, 단말(101) 및 서버(102)가 구현 환경 내에 있다. 단말(101)과 서버(102) 둘 다 동일한 전자 디바이스이다.
단말(101)은 타깃 분자의 점군 데이터를 제공하도록 구성된다. 예를 들어, 단말(101)은 3D 레이저 스캐너의 제어 단말이다. 3D 레이저 스캐너를 사용함으로써 타깃 분자에 대해 데이터 획득이 수행되고, 획득된 점군 데이터가 제어 단말로 보내진다. 단말은 타깃 분자의 점군 데이터를 운반하는 검출 요청을 생성하도록 제어된다. 검출 요청은 타깃 분자의 결합 부위를 검출하도록 서버(102)에 요청하는 데 사용되어, 서버(102)가 검출 요청에 대한 응답으로 타깃 분자의 점군 데이터를 기초로 타깃 분자에 대한 결합 부위를 검출하고, 타깃 분자의 결합 부위를 결정하고, 타깃 분자의 결합 부위를 제어 단말로 돌려보낸다.
앞서 말한 프로세스에서, 단말은 전체 타깃 분자의 점군 데이터를 서버(102)에 송신하도록 제어되어, 서버(102)가 타깃 분자의 분자 구조에 대해 보다 포괄적인 분석을 수행하게 된다. 일부 실시예들에서, 점군 데이터는 각각의 부위의 3D 좌표 외에도, 컬러, 세기 및 시간과 같은 추가 속성들을 더 포함한다. 따라서 일부 실시예들에서, 단말은 타깃 분자의 적어도 하나의 부위의 3D 좌표만을 서버(102)에 송신하도록 제어됨으로써, 데이터 전송 프로세스 동안 통신 볼륨을 감소시킨다.
단말(101)과 서버(102)는 유선 네트워크 또는 무선 네트워크를 사용함으로써 접속될 수 있다.
서버(102)는 분자 결합 부위의 검출 서비스를 제공하도록 구성된다. 임의의 단말로부터 검출 요청을 수신한 후, 서버(102)는 검출 요청을 파싱(parse)하여 타깃 분자의 점군 데이터를 획득하고, 점군 데이터에서 각각의 부위의 3D 좌표에 기초하여 각각의 부위의 회전 불변 위치 특징을 추출하며, 부위 검출 모델의 입력으로서 위치 특징을 사용함으로써 결합 부위를 예측하여 타깃 분자의 결합 부위를 획득한다.
일부 실시예들에서, 서버(102)는 하나의 서버, 복수의 서버들, 클라우드 컴퓨팅 플랫폼 및 가상화 센터 중 적어도 하나를 포함한다. 일부 실시예들에서, 서버(102)가 1차 컴퓨팅을 담당하고, 단말(101)이 2차 컴퓨팅을 담당하며; 대안으로, 서버(102)가 2차 컴퓨팅을 담당하고, 단말(101)이 1차 컴퓨팅을 담당하고; 대안으로, 단말(101)과 서버(102) 간에 분산 컴퓨팅 아키텍처를 사용함으로써 협력 컴퓨팅이 수행된다.
앞서 말한 프로세스에서, 단말(101)이 통신을 통해 서버(102)와 상호 작용하여 분자 결합 부위의 검출을 완료하는 예를 사용함으로써 설명들이 이루어진다. 일부 실시예들에서, 단말(101)은 또한 분자 결합 부위의 검출을 독립적으로 완료할 수 있다. 이 경우, 타깃 분자의 점군 데이터를 획득한 후에, 점군 데이터 내의 각각의 부위의 3D 좌표에 기초하여, 단말(101)은 부위 검출 모델을 기반으로 예측을 직접 수행하여 타깃 분자의 결합 부위를 예측한다. 프로세스는 서버(102)의 예측 프로세스와 유사하다. 세부사항들은 여기서 다시 설명되지 않는다.
일부 실시예들에서, 단말(101)은 일반적으로 복수의 단말들 중 하나이다. 단말(101)의 디바이스 타입은 스마트폰, 태블릿 컴퓨터, 전자책 단말기(ebook reader), 동화상 전문가 그룹 오디오 계층 Ⅲ(MP3: moving picture experts group audio layer Ⅲ) 플레이어, 동화상 전문가 그룹 오디오 계층 Ⅳ(MP4: moving picture experts group audio layer Ⅳ) 플레이어, 휴대용 랩톱 컴퓨터, 데스크톱 컴퓨터 등을 포함하지만 이에 제한되는 것은 아니다. 다음의 실시예는, 단말이 스마트폰을 포함하는 예를 사용함으로써 설명된다.
당해 기술분야에서 통상의 지식을 가진 자는 더 많은 또는 더 적은 단말들(101)이 존재할 수 있음을 알게 된다. 예를 들어, 단 하나의 단말(101)이 존재할 수 있거나, 하나보다 많은 단말들(101)이 존재할 수 있다. 단말들(101)의 양 및 디바이스 타입은 본 개시의 실시예들에서 제한되지 않는다.
도 2는 본 개시의 실시예에 따른, 분자 결합 부위를 검출하기 위한 방법의 흐름도이다. 도 2를 참조하면, 이 방법은 전자 디바이스에 적용 가능하다. 실시예는 다음의 단계들을 포함한다.
201: 전자 디바이스가 검출 대상인 타깃 분자에서 적어도 하나의 부위의 3D 좌표를 획득하며, 타깃 분자는 검출 대상인 결합 부위를 갖는 화학 분자를 포함한다.
타깃 분자는 검출 대상인 결합 부위를 갖는 임의의 화학 분자, 예를 들어 단백질 분자, ATP 분자, 유기 중합체 분자 또는 작은 유기 분자를 포함한다. 타깃 분자의 타입은 본 개시의 실시예들에서 구체적으로 제한되지 않는다.
일부 실시예들에서, 적어도 하나의 부위의 3D 좌표는 점군 데이터의 형태로 표현된다. 타깃 분자의 구조는 특정 좌표계에 적어도 하나의 3D 좌표점을 적층함으로써 설명된다. 3D 복셀의 표현 형태와 비교하여, 점군 데이터는 더 적은 저장 공간을 차지한다. 추가로, 3D 복셀은 특징 추출 방식에 의존하고, 그에 따라 특징 추출 동안 타깃 분자에서 일부 세부 구조들을 잃는 것이 용이하다. 그러나 점군 데이터는 타깃 분자의 세부 구조들을 설명할 수 있다.
3D 좌표점들은 회전들에 극도로 민감한 데이터이다. 일례로 단백질 분자를 사용하면, 회전 후에 동일한 단백질 점군의 각각의 부위의 3D 좌표 값들이 변경된다. 따라서 각각의 부위의 3D 좌표가 특징 추출 및 결합 부위 예측을 위해 부위 검출 모델에 직접 입력된다면, 좌표 값들이 회전 이전 및 이후에 변경되기 때문에, 동일한 부위 검출 모델이 회전 이전 및 이후의 입력들로부터 상이한 생물학적 특징들을 추출하여, 상이한 결합 부위들을 예측할 수 있다. 즉, 3D 좌표점은 회전 불변성을 갖지 않거나 지원하지 않기 때문에, 부위 검출 모델은 회전 이전 및 이후에 동일한 단백질 분자에 대한 상이한 결합 부위들을 예측하여, 분자 결합 부위를 검출하는 프로세스의 정확도를 보장하는 데 실패한다.
적어도 하나의 부위 각각에 대해:
202: 전자 디바이스가 제1 타깃점 및 제2 타깃점을 결정하며, 제1 타깃점은 구형 공간 내의 모든 부위들의 중심점이고, 구형 공간은 구의 중심으로서 적어도 하나의 부위 각각을 그리고 반경으로서 타깃 길이를 갖는 구형 공간이며, 제2 타깃점은 원점에서 시작하여 적어도 하나의 부위 각각을 가리키는 벡터의 전방 연장선과 구형 공간의 외측 표면 사이의 교점이다.
각각의 부위는 제1 타깃점 및 제2 타깃점에 고유하게 대응한다. 각각의 부위에 대해, 제1 타깃점은 구의 중심으로서 타깃 분자의 부위를 그리고 반경으로서 타깃 길이를 갖는 타깃 구형 공간 내의 타깃 분자의 모든 부위들의 중심점이다. 중심점은 타깃 구형 공간 내의 모든 부위들의 3D 좌표의 평균 값을 계산함으로써 획득된 공간 점이다. 따라서 제1 타깃점이 반드시 타깃 분자의 점군 데이터에 실제로 존재하는 부위인 것은 아니다. 타깃 길이는 0보다 큰 임의의 값일 수 있다. 제2 타깃점은 원점에서 시작하여 부위를 가리키는 벡터의 전방 연장선과 타깃 구형 공간의 외측 표면 사이의 교점이다. 원점은 타깃 분자가 위치되는 3D 좌표계의 원점이다. 부위를 가리키는 벡터는 원점으로부터 도출된다. 벡터는 원점으로부터 부위까지를 가리킨다. 벡터의 길이는 부위의 크기와 동일하다. 벡터의 전방 연장선은 타깃 구형 공간의 외측 표면과 고유한 교점을 갖는다. 교차점은 제2 타깃점이다. 유사하게, 제2 타깃점이 반드시 타깃 분자의 점군 데이터에 실제로 존재하는 부위인 것은 아니다.
203: 전자 디바이스가 적어도 하나의 부위 각각의 3D 좌표, 제1 타깃점의 3D 좌표, 및 제2 타깃점의 3D 좌표에 기초하여 적어도 하나의 부위 각각의 3D 좌표에서 회전 불변 위치 특징을 추출하며, 회전 불변 위치 특징은 타깃 분자의 적어도 하나의 부위 각각의 위치 정보를 지시하는 데 사용된다.
단계(203)에서, 각각의 부위의 위치 특징은 각각의 부위의 3D 좌표, 각각의 제1 타깃점의 3D 좌표, 및 각각의 제2 타깃점의 3D 좌표를 통해 획득된다. 즉, 위치 특징은 타깃 분자의 회전 각도에 의해 영향을 받지 않는다. 위치 특징은 부위 검출 모델의 입력으로서 사용될 3D 좌표를 대체함으로써, 단계(201)에서 3D 좌표의 회전 불변성의 결여로 인한 검출 정확도의 감소를 피한다.
204: 전자 디바이스가 부위 검출 모델을 호출하여 추출된 회전 불변 위치 특징에 대한 예측 처리를 수행함으로써, 적어도 하나의 부위 각각의 예측 확률을 획득하며, 각각의 예측 확률은 적어도 하나의 부위 각각이 결합 부위일 확률을 지시한다.
부위 검출 모델은 타깃 분자의 결합 부위를 검출하기 위해 사용된다. 일부 실시예들에서, 부위 검출 모델은, 타깃 분자 내의 각각의 부위가 결합 부위인지 여부를 결정하는 것과 같은 분류 작업을 처리하기 위해 사용되는 분류 모델이다. 일부 실시예들에서, 부위 검출 모델은 GCN을 포함하거나 다른 딥 러닝 네트워크를 포함한다. 부위 검출 모델의 타입은 본 개시의 실시예들에서 구체적으로 제한되지 않는다.
단계(204)에서, 전자 디바이스는 각각의 부위의 위치 특징을 부위 검출 모델에 입력한다. 부위 검출 모델은 각각의 부위의 위치 특징에 기반하여 결합 부위를 예측한다. 일부 실시예들에서는, 부위 검출 모델에서, 각각의 부위의 위치 특징에 기반하여 타깃 분자의 생물학적 특징이 추출되고, 이어서 타깃 분자의 생물학적 특징을 기초로 결합 부위가 예측되어, 각각의 부위의 예측 확률을 획득한다.
205: 전자 디바이스가 적어도 하나의 부위 각각의 예측 확률에 기초하여 타깃 분자의 적어도 하나의 부위 각각에서 결합 부위를 결정한다.
앞서 말한 프로세스에서, 전자 디바이스는 확률 임계치보다 더 큰 예측 확률을 갖는 부위를 결합 부위로서 결정하거나, 전자 디바이스는 예측 확률들의 내림차순에 따라 부위들을 랭크(rank)하고, 목표량의 최상위 부위들을 결합 부위들로서 결정한다. 확률 임계치는 0보다 크거나 같고 1보다 작거나 같은 임의의 값일 수 있다. 목표량은 1보다 크거나 같은 임의의 정수이다. 예를 들어, 목표량이 3일 때, 전자 디바이스는 예측 확률들의 내림차순에 따라 부위들을 랭크한다. 상위 3위로 랭크된 부위들이 결합 부위들로서 결정된다.
본 개시의 이 실시예에서 제공되는 방법에서, 타깃 분자의 각각의 부위의 3D 좌표가 획득되고, 각각의 부위에 대응하는 제1 타깃점 및 제2 타깃점이 결정된다. 각각의 부위의 3D 좌표, 각각의 제1 타깃점의 3D 좌표 및 각각의 제2 타깃점의 3D 좌표에 기초하여, 각각의 부위의 3D 좌표에서의 회전 불변 위치 특징이 추출되고, 예측 확률에 기초하여 타깃 분자의 결합 부위를 결정하기 위해, 부위 검출 모델이 호출되어 추출된 위치 특징에 대한 예측을 수행함으로써, 각각의 부위가 결합 부위일 예측 확률을 획득한다. 제1 타깃점 및 제2 타깃점은 각각의 부위와 연관되고, 어느 정도까지 공간 표현성을 갖는다. 따라서 각각의 부위의 3D 좌표, 각각의 제1 타깃점의 3D 좌표, 및 각각의 제2 타깃점의 3D 좌표에 기초하여, 타깃 분자의 세부 구조를 완전히 반영할 수 있는 회전 불변 위치 특징이 구성될 수 있으며, 이로써 타깃 분자에 대한 복셀 특징을 설계함으로써 야기되는 세부사항들의 손실을 피할 수 있으므로, 위치 특징에 기반한 결합 부위 검출 동안 타깃 분자의 세부 구조의 위치 정보가 완전히 사용될 수 있고, 이로써 분자 결합 부위를 검출하는 프로세스의 정확도를 개선할 수 있다.
도 3은 본 개시의 실시예에 따른, 분자 결합 부위를 검출하기 위한 방법의 흐름도이다. 도 3을 참조하면, 이 방법은 전자 디바이스에 적용 가능하다. 전자 디바이스가 단말인 예를 사용함으로써 설명들이 이루어진다. 실시예는 다음의 단계들을 포함한다.
300: 단말이 검출 대상인 타깃 분자에서 적어도 하나의 부위의 3D 좌표를 획득하며, 타깃 분자는 검출 대상인 결합 부위를 갖는 화학 분자이다.
단계(300)는 단계(201)와 유사하며, 세부사항들은 본 명세서에서 다시 설명되지 않는다.
301: 단말이 적어도 하나의 부위 중 임의의 부위에 대해, 부위의 3D 좌표에 기초하여 부위에 대응하는 제1 타깃점 및 제2 타깃점을 결정한다.
각각의 부위는 제1 타깃점에 대응한다. 각각의 부위에 대해, 제1 타깃점은 구의 중심으로서 부위를 그리고 반경으로서 타깃 길이를 갖는 타깃 구형 공간 내의 모든 부위들의 중심점이다. 타깃 구형 공간은 구의 중심으로서 부위를 그리고 반경으로서 타깃 길이를 갖는 구형 공간이다. 중심점은 타깃 구형 공간 내의 모든 부위들의 3D 좌표의 평균 값을 계산함으로써 획득된 공간 점이다. 따라서 제1 타깃점이 반드시 타깃 분자의 점군 데이터에 실제로 존재하는 부위인 것은 아니다. 타깃 길이는 기술자들에 의해 지정되며, 0보다 큰 임의의 값이다.
각각의 부위는 제2 타깃점에 고유하게 대응한다. 각각의 부위에 대해, 제2 타깃점은 원점에서 시작하여 부위를 가리키는 벡터의 전방 연장선과 타깃 구형 공간의 외측 표면 사이의 교점이다. 부위를 가리키는 벡터는 원점으로부터 도출된다. 벡터는 원점으로부터 부위까지를 가리킨다. 벡터의 길이는 부위의 크기와 동일하다. 벡터의 전방 연장선은 타깃 구형 공간의 외측 표면과 고유한 교점을 갖는다. 교차점은 제2 타깃점이다. 유사하게, 제2 타깃점이 반드시 타깃 분자의 점군 데이터에 실제로 존재하는 부위인 것은 아니다.
앞서 말한 프로세스에서, 제1 타깃점 및 제2 타깃점을 결정할 때, 단말은 먼저, 구의 중심으로서 부위를 그리고 반경으로서 타깃 길이를 갖는 타깃 구형 공간을 결정한 다음, 타깃 분자 내의 적어도 하나의 부위로부터 타깃 구형 공간에 위치된 모든 부위들을 결정하고, 타깃 구형 공간에 위치된 모든 부위들의 중심점을 제1 타깃점으로서 결정한다. 일부 실시예들에서, 중심점을 결정할 때, 단말은 타깃 구형 공간에 위치된 모든 부위들의 3D 좌표를 획득하고, 타깃 구형 공간에 위치된 모든 부위들의 3D 좌표의 평균 값을 중심점의 3D 좌표, 즉 제1 타깃점의 3D 좌표로서 결정한다. 또한, 단말은 원점에서 시작하여 부위를 가리키는 벡터를 결정하고, 벡터의 전방 연장선과 타깃 구형 공간의 외측 표면 사이의 교점을 제2 타깃점으로서 결정한다.
도 4는 본 개시의 이러한 실시예에서 제공되는 제1 타깃점 및 제2 타깃점의 개략도이다. 도 4를 참조하면, 일 실시예에서, 단백질 분자의 점군 데이터가 N개의 부위들의 3D 좌표를 포함한다고 가정하면(N은 1보다 크거나 같음), N개의 3D 좌표 을 적층함으로써 점군 데이터가 획득된다. 원점은 (0, 0, 0)이고, p i 는 제i 부위의 3D 좌표를 나타내고, x i , y i , z i 는 각각 x 축, y 축 및 z 축 상의 제i 부위의 3D 좌표를 나타내고, i는 1보다 크거나 같고 N보다 작거나 같은 정수이다. 점군 데이터를 사용함으로써 단백질 분자의 구조가 설명될 수 있다. 제i 부위(400)의 경우, 구의 중심으로서 p i 를 그리고 반경으로서 r을 갖는 타깃 구형 공간(401)에서, 타깃 구형 공간(401) 내의 모든 부위들의 중심점(m i )이 제1 타깃점(402)으로서 결정된다. 구체적으로, x 축 상의 타깃 구형 공간(401) 내의 모든 부위들의 좌표의 평균 값이 x 축 상의 중심점(m i )의 좌표로서 결정되고, y 축 상의 타깃 구형 공간(401) 내의 모든 부위들의 좌표의 평균 값이 y 축 상의 중심점(m i )의 좌표로서 결정되고, z 축 상의 타깃 구형 공간(401) 내의 모든 부위들의 좌표의 평균 값이 z 축 상의 중심점(m i )의 좌표로서 결정되며; 원점에서 시작하여 p i 를 가리키는 벡터의 전방 연장선과 타깃 구형 공간(401)의 외측 표면 사이의 교점(s i )이 제2 타깃점(403)으로서 결정된다.
302: 단말이 부위의 3D 좌표, 제1 타깃점의 3D 좌표, 및 제2 타깃점의 3D 좌표에 기초하여 부위의 글로벌 위치 특징을 구성하며, 글로벌 위치 특징은 타깃 분자의 부위의 공간 위치 정보를 지시하는 데 사용된다.
일부 실시예들에서, 글로벌 위치 특징은 부위의 크기, 부위와 제1 타깃점 간의 거리, 제1 타깃점과 제2 타깃점 간의 거리, 제1 각도의 코사인 값, 또는 제2 각도의 코사인 값 중 적어도 하나를 포함한다. 제1 각도는 제1 선분(line segment)과 제2 선분 사이에 형성된 각도이고, 제2 각도는 제2 선분과 제3 선분 사이에 형성된 각도이다. 제1 선분은 부위와 제1 타깃점 사이에 형성된 선분이고, 제2 선분은 제1 타깃점과 제2 타깃점 사이에 형성된 선분이고, 제3 선분은 부위와 제2 타깃점 사이에 형성된 선분이다.
일부 실시예들에서, 단말은 부위의 크기, 부위와 제1 타깃점 간의 거리, 제1 타깃점과 제2 타깃점 간의 거리, 제1 각도의 코사인 값, 및 제2 각도의 코사인 값을 획득하고, 5개의 데이터에 기초하여 5차원 벡터를 구성하고, 5차원 벡터를 부위의 글로벌 위치 특징으로서 사용한다.
일부 실시예들에서, 글로벌 위치 특징은 부위의 크기, 부위와 제1 타깃점 간의 거리, 제1 타깃점과 제2 타깃점 간의 거리, 제1 각도의 값, 또는 제2 각도의 값 중 적어도 하나를 포함한다. 즉, 제1 각도 및 제2 각도의 코사인 값들을 획득하는 동작이 생략되고, 제1 각도 및 제2 각도의 값들이 글로벌 위치 특징의 엘리먼트들로서 직접 사용된다.
일 실시예에서, 도 4를 참조하면, (p i 로 표현되는) 제i 부위(400)의 경우, 구의 중심으로서 p i 를 그리고 반경으로서 r을 사용하는 타깃 구형 공간(401)에서, 앞서 말한 단계(301)를 통해 (m i 로 표현되는) 제1 타깃점(402) 및 (s i 로 표현되는) 제2 타깃점(403)을 결정한 후, 단말은 각각 다음의 5개의 데이터들을 획득한다:
1) 부위(p i )의 크기 ;
2) 부위(p i )와 제1 타깃점(m i ) 간의 거리 ;
3) 부위(p i )와 제2 타깃점(s i ) 간의 거리 ;
4) 제1 각도(α i )의 코사인 값 cos(α i ), 여기서 제1 각도(α i )는 제1 선분과 제2 선분 사이에 형성된 각도이고, 제1 선분은 부위(p i )와 제1 타깃점(m i ) 사이에 형성된 선분이고, 제2 선분은 제1 타깃점(m i )과 제2 타깃점(s i ) 사이에 형성된 선분임; 그리고
5) 제2 각도(β i )의 코사인 값 cos(β i ), 여기서 제2 각도(β i )는 제2 선분과 제3 선분 사이에 형성된 각도이고, 제3 선분은 부위(p i )와 제2 타깃점(s i ) 사이에 형성된 선분임.
제1 각도(α i ) 및 제2 각도(β i )는 삼각형(Δm i s i p i )의 2개의 내각들이라고 도 4로부터 알게 될 수 있다. 단말은 5개의 데이터 1) 내지 5)에 기초하여, 부위(p i )의 글로벌 위치 특징으로서 5차원 벡터: 를 구성할 수 있다.
앞서 말한 예에 기반하여 분석이 수행된다. 점군 내의 임의의 주어진 부위(p i )에 대해, 부위(p i )의 3D 좌표점 (x i , y i , z i )가 부위 검출 모델에 직접 입력된다면, 3D 좌표점이 회전 불변성을 갖지 않기 때문에, 부위 검출 모델은 동일한 단백질 분자에 대한 결합 부위 검출에서 상이한 결과들을 예측하며, 이는 결합 부위 검출 프로세스의 정확도를 감소시킨다.
일부 실시예들에서, 부위(p i )의 크기()만이 부위(p i )의 위치 특징으로서 사용된다고 가정하면, 크기는 회전 불변이기 때문에, 부위(p i )의 크기가 부위(p i )의 3D 좌표점을 대체하고 부위 검출 모델에 입력된다면, 3D 좌표점이 회전 불변성을 갖지 않는다는 문제가 해결될 수 있다. 그러나 실제로, 부위(p i )는 부위(p i )의 크기만을 사용함으로써 점군의 공간 좌표계에 정확하게 위치될 수 없다. 크기만이 위치 특징으로서 사용된다면, 단백질 분자 내의 부위들 사이의 일부 위치 정보가 상실된다.
일부 실시예들에서, 단말이 부위(p i )의 크기(dp i ,)에 추가로 4개의 데이터 를 추가로 추출한다고 가정하면, 당연히 거리들(dp i , dpm i , dsm i )도 각도들(α i , β i )도 단백질 분자의 회전에 따라 변하지 않으며, 이로써 회전 불변성을 달성한다. 앞서 말한 데이터들에 기초하여, 5차원 벡터 가 글로벌 위치 특징으로서 구성되고, 글로벌 위치 특징이 점군의 공간 좌표계에서 부위(p i )의 위치를 표현하도록 3D 좌표점 (x i , y i , z i )를 대체한다. 즉, 부위(p i )는 글로벌 위치 특징에 기초하여 점군의 공간 좌표계에 정확하게 위치될 수 있다. 따라서 글로벌 위치 특징은 최대 범위까지 부위(p i )의 위치 정보를 유지할 수 있고, 글로벌 위치 특징은 회전 불변한다.
단백질 분자의 점군 데이터가 구의 중심으로서 원점을 그리고 반경으로서 1을 갖는 타깃 구형 공간으로 미리 정규화되기 때문에, 거리들(dp i , dpm i , dsm i )의 값 범위들은 0 내지 1이고, 제1 각도(α i ) 및 제2 각도(β i )의 값 범위들은 0 내지 π(α i β i ∈ [0, π])이다. 제1 각도(α i ) 및 제2 각도(β i )의 코사인 값들이 각각 계산되어 0 내지 1의 값 범위들을 갖는 cos(α i ) 및 cos(β i )를 획득함으로써, 부위 검출 모델로의 데이터 입력이 균일한 값 범위들을 갖는 것을 보장하여, 부위 검출 모델은 보다 안정적인 트레이닝 성능 및 예측 성능을 갖는다.
303: 단말이 부위의 3D 좌표, 제1 타깃점의 3D 좌표, 제2 타깃점의 3D 좌표, 및 부위의 적어도 하나의 이웃 점(neighborhood point)의 3D 좌표에 기초하여, 부위와 적어도 하나의 이웃 점 사이의 적어도 하나의 로컬 위치 특징을 구성하며, 하나의 로컬 위치 특징이 부위와 하나의 이웃 점 사이의 상대 위치 정보를 지시하는 데 사용된다.
일부 실시예들에서, 부위의 이웃 점들은 타깃 분자 내의 부위에 가장 인접한 K개의 점들을 포함하며, K는 1보다 크거나 같다. 대안으로, 부위의 이웃 점들은 부위의 타깃 이웃 내의 모든 부위들이다. 예를 들어, 타깃 이웃은 부위를 중심점으로 갖는 구형 이웃, 원주형(columnar) 이웃 등이다. 본 개시의 실시예들에서 이웃의 선택은 제한되지 않는다.
일부 실시예들에서, 부위의 적어도 하나의 이웃 점 중 임의의 이웃 점에 대해, 부위와 이웃 점 사이의 로컬 위치 특징은 이웃 점과 부위 간의 거리, 이웃 점과 제1 타깃점 간의 거리, 이웃 점과 제2 타깃점 간의 거리, 제3 각도의 코사인 값, 제4 각도의 코사인 값, 또는 제5 각도의 코사인 값 중 적어도 하나를 포함한다. 제3 각도는 제4 선분과 제5 선분 사이에 형성된 각도이고, 제4 각도는 제5 선분과 제6 선분 사이에 형성된 각도이고, 제5 각도는 제6 선분과 제4 선분 사이에 형성된 각도이다. 제4 선분은 이웃 점과 부위 사이에 형성된 선분이고, 제5 선분은 이웃 점과 제1 타깃점 사이에 형성된 선분이고, 제6 선분은 이웃 점과 제2 타깃점 사이에 형성된 선분이다.
일부 실시예들에서, 부위의 적어도 하나의 이웃 점 중 임의의 이웃 점에 대해, 단말은 이웃 점과 부위 간의 거리, 이웃 점과 제1 타깃점 간의 거리, 이웃 점과 제2 타깃점 간의 거리, 제3 각도의 코사인 값, 제4 각도의 코사인 값, 및 제5 각도의 코사인 값은 6개의 데이터들에 기초하여 6차원 벡터를 구성하고, 부위의 로컬 위치 특징으로서 6차원 벡터를 사용한다. 또한, 모든 이웃 점들에 대해 유사한 동작들이 수행되어 모든 이웃 점들에 대한 부위의 로컬 위치 특징들을 획득한다.
일부 실시예들에서, 부위의 적어도 하나의 이웃 점 중 임의의 이웃 점에 대해, 부위와 이웃 점 사이의 로컬 위치 특징은 이웃 점과 부위 간의 거리, 이웃 점과 제1 타깃점 간의 거리, 이웃 점과 제2 타깃점 간의 거리, 제3 각도의 값, 제4 각도의 값, 또는 제5 각도의 값 중 적어도 하나를 포함한다. 즉, 제3 각도, 제4 각도 및 제5 각도의 코사인 값들을 획득하는 동작이 생략되고, 제3 각도, 제4 각도 및 제5 각도의 값들이 로컬 위치 특징의 엘리먼트들로서 직접 사용된다.
일 실시예에서, 도 4를 참조하면, (p i 로 표현되는) 제i 부위(400)의 경우, 구의 중심으로서 p i 를 그리고 반경으로서 r을 사용하는 타깃 구형 공간(401)에서, 앞서 말한 단계(301)를 통해 (m i 로 표현되는) 제1 타깃점(402) 및 (s i 로 표현되는) 제2 타깃점(403)이 결정된다. 제i 부위(p i )의 제j(j는 1보다 크거나 같음) 이웃 점(p ij )이 있다고 가정하면, 부위(p i ), 제1 타깃점(m i ), 제2 타깃점(s i ) 및 이웃 점(p ij )을 사용함으로써 사면체가 구성될 수 있음이 확인될 수 있다. 사면체의 변 길이들은 이웃 점(p ij )과 부위(p i ) 간의 거리(dpp ij )(제4 선분의 길이), 이웃 점(p ij )과 제1 타깃점(m i ) 간의 거리(dpm ij )(제5 선분의 길이), 및 이웃 점(p ij )과 제2 타깃점(s i ) 간의 거리(dps ij )(제6 선분의 길이)를 포함한다. 사면체의 각도들은 제3 각도(), 제4 각도() 및 제5 각도()를 포함한다. 제3 각도()는 제4 선분(dpp ij )과 제5 선분(dpm ij ) 사이에 형성된 각도이고, 제4 각도()는 제5 선분(dpm ij )과 제6 선분(dps ij ) 사이에 형성된 각도이고, 제5 각도()는 제6 선분(dps ij )과 제4 선분(dpp ij ) 사이에 형성된 각도이다.
또한, 제3 각도(), 제4 각도() 및 제5 각도()의 코사인 값들이 각각 계산되어 이 3개의 각도들에 대응하는 코사인 값들(, , )을 획득한다. 6차원 벡터 가 부위(p i )와 이웃 점(p ij ) 사이의 로컬 위치 특징으로서 구성된다. 로컬 위치 특징은 점군의 공간 좌표계에서 부위(p i )와 이웃 점(p ij ) 간의 상대 위치 관계를 설명할 수 있다. 단백질 분자의 점군의 공간 좌표계에서의 부위(p i )의 위치 정보는 글로벌 위치 특징 및 로컬 위치 특징을 사용함으로써 보다 포괄적이고 보다 정확하게 설명될 수 있다.
304: 단말이 글로벌 위치 특징 및 적어도 하나의 로컬 위치 특징에 기초하여 부위의 위치 특징을 획득한다.
앞서 말한 단계(302)에서, 단말은 5차원 글로벌 위치 특징을 획득한다. 앞서 말한 단계(303)에서, 단말은 적어도 하나의 6차원 로컬 위치 특징을 획득한다. 각각의 로컬 위치 특징에 대해, 로컬 위치 특징이 글로벌 위치 특징에 연쇄되어, 11차원 위치 특징 컴포넌트를 획득한다. 모든 위치 특징 컴포넌트들에 의해 구성된 행렬이 부위의 위치 특징으로서 결정된다.
앞서 말한 단계들(302 내지 304)에서, 타깃 분자의 각각의 부위에 대해, 단말은 부위의 3D 좌표, 제1 타깃점의 3D 좌표, 및 제2 타깃점의 3D 좌표에 기초하여 부위의 위치 특징을 추출할 수 있다. 본 개시의 이러한 실시예에서는, 위치 특징이 글로벌 위치 특징 및 로컬 위치 특징을 포함하는 예를 사용함으로써만 설명들이 이루어진다. 일부 실시예들에서, 위치 특징은 글로벌 위치 특징과 동등하다. 즉, 단말이 단계(302)에서 글로벌 위치 특징을 획득하는 동작을 수행한 후에, 앞서 말한 단계들(303, 304)은 생략되고, 모든 부위들의 로컬 위치 특징들을 획득하지 않고 모든 부위들의 글로벌 위치 특징들이 부위 검출 모델에 직접 입력됨으로써, 결합 부위 검출 방법의 프로세스를 단순화하고, 결합 부위 검출 프로세스에서 계산량을 감소시킨다.
일례로, 타깃 분자의 제i 부위(p i )에 대해, 부위(p i )에 대응하는 제1 타깃점(m i ), 제2 타깃점(s i ) 및 K(K는 1보다 크거나 같음)개의 이웃 점들()이 존재한다. 앞서 말한 단계(302)를 통해 5차원(5-dim) 글로벌 위치 특징 가 추출되고, 앞서 말한 단계(303)를 통해 K개의 이웃 점들에 각각 대응하는 K개의 6차원(6-dim) 로컬 위치 특징들 이 추출된다. K개의 11차원 위치 특징 컴포넌트들을 획득하도록 로컬 위치 특징들이 글로벌 위치 특징에 연쇄되어, [K*11]-차원 회전 불변 위치 특징을 구성한다. 위치 특징은 다음과 같이 표현된다:
행렬의 좌측이 부위(p i )의 글로벌 위치 특징(G i )을 지시하여 점군 공간에서 부위(p i )의 위치를 지시한다는 것이 행렬 형태의 위치 특징으로부터 알게 될 수 있다. 행렬의 우측은 부위(p i )와 그 부위의 K개의 이웃 점들(p i 1 내지 p iK ) 간의 K개의 로컬 위치 특징들(L i 1 내지 L iK )을 지시하여, 부위(p i )와 그 부위의 K개의 이웃 점들(p i 1 내지 p iK ) 간의 상대 위치들을 지시한다.
305: 단말이 타깃 분자의 적어도 하나의 부위에 대해 앞서 말한 단계들(301 내지 304)을 반복하여, 적어도 하나의 부위의 위치 특징을 획득한다.
앞서 말한 단계들(301 내지 305)에서, 단말은 적어도 하나의 부위의 3D 좌표, 적어도 하나의 제1 타깃점의 3D 좌표, 및 적어도 하나의 제2 타깃점의 3D 좌표에 기초하여 적어도 하나의 부위의 3D 좌표에서 회전 불변 위치 특징을 추출할 수 있으며, 위치 특징은 타깃 분자의 적어도 하나의 부위의 위치 정보를 지시하는 데 사용된다. 즉, 단말은 각각의 부위의 3D 좌표를 사용함으로써, 각각의 부위의 위치 정보를 완전히 지시할 수 있고 회전 불변인 위치 특징을 구성하여, 비교적 높은 특징 발현 능력을 달성한다.
306: 단말이 적어도 하나의 부위의 위치 특징을 GCN의 입력 계층에 입력하고, 입력 계층을 사용함으로써 적어도 하나의 부위의 그래프 데이터를 출력하며, 그래프 데이터는 부위의 위치 특징을 그래프의 형태로 지시하는 데 사용된다.
본 개시의 이러한 실시예에서는, 부위 검출 모델이 GCN인 예를 사용함으로써 설명들이 이루어진다. GCN은 입력 계층, 적어도 하나의 에지 컨볼루션(EdgeConv) 계층 및 출력 계층을 포함한다. 출력 계층은 각각의 부위의 그래프 데이터를 추출하는 데 사용되고, 적어도 하나의 에지 컨볼루션 계층은 각각의 부위의 글로벌 생물학적 특징을 추출하는 데 사용되며, 입력 계층은 특징 융합 및 확률 예측을 위해 사용된다.
일부 실시예들에서, GCN의 입력 계층은 MLP 및 풀링 계층을 포함한다. 단말은 적어도 하나의 부위의 위치 특징을 입력 계층의 MLP에 입력하고, MLP를 사용함으로써 적어도 하나의 부위의 위치 특징을 매핑하여 적어도 하나의 부위의 제1 특징을 획득하고 ― 제1 특징의 차원량은 위치 특징의 차원량보다 많음 ―; 그리고 적어도 하나의 부위의 제1 특징을 입력 계층의 풀링 계층에 입력하고, 풀링 계층을 사용함으로써 적어도 하나의 부위의 제1 특징에 대한 차원 감소를 수행하여 적어도 하나의 부위의 그래프 데이터를 획득한다.
일부 실시예들에서, 풀링 계층은 최대 풀링 계층이다. 최대 풀링 계층의 제1 특징에 대해 최대 통합 동작이 수행된다. 대안으로, 풀링 계층은 평균 풀링 계층이며, 평균 풀링 계층의 제1 특징에 대해 평균 통합 동작이 수행된다. 풀링 계층의 타입은 본 개시의 실시예들에서 구체적으로 제한되지 않는다.
앞서 말한 프로세스에서, MLP는 입력 위치 특징을 출력 제1 특징에 매핑하는데, 이는 위치 특징의 차원들을 증가시키고 고차원 제1 특징을 추출하는 것과 동등하다. 풀링 계층을 사용함으로써 제1 특징에 대해 차원 감소가 수행되며, 이는 제1 특징에 대해 스크리닝 및 선택을 수행하는 것과 동일하고, 여기서는 일부 중요하지 않은 정보가 제거되어 그래프 데이터를 획득한다.
도 5는 본 개시의 이러한 실시예에서 제공되는 GCN의 개략적인 원리도이다. 도 5를 참조하면, 단백질 분자의 [N*3]-차원 점군 데이터(500)가 주어진다고 가정하면, (단계(301)와 유사한) 회전 불변 특징 추출 디바이스를 사용함으로써 점군 데이터가 [N*K*11]-차원 회전 불변 특징(501)으로 변환된다. 회전 불변 특징(501)은 각각의 부위의 위치 특징이다. 다음으로, MLP를 사용함으로써, 원래 입력된 [N*K*11]-차원 회전 불변 특징(501)에 기초하여 [N*K*32]-차원 제1 특징(502)이 추가로 추출되고, 최대 풀링 계층을 사용함으로써 K개의 차원들의 방향을 따라 [N*K*32]-차원 제1 특징(502)에 대해 최대 통합이 수행되어 [N*K*32]-차원 제1 특징(502)을 [N*32]-차원 그래프 데이터(503)로 변환한다.
307: 단말이 적어도 하나의 부위의 그래프 데이터를 GCN의 적어도 하나의 에지 컨볼루션 계층에 입력하고, 적어도 하나의 에지 컨볼루션 계층을 사용함으로써 적어도 하나의 부위의 그래프 데이터에 대해 특징 추출을 수행하여, 적어도 하나의 부위의 글로벌 생물학적 특징을 획득한다.
일부 실시예들에서는, 글로벌 생물학적 특징을 추출하는 프로세스에서, 단말이 다음의 하위 단계들(3051 내지 3074)을 수행한다.
3071: 단말이 적어도 하나의 에지 컨볼루션 계층 중 임의의 에지 컨볼루션 계층에 대해, 에지 컨볼루션 계층을 사용함으로써, 이전 에지 컨볼루션 계층에 의해 출력된 에지 컨볼루션 특징에 대한 특징 추출을 수행하고, 추출된 에지 컨볼루션 특징을 다음 에지 컨볼루션 계층에 입력한다.
일부 실시예들에서, 각각의 에지 컨볼루션 계층은 MLP 및 풀링 계층을 포함한다. 이전 에지 컨볼루션 계층에 의해 출력된 에지 컨볼루션 특징에 기반하여 임의의 에지 컨볼루션 계층에 대해 클러스터 맵이 구성된다. 클러스터 맵은 에지 컨볼루션 계층의 MLP에 입력되고, MLP를 사용함으로써 매핑되어 클러스터 맵의 중간 특징을 획득한다. 중간 특징은 에지 컨볼루션 계층의 풀링 계층에 입력된 다음, 풀링 계층을 사용하여 중간 특징에 대해 차원 감소가 수행된다. 차원 감소된 중간 특징은 다음 에지 컨볼루션 계층에 입력된다.
일부 실시예들에서는, 클러스터 맵을 구성하는 프로세스에서, 이전 컨볼루션 계층에 의해 출력된 에지 컨볼루션 특징에 대해 k-최근접 이웃(KNN: k-nearest neighbor) 알고리즘을 사용함으로써 클러스터 맵이 구성된다. 이 경우, 구성된 클러스터 맵은 KNN 맵으로 지칭된다. 확실히, 클러스터 맵은 k-평균 알고리즘을 사용함으로써 구성될 수 있다. 클러스터 맵을 구성하는 방법은 본 개시의 실시예들에서 구체적으로 제한되지 않는다.
일부 실시예들에서, 풀링 계층은 최대 풀링 계층이다. 최대 풀링 계층의 중간 특징에 대해 최대 통합 동작이 수행된다. 대안으로, 풀링 계층은 평균 풀링 계층이며, 평균 풀링 계층의 중간 특징에 대해 평균 통합 동작이 수행된다. 풀링 계층의 타입은 본 개시의 실시예들에서 구체적으로 제한되지 않는다.
도 6은 본 개시의 이러한 실시예에서 제공되는 에지 컨볼루션 계층의 개략적인 구조도이다. 도 6을 참조하면, 임의의 에지 컨볼루션 계층에서, 이전 컨볼루션 계층에 의해 출력된 임의의 [N*C]-차원 에지 컨볼루션 특징(601)에 대해, KNN 알고리즘을 사용함으로써 클러스터 맵(KNN 맵)이 구성된다. MLP를 사용함으로써 클러스터 맵으로부터 고차원 특징이 추출되어, [N*C]-차원 에지 컨볼루션 특징(601)이 [N*K*C']-차원 중간 특징(602)에 매핑될 수 있다. 풀링 계층을 사용함으로써 [N*K*C']-차원 중간 특징(602)에 대해 치수 감소가 수행되어 [N*C']-차원 에지 컨볼루션 특징(603)(차원 감소된 중간 특징)을 획득한다. [N*C']-차원 에지 컨볼루션 특징(603)은 다음 에지 컨볼루션 계층에 입력된다.
앞서 말한 프로세스에서, 단말은 적어도 하나의 에지 컨볼루션 계층의 각각의 에지 컨볼루션 계층에 대해 앞서 말한 동작을 수행한다. 이전 에지 컨볼루션 계층에 의해 출력된 에지 컨볼루션 특징은 다음 에지 컨볼루션 계층의 입력으로서 사용된다. 이런 식으로, 적어도 하나의 에지 컨볼루션 계층을 사용함으로써, 적어도 하나의 부위의 그래프 데이터에 대해 일련의 고차원 특징 추출이 수행된다.
일례로, 도 5를 참조하면, GCN이 2개의 에지 컨볼루션 계층들을 포함하는 예에서, 단말은 [N*32]-차원 그래프 데이터(503)를 제1 에지 컨볼루션 계층에 입력하고, 제1 에지 컨볼루션 계층을 사용함으로써 [N*64]-차원 에지 컨볼루션 특징(504)을 출력한다. 단말은 [N*64]-차원 에지 컨볼루션 특징(504)을 제2 에지 컨볼루션 계층에 입력하고, 제2 에지 컨볼루션 계층을 사용함으로써 [N*128]-차원 에지 컨볼루션 특징(505)을 출력하고, 다음의 단계(3072)를 수행한다.
3072: 단말은 적어도 하나의 부위의 그래프 데이터와 적어도 하나의 에지 컨볼루션 계층에 의해 출력된 적어도 하나의 에지 컨볼루션 특징을 연쇄시켜 제2 특징을 획득한다.
앞서 말한 프로세스에서, 단말은 각각의 부위의 그래프 데이터 및 각각의 에지 컨볼루션 계층에 의해 출력된 에지 컨볼루션 특징을 연쇄시켜 제2 특징을 획득한다. 제2 특징은 적어도 하나의 에지 컨볼루션 계층의 잔차 특징과 동등하므로, 마지막 에지 컨볼루션 계층에 의해 출력된 에지 컨볼루션 특징뿐만 아니라, 각각의 부위의 원래 입력된 그래프 데이터 및 각각의 중간 에지 컨볼루션 계층에 의해 출력된 에지 컨볼루션 특징이 글로벌 생물학적 특징의 추출 동안 고려될 수 있고, 이로써 글로벌 생물학적 특징의 발현 능력을 개선하는 데 도움이 될 수 있다.
본 명세서에서의 연쇄는 그래프 데이터를 각각의 에지 컨볼루션 계층에 의해 출력된 에지 컨볼루션 특징에 차원상 연결하는 것이다. 예를 들어, 하나의 에지 컨볼루션 계층이 있다고 가정하면, [N*32]-차원 그래프 데이터가 [N*64]-차원 에지 컨볼루션 특징에 연쇄되어 [N*96]-차원 제2 특징을 획득한다.
일례로, 도 5를 참조하면, GCN이 2개의 에지 컨볼루션 계층들을 포함하는 예에서, 단말은 [N*32]-차원 그래프 데이터(503), 제1 에지 컨볼루션 계층에 의해 출력된 [N*64]-차원 에지 컨볼루션 특징(504), 및 제2 에지 컨볼루션 계층에 의해 출력된 [N*128]-차원 에지 컨볼루션 특징(505)을 연쇄시켜, [N*224]-차원 제2 특징을 획득한다.
3073: 단말은 제2 특징을 MLP에 입력하고, MLP를 사용함으로써 제2 특징을 매핑하여 제3 특징을 획득한다.
앞서 말한 프로세스에서, 단말이 MLP를 사용함으로써 특징 매핑을 수행하는 프로세스는 앞서 말한 단계들에서 MLP들을 사용함으로써 특징 매핑을 수행하는 프로세스들과 유사하다. 세부사항들은 여기서 다시 설명되지 않는다.
3074: 단말은 제3 특징을 풀링 계층에 입력하고, 풀링 계층을 사용함으로써 제3 특징에 대해 차원 감소를 수행하여, 글로벌 생물학적 특징을 획득한다.
일부 실시예들에서, 풀링 계층은 최대 풀링 계층이다. 최대 풀링 계층의 제3 특징에 대해 최대 통합 동작이 수행된다. 대안으로, 풀링 계층은 평균 풀링 계층이며, 평균 풀링 계층의 제3 특징에 대해 평균 통합 동작이 수행된다. 풀링 계층의 타입은 본 개시의 실시예들에서 구체적으로 제한되지 않는다.
일례로, 도 5를 참조하면, [N*224]-차원 제2 특징이 MLP 및 최대 풀링 계층에 순차적으로 입력되어, 단백질 점군의 [1*1024]-차원 글로벌 생물학적 특징(506)을 획득한다. 단계(308)가 수행된다.
308: 단말이 글로벌 생물학적 특징, 적어도 하나의 부위의 그래프 데이터, 및 적어도 하나의 에지 컨볼루션 계층에 의해 출력된 에지 컨볼루션 특징을 융합하고, 융합된 특징을 GCN의 출력 계층에 입력하고, 출력 계층을 사용함으로써, 융합된 특징에 대해 확률 맞춤(probability fitting)을 수행하여 적어도 하나의 예측 확률을 획득한다.
각각의 예측 확률은 부위가 결합 부위일 확률을 지시하는 데 사용된다.
일부 실시예들에서, 융합된 특징에 대해 확률 맞춤을 수행하는 프로세스에서는, 융합된 특징이 출력 계층의 MLP에 입력되고, MLP를 사용함으로써 매핑되어, 적어도 하나의 예측 확률을 획득한다. MLP를 사용하는 매핑 프로세스는 앞서 말한 단계들에서 MLP들을 사용하는 매핑 프로세스들과 유사하다. 세부사항들은 여기서 다시 설명되지 않는다.
앞서 말한 프로세스에서, 단말은 글로벌 생물학적 특징, 각각의 부위의 그래프 데이터, 및 각각의 에지 컨볼루션 계층에 의해 출력된 에지 컨볼루션 특징을 융합하고, 마지막으로, MLP를 사용함으로써, 융합된 특징에 대해 확률 맞춤을 수행하여 각각의 부위가 결합 부위일 예측 확률을 맞춘다. 일부 실시예들에서, 융합 프로세스는 글로벌 생물학적 특징, 각각의 부위의 그래프 데이터, 및 각각의 에지 컨볼루션 계층에 의해 출력된 에지 컨볼루션 특징을 직접 연쇄시키는 것이다.
실시예에서, 도 5를 참조하면, GCN이 2개의 에지 컨볼루션 계층들을 포함하는 예에서, 단말은 [N*32]-차원 그래프 데이터(503), 제1 에지 컨볼루션 계층에 의해 출력된 [N*64]-차원 에지 컨볼루션 특징(504), 제2 에지 컨볼루션 계층에 의해 출력된 [N*128]-차원 에지 컨볼루션 특징(505), 및 [1*1024]-차원 글로벌 생물학적 특징(506)을 연쇄시켜 [1*1248]-차원 융합된 특징(507)을 획득하고, [1*1248]-차원 융합된 특징(507)을 MLP에 입력하고, MLP를 사용함으로써 각각의 부위에 대해, 해당 부위가 결합 부위일 예측 확률을 맞춘다. 최종적으로 출력된 검출 결과는 [N*1]-차원 어레이(508)이다. 어레이(508)의 각각의 값은 부위가 결합 부위인 예측 확률을 나타낸다. 앞서 말한 프로세스에서, 입력 단백질 분자의 각각의 부위가 결합 부위인지 여부가 예측될 필요가 있기 때문에, 작업은 점대점 분할 작업으로 간주된다.
앞서 말한 단계들(306 내지 308)에서는, 부위 검출 모델이 GCN인 예를 사용함으로써, 단말이 부위 검출 모델을 호출하여 추출된 위치 특징에 대한 예측 처리를 수행함으로써, 적어도 하나의 부위의 적어도 하나의 예측 확률을 호출하는 프로세스가 도시된다. 일부 실시예들에서, 부위 검출 모델은 다른 딥 러닝 네트워크이다. 부위 검출 모델의 타입은 본 개시의 실시예들에서 구체적으로 제한되지 않는다.
309: 단말이 적어도 하나의 예측 확률에 기초하여 타깃 분자의 적어도 하나의 부위로부터 결합 부위를 결정한다.
앞서 말한 프로세스에서, 단말은 적어도 하나의 부위로부터 확률 임계치보다 더 큰 예측 확률을 갖는 부위를 결합 부위로서 결정하거나, 단말은 예측 확률들의 내림차순에 따라 부위들을 랭크하고, 목표량의 최상위 부위들을 결합 부위들로서 결정한다.
확률 임계치는 0보다 크거나 같고 1보다 작거나 같은 임의의 값이다. 목표량은 1보다 크거나 같은 임의의 정수이다. 예를 들어, 목표량이 3일 때, 전자 디바이스는 예측 확률들의 내림차순에 따라 부위들을 랭크한다. 상위 3위로 랭크된 부위들이 결합 부위들로서 결정된다.
본 개시의 이 실시예에서 제공되는 방법에서, 타깃 분자의 각각의 부위의 3D 좌표가 획득되고, 각각의 부위에 대응하는 제1 타깃점 및 제2 타깃점이 결정된다. 각각의 부위의 3D 좌표, 각각의 제1 타깃점의 3D 좌표 및 각각의 제2 타깃점의 3D 좌표에 기초하여, 각각의 부위의 3D 좌표에서의 회전 불변 위치 특징이 추출되고, 예측 확률에 기초하여 타깃 분자의 결합 부위를 결정하기 위해, 부위 검출 모델을 호출하여 추출된 위치 특징에 대한 예측을 수행함으로써, 각각의 부위가 결합 부위일 예측 확률을 획득한다. 제1 타깃점 및 제2 타깃점은 각각의 부위와 연관되고, 어느 정도까지 공간 표현성을 갖는다. 따라서 각각의 부위의 3D 좌표, 각각의 제1 타깃점의 3D 좌표, 및 각각의 제2 타깃점의 3D 좌표에 기초하여, 타깃 분자의 세부 구조를 완전히 반영할 수 있는 회전 불변 위치 특징이 구성될 수 있으며, 이로써 타깃 분자에 대한 복셀 특징을 설계함으로써 야기되는 세부사항들의 손실을 피할 수 있으므로, 위치 특징에 기반한 결합 부위 검출 동안 타깃 분자의 세부 구조의 위치 정보가 완전히 사용될 수 있고, 이로써 분자 결합 부위를 검출하는 프로세스의 정확도를 개선할 수 있다.
본 개시의 이러한 실시예에서, 기술자에 의해 생물학적 특징으로서 복셀 특징을 인위적으로 설계하는 대신에, 딥 러닝에서 GCN의 강력한 성능을 사용함으로써 단백질 분자의 생물학적 특징이 추출되며, 이로써 더 강한 발현 능력을 갖는 생물학적 특징을 획득하고, 및 더 높은 정확도의 결합 부위 인식을 달성한다. 추가로, 결합 부위의 예측은 실시간 검출의 요건을 충족시킬 수 있는 그래픽 처리 유닛(GPU: graphics processing unit)을 사용함으로써 완료될 수 있다. 또한, 각각의 부위의 위치 특징은 회전 불변이기 때문에, 단백질 분자가 회전하더라도, GCN을 사용함으로써 여전히 안정적인 예측 결과가 생성될 수 있고, 이로써 전체 결합 부위 검출 프로세스의 정확도 및 안정성을 개선할 수 있다.
위의 선택적인 기술적 솔루션들 모두가 무작위로 조합되어 본 개시의 선택적인 실시예들을 형성한다. 세부사항들은 여기서 다시 설명되지 않는다.
도 7은 본 개시의 일 실시예에 따른, 분자 결합 부위를 검출하기 위한 장치의 개략적인 구조도이다. 도 7을 참조하면, 이 장치는 획득 모듈(701), 제1 결정 모듈(702), 추출 모듈(703), 예측 모듈(704) 및 제2 결정 모듈(705)을 포함한다.
획득 모듈(701)은 검출 대상인 타깃 분자에서 적어도 하나의 부위의 3D 좌표를 획득하도록 구성되며, 타깃 분자는 검출 대상인 결합 부위를 갖는 화학 분자이다.
적어도 하나의 부위 각각에 대해:
제1 결정 모듈(702)은 제1 타깃점 및 제2 타깃점을 결정하도록 구성되며, 제1 타깃점은 구형 공간 내의 모든 부위들의 중심점이고, 구형 공간은 구의 중심으로서 적어도 하나의 부위 각각을 그리고 반경으로서 타깃 길이를 갖는 구형 공간이며, 제2 타깃점은 원점에서 시작하여 적어도 하나의 부위 각각을 가리키는 벡터의 전방 연장선과 구형 공간의 외측 표면 사이의 교점이다.
추출 모듈(703)은 적어도 하나의 부위 각각의 3D 좌표, 제1 타깃점의 3D 좌표, 및 제2 타깃점의 3D 좌표에 기초하여 적어도 하나의 부위 각각의 3D 좌표에서 회전 불변 위치 특징을 추출하도록 구성되며, 회전 불변 위치 특징은 타깃 분자의 적어도 하나의 부위 각각의 위치 정보를 지시하는 데 사용된다.
예측 모듈(704)은 부위 검출 모델을 호출하여 추출된 회전 불변 위치 특징에 대한 예측 처리를 수행함으로써, 적어도 하나의 부위 각각의 예측 확률을 호출하도록 구성되며, 각각의 예측 확률은 적어도 하나의 부위 각각이 결합 부위일 확률을 지시한다.
제2 결정 모듈(705)은 적어도 하나 부위 각각의 예측 확률에 기초하여 타깃 분자의 적어도 하나의 부위 각각에서 결합 부위를 결정하도록 구성된다.
삭제
삭제
삭제
본 개시의 이 실시예에서 제공되는 장치에서, 타깃 분자의 각각의 부위의 3D 좌표가 획득되고, 각각의 부위에 대응하는 제1 타깃점 및 제2 타깃점이 결정된다. 각각의 부위의 3D 좌표, 각각의 제1 타깃점의 3D 좌표 및 각각의 제2 타깃점의 3D 좌표에 기초하여, 각각의 부위의 3D 좌표에서의 회전 불변 위치 특징이 추출되고, 예측 확률에 기초하여 타깃 분자의 결합 부위를 결정하기 위해, 부위 검출 모델을 호출하여 추출된 위치 특징에 대한 예측을 수행함으로써, 각각의 부위가 결합 부위일 예측 확률을 획득한다. 제1 타깃점 및 제2 타깃점은 각각의 부위와 연관되고, 어느 정도까지 공간 표현성을 갖는다. 따라서 각각의 부위의 3D 좌표, 각각의 제1 타깃점의 3D 좌표, 및 각각의 제2 타깃점의 3D 좌표에 기초하여, 타깃 분자의 세부 구조를 완전히 반영할 수 있는 회전 불변 위치 특징이 구성될 수 있으며, 이로써 타깃 분자에 대한 복셀 특징을 설계함으로써 야기되는 세부사항들의 손실을 피할 수 있으므로, 위치 특징에 기반한 결합 부위 검출 동안 타깃 분자의 세부 구조의 위치 정보가 완전히 사용될 수 있고, 이로써 분자 결합 부위를 검출하는 프로세스의 정확도를 개선할 수 있다.
가능한 구현에서, 도 7의 장치 구성에 기반하여, 추출 모듈(703)은:
적어도 하나의 부위 중 임의의 부위에 대해, 부위의 3D 좌표, 부위에 대응하는 제1 타깃점의 3D 좌표 부위, 및 부위에 대응하는 제2 타깃점의 3D 좌표에 기초하여 부위의 3D 좌표에서 회전 불변 위치 특징을 추출하도록 구성된 추출 유닛을 포함한다.
가능한 구현에서, 추출 유닛은:
적어도 하나의 부위 각각의 3D 좌표, 제1 타깃점의 3D 좌표, 및 제2 타깃점의 3D 좌표에 기초하여 적어도 하나의 부위 각각의 글로벌 위치 특징을 구성하고 ― 글로벌 위치 특징은 타깃 분자의 부위의 공간 위치 정보를 지시하는 데 사용됨 ―;
적어도 하나의 부위 각각의 3D 좌표, 제1 타깃점의 3D 좌표, 제2 타깃점의 3D 좌표, 및 부위의 적어도 하나의 이웃 점의 3D 좌표에 기초하여, 부위와 적어도 하나의 이웃 점 사이의 적어도 하나의 로컬 위치 특징을 구성하고 ― 적어도 하나의 로컬 위치 특징이 적어도 하나의 부위 각각과 적어도 하나의 이웃 점 사이의 상대 위치 정보를 지시하는 데 사용됨 ―; 그리고
글로벌 위치 특징 및 적어도 하나의 로컬 위치 특징에 기초하여 적어도 하나의 부위 각각의 위치 특징을 획득하도록 구성된다.
가능한 실시예에서, 글로벌 위치 특징은 적어도 하나의 부위 각각의 크기, 적어도 하나의 부위 각각과 제1 타깃점 간의 거리, 제1 타깃점과 제2 타깃점 간의 거리, 제1 각도의 코사인 값, 또는 제2 각도의 코사인 값 중 적어도 하나를 포함한다. 제1 각도는 제1 선분과 제2 선분 사이에 형성된 각도이고, 제2 각도는 제2 선분과 제3 선분 사이에 형성된 각도이다. 제1 선분은 적어도 하나의 부위 각각과 제1 타깃점 사이에 형성된 선분이고, 제2 선분은 제1 타깃점과 제2 타깃점 사이에 형성된 선분이고, 제3 선분은 적어도 하나의 부위 각각과 제2 타깃점 사이에 형성된 선분이다.
가능한 실시예에서, 적어도 하나의 이웃 점 중 임의의 이웃 점에 대해, 적어도 하나의 부위 각각과 이웃 점 사이의 로컬 위치 특징은 이웃 점과 부위 간의 거리, 이웃 점과 제1 타깃점 간의 거리, 이웃 점과 제2 타깃점 간의 거리, 제3 각도의 코사인 값, 제4 각도의 코사인 값, 또는 제5 각도의 코사인 값 중 적어도 하나를 포함한다. 제3 각도는 제4 선분과 제5 선분 사이에 형성된 각도이고, 제4 각도는 제5 선분과 제6 선분 사이에 형성된 각도이고, 제5 각도는 제6 선분과 제4 선분 사이에 형성된 각도이다. 제4 선분은 이웃 점과 적어도 하나의 부위 각각의 사이에 형성된 선분이고, 제5 선분은 이웃 점과 제1 타깃점 사이에 형성된 선분이고, 제6 선분은 이웃 점과 제2 타깃점 사이에 형성된 선분이다.
삭제
삭제
삭제
삭제
가능한 구현에서, 부위 검출 모델은 GCN이고; GCN은 입력 계층, 적어도 하나의 에지 컨볼루션 계층 및 출력 계층을 포함한다.
도 7의 장치 구성에 기반하여, 예측 모듈(704)은:
적어도 하나의 부위의 위치 특징을 GCN의 입력 계층에 입력하고, 입력 계층을 사용함으로써 적어도 하나의 부위의 그래프 데이터를 출력하도록 구성된 입력/출력(I/O: input/적어도 하나의 부위 각각의 위치 특징을 GCN의 입력 계층에 입력하고, 입력 계층을 사용함으로써 적어도 하나의 부위 각각의 그래프 데이터를 출력하도록 구성된 입력/출력(I/O: input/output) 유닛 ― 그래프 데이터는 부위의 위치 특징을 그래프의 형태로 지시하는 데 사용됨 ―;
적어도 하나의 부위 각각의 그래프 데이터를 GCN의 적어도 하나의 에지 컨볼루션 계층에 입력하고, 적어도 하나의 에지 컨볼루션 계층을 사용함으로써 적어도 하나의 부위 각각의 그래프 데이터에 대해 특징 추출을 수행하여, 적어도 하나의 부위 각각의 글로벌 생물학적 특징을 획득하도록 구성된 특징 추출 유닛 ; 및
글로벌 생물학적 특징, 적어도 하나의 부위 각각의 그래프 데이터, 및 적어도 하나의 에지 컨볼루션 계층에 의해 출력된 에지 컨볼루션 특징을 융합하여 융합된 특징을 획득하고, 그 융합된 특징을 GCN의 출력 계층에 입력하고, 출력 계층을 사용함으로써, 융합된 특징에 대해 확률 맞춤을 수행하여 예측 확률을 획득하도록 구성된 확률 맞춤 유닛을 포함한다.
삭제
삭제
가능한 구현에서, I/O 유닛은:
적어도 하나의 부위 각각의 위치 특징을 입력 계층의 MLP에 입력하고, MLP를 사용함으로써 적어도 하나의 부위 각각의 위치 특징을 매핑하여 적어도 하나의 부위 각각의 제1 특징을 획득하고 ― 제1 특징의 차원량은 위치 특징의 차원량보다 많음 ―; 그리고
적어도 하나의 부위 각각의 제1 특징을 입력 계층의 풀링 계층에 입력하고, 풀링 계층을 사용함으로써 적어도 하나의 부위 각각의 제1 특징에 대한 차원 감소를 수행하여 적어도 하나의 부위 각각의 그래프 데이터를 획득하도록 구성된다.
가능한 구현에서, 도 7의 장치 구성에 기반하여, 특징 추출 유닛은:
적어도 하나의 에지 컨볼루션 계층의 각각의 에지 컨볼루션 계층에 대해, 이전 에지 컨볼루션 계층에 의해 출력된 에지 컨볼루션 특징에 대한 특징 추출을 수행하여 추출된 에지 컨볼루션 특징을 획득하고, 추출된 에지 컨볼루션 특징을 다음 에지 컨볼루션 계층에 입력하도록 구성된 추출/입력 서브 유닛;
적어도 하나의 부위 각각의 그래프 데이터와 적어도 하나의 에지 컨볼루션 계층에 의해 출력된 적어도 하나의 에지 컨볼루션 특징을 연쇄시켜 제2 특징을 획득하도록 구성된 연쇄 서브 유닛;
삭제
삭제
삭제
삭제
제2 특징을 MLP에 입력하고, MLP를 사용함으로써 제2 특징을 매핑하여 제3 특징을 획득하도록 구성된 매핑 서브 유닛; 및
제3 특징을 풀링 계층에 입력하고, 풀링 계층을 사용함으로써 제3 특징에 대해 차원 감소를 수행하여, 글로벌 생물학적 특징을 획득하도록 구성된 차원 감소 서브 유닛을 포함한다.
가능한 구현에서, 추출/입력 서브 유닛은:
이전 에지 컨볼루션 계층에 의해 출력된 에지 컨볼루션 특징에 기반하여 적어도 하나의 에지 컨볼루션 계층의 각각의 에지 컨볼루션 계층에 대한 클러스터 맵을 구성하고;
에지 컨볼루션 계층의 MLP에 클러스터 맵을 입력하고, MLP를 사용함으로써 클러스터 맵을 매핑하여 클러스터 맵의 중간 특징을 획득하고; 그리고
에지 컨볼루션 계층의 풀링 계층에 중간 특징을 입력하고, 풀링 계층을 사용함으로써 중간 특징에 대해 차원 감소를 수행하고, 차원 감소된 중간 특징을 다음 에지 컨볼루션 계층에 입력하도록 구성된다.
가능한 구현에서, 확률 맞춤 유닛은:
융합된 특징을 출력 계층의 MLP에 입력하고, MLP를 사용함으로써 융합된 특징을 매핑하여 예측 확률을 획득하도록 구성된다.
가능한 구현에서, 제2 결정 모듈(705)은:
적어도 하나의 부위로부터 확률 임계치보다 더 큰 예측 확률을 갖는 부위를 결합 부위로서 결정하도록 구성된다.
위의 선택적인 기술적 솔루션들 모두가 무작위로 조합되어 본 개시의 선택적인 실시예들을 형성한다. 세부사항들은 여기서 다시 설명되지 않는다.
앞서 말한 실시예들에서 제공된 분자 결합 부위를 검출하기 위한 장치가 타깃 분자에서 결합 부위를 검출할 때, 기능적 모듈들의 분할은 단지 예시를 위한 일례로서 사용된다. 실제 적용에서는, 기능들이 요건들에 따라 상이한 기능 모듈들에 할당되고 상이한 기능 모듈들에 의해 완료될 수 있는데, 즉 전자 디바이스의 내부 구조는 위에서 설명된 기능들 전부 또는 그 일부를 구현하도록 상이한 기능 모듈들로 분할된다. 또한, 앞서 말한 실시예들에서 제공되는 분자 결합 부위를 검출하기 위한 장치 및 분자 결합 부위를 검출하기 위한 방법 실시예들은 하나의 개념에 속한다. 특정 구현 프로세스에 대해서는, 분자 결합 부위를 검출하기 위한 방법의 실시예들에 대한 참조가 이루어질 수 있으며, 세부사항들은 본 명세서에서 다시 설명되지 않는다.
도 8은 본 개시의 실시예에 따른 전자 디바이스의 개략적인 구조도이다. 도 8을 참조하면, 전자 장치가 단말(800)인 예를 사용함으로써 설명들이 이루어진다. 단말(800)은 스마트폰, 태블릿 컴퓨터, 동화상 전문가 그룹 오디오 계층 Ⅲ(MP3) 플레이어, 동화상 전문가 그룹 오디오 계층 Ⅳ(MP4) 플레이어, 노트북 컴퓨터 또는 데스크톱 컴퓨터일 수 있다. 단말(800)은 또한 사용자 장비, 휴대용 단말, 랩톱 단말, 데스크톱 단말로, 또는 다른 명칭으로 지칭될 수 있다.
일반적으로, 단말(800)은 프로세서(801) 및 메모리(802)를 포함한다.
프로세서(801)는 하나 이상의 프로세싱 코어들, 예를 들어 4-코어 프로세서 또는 8-코어 프로세서를 포함한다. 프로세서(801)는 디지털 신호 프로세서(DSP: digital signal processor), 필드 프로그래밍 가능 게이트 어레이(FPGA: field-programmable gate array) 및 프로그래밍 가능 로직 어레이(PLA: programmable logic array) 중 적어도 하나의 하드웨어 형태로 구현될 수 있다. 일부 실시예들에서, 프로세서(801)는 메인 프로세서 및 보조 프로세서(coprocessor)를 포함한다. 메인 프로세서는 어웨이크(awake) 상태에서 데이터를 처리하도록 구성된 프로세서이며, 중앙 처리 유닛(CPU: central processing unit)으로도 또한 지칭된다. 보조 프로세서는 대기 상태에서 데이터를 처리하도록 구성된 저전력 프로세서이다. 일부 실시예들에서, GPU는 프로세서(801)와 통합된다. GPU는 디스플레이 스크린 상에 디스플레이될 콘텐츠를 렌더링(render) 및 드로잉(draw)하는 것을 담당하도록 구성된다. 일부 실시예들에서, 프로세서(801)는 인공 지능(AI) 프로세서를 포함한다. AI 프로세서는 기계 학습과 관련된 컴퓨팅 동작을 처리하도록 구성된다.
메모리(802)는 하나 이상의 비일시적 컴퓨터 판독 가능 저장 매체를 포함한다. 컴퓨터 판독 가능 저장 매체는 비-일시적이다. 일부 실시예들에서, 메모리(802)는 고속 랜덤 액세스 메모리 및 비휘발성 메모리, 예를 들어 하나 이상의 디스크 저장 디바이스들 또는 플래시 저장 디바이스들을 더 포함한다. 일부 실시예들에서, 메모리(802) 내의 비-일시적 컴퓨터 판독 가능 저장 매체는 적어도 하나의 명령을 저장하도록 구성되며, 적어도 하나의 명령은 분자 결합 부위를 검출하는 다음의 단계들을 구현하도록 프로세서(801)에 의해 실행되도록 구성된다:
검출 대상인 타깃 분자에서 적어도 하나의 부위의 3차원(3D) 좌표를 획득하는 단계 ― 타깃 분자는 검출 대상인 결합 부위를 갖는 화학 분자임 ―;
적어도 하나의 부위 각각에 대해:
제1 타깃점 및 제2 타깃점을 결정하는 단계 ― 제1 타깃점은 구형 공간 내의 모든 부위들의 중심점이고, 구형 공간은 구의 중심으로서 적어도 하나의 부위 각각을 그리고 반경으로서 타깃 길이를 갖는 구형 공간이며, 제2 타깃점은 원점에서 시작하여 적어도 하나의 부위 각각을 가리키는 벡터의 전방 연장선과 구형 공간의 외측 표면 사이의 교점임 ―;
적어도 하나의 부위 각각의 3D 좌표, 제1 타깃점의 3D 좌표, 및 제2 타깃점의 3D 좌표에 기초하여 적어도 하나의 부위 각각의 3D 좌표에서 회전 불변 위치 특징을 추출하는 단계 ― 회전 불편 위치 특징은 타깃 분자의 적어도 하나의 부위 각각의 위치 정보를 지시하는 데 사용됨 ―;
부위 검출 모델을 호출하여 추출된 회전 불변 위치 특징에 대한 예측 처리를 수행함으로써, 적어도 하나의 부위 각각의 예측 확률을 획득하는 단계 ― 각각의 예측 확률은 적어도 하나의 부위 각각이 결합 부위일 확률을 지시함 ―; 및
적어도 하나의 부위 각각의 예측 확률에 기초하여 타깃 분자의 적어도 하나의 부위 각각으로부터 결합 부위를 결정하는 단계.
삭제
삭제
삭제
가능한 구현에서, 적어도 하나의 부위의 3D 좌표, 적어도 하나의 제1 타깃 지점의 3D 좌표, 및 적어도 하나의 제2 타깃 지점의 3D 좌표에 기초하여 적어도 하나의 부위의 3D 좌표에서 회전 불변 위치 특징을 추출하는 단계는:
적어도 하나의 부위 중 임의의 부위에 대해, 부위의 3D 좌표, 부위에 대응하는 제1 타깃점의 3D 좌표 부위, 및 부위에 대응하는 제2 타깃점의 3D 좌표에 기초하여 부위의 3D 좌표에서 회전 불변 위치 특징을 추출하는 단계를 포함한다.
가능한 구현에서, 적어도 하나의 부위 중 임의의 부위에 대해, 부위의 3D 좌표, 부위에 대응하는 제1 타깃점의 3D 좌표 부위, 및 부위에 대응하는 제2 타깃점의 3D 좌표에 기초하여 부위의 3D 좌표에서 회전 불변 위치 특징을 추출하는 단계는:
부위의 3D 좌표, 제1 타깃점의 3D 좌표, 및 제2 타깃점의 3D 좌표에 기초하여 부위의 글로벌 위치 특징을 구성하는 단계 ― 글로벌 위치 특징은 타깃 분자의 부위의 공간 위치 정보를 지시하는 데 사용됨 ―;
부위의 3D 좌표, 제1 타깃점의 3D 좌표, 제2 타깃점의 3D 좌표, 및 부위의 적어도 하나의 이웃 점의 3D 좌표에 기초하여, 부위와 적어도 하나의 이웃 점 사이의 적어도 하나의 로컬 위치 특징을 구성하는 단계 ― 하나의 로컬 위치 특징이 부위와 하나의 이웃 점 사이의 상대 위치 정보를 지시하는 데 사용됨 ―; 및
글로벌 위치 특징 및 적어도 하나의 로컬 위치 특징에 기초하여 부위의 위치 특징을 획득하는 단계를 포함한다.
가능한 실시예에서, 글로벌 위치 특징은 부위의 크기, 부위와 제1 타깃점 간의 거리, 제1 타깃점과 제2 타깃점 간의 거리, 제1 각도의 코사인 값, 또는 제2 각도의 코사인 값 중 적어도 하나를 포함한다. 제1 각도는 제1 선분과 제2 선분 사이에 형성된 각도이고, 제2 각도는 제2 선분과 제3 선분 사이에 형성된 각도이다. 제1 선분은 부위와 제1 타깃점 사이에 형성된 선분이고, 제2 선분은 제1 타깃점과 제2 타깃점 사이에 형성된 선분이고, 제3 선분은 부위와 제2 타깃점 사이에 형성된 선분이다.
가능한 실시예에서, 적어도 하나의 이웃 점 중 임의의 이웃 점에 대해, 부위와 이웃 점 사이의 로컬 위치 특징은 이웃 점과 부위 간의 거리, 이웃 점과 제1 타깃점 간의 거리, 이웃 점과 제2 타깃점 간의 거리, 제3 각도의 코사인 값, 제4 각도의 코사인 값, 또는 제5 각도의 코사인 값 중 적어도 하나를 포함한다. 제3 각도는 제4 선분과 제5 선분 사이에 형성된 각도이고, 제4 각도는 제5 선분과 제6 선분 사이에 형성된 각도이고, 제5 각도는 제6 선분과 제4 선분 사이에 형성된 각도이다. 제4 선분은 이웃 점과 부위 사이에 형성된 선분이고, 제5 선분은 이웃 점과 제1 타깃점 사이에 형성된 선분이고, 제6 선분은 이웃 점과 제2 타깃점 사이에 형성된 선분이다.
가능한 구현에서, 부위 검출 모델은 GCN이고; GCN은 입력 계층, 적어도 하나의 에지 컨볼루션 계층 및 출력 계층을 포함한다.
부위 검출 모델을 호출하여 추출된 위치 특징에 대한 예측을 수행하여, 적어도 하나의 부위의 적어도 하나의 예측 확률을 획득하는 단계는:
적어도 하나의 부위의 위치 특징을 GCN의 입력 계층에 입력하고, 입력 계층을 사용함으로써 적어도 하나의 부위의 그래프 데이터를 출력하는 단계 ― 그래프 데이터는 부위의 위치 특징을 그래프의 형태로 지시하는 데 사용됨 ―;
적어도 하나의 부위의 그래프 데이터를 GCN의 적어도 하나의 에지 컨볼루션 계층에 입력하고, 적어도 하나의 에지 컨볼루션 계층을 사용함으로써 적어도 하나의 부위의 그래프 데이터에 대해 특징 추출을 수행하여, 적어도 하나의 부위의 글로벌 생물학적 특징을 획득하는 단계 ; 및
글로벌 생물학적 특징, 적어도 하나의 부위의 그래프 데이터, 및 적어도 하나의 에지 컨볼루션 계층에 의해 출력된 에지 컨볼루션 특징을 융합하고, 융합된 특징을 GCN의 출력 계층에 입력하고, 출력 계층을 사용함으로써, 융합된 특징에 대해 확률 맞춤을 수행하여 적어도 하나의 예측 확률을 획득하는 단계를 포함한다.
가능한 구현에서, 적어도 하나의 부위의 위치 특징을 GCN의 입력 계층에 입력하고, 입력 계층을 사용함으로써 적어도 하나의 부위의 그래프 데이터를 출력하는 단계는:
적어도 하나의 부위의 위치 특징을 입력 계층의 MLP에 입력하고, MLP를 사용함으로써 적어도 하나의 부위의 위치 특징을 매핑하여 적어도 하나의 부위의 제1 특징을 획득하는 단계 ― 제1 특징의 차원량은 위치 특징의 차원량보다 많음 ―; 및
적어도 하나의 부위의 제1 특징을 입력 계층의 풀링 계층에 입력하고, 풀링 계층을 사용함으로써 적어도 하나의 부위의 제1 특징에 대한 차원 감소를 수행하여 적어도 하나의 부위의 그래프 데이터를 획득하는 단계를 포함한다.
가능한 구현에서, 적어도 하나의 에지 컨볼루션 계층을 사용함으로써 적어도 하나의 부위의 그래프 데이터에 대해 특징 추출을 수행하여, 적어도 하나의 부위의 글로벌 생물학적 특징을 획득하는 단계는:
적어도 하나의 에지 컨볼루션 계층 중 임의의 에지 컨볼루션 계층에 대해, 이전 에지 컨볼루션 계층에 의해 출력된 에지 컨볼루션 특징에 대한 특징 추출을 수행하고, 추출된 에지 컨볼루션 특징을 다음 에지 컨볼루션 계층에 입력하는 단계;
적어도 하나의 부위의 그래프 데이터와 적어도 하나의 에지 컨볼루션 계층에 의해 출력된 적어도 하나의 에지 컨볼루션 특징을 연쇄시켜 제2 특징을 획득하는 단계;
제2 특징을 MLP에 입력하고, MLP를 사용함으로써 제2 특징을 매핑하여 제3 특징을 획득하는 단계; 및
제3 특징을 풀링 계층에 입력하고, 풀링 계층을 사용함으로써 제3 특징에 대해 차원 감소를 수행하여, 글로벌 생물학적 특징을 획득하는 단계를 포함한다.
가능한 구현에서, 적어도 하나의 에지 컨볼루션 계층 중 임의의 에지 컨볼루션 계층에 대해, 이전 에지 컨볼루션 계층에 의해 출력된 에지 컨볼루션 특징에 대한 특징 추출을 수행하고, 추출된 에지 컨볼루션 특징을 다음 에지 컨볼루션 계층에 입력하는 단계는:
이전 에지 컨볼루션 계층에 의해 출력된 에지 컨볼루션 특징에 기반하여 적어도 하나의 에지 컨볼루션 계층에서 임의의 에지 컨볼루션 계층에 대한 클러스터 맵을 구성하는 단계;
에지 컨볼루션 계층의 MLP에 클러스터 맵을 입력하고, MLP를 사용함으로써 클러스터 맵을 매핑하여 클러스터 맵의 중간 특징을 획득하는 단계; 및
에지 컨볼루션 계층의 풀링 계층에 중간 특징을 입력하고, 풀링 계층을 사용함으로써 중간 특징에 대해 차원 감소를 수행하고, 차원 감소된 중간 특징을 다음 에지 컨볼루션 계층에 입력하는 단계를 포함한다.
가능한 구현에서, 융합된 특징을 GCN의 출력 계층에 입력하고, 출력 계층을 사용함으로써, 융합된 특징에 대해 확률 맞춤을 수행하여 적어도 하나의 예측 확률을 획득하는 단계는:
융합된 특징을 출력 계층의 MLP에 입력하고, MLP를 사용함으로써 융합된 특징을 매핑하여 적어도 하나의 예측 확률을 획득하는 단계를 포함한다.
가능한 구현에서, 하나의 예측 확률에 기초하여 타깃 분자의 적어도 하나의 부위에서 결합 부위를 결정하는 단계는:
적어도 하나의 부위로부터 확률 임계치보다 더 큰 예측 확률을 갖는 부위를 결합 부위로서 결정하는 단계를 포함한다.
일부 실시예들에서, 단말(800)은 대안으로: 주변 장치 인터페이스(803) 및 적어도 하나의 주변 장치를 포함할 수 있다. 프로세서(801), 메모리(802) 및 주변 장치 인터페이스(803)는 버스 또는 신호 케이블을 통해 연결될 수 있다. 각각의 주변 장치는 버스, 신호 케이블 또는 회로 보드를 통해 주변 장치 인터페이스(803)에 연결된다. 선택적으로, 주변 장치는 디스플레이 스크린(804)을 포함한다.
주변 장치 인터페이스(803)는 I/O에 관련된 적어도 하나의 주변 디바이스를 프로세서(801) 및 메모리(802)에 연결하도록 구성될 수 있다.
디스플레이 스크린(804)은 사용자 인터페이스(UI: user interface)를 디스플레이하도록 구성된다. UI는 그래프, 텍스트, 아이콘, 비디오, 및 이들의 임의의 조합을 포함할 수 있다. 디스플레이 스크린(804)이 터치 디스플레이 스크린인 경우, 디스플레이 스크린(804)은 추가로, 디스플레이 스크린(804)의 표면 상에서 또는 위에서 터치 신호를 획득하는 능력을 갖는다. 일부 실시예들에서, 터치 신호는 제어 신호로서 처리를 위해 프로세서(801)에 입력될 수 있다. 이러한 경우, 디스플레이 스크린(804)은 소프트 버튼 및/또는 소프트 키보드로도 또한 지칭되는 가상 버튼 및/또는 가상 키보드를 제공하도록 추가로 구성된다.
당해 기술분야에서 통상의 지식을 가진 자는, 도 8에 도시된 구조가 단말(800)에 제한을 구성하지 않으며, 단말이 도면에 도시된 것들보다 더 많은 또는 더 적은 컴포넌트들을 포함할 수 있거나, 일부 컴포넌트들이 조합될 수 있거나, 상이한 컴포넌트 배열이 사용될 수 있다고 이해할 수 있다.
예시적인 실시예에서, 비일시적 컴퓨터 판독 가능 저장 매체, 예를 들어 적어도 하나의 프로그램 코드를 포함하는 메모리가 추가로 제공된다. 적어도 하나의 프로그램 코드는 다음의 분자 결합 부위 검출 단계들을 구현하도록 단말의 프로세서에 의해 실행될 수 있다:
검출 대상인 타깃 분자에서 적어도 하나의 부위의 3D 좌표를 획득하는 단계 ― 타깃 분자는 검출 대상인 결합 부위를 갖는 화학 분자임 ―;
각각의 부위에 대응하는 제1 타깃점 및 제2 타깃점을 각각 결정하는 단계 ― 임의의 부위의 제1 타깃점은 타깃 구형 공간 내의 모든 부위들의 중심점이고, 타깃 구형 공간은 구의 중심으로서 임의의 부위를 그리고 반경으로서 타깃 길이를 갖는 구형 공간이며, 임의의 부위의 제2 타깃점은 원점에서 시작하여 부위를 가리키는 벡터의 전방 연장선과 타깃 구형 공간의 외측 표면 사이의 교점임 ―;
적어도 하나의 부위의 3D 좌표, 적어도 하나의 제1 타깃점의 3D 좌표, 및 적어도 하나의 제2 타깃점의 3D 좌표에 기초하여 적어도 하나의 부위의 3D 좌표에서 회전 불변 위치 특징을 추출하는 단계 ― 위치 특징은 타깃 분자의 적어도 하나의 부위의 위치 정보를 지시하는 데 사용됨 ―;
부위 검출 모델을 호출하여 추출된 위치 특징에 대한 예측을 수행하여, 적어도 하나의 부위의 적어도 하나의 예측 확률을 획득하는 단계 ― 각각의 예측 확률은 부위가 결합 부위일 확률을 지시하는 데 사용됨 ―; 및
적어도 하나의 예측 확률에 기초하여 타깃 분자의 적어도 하나의 부위에서 결합 부위를 결정하는 단계.
가능한 구현에서, 적어도 하나의 부위의 3D 좌표, 적어도 하나의 제1 타깃 지점의 3D 좌표, 및 적어도 하나의 제2 타깃 지점의 3D 좌표에 기초하여 적어도 하나의 부위의 3D 좌표에서 회전 불변 위치 특징을 추출하는 단계는:
적어도 하나의 부위 중 임의의 부위에 대해, 부위의 3D 좌표, 부위에 대응하는 제1 타깃점의 3D 좌표 부위, 및 부위에 대응하는 제2 타깃점의 3D 좌표에 기초하여 부위의 3D 좌표에서 회전 불변 위치 특징을 추출하는 단계를 포함한다.
가능한 구현에서, 적어도 하나의 부위 중 임의의 부위에 대해, 부위의 3D 좌표, 부위에 대응하는 제1 타깃점의 3D 좌표 부위, 및 부위에 대응하는 제2 타깃점의 3D 좌표에 기초하여 부위의 3D 좌표에서 회전 불변 위치 특징을 추출하는 단계는:
부위의 3D 좌표, 제1 타깃점의 3D 좌표, 및 제2 타깃점의 3D 좌표에 기초하여 부위의 글로벌 위치 특징을 구성하는 단계 ― 글로벌 위치 특징은 타깃 분자의 부위의 공간 위치 정보를 지시하는 데 사용됨 ―;
부위의 3D 좌표, 제1 타깃점의 3D 좌표, 제2 타깃점의 3D 좌표, 및 부위의 적어도 하나의 이웃 점의 3D 좌표에 기초하여, 부위와 적어도 하나의 이웃 점 사이의 적어도 하나의 로컬 위치 특징을 구성하는 단계 ― 하나의 로컬 위치 특징이 부위와 하나의 이웃 점 사이의 상대 위치 정보를 지시하는 데 사용됨 ―; 및
글로벌 위치 특징 및 적어도 하나의 로컬 위치 특징에 기초하여 부위의 위치 특징을 획득하는 단계를 포함한다.
가능한 실시예에서, 글로벌 위치 특징은 부위의 크기, 부위와 제1 타깃점 간의 거리, 제1 타깃점과 제2 타깃점 간의 거리, 제1 각도의 코사인 값, 또는 제2 각도의 코사인 값 중 적어도 하나를 포함한다. 제1 각도는 제1 선분과 제2 선분 사이에 형성된 각도이고, 제2 각도는 제2 선분과 제3 선분 사이에 형성된 각도이다. 제1 선분은 부위와 제1 타깃점 사이에 형성된 선분이고, 제2 선분은 제1 타깃점과 제2 타깃점 사이에 형성된 선분이고, 제3 선분은 부위와 제2 타깃점 사이에 형성된 선분이다.
가능한 실시예에서, 적어도 하나의 이웃 점 중 임의의 이웃 점에 대해, 부위와 이웃 점 사이의 로컬 위치 특징은 이웃 점과 부위 간의 거리, 이웃 점과 제1 타깃점 간의 거리, 이웃 점과 제2 타깃점 간의 거리, 제3 각도의 코사인 값, 제4 각도의 코사인 값, 또는 제5 각도의 코사인 값 중 적어도 하나를 포함한다. 제3 각도는 제4 선분과 제5 선분 사이에 형성된 각도이고, 제4 각도는 제5 선분과 제6 선분 사이에 형성된 각도이고, 제5 각도는 제6 선분과 제4 선분 사이에 형성된 각도이다. 제4 선분은 이웃 점과 부위 사이에 형성된 선분이고, 제5 선분은 이웃 점과 제1 타깃점 사이에 형성된 선분이고, 제6 선분은 이웃 점과 제2 타깃점 사이에 형성된 선분이다.
가능한 구현에서, 부위 검출 모델은 GCN이고; GCN은 입력 계층, 적어도 하나의 에지 컨볼루션 계층 및 출력 계층을 포함한다.
부위 검출 모델을 호출하여 추출된 위치 특징에 대한 예측 처리를 수행함으로써, 적어도 하나의 부위의 적어도 하나의 예측 확률을 획득하는 단계는:
적어도 하나의 부위의 위치 특징을 GCN의 입력 계층에 입력하고, 입력 계층을 사용함으로써 적어도 하나의 부위의 그래프 데이터를 출력하는 단계 ― 그래프 데이터는 부위의 위치 특징을 그래프의 형태로 지시하는 데 사용됨 ―;
적어도 하나의 부위의 그래프 데이터를 GCN의 적어도 하나의 에지 컨볼루션 계층에 입력하고, 적어도 하나의 에지 컨볼루션 계층을 사용함으로써 적어도 하나의 부위의 그래프 데이터에 대해 특징 추출을 수행하여, 적어도 하나의 부위의 글로벌 생물학적 특징을 획득하는 단계 ; 및
글로벌 생물학적 특징, 적어도 하나의 부위의 그래프 데이터, 및 적어도 하나의 에지 컨볼루션 계층에 의해 출력된 에지 컨볼루션 특징을 융합하고, 융합된 특징을 GCN의 출력 계층에 입력하고, 출력 계층을 사용함으로써, 융합된 특징에 대해 확률 맞춤을 수행하여 적어도 하나의 예측 확률을 획득하는 단계를 포함한다.
가능한 구현에서, 적어도 하나의 부위의 위치 특징을 GCN의 입력 계층에 입력하고, 입력 계층을 사용함으로써 적어도 하나의 부위의 그래프 데이터를 출력하는 단계는:
적어도 하나의 부위의 위치 특징을 입력 계층의 MLP에 입력하고, MLP를 사용함으로써 적어도 하나의 부위의 위치 특징을 매핑하여 적어도 하나의 부위의 제1 특징을 획득하는 단계 ― 제1 특징의 차원량은 위치 특징의 차원량보다 많음 ―; 및
적어도 하나의 부위의 제1 특징을 입력 계층의 풀링 계층에 입력하고, 풀링 계층을 사용함으로써 적어도 하나의 부위의 제1 특징에 대한 차원 감소를 수행하여 적어도 하나의 부위의 그래프 데이터를 획득하는 단계를 포함한다.
가능한 구현에서, 적어도 하나의 에지 컨볼루션 계층을 사용함으로써 적어도 하나의 부위의 그래프 데이터에 대해 특징 추출을 수행하여, 적어도 하나의 부위의 글로벌 생물학적 특징을 획득하는 단계는:
적어도 하나의 에지 컨볼루션 계층 중 임의의 에지 컨볼루션 계층에 대해, 이전 에지 컨볼루션 계층에 의해 출력된 에지 컨볼루션 특징에 대한 특징 추출을 수행하고, 추출된 에지 컨볼루션 특징을 다음 에지 컨볼루션 계층에 입력하는 단계;
적어도 하나의 부위의 그래프 데이터와 적어도 하나의 에지 컨볼루션 계층에 의해 출력된 적어도 하나의 에지 컨볼루션 특징을 연쇄시켜 제2 특징을 획득하는 단계;
제2 특징을 MLP에 입력하고, MLP를 사용함으로써 제2 특징을 매핑하여 제3 특징을 획득하는 단계; 및
제3 특징을 풀링 계층에 입력하고, 풀링 계층을 사용함으로써 제3 특징에 대해 차원 감소를 수행하여, 글로벌 생물학적 특징을 획득하는 단계를 포함한다.
가능한 구현에서, 적어도 하나의 에지 컨볼루션 계층 중 임의의 에지 컨볼루션 계층에 대해, 이전 에지 컨볼루션 계층에 의해 출력된 에지 컨볼루션 특징에 대한 특징 추출을 수행하고, 추출된 에지 컨볼루션 특징을 다음 에지 컨볼루션 계층에 입력하는 단계는:
이전 에지 컨볼루션 계층에 의해 출력된 에지 컨볼루션 특징에 기반하여 적어도 하나의 에지 컨볼루션 계층에서 임의의 에지 컨볼루션 계층에 대한 클러스터 맵을 구성하는 단계;
에지 컨볼루션 계층의 MLP에 클러스터 맵을 입력하고, MLP를 사용함으로써 클러스터 맵을 매핑하여 클러스터 맵의 중간 특징을 획득하는 단계; 및
에지 컨볼루션 계층의 풀링 계층에 중간 특징을 입력하고, 풀링 계층을 사용함으로써 중간 특징에 대해 차원 감소를 수행하고, 차원 감소된 중간 특징을 다음 에지 컨볼루션 계층에 입력하는 단계를 포함한다.
가능한 구현에서, 융합된 특징을 GCN의 출력 계층에 입력하고, 출력 계층을 사용함으로써, 융합된 특징에 대해 확률 맞춤을 수행하여 적어도 하나의 예측 확률을 획득하는 단계는:
융합된 특징을 출력 계층의 MLP에 입력하고, MLP를 사용함으로써 융합된 특징을 매핑하여 적어도 하나의 예측 확률을 획득하는 단계를 포함한다.
가능한 구현에서, 하나의 예측 확률에 기초하여 타깃 분자의 적어도 하나의 부위에서 결합 부위를 결정하는 단계는:
적어도 하나의 부위로부터 확률 임계치보다 더 큰 예측 확률을 갖는 부위를 결합 부위로서 결정하는 단계를 포함한다.
일부 실시예들에서, 비일시적 컴퓨터 판독 가능 저장 매체는 판독 전용 메모리(ROM: read-only memory), 랜덤 액세스 메모리(RAM: random access memory), 콤팩트 디스크 판독 전용 메모리(CD-ROM: compact disc read-only memory), 자기 테이프, 플로피 디스크, 광학 데이터 저장 디바이스 등일 수 있다.
당해 분야에서 통상의 지식을 가진 자는 실시예들의 단계들의 전부 또는 일부가 하드웨어 또는 관련 하드웨어에 명령하는 프로그램에 의해 구현될 수 있다고 이해할 수 있다. 프로그램은 비일시적 컴퓨터 판독 가능 저장 매체에 저장된다. 비일시적 저장 매체는 판독 전용 메모리, 자기 디스크, 또는 광 디스크를 포함한다.
앞서 말한 설명들은 단지 본 개시의 선택적 실시예들일 뿐이며, 본 개시를 제한하는 것으로 의도되지 않는다.

Claims (15)

  1. 전자 디바이스에 적용 가능한, 분자 결합 부위(molecule binding site)를 검출하기 위한 방법으로서,
    검출 대상인 타깃 분자에서 적어도 하나의 부위의 3차원(3D: three-dimensional) 좌표를 획득하는 단계 ― 상기 타깃 분자는 검출 대상인 결합 부위를 갖는 화학 분자임 ―;
    상기 적어도 하나의 부위 각각에 대해:
    제1 타깃점 및 제2 타깃점을 결정하는 단계 ― 상기 제1 타깃점은 구형 공간(spherical space) 내의 모든 부위들의 중심점이고, 상기 구형 공간은 구의 중심으로서 상기 적어도 하나의 부위 각각을 그리고 반경으로서 타깃 길이를 갖는 구형 공간이며, 상기 제2 타깃점은 원점에서 시작하여 상기 적어도 하나의 부위 각각을 가리키는 벡터의 전방 연장선과 상기 구형 공간의 외측 표면 사이의 교점이고, 상기 원점은 상기 타깃 분자가 위치하는 3D 좌표계의 원점임 ―;
    상기 적어도 하나의 부위 각각의 3D 좌표, 상기 제1 타깃점의 3D 좌표, 및 상기 제2 타깃점의 3D 좌표에 기초하여 상기 적어도 하나의 부위 각각의 3D 좌표에서 회전 불변 위치 특징(rotation-invariant location feature)을 추출하는 단계 ― 상기 회전 불변 위치 특징은 상기 타깃 분자의 상기 적어도 하나의 부위 각각의 위치 정보를 지시하는 데 사용됨 ―;
    부위 검출 모델을 호출하여 상기 추출된 회전 불변 위치 특징에 대한 예측 처리를 수행함으로써, 상기 적어도 하나의 부위 각각의 예측 확률(prediction probability)을 획득하는 단계 ― 각각의 예측 확률은 상기 적어도 하나의 부위 각각이 결합 부위일 확률을 지시함 ―; 및
    상기 적어도 하나의 부위 각각의 예측 확률에 기초하여 상기 타깃 분자의 상기 적어도 하나의 부위로부터 결합 부위를 결정하는 단계
    를 포함하고,
    상기 적어도 하나의 부위 각각의 3D 좌표에서 회전 불변 위치 특징을 추출하는 단계는,
    상기 적어도 하나의 부위 각각의 3D 좌표, 상기 제1 타깃점의 3D 좌표, 및 상기 제2 타깃점의 3D 좌표에 기초하여, 상기 적어도 하나의 부위 각각의 글로벌 위치 특징(global location feature)을 구성하는 단계 ― 상기 글로벌 위치 특징은 상기 타깃 분자에서의 상기 부위의 공간 위치 정보를 지시하는 데 사용됨 ―;
    상기 적어도 하나의 부위 각각의 3D 좌표, 상기 제1 타깃점의 3D 좌표, 상기 제2 타깃점의 3D 좌표, 및 상기 부위의 적어도 하나의 이웃 점(neighborhood point)의 3D 좌표에 기초하여, 상기 부위와 상기 적어도 하나의 이웃 점 사이의 적어도 하나의 로컬 위치 특징(local location feature)을 구성하는 단계 ― 상기 적어도 하나의 로컬 위치 특징은 상기 적어도 하나의 부위 각각과 상기 적어도 하나의 이웃 점 사이의 상대 위치 정보를 지시하는 데 사용됨 ―; 및
    상기 글로벌 위치 특징 및 상기 적어도 하나의 로컬 위치 특징에 기초하여 상기 적어도 하나의 부위 각각의 위치 특징을 획득하는 단계
    를 포함하는, 방법.
  2. 제1항에 있어서,
    상기 글로벌 위치 특징은 상기 적어도 하나의 부위 각각의 크기, 상기 적어도 하나의 부위 각각과 상기 제1 타깃점 간의 거리, 상기 제1 타깃점과 상기 제2 타깃점 간의 거리, 제1 각도의 코사인 값, 또는 제2 각도의 코사인 값 중 적어도 하나를 포함하고,
    상기 제1 각도는 제1 선분과 제2 선분 사이에 형성된 각도이고, 상기 제2 각도는 상기 제2 선분과 제3 선분 사이에 형성된 각도이며,
    상기 제1 선분은 상기 적어도 하나의 부위 각각과 상기 제1 타깃점 사이에 형성된 선분이고, 상기 제2 선분은 상기 제1 타깃점과 상기 제2 타깃점 사이에 형성된 선분이고, 상기 제3 선분은 상기 적어도 하나의 부위 각각과 상기 제2 타깃점 사이에 형성된 선분인,
    방법.
  3. 제1항에 있어서,
    상기 적어도 하나의 이웃 점 중 임의의 이웃 점에 대해, 상기 적어도 하나의 부위 각각과 상기 이웃 점 사이의 로컬 위치 특징은 상기 이웃 점과 상기 부위 간의 거리, 상기 이웃 점과 상기 제1 타깃점 간의 거리, 상기 이웃 점과 상기 제2 타깃점 간의 거리, 제3 각도의 코사인 값, 제4 각도의 코사인 값, 또는 제5 각도의 코사인 값 중 적어도 하나를 포함하고,
    상기 제3 각도는 제4 선분과 제5 선분 사이에 형성된 각도이고, 상기 제4 각도는 상기 제5 선분과 제6 선분 사이에 형성된 각도이고, 상기 제5 각도는 상기 제6 선분과 상기 제4 선분 사이에 형성된 각도이며,
    상기 제4 선분은 상기 이웃 점과 상기 적어도 하나의 부위 각각 사이에 형성된 선분이고, 상기 제5 선분은 상기 이웃 점과 상기 제1 타깃점 사이에 형성된 선분이고, 상기 제6 선분은 상기 이웃 점과 상기 제2 타깃점 사이에 형성된 선분인,
    방법.
  4. 제1항에 있어서,
    상기 부위 검출 모델은 그래프 컨볼루션 네트워크(GCN: graph convolutional network)이고, 상기 GCN은 입력 계층, 적어도 하나의 에지 컨볼루션 계층 및 출력 계층을 포함하고,
    상기 부위 검출 모델을 호출하여 상기 추출된 회전 불변 위치 특징에 대한 예측 처리를 수행함으로써, 상기 적어도 하나의 부위 각각의 예측 확률을 획득하는 단계는,
    상기 적어도 하나의 부위 각각의 위치 특징을 상기 GCN의 입력 계층에 입력하고, 상기 입력 계층을 사용함으로써 상기 적어도 하나의 부위 각각의 그래프 데이터를 출력하는 단계 ― 상기 그래프 데이터는 상기 적어도 하나의 부위 각각의 위치 특징을 그래프의 형태로 지시하는 데 사용됨 ―;
    상기 적어도 하나의 부위 각각의 그래프 데이터를 상기 GCN의 적어도 하나의 에지 컨볼루션 계층에 입력하고, 상기 적어도 하나의 에지 컨볼루션 계층을 사용함으로써 상기 적어도 하나의 부위 각각의 그래프 데이터에 대해 특징 추출을 수행하여, 상기 적어도 하나의 부위 각각의 글로벌 생물학적 특징(global biological feature)을 획득하는 단계 ; 및
    상기 글로벌 생물학적 특징, 상기 적어도 하나의 부위 각각의 그래프 데이터, 및 상기 적어도 하나의 에지 컨볼루션 계층에 의해 출력된 에지 컨볼루션 특징을 융합하여 융합된 특징을 획득하는 단계; 및
    상기 융합된 특징을 상기 GCN의 출력 계층에 입력하고, 상기 출력 계층을 사용함으로써, 상기 융합된 특징에 대해 확률 맞춤(probability fitting)을 수행하여 상기 예측 확률을 획득하는 단계
    를 포함하는, 방법.
  5. 제4항에 있어서,
    상기 적어도 하나의 부위 각각의 위치 특징을 상기 GCN의 입력 계층에 입력하고, 상기 입력 계층을 사용함으로써 상기 적어도 하나의 부위 각각의 그래프 데이터를 출력하는 단계는,
    상기 적어도 하나의 부위 각각의 위치 특징을 상기 입력 계층의 다층 퍼셉트론(MLP: multilayer perceptron)에 입력하고, 상기 MLP를 사용함으로써 상기 적어도 하나의 부위 각각의 위치 특징을 매핑하여 상기 적어도 하나의 부위 각각의 제1 특징을 획득하는 단계 ― 상기 제1 특징의 차원량(dimension quantity)은 상기 위치 특징의 차원량보다 많음 ―; 및
    상기 적어도 하나의 부위 각각의 제1 특징을 상기 입력 계층의 풀링 계층(pooling layer)에 입력하고, 상기 풀링 계층을 사용함으로써 상기 적어도 하나의 부위 각각의 제1 특징에 대한 차원 감소를 수행하여 상기 적어도 하나의 부위 각각의 그래프 데이터를 획득하는 단계
    를 포함하는, 방법.
  6. 제4항에 있어서,
    상기 적어도 하나의 에지 컨볼루션 계층을 사용함으로써 상기 적어도 하나의 부위 각각의 그래프 데이터에 대해 특징 추출을 수행하여, 상기 적어도 하나의 부위 각각의 글로벌 생물학적 특징을 획득하는 단계는,
    상기 적어도 하나의 에지 컨볼루션 계층의 각각의 에지 컨볼루션 계층에 대해, 이전 에지 컨볼루션 계층에 의해 출력된 에지 컨볼루션 특징에 대한 특징 추출을 수행하여 추출된 에지 컨볼루션 특징을 획득하고, 상기 추출된 에지 컨볼루션 특징을 다음 에지 컨볼루션 계층에 입력하는 단계;
    상기 적어도 하나의 부위 각각의 그래프 데이터와 상기 적어도 하나의 에지 컨볼루션 계층에 의해 출력된 적어도 하나의 에지 컨볼루션 특징을 연쇄(concatenating)시켜 제2 특징을 획득하는 단계;
    상기 제2 특징을 다층 퍼셉트론(MLP)에 입력하고, 상기 MLP를 사용함으로써 상기 제2 특징을 매핑하여 제3 특징을 획득하는 단계; 및
    상기 제3 특징을 풀링 계층에 입력하고, 상기 풀링 계층을 사용함으로써 상기 제3 특징에 대해 차원 감소를 수행하여, 상기 글로벌 생물학적 특징을 획득하는 단계
    를 포함하는, 방법.
  7. 제6항에 있어서,
    상기 적어도 하나의 에지 컨볼루션 계층의 각각의 에지 컨볼루션 계층에 대해, 이전 에지 컨볼루션 계층에 의해 출력된 에지 컨볼루션 특징에 대한 특징 추출을 수행하여 추출된 에지 컨볼루션 특징을 획득하고, 상기 추출된 에지 컨볼루션 특징을 다음 에지 컨볼루션 계층에 입력하는 단계는:
    상기 이전 에지 컨볼루션 계층에 의해 출력된 에지 컨볼루션 특징에 기반하여 상기 적어도 하나의 에지 컨볼루션 계층 중 각각의 에지 컨볼루션 계층에 대한 클러스터 맵을 구성하는 단계;
    상기 에지 컨볼루션 계층의 MLP에 상기 클러스터 맵을 입력하고, 상기 MLP를 사용함으로써 상기 클러스터 맵을 매핑하여 상기 클러스터 맵의 중간 특징을 획득하는 단계; 및
    상기 에지 컨볼루션 계층의 풀링 계층에 상기 중간 특징을 입력하고, 상기 풀링 계층을 사용함으로써 상기 중간 특징에 대해 차원 감소를 수행하고, 상기 차원 감소된 중간 특징을 상기 다음 에지 컨볼루션 계층에 입력하는 단계
    를 포함하는, 방법.
  8. 제4항에 있어서,
    상기 융합된 특징을 상기 GCN의 출력 계층에 입력하고, 상기 출력 계층을 사용함으로써, 상기 융합된 특징에 대해 확률 맞춤을 수행하여 상기 예측 확률을 획득하는 단계는,
    상기 융합된 특징을 상기 출력 계층의 다층 퍼셉트론(MLP)에 입력하고, 상기 MLP를 사용함으로써 상기 융합된 특징을 매핑하여 상기 예측 확률을 획득하는 단계를 포함하는, 방법.
  9. 제1항에 있어서,
    상기 적어도 하나의 부위 각각의 예측 확률에 기초하여 상기 타깃 분자의 상기 적어도 하나의 부위로부터 결합 부위를 결정하는 단계는,
    상기 적어도 하나의 부위로부터 확률 임계치보다 더 큰 예측 확률을 갖는 부위를 상기 결합 부위로서 결정하는 단계를 포함하는, 방법.
  10. 분자 결합 부위를 검출하기 위한 장치로서,
    검출 대상인 타깃 분자에서 적어도 하나의 부위의 3차원(3D) 좌표를 획득하도록 구성된 획득 모듈 ― 상기 타깃 분자는 검출 대상인 결합 부위를 갖는 화학 분자임 ―;
    상기 적어도 하나의 부위 각각에 대해:
    제1 타깃점 및 제2 타깃점을 결정하도록 구성된 제1 결정 모듈 ― 상기 제1 타깃점은 구형 공간 내의 모든 부위들의 중심점이고, 상기 구형 공간은 구의 중심으로서 상기 적어도 하나의 부위 각각을 그리고 반경으로서 타깃 길이를 갖는 구형 공간이며, 상기 제2 타깃점은 원점에서 시작하여 상기 적어도 하나의 부위 각각을 가리키는 벡터의 전방 연장선과 상기 구형 공간의 외측 표면 사이의 교점이고, 상기 원점은 상기 타깃 분자가 위치하는 3D 좌표계의 원점임 ―;
    상기 적어도 하나의 부위 각각의 3D 좌표, 상기 제1 타깃점의 3D 좌표, 및 상기 제2 타깃점의 3D 좌표에 기초하여 상기 적어도 하나의 부위 각각의 3D 좌표에서 회전 불변 위치 특징을 추출하도록 구성된 추출 모듈 ― 상기 회전 불변 위치 특징은 상기 타깃 분자의 상기 적어도 하나의 부위 각각의 위치 정보를 지시하는 데 사용됨 ―;
    부위 검출 모델을 호출하여 상기 추출된 회전 불변 위치 특징에 대한 예측을 수행함으로써 상기 적어도 하나의 부위 각각의 예측 확률을 획득하도록 구성된 예측 모듈 ― 각각의 예측 확률은 상기 적어도 하나의 부위 각각이 결합 부위일 확률을 지시함 ―; 및
    상기 적어도 하나의 부위 각각의 예측 확률에 기초하여 상기 타깃 분자의 상기 적어도 하나의 부위로부터 결합 부위를 결정하도록 구성된 제2 결정 모듈
    을 포함하고,
    상기 추출 모듈은,
    상기 적어도 하나의 부위 각각의 3D 좌표, 상기 제1 타깃점의 3D 좌표 및 상기 제2 타깃점의 3D 좌표에 기초하여 상기 적어도 하나의 부위 각각의 글로벌 위치 특징을 구성하고 ― 상기 글로벌 위치 특징은 상기 타깃 분자의 부위의 공간 위치 정보를 지시하는 데 사용됨 ―;
    상기 적어도 하나의 부위 각각의 3D 좌표, 상기 제1 타깃점의 3D 좌표, 상기 제2 타깃점의 3D 좌표 및 상기 부위의 적어도 하나의 이웃 점의 3D 좌표에 기초하여, 상기 부위와 상기 적어도 하나의 이웃 점 사이의 적어도 하나의 로컬 위치 특징을 구성하며 ― 상기 적어도 하나의 로컬 위치 특징은 상기 적어도 하나의 부위 각각과 상기 적어도 하나의 이웃 점 사이의 상대 위치 정보를 지시하는 데 사용됨 ―;
    상기 글로벌 위치 특징 및 상기 적어도 하나의 로컬 위치 특징에 기초하여 상기 적어도 하나의 부위 각각의 위치 특징을 획득하도록 구성되는, 장치.
  11. 하나 이상의 프로세서들 및 하나 이상의 메모리들을 포함하는 전자 디바이스로서,
    상기 하나 이상의 메모리들은 적어도 하나의 프로그램 코드를 저장하고,
    상기 적어도 하나의 프로그램 코드는 제1항 내지 제9항 중 어느 한 항에 따른 분자 결합 부위를 검출하기 위한 방법을 구현하도록 상기 하나 이상의 프로세서들에 의해 로딩되어 실행되는,
    전자 디바이스.
  12. 적어도 하나의 프로그램 코드를 저장하는 컴퓨터 판독 가능 저장 매체로서,
    상기 적어도 하나의 프로그램 코드는 제1항 내지 제9항 중 어느 한 항에 따른 분자 결합 부위를 검출하기 위한 방법을 구현하도록 프로세서에 의해 로딩되어 실행되는,
    컴퓨터 판독 가능 저장 매체.
  13. 삭제
  14. 삭제
  15. 삭제
KR1020217028480A 2020-04-09 2021-02-26 분자 결합 부위를 검출하기 위한 방법 및 장치, 전자 디바이스 및 저장 매체 KR102635777B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010272124.0A CN111243668B (zh) 2020-04-09 2020-04-09 分子结合位点检测方法、装置、电子设备及存储介质
CN202010272124.0 2020-04-09
PCT/CN2021/078263 WO2021203865A1 (zh) 2020-04-09 2021-02-26 分子结合位点检测方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
KR20210126646A KR20210126646A (ko) 2021-10-20
KR102635777B1 true KR102635777B1 (ko) 2024-02-08

Family

ID=70864447

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217028480A KR102635777B1 (ko) 2020-04-09 2021-02-26 분자 결합 부위를 검출하기 위한 방법 및 장치, 전자 디바이스 및 저장 매체

Country Status (6)

Country Link
US (1) US20220059186A1 (ko)
EP (1) EP3920188A4 (ko)
JP (1) JP7246813B2 (ko)
KR (1) KR102635777B1 (ko)
CN (1) CN111243668B (ko)
WO (1) WO2021203865A1 (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111243668B (zh) * 2020-04-09 2020-08-07 腾讯科技(深圳)有限公司 分子结合位点检测方法、装置、电子设备及存储介质
CN111755065B (zh) * 2020-06-15 2024-05-17 重庆邮电大学 一种基于虚拟网络映射和云并行计算的蛋白质构象预测加速方法
RU2743316C1 (ru) * 2020-08-14 2021-02-17 Автономная некоммерческая образовательная организация высшего образования Сколковский институт науки и технологий Способ идентификации участков связывания белковых комплексов
CN114120006B (zh) * 2020-08-28 2024-02-06 腾讯科技(深圳)有限公司 图像处理方法、装置、电子设备和计算机可读存储介质
US11860977B1 (en) * 2021-05-04 2024-01-02 Amazon Technologies, Inc. Hierarchical graph neural networks for visual clustering
CN113593634B (zh) * 2021-08-06 2022-03-11 中国海洋大学 一种融合dna形状特征的转录因子结合位点预测方法
CN114066888B (zh) * 2022-01-11 2022-04-19 浙江大学 一种血流动力学指标确定方法、装置、设备及存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SG11201508165VA (en) * 2013-04-29 2015-11-27 Sloan Kettering Inst Cancer Compositions and methods for altering second messenger signaling
JP7048065B2 (ja) 2017-08-02 2022-04-05 学校法人立命館 結合性予測方法、装置、プログラム、記録媒体、および機械学習アルゴリズムの学習方法
CN108875298B (zh) * 2018-06-07 2019-06-07 北京计算科学研究中心 基于分子形状匹配的药物筛选方法
US11830582B2 (en) * 2018-06-14 2023-11-28 University Of Miami Methods of designing novel antibody mimetics for use in detecting antigens and as therapeutic agents
CN109637596B (zh) * 2018-12-18 2023-05-16 广州市爱菩新医药科技有限公司 一种药物靶点预测方法
CN109887541A (zh) * 2019-02-15 2019-06-14 张海平 一种靶点蛋白质与小分子结合预测方法及系统
CN110544506B (zh) * 2019-08-27 2022-02-11 上海源兹生物科技有限公司 基于蛋白互作网络的靶点PPIs可药性预测方法及装置
CN110706738B (zh) * 2019-10-30 2020-11-20 腾讯科技(深圳)有限公司 蛋白质的结构信息预测方法、装置、设备及存储介质
CN110910951B (zh) * 2019-11-19 2023-07-07 江苏理工学院 一种基于渐进式神经网络预测蛋白质与配体结合自由能的方法
CN111243668B (zh) * 2020-04-09 2020-08-07 腾讯科技(深圳)有限公司 分子结合位点检测方法、装置、电子设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
G. Patrick Brady Jr. et al., Fast prediction and visualization of protein binding pockets with PASS, J. Comput. Aided Mol. Des. Vol.14, pp383-401(2000)*
M. Sun et al., Graph convolutional networks for computational drug development and discovery, Brief. Bioinform. Vol.21, pp919-935(2019.06.03.)*
R. Krivak et al., P2RANK: Knowledge-Based Ligand Binding Site Prediction Using Aggregated Local Features, AlCob 2015, LNBI 9199, pp41-52(2015)*

Also Published As

Publication number Publication date
EP3920188A4 (en) 2022-06-15
WO2021203865A9 (zh) 2021-11-25
JP2022532009A (ja) 2022-07-13
EP3920188A1 (en) 2021-12-08
CN111243668B (zh) 2020-08-07
CN111243668A (zh) 2020-06-05
WO2021203865A1 (zh) 2021-10-14
KR20210126646A (ko) 2021-10-20
JP7246813B2 (ja) 2023-03-28
US20220059186A1 (en) 2022-02-24

Similar Documents

Publication Publication Date Title
KR102635777B1 (ko) 분자 결합 부위를 검출하기 위한 방법 및 장치, 전자 디바이스 및 저장 매체
US11481656B2 (en) Method and apparatus for evaluating a matching degree of multi-domain information based on artificial intelligence, device and medium
CN111797893B (zh) 一种神经网络的训练方法、图像分类系统及相关设备
CN113449857B (zh) 一种数据处理方法和数据处理设备
US11367271B2 (en) Similarity propagation for one-shot and few-shot image segmentation
US20220414911A1 (en) Three-dimensional reconstruction method and three-dimensional reconstruction apparatus
JP2023516674A (ja) 屋内場面の3d走査からの効率的間取図生成のためのシステムおよび方法
US20220262162A1 (en) Face detection method, apparatus, and device, and training method, apparatus, and device for image detection neural network
CN111401406B (zh) 一种神经网络训练方法、视频帧处理方法以及相关设备
US11144291B1 (en) Loop-oriented neural network compilation
CN113449859A (zh) 一种数据处理方法及其装置
CN111368656A (zh) 一种视频内容描述方法和视频内容描述装置
CN111091010A (zh) 相似度确定、网络训练、查找方法及装置和存储介质
WO2021141726A1 (en) Radioactive data generation
WO2023165361A1 (zh) 一种数据处理方法及相关设备
CN115222896B (zh) 三维重建方法、装置、电子设备及计算机可读存储介质
CN111860484B (zh) 一种区域标注方法、装置、设备及存储介质
CN112419326A (zh) 图像分割数据处理方法、装置、设备及存储介质
CN114298122A (zh) 数据分类方法、装置、设备、存储介质及计算机程序产品
Liu et al. BEACon: a boundary embedded attentional convolution network for point cloud instance segmentation
CN113569607A (zh) 动作识别方法、装置、设备以及存储介质
Zhang et al. Hybrid feature CNN model for point cloud classification and segmentation
CN112115744A (zh) 点云数据的处理方法及装置、计算机存储介质、电子设备
WO2021136058A1 (zh) 一种处理视频的方法及装置
Tian et al. A fast incremental map segmentation algorithm based on spectral clustering and quadtree

Legal Events

Date Code Title Description
A201 Request for examination
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant