KR102220653B1 - 심화 학습 기반의 약물-표적 단백질 간 상호작용 예측 시스템 및 그 방법 - Google Patents
심화 학습 기반의 약물-표적 단백질 간 상호작용 예측 시스템 및 그 방법 Download PDFInfo
- Publication number
- KR102220653B1 KR102220653B1 KR1020180130090A KR20180130090A KR102220653B1 KR 102220653 B1 KR102220653 B1 KR 102220653B1 KR 1020180130090 A KR1020180130090 A KR 1020180130090A KR 20180130090 A KR20180130090 A KR 20180130090A KR 102220653 B1 KR102220653 B1 KR 102220653B1
- Authority
- KR
- South Korea
- Prior art keywords
- drug
- protein
- data set
- layer
- interaction prediction
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
Landscapes
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Chemical & Material Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Physics & Mathematics (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
약물-표적 단백질 간 상호작용 예측 시스템 및 그 방법에 관한 것으로, 일실시예에 따른 약물-표적 단백질 간의 상호작용 예측 시스템은 단백질 데이터 집합 및 약물 데이터 집합을 수신하는 데이터 수신부와, 단백질 데이터 집합 및 약물 데이터 집합을 벡터화하는 데이터 벡터화부 및 벡터화된 단백질 데이터 집합 및 벡터화된 약물 데이터 집합을 입력으로 기계 학습하여 인공 신경망 기반의 상호작용 예측 모델을 생성하는 모델 생성부를 포함할 수 있다.
Description
약물-표적 단백질 간 상호작용 예측 시스템 및 그 방법에 관한 것으로, 보다 상세하게는 심화 학습을 이용하여 약물-표적 단백질 간의 상호작용을 예측하는 기술적 사상에 관한 것이다.
현재 표적 단백질을 조절할 수 있는 약물의 도출 과정은 신약 개발 프로세스의 핵심 과정이라 할 수 있으며, 대학 및 제약 회사에 소속된 다양한 연구기관들에 의해 연구가 진행되고 있다.
구체적으로, 인간의 삶의 질을 향상 시키고 높은 부가가치를 창출하는 신약 개발 분야에서 신약 개발을 위해 일반적으로 수행하는 프로세스는 '질병을 야기하는 단백질의 추출 단계', '추출된 단백질을 조절할 수 있는 약물의 도출 단계', '도출된 약물 안정화 및 최적화 단계'를 포함할 수 있다.
여기서, '질병을 야기하는 단백질의 추출 단계'는 약물-표적 단백질의 상호작용 여부의 예측 단계라 할 수 있으며, 실제 약물들을 기반으로 실험을 진행할 경우, 높은 비용(시간, 장비 및 인력)이 소모되는 단계이다.
따라서, 다수의 연구자들은 전술한 상호작용 여부의 예측 단계를 인실리코(In-silico) 기반의 가상 선별로 대체하고자 하였으며, 여기서 가상 선별이란, 약물-표적 단백질 간의 상호작용에 대한 수학적 모델을 통해 실제 실험과 유사한 결과를 도출하는 방식을 의미한다.
그러나, 현재 사용되는 상호작용 예측 기술은 단백질 및 약물의 속성 중 도메인 전문가의 선험적 경험에 기반하여 일부분만을 발췌하여 예측 모델의 입력 데이터로 활용하였고, 예측 모델을 위한 신경망의 구조가 일괄된 통합 레이어로 구성되어 있으며, 약물만의 특성을 학습에 반영하는 형식을 취하는 경우가 대부분이다.
다시 말해, 종래의 상호작용 예측 기술은 도메인 전문가의 한정된 지식에 의존하여, 단백질 및 약물 속성의 일부분만을 활용함으로써, 단백질 및 약물의 주요한 특성이 누락되는 문제가 발생될 수 있다.
또한, 종래의 상호작용 예측 기술은 통합 레이어 집합으로 구성된 인공 신경망 구조를 활용하고, 약물의 특성만을 고려하여 고정된 단백질 집합에 대해서만 동작하는 예측 모델을 사용함으로써, 입력 데이터의 표현력에 의한 간섭에 영향을 받는 문제가 발생될 수 있다.
본 발명은 제약 분야 및 의생물학 분야 전문가의 개입을 일체 배제하고, 단백질의 시퀀스 정보와 약물의 구조 정보를 모두 반영하는 상호작용 예측 모델을 통해, 약물-표적 단백질의 상호작용에 주요한 영향을 끼치는 다수의 특질들을 보다 정확하고 용이하게 추출할 수 있는 상호작용 예측 시스템 및 그 방법을 제공하고자 한다.
또한, 본 발명은 분할된 레이어를 인공 신경망의 전방 레이어에 위치시키고 후방 레이어를 통해 통합하는 상호작용 예측 모델을 통해, 입력 데이터의 표현력에 의한 간섭을 축소시키며 약물-표적 단백질의 상호작용에 주요한 영향을 끼치는 특질을 각 개체 별로 추출할 수 있는 상호작용 예측 시스템 및 그 방법을 제공하고자 한다.
또한, 본 발명은 약물 및 단백질의 쌍(Pair)을 입력으로 취함으로써, 두 종류의 개체 속성들을 모두 반영할 수 있는 상호작용 예측 시스템 및 그 방법을 제공하고자 한다.
본 발명의 일실시예에 따른 약물-표적 단백질 간의 상호작용 예측 시스템은 단백질 데이터 집합 및 약물 데이터 집합을 수신하는 데이터 수신부와, 단백질 데이터 집합 및 약물 데이터 집합을 벡터화하는 데이터 벡터화부 및 벡터화된 단백질 데이터 집합 및 벡터화된 약물 데이터 집합을 입력으로 기계 학습하여 인공 신경망 기반의 상호작용 예측 모델을 생성하는 모델 생성부를 포함할 수 있다.
일측에 따르면, 데이터 수신부는 적어도 하나 이상의 약물 및 단백질 쌍(Pair)에 관한 정보를 수신할 수 있다.
일측에 따르면, 약물-표적 단백질 간의 상호작용 예측 시스템은 상호작용 예측 모델에 기초하여 적어도 하나 이상의 약물 및 단백질 쌍에 관한 정보에 포함된 특정 약물 및 특정 단백질간의 상호작용을 예측하는 상호작용 예측부를 더 포함할 수 있다.
일측에 따르면, 단백질 데이터 집합은 적어도 하나 이상의 단백질 각각의 아미노산 서열 정보를 포함하고, 약물 데이터 집합은 적어도 하나 이상의 약물 각각의 화학 구조식 정보를 포함할 수 있다.
일측에 따르면, 데이터 벡터화부는 Skip-Gram 모델을 이용하여 단백질 데이터 집합을 벡터화할 수 있다.
일측에 따르면, 데이터 벡터화부는 ECFPs(Extended-Connectivity Fingerprints) 기법을 이용하여 약물 데이터 집합을 벡터화할 수 있다.
일측에 따르면, 상호작용 예측 모델은 벡터화된 단백질 데이터 집합을 통해 형성되는 제1 분할 레이어, 벡터화된 약물 데이터 집합을 통해 형성되는 제2 분할 레이어, 제1 분할 레이어에 구비된 복수의 단백질 노드간의 엣지 설계를 통하여 형성되는 N개(여기서, N은 자연수)의 단백질 히든 레이어 및 제2 분할 레이어에 구비된 복수의 약물 노드간의 엣지 설계를 통하여 형성되는 N개의 약물 히든 레이어를 포함할 수 있다.
또한, 상호작용 예측 모델은 N개의 단백질 히든 레이어 및 N개의 약물 히든 레이어 중에서 N번째 단백질 히든 레이어에 구비된 복수의 단백질 노드 및 N번째 약물 히든 레이어에 구비된 복수의 약물 노드를 통해 형성되는 통합 레이어를 더 포함할 수 있다.
본 발명의 일실시예에 따른 약물-표적 단백질 간의 상호작용 예측 방법은 데이터 수신부에서 단백질 데이터 집합 및 약물 데이터 집합을 수신하는 단계와, 데이터 벡터화부에서 단백질 데이터 집합 및 약물 데이터 집합을 벡터화하는 단계 및 모델 생성부에서 벡터화된 단백질 데이터 집합 및 벡터화된 약물 데이터 집합을 입력으로 기계 학습 하여 인공 신경망 기반의 상호작용 예측 모델을 생성하는 단계를 포함할 수 있다.
일측에 따르면, 약물-표적 단백질 간의 상호작용 예측 방법은 데이터 수신부에서 적어도 하나 이상의 약물 및 단백질 쌍(Pair)에 관한 정보를 수신하는 단계 및 상호작용 예측부에서 상호작용 예측 모델에 기초하여 적어도 하나 이상의 약물 및 단백질 쌍에 관한 정보에 포함된 특정 약물 및 특정 단백질간의 상호작용을 예측하는 단계를 더 포함할 수 있다.
일측에 따르면, 벡터화하는 단계는 데이터 벡터화부에서 Skip-Gram 모델을 이용하여 단백질 데이터 집합을 벡터화할 수 있다.
일측에 따르면, 벡터화하는 단계는 데이터 벡터화부에서 ECFPs(Extended-Connectivity Fingerprints) 기법을 이용하여 약물 데이터 집합을 벡터화할 수 있다.
일측에 따르면, 상호작용 예측 모델은 벡터화된 단백질 데이터 집합을 통해 형성되는 제1 분할 레이어, 벡터화된 약물 데이터 집합을 통해 형성되는 제2 분할 레이어, 제1 분할 레이어에 구비된 복수의 단백질 노드간의 엣지 설계를 통하여 형성되는 N개(여기서, N은 자연수)의 단백질 히든 레이어 및 제2 분할 레이어에 구비된 복수의 약물 노드간의 엣지 설계를 통하여 형성되는 N개의 약물 히든 레이어를 포함할 수 있다.
또한, 상호작용 예측 모델은 N개의 단백질 히든 레이어 및 N개의 약물 히든 레이어 중에서 N번째 단백질 히든 레이어에 구비된 복수의 단백질 노드 및 N번째 약물 히든 레이어에 구비된 복수의 약물 노드를 통해 형성되는 통합 레이어를 더 포함할 수 있다.
일실시예에 따르면, 제약 분야 및 의생물학 분야 전문가의 개입을 일체 배제하고 단백질의 시퀀스 정보와 약물의 구조 정보를 모두 반영하는 상호작용 예측 모델을 통해, 약물-표적 단백질의 상호작용에 주요한 영향을 끼치는 다수의 특질들을 보다 정확하고 용이하게 추출할 수 있다.
일실시예에 따르면, 분할된 레이어를 인공 신경망의 전방 레이어에 위치시키고 후방 레이어를 통해 통합하는 상호작용 예측 모델을 통해, 입력 데이터의 표현력에 의한 간섭을 축소시키며 약물-표적 단백질의 상호작용에 주요한 영향을 끼치는 특질을 각 개체 별로 추출할 수 있다.
일실시예에 따르면, 약물 및 단백질의 쌍(Pair)을 입력으로 취함으로써, 두 종류의 개체 속성들을 모두 반영할 수 있다.
도 1은 일실시예에 따른 상호작용 예측 시스템을 설명하기 위한 도면이다.
도 2는 일실시예에 따른 상호작용 예측 모델의 구현예를 설명하기 위한 도면이다.
도 3은 일실시예에 따른 상호작용 예측 방법을 설명하기 위한 도면이다.
도 4는 다른 실시예에 따른 상호작용 예측 방법을 설명하기 위한 도면이다.
도 2는 일실시예에 따른 상호작용 예측 모델의 구현예를 설명하기 위한 도면이다.
도 3은 일실시예에 따른 상호작용 예측 방법을 설명하기 위한 도면이다.
도 4는 다른 실시예에 따른 상호작용 예측 방법을 설명하기 위한 도면이다.
이하, 본 문서의 다양한 실시 예들이 첨부된 도면을 참조하여 기재된다.
실시 예 및 이에 사용된 용어들은 본 문서에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 해당 실시 예의 다양한 변경, 균등물, 및/또는 대체물을 포함하는 것으로 이해되어야 한다.
하기에서 다양한 실시 예들을 설명에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다.
그리고 후술되는 용어들은 다양한 실시 예들에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다.
본 문서에서, "A 또는 B" 또는 "A 및/또는 B 중 적어도 하나" 등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다.
"제1," "제2," "첫째," 또는 "둘째," 등의 표현들은 해당 구성요소들을, 순서 또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다.
어떤(예: 제1) 구성요소가 다른(예: 제2) 구성요소에 "(기능적으로 또는 통신적으로) 연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다.
본 명세서에서, "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, 하드웨어적 또는 소프트웨어적으로 "~에 적합한," "~하는 능력을 가지는," "~하도록 변경된," "~하도록 만들어진," "~를 할 수 있는," 또는 "~하도록 설계된"과 상호 호환적으로(interchangeably) 사용될 수 있다.
어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다.
예를 들면, 문구 "A, B, 및 C를 수행하도록 구성된(또는 설정된) 프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(예: CPU 또는 application processor)를 의미할 수 있다.
또한, '또는' 이라는 용어는 배타적 논리합 'exclusive or' 이기보다는 포함적인 논리합 'inclusive or' 를 의미한다.
즉, 달리 언급되지 않는 한 또는 문맥으로부터 명확하지 않는 한, 'x가 a 또는 b를 이용한다' 라는 표현은 포함적인 자연 순열들(natural inclusive permutations) 중 어느 하나를 의미한다.
상술한 구체적인 실시 예들에서, 발명에 포함되는 구성 요소는 제시된 구체적인 실시 예에 따라 단수 또는 복수로 표현되었다.
그러나, 단수 또는 복수의 표현은 설명의 편의를 위해 제시한 상황에 적합하게 선택된 것으로서, 상술한 실시 예들이 단수 또는 복수의 구성 요소에 제한되는 것은 아니며, 복수로 표현된 구성 요소라 하더라도 단수로 구성되거나, 단수로 표현된 구성 요소라 하더라도 복수로 구성될 수 있다.
한편 발명의 설명에서는 구체적인 실시 예에 관해 설명하였으나, 다양한 실시 예들이 내포하는 기술적 사상의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다.
그러므로 본 발명의 범위는 설명된 실시 예에 국한되어 정해져서는 아니되며 후술하는 청구범위뿐만 아니라 이 청구범위와 균등한 것들에 의해 정해져야 한다.
도 1은 일실시예에 따른 상호작용 예측 시스템을 설명하기 위한 도면이다.
도 1을 참조하면, 일실시예에 따른 상호작용 예측 시스템(100)은 전문가의 개입을 일체 배제하고 단백질의 시퀀스 정보와 약물의 구조 정보를 모두 반영하는 상호작용 예측 모델을 통해, 약물-단백질 간의 상호작용에 주요한 영향을 끼치는 다수의 특질들을 보다 정확하고 용이하게 추출할 수 있다.
또한, 분할된 레이어를 인공 신경망의 전방 레이어에 위치시키고 후방 레이어를 통해 통합하는 상호작용 예측 모델을 통해, 입력 데이터의 표현력에 의한 간섭을 축소시키고 약물-표적 단백질 상호작용에 주요한 영향을 끼치는 특질을 각 개체 별로 추출할 수 있다.
또한, 약물 및 단백질의 쌍(Pair)을 입력으로 취함으로써, 두 종류의 개체 속성들을 모두 반영할 수 있다.
이를 위해, 상호작용 예측 시스템(100)은 데이터 수신부(110), 데이터 백터화부(120) 및 모델 생성부(130)를 포함할 수 있다.
또한, 상호작용 예측 시스템(100)은 입력 받은 약물 및 단백질 쌍의 상호작용을 예측하는 상호작용 예측부(140)를 더 포함할 수도 있다.
우선, 일실시예에 따른 데이터 수신부(110)는 단백질 데이터 집합 및 약물 데이터 집합을 수신할 수 있다.
예를 들면, 데이터 수신부(110)는 외부에서 사용자가 사용자 단말을 통해 입력하는 단백질 데이터 집합 및 약물 데이터 집합을 수신할 수 있다.
일측에 따르면, 단백질 데이터 집합은 적어도 하나 이상의 단백질 각각의 아미노산 서열 정보를 포함하고, 약물 데이터 집합은 적어도 하나 이상의 약물 각각의 화학 구조식 정보를 포함할 수 있다.
즉, 일실시예에 따른 상호작용 예측 시스템(100)은 단백질의 아미노산 서열 전체 그리고 약물의 화학 구조 전체를 최초 입력으로 취하고, 입력된 데이터에 내제된 단백질 및 약물의 유의미한 특질을 기계가 스스로 학습하게 함으로써, 도메인 전문가의 한정된 지식에 의해 고려되지 않았던 개체들의 정보를 약물-표적 단백질의 상호작용 예측에 활용할 수 있다.
다음으로, 일실시예에 따른 데이터 벡터화부(120)는 데이터 입력부(110)에서 수신한 단백질 데이터 집합 및 약물 데이터 집합을 벡터화할 수 있다.
일측에 따르면, 데이터 벡터화부(120)는 단백질 데이터 집합을 벡터화하는 단백질 벡터화 모듈 및 약물 데이터 집합을 벡터화하는 약물 벡터화 모듈을 더 포함할 수도 있다.
또한, 데이터 벡터화부(120)는 외부로부터 약물-단백질 간의 상호작용에 대한 학습 데이터를 수신할 수 있으며, 수신한 학습 데이터를 통해 단백질 데이터 집합 및 약물 데이터 집합을 각각 벡터화할 수도 있다.
일측에 따르면, 데이터 벡터화부(120)는 Skip-Gram 모델을 이용하여 단백질 데이터 집합을 벡터화할 수 있다.
구체적으로, Skip-Gram 모델은 인공 신경망을 기반으로 하는 자연어 처리를 위해 고안된 모델로써, 단어들이 갖는 의미를 반영하여 각 단어를 좌표 공간에 사상할 수 있다.
여기서, 사상된 단어의 벡터 정보는 특정 단어와 유사한 단어의 추출, 주어진 단어들 중 가장 연관성이 적은 단어의 도출, 특정 단어 집합을 수정하였을 시 도출되는 단어의 추출 등과 같은 다양한 용도로 활용될 수 있다.
보다 구체적인 예를 들면, Skip-Gram 모델은 특정 단어 집합인 {왕, 남성} 단어 집합에서 '남성'이라는 단어를 제외하고 '여성'이라는 단어를 추가하는 수정을 진행하면, '여왕'이라는 단어를 추출할 수 있다.
한편, 단어의 좌표 공간으로의 사상은 단어의 의미를 반영한 벡터화라고도 할 수 있으며, Skip-Gram 모델은 인공 신경망을 활용하여 문장 내에서 특정 단어와 동시에 활용되는 다른 단어들의 분포로써 단어를 벡터화할 수 있다.
즉, 일실시예에 따른 데이터 벡터화부(120)는 Skip-Gram 모델을 활용하여, 단백질의 고유 속성이라 할 수 있는 아미노산 서열에 대해 3가지 아미노산을 하나의 단어로, 아미노산 서열을 문장으로 각각 취급하여, 단백질 데이터 집합을 벡터화할 수 있다.
다시 말해, 일실시예에 따른 데이터 벡터화부(120)는 Skip-Gram 모델을 통한 벡터화를 통해 단백질의 아미노산 서열 특질을 반영한 벡터화 데이터를 생성할 수 있으며, 이를 통해 단백질 데이터 집합을 다양한 기계 학습 및 통계 기법의 입력 요소로 활용할 수 있다.
일측에 따르면, 데이터 벡터화부(120)는 ECFPs(Extended-Connectivity Fingerprints) 기법을 이용하여 약물 데이터 집합을 벡터화할 수 있다.
구체적으로, ECFPs 기법은 분자 구조에 존재하는 비수소 원자에 식별자(ID) 할당하고, 분자 구조에 존재하는 비수소 원자 각각에 대해 해당 원자와 직접적으로 연결된 링크 정보에 식별자 할당하며, 해당 원자를 기준으로 2단계, 4단계, ??, n 단계(여기서, n은 자연수)를 걸쳐 연결된 링크 정보에 대한 식별자를 점진적으로 할당하여 할당된 식별자들의 조합을 통해 최종적으로 특정 약물에 대한 벡터화를 진행하는 기법이라 요약할 수 있다.
즉, 일실시예에 따른 데이터 벡터화부(120)는 전술한 ECFPs 기법을 적용하여 약물 데이터 집합을 벡터화할 수 있다.
보다 구체적으로, 데이터 벡터화부(120)는 약물 데이터 집합에 포함된 약물 각각의 화학적 구조를 반영하여 각 약물 별 이진 벡터를 식별자로 할당함으로써, 단백질을 이루는 비수소 원자 및 원자로부터 n단계 내에 이웃한 원자들을 고려하여, 약물을 화학 구조 기반으로 벡터화할 수 있다.
다시 말해, 일실시예에 따른 데이터 벡터화부(120)는 ECFPs 기법을 적용하여 약물 데이터 집합을 벡터화함으로써, 약물을 좌표 공간으로 사상할 수 있으며, 이를 통해 약물 데이터 집합 역시 기계 학습 및 통계 기법의 입력 요소로 활용할 수 있다.
즉, 본 발명은 단백질 데이터 집합 및 약물 데이터 집합의 벡터화를 통해, 도메인 전문가의 개입을 완벽히 배재하고 순수 데이터 기반으로 상호작용 예측 모델의 입력 값을 생성할 수 있으며, 기계 학습 기반의 상호작용 예측 모델의 자가 학습이 가능하게 하는 주요한 기능을 수행할 수 있다.
또한, 본 발명은 상호작용 예측 모델의 입력을 약물-단백질 쌍(Pair)으로 구성함으로써, 단백질 및 약물의 개체 특성을 모두 반영한 상호작용 예측 모델의 생성을 지원할 수 있다.
다음으로, 일실시예에 따른 모델 생성부(130)는 데이터 벡터화부(120)를 통해 벡터화된 단백질 데이터 집합 및 벡터화된 약물 데이터 집합을 입력으로 기계 학습 하여 인공 신경망 기반의 상호작용 예측 모델을 생성할 수 있다.
일측에 따르면, 상호작용 예측 모델은 벡터화된 단백질 데이터 집합을 통해 형성되는 제1 분할 레이어, 벡터화된 약물 데이터 집합을 통해 형성되는 제2 분할 레이어, 제1 분할 레이어에 구비된 복수의 단백질 노드간의 엣지 설계를 통하여 형성되는 N개(여기서, N은 자연수)의 단백질 히든 레이어 및 제2 분할 레이어에 구비된 복수의 약물 노드간의 엣지 설계를 통하여 형성되는 N개의 약물 히든 레이어를 포함할 수 있다.
또한, 상호작용 예측 모델은 전술한 N개의 단백질 히든 레이어 및 N개의 약물 히든 레이어 중에서 N번째 단백질 히든 레이어에 구비된 복수의 단백질 노드 및 N번째 약물 히든 레이어에 구비된 복수의 약물 노드를 통해 형성되는 통합 레이어를 더 포함할 수 있다.
다시 말해, 일실시예에 따른 상호작용 예측 모델은 전방 레이어들을 약물 및 단백질 레이어가 서로 분할된 형태로 구성하여 각 요소들의 고유 특질을 학습할 수 있도록 설계하고, 통합된 후방 레이어들을 전방 레이어의 산출물인 약물 및 단백질의 특질이 반영된 벡터들을 수신하여 개체들 간의 상호작용을 여부를 예측하는 역할을 담당할 수 있도록 설계할 수 있다.
구체적으로, 약물 및 단백질 간의 상호작용을 예측하기 위한 일반적인 인공 신경망은 하나의 입력 레이어와, 복수 개의 히든 레이어들 그리고 하나의 출력 레이어로 그 구조를 형성하고 있다.
여기서, 하나의 레이어는 복수 개의 노드들로 이루어져 있으며, 입력 레이어, 히든 레이어들 및 출력 레이어 순으로, 각 레이어의 노드들이 순차적인 유방향성 엣지로 연결될 수 있다.
보다 구체적으로, 일반적인 인공 신경망은 입력 레이어로 데이터의 속성 값을 받아 히든 레이어를 통해 속성 값을 연산하고, 최종적으로 출력 레이어의 결과물을 기반으로 하여 입력된 데이터에 대한 예측을 수행할 수 있으며, 이때, 각 노드를 연결하는 엣지의 가중치를 학습 데이터로부터 학습하여 예측 성능을 향상시킬 수 있다.
다시 말해, 일반적인 인공 신경망은 신경망을 이루는 i번째(여기서, i는 자연수)와 i+1번째 레이어에 존재하는 모든 노드들이 엣지로 연결된 통합 레이어로 구성되어 있다.
그러나, 일실시에에 따른 상호작용 예측 모델은 상호작용을 예측하고자 하는 단백질 및 약물의 벡터를 입력하는 입력 레이어에서 임의의 N번째(여기서, N은 자연수) 레이어까지는 분리된 형태의 레이어로 구성할 수 있다.
다시 말해, 상호작용 예측 모델은 최초 N번째 레이어까지는 단백질 히든 레이어에 구비된 단백질 노드 간에만 엣지 설계를 하고, 최초 N번째 레이어까지는 약물 히든 레이어에 구비된 약물 노드 간에만 엣지 설계를 할 수 이다.
또한, 상호작용 예측 모델은 N+1번째 레이어로부터 출력 레이어까지는 통합 레이어로 구성할 수 있다.
즉, 일실시예에 따른 상호작용 예측 모델은 초기 레이어 집합으로부터 N번째 히든 레이어까지는 단백질 개체 및 약물 개체 별 분할 레이어를 구성하고 N+1번째 레이어부터는 통합 레이어로 구성함으로써, 개체를 표현하는 벡터의 표현력으로 인해 발생하는 편향된 특질의 발현을 완화시키고, 개체 간 상호작용에 주요한 요인으로 작용하는 내제된 약물 및 단백질의 특질 추출을 가능하게 하여, 결과적으로 높은 정확도로 약물-단백질 간의 상호작용 예측할 수 있다.
일실시예에 따른 상호작용 예측 모델의 상세한 구조는 이후 실시예 도 2를 통해 보다 구체적으로 설명하기로 한다.
이하에서는, 일실시에에 따른 상호작용 예측 시스템의 실험예에 대하여 설명하기로 한다.
구체적으로, 실험예에서 상호작용 예측 시스템은 PCBA 데이터 집합에 존재하는 약물 4만개의 벡터화를 위해, SMILE 형식으로 기술된 약물의 화학식을 ECFPs 알고리즘의 입력으로 수신하였으며, ECFPs 알고리즘으로부터 추출되는 벡터의 크기는 1,024로 설정 하였다.
한편, 실험예에서 상호작용 예측 시스템은 ECFPs 알고리즘을 구현한 RDKit을 활용하여 약물의 벡터화를 실시하였다.
다음으로, 실험예에서 상호작용 예측 시스템은 Skip-gram 기술을 통해 단백질을 벡터화하기 위해, UniProt에서 제공하는 Swiss Prot 단백질 데이터로부터 총 555,541개의 단백질 서열을 기반으로 단백질 벡터화 모듈을 학습시켰으며, 학습된 모델을 기반으로 상호작용 여부 예측을 하고자 하는 128가지의 표적 단백질을 벡터화하였다.
이를 위해, 실험예에서 상호작용 예측 시스템은 Skip-gram을 지원하는 Gensim 라이브러리를 적용하여, 단백질 벡터화 모듈을 실체화 하였다.
마지막으로, 실험예에서 상호작용 예측 시스템은 단백질 및 약물 간의 상호작용의 예측을 위한 상호작용 예측 모델의 설계 및 학습을 Keras 라이브러리를 활용하여 수행하였고, 상호작용 예측 모델의 분할 레이어 수 및 통합 레이어 수의 다양화를 통해 최적의 예측 모델을 도출할 수 있었다.
한편, 실험예에서 상호작용 예측 모델의 학습을 위한 매개변수는 하기의 표 1과 같다.
매개변수 | 설정 값 |
Learning rate | 0.01 |
Optimizer | Adagrad |
Epsilon | 1e-8 |
Dropout rate | 0.3 |
Batch size | 64 |
Epoch | 3 |
또한, 실험예에서 상호작용 예측 시스템은 최적의 상호작용 예측 모델을 도출하기 위해, PCBA에서 제공하는 4만 종류의 약물과 128개의 표적 단백질 간의 상호작용 여부가 기술된 벤치마크 데이터를 활용하였으며, 실험을 통해 2개의 전방 분할 레이어와 1개의 후방 통합 레이어로 구성된 인공 신경망의 구조가 최상의 예측 정확도를 보임을 확인할 수 있었다.
또한, 실험예에서 상호작용 예측 시스템은 PCBA 벤치마크 데이터에 대해, 기존에 널리 활용되고 있는 4개의 약물-표적 단백질 상호작용 예측 모델들(Graph convolution, Multitask, Bypass, Logistic regression)과 본 발명을 통해 제안된 모델의 성능을 비교하였으며, 비교 지표로는 AUC(Area under the curve)를 적용 하였다.
성능 실험 결과는 하기의 표 2와 같으며, 표 2를 통해 도출된 일실시예에 따른 상호작용 예측 모델의 학습 데이터에 대한 AUC 지표는 0.983, 평가 데이터에 대한 AUC 지표는 0.926로서, 기존 예측 모델 대비 매우 뛰어난 성능을 보임을 확인할 수 있었다.
모델 | 학습 데이터 대상 AUC | 평가 데이터 대상 AUC |
본 발명의 상호작용 예측 모델 | 0.983 | 0.926 |
Graph Convolution 모델 | 0.878 | 0.848 |
Multitask 모델 | 0.815 | 0.797 |
Bypass 모델 | 0.813 | 0.780 |
Logistic regression 모델 | 0.808 | 0.772 |
다시 도 1을 참조하면, 데이터 수신부(110)는 적어도 하나 이상의 약물 및 단백질 쌍(Pair)에 관한 정보를 수신할 수 있다.
예를 들면, 데이터 수신부(110)에서 수신하는 약물 및 단백질 쌍에 관한 정보는 특정 약물 및 특정 단백질에 관한 정보를 포함할 수 있고, 특정 약물에 관한 정보는 특정 약물의 화학 구조식에 관한 정보를 포함할 수 있으며, 특정 단백질에 관한 정보는 특정 단백질의 아미노산 서열 정보를 포함할 수 있다.
일측에 따르면, 상호작용 예측부(140)는 모델 생성부(130)를 통해 생성된 상호작용 예측 모델에 기초하여 적어도 하나 이상의 약물 및 단백질 쌍에 관한 정보에 포함된 특정 약물 및 특정 단백질간의 상호작용을 예측할 수 있다.
도 2는 일실시예에 따른 상호작용 예측 모델의 구현예를 설명하기 위한 도면이다.
다시 말해, 도 2는 도 1의 상호작용 예측 시스템에 의해 생성되는 상호작용 예측 모델의 구현예를 설명하는 도면으로서, 이하에서 도 2를 통해 설명하는 내용 중 도 1을 통해 설명한 내용과 중복되는 설명은 생략하기로 한다.
도 2를 참조하면, 참조부호 210에서 일실시예에 따른 상호작용 예측 시스템은 적어도 하나 이상의 단백질 각각의 아미노산 서열 정보를 포함하는 단백질 데이터 집합 및 적어도 하나 이상의 약물 각각의 화학 구조식 정보를 포함하는 약물 데이터 집합을 수신할 수 있다.
다음으로, 참조부호 220에서 일실시예에 따른 상호작용 예측 시스템은 Skip-Gram 모델을 이용하여 단백질 데이터 집합을 벡터화하고, ECFPs 기법을 이용하여 약물 데이터 집합을 벡터화할 수 있다.
예를 들면, 단백질 데이터 집합 및 약물 데이터 집합의 벡터화는 상호작용 예측 시스템에 포함된 단백질 벡터화 모듈 및 약물 벡터화 모듈에서 각각 수행될 수도 있다.
다음으로, 참조부호 230에서 일실시예에 따른 상호작용 예측 시스템은 벡터화된 단백질 데이터 집합 및 벡터화된 약물 데이터 집합을 입력으로 기계 학습 하여 인공 신경망 기반의 상호작용 예측 모델을 생성할 수 있다.
예를 들면, 상호작용 예측 모델은 분할 레이어 및 통합 레이어로 구분할 수 있고, 분할 레이어는 벡터화된 단백질 데이터 집합을 통해 형성되는 제1 분할 레이어(231) 및 제1 분할 레이어(231)에 구비된 복수의 단백질 노드간의 엣지 설계를 통하여 형성되는 N개(여기서, N은 자연수)의 단백질 히든 레이어를 포함할 수 있다.
또한, 분할 레이어는 벡터화된 약물 데이터 집합을 통해 형성되는 제2 분할 레이어(232) 및 제2 분할 레이어(232)에 구비된 복수의 약물 노드간의 엣지 설계를 통하여 형성되는 N개의 약물 히든 레이어를 포함할 수 있다.
한편, 통합 레이어는 N개의 단백질 히든 레이어 및 N개의 약물 히든 레이어 중에서 N번째 단백질 히든 레이어(233) 및 N번째 약물 히든 레이어(234)에 구비된 복수의 단백질 노드 및 복수의 약물 노드를 통해 형성되는 단백질-약물 통합 레이어(235) 및 출력 레이어(236)를 포함할 수 있다.
다시 말해, 일실시예에 따른 상호작용 예측 모델은 약물 및 단백질 레이어가 서로 분할된 형태로 구성되는 분할 레이어를 통해 각 요소들의 고유 특질을 학습할 수 있으며, 통합 레이어를 통해 분할 레이어의 산출물인 약물 및 단백질의 특질이 반영된 벡터들을 수신하여 개체들 간의 상호작용을 여부를 예측하는 역할을 수행할 수 있다.
도 3은 일실시예에 따른 상호작용 예측 방법을 설명하기 위한 도면이다.
다시 말해, 도 3은 도 1 내지 도 2를 통해 설명한 상호작용 예측 시스템에 의해 수행되는 상호작용 예측 방법을 설명하는 도면으로서, 이하에서 도 3을 통해 설명하는 내용 중 도 1 내지 도 2를 통해 설명한 내용과 중복되는 설명은 생략하기로 한다.
도 3을 참조하면, 310단계에서 일실시예에 따른 상호작용 예측 방법은 데이터 수신부에서 단백질 데이터 집합 및 약물 데이터 집합을 수신할 수 있다.
다음으로, 320단계에서 일실시예에 따른 상호작용 예측 방법은 데이터 벡터화부에서 단백질 데이터 집합 및 약물 데이터 집합을 벡터화할 수 있다.
일측에 따르면, 320단계에서 일실시예에 따른 상호작용 예측 방법은 데이터 벡터화부에서 Skip-Gram 모델을 이용하여 단백질 데이터 집합을 벡터화할 수 있다.
일측에 따르면, 320단계에서 일실시예에 따른 상호작용 예측 방법은 데이터 벡터화부에서 ECFPs(Extended-Connectivity Fingerprints) 기법을 이용하여 약물 데이터 집합을 벡터화할 수 있다.
다음으로, 330단계에서 일실시예에 따른 상호작용 예측 방법은 모델 생성부에서 벡터화된 단백질 데이터 집합 및 벡터화된 약물 데이터 집합을 입력으로 기계 학습 하여 인공 신경망 기반의 상호작용 예측 모델을 생성할 수 있다.
일측에 따르면, 상호작용 예측 모델은 벡터화된 단백질 데이터 집합을 통해 형성되는 제1 분할 레이어, 벡터화된 약물 데이터 집합을 통해 형성되는 제2 분할 레이어, 제1 분할 레이어에 구비된 복수의 단백질 노드간의 엣지 설계를 통하여 형성되는 N개(여기서, N은 자연수)의 단백질 히든 레이어 및 제2 분할 레이어에 구비된 복수의 약물 노드간의 엣지 설계를 통하여 형성되는 N개의 약물 히든 레이어를 포함할 수 있다.
또한, 상호작용 예측 모델은 N개의 단백질 히든 레이어 및 N개의 약물 히든 레이어 중에서 N번째 단백질 히든 레이어에 구비된 복수의 단백질 노드 및 N번째 약물 히든 레이어에 구비된 복수의 약물 노드를 통해 형성되는 통합 레이어를 더 포함할 수 있다.
도 4는 다른 실시예에 따른 상호작용 예측 방법을 설명하기 위한 도면이다.
이하에서 도 4를 통해 설명하는 다른 실시예에 따른 상호작용 예측 방법은 도 3에서 설명한 일실시에에 따른 상호작용 예측 방법의 330단계 이후에 수행될 수 있다.
도 4를 참조하면, 410단계에서 다른 실시예에 따른 상호작용 예측 방법은 데이터 수신부에서 적어도 하나 이상의 약물 및 단백질 쌍(Pair)에 관한 정보를 수신할 수 있다.
다음으로, 420단계에서 다른 실시예에 따른 상호작용 예측 방법은 상호작용 예측부에서 상호작용 예측 모델에 기초하여 적어도 하나 이상의 약물 및 단백질 쌍에 관한 정보에 포함된 특정 약물 및 특정 단백질간의 상호작용을 예측할 수 있다.
일측에 따르면, 상호작용 예측 모델은 일실시예에 따른 모델 생성부를 통해 생성될 수 있다.
결국, 본발명을 이용하면, 제약 분야 및 의생물학 분야 전문가의 개입을 일체 배제하고, 단백질의 시퀀스 정보와 약물의 구조 정보를 모두 반영하는 상호작용 예측 모델을 통해, 약물-표적 단백질의 상호작용에 주요한 영향을 끼치는 다수의 특질들을 보다 정확하고 용이하게 추출할 수 있다.
또한, 본 발명은 분할된 레이어를 인공 신경망의 전방 레이어에 위치시키고, 후방 레이어를 통해 통합하는 상호작용 예측 모델을 통해, 입력 데이터의 표현력에 의한 간섭을 축소시키며, 약물-표적 단백질의 상호작용에 주요한 영향을 끼치는 특질을 각 개체 별로 추출할 수 있다.
또한, 본 발명은 약물 및 단백질의 쌍(Pair)을 입력으로 취함으로써, 두 종류의 개체 속성들을 모두 반영할 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다.
소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
100: 상호작용 예측 시스템 110: 데이터 수신부
120: 데이터 백터화부 130: 모델 생성부
140: 상호작용 예측부
120: 데이터 백터화부 130: 모델 생성부
140: 상호작용 예측부
Claims (14)
- 단백질 데이터 집합 및 약물 데이터 집합을 수신하는 데이터 수신부;
상기 단백질 데이터 집합 및 상기 약물 데이터 집합을 벡터화하는 데이터 벡터화부 및
상기 벡터화된 단백질 데이터 집합 및 상기 벡터화된 약물 데이터 집합을 입력으로 기계 학습하여 인공 신경망 기반의 상호작용 예측 모델을 생성하는 모델 생성부
를 포함하고,
상호작용 예측 모델은,
최초 N번째 레이어까지는 단백질 히든 레이어에 구비된 단백질 노드 간에만 엣지 설계를 하고, 최초 N번째 레이어까지는 약물 히든 레이어에 구비된 약물 노드 간에만 엣지 설계를 하며,
N+1번째 레이어로부터 출력 레이어까지는 통합 레이어로 구성하는 약물-표적 단백질 간의 상호작용 예측 시스템. - 제1항에 있어서,
상기 데이터 수신부는
적어도 하나 이상의 약물 및 단백질 쌍(Pair)에 관한 정보를 수신하는
약물-표적 단백질 간의 상호작용 예측 시스템. - 제2항에 있어서,
상기 상호작용 예측 모델에 기초하여 상기 적어도 하나 이상의 약물 및 단백질 쌍에 관한 정보에 포함된 특정 약물 및 특정 단백질간의 상호작용을 예측하는 상호작용 예측부를 더 포함하는
약물-표적 단백질 간의 상호작용 예측 시스템. - 제1항에 있어서,
상기 단백질 데이터 집합은 적어도 하나 이상의 단백질 각각의 아미노산 서열 정보를 포함하고,
상기 약물 데이터 집합은 적어도 하나 이상의 약물 각각의 화학 구조식 정보를 포함하는
약물-표적 단백질 간의 상호작용 예측 시스템. - 제1항에 있어서,
상기 데이터 벡터화부는
Skip-Gram 모델을 이용하여 상기 단백질 데이터 집합을 벡터화하는
약물-표적 단백질 간의 상호작용 예측 시스템. - 제1항에 있어서,
상기 데이터 벡터화부는
ECFPs(Extended-Connectivity Fingerprints) 기법을 이용하여 상기 약물 데이터 집합을 벡터화하는
약물-표적 단백질 간의 상호작용 예측 시스템. - 제1항에 있어서,
상기 상호작용 예측 모델은
상기 벡터화된 단백질 데이터 집합을 통해 형성되는 제1 분할 레이어, 상기 벡터화된 약물 데이터 집합을 통해 형성되는 제2 분할 레이어, 상기 제1 분할 레이어에 구비된 복수의 단백질 노드간의 엣지 설계를 통하여 형성되는 N개(여기서, N은 자연수)의 단백질 히든 레이어 및 상기 제2 분할 레이어에 구비된 복수의 약물 노드간의 엣지 설계를 통하여 형성되는 N개의 약물 히든 레이어를 포함하는
약물-표적 단백질 간의 상호작용 예측 시스템. - 제7항에 있어서,
상기 상호작용 예측 모델은
상기 N개의 단백질 히든 레이어 및 상기 N개의 약물 히든 레이어 중에서 N번째 단백질 히든 레이어에 구비된 복수의 단백질 노드 및 N번째 약물 히든 레이어에 구비된 복수의 약물 노드를 통해 형성되는 통합 레이어를 더 포함하는
약물-표적 단백질 간의 상호작용 예측 시스템. - 데이터 수신부에서 단백질 데이터 집합 및 약물 데이터 집합을 수신하는 단계;
데이터 벡터화부에서 상기 단백질 데이터 집합 및 상기 약물 데이터 집합을 벡터화하는 단계 및
모델 생성부에서 상기 벡터화된 단백질 데이터 집합 및 상기 벡터화된 약물 데이터 집합을 입력으로 기계 학습 하여 인공 신경망 기반의 상호작용 예측 모델을 생성하는 단계
를 포함하고,
상호작용 예측 모델은,
최초 N번째 레이어까지는 단백질 히든 레이어에 구비된 단백질 노드 간에만 엣지 설계를 하고, 최초 N번째 레이어까지는 약물 히든 레이어에 구비된 약물 노드 간에만 엣지 설계를 하며,
N+1번째 레이어로부터 출력 레이어까지는 통합 레이어로 구성하는 약물-표적 단백질 간의 상호작용 예측 방법. - 제9항에 있어서,
상기 데이터 수신부에서 적어도 하나 이상의 약물 및 단백질 쌍(Pair)에 관한 정보를 수신하는 단계 및
상호작용 예측부에서 상기 상호작용 예측 모델에 기초하여 상기 적어도 하나 이상의 약물 및 단백질 쌍에 관한 정보에 포함된 특정 약물 및 특정 단백질간의 상호작용을 예측하는 단계
를 더 포함하는 약물-표적 단백질 간의 상호작용 예측 방법. - 제9항에 있어서,
상기 벡터화하는 단계는
상기 데이터 벡터화부에서 Skip-Gram 모델을 이용하여 상기 단백질 데이터 집합을 벡터화하는
약물-표적 단백질 간의 상호작용 예측 방법. - 제9항에 있어서,
상기 벡터화하는 단계는
상기 데이터 벡터화부에서 ECFPs(Extended-Connectivity Fingerprints) 기법을 이용하여 상기 약물 데이터 집합을 벡터화하는
약물-표적 단백질 간의 상호작용 예측 방법. - 제9항에 있어서,
상기 상호작용 예측 모델은
상기 벡터화된 단백질 데이터 집합을 통해 형성되는 제1 분할 레이어, 상기 벡터화된 약물 데이터 집합을 통해 형성되는 제2 분할 레이어, 상기 제1 분할 레이어에 구비된 복수의 단백질 노드간의 엣지 설계를 통하여 형성되는 N개(여기서, N은 자연수)의 단백질 히든 레이어 및 상기 제2 분할 레이어에 구비된 복수의 약물 노드간의 엣지 설계를 통하여 형성되는 N개의 약물 히든 레이어를 포함하는
약물-표적 단백질 간의 상호작용 예측 방법. - 제13항에 있어서,
상기 상호작용 예측 모델은
상기 N개의 단백질 히든 레이어 및 상기 N개의 약물 히든 레이어 중에서 N번째 단백질 히든 레이어에 구비된 복수의 단백질 노드 및 N번째 약물 히든 레이어에 구비된 복수의 약물 노드를 통해 형성되는 통합 레이어를 더 포함하는
약물-표적 단백질 간의 상호작용 예측 방법.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170142389 | 2017-10-30 | ||
KR20170142389 | 2017-10-30 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20190049537A KR20190049537A (ko) | 2019-05-09 |
KR102220653B1 true KR102220653B1 (ko) | 2021-03-02 |
Family
ID=66546710
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180130090A KR102220653B1 (ko) | 2017-10-30 | 2018-10-29 | 심화 학습 기반의 약물-표적 단백질 간 상호작용 예측 시스템 및 그 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102220653B1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20240048704A (ko) | 2022-10-07 | 2024-04-16 | 가천대학교 산학협력단 | 약물-표적 상호작용 예측 장치 및 이를 이용한 약물-표적 상호작용의 예측 방법 |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102299674B1 (ko) * | 2019-10-10 | 2021-09-07 | 인천대학교 산학협력단 | 두 약물 간의 혼용 효과를 예측하기 위한 인공지능 기반의 예측모델을 생성할 수 있는 전자 장치 및 그 동작 방법 |
KR102110176B1 (ko) * | 2019-10-11 | 2020-05-13 | 주식회사 메디리타 | 신약 후보 물질 도출 방법 및 장치 |
WO2021107676A1 (ko) * | 2019-11-29 | 2021-06-03 | 주식회사 녹십자지놈 | 인공지능 기반 염색체 이상 검출 방법 |
KR102347108B1 (ko) * | 2019-12-30 | 2022-01-05 | 한국과학기술정보연구원 | 신약후보물질예측장치 및 그 동작 방법 |
WO2021137470A1 (ko) * | 2020-01-02 | 2021-07-08 | 주식회사 온코크로스 | 화합물과 단백질의 상호작용 예측 방법, 장치 및 컴퓨터 프로그램 |
KR102461338B1 (ko) | 2020-01-16 | 2022-10-31 | 한국과학기술원 | 강화학습을 이용한 선도 물질 최적화 방법 및 그 장치 |
KR102268144B1 (ko) * | 2020-09-15 | 2021-06-22 | (주)팜캐드 | 빅데이터를 이용한 신약 후보 물질의 독성 산출 장치 및 방법 |
KR102496015B1 (ko) * | 2020-10-23 | 2023-02-06 | 디어젠 주식회사 | 신약 예측 방법 및 이러한 방법을 수행하는 장치 |
KR20240082761A (ko) * | 2022-12-02 | 2024-06-11 | 디어젠 주식회사 | 단백질과 화합물의 상호작용 구조 예측 방법 |
KR102618357B1 (ko) * | 2022-12-26 | 2023-12-27 | 충남대학교산학협력단 | 자연어 처리 모델을 이용한 약물-표적 상호작용 예측 방법 |
KR102579279B1 (ko) * | 2022-12-26 | 2023-09-14 | 충남대학교산학협력단 | 자연어 처리 모델을 이용한 신약 후보물질의 약리학적 성질 예측 방법 |
CN117912591B (zh) * | 2024-03-19 | 2024-05-31 | 鲁东大学 | 一种基于深度对比学习的激酶药物相互作用预测方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5905781B2 (ja) * | 2012-06-13 | 2016-04-20 | 学校法人沖縄科学技術大学院大学学園 | 相互作用予測装置、相互作用予測方法、および、プログラム |
KR102334532B1 (ko) | 2015-06-18 | 2021-12-03 | 재단법인 전통천연물기반 유전자동의보감 사업단 | 단백질 상호 작용 네트워크에서 신호 전파 간섭을 통한 약력학적 약물 상호 작용 예측 장치 및 방법 |
KR101809599B1 (ko) * | 2016-02-04 | 2017-12-15 | 연세대학교 산학협력단 | 약물과 단백질 간 관계 분석 방법 및 장치 |
-
2018
- 2018-10-29 KR KR1020180130090A patent/KR102220653B1/ko active IP Right Grant
Non-Patent Citations (2)
Title |
---|
Fangping Wan 외 1명, Deep learning with feature embedding for compound-protein interaction prediction, https://doi.org/10.1101/086033, 2016.11.7.* |
Kehang Han blog, Molecular ConvNet in Property Prediction, 2017.4.18.* |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20240048704A (ko) | 2022-10-07 | 2024-04-16 | 가천대학교 산학협력단 | 약물-표적 상호작용 예측 장치 및 이를 이용한 약물-표적 상호작용의 예측 방법 |
Also Published As
Publication number | Publication date |
---|---|
KR20190049537A (ko) | 2019-05-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102220653B1 (ko) | 심화 학습 기반의 약물-표적 단백질 간 상호작용 예측 시스템 및 그 방법 | |
Guo et al. | Densely connected graph convolutional networks for graph-to-sequence learning | |
Zhuang et al. | TILDE: Term independent likelihood moDEl for passage re-ranking | |
JP6549332B2 (ja) | 機械学習に基づくネットワークモデル構築方法及び装置 | |
Jia et al. | Caffe: Convolutional architecture for fast feature embedding | |
CN111462822B (zh) | 一种蛋白质序列特征的生成方法、装置和计算设备 | |
CN107004161B (zh) | 针对clifford+t基上的对角算子的高效实现的方法 | |
CN105706057B (zh) | 一种用于并行地控制多个处理单元的设备、方法、系统 | |
Wang et al. | Minerva: A scalable and highly efficient training platform for deep learning | |
Lopes et al. | Non-negative matrix factorization (NMF) | |
Teijeiro et al. | Towards cloud-based parallel metaheuristics: a case study in computational biology with differential evolution and spark | |
Lee et al. | Ensembles of Lasso screening rules | |
CN113469354A (zh) | 受存储器限制的神经网络训练 | |
Barbuti et al. | Simulating gene regulatory networks using reaction systems | |
US20230273828A1 (en) | System and method for using sparsity to accelerate deep learning networks | |
Zhou et al. | FASTCF: FPGA-based accelerator for stochastic-gradient-descent-based collaborative filtering | |
CN112216353B (zh) | 一种用于预测药物-靶标相互作用关系的方法和设备 | |
EP3324346A1 (en) | Parallelization approaches of modified teaching learning based search optimization technique for variable selection | |
CN110955380B (zh) | 访存数据生成方法、存储介质、计算机设备和装置 | |
Du et al. | Combining quantum-behaved PSO and K2 algorithm for enhancing gene network construction | |
Dasari et al. | Maximal clique enumeration for large graphs on hadoop framework | |
Lim et al. | Predicting drug-target interaction using 3D structure-embedded graph representations from graph neural networks | |
Han et al. | Modify self-attention via skeleton decomposition for effective point cloud transformer | |
US20210192296A1 (en) | Data de-identification method and apparatus | |
KR102174764B1 (ko) | 통합 네트워크 기반의 약물-질병벡터를 이용한 신약 재창출 방법, 장치 및 컴퓨터-판독가능매체 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |