KR20200126720A

KR20200126720A - 약물-표적 단백질의 상호작용을 예측하는 방법 및 그 방법을 수행하는 장치

Info

Publication number: KR20200126720A
Application number: KR1020190050716A
Authority: KR
Inventors: 김홍기; 이문환
Original assignee: 서울대학교산학협력단
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2020-11-09
Also published as: KR102355489B1; KR102468534B1; KR20220015479A

Abstract

본 발명은 일 실시 예에 따르면 약물 후보 화합물의 특질에 관련된 제1채널을 형성하는 과정; 표적 단백질의 특질에 관련된 제2 채널을 형성하는 과정; 상기 약물 후보 화합물의 종단간 학습에 관련된 제3 채널을 형성하는 과정; 상기 표적 단백질의 종단간 학습에 관련된 제4 채널을 형성하는 과정; 및 상기 제1내지 제4채널을 입력으로 인공 신경망에 기반으로 하여 표적 단백질과 약물 후보 화합물 사이의 상호작용 예측 모델을 생성하는 과정; 을 포함하는 약물-표적 단백질의상호작용을 예측하는 방법을 제공할 수 있다.

Description

약물-표적 단백질의 상호작용을 예측하는 방법 및 그 방법을 수행하는 장치{METHOD FOR PREDICTING DRUG-TARGET PROTEIN INTERACTIONS AND DEVICE THEREOF}

본 발명은 약물-표적 단백질의 상호작용을 예측하는 방법 및 그 방법을 수행하는 전자장치에 관한 것이며, 상세하게 인공 신경망 기반하여 다중 채널을 사용하여 약물-표적 단백질의 상호작용을 예측하는 방법 및 그 방법을 수행하는 전자 장치에 관한 것이다.

신약 개발을 위한 임상단계에서 일반적으로 3가지 단계 즉, (1) 질병을 야기하는 표적 단백질을 정의하고, (2) 표적 단백질을 조절할 수 있는 약물 후보 화합물을 도출하고, 그리고 (3) 도출된 약물의 안정화 및 최적화 단계로 구성된다.

특히, 두 번째 단계는 약물-표적 단백질 상호작용의 여부를 예측하는 것이다. 실제 실험(in-vitro)을 기반으로 약물들과 단백질의 상호작용의 여부를 진행할 경우 높은 비용(시간, 장비 및 인력)이 소모되므로, 다수의 연구자들은 두 번째 단계를 컴퓨터 (in-silico) 기반의 가상 선별 실험법으로 대체하여 연구를 하고 있다.

가상 선별이란 약물-표적 단백질 간의 상호작용에 대한 수학적 모델을 통해 실제 실험과 유사한 결과를 도출하는 방식을 의미한다. 가상 선별을 위한 수학적 모델은 인공 신경망을 기반한 예측 모델일 수 있다.

약물 후보 화합물과 표적 단백질의 연결성을 예측하는 종래의 인공 신경망에 기반한 예측 모델은 (1) 인공 신경망의 다양한 기능 중에서 분류기만을 사용하였으며, (2) 약물 후보 화합물과 표적 단백질의 특질을 전문가의 한정된 경험에 기반하여 추출하였고, (3) 약물 후보 화합물과 표적 단백질의 특질의 정보를 예측 모델의 입력 데이터로 사용하되, 인공 신경망의 층 구조가 일괄적으로 모든 노드의 연산하였기 때문에 예측 모델의 복잡성이 과도하게 높아지고 연산의 비효율성과 과적합에 취약해지는 문제점이 있었다.

본 개시의 일 실시 예에 따른 약물-표적 단백질의 상호작용을 예측하는 방법 및 장치는, 가상 선별에 뛰어난 성능을 보이는 수학적 모델을 도출, 도출된 수학적 모델을 통해 신약 개발에 소요되는 비용을 감소, 약물-표적 단백질의 상호작용 예측의 정확도를 향상, 양질의 신약을 개발, 또는 기존 약물의 용도를 확장 중 적어도 하나를 제공하고자 한다.

본 발명의 일 실시 예에 따른 약물-표적 단백질의 상호작용을 예측하는 방법은, 약물 후보 화합물의 특질에 관련된 제1채널을 형성하는 과정; 표적 단백질의 특질에 관련된 제2 채널을 형성하는 과정; 상기 약물 후보 화합물의 종단간 학습에 관련된 제3 채널을 형성하는 과정; 상기 표적 단백질의 종단간 학습에 관련된 제4 채널을 형성하는 과정; 상기 제1내지 제4채널을 입력으로 인공 신경망에 기반으로 하여 표적 단백질과 약물 후보 화합물 사이의 상호작용 예측 모델을 생성하는 과정; 을 포함하는 약물-표적 단백질의 상호작용을 예측하는 방법을 제공할 수 있다.

상기 제1 내지 제2채널은, 자연어 처리 기법인 word2vec 모델에 기반하여 형성되는 것을 특징으로 할 수 있다.

상기 제3 내지 제4채널은, 확장된 컨볼루션 신경망(Dilated Convolution Neural Networks: Dilated CNN)에 기반하여 형성되는 것을 특징으로 할 수 있다.

상기 상호작용 예측 모델은, 상기 제1 내지 제4 채널들을 독립적으로 분리하여 연산하는 과정; 독립적으로 분리하여 연산된 상기 제1 내지 제4 채널들을 상호적으로 결합하여 연산하는 과정; 상호적으로 결합하여 연산된 결과에 기초하여 표적 단백질과 약물 후보 화합물 사이의 상호작용 예측 모델을 생성하는 과정; 을 포함할 수 있다.

본 발명의 일 실시 예에 따른 약물-표적 단백질의 상호작용을 예측하는 장치는, 약물 후보 화합물의 특질과 표적 단백질의 특질을 추출하는 특질 추출기; 상기 약물 후보 화합물의 종단간 학습과 상기 표적 단백질의 종단간 학습을 수행하는 종단간 학습기; 및 약물 후보 화합물의 특질에 관련된 제1채널, 표적 단백질의 특질에 관련된 제2 채널, 상기 약물 후보 화합물의 종단간 학습에 관련된 제3 채널, 상기 표적 단백질의 종단간 학습에 관련된 제4 채널을 입력으로 인공 신경망에 기반으로 하여 표적 단백질과 약물 후보 화합물 사이의 상호작용 예측 모델을 생성하는 분류기;를 포함하는, 프로세서를 포함하는, 약물-표적 단백질의상호작용을 예측하는 장치를 제공할 수 있다.

상기 분류기는, 상기 제1 내지 제4 채널들을 독립적으로 분리하여 연산하고, 독립적으로 분리하여 연산된 상기 제1 내지 제4 채널들을 상호적으로 결합하여 연산하고, 상호적으로 결합하여 연산된 결과에 기초하여 표적 단백질과 약물 후보 화합물 사이의 상호작용 예측 모델을 생성할 수 있다.

본 개시의 일 실시 예에 따른 약물-표적 단백질의 상호작용을 예측하는 방법 및 장치는, 인공신경망의 3가지 기능들, 즉 특질 추출기, 종단간 학습기, 그리고 분류기의 기능을 모두 활용할 수 있다.

본 개시의 일 실시 예에 따른 약물-표적 단백질의 상호작용을 예측하는 방법 및 장치는, 인간 전문가의 개입을 최소화하고, 특질 추출기, 종단간 학습기, 분류기에 의해서 얻은 정보를 상화 보완적으로 사용할 수 있다.

본 개시의 일 실시 예에 따른 약물-표적 단백질의 상호작용을 예측하는 방법 및 장치는, 특질 추출기 및 종단간 학습기를 통해 얻어진 정보를 독립적인 특질 채널로 연산하여 효율적이고 높은 성능을 제공하는 효과가 있다.

본 개시의 일 실시 예에 따른 약물-표적 단백질의 상호작용을 예측하는 방법 및 장치는, 의생물 관련 데이터를 기반으로 생물 활동성 (bioactivity)를 활용하는 제약 분야 및 생물 정보 분야를 포함하는 기술분야에 적용할 수 있다.

본 개시의 일 실시 예에 따른 약물-표적 단백질의 상호작용을 예측하는 방법 및 장치는, 약물 후보 화합물 또는 표적 단백질의 원 데이터로부터 추출된 복수 개의 정보를 독립적인 복수의 채널로 표현함으로써, 원 데이터의 의미를 다각도로 해석할 수 있다.

본 개시의 일 실시 예에 따른 약물-표적 단백질의 상호작용을 예측하는 방법 및 장치는, 가상 선별에 가장 뛰어난 성능을 보이는 수학적 모델을 도출하는데 있으며, 이를 통해서 신약 개발에 소요되는 비용을 현저히 줄이는 효과와 동시에 높은 정확률로 약물-표적 단백질 간의 상호작용 여부 예측을 수행함으로써 양질의 신약 개발 및 기존 약물의 용도를 확장할 수 있다.

도 1는 본 발명의 일 실시 예에 따른 약물-표적 단백질의 상호작용을 예측하는 방법의 흐름도이다.
도 2는 본 발명의 일 실시 예에 따른 약물-표적 단백질의 상호작용을 예측하는 블록도이다.
도 3은 본 발명의 일 실시 예에 따른 약물-표적 단백질의 상호작용을 예측하는 방법의 흐름도이다.
도 4는 본 발명의 일 실시 예에 따른 약물-표적 단백질의 상호작용 예측 모델의 학습 및 동작 플로우 차트이다.
도 5는 본 발명의 일 실시 예에 따른 약물-표적 단백질의 상호작용을 예측하는 장치를 도시한 블록도이다.
도 6은 일부 실시 예에 따른 전자장치(1000)의 블록도이다.
도 7은 일부 실시 예에 따른 프로세서(1300)의 블록도이다.
도 8(a)은 일부 실시 예에 따른 데이터 학습부(1310)의 블록도이다.
도 8(b)는 일부 실시 예에 따른 데이터 인식부(1320)의 블록도이다.

본 명세서에 개시되어 있는 본 발명의 개념에 따른 실시 예들에 대해서 특정한 구조적 또는 기능적 설명은 단지 본 발명의 개념에 따른 실시 예들을 설명하기 위한 목적으로 예시된 것으로서, 본 발명의 개념에 따른 실시 예들은 다양한 형태들로 실시될 수 있으며 본 명세서에 설명된 실시 예들에 한정되지 않는다.

본 발명의 개념에 따른 실시 예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 실시 예들을 도면에 예시하고 본 명세서에서 상세하게 설명하고자 한다. 그러나, 이는 본 발명의 개념에 따른 실시 예들을 특정한 개시 형태들에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 또는 대체물을 포함한다.

제1 또는 제2 등의 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만, 예컨대 본 발명의 개념에 따른 권리 범위로부터 벗어나지 않은 채, 제1구성 요소는 제2구성 요소로 명명될 수 있고 유사하게 제2구성 요소는 제1구성 요소로도 명명될 수 있다.

어떤 구성 요소가 다른 구성 요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성 요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수 있지만, 중간에 다른 구성 요소가 존재할 수 있다고 이해되어야 할 것이다. 반면에, 어떤 구성 요소가 다른 구성 요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는 중간에 다른 구성 요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성 요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.

본 명세서에서 사용한 기술적 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로서, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 본 명세서에 기재된 특징, 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 명세서에서 특별히 다른 의미로 정의되지 않는 한, 본 명세서에 개시된 기술이 속하는 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 나타낸다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않아야 한다.

본 명세서에서 사용되는 구성요소에 대한 접미사 "모듈(module)" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니며, 본 발명의 실시 예에 따른 방법을 수행하기 위한 하드웨어 또는 상기 하드웨어를 구동할 수 있는 소프트웨어의 기능적 또는 구조적 결합을 의미할 수 있다.

이하에서 일 실시 예에 따른 약물-표적 단백질의 상호작용을 예측하는 방법 및 그 방법을 수행하는 장치를 첨부된 도면을 참고하여 설명한다.

도 1는 본 발명의 일 실시 예에 따른 약물-표적 단백질의 상호작용을 예측하는 방법의 흐름도이다.

도 1을 참조하면, 일 실시 예에 따른 약물-표적 단백질의 상호작용을 예측하는 방법은, 약물 후보 화합물과 단백질의 특질 채널을 형성하는 단계 (S10), 약물 후보 화합물과 단백질의 종단간 학습 채널을 형성하는 단계 (S20), 및 다중 채널에 기초하여 예측 모델을 생성하는 단계(S30)를 포함할 수 있다.

일 실시 예에 따른 약물-표적 단백질의 상호작용을 예측하는 방법은, 약물 후보 화합물과 표적 단백질이 주어졌을 때, 약물 후보 화합물이 표적 단백질을 억제 또는 상승 등의 작용을 할 수 있는지 판단 및 예측하는 인공 신경망 기반의 다중채널 구조에 관한 것이다.

도 2는 본 발명의 일 실시 예에 따른 약물-표적 단백질의 상호작용을 예측하는 블록도이다. 도 3은 본 발명의 일 실시 예에 따른 약물-표적 단백질의 상호작용을 예측하는 방법의 흐름도이다. 도 4는 본 발명의 일 실시 예에 따른 약물-표적 단백질의 상호작용 예측 모델의 학습 및 동작 플로우 차트이다.

도 2 및 도 3에 도시된 바와 같이, 일 실시 예에 따른 약물-표적 단백질의 상호작용을 예측하는 방법은, 약물 후보 화합물의 고수준 특질에 관련된 제1채널을 형성하는 단계(S100), 표적 단백질의 고수준 특질에 관련된 제2 채널을 형성하는 단계(S200), 약물 후보 화합물의 종단간 학습에 관련된 제3 채널을 형성하는 단계(S300), 표적 단백질의 종단간 학습에 관련된 제3 채널을 형성하는 단계(S400), 제1 내지 제4 채널을 입력으로 예측모델을 생성하는 단계(S500)을 포함할 수 있다.

나아가, 일 실시 예에 따른 약물-표적 단백질의 상호작용을 예측하는 방법은, 생성된 예측모델을 검증하는 단계(S600)를 더 포함할 수 있다.

S100 단계 및 S200 단계에서, 약물 후보 화합물의 고수준 특질 또는 표적 단백질의 특질을 추출하는 방법을 설명한다.

종래에, 화합물은 Extended - Connectivity Fingerprints(ECFPs) 기법을 이용하여 화합물의 특질을 추출하였다. 또한, 단백질은 자연 언어 처리(NLP) 방법 중 Skip-gram 모델을 이용하여 단백질의 특질을 추출하였다.

ECFPs는 분자 특성 분석, 유사성 검색 및 구조 활동 모델링을 위해 설계된 화합물 지문으로 분류하는 기법이다. ECFPs는 화학 구조식을 벡터화하는 방법론으로써, 기계학습 기반으로 하여 기본적인 특질을 추출하는 기법이다. ECFPs는 (1) 분자 구조에 존재하는 비수소 원자에 식별자(ID)를 할당하는 단계, (2) 상기 비수소 원자의 각각의 원자와 직접적으로 연결된 링크 정보에 식별자를 할당하는 단계, (3) 각각의 원자를 기준으로 2단계, 4단계, …, n 단계를 걸쳐 연결된 링크 정보에 대한 식별자를 점진적으로 할당하여, 할당된 식별자들의 조합을 통해 최종적으로 특정 약물에 대한 벡터화를 진행하는 기법이다.

Skip-gram 모델은 중심 단어가 주어졌을 때 주위 단어를 예측하는 신경망 모델로서, 문장 내의 단어들 사이의 문맥 관계를 학습한다. Skip-gram 모델은 단백질의 특질을 추출하기 위하여, 단백질의 아미노산 서열 전체를 문장으로 보고, n개의 아미노산 서열을 단어로 가정하여, 문장 내 단어를 벡터화하는 모델이다.

그러나, ECFPs는 고유하게 지정된 식별자를 해쉬 함수를 이용하여 각 벡터의 위치에 원-핫 인코딩(one-hot encoding) 기법으로 정보를 부여하는 이진 벡터 표현 함수이므로 정보가 소실되거나 벡터의 크기에 비해 정보량이 미비하다는 한계가 있다. 예를 들어서, 해쉬 함수를 통해서 얻어진 고유값의 벡터 위치가 중복된다면, 이진 표현법으로는 중복되는 정보를 표현할 수 없으므로 그 정보는 소실된다.

이를 방지하기 위해서 벡터의 크기를 늘린다면, 해당 고유값의 벡터 위치에 존재하지 않는 값은 one-hot 인코딩 기법으로 인해서 0으로 채워지기 때문에 연산 및 메모리의 낭비, 그리고 입력층이 지나치게 커지는 결과를 초래하게 된다는 한계가 있다. 이를 해결하기 위해서 이진 표현법이 아닌 실수 차원의 값을 갖고 보다 적은 차원의 벡터로 특질을 표현할 필요가 있다.

이러한 문제점을 해결하기 위하여, 본 발명의 일 실시 예에 따른 약물 후보 화합물의 고수준 특질의 추출 과정과 표적 단백질의 고수준 특질의 추출 과정은 자연어 처리 기법에서 널리 사용되는 워드 투 벡터(word2vec) 모델을 기반으로 벡터화가 수행될 수 있다.

word2vec 모델은 인공 신경망을 기반으로 한 자연 언어 처리 기법 중 하나이다. word2vec은 비슷한 의미의 단어는 비슷한 문맥을 갖는다는 가정을 전제로 하며, 중심 단어와 함께 등장하는 주변 단어로 표현되는 문맥(context)에 대한 분포를 학습하는 모델이다. 표적 단백질의 아미노산 서열 또는 약물 후보 화합물의 화학 구조식은 비슷한 서열과 구조를 가진다면, 비슷한 특성을 가질 것이라는 가정을 전제로 한다.

표적 단백질의 아미노산 서열 전체를 문장으로 가정하고, 표적 단백질 내의 3개의 아미노산 서열로 구성된 하부구조 (subgraph)를 단어로 가정한다.

이 경우, 각각의 중심 단어의 주변에 있는 주변 단어를 통해서 적 단백질의 특질을 추출하고, 문장 내의 단어들을 모두 합치는 방법으로 표적 단백질의 특질을 얻을 수 있다. 이를 통해서 표적 단백질은 실수 차원으로 표현되며 실수 차원을 벡터로 표현함으로써 연산과 메모리의 효율성을 얻을 수 있다.

약물 후보 화합물의 화학 구조식 전체를 문장으로 가정하고, 약물 후보 화합물 내의 2차원 약물 구조로 구성된 하부구조 (subgraph)를 단어로 가정한다.

이 경우, 각각 중심 단어의 주변에 있는 주변 단어를 통해서 문맥을 통해서 화합물의 특질을 추출하고, 문장에 해당되는 단어를 모두 합치는 방법으로 약물 후보 화합물의 특질을 얻을 수 있다. 이를 통해서 약물 후보 화합물은 실수 차원으로 표현되며 실수 차원을 벡터로 표현함으로써 연산과 메모리의 효율성을 얻을 수 있다.

일 실시 예에 따른 약물-표적 단백질의 상호작용을 예측하는 방법은, 약물 후보 화합물에 관한 1,990만 개의 약물 후보 군에 기반하여 고 수준의 특질을 기계가 학습할 수 있다. 일 실시 예에 따른 약물-표적 단백질의 상호작용을 예측하는 방법은, 표적 단백질에 관한 약 55만 종의 단백질에 기반하여 고 수준의 특질 학습으로 기계가 학습할 수 있다.

일 실시 예에 따른 예측 모델은 약물 후보 화합물과 표적 단백질 각각의 데이터의 특질을 추출하기 위해 미리 학습된 인공 신경망을 사용하여 새로운 약물 후보 화합물과 새로운 표적 단백질을 고수준 (High-level representation)의 특질로 표현하여 예측 모델에 활용할 수 있게 가공할 수 있다.

도 4를 참조하면, 약물 후보 화합물의 데이터는 상업적으로 사용 가능한 화학물에 대한 무료 데이터 베이스인 ZINC 데이터 베이스에서 제공된 약 1,990만개의 약물 후보 화합물의 원 데이터를 포함할 수 있다. 상기 약물 후보 화합물의 원 데이터는 간략화된 분자 입력 라인-엔트리 시스템(simplified molecular input line entry system: SMILES)으로 표현된 데이터를 포함할 수 있다. SMILES는 short ASCII 문자열을 사용하여 화학 종의 구조를 설명하기 위한 라인 표기법의 규격이다.

약물 후보 화합물의 원 데이터는 화학적 문장으로 표현될 수 있다. 예를 들어, SMILES로 표현된 약물 후보 화합물의 원 데이터는 Rdkit을 이용하여 2차원 그래프로 표현함으로써 화학적 문장으로 표현될 수 있다. Rdkit는 화합물의 데이터를 화학물의 구조식으로 만들어 주는 툴이다.

약물 후보 화합물의 데이터의 화학적 문장은 단어 표현 기법에 기반하여 컴퓨터가 이해할 수 있도록 화학적 문장을 구성하는 화학식의 구조로 벡터화될 수 있다. 상기 단어 표현 기법은 원-핫 벡터(One-hot Vector), N-gram, Bag of Words, TDM, Word2Vec, Fast Text, LSA, Glove 등을 포함한다. 약물 후보 화합물의 데이터의 화학적 문장은 Word2Vec에 기반하여 화학식의 구조로 벡터화하여, 복수의 차원(예. 300차원)을 갖는 약물 후보 화합물의 고수준 특질 벡터로 변환될 수 있다.

한편, 표적 단백질의 데이터는 단백질 시퀀스 및 기능 정보의 자유롭게 접속 가능한 데이터 베이스인 Uniprot데이터 베이스에서 제공된 약 55만개의 아미노산 서열의 원 데이터를 포함할 수 있다.

표적 단백질의 데이터는 생물학적 문장으로 표현된다. 예를 들어, Uniprot에서 제공하는 아미노산 서열의 데이터는 생물학적 문장으로 인식된다.

표적 단백질의 생물학적 문장은 단어 표현 기법에 기반하여 컴퓨터가 이해할 수 있도록 생물학적 문장을 구성하는 아미노산 서열로 벡터화를 될 수 있다. 상기 단어 표현 기법은 원-핫 벡터(One-hot Vector), N-gram, Bag of Words, TDM, Word2Vec, Fast Text, LSA, Glove 등을 포함한다. 표적 단백질의 데이터의 생물학적 문장은 Word2Vec에 기반하여 아미노산 서열로 벡터화하여, 복수의 차원(예. 300차원)을 갖는 표적 단백질의 고수준 특질 벡터로 변환될 수 있다.

도 2 및 도 3을 다시 참조하면, S300 단계 및 S400 단계에서, 약물 후보 화합물의 종단간 학습을 통해서 특질을 추출하는 것과, 표적 단백질의 종단간 학습을 통해서 특질을 추출하는 과정을 설명한다.

일 실시 예에 따른 종단간 학습은 Dilated Convolution Neural Networks (Dilated CNN) 모델을 사용하여 수행될 수 있다. 다시 말해, 약물 후보 화합물과 표적 단백질의 원 데이터를 위한 종단간 학습 모델로는 Dilated Convolution Neural Network (Dilated CNN) 모델을 사용될 수 있다.

일 실시 예에 따른 약물-표적 단백질의 상호작용을 예측하는 방법은, 약물 후보 화합물의 화합물 표현 서열 또는 표적 단백질의 아미노산 서열을 종단간 학습 채널을 형성하여 후술하는 예측 모델의 학습에 사용할 수 있다.

일 실시 예에 따른 약물-표적 단백질의 상호작용을 예측하는 방법은, 고수준의 특질 추출기뿐만 아니라, 약물 후보 화합물과 표적 단백질 각각의 원 데이터에서 직접 추출한 특질을 종단간 학습 채널을 활용하여 예측 모델의 학습에 보다 직접적으로 필요한 정보를 가공할 수 있다.

Dilated CNN은 기존의 CNN의 필터 내부에 zero padding을 추가해 강제로 필터가 한 번에 보는 영역(receptive field)을 늘리는 방법을 사용한 형태의 모델이다. Dilated CNN을 사용하면 필터가 한 번에 보는 영역(receptive field)의 크기가 넓어지기 때문에 공간 차원(spatial dimension)의 손실이 적어지고 연산의 효율이 높아진다.

또한, 이전의 데이터가 이후의 데이터에 영향을 미치는 서열 데이터의 경우, Dilated CNN은 서열 순서에 따르는 정보를 반영하여 학습을 진행한다. 그러므로, 아미노산 서열 순서에 따라 성질이 달라지는 단백질 또는 화학식의 서열 순서에 따라서 다른 성질을 가지는 화합물과 같이, 서열 순서가 중요한 표적 단백질 및 약물 후보 화합물의 특질을 추출하기에 적합하다.

Dilated CNN 기반의 종단간 특질 학습 채널은 표적 단백질과 약물 후보 화합물의 특질을 원 데이터에서 직접 가공하여 예측 모델의 학습에 보다 직접적으로 필요한 정보를 제공할 수 있다.

종단간 학습을 통한 특질 추출기는 도메인 지식 기반 전처리기의 한계를 극복할 것으로 기대된다. 전처리 모듈의 성능은 기존 도메인 지식에 국한되므로 다양한 한계가 존재한다. 이를테면, 전문가의 지식에 따르는 특정 데이터에 대한 정보 쏠림 현상 및 지식의의 불완전성이 존재하며, 약물 후보물질의 경우 약 10^60의 탐색 범위를 요구하지만 현존하는 데이터는 아직 10^8에 불과 하다. 전처리 모듈의 성능의 한계는 학습 모델의 성능에도 직접적인 영향을 미치므로, 종단 간 학습의 도입으로 이러한 한계를 극복할 수 있으리라 기대된다.

종단간 학습은 이미지 처리, 음성인식 등 다양한 분야에서 우수한 성능을 보이고 있으며 각 특질이 조립된 구성(composition)으로 이루어지며, 각 특질은 계층적(hierarchy) 구조를 지니고, 이를 통해 한정된 데이터의 숫자로 기하급수적인 특질을 표현할 수 있다.

도 4를 참조하면, SMILES로 표현되는 약물 후보 화합물의 원 데이터는 종단간 학습을 위한 종단간 특질 벡터로 변환될 수 있다. SMILES로 표현되는 약물 후보 화합물의 원 데이터는 원-핫 인코딩(one-hot encoding)을 사용하여 복수 차원(예. 100차원)의 벡터로 변경될 수 있다. 약물 후보 화합물의 복수 차원의 벡터는 Dilated CNN의 입력 데이터로 제공될 수 있으며, 약물 후보 화합물의 복수 차원의 벡터는 Dilated CNN을 사용하여 벡터화하여 약물 후보 화합물의 종단간 특질 벡터로 변환될 수 있다.

한편, Uniprot데이터 베이스에서 제공된 아미노산 서열의 원 데이터는 종단간 학습을 위한 종단간 특질 벡터로 결정될 수 있다. 아미노산 서열의 원 데이터는 원-핫 인코딩(one-hot encoding)을 사용하여 복수 차원(예. 700차원)의 벡터로 변경될 수 있다. 표적 단백질의 복수차원의 벡터는 Dilated CNN의 입력 데이터로 제공될 수 있으며, 표준 단백질의 복수 차원의 벡터는 Dilated CNN을 사용하여 벡터화하여 표준 단백질의 종단간 특질 벡터로 변환될 수 있다.

도 2 및 도 3을 참조하면, S500 단계에서, 예측 모델을 생성하는 과정을 설명한다.

상기 예측모델은 분류예측모델, 분류기 등으로 표현될 수 있다. 상기 예측 모델은 여러 가지 예측 모델 중 쌍 입력 신경망(Pairwise Input Neural Network: PINN)을 기반으로 다중 채널을 입력 받아 생성될 수 있다. PINN기반의 다중 채널 구조는 입력 데이터를 상호보완적으로 활용하여 약물 후보 화합물과 표적 단백질의 연결성을 예측한다.

PINN모델은 기존의 FFNN의 변형으로써, 우선 FFNE에 대해서 설명한다.

Feed Forward Neural Networks (FFNN)은 입력층, 은닉층, 및 분류기로 연결된 구조이다. 상기 FFNN은 1개의 입력층, 복수 개의 은닉층들, 그리고 분류기로 연결된 구조로 형성될 수 있다.

각각의 층(입력층 또는 은닉층)는 복수 개의 노드들로 구성될 수 있다. 층의 각 노드는 이전층의 모든 노드들로부터 가중치 합을 더한 후에, 더한 값을 활성화 함수에 입력하여, 비선형성을 부여한다.

FFNN에서 각 노드는 이전층의 모든 노드와 연결된다. 모든 층은 입력층, 은닉층, 그리고 분류기에 이르기는 모든 연결이 일방향 가중치 연산으로 연결된다. 이와 같은 연산은 FFNN에게 높은 모델 표현력을 부여하여서 높은 예측 능력을 부여하지만, 동시에 지나친 파라미터의 개수로 인한 모델의 지나친 복잡성과 연산 시간 및 자원의 낭비라는 한계점도 지니고 있다.

과도한 모델 표현력 및 복잡도는 과적합의 위험에 크게 노출되므로, 모델의 복잡도를 낮추면서도 예측 성능을 보존할 수 있는 방안이 요구된다. 게다가, 단 1개의 입력층은, 입력 특질의 차원이 불균형할 경우, 차원이 높은 특질로 학습이 편중되는 경향도 있으므로, 입력 특질의 차원을 동일하게 제어할 수 있는 모델의 구조도 요구된다.

본 발명의 일 실시 예에 따른 PINN 모델은 분리층과 결합층으로 나누어진 구조를 가진다. PINN 모델은 분리층을 가짐으로써, 각 특질 벡터의 값의 종류를 일치시킬 수 있으며, 각 특질 벡터의 차원의 격차를 줄일 수 있다.

본 발명의 경우. 약물 후보 화합물과 표적 단백질은 각각 고수준 특질 채널과 종단간 학습 채널을 가지므로, 총 4개의 채널이 입력층으로 입력된다. 입력층은 PINN의 분리층으로 이어진다.

PINN의 분리층은 은닉 층이 진행되는 동안 다른 분리층과 연결되지 않고 독자적으로 연결되어 특질을 고도화시킨다. PINN은 분리층이 독자적으로 연결되므로 연산과 학습의 효율성이 증대된다. 즉, PINN의 분리층은 채널별 독립된 학습구조를 지원함으로써 보다 효율적이고 과적합에 강인한 성능을 제공한다. PINN의 분리층은 각 채널 내의 특질의 차원을 조절함으로써 각 특질의 차원을 균일하게 조절할 수 있다.

분리층을 통해 고도화된 특질들은 PINN의 결합층에서 연결되어서 각 특질이 상호보완적으로 약물 후보 화합물과 표적 단백질의 연결성을 예측하는 데 사용된다.

PINN 모델은 기존 FFNN 모델에 비하여 적은 가중치만을 학습할 수 있다. 기존 FFNN 모델은 입력층의 차원이 1024 이고, 은닉 층의 차원이 2048이라면, 학습 파라미터의 수는 1024 * 2048로 약 210만개의 가중치를 학습해야 한다. 반면에, PINN 모델은 입력층의 차원을 512로 2개를 받아들이고, 은닉층의 차원도 1024로 2개로 진행을 한다면, 학습 파라미터의 수는 512*1024*2가 되므로 약 105만개의 가중치만 학습하면 된다.

일 실시 예에 따른 예측 모델은 약물 후보 화합물과 표적 단백질의 각 채널을 모두 활용하여 다른 수준의 특질을 스스로 학습하고, 이를 기반으로 약물과 단백질의 연결성을 결정한다.

일 실시 예에 따른 약물 후보 화합물과 표적 단백질은 각각 고수준 특질 채널과 종단간 학습채널을 이용하여 총 4개의 채널을 통해 예측 모델로 입력된다.

각각의 채널은 서로 분할된 분리층으로 구성되어 각 요소들의 고유 특질을 학습할 수 있도록 설계된다. 분리층은 마지막 결합층에서 그 정보가 모두 합쳐지며, 이후의 분류기에서 약물 후보 화합물과 표적 단백질의 연결성이 예측된다.

일 실시 예에 따른 예측 모델은 인공신경망의 데이터 인식 모델(또는 분류 예측 모델)을 사용하여 약물-표적 단백질의 상호작용을 예측하는 모델을 학습할 수 있다.

일 실시 예에 따른 약물-표적 단백질의 상호작용을 예측하는 방법은, 한정된 약물 후보 화합물과 타겟 단백질을 이용하여 약물-표적 단백질 간의 상호작용 여부를 보다 정확하게 예측을 하는 모델을 개발할 수 있고, 약물 후보 화합물과 표적 단백질의 다양한 수준의 특질을 각각의 채널로 형성하고 각각의 채널을 예측 모델 내부에서 상호보완적으로 사용할 수 있으며, 약물 후보 화합물과 표적 단백질 마다 자동적으로 학습된 특질 채널을 모두 활용하여 예측 모델의 정확도를 높일 수 있고, 전문가에 의해서 아직 발견하지 못한 화합물 또는 단백질에 대해서도 다양한 특질을 추출하고 예측모델을 예측하는데 사용될 수 있고, 기존의 인공 신경망 모델에 비해서 약 50%의 모델 파라미터를 통해서 동일한 성능 또는 보다 효율적이고 과적합에 강인한 성능을 도출할 수 있다.

S600 단계에서, 생성된 예측모델을 검증하는 과정을 설명한다.

Dilated CNN 모델의 성능 검증은 벤치마크 데이터 집합으로 활용되는 약 40만 가지의 약물 후보물과 1,227 가지의 타겟 단백질을 대상으로 ROC AUC(Receiver Operating Characteristic Area under the curve) 지표와 MCC (matthew Correlation Coecient)를 통해서 평가될 수 있다. ROC AUC 지표는 0.915으로, MCC 지표는 0.682으로 매우 높은 성능을 보임을 확인할 수 있다.

일 실시 예에 따른 예측모델의 검증은 K-fold 교차검증을 통하여 약물-표적 단백질의 상호작용을 예측하는 모델을 평가 및 검증할 수 있다. 일 실시 예에 따른 예측모델의 검증은 5-fold 교차검증을 통하여 약물-표적 단백질의 상호작용을 예측하는 모델의 최적화를 할 수 있다. 아래의 표 1은 최적화된 매개변수들의 설정 값을 나타낸 표이다.

인공 신경망 학습을 위한 매개변수의 설정 값

매개변수	설정 값
Learning rate	0.005
Optimizer	Adam
Beta1	0.9
Beta2	0.999
Weight decay	1e^-4
Dropout rate	0.5
Batch size	1024
Epoch	500
Separate layer	1
Concatenated layer	1

K-fold 교차검증 방법은 샘플 데이터를 K 개의부분으로 나누고, 학습(training)을 위해 샘플 데이터의 K-1 개의 부분 및 테스트(testing)를 위해 샘플 데이터의 1 개의부분을 사용하며, K번만큼 테스트하는 부분을 바꿔 반복하여 샘플 데이터의 모든 부분으로 테스트를 진행하는 교차검증 방법이다.

일 실시 예에 따른 예측모델의 검증은 약물 후보 화합물과 표적 단백질의 상호작용을 예측하는 모델을 검증하기 위해서 ChEMBL 데이터 베이스에서 약물 후보 화합물과 타겟 단백질 사이의 적어도 하나의 지표를 사용할 수 있다. 상기 적어도 하나의 지표는 ROC AUC (Receiver Operating Characteristic Area under the curve) 지표와 MCC (Matthew Correlation Coecient)지표를 포함할 수 있다. ChEMBL 데이터 베이스는 화학물에 특성을 지닌 생물활성 분자의 수동적으로 구성된 데이터 베이스이다.

일 실시 예에 따른 예측모델의 검증은 ChEMBL데이터 베이스에서 제공된 약 40만 가지 이상의 약물 후보 화합물과 약 1,227가지의 타겟 단백질을 대상으로 ROC AUC (Receiver Operating Characteristic Area under the curve) 지표와 MCC (Matthew Correlation Coecient)를 통해서 약물-표적 단백질의 상호작용의 예측 모델을 검증 평가할 수 있다.

종래의 약물-표적 단백질의 상호작용의 예측 모델은 Deep Neural Networks, Multi-task Neural Networks, Support Vector Machine, Random Forest가 있다.

본 발명의 일 실시 예에 따른 약물-표적 단백질의 상호작용 예측 모델과 종래의 예측 모델을 비교한 성능 실험 결과는 아래의 표 2와 같이 본 발명의 예측 모델이 종래의 예측 모델에 비하여 뛰어난 성능을 가짐을 확인할 수 있다.

약물-표적 단백질의 상호작용 예측 모델의 성능 비교 결과

모델	MCC	ROC AUC
본 발명의 예측 모델	0.682	0.916
Random Forest 모델	0.603	0.834
Support Vector Machine 모델	0.564	0.880
Multi-task Neural Networks 모델	0.570	0.915
Deep Neural Networks 모델	0.554	0.909

도 5는 본 발명의 일 실시 예에 따른 약물-표적 단백질의 상호작용을 예측하는 장치를 도시한 블록도이다.

도 5를 참조하면, 본 발명의 일 실시 예에 따른 약물-표적 단백질의 상호작용을 예측하는 장치는 제어부(프로세서)(1300)을 포함할 수 있다. 일 실시 예에 따른 제어부(1300)는, 특질 추출기(1330-1), 종단간 학습기(1330-2), 그리고 분류기(1330-3)를 포함할 수 있다.

특질 추출기(1330-1)는 약물 후보 화합물과 표적 단백질의 특질을 추출하여 제1 채널 및 제2 채널을 형성할 수 있다. 특질 추출기(1330-1)는 상술한 S10 단계, S100 단계, S200 단계 중 적어도 하나를 수행할 수 있다.

종단간 학습기(1330-2)는 약물 후보 화합물과 표적 단백질의 종단간 특질을 추출하여 학습함으로써 제3 채널 및 제4 채널을 형성할 수 있다. 종단간 학습기(1330-2)는 S20 단계, S300 단계, S400 단계 중 적어도 하나를 수행할 수 있다.

분류기(1330-3)는 제1 내지 제4 채널을 입력으로 예측모델을 인공 신경망을 기반으로 생성할 수 있다. 분류기(1330-3)는 S30 또는 S500 중 적어도 하나를 수행할 수 있다.

또한, 일 실시 예에 따른 제어부(1300)는, 검증기(미도시)를 더 포함할 수 있으며, 검증기(미도시)는 S600 단계를 수행할 수 있다.

도 6은 일부 실시 예에 따른 전자장치(1000)의 블록도이다. 도 7은 일부 실시예에 따른 프로세서(1300)의 블록도이다.

도 6을 참조하면, 일부 실시 예에 따른 전자장치(1000)는 사용자 입력부(1100), 디스플레이부(1200), 프로세서(1300)을 포함할 수 있다.

사용자 입력부(1100)는 사용자가 전자 장치(1000)를 제어하기 위한 데이터를 입력하는 수단을 의미한다. 또는 사용자 입력부(1100)는 전자장치(1000)에게 제공하는 데이터를 입력하는 수단을 의미한다. 제공하는 데이터는 약물 후보 화합물의 원 데이터 또는 표적 단백질의 원 데이터를 포함할 수 있다. 디스플레이부(1200)는 전자 장치(1000)에서 처리되는 정보를 표시 출력한다. 구체적으로, 디스플레이부(1210)는, 사용자의 입력에 대한 응답으로, 응답에 관련된 동작을 실행하기 위한 사용자 인터페이스를 디스플레이할 수 있다. 프로세서(1300)는 통상적으로 전자 장치(1000)의 전반적인 동작을 제어한다. 예를 들어, 프로세서(1300)는, 사용자 입력부(1100), 디스플레이부(1200)를 제어할 수 있다.

도 7을 참조하면, 일부 실시 예에 따른 프로세서(1300)는 데이터 학습부(1310) 및 데이터 인식부(1320)를 포함할 수 있다.

데이터 학습부(1310)는 상황 판단을 위한 기준을 학습할 수 있다. 데이터 학습부(1310)는 소정의 상황을 판단하기 위하여 어떤 데이터를 이용할 지, 데이터를 이용하여 상황을 어떻게 판단할 지에 관한 기준을 학습할 수 있다. 데이터 학습부(1310)는 학습에 이용될 데이터를 획득하고, 획득된 데이터를 후술할 데이터 인식 모델에 적용함으로써, 상황 판단을 위한 기준을 학습할 수 있다.

데이터 인식부(1320)는 데이터에 기초한 상황을 판단할 수 있다. 데이터 인식부(1320)는 학습된 데이터 인식 모델을 이용하여, 소정의 데이터로부터 상황을 인식할 수 있다. 데이터 인식부(1320)는 학습에 의한 기 설정된 기준에 따라 소정의 데이터를 획득하고, 획득된 데이터를 입력 값으로 하여 데이터 인식 모델을 이용함으로써, 소정의 데이터에 기초한 소정의 상황을 판단할 수 있다. 또한, 획득된 데이터를 입력 값으로 하여 데이터 인식 모델에 의해 출력된 결과 값은, 데이터 인식 모델을 갱신하는데 이용될 수 있다.

데이터 학습부(1310) 및 데이터 인식부(1320) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 예를 들어, 데이터 학습부(1310) 및 데이터 인식부(1320) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 각종 전자 장치에 탑재될 수 있다.

이 경우, 데이터 학습부(1310) 및 데이터 인식부(1320)는 하나의 전자 장치에 탑재될 수 있으며, 또는 별개의 전자 장치들에 각각 탑재될 수 있다. 예를 들어, 데이터 학습부(1310) 및 데이터 인식부(1320) 중 하나는 전자 장치에 포함되고, 나머지 하나는 서버에 포함될 수 있다. 또한, 데이터 학습부(1310) 및 데이터 인식부(1320)는 유선 또는 무선으로 통하여, 데이터 학습부(1310)가 구축한 모델 정보를 데이터 인식부(1320)로 제공할 수 있고, 데이터 인식부(1320)로 입력된 데이터가 추가 학습 데이터로서 데이터 학습부(1310)로 제공될 수 있다.

한편, 데이터 학습부(1310) 및 데이터 인식부(1320) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 학습부(1310) 및 데이터 인식부(1320) 중 적어도 하나가 소프트웨어 모듈(또는, 인스터력션(instruction)을 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.

도 8(a)은 일부 실시 예에 따른 데이터 학습부(1310)의 블록도이다. 도 8(b)는 일부 실시 예에 따른 데이터 인식부(1320)의 블록도이다.

도 8(a)를 참조하면, 일부 실시예에 따른 데이터 학습부(1310)는 데이터 획득부(1310-1), 전처리부(1310-2), 학습 데이터 선택부(1310-3), 모델 학습부(1310-4) 및 모델 평가부(1310-5)를 포함할 수 있다.

데이터획득부(1310-1)는 상황 판단에 필요한 데이터를 획득할 수 있다. 데이터 획득부(1310-1)는 상황 판단을 위한 학습을 위하여 필요한 데이터를 획득할 수 있다.

데이터 획득부(1310-1)는 사용자로부터 데이터를 수신할 수 있고, 서버로부터 데이터를 수신할 수 있다. 예컨대, 상기 데이터는 약물 후보 화합물의 데이터 또는 표적 단백질의 데이터를 포함할 수 있다.

약물 후보 화합물의 데이터는 상업적으로 사용 가능한 화학물에 대한 무료 데이터 베이스인 ZINC 데이터 베이스에서 제공된 약 1,990만개의 약물 후보 화합물의 원 데이터를 포함할 수 있다. 상기 약물 후보 화합물의 원 데이터는 간략화된 분자 입력 라인-엔트리 시스템(simplified molecular input line entry system: SMILES)으로 표현된 데이터를 포함할 수 있다. SMILES는 short ASCII 문자열을 사용하여 화학 종의 구조를 설명하기 위한 라인 표기법의 규격이다.

데이터 획득부(1310-1)는 약물 후보 화합물의 원 데이터를 화학적 문장으로 표현할 수 있다. 예를 들어, 데이터 획득부(1310-1)는 SMILES로 표현된 약물 후보 화합물의 원 데이터를 Rdkit을 이용하여 2차원 그래프로 표현함으로써 화학적 문장으로 표현할 수 있다. Rdkit는 화합물의 데이터를 화학물의 구조식으로 만들어 주는 툴이다.

표적 단백질의 데이터는 단백질 시퀀스 및 기능 정보의 자유롭게 접속 가능한 데이터 베이스인 Uniprot 데이터 베이스에서 제공된 약 55만개의 아미노산 서열의 원 데이터를 포함할 수 있다.

데이터 획득부(1310-1)는 표적 단백질의 원 데이터를 생물학적 문장으로 표현한다. 예를 들어, 데이터 획득부(1310-1)는 Uniprot에서 제공하는 아미노산 서열의 데이터를 생물학적 문장으로 인식한다.

전처리부(1310-2)는 상황 판단을 위한 학습에 획득된 데이터가 이용될 수 있도록, 획득된 데이터를 전처리할 수 있다. 전처리부(1310-2)는 후술할 모델 학습부(1310-4)가 상황 판단을 위한 학습을 위하여 획득된 데이터를 이용할 수 있도록, 획득된 데이터를 기 설정된 포맷으로 가공할 수 있다.

전처리부(1310-2)는 약물 후보 화합물의 원 데이터 및 표적 단백질의 원 데이터를 기설정된 포맷으로 가공하여 전처리할 수 있다. 또는 전처리부(1310-2)는 약물 후보 화합물의 원 데이터 및 표적 단백질의 원 데이터를 전처리 하지 않을 수 있다.

학습 데이터 선택부(1310-3)는 전처리된 데이터 중에서 학습에 필요한 데이터를 선택할 수 있다. 선택된 데이터는 모델 학습부(1310-4)에 제공될 수 있다. 학습 데이터 선택부(1310-3)는 상황 판단을 위한 기 설정된 기준에 따라, 전처리된 데이터 중에서 학습에 필요한 데이터를 선택할 수 있다. 또한, 학습 데이터 선택부(1310-3)는 후술할 모델 학습부(1310-4)에 의한 학습에 의해 기 설정된 기준에 따라 데이터를 선택할 수 있다.

학습 데이터 선택부(1310-3)는 전처리된 약물 후보 화합물의 원 데이터 및 표적 단백질의 원 데이터에서 기 설정된 기준에 따라 일부 혹은 전체의 데이터를 선택할 수 있다. 모델학습부(1310-4)는 학습 데이터에 기초하여 상황을 어떻게 판단할 지에 관한 기준을 학습할 수 있다. 또한, 모델 학습부(1310-4)는 상황 판단을 위하여 어떤 학습 데이터를 이용해야 하는 지에 대한 기준을 학습할 수 있다.

또한, 모델 학습부(1310-4)는 상황 판단에 이용되는 데이터 인식 모델을 학습 데이터를 이용하여 학습시킬 수 있다. 이 경우, 데이터 인식 모델은 미리 구축된 모델일 수 있다. 예를 들어, 데이터 인식 모델은 기본 학습 데이터(예를 들어, 샘플 이미지 등)을 입력 받아 미리 구축된 모델일 수 있다.

데이터 인식 모델은, 인식 모델의 적용 분야, 학습의 목적 또는 장치의 컴퓨터 성능 등을 고려하여 구축될 수 있다. 데이터 인식 모델은, 예를 들어, 신경망(Neural Network)을 기반으로 하는 모델일 수 있다. 예컨대, DNN(Deep Neural Network), RNN(Recurrent Neural Network), BRDNN(Bidirectional Recurrent Deep Neural Network)과 같은 모델이 데이터 인식 모델로서 사용될 수 있으나, 이에 한정되지 않는다.

다양한 실시예에 따르면, 모델 학습부(1310-4)는 미리 구축된 데이터 인식 모델이 복수 개가 존재하는 경우, 입력된 학습 데이터와 기본 학습 데이터의 관련성이 큰 데이터 인식 모델을 학습할 데이터 인식 모델로 결정할 수 있다. 이 경우, 기본 학습 데이터는 데이터의 타입 별로 기 분류되어 있을 수 있으며, 데이터 인식 모델은 데이터의 타입 별로 미리 구축되어 있을 수 있다. 예를 들어, 기본 학습 데이터는 학습 데이터가 생성된 지역, 학습 데이터가 생성된 시간, 학습 데이터의 크기, 학습 데이터의 장르, 학습 데이터의 생성자, 학습 데이터 내의 오브젝트의 종류 등과 같은 다양한 기준으로 기 분류되어 있을 수 있다.

또한, 모델 학습부(1310-4)는, 예를 들어, 오류 역전파법(error back-propagation) 또는 경사 하강법(gradient descent)을 포함하는 학습 알고리즘 등을 이용하여 데이터 인식 모델을 학습시킬 수 있다.

또한, 모델 학습부(1310-4)는, 예를 들어, 학습 데이터를 입력 값으로 하는 지도 학습(supervised learning)을 통하여, 데이터 인식 모델을 학습시킬 수 있다. 또한, 모델 학습부(1310-4)는, 예를 들어, 별다른 지도없이 상황 판단을 위해 필요한 데이터의 종류를 스스로 학습함으로써, 상황 판단을 위한 기준을 발견하는 비지도 학습(unsupervised learning)을 통하여, 데이터 인식 모델을 학습시킬 수 있다. 또한, 모델학습부(1310-4)는, 예를 들어, 학습에 따른 상황 판단의 결과가 올바른 지에 대한 피드백을 이용하는 강화 학습(reinforcement learning)을 통하여, 데이터 인식 모델을 학습시킬 수 있다.

또한, 데이터 인식 모델이 학습되면, 모델 학습부(1310-4)는 학습된 데이터 인식 모델을 저장할 수 있다. 이 경우, 모델 학습부(1310-4)는 학습된 데이터 인식 모델을 데이터 인식부(1320)를 포함하는 전자 장치의 메모리에 저장할 수 있다. 또는, 모델 학습부(1310-4)는 학습된 데이터 인식 모델을 후술할 데이터 인식부(1320)를 포함하는 전자 장치의 메모리에 저장할 수 있다. 또는, 모델 학습부(1310-4)는 학습된 데이터 인식 모델을 전자 장치와 유선 또는 무선 네트워크로 연결되는 서버의 메모리에 저장할 수 있다.

이 경우, 학습된 데이터 인식 모델이 저장되는 메모리는, 예를 들면, 전자 장치의 적어도 하나의 다른 구성요소에 관계된 명령 또는 데이터를 함께 저장할 수 있다. 또한, 메모리는 소프트웨어 및/또는 프로그램을 저장할 수 있다. 프로그램은, 예를 들면, 커널, 미들웨어, 어플리케이션 프로그래밍 인터페이스(API) 및/또는 어플리케이션 프로그램(또는 "어플리케이션") 등을 포함할 수 있다.

모델 학습부(1310-4)는 약물 후보 화합물의 데이터의 화학적 문장을 단어 표현 기법에 기반하여 컴퓨터가 이해할 수 있도록 화학적 문장을 구성하는 화학식의 구조로 벡터화를 할 수 있다. 모델 학습부(1310-4)는 표적 단백질의 생물학적 문장을 단어 표현 기법에 기반하여 컴퓨터가 이해할 수 있도록 생물학적 문장을 구성하는 아미노산 서열로 벡터화를 할 수 있다.

상기 단어 표현 기법은 원-핫 벡터(One-hot Vector), N-gram, Bag of Words, TDM, Word2Vec, Fast Text, LSA, Glove 등을 포함한다.

일 실시 예에 따른 모델 학습부(1310-4)는 약물 후보 화합물의 데이터의 화학적 문장을 Word2Vec에 기반하여 화학식의 구조로 벡터화하여, 복수의 차원(예. 300차원)을 갖는 약물 후보 화합물의 고수준 특질 벡터를 결정할 수 있다. 또한, 일 실시 예에 따른 모델 학습부(1310-4)는 표적 단백질의 데이터의 생물학적 문장을 Word2Vec에 기반하여 아미노산 서열로 벡터화하여, 복수의 차원(예. 300차원)을 갖는 표적 단백질의 고수준 특질 벡터를 결정할 수 있다

또한, 모델 학습부(1310-4)는 SMILES로 표현되는 약물 후보 화합물의 원 데이터를 사용하여 종단간 학습을 위한 종단간 특질 벡터를 결정할 수 있다. 모델 학습부(1310-4)는 SMILES로 표현되는 약물 후보 화합물의 원 데이터를 원-핫 인코딩(one-hot encoding)을 사용하여 복수 차원(예. 100차원)의 벡터로 변경하고, 약물 후보 화합물의 복수 차원의 벡터를 Dilated CNN의 입력 데이터로 제공할 수 있으며, 약물 후보 화합물의 복수 차원의 벡터를 Dilated CNN을 사용하여 벡터화하여 약물 후보 화합물의 종단간 특질 벡터를 결정할 수 있다.

모델 학습부(1310-4)는 Uniprot데이터 베이스에서 제공된 아미노산 서열의 원 데이터를 사용하여 종단간 학습을 위한 종단간 특질 벡터를 결정할 수 있다. 모델 학습부(1310-4)는 아미노산 서열의 원 데이터를 원-핫 인코딩(one-hot encoding)을 사용하여 복수 차원(예.700차원)의 벡터로 변경하고, 표적 단백질의 복수차원의 벡터를 Dilated CNN의 입력 데이터로 제공할 수 있으며, 표준 단백질의 복수 차원의 벡터를 Dilated CNN을 사용하여 벡터화하여 표준 단백질의 종단간 특질 벡터를 결정할 수 있다.

모델 학습부(1310-4)는 파이썬 라이브러리인 케라스(Keras)를 사용하여 상술한 고수준 특질 벡터 또는 종단간 특질 벡터를 결정할 수 있다.

모델 학습부(1310-4)는 인공신경망의 데이터 인식 모델(또는 분류 예측 모델)을사용하여약물-표적 단백질의 상호작용을 예측하는 모델을 학습할 수 있다.

상기 인공 신경망의 데이터 인식 모델은 쌍 입력 신경망(Pairwise Input Neural Networksk)를 포함할 수 있다. 쌍 입력 신경망은 복수의 채널 사이의 연산을독립적으로 처리하는 분리층과, 상기 분리층의 출력 값을 결합하여 연산하는 결합층을 포함할 수 있다.

모델평가부(1310-5)는 데이터 인식 모델에 평가 데이터를 입력하고, 평가 데이터로부터 출력되는 인식 결과가 소정 기준을 만족하지 못하는 경우, 모델 학습부(1310-4)로 하여금 다시 학습하도록 할 수 있다. 이 경우, 평가 데이터는 데이터 인식 모델을 평가하기 위한 기 설정된 데이터일 수 있다.

예를 들어, 모델 평가부(1310-5)는 평가 데이터에 대한 학습된 데이터 인식 모델의 인식 결과 중에서, 인식 결과가 정확하지 않은 평가 데이터의 개수 또는 비율이 미리 설정된 임계치를 초과하는 경우 소정 기준을 만족하지 못한 것으로 평가할 수 있다. 예컨대, 소정 기준이 비율 2%로 정의되는 경우, 학습된 데이터 인식 모델이 총 1000개의 평가 데이터 중의 20개를 초과하는 평가 데이터에 대하여 잘못된 인식 결과를 출력하는 경우, 모델 평가부(1310-5)는 학습된 데이터 인식 모델이 적합하지 않은 것으로 평가할 수 있다.

한편, 학습된 데이터 인식 모델이 복수 개가 존재하는 경우, 모델 평가부(1310-5)는 각각의 학습된 동영상 인식 모델에 대하여 소정 기준을 만족하는지를 평가하고, 소정 기준을 만족하는 모델을 최종 데이터 인식 모델로서 결정할 수 있다. 이 경우, 소정 기준을 만족하는 모델이 복수 개인 경우, 모델 평가부(1310-5)는 평가 점수가 높은 순으로 미리 설정된 어느 하나 또는 소정 개수의 모델을 최종 데이터 인식 모델로서 결정할 수 있다.

모델 평가부(1310-5)는 K-fold 교차검증을 통하여 약물-표적 단백질의 상호작용을 예측하는 모델을 평가및 검증할 수 있다. 예컨대, 모델 평가부(1310-5)는 5-fold 교차검증을 통하여 약물-표적 단백질의 상호작용을 예측하는 모델의 최적화를 할 수 있다.

모델 평가부(1310-5)는 약물 후보 화합물과 표적 단백질의 상호작용을 예측하는 모델을 검증하기 위해서 ChEMBL 데이터 베이스에서 약물 후보 화합물과 타겟 단백질 사이의 적어도 하나의 지표를 사용할 수 있다. 상기 적어도 하나의 지표는 ROC AUC (Receiver Operating Characteristic Area under the curve) 지표와 MCC (Matthew Correlation Coecient)지표를 포함할 수 있다. ChEMBL 데이터 베이스는 화학물에 특성을 지닌 생물활성 분자의 수동적으로 구성된 데이터 베이스이다.

예컨대, 모델 평가부(1310-5)는ChEMBL데이터 베이스에서 제공된 약 40만 가지 이상의 약물 후보 화합물과 약 1,227가지의 타겟 단백질을 대상으로 ROC AUC (Receiver Operating Characteristic Area under the curve) 지표와 MCC (Matthew Correlation Coecient)를 통해서 약물-표적 단백질의 상호작용의 예측 모델을 검증 평가할 수 있다.

한편, 데이터 학습부(1310) 내의 데이터 획득부(1310-1), 전처리부(1310-2), 학습 데이터 선택부(1310-3), 모델 학습부(1310-4) 및 모델 평가부(1310-5) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 예를 들어, 데이터 획득부(1310-1), 전처리부(1310-2), 학습 데이터 선택부(1310-3), 모델 학습부(1310-4) 및 모델 평가부(1310-5) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 전자 장치에 탑재될 수 있다.

또한, 데이터 획득부(1310-1), 전처리부(1310-2), 학습 데이터 선택부(1310-3), 모델 학습부(1310-4) 및 모델 평가부(1310-5)는 하나의 전자 장치에 탑재될 수 있으며, 또는 별개의 전자 장치들에 각각 탑재될 수 있다. 예를 들어, 데이터 획득부(1310-1), 전처리부(1310-2), 학습 데이터 선택부(1310-3), 모델 학습부(1310-4) 및 모델 평가부(1310-5) 중 일부는 전자 장치에 포함되고, 나머지 일부는 서버에 포함될 수 있다.

또한, 데이터 획득부(1310-1), 전처리부(1310-2), 학습 데이터 선택부(1310-3), 모델 학습부(1310-4) 및 모델 평가부(1310-5) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 획득부(1310-1), 전처리부(1310-2), 학습 데이터 선택부(1310-3), 모델 학습부(1310-4) 및 모델 평가부(1310-5) 중 적어도 하나가 소프트웨어 모듈(또는, 인스터력션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.

도 8(b)를 참조하면, 일부 실시예에 따른 데이터 인식부(1320)는 데이터 획득부(1320-1), 전처리부(1320-2), 인식 데이터 선택부(1320-3), 인식 결과 제공부(1320-4) 및 모델 갱신부(1320-5)를 포함할 수 있다.

데이터획득부(1320-1)는 상황 판단에 필요한 데이터를 획득할 수 있다.

전처리부(1320-2)는 상황 판단을 위해 획득된 데이터가 이용될 수 있도록, 획득된 데이터를 전처리할 수 있다. 전처리부(1320-2)는 후술할 인식 결과 제공부(1320-4)가 상황 판단을 위하여 획득된 데이터를 이용할 수 있도록, 획득된 데이터를 기 설정된 포맷으로 가공할 수 있다.

인식 데이터 선택부(1320-3)는 전처리된 데이터 중에서 상황 판단에 필요한 데이터를 선택할 수 있다. 선택된 데이터는 인식 결과 제공부(1320-4)에게 제공될 수 있다. 인식 데이터 선택부(1320-3)는 상황 판단을 위한 기 설정된 기준에 따라, 전처리된 데이터 중에서 일부 또는 전부를 선택할 수 있다. 또한, 인식 데이터 선택부(1320-3)는 후술할 모델 학습부(1310-4)에 의한 학습에 의해 기 설정된 기준에 따라 데이터를 선택할 수 있다.

인식 결과 제공부(1320-4)는 선택된 데이터를 데이터 인식 모델에 적용하여 상황을 판단할 수 있다. 인식 결과 제공부(1320-4)는 데이터의 인식 목적에 따른 인식 결과를 제공할 수 있다. 인식 결과 제공부(1320-4)는 인식 데이터 선택부(1320-3)에 의해 선택된 데이터를 입력 값으로 이용함으로써, 선택된 데이터를 데이터 인식 모델에 적용할 수 있다. 또한, 인식 결과는 데이터 인식 모델에 의해 결정될 수 있다.

모델갱신부(1320-5)는 인식 결과 제공부(1320-4)에 의해 제공되는 인식 결과에 대한 평가에 기초하여, 데이터 인식 모델이 갱신되도록할 수 있다. 예를 들어, 모델 갱신부(1320-5)는 인식 결과 제공부(1320-4)에 의해 제공되는 인식 결과를 모델 학습부(1310-4)에게 제공함으로써, 모델 학습부(1310-4)가 데이터 인식 모델을 갱신하도록 할 수 있다.

한편, 데이터 인식부(1320) 내의 데이터 획득부(1320-1), 전처리부(1320-2), 인식 데이터 선택부(1320-3), 인식 결과 제공부(1320-4) 및 모델 갱신부(1320-5) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 예를 들어, 데이터 획득부(1320-1), 전처리부(1320-2), 인식 데이터 선택부(1320-3), 인식 결과 제공부(1320-4) 및 모델 갱신부(1320-5) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 전자 장치에 탑재될 수 있다.

또한, 데이터 획득부(1320-1), 전처리부(1320-2), 인식 데이터 선택부(1320-3), 인식 결과 제공부(1320-4) 및 모델 갱신부(1320-5)는 하나의 전자 장치에 탑재될 수 있으며, 또는 별개의 전자 장치들에 각각 탑재될 수 있다. 예를 들어, 데이터 획득부(1320-1), 전처리부(1320-2), 인식 데이터 선택부(1320-3), 인식 결과 제공부(1320-4) 및 모델 갱신부(1320-5) 중 일부는 전자 장치에 포함되고, 나머지 일부는 서버에 포함될 수 있다.

또한, 데이터 획득부(1320-1), 전처리부(1320-2), 인식 데이터 선택부(1320-3), 인식 결과 제공부(1320-4) 및 모델 갱신부(1320-5) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 획득부(1320-1), 전처리부(1320-2), 인식 데이터 선택부(1320-3), 인식 결과 제공부(1320-4) 및 모델 갱신부(1320-5) 중 적어도 하나가 소프트웨어 모듈(또는, 인스트럭션(instruction)을 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.

본 발명은 도면에 도시된 실시 예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시 예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims

약물 후보 화합물의 특질에 관련된 제1채널을 형성하는 과정;
표적 단백질의 특질에 관련된 제2 채널을 형성하는 과정;
상기 약물 후보 화합물의 종단간 학습에 관련된 제3 채널을 형성하는 과정;
상기 표적 단백질의 종단간 학습에 관련된 제4 채널을 형성하는 과정;
상기 제1내지 제4채널을 입력으로 인공 신경망에 기반으로 하여 표적 단백질과 약물 후보 화합물 사이의 상호작용 예측 모델을 생성하는 과정;
을 포함하는 약물-표적 단백질의상호작용을 예측하는 방법.
제1항에 있어서,
상기 제1 내지 제2채널은, 자연어 처리 기법인 word2vec 모델에 기반하여 형성되는 것을 특징으로 하는 약물-표적 단백질의 상호작용을 예측하는 방법.
제1항에 있어서,
상기 제3 내지 제4채널은, 확장된 컨볼루션 신경망(Dilated Convolution Neural Networks: Dilated CNN)에 기반하여 형성되는 것을 특징으로 하는 약물-표적 단백질의 상호작용을 예측하는 방법.
제1항에 있어서,
상기 상호작용 예측 모델은,
상기 제1 내지 제4 채널들을 독립적으로 분리하여 연산하는 과정;
독립적으로 분리하여 연산된 상기 제1 내지 제4 채널들을 상호적으로 결합하여 연산하는 과정;
상호적으로 결합하여 연산된 결과에 기초하여 표적 단백질과 약물 후보 화합물 사이의 상호작용 예측 모델을 생성하는 과정;
을 포함하는 약물-표적 단백질의 상호작용을 예측하는 방법.
약물 후보 화합물의 특질과 표적 단백질의 특질을 추출하는 특질 추출기;
상기 약물 후보 화합물의 종단간 학습과 상기 표적 단백질의 종단간 학습을 수행하는 종단간 학습기; 및
약물 후보 화합물의 특질에 관련된 제1채널, 표적 단백질의 특질에 관련된 제2 채널, 상기 약물 후보 화합물의 종단간 학습에 관련된 제3 채널, 상기 표적 단백질의 종단간 학습에 관련된 제4 채널을 입력으로 인공 신경망에 기반으로 하여 표적 단백질과 약물 후보 화합물 사이의 상호작용 예측 모델을 생성하는 분류기;를 포함하는, 프로세서를 포함하는,
약물-표적 단백질의 상호작용을 예측하는 장치.
제5항에 있어서,
상기 제1 내지 제2채널은, 자연어 처리 기법인 word2vec 모델에 기반하여 형성되는 것을 특징으로 하는 약물-표적 단백질의 상호작용을 예측하는 장치.
제5항에 있어서,
상기 제3 내지 제4채널은, 확장된 컨볼루션 신경망(Dilated Convolution Neural Networks: Dilated CNN)에 기반하여 형성되는 것을 특징으로 하는 약물-표적 단백질의 상호작용을 예측하는 장치.
제5항에 있어서,
상기 분류기는,
상기 제1 내지 제4 채널들을 독립적으로 분리하여 연산하고, 독립적으로 분리하여 연산된 상기 제1 내지 제4 채널들을 상호적으로 결합하여 연산하고, 상호적으로 결합하여 연산된 결과에 기초하여 표적 단백질과 약물 후보 화합물 사이의 상호작용 예측 모델을 생성하는,
약물-표적 단백질의 상호작용을 예측하는 장치.