KR102299220B1

KR102299220B1 - 화합물과 단백질의 상호작용 예측 방법, 장치 및 컴퓨터 프로그램

Info

Publication number: KR102299220B1
Application number: KR1020200169587A
Authority: KR
Inventors: 최진우; 김이랑
Original assignee: 주식회사 온코크로스
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2021-09-07
Also published as: WO2022124725A1; US20230402130A1

Abstract

화합물과 단백질의 상호작용 예측 방법, 장치 및 컴퓨터 프로그램이 제공된다. 본 개시의 몇몇 실시예들에 따른 화합물과 단백질의 상호작용 예측 방법은, 학습용 화합물 데이터, 학습용 단백질 데이터 및 상호작용 점수로 구성된 학습데이터를 획득하는 단계, 획득된 학습데이터를 이용하여 딥러닝 모델을 구축하는 단계 및 구축된 딥러닝 모델을 통해 주어진 화합물과 단백질의 상호작용을 예측하는 단계를 포함할 수 있다. 이때, 학습용 단백질의 아미노산 서열에서 상호작용에 부정적인 영향을 미치는 단백질 도메인과 연관된 아미노산 서열을 제외하고 딥러닝 모델을 학습시킴으로써, 생체 내 환경 내에서 주어진 화합물과 단백질의 상호작용이 정확하게 예측될 수 있다.

Description

화합물과 단백질의 상호작용 예측 방법, 장치 및 컴퓨터 프로그램{METHOD, APPARATUS AND COMPUTER PROGRAM FOR PREDICTING BETWEEN CHEMICAL COMPOUND AND PROTEIN}

본 개시는 질병 예측 방법, 장치 및 컴퓨터 프로그램에 관한 것이다. 보다 자세하게는, 딥러닝 모델(deep-learning model)을 이용하여 주어진 화합물과 단백질의 상호작용 유무 또는 정도를 예측할 수 있는 방법, 그 방법을 수행하는 장치 및 그 방법이 구현된 컴퓨터 프로그램에 관한 것이다.

컴퓨팅 방법(computational method)과 생명정보학(bio-informatics)을 이용함으로써, 연구자들은 기존 화합물의 새로운 용도를 찾거나 신규 화합물의 용도를 예측할 수 있다. 이러한 방식은 신규 약제 발견에 많이 사용되고 있다.

신약 발견과 개발은 항상 많은 시간 및 비용을 필요로 하며, 복잡한 프로세스를 거치게 된다. 이에 따라, 최근에는 다른 분야의 학문, 예를 들면 생명정보학, 화합정보학(chemi-informatics), 컴퓨터 공학 및 CADD(computer-aided drug discovery/design) 등을 융합하여, 신약 발견과 개발에 드는 시간을 줄이고 그 효과를 높이려는 연구가 활발하게 이루어지고 있다.

하지만, 이러한 종래 기술은 규칙에 기반(rule-based)하므로, 인간이 인지하지 못하여 규칙을 정의할 수 없는 경우까지 예측하지는 못한다.

본 개시의 몇몇 실시예들을 통해 해결하고자 하는 기술적 과제는, 딥러닝 모델(deep-learning model)을 이용하여 주어진 화합물과 단백질의 상호작용 유무 또는 정도를 정확하게 예측할 수 있는 방법, 그 방법을 수행하는 장치 및 그 방법이 구현된 컴퓨터 프로그램을 제공하는 것이다.

본 개시의 몇몇 실시예들을 통해 해결하고자 하는 다른 기술적 과제는, 딥러닝 모델을 이용하여 생체 내 환경에서의 화합물과 단백질의 상호작용 유무 또는 정도를 정확하게 예측할 수 있는 방법, 그 방법을 수행하는 장치 및 그 방법이 구현된 컴퓨터 프로그램을 제공하는 것이다.

본 개시의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 개시의 기술분야에서의 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

상기 기술적 과제를 해결하기 위한, 본 개시의 몇몇 실시예들에 따른 화합물과 단백질의 상호작용 예측 방법은, 컴퓨팅 장치에서 화합물과 단백질의 상호작용을 예측하는 방법으로서, 학습용 화합물 데이터, 학습용 단백질 데이터 및 상호작용 점수로 구성된 학습데이터를 획득하는 단계, 상기 획득된 학습데이터를 이용하여 딥러닝 모델을 구축하는 단계 및 상기 구축된 딥러닝 모델을 통해 주어진 화합물과 단백질의 상호작용을 예측하는 단계를 포함하되, 상기 학습용 단백질 데이터는 상기 학습용 단백질의 아미노산 서열을 포함하고, 상기 구축하는 단계는, 상기 학습용 단백질의 아미노산 서열에서 상기 상호작용에 부정적 영향을 미치는 제1 단백질 도메인과 연관된 아미노산 서열을 제외하여 제1 학습데이터를 생성하는 단계 및 상기 제1 학습데이터로 상기 딥러닝 모델을 학습시키는 단계를 포함할 수 있다.

몇몇 실시예들에서, 상기 제1 단백질 도메인은 막관통 도메인(transmembrane domain)을 포함할 수 있다.

몇몇 실시예들에서, 상기 구축하는 단계는, 상기 학습용 화합물 데이터, 상기 제1 단백질 도메인과 연관된 아미노산 서열 데이터 및 제1 상호작용 점수로 구성된 제2 학습데이터를 생성하는 단계 및 상기 제2 학습데이터로 상기 딥러닝 모델을 학습시키는 단계를 포함하되, 상기 제1 상호작용 점수는 상기 제1 단백질 도메인이 상기 상호작용에 부정적 영향을 미치는 정도에 기초하여 결정될 수 있다.

몇몇 실시예들에서, 상기 구축하는 단계는, 상기 획득된 학습데이터에서 특정 학습용 화합물에 대한 상호작용 점수가 기준치 이상인 제1 복수의 학습용 단백질과 기준치 이하인 제2 복수의 학습용 단백질을 선별하는 단계, 상기 제1 복수의 학습용 단백질의 아미노산 서열을 비교하여 제1 공통 서열을 추출하는 단계, 상기 제2 복수의 학습용 단백질의 아미노산 서열을 비교하여 제2 공통 서열을 추출하는 단계, 상기 제1 공통 서열, 상기 특정 학습용 화합물의 데이터 및 제1 상호작용 점수로 구성된 제2 학습데이터를 이용하여 상기 딥러닝 모델을 학습시키는 단계 및 상기 제2 공통 서열, 상기 특정 학습용 화합물의 데이터 및 제2 상호작용 점수로 구성된 제3 학습데이터를 이용하여 상기 딥러닝 모델을 학습시키는 단계를 포함하되, 상기 제1 상호작용 점수는 상기 제1 복수의 학습용 단백질의 평균 상호작용 점수보다 높은 값으로 설정되고, 상기 제2 상호작용 점수는 상기 제1 복수의 학습용 단백질의 평균 상호작용 점수보다 낮은 값으로 설정될 수 있다.

몇몇 실시예들에서, 상기 구축하는 단계는, 상기 획득된 학습데이터를 분석하여 특정 학습용 화합물에 대한 상호작용 점수가 기준치 이상인 제1 학습용 단백질과 기준치 이하인 제2 학습용 단백질을 선별하는 단계, 상기 제1 학습용 단백질의 아미노산 서열과 상기 제2 학습용 단백질의 아미노산 서열을 비교하여 비공통 서열을 추출하는 단계, 상기 딥러닝 모델을 통해 상기 비공통 서열과 상기 특정 학습용 화합물에 대한 예측 상호작용 점수를 획득하고, 상기 예측 상호작용 점수에 기초하여 학습을 위한 상호작용 점수를 결정하는 단계 및 상기 비공통 서열, 상기 특정 학습용 화합물의 데이터 및 상기 결정된 상호작용 점수로 구성된 제2 학습데이터를 이용하여 상기 딥러닝 모델을 학습시키는 단계를 포함할 수 있다.

상술한 기술적 과제를 해결하기 위한 본 개시의 몇몇 실시예들에 따른 화합물과 단백질의 상호작용 예측 장치는, 하나 이상의 인스트럭션들(instructions)을 저장하는 메모리 및 상기 저장된 하나 이상의 인스트럭션들을 실행시킴으로써, 학습용 화합물 데이터, 학습용 단백질 데이터 및 상호작용 점수로 구성된 학습데이터를 획득하는 동작, 상기 획득된 학습데이터를 이용하여 딥러닝 모델을 구축하는 동작 및 상기 구축된 딥러닝 모델을 통해 주어진 화합물과 단백질의 상호작용을 예측하는 동작을 수행하는 프로세서를 포함할 수 있다. 이때, 상기 학습용 단백질 데이터는 상기 학습용 단백질의 아미노산 서열을 포함하고, 상기 구축하는 동작은, 상기 학습용 단백질의 아미노산 서열에서 상기 상호작용에 부정적 영향을 미치는 제1 단백질 도메인과 연관된 아미노산 서열을 제외하여 제1 학습데이터를 생성하는 동작 및 상기 제1 학습데이터로 상기 딥러닝 모델을 학습시키는 동작을 포함할 수 있다.

상술한 기술적 과제를 해결하기 위한 본 개시의 몇몇 실시예들에 따른 컴퓨터 프로그램은, 컴퓨팅 장치와 결합되어, 학습용 화합물 데이터, 학습용 단백질 데이터 및 상호작용 점수로 구성된 학습데이터를 획득하는 단계, 상기 획득된 학습데이터를 이용하여 딥러닝 모델을 구축하는 단계 및 상기 구축된 딥러닝 모델을 통해 주어진 화합물과 단백질의 상호작용을 예측하는 단계를 실행시키기 위하여 컴퓨터 판독가능한 기록매체에 저장될 수 있다. 이때, 상기 학습용 단백질 데이터는 상기 학습용 단백질의 아미노산 서열을 포함하고, 상기 구축하는 단계는, 상기 학습용 단백질의 아미노산 서열에서 상기 상호작용에 부정적 영향을 미치는 제1 단백질 도메인과 연관된 아미노산 서열을 제외하여 제1 학습데이터를 생성하는 단계 및 상기 제1 학습데이터로 상기 딥러닝 모델을 학습시키는 단계를 포함할 수 있다.

상술한 본 개시의 몇몇 실시예들에 따르면, 딥러닝 모델을 통해 주어진 화합물과 단백질의 상호작용이 정확하게 예측될 수 있다.

또한, 학습용 단백질의 아미노산 서열에서 생체 내에서 상호작용에 부정적 영향을 미치는 단백질 도메인과 연관된 서열을 제외하고 딥러닝 모델을 학습시키거나, 연관된 서열을 이용하여 딥러닝 모델에 대해 별도의 학습이 수행될 수 있다. 이에 따라, 딥러닝 모델이 실제 생체 내 환경에서 주어진 화합물과 단백질의 상호작용을 정확하게 예측할 수 있게 되어, 딥러닝 모델의 효용성이 크게 향상될 수 있다.

본 개시의 기술적 사상에 따른 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 개시의 몇몇 실시예들에 따른 화합물과 단백질의 상호작용 예측 장치와 그의 입출력 데이터를 설명하기 위한 예시적인 도면이다.
도 2는 본 개시의 몇몇 실시예들에 따른 화합물과 단백질의 상호작용 예측 방법을 개략적으로 나타내는 예시적인 흐름도이다.
도 3은 본 개시의 몇몇 실시예들에 따른 인공 신경망 기반의 딥러닝 모델을 예시한다.
도 4는 본 개시의 제1 실시예에 따른 딥러닝 모델의 구조와 학습 방법을 설명하기 위한 예시적인 도면이다.
도 5 및 도 6은 본 개시의 제2 실시예에 따른 딥러닝 모델의 구조와 학습 방법을 설명하기 위한 예시적인 도면이다.
도 7은 본 개시의 제3 실시예에 따른 딥러닝 모델의 구조와 학습 방법을 설명하기 위한 예시적인 도면이다.
도 8은 본 개시의 제4 실시예에 따른 딥러닝 모델의 구조와 학습 방법을 설명하기 위한 예시적인 도면이다.
도 9 내지 도 11은 본 개시의 제5 실시예에 따른 딥러닝 모델의 학습 방법을 설명하기 위한 예시적인 도면이다.
도 12 및 도 13은 본 개시의 제6 실시예에 따른 딥러닝 모델의 학습 방법을 설명하기 위한 예시적인 도면이다.
도 14는 본 개시의 몇몇 실시예들에 따른 딥러닝 모델을 설명하기 위한 예시적인 도면이다.
도 15는 본 개시의 몇몇 실시예들에 따른 화합물과 단백질의 상호작용 예측 장치를 구현할 수 있는 예시적인 컴퓨팅 장치를 도시한다.

이하, 첨부된 도면을 참조하여 본 개시의 바람직한 실시예들을 상세히 설명한다. 본 개시의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 개시의 기술적 사상은 이하의 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 이하의 실시예들은 본 개시의 기술적 사상을 완전하도록 하고, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 본 개시의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 개시의 기술적 사상은 청구항의 범주에 의해 정의될 뿐이다.

각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 개시를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 개시의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다. 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 개시를 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다.

또한, 본 개시의 구성요소를 설명하는 데 있어서, 제1, 제2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성요소를 다른 구성요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 어떤 구성요소가 다른 구성요소에 "연결", "결합" 또는 "접속"된다고 기재된 경우, 그 구성요소는 그 다른 구성요소에 직접적으로 연결되거나 또는 접속될 수 있지만, 각 구성요소 사이에 또 다른 구성요소가 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다.

본 개시에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.

이하, 본 개시의 다양한 실시예들에 대하여 첨부된 도면에 따라 상세하게 설명한다.

도 1은 본 개시의 몇몇 실시예들에 따른 화합물과 단백질의 상호작용 예측 장치(10)와 그의 입출력 데이터를 설명하기 위한 예시적인 도면이다.

도 1에 도시된 바와 같이, 상기 상호작용 예측 장치(10)는 화합물 데이터와 단백질 데이터 등과 같은 입력 데이터를 토대로 입력된 화합물과 단백질의 상호작용(interaction) 정보(e.g. 결합 친화도 등)를 예측하여 출력하는 컴퓨팅 장치일 수 있다. 가령, 입력된 화합물이 약물(drug)이고 입력된 단백질이 질병을 유도하는 것으로 예측되는 타깃 단백질(target protein)인 경우, 상호작용 예측 장치(10)는 DTI(Drug-Target Interactions) 정보를 예측할 수 있다. 이러한 경우, 상호작용 예측 장치(10)는 신약 개발 과정에서 후보 신약 물질을 도출하기 위해 효과적으로 활용될 수 있다. 이하에서는, 설명의 편의상, 상호작용 예측 장치(10)를 "예측 장치(10)"로 약칭하도록 한다.

상기 컴퓨팅 장치는 노트북, 데스크톱(desktop), 랩탑(laptop) 등이 될 수 있으나, 이에 국한되는 것은 아니며 컴퓨팅 기능이 구비된 모든 종류의 장치를 포함할 수 있다. 컴퓨팅 장치의 일 예시에 관하여서는 도 15를 참조하도록 한다.

보다 구체적으로, 예측 장치(10)는 딥러닝 모델(deep-learning model)을 이용하여 화합물과 단백질의 상호작용을 예측할 수 있다. 이때, 딥러닝 모델은 다양한 종류의 신경망(neural network) 모델에 기초하여 구현될 수 있으며, 다양한 구조로 설계될 수 있다. 신경망 모델은 예를 들어 인공 신경망(artificial neural networks; "ANN"), 컨볼루션 신경망(convolutional neural networks; "CNN"), 순환 신경망(recurrent neural networks; "RNN") 또는 이들의 조합 등을 포함할 수 있을 것이나, 이에 한정되는 것은 아니다. 상기 딥러닝 모델의 세부 구조와 학습 방법에 관하여서는 도 2 이하의 도면을 참조하여 후술하도록 한다.

상기 화합물 데이터는 예를 들어 해당 화합물의 화합식, 작용기, 몰질량, 구성원자, 결합구조, 전자수, 산도 등에 대한 데이터를 포함할 수 있으나, 이에 제한되지 않고 다양한 데이터를 더 포함하거나, 전술된 데이터라도 포함되지 않을 수 있다.

상기 단백질 데이터는 예를 들어 해당 단백질의 아미노산 서열, 아미노산 잔기, 단백질의 조직 특이적 또는 질병 환자 특이적 발현양상, 단백질의 특정 세포 신호 전달체계에서의 역할 등에 대한 데이터를 포함할 수 있으나, 이에 제한되지 않고 다양한 데이터를 더 포함할 수 있고, 전술된 데이터라도 포함되지 않을 수 있다.

상기 상호작용 정보는 예를 들어 결합 친화도(binding affinity), 결합성, 결합력 등과 같이 상호작용과 관련된 다양한 지표에 관한 점수를 포함할 수 있다. 그러나, 이에 한정되는 것은 아니다. 이하에서는, 이해의 편의를 위해, 상호작용 정보가 상호작용 정도를 나타내는 점수("상호작용 점수")인 것을 가정하여 설명을 이어가도록 한다.

몇몇 실시예들에서는, 예측 장치(10)가 화합물의 용도(또는 효능)를 더 예측할 수 있다. 구체적으로, 예측 장치(10)는 딥러닝 모델을 이용하여 주어진 화합물과 상호작용 가능할 것으로 예측되는 단백질 리스트를 출력할 수 있다. 가령, 예측 장치(10)는 주어진 화합물의 데이터와 특정 단백질의 데이터를 딥러닝 모델에 입력하되, 상기 특정 단백질의 종류를 변경해가며 딥러닝 모델에 입력함으로써 주어진 화합물과 다양한 단백질과의 상호작용 점수를 예측할 수 있다. 그리고, 예측 장치(10)는 예측된 상호작용 점수가 기준치 이상인 단백질들로 구성된 단백질 리스트를 출력할 수 있다. 또한, 예측 장치(10)는 단백질 리스트에 포함된 단백질들의 공통적인 특성에 기초하여 화합물의 용도 또는 효능을 예측할 수 있다. 가령, 단백질 리스트에 포함된 단백질들이 특정 질환의 환자 샘플에서 다른 양상의 발현 패턴을 갖는 경우, 예측 장치(10)는 주어진 화합물이 상기 특정 질환에 효능을 가지는 것으로 예측할 수 있다. 또한, 단백질 리스트에 포함된 단백질들이 특정 부작용과 관련이 있는 경우, 예측 장치(10)는 주어진 화합물이 특정 부작용과 연관될 가능성이 높을 것으로 예측할 수 있다.

한편, 도 1은 예측 장치(10)가 하나의 컴퓨팅 장치로 구현된 것을 예로써 도시하고 있으나, 예측 장치(10)는 복수의 컴퓨팅 장치들로 구현될 수도 있다. 이러한 경우, 예측 장치(10)의 제1 기능은 제1 컴퓨팅 장치에서 구현되고, 제2 기능은 제2 컴퓨팅 장치에서 구현될 수 있다. 또는, 예측 장치(10)의 특정 기능이 복수의 컴퓨팅 장치에서 구현될 수도 있다.

지금까지 도 1을 참조하여 본 개시의 몇몇 실시예들에 따른 예측 장치(10)와 그의 입출력 데이터에 대하여 간략하게 설명하였다. 이하에서는, 도 2 이하의 도면을 참조하여 화합물과 단백질의 상호작용 예측 방법에 대하여 설명하도록 한다.

이하에서 후술될 상호작용 예측 방법의 각 단계는 컴퓨팅 장치에 의해 수행될 수 있다. 다시 말하면, 상기 방법의 각 단계는 컴퓨팅 장치의 프로세서에 의해 실행되는 하나 이상의 인스트럭션들(instructions)로 구현될 수 있다. 상기 방법에 포함되는 모든 단계는 하나의 물리적인 컴퓨팅 장치에 의하여 실행될 수도 있을 것이나, 복수의 물리적인 컴퓨팅 장치에 의해 분산되어 실행될 수도 있다. 예를 들면, 상기 방법의 제1 단계들은 제1 컴퓨팅 장치에 의하여 수행되고, 상기 방법의 제2 단계들은 제2 컴퓨팅 장치에 의하여 수행될 수도 있다. 이하에서는, 상기 방법의 각 단계가 도 1에 예시된 예측 장치(10)에 의해 수행되는 것을 가정하여 설명을 이어가도록 한다. 따라서, 이하의 설명에서 각 동작의 주어가 생략된 경우, 상기 예시된 장치(10)에 의하여 수행되는 것으로 이해될 수 있다. 다만, 경우에 따라, 상기 방법의 일부 단계들은 다른 컴퓨팅 장치에서 수행될 수도 있다.

도 2는 본 개시의 몇몇 실시예들에 따른 화합물과 단백질의 상호작용 예측 방법을 개략적으로 나타내는 예시적인 흐름도이다. 단, 이는 본 개시의 목적을 달성하기 위한 바람직한 실시예일뿐이며, 필요에 따라 일부 단계가 추가되거나 삭제될 수 있음은 물론이다.

도 2에 도시된 바와 같이, 상기 상호작용 예측 방법은 학습데이터(셋)를 획득하는 단계 S100에서 시작될 수 있다. 여기서, 학습데이터(또는 학습데이터를 구성하는 샘플들)는 학습용 화합물 데이터, 학습용 단백질 데이터 및 상호작용 정보(즉, 정답 상호작용 정보)로 구성될 수 있는데, 상호작용 정보는 예를 들어 상호작용 유무 또는 정도를 수치적으로 나타낸 상호작용 점수일 수 있다.

상기 학습데이터는 DrugBank, Pubchem 등과 같이 공개된 DB로부터 획득될 수 있을 것이나, 이에 한정되는 것은 아니다.

단계 S200에서, 획득된 학습데이터를 이용하여 딥러닝 모델이 학습될 수 있다. 가령, 예측 장치(10)는 학습데이터를 구성하는 각 샘플(sample)을 딥러닝 모델에 입력하여 예측 상호작용 점수를 획득하고, 예측 상호작용 점수와 정답 상호작용 점수와의 차이에 기초하여 예측 오차를 산출하며, 산출된 예측 오차를 역전파(back-propagation)함으로써 딥러닝 모델을 학습시킬 수 있다. 여기서, 학습이라는 것은 예측 오차가 최소화되는 방향으로 딥러닝 모델의 가중치가 업데이트되는 것을 의미할 수 있다.

앞서 언급한 바와 같이, 딥러닝 모델은 다양한 유형의 신경망 모델에 기초하여 구현(구성)될 수 있다. 가령, 도 3에 예시된 바와 같이, 딥러닝 모델은 ANN에 기초하여 구현될 수 있다. 이때, ANN은 입력 레이어(21), 히든 레이어(22) 및 출력 레이어(23)로 구성될 수 있고, 입력 레이어(21)는 화합물 데이터와 단백질 데이터를 입력받도록 설계되며, 출력 레이어(23)는 상호작용 점수(I-score)를 출력하도록 설계될 수 있을 것이나, 이에 한정되는 것은 아니다. 당해 기술 분야의 종사자라면 ANN을 구성하는 각 레이어의 기능, 동작 원리 및 기본적인 학습 방법 등에 관하여 충분히 숙지하고 있을 것인 바, 이에 대한 자세한 설명은 생략하도록 한다.

참고로, 화합물 데이터는 원형 핑거프린트(circular fingerprint)와 같은 화합물 핑거프린트 기법에 의해 핑거프린트 데이터로 변환되어 딥러닝 모델에 입력될 수 있다. 그러나, 본 개시의 범위가 이에 한정되는 것은 아니다.

실시예에 따른 딥러닝 모델의 세부 구조와 구체적인 학습 방법에 관하여서는 도 4 이하의 도면을 참조하여 후술하도록 한다.

다시 도 2를 참조하여 설명한다.

단계 S300에서, 구축된 딥러닝 모델을 통해 주어진 화합물과 단백질의 상호작용이 예측될 수 있다. 가령, 예측 장치(10)는 주어진 화합물의 데이터와 단백질의 데이터를 딥러닝 모델에 입력하여 상호작용 점수를 예측할 수 있다.

지금까지 도 2를 참조하여 본 개시의 몇몇 실시예들에 따른 화합물과 단백질의 상호작용 예측 방법을 개략적으로 설명하였다. 이하에서는, 딥러닝 모델의 구조와 학습 방법에 관한 본 개시의 다양한 실시예들에 대하여 설명하도록 한다.

도 4는 본 개시의 제1 실시예에 따른 딥러닝 모델의 구조와 학습 방법을 설명하기 위한 예시적인 도면이다.

도 4에 도시된 바와 같이, 본 실시예에서는, 딥러닝 모델이 화합물 데이터를 입력받는 제1 신경망(41), 단백질 데이터를 입력받는 제2 신경망(42) 및 상호작용 점수를 출력하는 제3 신경망(43)으로 구성될 수 있다.

제1 신경망(41)은 입력된 화합물 데이터에 대해 신경망 연산을 수행하여 입력된 화합물의 특징 데이터를 추출하도록 학습될 수 있다. 제1 신경망(31)은 제2 신경망(32)과 독립적인 네트워크로 구성됨으로써, 화합물만의 특징 데이터를 정확하게 추출하도록 학습될 수 있다. 앞서 언급한 바와 같이, 상기 화합물 데이터는 핑거프린트 데이터로 변환되어 제1 신경망(41)에 입력될 수 있을 것이나, 본 개시의 범위가 이에 한정되는 것은 아니다. 제1 신경망(41)은 ANN, CNN, RNN 등과 같이 다양한 종류의 신경망에 기초하여 구현될 수 있다.

다음으로, 제2 신경망(42)은 입력된 단백질 데이터에 대해 신경망 연산을 수행하여 입력된 단백질의 특징 데이터를 추출하도록 학습될 수 있다. 제2 신경망(32)은 제1 신경망(31)과 독립적인 네트워크로 구성됨으로써, 단백질만의 특징 데이터를 정확하게 추출하도록 학습될 수 있다. 상기 단백질 데이터는 예를 들어 단백질의 아미노산 서열을 포함할 수 있으나, 이에 한정되는 것은 아니다. 제2 신경망(42) 또한 ANN, CNN, RNN 등과 같이 다양한 종류의 신경망에 기초하여 구현될 수 있다.

다음으로, 제3 신경망(43)은 신경망 연산을 통해 화합물과 단백질의 특징 데이터를 종합적으로 분석하여 상호작용 점수를 예측하도록 학습될 수 있다. 제3 신경망(43)은 예를 들어 완전 연결 레이어(fully connected layer)로 구현될 수 있을 것이나, 이에 한정되는 것은 아니다.

제1 내지 제3 신경망(31 내지 33)은 제3 신경망(33)을 통해 출력된 학습용 화합물과 학습용 단백질의 예측 상호작용 점수와 정답 상호작용 점수의 차이에 기초한 오차가 역전파됨으로써 학습될 수 있다.

지금까지 도 4를 참조하여 본 개시의 제1 실시예에 따른 딥러닝 모델의 구조와 학습 방법에 대하여 설명하였다. 상술한 바에 따르면, 화합물 데이터와 단백질 데이터로부터 특징 데이터를 추출하는 신경망을 독립적으로 구성함으로써, 딥러닝 모델의 성능이 향상될 수 있다.

이하에서는, 도 5 및 도 6을 참조하여 본 개시의 제2 실시예에 따른 딥러닝 모델의 구조와 학습 방법에 대하여 설명하도록 한다. 또한, 이하에서는, 본 개시의 명료함을 위해, 앞선 실시예들과 중복되는 내용에 대한 설명은 생략하도록 한다.

도 5는 본 개시의 제2 실시예에 따른 딥러닝 모델의 구조를 개략적으로 예시하고 있다.

도 5에 예시된 바와 같이, 본 실시예에서는, 단백질 데이터를 입력받는 제2 신경망(42)이 CNN에 기반하여 구현될 수 있다. 정확하게는, 단백질의 아미노산 서열 데이터를 입력받는 제2 신경망(42)의 적어도 일부가 CNN을 포함하도록 구성될 수 있다. 또한, 전처리 과정을 통해 상기 아미노산 서열 데이터가 CNN에 적합한 2차원의 이미지로 변환되고, 변환된 2차원 이미지가 제2 신경망(42)으로 입력될 수 있다. 다만, 구체적인 전처리 방식은 실시예에 따라 달라질 수 있다.

몇몇 실시예들에서는, 단백질의 아미노산 서열로부터 복수의 n-그램(gram) 서열이 추출될 수 있다. 그리고, 아미노산의 종류 또는 아미노산 서열에 대응되는 2개의 축에 의해 형성된 2차원 평면 상에 복수의 n-그램 서열이 매핑됨으로써 2차원 이미지가 생성될 수 있다. 이때, 이미지의 픽셀값은 아미노산 서열에 등장하는 n-그램 서열의 개수에 기초하여 설정될 수 있다. 보다 이해의 편의를 제공하기 위해, 도 6에 도시된 예를 참조하여 부연 설명하도록 한다.

도 6은 아미노산 서열로부터 추출된 바이그램 서열(즉, n이 2인 경우; 51 내지 53)이 2차원 평면(50) 상에 매핑되는 과정을 예로써 도시하고 있다. 참고로, 이하의 도면에서, "AA"는 아미노산(Amino Acid)을 지칭하고, 숫자 첨자가 아닌 알파벳 첨자(a, b, c 등)는 아미노산의 종류를 지칭한다.

도 6에 예시된 바와 같이, 단백질의 아미노산 서열로부터 복수의 바이그램 서열(51 내지 53)이 추출되었다고 가정하자. 이와 같은 경우, 제1 바이그램 서열(51; "AA_a-AA_b")은 2차원 평면(50) 상의 (a, b) 좌표에 매핑될 수 있다. 그리고, 매핑됨에 따라, (a, b) 좌표의 픽셀값이 일정 값(e.g. 1)만큼 증가될 수 있다. 동일한 방식으로, 제2 바이그램 서열(52; "AA_b-AA_a")과 제3 바이그램 서열(53; "AA_a-AA_c") 등도 2차원 평면(50) 상에 매핑될 수 있으며, 이러한 매핑 과정이 반복됨에 따라 2차원의 이미지(54)가 생성될 수 있다.

제1 내지 제3 신경망(41 내지 43)은 제3 신경망(43)을 통해 출력된 학습용 화합물과 학습용 단백질의 예측 상호작용 점수와 정답 상호작용 점수의 차이에 기초한 오차가 역전파됨으로써 학습될 수 있다. 또한, 이러한 학습에 따라 제2 신경망(42)은 입력된 2차원 이미지에서 화합물과의 상호작용에 영향을 미치는 지역적 서열 패턴(특징)을 추출하도록 트레이닝될 수 있다.

한편, 도 6은 n이 2인 경우를 예로써 도시하고 있으나, 이는 이해의 편의를 제공하기 위한 것일 뿐이며, n은 3 이상이 될 수도 있다. n이 3 이상인 경우에는, X축 및/또는 Y축이 기 정의된 아미노산 서열(e.g. AA_a-AA_a, AA_a-AA_b, AA_b-AA_a 등)과 대응 관계를 갖도록 설계될 수 있다. 또는 2차원 이미지의 채널 축을 더 활용하여 n-그램 서열의 매핑이 이루어질 수도 있다.

지금까지 도 5 및 도 6을 참조하여 본 개시의 제2 실시예에 따른 딥러닝 모델의 구조와 학습 방법에 대하여 설명하였다. 상술한 바에 따르면, n-그램 기법을 이용하여 단백질의 아미노산 서열이 2차원의 이미지로 변환되고, CNN을 통해 2차원 이미지에서 화합물과의 상호작용에 영향을 미치는 지역적 서열 패턴(특징)이 추출될 수 있다. 이에 따라, 딥러닝 모델의 성능이 향상될 수 있다.

이하에서는, 본 개시의 제3 실시예에 따른 딥러닝 모델의 구조와 학습 방법에 대하여 설명하도록 한다.

본 실시예에서는, 딥러닝 모델이 CNN에 기반하여 구현될 수 있다. 또한, 전처리 과정을 통해 화합물 데이터와 단백질 데이터가 CNN에 적합한 2차원의 이미지로 변환되고, 변환된 2차원 이미지가 딥러닝 모델로 입력될 수 있다.

구체적으로, 화합물의 작용기에 대응되는 제1 축과 단백질의 아미노산 잔기에 대응되는 제2 축에 의해 형성되는 2차원 평면 상에 특정 화합물과 특정 단백질의 쌍(pair)이 매핑됨으로써 2차원의 이미지가 생성될 수 있다. 이때, 이미지의 픽셀값은 해당 작용기와 아미노산 잔기의 결합 정도에 기초하여 설정될 수 있다. 보다 이해의 편의를 제공하기 위해, 도 7에 도시된 예를 참조하여 부연 설명하도록 한다.

도 7은 잔기 및 작용기 정보를 이용하여 단백질과 화합물의 쌍이 2차원 평면(60) 상에 매핑되는 과정을 예로써 도시하고 있다. 참고로, 이하의 도면에서, "CC"는 화합물(Chemical Compound)을 지칭한다.

도 7에 예시된 바와 같이, 화합물이 작용기₃을 포함하고, 단백질이 아미노산 잔기₃을 포함한다고 가정하자. 그러면, (작용기₃, 아미노산 잔기₃) 좌표에 작용기₃과 아미노산 잔기₃의 결합 정도를 나타내는 값이 픽셀값으로 할당될 수 있다. 이러한 과정이 반복됨에 따라 2차원의 이미지(61)가 생성될 수 있다.

본 실시예에 따른 딥러닝 모델은 2차원 이미지(e.g. 61)를 입력함으로써 획득된 예측 상호작용 점수와 정답 상호작용 점수의 차이에 기초한 오차가 역전파됨으로써 학습될 수 있다. 또한, 이러한 학습에 따라 딥러닝 모델의 CNN은 2차원 이미지에서 아미노산 잔기와 화합물 작용기의 결합 패턴을 추출하도록 트레이닝될 수 있다.

지금까지 도 7을 참조하여 본 개시의 제3 실시예에 따른 딥러닝 모델의 구조와 학습 방법에 대하여 설명하였다. 상술한 바에 따르면, 단백질과 화합물의 쌍이 아미노산 잔기와 화합물 작용기를 고려하여 2차원 이미지로 변환되고, CNN을 통해 2차원 이미지에서 단백질과 화합물의 상호작용에 영향을 미치는 잔기-작용기 결합 패턴(특징)이 추출될 수 있다. 이에 따라, 딥러닝 모델의 성능이 향상될 수 있다.

이하에서는, 본 개시의 제4 실시예에 따른 딥러닝 모델의 구조와 학습 방법에 대하여 설명하도록 한다.

본 실시예에서는, 딥러닝 모델이 RNN 기반의 임베딩 레이어(embedding layer)와 신경망을 포함하도록 구성될 수 있다. 정확하게는, 단백질의 아미노산 서열 데이터를 입력받는 신경망(e.g. 도 4의 제2 신경망 32)이 임베딩 레이어와 신경망 레이어를 포함하도록 구성될 수 있고, 임베딩 레이어는 임베딩 벡터를 출력하도록 학습되고, 신경망 레이어는 신경망 연산을 통해 임베딩 벡터로부터 해당 단백질의 특징 데이터를 추출하도록 학습될 수 있다. 또한, 전처리 과정을 통해 상기 아미노산 서열 데이터가 임베딩 레이어의 입력 데이터(벡터)로 변환될 수 있다. 다만, 구체적인 전처리 방식은 실시예에 따라 달라질 수 있다.

몇몇 실시예들에서는, 단백질의 아미노산 서열로부터 복수의 n-그램 서열이 추출될 수 있다. 또한, 복수의 n-그램 서열이 벡터 형식으로 변환되어 임베딩 레이어에 입력될 수 있다. 보다 이해의 편의를 제공하기 위해, 도 8에 도시된 예를 참조하여 부연 설명하도록 한다.

도 8은 Bi-LSTM(Long Short-Term Memory) 기반의 임베딩 레이어를 통해 단백질의 아미노산 서열에서 추출된 바이그램 서열(71 내지 73)이 임베딩 벡터(Y₁ 내지 Y_t)로 변환되는 과정을 예시하고 있다.

도 8에 예시된 바와 같이, 단백질의 아미노산 서열로부터 복수의 바이그램 서열(71 내지 73)이 추출되었다고 가정하자. 이러한 경우, 각 바이그램 서열(71 내지 73)은 바이그램 벡터로 변환되어 임베딩 레이어로 입력될 수 있다. 바이그램 서열을 벡터로 변환하는 방식은 어떠한 방식이 되더라도 무방하며, BoW(Back of Words) 등과 같이 공지된 기법이 이용될 수도 있다.

임베딩 레이어는 입력된 바이그램 벡터(X₁ 내지 X_t)에 대해 신경망 연산을 수행함으로써 임베딩 벡터(Y₁ 내지 Y_t)를 출력하도록 학습될 수 있다. 몇몇 실시예들에서는, 임베딩 레이어 내에 신경망 레이어(74)가 위치할 수도 있다. 이러한 경우, 신경망 레이어(74)는 RNN 레이어(e.g. LSTM 유닛으로 구성된 레이어)의 출력 값을 종합하여 임베딩 벡터(Y₁ 내지 Y_t)를 생성하도록 학습될 수 있다.

지금까지 도 8을 참조하여 본 개시의 제4 실시예에 따른 딥러닝 모델의 구조와 학습 방법에 대하여 설명하였다. 상술한 바에 따르면, RNN 기반의 임베딩 레이어를 통해 아미노산 서열이 임베딩 벡터로 변환될 수 있다. 이때, RNN은 아미노산의 순차적 배열에 기반한 특징들이 집약되어 있는 임베딩 벡터를 생성할 수 있기 때문에, 딥러닝 모델의 성능이 향상될 수 있다.

이하에서는, 본 개시의 제5 실시예에 따른 딥러닝 모델의 구조와 학습 방법에 대하여 설명하도록 한다.

본 실시예는 생체 내 환경에서 주어진 화합물과 단백질의 상호작용을 보다 정확하게 예측할 수 있도록 딥러닝 모델을 구축하는 방법에 관한 것인데, 본격적인 설명에 앞서, 이해의 편의를 제공하기 위해, 도 9를 참조하여 본 실시예의 고안 배경에 대하여 간략하게 언급하도록 한다.

앞서 언급한 바와 같이, 학습용 단백질의 아미노산 서열 데이터, 상호작용 점수 등과 같은 학습데이터는 공개된 DB로부터 얻을 수 있다. 예를 들어, 공개된 DB로부터 도 9에 예시된 바와 같은 학습용 단백질(P1 내지 Pn)의 아미노산 서열 데이터(80)가 획득될 수 있다. 여기서, 학습용 단백질(e.g. P1)의 아미노산 서열은 특정 단백질 도메인(domain)과 연관된 서열(81 내지 83)을 포함할 수 있는데, 특정 단백질 도메인은 예를 들어 막관통 도메인(transmembrane domain), 세포외 도메인(extracellular domain), 세포 소기관 막 도메인(subcellular organelles membrane domain) 등을 의미할 수 있고, 이외에도 다양한 도메인이 더 존재할 수 있다.

한편, 특정 단백질 도메인과 연관된 아미노산 서열을 갖는 단백질은 생체 내에서 해당 단백질 도메인에 위치할 가능성이 높다는 사실이 알려져 있다. 가령, 막관통 도메인과 연관된 서열을 갖는 단백질(e.g. 원형질막 수용체(plasma membrane receptor)을 비롯한 막단백질)은 막관통 부위에 위치하여 막관통 단백질로 기능할 가능성이 높다는 사실이 알려져 있다. 따라서, 단백질의 아미노산 서열이 어떤 도메인과 연관된 서열을 갖는지에 따라 생체 내에서 화합물과 단백질의 상호작용 정도가 크게 달라질 수 있다. 가령, 막관통 도메인과 연관된 아미노산 서열을 갖는 단백질은 생체 내에서 막관통 부위(도메인)에 위치하게 됨에 따라 화합물과 상호작용할 가능성이 현저하게 떨어질 수 있다. 또는, 세포외 도메인과 연관된 아미노산 서열을 갖는 단백질은 생체 내에서 세포외 부위(도메인)에 위치하게 됨에 따라 화합물과 더 잘 상호작용할 수도 있다.

그런데, 공개된 DB(또는 사이트)에서 제공하는 화합물과 단백질의 상호작용 점수는 대부분 생체 내 환경이 아닌 실험실 환경(in vitro)에서 측정된 값이기 때문에, 단백질 도메인에 따라 달라질 수 있는 상호작용 정도까지 반영되어 있지 않다. 따라서, 해당 DB의 데이터를 그대로 이용하여 구축된 딥러닝 모델은 생체 내에서 화합물과 단백질의 상호작용 정도를 정확하게 예측하기가 어렵다. 가령, 딥러닝 모델에 의해 상호작용이 잘 될 것으로 예측된 화합물과 단백질이 실제 생체 내에서는 상호작용이 잘 되지 않을 수 있으며, 이러한 경우 신약 개발이 지연되는 등 딥러닝 모델의 효용성이 크게 떨어질 수 있다.

이하에서는, 상술한 문제를 해결하기 위한 본 개시의 제5 실시예에 따른 딥러닝 모델의 학습 방법에 대하여 설명하도록 한다.

본 실시예에서는, 단백질 도메인이 화합물과의 상호작용 정도에 미치는 영향을 딥러닝 모델에 반영하기 위해 학습 데이터의 전처리 과정 및/또는 학습 과정이 앞선 실시예들과 다른 방식으로 수행될 수 있다. 다만, 그 구체적인 방식은 다양할 수 있다.

제1 예에서는, 단백질 도메인이 상호작용 정도에 미치는 영향을 고려하여 학습데이터의 상호작용 점수가 조정될 수 있다. 구체적으로, 부정적 영향을 미치는 단백질 도메인(이하, "부정 도메인"으로 약칭함; e.g. 막관통 도메인, 세포 소기관 막 도메인)과 연관된 아미노산 서열("이하, "부정 아미노산 서열"로 약칭함)을 포함하는 제1 학습용 단백질의 상호작용 점수는 하향 조정될 수 있다. 이와 반대로, 긍정적 영향을 미치는 단백질 도메인(이하, "긍정 도메인"으로 약칭함; e.g. 세포외 도메인)과 연관된 아미노산 서열("이하, "긍정 아미노산 서열"로 약칭함)을 포함하는 제2 학습용 단백질의 상호작용 점수는 상향 조정될 수 있다. 이때, 조정폭은 해당 단백질 도메인이 화합물과의 상호작용에 영향을 미치는 정도, 단백질에 포함된 연관 아미노산 서열의 개수 등에 따라 달라질 수도 있다. 또한, 상호작용 점수가 조정된 학습데이터를 이용하여 딥러닝 모델이 학습될 수 있다. 이와 같은 경우, 생체 내 환경을 고려하여 조정된 상호작용 점수를 통해 딥러닝 모델이 학습되므로, 딥러닝 모델이 생체 내 환경에서의 상호작용을 더욱 정확하게 예측하게 된다. 이에 따라, 딥러닝 모델의 효용성이 향상될 수 있다.

제2 예에서는, 학습용 단백질의 아미노산 서열 데이터에서 긍정 아미노산 서열 및/또는 부정 아미노산 서열이 제거되는 전처리가 수행될 수 있다. 가령, 도 10에 도시된 바와 같이, 각 학습용 단백질(P1 내지 Pn)의 아미노산 서열에서 부정 아미노산 서열(91 내지 93)이 제거되는 전처리를 통해 학습용 단백질(P1 내지 Pn)의 아미노산 서열 데이터(90)가 새롭게 구성(생성)될 수 있다. 또한, 아미노산 서열 데이터(90), 학습용 화합물 데이터 및 상호작용 점수를 포함하는 학습데이터를 이용하여 딥러닝 모델이 학습될 수 있다. 이와 같은 경우, 화합물과의 상호작용에 부정적인 영향을 미치는 아미노산 서열들이 높은 상호작용 점수로 학습되는 것이 방지될 수 있는 바, 딥러닝 모델의 성능과 효용성이 향상될 수 있다.

제3 예에서는, 도 11에 도시된 바와 같이, 상기 제거 전처리가 수행되지 않은 본래의 학습데이터(101)를 이용하여 딥러닝 모델(102)에 대해 제1 학습이 수행될 수 있다. 그리고, 상기 제거 전처리를 통해 얻어진(또는 알려진) 부정 아미노산 서열 및/또는 긍정 아미노산 서열을 이용하여 딥러닝 모델(102)에 대해 제2 학습이 수행될 수 있다. 구체적으로, 부정 아미노산 서열 및/또는 긍정 아미노산 서열과 화합물 데이터 및 상호작용 점수로 구성된 학습 데이터(103)를 이용하여 제2 학습이 수행될 수 있다. 이때, 학습 데이터(103)의 상호작용 점수는 긍정 도메인 또는 부정 도메인이 상호작용에 미치는 영향에 기초하여 결정될 수 있다. 가령, 막관통 도메인과 연관된 부정 아미노산 서열의 상호작용 점수는 매우 낮은 값(e.g. 하위 10%의 값, 0 등)으로 결정될 수 있다. 본 예시에서, 상기 제2 학습은 제1 학습 이후에 수행될 수도 있고, 이전에 수행될 수도 있으며 동시에 수행될 수도 있다. 본 예시에 따르면, 별도의 학습을 통해 부정 아미노산 서열 및/또는 긍정 아미노산 서열이 상호작용에 영향을 미치는 정도가 딥러닝 모델에 반영될 수 있다. 이에 따라, 딥러닝 모델이 생체 내 환경을 고려하여 예측을 수행할 수 있게 되므로, 딥러닝 모델의 성능과 효용성이 향상될 수 있다.

한편, 제4 예에서는, 딥러닝 모델의 예측 과정에서 상호작용 점수를 조정하는 후처리가 이루어질 수도 있다. 구체적으로, 예측 장치(10)는 학습된 딥러닝 모델을 통해 주어진 단백질과 화합물의 상호작용 점수를 예측한 이후에, 주어진 단백질이 긍정 아미노산 서열 및/또는 부정 아미노산 서열을 포함하는 정도에 따라 예측된 상호작용 점수를 조정할 수 있다. 이때, 조정폭은 주어진 단백질과 연관된 단백질 도메인이 화합물과의 상호작용에 영향을 미치는 정도, 단백질에 포함된 연관 아미노산 서열의 개수 등에 따라 달라질 수도 있다.

제5 예에서는, 상술한 예시들의 다양한 조합에 기초하여 딥러닝 모델이 학습되고 활용될 수 있다.

지금까지 도 9 내지 도 11을 참조하여 본 개시의 제5 실시예에 따른 딥러닝 모델의 학습 방법에 대하여 설명하였다. 상술한 방법에 따르면, 단백질 도메인과 상호작용의 관계를 고려하여 딥러닝 모델에 대한 학습이 수행될 수 있다. 이에 따라, 딥러닝 모델이 생체 내 환경에서의 상호작용을 정확하게 예측할 수 있게 되어, 딥러닝 모델이 효용성이 크게 향상될 수 있다.

이하에서는, 본 개시의 제6 실시예에 따른 딥러닝 모델의 학습 방법에 대하여 설명하도록 한다.

본 실시예는 학습데이터의 분석 결과를 이용하여 딥러닝 모델의 성능을 보다 향상시킬 수 있는 방법에 관한 것으로, 보다 구체적으로는 특정 화합물과 상호작용 정도가 강한 단백질들의 공통 아미노산 서열 또는 상호작용 정도가 약한 단백질들의 공통 아미노산 서열 등을 이용하여 딥러닝 모델을 학습(e.g. 가중 학습, 추가 학습)시키는 방법에 관한 것이다. 이하, 본 실시예에 관하여 도 12 및 도 13을 참조하여 설명하도록 한다.

도 12는 학습데이터를 분석하여 주요 아미노산 서열을 추출하는 과정을 예시하고 있고, 도 13은 추출된 주요 아미노산 서열을 이용하여 딥러닝 모델(117)을 학습시키는 과정을 예시하고 있다.

도 12에 도시된 바와 같이, 학습데이터에서 학습용 화합물(CC₁)과의 상호작용 점수(I-score)가 제1 기준치(e.g. I-scoreH) 이상인 제1 복수의 학습용 단백질(P_H)과 제2 기준치(e.g. I-scoreL) 이하인 제2 복수의 단백질(P_L)이 선별될 수 있다. 또한, 선별된 복수의 학습용 단백질(P_H,P_L)의 아미노산 서열을 비교 분석하여 공통 서열(111, 113)과 비공통 서열(112)이 추출될 수 있다.

예를 들어, 제1 복수의 학습용 단백질(P_H)의 아미노산 서열을 비교 분석하여 제1 공통 서열(111)이 추출될 수 있다. 여기서, 제1 공통 서열(111)은 제1 복수의 학습용 단백질(P_H)에 공통적으로 등장하는 아미노산 서열 또는 그와 유사한 아미노산 서열을 포함할 수 있다. 제1 공통 서열(111)을 추출하는 구체적인 방식은 어떠한 방식이 되더라도 무방하다.

다른 예로서, 제2 복수의 학습용 단백질(P_L)의 아미노산 서열을 비교 분석하여 제2 공통 서열(113)이 추출될 수 있다. 여기서, 제2 공통 서열(113)은 제2 복수의 학습용 단백질(P_L)에 공통적으로 등장하는 아미노산 서열 또는 그와 유사한 아미노산 서열을 포함할 수 있다. 제2 공통 서열(113)을 추출하는 구체적인 방식은 어떠한 방식이 되더라도 무방하다.

또 다른 예로서, 제1 복수의 학습용 단백질(P_H)과 제2 복수의 학습용 단백질(P_L)의 아미노산 서열을 비교 분석하여 비공통 서열(112)이 추출될 수 있다. 다시 말해, 제1 복수의 학습용 단백질(P_H)과 제2 복수의 학습용 단백질(P_L)의 아미노산 서열 차이를 기초로 비공통 서열(112)이 추출될 수 있다. 비공통 서열(112)을 추출하는 구체적인 방식은 어떠한 방식이 되더라도 무방하다.

한편, 몇몇 실시예들에서는, 상술한 바에 따라 추출된 아미노산 서열(e.g. 111 내지 113)에서 실제 학습에 이용될 아미노산 서열을 선별하는 과정이 더 수행될 수 있다. 가령, 아미노산 서열(e.g. 111 내지 113)에서 서열 길이가 기준치 이상인 아미노산 서열이 학습 대상으로 선별될 수 있다. 서열 길이가 짧을수록 해당 서열이 상호작용에 영향을 미칠 가능성이 적을 것이기 때문이다. 다른 예에서는, 상기 선별 과정을 위해 학습된 딥러닝 모델이 이용될 수도 있다. 구체적으로, 딥러닝 모델을 통해 출력된 예측 상호작용 점수에 기초하여 학습 대상 아미노산 서열이 선별될 수 있다. 가령, 제1 공통 서열(111)의 경우, 예측 상호작용 점수가 제1 기준치(e.g. I-scoreH) 이상인 경우에 학습 대상으로 선별될 수 있다. 또한, 제2 공통 서열(113)의 경우, 예측 상호작용 점수가 제2 기준치 이하(e.g. I-scoreL)인 경우에 학습 대상으로 선별될 수 있다. 또한, 비공통 서열(112)의 경우, 예측 상호작용 점수가 제1 기준치(e.g. I-scoreH) 이상 또는 제2 기준치(e.g. I-scoreL) 이하인 경우에 학습 대상으로 선별될 수 있다.

이하에서는, 도 13을 참조하여 딥러닝 모델(117)을 학습(e.g. 추가 학습)시키는 과정에 대하여 설명하도록 한다.

도시된 바와 같이, 학습용 화합물(CC₁)의 데이터와 제1 공통 서열(111) 및 제1 상호작용 점수(114)로 구성된 학습데이터를 이용하여 딥러닝 모델(117)이 학습될 수 있다. 이때, 제1 상호작용 점수(114)는 상기 제1 기준치(e.g. I-scoreH) 또는 제1 복수의 단백질(P_H)의 평균 상호작용 점수보다 높은 값으로 설정될 수 있다. 그렇게 함으로써, 제1 공통 서열(111)이 화합물(CC₁)과의 상호작용에 긍정적 영향을 미치는 점이 딥러닝 모델(117)에 강하게 반영될 수 있다. 몇몇 예들에서는, 딥러닝 모델(117)을 통해 출력된 학습용 화합물(CC₁)과 제1 공통 서열(111)의 예측 상호작용 점수에 기초하여 제1 상호작용 점수(114)가 결정될 수도 있다. 가령, 제1 상호작용 점수(114)는 상기 예측 상호작용 점수보다 높은 값으로 결정될 수 있다.

또는, 학습용 화합물(CC₁)의 데이터와 제2 공통 서열(113) 및 제2 상호작용 점수(116)로 구성된 학습데이터를 이용하여 딥러닝 모델(117)이 학습될 수 있다. 이때, 제2 상호작용 점수(116)는 상기 기준치(e.g. I-scoreL) 또는 제2 복수의 단백질(P_L)의 평균 상호작용 점수보다 낮은 값으로 설정될 수 있다. 그렇게 함으로써, 제2 공통 서열(113)이 화합물(CC₁)과의 상호작용에 부정적 영향을 미치는 점이 딥러닝 모델(117)에 강하게 반영될 수 있다. 몇몇 예들에서는, 딥러닝 모델(117)을 통해 출력된 학습용 화합물(CC₁)과 제2 공통 서열(113)의 예측 상호작용 점수에 기초하여 제2 상호작용 점수(116)가 결정될 수도 있다. 가령, 제2 상호작용 점수(116)는 상기 예측 상호작용 점수보다 낮은 값으로 결정될 수 있다.

또는, 학습용 화합물(CC₁)의 데이터와 비공통 서열(112) 및 제3 상호작용 점수(115)로 구성된 학습데이터를 이용하여 딥러닝 모델(117)이 학습될 수 있다. 이때, 제3 상호작용 점수(115)는 딥러닝 모델(117)의 예측 상호작용 점수에 기초하여 결정될 수 있다. 가령, 딥러닝 모델(117)을 통해 출력된 학습용 화합물(CC₁)과 비공통 서열(113)의 예측 상호작용 점수가 제1 기준치(e.g. I-scoreH)와 유사한 경우, 제3 상호작용 점수(115)는 상기 예측 상호작용 점수보다 높은 값으로 결정될 수 있다. 반면, 예측 상호작용 점수가 제2 기준치(e.g. I-scoreL)와 유사한 경우, 제3 상호작용 점수(115)는 상기 예측 상호작용 점수보다 낮은 값으로 결정될 수 있다.

한편, 몇몇 실시예들에서는, 샘플 가중치에 기초하여 학습데이터를 구성하는 샘플 별로 딥러닝 모델(117)에 대한 가중 학습이 수행될 수도 있다. 이때, 샘플 가중치는 다양한 방식으로 결정될 수 있다. 예를 들어, 제1 공통 서열(111)이 속한 제1 샘플의 가중치는 제1 공통 서열(111)의 길이 및/또는 등장 빈도에 기초하여 결정될 수 있다. 보다 구체적인 예로서, 제1 공통 서열(111)의 길이가 길수록 또는 제1 공통 서열(111)이 제1 복수의 단백질(P_H)에 등장하는 빈도가 높을수록 제1 샘플에 높은 가중치가 부여될 수 있다. 또한, 제2 공통 서열(111)이 속한 제2 샘플의 가중치도 상기 제1 샘플과 동일한 방식으로 부여될 수 있다. 또한, 비공통 서열(112)이 속한 제3 샘플의 가중치는 딥러닝 모델(117)의 예측 상호작용 점수에 기초하여 결정될 수 있다. 가령, 예측 상호작용 점수가 제1 기준치(e.g. I-scoreH)보다 높을수록 또는 제2 기준치(e.g. I-scoreL)보다 낮을수록 제3 샘플에 높은 가중치가 부여될 수 있다.

앞선 실시예에서, 가중 학습의 구체적인 방식은 학습 횟수 증가(e.g. 샘플 가중치가 높을수록 해당 샘플의 학습 횟수를 증가시킴), 예측 오차의 증폭(e.g. 샘플 가중치가 높을수록 해당 샘플의 예측 오차를 증폭시킴) 등과 같이 다양한 방식으로 수행될 수 있으며, 어떠한 방식으로 수행되더라도 무방하다.

지금까지, 도 12 및 도 13을 참조하여 본 개시의 제6 실시예에 따른 딥러닝 모델의 학습 방법에 대하여 설명하였다. 상술한 바에 따르면, 학습데이터의 비교 분석을 통해 도출된 주요 아미노산 서열(즉, 상호작용에 큰 영향을 미칠 것으로 예측되는 서열들)을 이용하여 딥러닝 모델에 대해 별도의 학습이 수행될 수 있다. 이에 따라, 딥러닝 모델의 성능이 더욱 향상될 수 있다.

한편, 지금까지 설명한 제1 실시예 내지 제6 실시예는 다양한 방식으로 조합될 수 있다. 가령, 도 14에 도시된 바와 같이, 몇몇 실시예들에 따른 딥러닝 모델은 제1 내지 제5 신경망(121 내지 125)으로 구성될 수 있고, 제2 신경망(122)은 RNN 기반의 임베딩 레이어(128)를 포함할 수 있다(제4 실시예 참조). 그리고, 제3 신경망(123) 및 제4 신경망(124)은 CNN에 기반하여 구현될 수 있고, 각 신경망(123, 124)은 제2 실시예 및 제3 실시예에 따라 생성된 이미지(126, 127)를 입력으로 받을 수 있다. 또한, 제5 신경망(125)은 제1 내지 제4 신경망(121 내지 124)에서 추출된 특징 데이터를 종합하여 상호작용 점수를 예측할 수 있다.

이하에서는, 도 15를 참조하여 본 개시의 몇몇 실시예들에 따른 예측 장치(10)를 구현할 수 있는 예시적인 컴퓨팅 장치(130)에 대하여 설명하도록 한다.

도 15는 컴퓨팅 장치(130)를 나타내는 예시적인 하드웨어 구성도이다.

도 15에 도시된 바와 같이, 컴퓨팅 장치(130)는 하나 이상의 프로세서(131), 버스(133), 통신 인터페이스(134), 프로세서(131)에 의하여 수행되는 컴퓨터 프로그램을 로드(load)하는 메모리(132)와, 컴퓨터 프로그램(136)을 저장하는 스토리지(135)를 포함할 수 있다. 다만, 도 15에는 본 개시의 실시예와 관련 있는 구성요소들만이 도시되어 있다. 따라서, 본 개시가 속한 기술분야의 통상의 기술자라면 도 15에 도시된 구성요소들 외에 다른 범용적인 구성요소들이 더 포함될 수 있음을 알 수 있다. 즉, 컴퓨팅 장치(130)에는, 도 15에 도시된 구성요소 이외에도 다양한 구성요소가 더 포함될 수 있다. 또는, 컴퓨팅 장치(130)는 도 15에 도시된 구성요소 중 일부를 제외하고 구성될 수도 있다.

프로세서(131)는 컴퓨팅 장치(130)의 각 구성의 전반적인 동작을 제어할 수 있다. 프로세서(131)는 CPU(Central Processing Unit), MPU(Micro Processor Unit), MCU(Micro Controller Unit), GPU(Graphic Processing Unit) 또는 본 개시의 기술 분야에 잘 알려진 임의의 형태의 프로세서 중 적어도 하나를 포함하여 구성될 수 있다. 또한, 프로세서(131)는 본 개시의 실시예들에 따른 방법/동작을 실행하기 위한 적어도 하나의 애플리케이션 또는 프로그램에 대한 연산을 수행할 수 있다. 컴퓨팅 장치(130)는 하나 이상의 프로세서를 구비할 수 있다.

다음으로, 메모리(132)는 각종 데이터, 명령 및/또는 정보를 저장할 수 있다. 메모리(132)는 본 개시의 실시예들에 따른 방법/동작을 실행하기 위하여 스토리지(135)로부터 하나 이상의 컴퓨터 프로그램(136)을 로드할 수 있다. 메모리(132)는 RAM과 같은 휘발성 메모리로 구현될 수 있을 것이나, 이에 한정되는 것은 아니다.

다음으로, 버스(133)는 컴퓨팅 장치(130)의 구성요소 간 통신 기능을 제공할 수 있다. 버스(133)는 주소 버스(Address Bus), 데이터 버스(Data Bus) 및 제어 버스(Control Bus) 등 다양한 형태의 버스로 구현될 수 있다.

다음으로, 통신 인터페이스(134)는 컴퓨팅 장치(130)의 유무선 인터넷 통신을 지원할 수 있다. 또한, 통신 인터페이스(134)는 인터넷 통신 외의 다양한 통신 방식을 지원할 수도 있다. 이를 위해, 통신 인터페이스(134)는 본 개시의 기술 분야에 잘 알려진 통신 모듈을 포함하여 구성될 수 있다.

다음으로, 스토리지(135)는 상기 하나 이상의 프로그램(136)을 비임시적으로 저장할 수 있다. 스토리지(135)는 ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리 등과 같은 비휘발성 메모리, 하드 디스크, 착탈형 디스크, 또는 본 개시가 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터로 읽을 수 있는 기록 매체를 포함하여 구성될 수 있다.

다음으로, 컴퓨터 프로그램(136)은 메모리(132)에 로드될 때 프로세서(131)로 하여금 본 개시의 다양한 실시예들에 따른 방법/동작을 수행하도록 하는 하나 이상의 인스트럭션들을 포함할 수 있다. 즉, 프로세서(131)는 상기 하나 이상의 인스트럭션들을 실행함으로써, 본 개시의 다양한 실시예들에 따른 방법/동작들을 수행할 수 있다.

예를 들어, 컴퓨터 프로그램(136)은 학습용 화합물 데이터, 학습용 단백질 데이터 및 상호작용 점수로 구성된 학습데이터를 획득하는 동작, 획득된 학습데이터를 이용하여 딥러닝 모델을 구축하는 동작 및 구축된 딥러닝 모델을 통해 주어진 화합물과 단백질의 상호작용을 예측하는 동작을 수행하도록 하는 인스트럭션들을 포함할 수 있다. 이와 같은 경우, 컴퓨팅 장치(130)를 통해 본 개시의 몇몇 실시예들에 따른 예측 장치(10)가 구현될 수 있다.

지금까지 도 1 내지 도 15을 참조하여 설명된 본 개시의 기술적 사상은 컴퓨터가 읽을 수 있는 매체 상에 컴퓨터가 읽을 수 있는 코드로 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체는, 예를 들어 이동형 기록 매체(CD, DVD, 블루레이 디스크, USB 저장 장치, 이동식 하드 디스크)이거나, 고정식 기록 매체(ROM, RAM, 컴퓨터 구비 형 하드 디스크)일 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체에 기록된 상기 컴퓨터 프로그램은 인터넷 등의 네트워크를 통하여 다른 컴퓨팅 장치에 전송되어 상기 다른 컴퓨팅 장치에 설치될 수 있고, 이로써 상기 다른 컴퓨팅 장치에서 사용될 수 있다.

이상에서, 본 개시의 실시예를 구성하는 모든 구성요소들이 하나로 결합되거나 결합되어 동작하는 것으로 설명되었다고 해서, 본 개시의 기술적 사상이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 개시의 목적 범위 안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다.

도면에서 동작들이 특정한 순서로 도시되어 있지만, 반드시 동작들이 도시된 특정한 순서로 또는 순차적 순서로 실행되어야만 하거나 또는 모든 도시 된 동작들이 실행되어야만 원하는 결과를 얻을 수 있는 것으로 이해되어서는 안 된다. 특정 상황에서는, 멀티태스킹 및 병렬 처리가 유리할 수도 있다. 더욱이, 위에 설명한 실시예들에서 다양한 구성들의 분리는 그러한 분리가 반드시 필요한 것으로 이해되어서는 안 되고, 설명된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일 소프트웨어 제품으로 함께 통합되거나 다수의 소프트웨어 제품으로 패키지 될 수 있음을 이해하여야 한다.

이상 첨부된 도면을 참조하여 본 개시의 실시예들을 설명하였지만, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자는 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 본 개시가 다른 구체적인 형태로도 실시될 수 있다는 것을 이해할 수 있다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다. 본 개시의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 개시에 의해 정의되는 기술적 사상의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

컴퓨팅 장치에서 화합물과 단백질의 상호작용을 예측하는 방법으로서,
학습용 화합물 데이터, 학습용 단백질 데이터 및 상호작용 점수로 구성된 학습데이터를 획득하는 단계;
상기 획득된 학습데이터를 이용하여 딥러닝 모델을 구축하는 단계; 및
상기 구축된 딥러닝 모델을 통해 주어진 화합물과 단백질의 상호작용을 예측하는 단계를 포함하되,
상기 학습용 단백질 데이터는 상기 학습용 단백질의 아미노산 서열을 포함하고,
상기 구축하는 단계는,
상기 학습용 단백질의 아미노산 서열에서 상호작용에 부정적 영향을 미치는 제1 단백질 도메인과 연관된 아미노산 서열을 제외하여 제1 학습데이터를 생성하는 단계;
상기 학습용 화합물 데이터와 상기 제1 단백질 도메인과 연관된 아미노산 서열 데이터에 상기 상호작용 점수보다 낮은 제1 상호작용 점수를 부여하여 제2 학습데이터를 생성하는 단계; 및
상기 제1 학습데이터 및 상기 제2 학습데이터로 상기 딥러닝 모델을 학습시키는 단계를 포함하는,
화합물과 단백질의 상호작용 예측 방법.
제1 항에 있어서,
상기 제1 단백질 도메인은 막관통 도메인(transmembrane domain)을 포함하는,
화합물과 단백질의 상호작용 예측 방법.
제1 항에 있어서,
상기 제1 상호작용 점수는 상기 제1 단백질 도메인이 상기 상호작용에 부정적 영향을 미치는 정도에 기초하여 결정되는,
화합물과 단백질의 상호작용 예측 방법.
제1 항에 있어서,
상기 구축하는 단계는,
상기 학습용 화합물 데이터, 상기 상호작용에 긍정적 영향을 미치는 제2 단백질 도메인과 연관된 아미노산 서열 데이터 및 제2 상호작용 점수로 구성된 제3 학습데이터를 생성하는 단계; 및
상기 제3 학습데이터로 상기 딥러닝 모델을 학습시키는 단계를 더 포함하되,
상기 제2 상호작용 점수는 상기 제2 단백질 도메인이 상기 상호작용에 긍정적 영향을 미치는 정도에 기초하여 결정되는,
화합물과 단백질의 상호작용 예측 방법.
제4 항에 있어서,
상기 제2 단백질 도메인은 세포외 도메인(extracellular domain)을 포함하는,
화합물과 단백질의 상호작용 예측 방법.
제1 항에 있어서,
상기 딥러닝 모델은 상기 학습용 단백질 데이터를 입력받는 제1 신경망, 상기 학습용 화합물 데이터를 입력받는 제2 신경망 및 상기 제1 신경망 및 상기 제2 신경망의 연산 결과를 입력받아 상호작용 점수를 예측하는 제3 신경망을 포함하고,
상기 제1 신경망은 RNN(Recurrent Neural Networks) 레이어와 신경망 레이어를 포함하되,
상기 RNN 레이어는 아미노산 서열에서 추출된 n-그램 벡터를 입력받아 해당 아미노산 서열의 임베딩(embedding) 벡터를 출력하고,
상기 신경망 레이어는 상기 임베딩 벡터를 입력받아 신경망 연산을 수행하는,
화합물과 단백질의 상호작용 예측 방법.
제1 항에 있어서,
상기 딥러닝 모델은 상기 학습용 단백질 데이터로부터 생성된 2차원 이미지를 입력받는 CNN(Convolutional Neural Networks) 기반의 제1 신경망, 상기 학습용 화합물 데이터를 입력받는 제2 신경망 및 상기 제1 신경망 및 상기 제2 신경망의 연산 결과를 입력받아 상호작용 점수를 예측하는 제3 신경망을 포함하고,
상기 딥러닝 모델을 학습시키는 단계는,
상기 제1 학습데이터의 아미노산 서열로부터 복수의 n-그램 서열을 추출하는 단계;
아미노산 종류 또는 아미노산 서열에 대응되는 2개의 축에 의해 형성된 2차원 평면 상에 상기 복수의 n-그램 서열을 매핑시켜 상기 2차원 이미지를 생성하는 단계; 및
상기 2차원 이미지를 상기 제1 신경망에 입력하여 상기 학습을 수행하는 단계를 포함하는,
화합물과 단백질의 상호작용 예측 방법.
제1 항에 있어서,
상기 딥러닝 모델은 CNN(Convolutional Neural Networks) 기반하여 구성되고,
상기 딥러닝 모델을 학습시키는 단계는,
아미노산 잔기에 대응되는 제1 축과 화합물의 작용기에 대응되는 제2 축에 의해 형성되는 2차원 평면 상에 상기 학습용 단백질의 아미노산 잔기와 상기 학습용 화합물의 작용기 간의 결합 정도를 픽셀값으로 설정하여, 2차원 이미지를 생성하는 단계; 및
상기 2차원 이미지를 상기 딥러닝 모델에 입력하여 상기 학습을 수행하는 단계를 포함하는,
화합물과 단백질의 상호작용 예측 방법.
제1 항에 있어서,
상기 구축하는 단계는,
상기 획득된 학습데이터에서 특정 학습용 화합물에 대한 상호작용 점수가 기준치 이상인 제1 복수의 학습용 단백질과 기준치 이하인 제2 복수의 학습용 단백질을 선별하는 단계;
상기 제1 복수의 학습용 단백질의 아미노산 서열을 비교하여 제1 공통 서열을 추출하는 단계;
상기 제2 복수의 학습용 단백질의 아미노산 서열을 비교하여 제2 공통 서열을 추출하는 단계;
상기 제1 공통 서열, 상기 특정 학습용 화합물의 데이터 및 제2 상호작용 점수로 구성된 제3 학습데이터를 이용하여 상기 딥러닝 모델을 학습시키는 단계; 및
상기 제2 공통 서열, 상기 특정 학습용 화합물의 데이터 및 제3 상호작용 점수로 구성된 제4 학습데이터를 이용하여 상기 딥러닝 모델을 학습시키는 단계를 더 포함하되,
상기 제2 상호작용 점수는 상기 제1 복수의 학습용 단백질의 평균 상호작용 점수보다 높은 값으로 설정되고,
상기 제3 상호작용 점수는 상기 제1 복수의 학습용 단백질의 평균 상호작용 점수보다 낮은 값으로 설정되는,
화합물과 단백질의 상호작용 예측 방법.
제9 항에 있어서,
상기 제1 공통 서열을 추출하는 단계는,
상기 제1 복수의 학습용 단백질의 아미노산 서열을 비교하여 후보 공통 서열을 추출하는 단계;
상기 딥러닝 모델을 통해 상기 후보 공통 서열과 상기 특정 학습용 화합물과의 예측 상호작용 점수를 획득하는 단계; 및
상기 후보 공통 서열 중에서 상기 예측 상호작용 점수가 기준치 이상인 서열을 선별하는 단계를 포함하는,
화합물과 단백질의 상호작용 예측 방법.
제9 항에 있어서,
상기 제3 학습데이터를 이용하여 상기 딥러닝 모델을 학습시키는 단계는,
상기 제1 공통 서열의 길이와 상기 제1 공통 서열이 상기 제1 복수의 학습용 단백질에 등장하는 빈도에 기초하여 샘플 가중치를 결정하는 단계; 및
상기 결정된 샘플 가중치에 기초하여 상기 딥러닝 모델을 학습시키는 단계를 포함하는,
화합물과 단백질의 상호작용 예측 방법.
제1 항에 있어서,
상기 구축하는 단계는,
상기 획득된 학습데이터를 분석하여 특정 학습용 화합물에 대한 상호작용 점수가 기준치 이상인 제1 학습용 단백질과 기준치 이하인 제2 학습용 단백질을 선별하는 단계;
상기 제1 학습용 단백질의 아미노산 서열과 상기 제2 학습용 단백질의 아미노산 서열을 비교하여 비공통 서열을 추출하는 단계;
상기 딥러닝 모델을 통해 상기 비공통 서열과 상기 특정 학습용 화합물에 대한 예측 상호작용 점수를 획득하고, 상기 예측 상호작용 점수에 기초하여 학습을 위한 상호작용 점수를 결정하는 단계; 및
상기 비공통 서열, 상기 특정 학습용 화합물의 데이터 및 상기 결정된 상호작용 점수로 구성된 제3 학습데이터를 이용하여 상기 딥러닝 모델을 학습시키는 단계를 더 포함하는,
화합물과 단백질의 상호작용 예측 방법.
하나 이상의 인스트럭션들(instructions)을 저장하는 메모리; 및
상기 저장된 하나 이상의 인스트럭션들을 실행시킴으로써,
학습용 화합물 데이터, 학습용 단백질 데이터 및 상호작용 점수로 구성된 학습데이터를 획득하는 동작,
상기 획득된 학습데이터를 이용하여 딥러닝 모델을 구축하는 동작 및
상기 구축된 딥러닝 모델을 통해 주어진 화합물과 단백질의 상호작용을 예측하는 동작을 수행하는 프로세서를 포함하되,
상기 학습용 단백질 데이터는 상기 학습용 단백질의 아미노산 서열을 포함하고,
상기 구축하는 동작은,
상기 학습용 단백질의 아미노산 서열에서 상호작용에 부정적 영향을 미치는 제1 단백질 도메인과 연관된 아미노산 서열을 제외하여 제1 학습데이터를 생성하는 동작,
상기 학습용 화합물 데이터, 상기 제1 단백질 도메인과 연관된 아미노산 서열 데이터 및 상기 상호작용 점수보다 낮은 제1 상호작용 점수로 구성된 제2 학습데이터를 생성하는 동작 및
상기 제1 학습데이터 및 상기 제2 학습데이터로 상기 딥러닝 모델을 학습시키는 동작을 포함하는,
화합물과 단백질의 상호작용 예측 장치.
컴퓨팅 장치와 결합되어,
학습용 화합물 데이터, 학습용 단백질 데이터 및 상호작용 점수로 구성된 학습데이터를 획득하는 단계;
상기 획득된 학습데이터를 이용하여 딥러닝 모델을 구축하는 단계; 및
상기 구축된 딥러닝 모델을 통해 주어진 화합물과 단백질의 상호작용을 예측하는 단계를 실행시키되,
상기 학습용 단백질 데이터는 상기 학습용 단백질의 아미노산 서열을 포함하고,
상기 구축하는 단계는,
상기 학습용 단백질의 아미노산 서열에서 상호작용에 부정적 영향을 미치는 제1 단백질 도메인과 연관된 아미노산 서열을 제외하여 제1 학습데이터를 생성하는 단계;
상기 학습용 화합물 데이터, 상기 제1 단백질 도메인과 연관된 아미노산 서열 데이터 및 상기 상호작용 점수보다 낮은 제1 상호작용 점수로 구성된 제2 학습데이터를 생성하는 단계; 및
상기 제1 학습데이터 및 상기 제2 학습데이터로 상기 딥러닝 모델을 학습시키는 단계를 포함하는, 컴퓨터 판독가능한 기록매체에 저장된,
컴퓨터 프로그램.