KR101809599B1

KR101809599B1 - 약물과 단백질 간 관계 분석 방법 및 장치

Info

Publication number: KR101809599B1
Application number: KR1020160013960A
Authority: KR
Inventors: 박상현; 여윤구; 윤영미
Original assignee: 연세대학교 산학협력단
Priority date: 2016-02-04
Filing date: 2016-02-04
Publication date: 2017-12-15
Also published as: US20170228523A1; WO2017135496A1; KR20170092815A

Abstract

본 발명은 약물과 단백질 간의 관계를 분석하는 방법 및 그 장치에 관한 것이다. 또한 본 발명은 약물 리포지셔닝에 관한 것이다.
일 실시예에 있어서 본 발명에 따른 약물과 단백질 간 관계 분석 방법은, 상호 연관성이 있는 약물과 단백질의 조합 데이터를 적어도 하나 이상 포함하는 학습 데이터 집합과 관련하여, 상기 학습 데이터 집합에 포함되는 상기 단백질이 세포 내 존재하는 위치를 나타내는 단백질 위치 정보를 입력받는 단백질 위치 정보 입력 단계, 및 상기 단백질 위치 정보를 포함하는 상기 단백질의 단백질 특징 정보와 상기 약물의 약물 특징 정보를 기반으로, 상기 학습 데이터 집합을 이용하여 상기 약물과 상기 단백질 간의 연관성을 판단하기 위한 분류기를 학습하는 분류기 학습 단계를 포함할 수 있다.
또한 일 실시예에 있어서 본 발명에 따른 약물과 단백질 간 관계 분석 방법은, 연관성을 판단할 대상이 되는 약물과 단백질에 관하여, 상기 약물의 약물 특징 정보 및 상기 단백질의 단백질 특징 정보를 입력받는 약물 단백질 특징 정보 입력 단계, 및 미리 학습된 분류기를 이용하여 상기 약물 특징 정보와 상기 단백질 특징 정보를 기초로, 상기 약 물과 상기 단백질 간의 상기 연관성을 판단하는 연관성 판단 단계를 포함할 수 있다.

Description

약물과 단백질 간 관계 분석 방법 및 장치{Method and Apparatus for Analyzing Relation between Drug and Protein}

본 발명은 약물과 단백질 간의 관계를 분석하는 방법 및 그 장치에 관한 것이다. 또한 본 발명은 약물 리포지셔닝에 관한 것이다.

기존 약물의 새로운 용도를 탐색하는 약물 리포지셔닝 연구에서는 약물 간의 유사성 또는 약물이 작용하는 타겟 단백질 간의 유사성에 기반하여 새로운 약물과 타겟의 관계를 예측한다. 예컨데, 어떤 질병에 듣는 약물과 유사한 성질을 갖는 다른 약물을 해당 질병에 적용하거나, 어떤 약물을 타겟 단백질과 비슷한 성질을 갖는 다른 단백질에 작용하는지 실험해 볼 수 있다.

특히 최근에는 약물 리포지셔닝 연구에 생물정보학 접근법을 활용하는 경우가 늘어나고 있다. 상기 생물정보학 접근법은 사용 가능한 생물학적 정보를 최대한 고려하여, 연관성이 높을 것으로 추정되는 약물-타겟 단백질 가설을 설정하는 접근법이다. 이와 같이 생물정보학의 접근 방식을 이용해 가능성 있는 후보군을 예측하는 방법은 신약 개발 비용을 크게 경감할 수 있는 매우 중요한 연구 도구이며 신약 개발 과정에서 널리 활용되고 있다. 그러나 기존의 생물정보학 접근법 기반의 약물 - 단백질 간 관계 분석 방법은 활용하는 정보가 제한되어 약물과 타겟 단백질 간의 관계 분석의 신뢰도에 한계가 있었다.

(비특허문헌 0001) Gottlieb, Assaf, et al. "PREDICT: a method for inferring novel drug indications with application to personalized medicine." Molecular systems biology, vol.7, no. 1, 2011.

본 발명은 약물과 단백질 간의 연관성을 보다 정확하고 신뢰도 있게 판단하는 약물 단백질 간 관계 분석 방법을 제공하고자 한다.

상기 과제를 해결하기 위해, 본 발명의 일 유형에 따른 약물과 단백질 간 관계 분석 방법은, 상호 연관성이 있는 약물과 단백질의 조합 데이터를 적어도 하나 이상 포함하는 학습 데이터 집합과 관련하여, 상기 학습 데이터 집합에 포함되는 상기 단백질이 세포 내 존재하는 위치를 나타내는 단백질 위치 정보를 입력받는 단백질 위치 정보 입력 단계; 및 상기 단백질 위치 정보를 포함하는 상기 단백질의 단백질 특징 정보와 상기 약물의 약물 특징 정보를 기반으로, 상기 학습 데이터 집합을 이용하여 상기 약물과 상기 단백질 간의 연관성을 판단하기 위한 분류기를 학습하는 분류기 학습 단계;를 포함할 수 있다.

여기서 상기 분류기는 상기 단백질의 상기 단백질 특징 정보와 상기 약물의 상기 약물 특징 정보를 입력으로 하여, 상기 단백질과 상기 약물 간의 상기 연관성을 판단하는 분류기인 것을 특징으로 할 수 있다.

여기서 상기 약물과 단백질 간 관계 분석 방법은 상기 단백질 간의 관계를 나타내는 단백질 상호 작용 네트워크를 이용하여, 상기 학습 데이터 집합에 포함된 상기 단백질의 상기 단백질 위치 정보를 갱신하는 단백질 상호 작용 네트워크 기반 단백질 위치 정보 갱신 단계를 더 포함할 수 있다.

여기서 상기 분류기 학습 단계는 상기 갱신된 단백질 위치 정보에 따른 상기 단백질 특징 정보를 기반으로 상기 분류기를 학습하는 것을 특징으로 할 수 있다.

여기서 상기 단백질 위치 정보는 상기 단백질이 세포 내 미리 정해진 적어도 하나 이상의 대표 위치에 각각 존재하는지 여부를 나타내는 단백질 위치 정보 벡터를 포함하는 것을 특징으로 할 수 있다.

여기서 상기 대표 위치는 시토졸, 소포체, 세포 외부, 골지, 페록시솜, 미토콘드리아, 세포핵, 리소좀, 원형질 막 중 적어도 어느 하나 이상을 포함하는 것을 특징으로 할 수 있다.

여기서 상기 단백질 특징 정보는 상기 단백질 위치 정보와 함께, 상기 단백질의 아미노산 서열 정보, 상기 단백질 상호 작용 네트워크 상에서의 위치 정보 중 적어도 어느 하나 이상을 포함하는 것을 특징으로 할 수 있다.

여기서 상기 약물 특징 정보는 상기 약물의 화학 구조 정보, 상기 약물의 부작용 정보 중 적어도 어느 하나 이상을 포함할 수 있다.

여기서 상기 분류기 학습 단계는, 상기 학습 데이터 집합에서 테스트 집합(Test Set)과 학습 집합(Training Set)을 설정하는 집합 설정 단계; 상기 테스트 집합에 포함된 상기 약물과 단백질의 조합 데이터 별로, 상기 학습 집합에 포함된 상기 약물과 단백질의 조합 데이터 중에서 상기 테스트 집합에 포함된 상기 약물과 단백질의 조합 데이터와의 관련도가 소정의 기준 이상인 상기 약물과 단백질의 조합 데이터를 선별하는 선별 단계; 및 상기 학습 집합에서 선별된 상기 약물과 단백질의 조합 데이터와 상기 테스트 집합에 포함된 상기 약물과 단백질의 조합 데이터의 각 상기 단백질 특징 정보 및 상기 약물 특징 정보에 기초하여 상기 분류기의 파라미터를 학습하는 분류기 파라미터 학습 단계;를 포함할 수 있다.

여기서 상기 집합 설정 단계는 상기 학습 데이터 집합을 소정의 개수의 부분 집합으로 분할하고, 상기 분할한 부분 집합 중 일부를 상기 테스트 집합으로 설정하고, 상기 테스트 집합을 제외한 나머지 상기 부분 집합들을 상기 학습 집합으로 설정할 수 있다.

여기서 상기 선별 단계는, 상기 테스트 집합에 포함된 상기 약물과 단백질의 조합 데이터의 상기 약물 특징 정보와, 상기 학습 집합에 포함된 상기 약물과 단백질의 조합 데이터의 상기 약물 특징 정보 간의 유사도를 산출하는 약물 간 유사도 산출 단계; 상기 테스트 집합에 포함된 상기 약물과 단백질의 조합 데이터의 상기 단백질 특징 정보와, 상기 학습 집합에 포함된 상기 약물과 단백질의 조합 데이터의 상기 단백질 특징 정보 간의 유사도를 산출하는 단백질 간 유사도 산출 단계; 상기 산출한 상기 약물 특징 정보 간의 유사도와 상기 단백질 특징 정보 간의 유사도를 이용하여 상기 관련도를 산출하는 관련도 산출 단계; 및 상기 산출한 관련도에 기초하여 상기 약물과 단백질의 조합 데이터를 선정하는 선정 단계를 포함할 수 있다.

여기서 상기 분류기 파라미터 학습 단계는 상기 집합 설정 단계에서 설정된 상기 테스트 집합의 개수의 부분 분류기들을 각 상기 테스트 집합과 상기 학습 집합을 이용하여 학습하여, 상기 부분 분류기들을 포함하는 상기 분류기를 학습할 수 있다.

여기서 상기 단백질 상호 작용 네트워크 기반 단백질 위치 정보 갱신 단계는 상기 단백질 상호 작용 네트워크의 상기 단백질의 상기 단백질 위치 정보를, 상기 단백질 상호 작용 네트워크에서 상기 단백질에 연결되는 이웃 단백질의 상기 단백질 위치 정보를 이용하여 산출하여 갱신할 수 있다.

여기서 상기 단백질 상호 작용 네트워크 기반 단백질 위치 정보 갱신 단계는, 상기 단백질 상호 작용 네트워크에서 상기 단백질 위치 정보가 초기에 설정된 상기 단백질의 상기 단백질 위치 정보는 유지하고, 상기 단백질 위치 정보가 초기에 설정되지 아니한 상기 단백질의 상기 단백질 위치 정보를 상기 이웃 단백질을 이용하여 산출한 상기 단백질 위치 정보로 설정할 수 있다.

상기 과제를 해결하기 위해, 본 발명의 또 다른 유형에 따른 약물과 단백질 간 관계 분석 방법은, 연관성을 판단할 대상이 되는 약물과 단백질에 관하여, 상기 약물의 약물 특징 정보 및 상기 단백질의 단백질 특징 정보를 입력받는 약물 단백질 특징 정보 입력 단계; 및 미리 학습된 분류기를 이용하여 상기 약물 특징 정보와 상기 단백질 특징 정보를 기초로, 상기 약물과 상기 단백질 간의 상기 연관성을 판단하는 연관성 판단 단계;를 포함할 수 있다.

여기서 상기 단백질 특징 정보는 상기 단백질이 세포 내 존재하는 위치를 나타내는 단백질 위치 정보를 포함하는 것을 특징으로 할 수 있다.

여기서 상기 단백질 특징 정보는 상기 단백질 위치 정보와 함께, 상기 단백질의 아미노산 서열 정보, 상기 단백질 상호 작용 네트워크 상에서의 위치 정보 중 적어도 어느 하나 이상을 포함할 수 있다.

여기서 상기 약물 특징 정보는 상기 약물의 화학 구조 정보, 상기 약물의 부작용 정보 중 적어도 어느 하나 이상을 포함하는 것을 특징으로 할 수 있다.

여기서 상기 연관성 판단 단계는, 상기 연관성이 존재하는 것으로 미리 알려진 약물과 단백질 간의 조합 데이터들을 포함하는 정답 집합 중에서, 상기 연관성을 판단할 대상이 되는 상기 약물과 상기 단백질 간의 조합 데이터와 관련도가 소정의 기준 이상이 되는 상기 약물과 단백질 간의 조합 데이터를 선별하는 선별 단계; 및 상기 정답 집합 중에서 선별된 상기 약물과 단백질 간의 조합 데이터와, 상기 연관성을 판단할 대상이 되는 상기 약물과 상기 단백질 간의 조합 데이터의 각 상기 단백질 특징 정보 및 상기 약물 특징 정보에 기초하여 상기 분류기를 이용하여 상기 약물과 상기 단백질 간의 상기 연관성을 판별하는 판별 단계;를 포함할 수 있다.

상기 과제를 해결하기 위해, 본 발명의 또 다른 유형에 따른 약물과 단백질 간 관계 분석 장치는, 상호 연관성이 있는 약물과 단백질의 조합 데이터를 적어도 하나 이상 포함하는 학습 데이터 집합과 관련하여, 상기 학습 데이터 집합에 포함되는 상기 단백질이 세포 내 존재하는 위치를 나타내는 단백질 위치 정보를 입력받는 단백질 위치 정보 입력부; 및 상기 단백질 위치 정보를 포함하는 상기 단백질의 단백질 특징 정보와 상기 약물의 약물 특징 정보를 기반으로, 상기 학습 데이터 집합을 이용하여 상기 약물과 상기 단백질 간의 연관성을 판단하기 위한 분류기를 학습하는 분류기 학습부;를 포함할 수 있다.

상기 과제를 해결하기 위해, 본 발명의 또 다른 유형에 따른 약물과 단백질 간 관계 분석 장치는 연관성을 판단할 대상이 되는 약물과 단백질에 관하여, 상기 약물의 약물 특징 정보 및 상기 단백질의 단백질 특징 정보를 입력받는 약물 단백질 특징 정보 입력부; 및 미리 학습된 분류기를 이용하여 상기 약물 특징 정보와 상기 단백질 특징 정보를 기초로, 상기 약물과 상기 단백질 간의 상기 연관성을 판단하는 연관성 판단부;를 포함할 수 있다.

여기서 상기 연관성 판단부는, 상기 연관성이 존재하는 것으로 미리 알려진 약물과 단백질 간의 조합 데이터들을 포함하는 정답 집합 중에서, 상기 연관성을 판단할 대상이 되는 상기 약물과 상기 단백질 간의 조합 데이터와 관련도가 소정의 기준 이상이 되는 상기 약물과 단백질 간의 조합 데이터를 선별하는 선별부; 및 상기 정답 집합 중에서 선별된 상기 약물과 단백질 간의 조합 데이터와, 상기 연관성을 판단할 대상이 되는 상기 약물과 상기 단백질 간의 조합 데이터의 각 상기 단백질 특징 정보 및 상기 약물 특징 정보에 기초하여 상기 분류기를 이용하여 상기 약물과 상기 단백질 간의 상기 연관성을 판별하는 판별부;를 포함할 수 있다.

본 발명에 따른 약물과 단백질 간 관계 분석 방법에 의하면 약물 - 단백질 간 관계 분석의 정확도를 증가시킬 수 있는 효과가 있다. 또한 본 발명에 따른 분석 방법을 이용한 약물 리포지셔닝을 통해 신약 개발의 효용성을 증대하고 개발 시간을 단축할 수 있는 효과가 있다.

도 1은 본 발명의 일 실시예에 따른 약물과 단백질 간 관계 분석 방법의 흐름도이다.
도 2는 본 발명의 또 다른 실시예에 따른 약물과 단백질 관계 분석 방법의 흐름도이다.
도 3은 단백질 상호 작용 네트워크에서 단백질 위치 정보 값이 전파되어 갱신된 결과를 나타내는 참고도이다.
도 4는 분류기 학습 단계(S200)의 세부 흐름도이다.
도 5는 선별 단계(S220)의 세부 흐름도이다.
도 6은 본 발명의 또 다른 실시예에 따른 약물과 단백질 간 관계 분석 방법의 흐름도이다.
도 7은 연관성 판단 단계(S2000)의 세부 흐름도이다.
도 8은 본 발명의 또 다른 실시예에 따른 약물과 단백질 간 관계 분석 장치의 블록도이다.
도 9는 본 발명의 또 다른 실시예에 따른 약물과 단백질 간 관계 분석 장치의 블록도이다.
도 10은 연관성 판단부(2000)의 세부 블록도이다.

이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 우선 각 도면의 구성요소들에 참조 부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다. 또한, 이하에서 본 발명의 바람직한 실시예를 설명할 것이나, 본 발명의 기술적 사상은 이에 한정하거나 제한되지 않고 당업자에 의해 변형되어 다양하게 실시될 수 있음은 물론이다.

약물 리포지셔닝(drug repositioning)은 신약 개발의 위험성을 줄일 수 있는 연구방법론 중의 하나다. Pammolli 등이 2000~2008년의 약물 개발 동향을 분석한 연구에 따르면, 신물질이 임상실험까지 성공할 확률은 약 2.01%이며, 약물 개발에 평균 13.9년의 기간이 소요되는 것으로 나타났다(Pammolli, Fabio, Laura Magazzini, and Massimo Riccaboni. "The productivity crisis in pharmaceutical R&D." Nature Reviews Drug Discovery, vol. 10, no. 6, pp. 428-438, 2011.).

이에 이러한 한계점을 극복하기 위하여 기존 약물의 새로운 용도를 탐색하는 약물 리포지셔닝이 연구되고 있다. 이를 위해서는 약물 간의 유사성 또는 약물이 작용하는 타겟 단백질 간의 유사성에 기반하여 새로운 약물과 타겟의 관계를 예측하는 것이 필요하다. 예컨대, 어떤 질병에 듣는 약물과 유사한 성질을 갖는 다른 약물을 해당 질병에 적용하거나, 어떤 약물을 타겟 단백질과 비슷한 성질을 갖는 다른 단백질에 작용하는지 실험해 볼 수 있다.

최근에는 약물 리포지셔닝 연구에 생물정보학 접근법을 활용하는 경우가 늘어나고 있다. 상기 생물정보학 접근법은 사용 가능한 생물학적 정보를 최대한 고려하여, 연관성이 높을 것으로 추정되는 약물-타겟 단백질 가설을 설정하는 접근법이다. 이와 같이 생물정보학의 접근 방식을 이용해 가능성 있는 후보군을 예측하는 방법은 신약 개발 비용을 크게 경감할 수 있는 매우 중요한 연구 도구이며 신약 개발 과정에서 널리 활용되고 있다. 특히 희귀병이나 연구 비용이 비싼 질병과 같이 신약 개발에 투입될 수 있는 예산에 한계가 있는 경우, 이러한 생물정보학 접근법이 약물을 연구하는 데에 유용하게 활용될 수 있다.

일 예로 Gottlieb 등은 약물의 화학 구조, 부작용(side-effect) 정보, 아미노산 서열(amino acid sequence), 단백질 상호작용 네트워크(protein-protein interaction network)에서의 거리 등을 이용하여 약물 간의 유사성을 비교 분석하였다(Gottlieb, Assaf, et al. "PREDICT: a method for inferring novel drug indications with application to personalized medicine." Molecular systems biology, vol.7, no. 1, 2011.).

그러나 기존의 생물정보학 접근법 기반의 약물 - 단백질 간 관계 분석 방법은 활용하는 정보가 제한되어 약물과 타겟 단백질 간의 관계 분석의 신뢰도에 한계가 있었다.

이에 본 발명은 약물과 단백질 간의 연관성을 보다 정확하고 신뢰도 있게 판단하는 약물 단백질 간 관계 분석 방법을 제공하고자 한다.

이를 위하여 본 발명에서는 약물의 특징을 파악하는 데 있어서 중요한 예측 지표(feature)로서 단백질의 위치(localization) 정보를 활용한다. 단백질의 위치 정보란 단백질이 작용하는 세포내 위치를 의미한다. 많은 수의 단백질이 특정한 작용 위치를 갖고 있으며, 작용하는 위치가 비슷하면 그 기능 또한 비슷할 가능성이 있다. 단백질의 위치 정보는 질병 간의 동시 이환성(comorbidity)을 연구하는 데에 활용된 바 있으나, 약물의 리포지셔닝 연구에서는 아직 활용된 바가 없다. 이에 본 발명에서는 이와 같은 단백질의 위치 정보를 활용하여 단백질과 약물 간의 관계를 분석하는 방법을 제공하고자 한다.

아래에서는 본 발명에 따른 약물과 단백질 간 관계 분석 방법 및 그에 관한 장치에 대하여 보다 상세히 설명한다.

도 1은 본 발명의 일 실시예에 따른 약물과 단백질 간 관계 분석 방법의 흐름도이다.

상기 본 발명의 일 실시예에 따른 약물과 단백질 간 관계 분석 방법은 단백질 위치 정보 입력 단계(S100), 분류기 학습 단계(S200)를 포함할 수 있다. 상기 실시예에 따른 약물과 단백질 간 관계 분석 방법은 약물과 단백질 간 관계를 분석하기 위하여 이용하는 분류기를 학습하는 방법에 관한 것이다.

단백질 위치 정보 입력 단계(S100)는 상호 연관성이 있는 약물과 단백질의 조합 데이터를 적어도 하나 이상 포함하는 학습 데이터 집합과 관련하여, 상기 학습 데이터 집합에 포함되는 상기 단백질이 세포 내 존재하는 위치를 나타내는 단백질 위치 정보를 입력받는다.

분류기 학습 단계(S200)상기 단백질 위치 정보를 포함하는 상기 단백질의 단백질 특징 정보와 상기 약물의 약물 특징 정보를 기반으로, 상기 학습 데이터 집합을 이용하여 상기 약물과 상기 단백질 간의 연관성을 판단하기 위한 분류기를 학습한다.

여기서 본 발명의 또 다른 실시예에 따른 약물과 단백질 간 관계 분석 방법은 단백질 상호 작용 네트워크 기반 단백질 위치 정보 갱신 단계(S150)를 더 포함할 수도 있다.

도 2는 상기 실시예에 따른 약물과 단백질 관계 분석 방법의 흐름도이다.

단백질 상호 작용 네트워크 기반 단백질 위치 정보 갱신 단계(S150)는 상기 단백질 간의 관계를 나타내는 단백질 상호 작용 네트워크를 이용하여, 상기 학습 데이터 집합에 포함된 상기 단백질의 상기 단백질 위치 정보를 갱신한다.

이때 분류기 학습 단계(S200)는 상기 갱신된 단백질 위치 정보에 따른 상기 단백질 특징 정보를 기반으로 상기 분류기를 학습할 수 있다.

다음으로는 본 발명에 따른 약물과 단백질 간 관계 분석 방법의 각 단계의 세부 동작에 대하여 보다 상세히 설명한다.

먼저 단백질 위치 정보 입력 단계(S100)에 대하여 보다 상세히 설명한다.

여기서 상기 학습 데이터 집합은 특정 약물과 특정 단백질 간에 연관성이 있는 것으로 미리 알려진 조합 데이터들을 포함하는 데이터 집합이다. 이와 같은 약물 및 타겟 단백질 간의 연관성에 관한 정보는 예를 들면 약물 식별 정보와 약물의 타겟 단백질 정보를 포함하고 있는 Drugbank와 같은 데이터베이스에서 획득할 수 있다(Law, Vivian, et al. "DrugBank 4.0: shedding new light on drug metabolism." Nucleic acids research, vol. 42, no. D1, D1091-D1097, 2014.). 이처럼 상기 학습 데이터 집합은 실험을 통하여 획득하거나 또는 기 존재하는 실험 결과에서 나타나는 약물 및 단백질 간의 연관성 정보를 포함하는 데이터 집합이 될 수 있다.

여기서 학습 데이터 집합에 포함된 단백질은 단백질 위치 정보를 포함할 수 있다. 여기서 단백질 위치 정보는 단백질이 세포 내 존재하고 작용하는 위치에 관한 정보를 포함할 수 있다. 이와 같은 단백질 위치 정보는 실험을 통하여 획득한 정보를 입력받거나 기 존재하는 실험 결과로부터 획득한 정보를 입력받을 수 있는데, 예를 들면 단백질 식별 정보와 세포 내 위치 정보를 포함하는 UniProt와 같은 데이터베이스로부터 획득할 수 있다(Magrane, Michele. "UniProt Knowledgebase: a hub of integrated protein data." Database: The Journal of Biological Databases & Curation, vol. 2011, no. 9, 2011.).

이때 단백질 위치 정보는 상기 단백질이 세포 내 미리 정해진 적어도 하나 이상의 대표 위치에 각각 존재하는지 여부를 나타내는 단백질 위치 정보 벡터를 포함할 수 있다. 여기서 상기 대표 위치는 예를 들면 시토졸(cytosol), 소포체(endoplasmic reticulum, ER), 세포 외부, 골지(Golgi), 페록시솜(peroxisome), 미토콘드리아, 세포핵(nucleus), 리소좀(lysosome), 원형질 막(plasma membrane), 또는 기타 위치 중 적어도 어느 하나 이상을 포함할 수 있다. 또는 필요에 따라 다른 세포 내 위치를 대표 위치로 설정할 수도 있다.

여기서 상기 단백질 위치 정보 벡터는 상기 단백질이 상기 대표 위치에 존재하는 경우 벡터의 원소 값이 미리 특정된 제1 값으로 설정되고, 상기 대표 위치에 존재하지 않는 경우 벡터의 원소 값이 미리 특정된 제2 값으로 설정되는 벡터가 될 수 있다. 여기서 단백질이 특정 대표 위치에 존재하는 경우 특정 대표 위치에 해당하는 벡터의 원소 값이 존재하지 않는 경우의 원소 값 보다 크도록 값을 설정하는 것이 바람직하다.

여기서 대표 위치를 예를 들어 상술한 바, 시토졸(cytosol), 소포체(endoplasmic reticulum, ER), 세포 외부, 골지(Golgi), 페록시솜(peroxisome), 미토콘드리아, 세포핵(nucleus), 리소좀(lysosome), 원형질 막(plasma membrane), 및 기타 위치와 같이 총 10곳으로 선정한 경우, 단백질 위치 정보 벡터는 각 대표 위치에 단백질이 존재하는지 여부에 따라 벡터 원소 값이 0 또는 1로 설정되는 길이가 10인 벡터가 될 수 있다. 이는 상기 제1 값은 1, 상기 제2 값은 0이 되는 경우이며, 여기서 필요에 따라 상기 제1 및 제2 값을 다른 값으로 설정할 수 있음은 물론이다.

예를 들어 길이 10을 가지는 단백질 위치 정보 벡터의 각 원소가 상술한 대표 위치의 순서대로 그 값이 설정되는 경우, 단백질 ID가 P31946인 단백질이 세포 내에서 시토졸 및 세포핵에 존재하는 경우 단백질 위치 정보 벡터는 v 는 [1, 0, 0, 0, 0, 0, 1, 0, 0, 0]과 같이 표현될 수 있다.

단백질 위치 정보 입력 단계(S100)에서는 이와 같이 학습 데이터 집합에 포함된 단백질의 단백질 위치 정보를 입력받는다. 여기서 단백질 위치 정보 입력 단계(S100)에서 정보를 입력받는 것은, 메모리 또는 저장 장치나 네트워크로 연결된 서버 또는 데이터베이스로부터 저장되어 있는 단백질 위치 정보를 읽어 들이는 모든 동작을 포함하는 개념이며, 기타 프로세서 또는 신호처리 모듈이나 하드웨어 장치가 저장소에 저장되어 있는 단백질 위치 정보를 입력받는 일체의 동작을 포함하는 개념이다.

다음으로 단백질 상호 작용 네트워크 기반 단백질 위치 정보 갱신 단계(S150)에 대하여 보다 상세히 설명한다.

여기서 단백질 상호 작용 네트워크(Protein-Protein Interaction Network, PPI Network)는 단백질들 간의 상호 관계를 네트워크 형태로 표현한 것으로, 단백질들이 물리적으로 결합하는 관계를 나타낸다. 여기서 단백질 상호 작용 네트워크는 단백질을 노드로 표현하고, 상호 결합 관계에 있는 단백질들을 에지로 연결하는 형태로 표현될 수 있다. 여기서 단백질 상호 작용 네트워크는 기존의 단백질 간 상호 작용에 관한 정보를 포함하고 있는 UniProt(Magrane, Michele. "UniProt Knowledgebase: a hub of integrated protein data." Database: The Journal of Biological Databases & Curation, vol. 2011, no. 9, 2011.) 또는 BioGrid(Chatr-aryamontri, Andrew, et al. "The BioGRID interaction database: 2013 update." Nucleic acids research, vol. 41, no. D1, D816-D823, 2013.)와 같은 데이터베이스를 기초로 생성 또는 획득될 수 있다. 이외에 다른 실험 결과를 통하여 획득한 정보에 따라 단백질 상호 작용 네트워크를 생성할 수 있음은 물론이다.

또한 여기서 단백질 상호 작용 네트워크를 생성하는데 이용한 데이터베이스의 신뢰도에 따라 노드 간 연결 에지의 가중치를 다르게 설정할 수도 있다. 예를 들면, UniProt는 실험적으로 검증된 데이터로서 더 높은 정확도를 기대할 수 있기 때문에, UniProt에 기초하여 생성된 에지는 BioGrid 데이터에 기초하여 생성된 에지 보다 더 높은 가중치를 부여할 수 있다.

단백질 상호 작용 네트워크 기반 위치 정보 갱신 단계는 상술한 바와 같이 기 설정된 단백질 상호 작용 네트워크를 입력받고, 단백질 상호 작용 네트워크의 각 노드에 해당 단백질 위치 정보를 부여할 수 있다. 이때 단백질 상호 작용 네트워크의 노드 중에서 단백질의 세포 내 위치에 관한 정보를 미리 알지 못하여, 단백질 위치 정보가 부여되지 않은 노드들이 존재할 수 있다. 이에 단백질 상호 작용 네트워크 기반 위치 정보 갱신 단계는 단백질 위치 정보가 부여된 노드들을 이용하여 단백질 위치 정보가 부여되지 아니한 노드들의 단백질 위치 정보를 산출할 수 있다.

이를 위하여 단백질 상호 작용 네트워크 기반 단백질 위치 정보 갱신 단계(S150)는 상기 단백질 상호 작용 네트워크의 상기 단백질의 상기 단백질 위치 정보를, 상기 단백질 상호 작용 네트워크에서 상기 단백질에 연결되는 이웃 단백질의 상기 단백질 위치 정보를 이용하여 산출할 수 있다. 그리고 이와 같은 과정을 복수 회 반복하면서 단백질 노드의 단백질 위치 정보를 계속적으로 갱신할 수 있다.

여기서 단백질 상호 작용 네트워크 기반 단백질 위치 정보 갱신 단계(S150)는 특정 단백질 노드의 단백질 위치 정보를 이웃 단백질 노드들의 단백질 위치 정보 값들을 연산한 값으로 갱신할 수 있다. 여기서 상기 연산은 평균을 산출하는 연산, 가중합 연산이 될 수 있고, 필요에 따라 다른 연산 함수로 정의될 수도 있다.

예를 들면 단백질 상호 작용 네트워크 기반 단백질 위치 정보 갱신 단계(S150)는 다음 수학식 1과 같은 연산을 통하여 네트워크에서 단백질 노드의 단백질 위치 정보 값을 갱신할 수 있다. 여기서 단백질 위치 정보 값은 상술한 단백질 위치 정보 벡터가 될 수 있다.

여기서 v_t는 갱신되는 단백질 노드의 단백질 위치 정보 값이고, LV_N은 이웃 단백질 노드들의 단백질 위치 정보의 집합이고(LV_N = {lv₁, ... lv_M}, M은 이웃 단백질 노드의 수이고, lv는 이웃 단백질 노드의 단백질 위치 정보임), v0는 상기 갱신되는 단백질 노드의 초기 값이고, α는 가중치이고, t는 갱신 회수를 나타내는 인덱스이다. 여기서 f()는 필요에 따라 정의될 수 있는 연산 함수이고, 예를 들면 가중합 연산 함수, 평균 연산 함수 등으로 정의될 수 있다. 예를 들면 f()는

와 같이 정의될 수 있다. 여기서

은 v_t 에 대응하는 단백질 노드와 lv_m에 대응하는 이웃 단백질 노드 간의 에지의 가중치 값이다.

여기서 단백질 노드의 단백질 위치 정보 값은 복수 회 갱신될 수 있으며, 특정된 회수 또는 미리 설정된 수렴 조건이 만족될 때까지 반복될 수 있다. 예를 들면 하기 수학식 2와 같은 조건을 만족할 때 까지 단백질 상호 작용 네트워크의 단백질 노드의 단백질 위치 정보 값이 갱신될 수 있다.

여기서 NN_t는 t 번째 갱신에서의 네트워크에 포함된 노드들의 집합이고, norm_max는 단백질 위치 정보 벡터의 각 원소 값들 중 norm 값이 가장 큰 값을 출력하는 함수이다. 또한 K는 수렴 정도를 한정하기 위하여 설정되는 상수로 필요에 따라 값이 설정될 수 있다. 예를 들면 10^-6으로 설정될 수 있다.

도 3은 상술한 바와 같은 과정을 거쳐 단백질 상호 작용 네트워크의 노드들 중에서 단백질 위치 정보의 값을 알지 못하였던 노드들까지 단백질 위치 정보 값이 설정된 결과를 나타내는 참고도이다.

도 3에서 Y 축은 단백질(Protein)을 인덱스 별로 나열한 것이고, X 축은 상기 단백질 위치 정보 벡터의 각 원소를 표현하고, 그래프에서 흰색에서 검정색까지의 명암으로 표현되는 값은 각 단백질 위치 정보 벡터의 각 원소 값이다. 도 3에서는 단백질이 특정 대표 위치에 존재하는 경우를 1(검정색), 존재하지 않는 경우를 0(흰색)으로 표현하였다. 도 3에서 점선 창으로 특정되는 부분은 초기에 단백질 위치 정보를 알지 못하여 단백질 위치 정보 벡터를 설정할 수 없었던 단백질들이며, 상술한 과정을 거쳐 단백질 위치 정보 값을 산출한 결과 그 값이 할당된 단백질들이다.

이와 같이 단백질 위치 정보 값이 갱신된 단백질 상호 작용 네트워크에서, 단백질 위치 정보 벡터의 원소 값이 클수록 단백질이 벡터의 원소에 대응하는 대표 위치에 존재할 가능성이 큰 것을 의미한다.

여기서 단백질 상호 작용 네트워크 기반 단백질 위치 정보 갱신 단계(S150)는, 상기 단백질 상호 작용 네트워크에서 상기 단백질 위치 정보가 초기에 설정된 상기 단백질의 상기 단백질 위치 정보는 유지하고, 상기 단백질 위치 정보가 초기에 설정되지 아니한 상기 단백질의 상기 단백질 위치 정보를 상기 이웃 단백질을 이용하여 산출한 상기 단백질 위치 정보로 설정할 수 있다. 즉 단백질 위치 정보 값을 미리 알고 있는 단백질 노드들에 대하여는 해당 단백질 위치 정보를 그대로 유지하고, 단백질 위치 정보 값을 알지 못하였던 단백질 노드들에 대하여는 상술한 갱신 과정을 거쳐 산출된 단백질 위치 정보 값을 해당 단백질 노드의 단백질 위치 정보 값으로 설정할 수 있다.

다음으로 분류기 학습 단계(S200)에 대하여 보다 상세히 설명한다.

분류기 학습 단계(S200)는 상기 단백질 위치 정보를 포함하는 상기 단백질의 단백질 특징 정보와 상기 약물의 약물 특징 정보를 기반으로, 상기 학습 데이터 집합을 이용하여 상기 약물과 상기 단백질 간의 연관성을 판단하기 위한 분류기를 학습한다. 여기서 상술한 바와 같이 단백질 상호 작용 네트워크 기반 단백질 위치 정보 갱신 단계(S150)가 포함되는 경우, 분류기 학습 단계(S200)는 상기 갱신된 단백질 위치 정보에 따른 상기 단백질 특징 정보를 기반으로 상기 분류기를 학습할 수 있다.

여기서 분류기는 단백질의 단백질 특징 정보와 약물의 약물 특징(Feature) 정보를 입력으로 하여, 단백질과 약물 간의 연관성을 판단하는 분류기이다. 여기서 상기 연관성은 특정 약물과 단백질이 상호 연관성이 있는지 또는 없는지 여부를 TRUE 또는 FALSE 로 나타내는 지표가 될 수 있다. 또는 필요에 따라 상기 연관성은 특정 약물과 단백질이 상호 연관성이 있는 정도를 나타내는 특정 범위를 가지는 값으로 표현되는 지표가 될 수도 있다. 여기서 분류기는 예를 들어 분류기의 분류함수의 연산에 따라 연관성을 1(연관성 있음) 또는 0(연관성 없음)과 같은 값으로 출력할 수도 있고, 또는 연관성을 0 내지 1 사이의 범위에서 연관성이 클수록 큰 값을 가지도록 출력할 수도 있다.

여기서 분류기는 기계 학습(Machine Learning) 알고리즘을 이용하여 학습되는 분류기(Classifier)가 될 수 있으며, 분류기가 동작하기 위하여 이용하는 특징(Feature)로 단백질 특징 정보와 약물 특징 정보를 이용할 수 있다.

또한 상기 약물 특징 정보는 상기 약물의 화학 구조 정보, 상기 약물의 부작용 정보 중 적어도 어느 하나 이상을 포함할 수 있다. 여기서 약물의 화학 구조 정보는 예를 들면 약물의 화학 구조 정보로 SMILES(Simplified Molecular-Input Line-Entry System)에 따라 정의되는 구조 정보를 이용할 수 있다. 상기 SMILES는 화학 물질의 구성 원소, 결합 종류, 방향족성(aromaticity), 브랜치의 유무 등의 화학적 구조 정보를 ASCII 코드의 문자열로 표현하는 명세 방법이다. 또, 상기 약물의 부작용 정보는 예컨대 SIDER2와 같은 데이터베이스에서 수집할 수 있다. 상기 약물의 부작용 또한 약물의 기능 및 작용과 간접적인 관련이 있으므로 약물 특징 정보의 하나로 활용할 수 있다.

여기서 단백질 특징 정보 중 단백질의 아미노산 서열 정보와 단백질 상호 작용 네트워크에서의 위치 정보 및 약물 특징 정보에서의 약물의 화학 구조 정보 및 약물의 부작용 정보는 예를 들면, "Gottlieb, Assaf, et al. "PREDICT: a method for inferring novel drug indications with application to personalized medicine." Molecular systems biology, vol.7, no. 1, 2011."를 비롯한 기존 연구들에서 사용하는 특성인, 약물의 화학 구조, 부작용(side-effect) 정보, 단백질의 아미노산 서열(amino acid sequence), 단백질 상호작용 네트워크(protein-protein interaction network)에서의 위치 정보를 본 발명에 따른 분류기에서 단백질 특징 정보 및 약물 특징 정보로 이용할 수 있다. 상기 단백질의 특성 정보 중 단백질의 아미노산 서열 정보와 단백질의 위치 정보는 예를 들면 Drugbank와 같은 단백질 데이터베이스에서 수집할 수 있다. 상동(homology) 단백질과 같이 아미노산 서열이 비슷한 경우 기능 또한 비슷한 경향이 있으며, 모티프(motif)와 같은 짧은 아미노산 시퀀스가 단백질 기능과 관련이 있는 것으로 알려져 있다. 상기 단백질의 위치 정보는 단백질이 기능을 수행하는 세포 내 소기관의 위치를 나타내는 것으로, 단백질의 기능과 밀접한 관련이 있다. 예컨대 세포막을 위치 정보로 갖는 단백질의 경우, 다른 기능보다는 세포 내ㅇ외부 간의 물질 교환과 관련된 기능을 가질 가능성이 더 높다. 상기 단백질 상호작용 네트워크에서의 위치 정보는 단백질 상호작용 네트워크 상에서 두 단백질 간의 최단 거리를 나타낸다. 단백질은 홀로 기능을 수행하기보다는 여러 개의 단백질이 결합하여 단백질 복합체(protein complex)를 구성하여 기능을 수행하는 경향이 있다. 이러한 단백질의 물리적 결합 관계를 나타내는 데이터가 단백질 상호작용 데이터이다.

여기서 분류기는 상술한 단백질 특징 정보와 약물 특징 정보를 입력받아 약물과 단백질 간의 연관성을 판단함에 있어서, 이하 도 6을 참조하면서 설명할 연관성 판단 단계(S2000)에서 상세히 설명할 바와 같이 연관성을 판단하고자 하는 대상 약물 및 단백질에 대한 약물 특징 정보 및 단백질 특징 정보와, 연관성이 있는 것으로 미리 알려진 정답 집합에 포함된 약물 및 단백질 조합 데이터 중에서 상기 대상 약물 및 단백질과 소정의 기준 이상의 관련도가 있는 것으로 선별된 약물 및 단백질 조합 데이터의 약물 특징 정보와 단백질 특징 정보를 입력 정보로 이용할 수 있다. 또는 분류기는 상기 대상 약물 및 단백질에 대한 약물 특징 정보 및 단백질 특징 정보와 선별된 약물 및 단백질 조합 데이터의 약물 특징 정보와 단백질 특징 정보 간의 각 특징 정보 별 유사도를 산출하고, 상기 산출한 유사도를 분류기에 입력하여 상기 대상 약물과 단백질 간의 연관성을 판단할 수도 있다.

다음으로는 이와 같은 분류기를 학습하는 분류기 학습 단계(S200)의 동작에 대하여 보다 상세히 설명한다.

도 4는 분류기 학습 단계(S200)의 세부 흐름도이다.

분류기 학습 단계(S200)는 집합 설정 단계(S210), 선별 단계(S220), 분류기 파라미터 학습 단계(S230)를 포함할 수 있다.

집합 설정 단계(S210)은 상기 학습 데이터 집합에서 학습 집합(Training Set)을 설정한다. 학습 집합은 분류기의 파라미터를 학습하기 위하여 이용하는 데이터들의 집합이다. 또한 집합 설정 단계(S210)은 학습한 분류기를 테스트하기 위하여 테스트 집합(Test Set)을 설정할 수 있다. 여기서 학습 데이터 집합은 위에서 상세히 설명한 바와 같이 연관성이 있는 것으로 미리 알려진 약물과 단백질 간의 조합 데이터들을 포함하는 집합이다. 집합 설정 단계(SS210)에서는 분류기의 학습을 위하여 이와 같은 학습 데이터 집합에서 테스트 집합과 학습 집합을 설정할 수 있다.

일 실시예에 있어서 분류기 학습 단계(S200)는 Cross Validation 기법을 이용하여 분류기를 학습할 수 있고, 필요에 따라 복수개의 테스트 집합 및 학습 집합을 설정하는 k-fold Cross Validation 기법을 이용할 수도 있다. 분류기 학습 단계(S200)는 Cross Validation 기법 이외에 다른 학습 기법을 이용하여 학습 데이터 집합에 포함된 약물과 단백질 조합 데이터를 이용하여 분류기를 학습할 수 있음은 물론이다. 또한 Cross Validation 기법을 이용하는 경우에, k-fold Cross Validation 기법 이외에 다른 기법의 Cross Validation 기법을 이용할 수 있음도 물론이다.

여기서 집합 설정 단계(S210)은 상기 학습 데이터 집합을 소정의 개수의 부분 집합으로 분할하고, 상기 분할한 부분 집합 중 일부를 상기 테스트 집합으로 설정하고, 상기 테스트 집합을 제외한 나머지 상기 부분 집합들을 상기 학습 집합으로 설정할 수 있다. 예를 들면 집합 설정 단계(S210)은 학습 데이터 집합을 K개의 부분 집합으로 분할하고, 각 부분 집합을 테스트 집합으로 설정하고 나머지 부분 집합들을 학습 집합으로 설정할 수 있다. 이때 부분 집합과 학습 집합의 조합이 K개 만큼 생성될 수 있다.

선별 단계(S220)는 상기 테스트 집합에 포함된 상기 약물과 단백질의 조합 데이터 별로, 상기 학습 집합에 포함된 상기 약물과 단백질의 조합 데이터 중에서 상기 테스트 집합에 포함된 상기 약물과 단백질의 조합 데이터와의 관련도가 소정의 기준 이상인 상기 약물과 단백질의 조합 데이터를 선별한다. 즉 테스트 집합에 포함된 약물과 단백질의 조합 데이터 각각에 대하여, 학습 집합에 포함된 약물과 단백질의 조합 데이터 중에서 관련도가 일정 기준 이상인 적어도 하나 이상의 조합 데이터를 학습 집합에서 선별할 수 있다.

도 5는 선별 단계(S220)의 세부 흐름도이다.

선별 단계(S220)는 약물 간 유사도 산출 단계(S221), 단백질 간 유사도 산출 단계(S222), 관련도 산출 단계(S223), 선정 단계(S224)를 포함할 수 있다.

약물 간 유사도 산출 단계(S221)는 상기 테스트 집합에 포함된 상기 약물과 단백질의 조합 데이터의 상기 약물 특징 정보와, 상기 학습 집합에 포함된 상기 약물과 단백질의 조합 데이터의 상기 약물 특징 정보 간의 유사도를 산출한다. 즉 테스트 집합의 조합 데이터와 학습 집합의 조합 데이터 간에 약물 간 유사도를 산출하고, 이때 약물 간 유사도는 약물 특징 정보 간의 유사도가 될 수 있다. 그리고 약물 특징 정보 간의 유사도는 약물의 화학 구조 정보 간의 유사도, 약물의 부작용 정보 간의 유사도 중 적어도 어느 하나 이상을 이용하여 산출할 수 있다. 여기서 약물의 화학 구조 정보 간의 유사도, 약물의 부작용 정보 간의 유사도를 산출하는 방법은 공지된 방법들을 이용할 수 있다. 예를 들면 CDK(Chemical Development Kit)와 같은 화학구조 분석 프로그램을 이용하여 약물의 SMILES 문자열로부터 화학적 지문(chemical fingerprint)를 추출할 수 있다. 상기 화학적 지문 간의 유사도를 이용해 약물의 유사도를 측정할 수 있는데, 이를 위한 유사도 측정 방법에는 예컨대 Jaccard score와 같은 유사도 비교 방법이 활용될 수 있다. 상기 약물의 부작용 정보의 경우, 두 약물이 갖는 공통된 부작용의 개수를 근거로 유사도를 측정할 수 있다. 이 경우에도 예컨대 Jaccard score와 같은 유사도 비교 방법을 사용할 수 있다.

여기서 약물 특징 정보 간 유사도는 특징 정보로 이용하는 각 정보 - 약물의 화학 구조 정보, 약물의 부작용 정보 - 에 관하여 산출된 유사도들을 연산하여 산출될 수 있다. 예를 들면 특징 정보로 이용하는 각 정보에 관하여 산출된 유사도들을 모두 더하거나 평균을 산출하여 약물 특징 정보 간 유사도를 산출할 수 있다.

단백질 간 유사도 산출 단계(S222)는 상기 테스트 집합에 포함된 상기 약물과 단백질의 조합 데이터의 상기 단백질 특징 정보와, 상기 학습 집합에 포함된 상기 약물과 단백질의 조합 데이터의 상기 단백질 특징 정보 간의 유사도를 산출한다. 즉 테스트 집합의 조합 데이터와 학습 집합의 조합 데이터 간에 단백질 간 유사도를 산출하고, 이때 단백질 간 유사도는 단백질 특징 정보 간의 유사도가 될 수 있다. 여기서 단백질 특징 정보 간의 유사도는 단백질 위치 정보 간의 유사도, 단백질의 아미노산 서열 정보 간의 유사도, 단백질 상호 작용 네트워크 상에서의 위치 정보 간의 유사도 중 적어도 어느 하나 이상을 이용하여 산출할 수 있다. 여기서 단백질 위치 정보 간의 유사도, 단백질의 아미노산 서열 정보 간의 유사도, 단백질 상호 작용 네트워크 상에서의 위치 정보 간의 유사도를 산출하는 방법은 공지된 방법들을 이용할 수 있다. 예를 들어 단백질의 아미노산 서열 정보간의 유사도는 스미스-워터맨(smith-waterman) 알고리즘과 같은 서열 정렬(sequence alignment) 알고리즘을 통해 산출한 점수를 활용할 수 있다.

예를 들면 단백질 위치 정보 간의 유사도는 단백질 위치 정보 벡터를 활용해 산출할 수 있다. 예컨대 단백질 위치 정보 벡터 간의 코사인 유사도(Cosine Similarity)를 산출하여 단백질 위치 정보 간의 유사도를 측정할 수 있다. 상기 코사인 유사도의 경우 두 단백질 위치 벡터가 벡터 공간에서 직교하는 경우 결과값이 0이 되며, 위치 벡터의 벡터공간 내 방향이 완전히 동일할 경우 1이 된다. 상기 직교는 두 단백질의 위치 벡터가 둘 다 갖고 있는 세포내 위치 정보가 하나도 없는 경우에 해당한다.

예를 들면 단백질 상호 작용 네트워크 상에서의 위치 정보 간의 유사도는 단백질 노드 간의 거리로 산출될 수 있다. 즉 유사도가 네트워크 상에서 노드 간의 거리로 산출될 수 있다. 단백질 상호작용 정보를 이용해 구성한 단백질 상호작용 네트워크에서 인접한 단백질은 서로 결합하여 기능을 수행할 가능성이 높으며, 네트워크 상에서 거리가 가까운 단백질들은 단백질 복합체를 구성할 가능성이 높다. 따라서, 단백질 상호작용 네트워크 상에서의 최단 거리를 두 단백질간 기능의 유사도를 나타내는 간접적인 정보로 활용할 수 있다.

여기서 단백질 특징 정보 간 유사도는 특징 정보로 이용하는 각 정보 - 단백질 위치 정보, 단백질의 아미노산 서열 정보, 단백질 상호 작용 네트워크 상에서의 위치 정보 - 에 관하여 산출된 유사도들을 연산하여 산출될 수 있다. 예를 들면 특징 정보로 이용하는 각 정보에 관하여 산출된 유사도들을 모두 더하거나 평균을 산출하여 단백질 특징 정보 간 유사도를 산출할 수 있다.

관련도 산출 단계(S223)는 상기 산출한 상기 약물 특징 정보 간의 유사도와 상기 단백질 특징 정보 간의 유사도를 이용하여 상기 관련도를 산출한다. 여기서 상기 관련도는 조합 데이터들 간에 관련된 정도를 나타내는 지표로써, 약물 특징 정보 간의 유사도와 단백질 특징 정보 간의 유사도를 연산하여 산출되는 값이 될 수 있다. 이때 관련도를 산출하는 연산 함수로는 두 유사도 값의 크기에 따라 값이 변화하는 다양한 함수를 설정할 수 있다.

예를 들면 관련도 연산 함수는 두 유사도의 곱의 제곱근을 출력하는 함수가 될 수 있다. 즉 다음 수학식 3과 같이 산출될 수 있다.

여기서 각각 d는 학습 집합의 약물, p는 학습 집합의 단백질, d'는 테스트 집합의 약물, p'는 테스트 집합의 단백질이고, sim은 특징 정보 간의 유사도를 산출하는 함수이고, S는 상기 관련도이다.

여기서 관련도 연산 함수로는 위 수학식 3 이외에 두 유사도의 합이나 곱 또는 가중합 등 기타 다양한 함수를 이용할 수도 있음은 물론이다.

선정 단계(S224)는 상기 산출한 관련도에 기초하여 상기 약물과 단백질의 조합 데이터를 선정한다. 여기서 선정 단계(S224)는 테스트 집합에 포함된 조합 데이터와 관련도가 가장 높은 조합 데이터를 학습 집합에서 선정 및 선별할 수 있다. 또는 선정 단계(S224)는 상기 관련도를 기준으로 학습 집합에서 복수개의 조합 데이터를 선정할 수도 있다. 예를 들면 관련도를 소정의 임계치와 비교하여 비교 결과에 따라 조합 데이터를 선정하거나, 또는 관련도가 높은 소정 비율의 조합 데이터를 선정할 수도 있다.

다음으로 분류기 파라미터 학습 단계(S230)는 학습 집합에서 선별된 약물과 단백질의 조합 데이터와, 테스트 집합에 포함된 약물과 단백질의 조합 데이터의 각 단백질 특징 정보 및 약물 특징 정보에 기초하여 상기 분류기의 파라미터를 학습한다. 즉 분류기 파라미터 학습 단계(S230)는 상기 산출된 관련도에 기초하여 학습 집합에서 선정된 약물과 단백질의 조합 데이터와 테스트 집합의 조합 데이터를 이용하여 분류기를 학습하되, 조합 데이터들의 단백질 특징 정보 및 약물 특징 정보를 입력으로 하고 테스트 집합의 약물과 단백질 간의 연관성을 출력으로 하는 분류기의 파라미터를 학습할 수 있다.

또는 분류기는 학습 집합에서 선별된 약물과 단백질의 조합 데이터의 단백질 특징 정보 및 약물 특징 정보와, 테스트 집합에 포함된 약물과 단백질의 조합 데이터의 단백질 특징 정보 및 약물 특징 정보 간의, 특징 정보 별 유사도를 산출한 값을 입력으로 받는 분류기가 될 수도 있다. 이 경우 분류기 파라미터 학습 단계(S230)는 상기 특징 정보 별 유사도를 산출한 값을 입력으로 하는 분류기의 파라미터를 학습할 수 있다.

여기서 양 조합 데이터 간의 약물 특징 정보 간 유사도로 약물의 화학 구조 정보 간의 유사도, 약물의 부작용 정보 간의 유사도 중 적어도 어느 하나 이상을 이용할 수 있다.

또한 양 조합 데이터 간의 단백질 특징 정보 간 유사도로 단백질 위치 정보 간의 유사도, 단백질의 아미노산 서열 정보 간의 유사도, 단백질 상호 작용 네트워크 상에서의 위치 정보 간의 유사도 중 적어도 어느 하나 이상을 이용할 수 있다.

이때 분류기의 학습을 위하여 오답 집합을 이용할 수 있고, 오답 집합은 상호 관련성이 없는 단백질과 약물 간의 조합 데이터가 될 수 있다. 예를 들면 랜덤하게 조합된 단백질과 약물 간의 조합 데이터들이 오답 집합으로 이용될 수 있다.

분류기 파라미터 학습 단계(S230)는 집합 설정 단계(S210)에서 설정된 상기 테스트 집합의 개수의 부분 분류기들을 각 상기 테스트 집합과 상기 학습 집합을 이용하여 학습하여, 상기 부분 분류기들을 포함하는 상기 분류기를 학습할 수 있다. 집합 설정 단계(S210)에서 총 K 개의 테스트 집합과 학습 집합의 조합을 설정한 경우, 각 테스트 집합과 학습 집합의 조합 별로 부분 분류기들이 정의되고 학습될 수 있다. 즉 총 K 개의 부분 분류기들이 학습될 수 있다.

이때 부분 분류기의 파라미터를 학습하는 과정에서 각 부분 분류기의 분류 정확도가 측정될 수 있다. 그리고 K 개의 부분 분류기 마다 각각 분류 정확도가 저장될 수 있다.

다음으로는 본 발명의 또 다른 실시예에 따른 약물과 단백질 간 관계 분석 방법에 대하여 설명한다. 상기 본 발명의 또 다른 실시예는 상술한 바와 같이 학습한 분류기를 이용하여 상호 연관성을 알지 못하는 약물과 단백질에 대하여 그 연관성을 판단하는 방법에 관한 것이다.

본 발명의 또 다른 실시예에 따른 약물과 단백질 간 관계 분석 방법은 약물 단백질 특징 정보 입력 단계(S1000), 연관성 판단 단계(S2000)를 포함할 수 있다.

도 6은 상기 다른 실시예에 따른 약물과 단백질 간 관계 분석 방법의 흐름도이다.

약물 단백질 특징 정보 입력 단계(S1000)는 연관성을 판단할 대상이 되는 약물과 단백질에 관하여, 상기 약물의 약물 특징 정보 및 상기 단백질의 단백질 특징 정보를 입력받는다.

연관성 판단 단계(S2000)는 미리 학습된 분류기를 이용하여 상기 약물 특징 정보와 상기 단백질 특징 정보를 기초로, 상기 약물과 상기 단백질 간의 상기 연관성을 판단한다.

먼저 약물 단백질 특징 정보 입력 단계(S1000)의 동작에 대하여 보다 상세히 설명한다.

약물 단백질 특징 정보 입력 단계(S1000)는 연관성을 판단할 대상이 되는 약물과 단백질에 관하여, 상기 약물의 약물 특징 정보 및 상기 단백질의 단백질 특징 정보를 입력받는다. 여기서 약물 특징 정보와 단백질 특징 정보는 위 단백질 위치 정보 입력 단계(S100)에서 설명한 내용과 동일한 내용의 특징 정보들이다. 이에 약물 특징 정보와 단백질 특징 정보에 대하여는 요지를 위주로 간략히 설명한다.

먼저 단백질 특징 정보는 상기 단백질이 세포 내 존재하는 위치를 나타내는 단백질 위치 정보를 포함하고, 상기 단백질 위치 정보와 함께, 단백질의 아미노산 서열 정보, 단백질 상호 작용 네트워크 상에서의 위치 정보 중 적어도 어느 하나 이상을 포함할 수 있다. 이때 단백질 위치 정보는 상기 단백질이 세포 내 미리 정해진 적어도 하나 이상의 대표 위치에 각각 존재하는지 여부를 나타내는 단백질 위치 정보 벡터를 포함할 수 있다. 여기서 대표 위치는 예를 들면 시토졸(cytosol), 소포체(endoplasmic reticulum, ER), 세포 외부, 골지(Golgi), 페록시솜(peroxisome), 미토콘드리아, 세포핵(nucleus), 리소좀(lysosome), 원형질 막(plasma membrane), 또는 기타 위치 중 적어도 어느 하나 이상을 포함할 수 있고, 단백질 위치 정보 벡터는 상기 단백질이 상기 대표 위치에 존재하는 경우 벡터의 원소 값이 미리 특정된 제1 값으로 설정되고, 상기 대표 위치에 존재하지 않는 경우 벡터의 원소 값이 미리 특정된 제2 값으로 설정되는 벡터가 될 수 있다. 또한 약물 특징 정보는 약물의 화학 구조 정보, 상기 약물의 부작용 정보 중 적어도 어느 하나 이상을 포함할 수 있다.

약물 단백질 특징 정보 입력 단계(S1000)에서는 이와 같이 연관성을 판단할 대상이 되는 약물과 단백질의 각 특징 정보를 입력받는다. 여기서 정보를 입력받는 것은, 입출력 인터페이스를 통하여 정보를 입력받는 것을 포함하고, 또는 메모리 또는 저장 장치나 네트워크로 연결된 서버 또는 데이터베이스로부터 저장되어 있는 정보를 읽어 들이는 모든 동작을 포함하는 개념이며, 기타 프로세서 또는 신호처리 모듈이나 하드웨어 장치가 저장소에 저장되어 있는 정보를 입력받는 일체의 동작을 포함하는 개념이다.

다음으로는 연관성 판단 단계(S2000)에 대하여 보다 상세히 설명한다.

연관성 판단 단계(S2000)는 미리 학습된 분류기를 이용하여 상기 약물 특징 정보와 상기 단백질 특징 정보를 기초로, 상기 약물과 상기 단백질 간의 상기 연관성을 판단한다. 여기서 상기 분류기는 위 도 1 내지 도 5를 참조하면서 설명한 방법에 따라 학습된 분류기가 될 수 있다.

이를 위하여 연관성 판단 단계(S2000)는 약물 단백질 조합 데이터 선별 단계(S2100), 연관성 판별 단계(S2200)를 포함할 수 있다.

도 7은 연관성 판단 단계(S2000)의 세부 흐름도이다.

약물 단백질 조합 데이터 선별 단계(S2100)는 상기 연관성이 존재하는 것으로 미리 알려진 약물과 단백질 간의 조합 데이터들을 포함하는 정답 집합 중에서, 상기 연관성을 판단할 대상이 되는 상기 약물과 상기 단백질 간의 조합 데이터와 관련도가 소정의 기준 이상이 되는 상기 약물과 단백질 간의 조합 데이터를 선별한다.

여기서 정답 집합은 상호 연관성이 있는 것으로 알려진 약물과 단백질 간의 조합 데이터들의 집합으로, 예를 들면 위 도 1 내지 도 5를 참조하면서 설명한 방법에서 이용하였던 학습 데이터 집합을 정답 집합으로 이용할 수 있다.

여기서 약물 단백질 조합 데이터 선별 단계(S2100)는 도 3을 참조하면서 설명한 선별 단계(S220)와 동일한 방식으로 관련도를 기준으로 약물과 단백질의 조합 데이터를 선별하되, 여기서 학습 집합은 정답 집합이 되고, 테스트 집합에 포함된 조합 데이터는 상기 연관성을 판단할 대상이 되는 약물과 단백질 간의 조합 데이터가 된다. 나머지 부분에 있어서 약물 단백질 조합 데이터 선별 단계(S2100)는 도 3을 참조하면서 설명한 선별 단계(S220)와 동일하게 동작할 수 있다. 이에 약물 단백질 조합 데이터 선별 단계(S2100)에 대하여는 요지를 위주로 간략히 설명한다.

여기서 약물 단백질 조합 데이터 선별 단계(S2100)는 약물 간 유사도 산출 단계(미도시), 단백질 간 유사도 산출 단계(미도시), 관련도 산출 단계(미도시), 선정 단계(미도시)를 포함할 수 있다.

약물 간 유사도 산출 단계(미도시)는 연관성을 판단할 대상이 되는 약물과 단백질의 조합 데이터의 약물 특징 정보와, 상기 정답 집합에 포함된 상기 약물과 단백질의 조합 데이터의 상기 약물 특징 정보 간의 유사도를 산출한다. 즉 연관성을 판단할 대상이 되는 조합 데이터와 정답 집합의 조합 데이터 간에 약물 간 유사도를 산출하고, 이때 약물 간 유사도는 약물 특징 정보 간의 유사도가 될 수 있다.

단백질 간 유사도 산출 단계(미도시)는 연관성을 판단할 대상이 되는 약물과 단백질의 조합 데이터의 단백질 특징 정보와, 상기 정답 집합에 포함된 상기 약물과 단백질의 조합 데이터의 상기 단백질 특징 정보 간의 유사도를 산출한다. 즉 연관성을 판단할 대상이 되는 조합 데이터와 정답 집합의 조합 데이터 간에 단백질 간 유사도를 산출하고, 이때 단백질 간 유사도는 단백질 특징 정보 간의 유사도가 될 수 있다. 여기서 단백질 특징 정보 간의 유사도는 단백질 위치 정보 간의 유사도, 단백질의 아미노산 서열 정보 간의 유사도, 단백질 상호 작용 네트워크 상에서의 위치 정보 간의 유사도 중 적어도 어느 하나 이상을 이용하여 산출할 수 있다. 여기서 단백질 위치 정보 간의 유사도, 단백질의 아미노산 서열 정보 간의 유사도, 단백질 상호 작용 네트워크 상에서의 위치 정보 간의 유사도를 산출하는 방법은 공지된 방법들을 이용할 수 있다. 예를 들면 단백질 위치 정보 간의 유사도는 단백질 위치 정보 벡터 간의 거리로 산출될 수 있다. 또는 단백질 위치 정보 벡터 간의 코사인 유사도(Cosine Similarity)를 산출할 수도 있다. 예를 들면 단백질 상호 작용 네트워크 상에서의 위치 정보 간의 유사도는 단백질 노드 간의 거리로 산출될 수 있다. 즉 유사도가 네트워크 상에서 노드 간의 거리로 산출될 수 있다.

관련도 산출 단계(미도시)는 상기 산출한 상기 약물 특징 정보 간의 유사도와 상기 단백질 특징 정보 간의 유사도를 이용하여 상기 관련도를 산출한다. 여기서 상기 관련도는 조합 데이터들 간에 관련된 정도를 나타내는 지표로써, 약물 특징 정보 간의 유사도와 단백질 특징 정보 간의 유사도를 연산하여 산출되는 값이 될 수 있다. 이때 관련도를 산출하는 연산 함수로는 두 유사도 값의 크기에 따라 값이 변화하는 다양한 함수를 설정할 수 있다.

선정 단계(미도시)는 상기 산출한 관련도에 기초하여 상기 약물과 단백질의 조합 데이터를 선정한다. 여기서 선정 단계는 연관성을 판단할 대상이 되는 조합 데이터와 관련도가 가장 높은 조합 데이터를 정답 집합에서 선정 및 선별할 수 있다. 또는 선정 단계는 상기 관련도를 기준으로 정답 집합에서 복수개의 조합 데이터를 선정할 수도 있다. 예를 들면 관련도를 소정의 임계치와 비교하여 비교 결과에 따라 조합 데이터를 선정하거나, 또는 관련도가 높은 소정 비율의 조합 데이터를 선정할 수도 있다.

이상과 같은 과정을 통하여 정답 집합 중에서, 연관성을 판단할 대상이 되는 상기 약물과 상기 단백질 간의 조합 데이터와 관련도가 소정의 기준 이상이 되는 상기 약물과 단백질 간의 조합 데이터를 선별할 수 있다.

다음으로 연관성 판별 단계(S2200)는 상기 정답 집합 중에서 선별된 상기 약물과 단백질 간의 조합 데이터와, 상기 연관성을 판단할 대상이 되는 상기 약물과 상기 단백질 간의 조합 데이터의 각 상기 단백질 특징 정보 및 상기 약물 특징 정보에 기초하여 상기 분류기를 이용하여 상기 약물과 상기 단백질 간의 상기 연관성을 판별한다.

여기서 분류기는 연관성을 판단하고자 하는 대상 약물 및 단백질에 대한 약물 특징 정보 및 단백질 특징 정보와, 상기 선별된 약물 및 단백질 조합 데이터의 약물 특징 정보 및 단백질 특징 정보를 입력 정보로 이용할 수 있다. 또는 분류기는 상기 대상 약물 및 단백질에 대한 약물 특징 정보 및 단백질 특징 정보와 상기 선별된 약물 및 단백질 조합 데이터의 약물 특징 정보와 단백질 특징 정보 간의 각 특징 정보 별 유사도를 산출하고, 상기 산출한 유사도를 분류기에 입력하여 상기 대상 약물과 단백질 간의 연관성을 판단할 수도 있다.

여기서 양 조합 데이터 간의 약물 특징 정보 간 유사도로 약물의 화학 구조 정보 간의 유사도, 약물의 부작용 정보 간의 유사도 중 적어도 어느 하나 이상을 이용할 수 있다. 또한 양 조합 데이터 간의 단백질 특징 정보 간 유사도로 단백질 위치 정보 간의 유사도, 단백질의 아미노산 서열 정보 간의 유사도, 단백질 상호 작용 네트워크 상에서의 위치 정보 간의 유사도 중 적어도 어느 하나 이상을 이용할 수 있다.

여기서 분류기는 상술한 입력 정보를 기초로 기계 학습(Machine Learning) 알고리즘을 이용하여 학습되는 분류기(Classifier)가 될 수 있다. 또한 여기서 분류기가 판단하는 상기 연관성은 특정 약물과 단백질이 상호 연관성이 있는지 또는 없는지 여부를 TRUE 또는 FALSE 로 나타내는 지표가 될 수 있다. 또는 필요에 따라 상기 연관성은 특정 약물과 단백질이 상호 연관성이 있는 정도를 나타내는 특정 범위를 가지는 값으로 표현되는 지표가 될 수도 있다. 여기서 분류기는 예를 들어 분류기의 분류함수의 연산에 따라 연관성을 1(연관성 있음) 또는 0(연관성 없음)과 같은 값으로 출력할 수도 있고, 또는 연관성을 0 내지 1 사이의 범위에서 연관성이 클수록 큰 값을 가지도록 출력할 수도 있다.

여기서 분류기는 상술한 바와 같이 k-fold Cross Validation 기법에 기초하여 학습된 분류기가 될 수 있다. 이때 분류기는 학습 과정에서 이용된 테스트 집합 및 학습 집합의 조합 개수(예를 들면 K개)에 따라 학습된 복수 개(예를 들면 K개)의 부분 분류기를 포함할 수 있다. 이와 같이 부분 분류기를 이용하는 경우 상술한 바와 같은 분류기의 입력 값 - 특징 정보 또는 유사도 - 에 따라 각 부분 분류기 별로 연관성 값이 출력될 수 있다. 이때 부분 분류기들에서 각 출력된 연관성 값을 통합하여 대상 약물 및 단백질이 상호 연관성이 있는지 여부를 최종 판단할 수 있다. 여기서 복수개의 부분 분류기를 이용하여 최종 분류 결과 값을 결정하는 공지된 다양한 방법들이 이용될 수 있다. 예를 들면 부분 분류기의 출력된 연관성 값을 모두 합산하여 최종 연관성 값을 결정할 수 있다. 또는 각 부분 분류기에서 출력된 연관성 값에 해당 부분 분류기의 분류 정확도를 가중치로 곱하고, 이들을 가중합한 값을 최종 연관성 값으로 산출할 수도 있다.

다음으로는 본 발명의 또 다른 실시예에 따른 약물과 단백질 간 관계 분석 장치에 대하여 설명한다.

도 8은 본 발명의 또 다른 실시예에 따른 약물과 단백질 간 관계 분석 장치의 블록도이다.

본 발명의 또 다른 실시예에 따른 약물과 단백질 간 관계 분석 장치는 단백질 위치 정보 입력부(100), 분류기 학습부(200)를 포함할 수 있다. 본 발명의 상기 실시예는 약물과 단백질 간 관계를 분석하기 위하여 이용하는 분류기를 학습하는 장치에 관한 것이다. 여기서 상기 실시예에 따른 약물과 단백질 간 관계 분석 장치는 도 1 내지 도 5를 참조하면서 상세히 설명한 본 발명에 따른 약물과 단백질 간 관계 분석 방법과 동일한 방식으로 동작할 수 있다. 이에 중복되는 부분은 생략하고 간략히 설명한다.

단백질 위치 정보 입력부(100)는 상호 연관성이 있는 약물과 단백질의 조합 데이터를 적어도 하나 이상 포함하는 학습 데이터 집합과 관련하여, 상기 학습 데이터 집합에 포함되는 상기 단백질이 세포 내 존재하는 위치를 나타내는 단백질 위치 정보를 입력받는다.

분류기 학습부(200)는 상기 단백질 위치 정보를 포함하는 상기 단백질의 단백질 특징 정보와 상기 약물의 약물 특징 정보를 기반으로, 상기 학습 데이터 집합을 이용하여 상기 약물과 상기 단백질 간의 연관성을 판단하기 위한 분류기를 학습한다.

여기서 본 발명의 또 다른 실시예에 따른 약물과 단백질 간 관계 분석 장치는 단백질 상호 작용 네트워크 기반 단백질 위치 정보 갱신부(미도시)를 더 포함할 수도 있다. 단백질 상호 작용 네트워크 기반 단백질 위치 정보 갱신부(미도시)는 상기 단백질 간의 관계를 나타내는 단백질 상호 작용 네트워크를 이용하여, 상기 학습 데이터 집합에 포함된 상기 단백질의 상기 단백질 위치 정보를 갱신한다. 이때 분류기 학습부(200)는 상기 갱신된 단백질 위치 정보에 따른 상기 단백질 특징 정보를 기반으로 상기 분류기를 학습할 수 있다.

본 발명의 또 다른 실시예에 따른 약물과 단백질 간 관계 분석 장치는 약물 단백질 특징 정보 입력부(1000), 연관성 판단부(2000)를 포함할 수 있다.

도 9는 본 발명의 또 다른 실시예에 따른 약물과 단백질 간 관계 분석 장치의 블록도이다.

상기 본 발명의 또 다른 실시예는 상술한 바와 같이 학습한 분류기를 이용하여 상호 연관성을 알지 못하는 약물과 단백질에 대하여 그 연관성을 판단하는 장치에 관한 것이다. 여기서 상기 실시예에 따른 약물과 단백질 간 관계 분석 장치는 도 5 내지 도 6을 참조하면서 상세히 설명한 본 발명에 따른 약물과 단백질 간 관계 분석 방법과 동일한 방식으로 동작할 수 있다. 이에 중복되는 부분은 생략하고 간략히 설명한다.

약물 단백질 특징 정보 입력부(1000)는 연관성을 판단할 대상이 되는 약물과 단백질에 관하여, 상기 약물의 약물 특징 정보 및 상기 단백질의 단백질 특징 정보를 입력받는다.

연관성 판단부(2000)는 미리 학습된 분류기를 이용하여 상기 약물 특징 정보와 상기 단백질 특징 정보를 기초로, 상기 약물과 상기 단백질 간의 상기 연관성을 판단한다.

여기서 상기 단백질 특징 정보는 상기 단백질이 세포 내 존재하는 위치를 나타내는 단백질 위치 정보를 포함한다.

여기서 연관성 판단부(2000)는 약물 단백질 조합 데이터 선별부(2100), 연관성 판별부(2200)를 포함할 수 있다.

도 10은 연관성 판단부(2000)의 세부 블록도이다.

약물 단백질 조합 데이터 선별부(2100)는 상기 연관성이 존재하는 것으로 미리 알려진 약물과 단백질 간의 조합 데이터들을 포함하는 정답 집합 중에서, 상기 연관성을 판단할 대상이 되는 상기 약물과 상기 단백질 간의 조합 데이터와 관련도가 소정의 기준 이상이 되는 상기 약물과 단백질 간의 조합 데이터를 선별한다.

연관성 판별부(2200)는 상기 정답 집합 중에서 선별된 상기 약물과 단백질 간의 조합 데이터와, 상기 연관성을 판단할 대상이 되는 상기 약물과 상기 단백질 간의 조합 데이터의 각 상기 단백질 특징 정보 및 상기 약물 특징 정보에 기초하여 상기 분류기를 이용하여 상기 약물과 상기 단백질 간의 상기 연관성을 판별한다.

이상에서 설명한 본 발명의 실시예를 구성하는 모든 구성요소들이 하나로 결합하거나 결합하여 동작하는 것으로 기재되어 있다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다.

또한, 그 모든 구성요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 또한, 이와 같은 컴퓨터 프로그램은 USB 메모리, CD 디스크, 플래쉬 메모리 등과 같은 컴퓨터가 읽을 수 있는 기록매체(Computer Readable Media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시예를 구현할 수 있다. 컴퓨터 프로그램의 기록매체로서는 자기 기록매체, 광 기록매체, 캐리어 웨이브 매체 등이 포함될 수 있다.

또한, 기술적이거나 과학적인 용어를 포함한 모든 용어들은, 상세한 설명에서 다르게 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다. 사전에 정의된 용어와 같이 일반적으로 사용되는 용어들은 관련 기술의 문맥상의 의미와 일치하는 것으로 해석되어야 하며, 본 발명에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다. 따라서, 본 발명에 개시된 실시예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구 범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.

S100 : 단백질 위치 정보 입력 단계
S150 : 단백질 상호 작용 네트워크 기반 단백질 위치 정보 갱신 단계
S200 : 분류기 학습 단계
S210 : 집합 설정 단계
S220 : 선별 단계
S230 : 분류기 파라미터 학습 단계
S1000 : 약물 단백질 특징 정보 입력 단계
S2000 : 연관성 판단 단계
S2100 : 약물 단백질 조합 데이터 선별 단계
S2200 : 연관성 판별 단계
100 : 단백질 위치 정보 입력부
200 : 분류기 학습부
1000 : 약물 단백질 특징 정보 입력부
2000 : 연관성 판단부
2100 : 약물 단백질 조합 데이터 선별부
2200 : 연관성 판별부

Claims

약물과 단백질 간 관계 분석 방법에 있어서,
상호 연관성이 있는 약물과 단백질의 조합 데이터를 적어도 하나 이상 포함하는 학습 데이터 집합과 관련하여, 상기 학습 데이터 집합에 포함되는 상기 단백질이 세포 내 존재하는 위치를 나타내는 단백질 위치 정보를 입력받는 단백질 위치 정보 입력 단계; 및
상기 단백질 위치 정보를 포함하는 상기 단백질의 단백질 특징 정보와 상기 약물의 약물 특징 정보를 기반으로, 상기 학습 데이터 집합을 이용하여 상기 약물과 상기 단백질 간의 연관성을 판단하기 위한 분류기를 학습하는 분류기 학습 단계; 를 포함하고,
상기 분류기 학습 단계는 상기 학습 데이터 집합에서 테스트 집합(Test Set)과 학습 집합(Training Set)을 설정하는 집합 설정 단계;
상기 학습 집합에 포함된 상기 약물과 단백질의 조합 데이터 중에서 상기 테스트 집합에 포함된 상기 약물과 단백질의 조합 데이터와의 관련도가 소정의 기준 이상인 상기 약물과 단백질의 조합 데이터를 선별하는 선별 단계; 및
상기 학습 집합에서 선별된 상기 약물과 단백질의 조합 데이터와 상기 테스트 집합에 포함된 상기 약물과 단백질의 조합 데이터의 각 상기 단백질 특징 정보 및 상기 약물 특징 정보에 기초하여 상기 분류기의 파라미터를 학습하는 분류기 파라미터 학습 단계; 를 포함하는 것을 특징으로 하는 약물과 단백질 간 관계 분석 방법.
제1항에 있어서,
상기 분류기는 상기 단백질의 상기 단백질 특징 정보와 상기 약물의 상기 약물 특징 정보를 입력으로 하여, 상기 단백질과 상기 약물 간의 상기 연관성을 판단하는 분류기인 것을 특징으로 하는, 약물과 단백질 간 관계 분석 방법.
제1항에 있어서,
단백질 간의 관계를 나타내는 단백질 상호 작용 네트워크를 이용하여, 상기 학습 데이터 집합에 포함된 상기 단백질의 상기 단백질 위치 정보를 갱신하는 단백질 상호 작용 네트워크 기반 단백질 위치 정보 갱신 단계; 를 더 포함하고,
상기 분류기 학습 단계는 상기 갱신된 단백질 위치 정보에 따른 상기 단백질 특징 정보를 기반으로 상기 분류기를 학습하는 것을 특징으로 하는, 약물과 단백질 간 관계 분석 방법.
제1항에 있어서,
상기 단백질 위치 정보는 상기 단백질이 세포 내 미리 정해진 적어도 하나 이상의 대표 위치에 각각 존재하는지 여부를 나타내는 단백질 위치 정보 벡터를 포함하는 것을 특징으로 하는, 약물과 단백질 간 관계 분석 방법.
제4항에 있어서,
상기 대표 위치는 시토졸, 소포체, 세포 외부, 골지, 페록시솜, 미토콘드리아, 세포핵, 리소좀, 원형질 막 중 적어도 어느 하나 이상을 포함하는 것을 특징으로 하는, 약물과 단백질 간 관계 분석 방법.
제1항에 있어서,
상기 단백질 특징 정보는 상기 단백질 위치 정보와 함께, 상기 단백질의 아미노산 서열 정보, 단백질 상호 작용 네트워크 상에서의 위치 정보 중 적어도 어느 하나 이상을 포함하는 것을 특징으로 하는, 약물과 단백질 간 관계 분석 방법.
제1항에 있어서,
상기 약물 특징 정보는 상기 약물의 화학 구조 정보, 상기 약물의 부작용 정보 중 적어도 어느 하나 이상을 포함하는 것을 특징으로 하는, 약물과 단백질 간 관계 분석 방법.
삭제
제1항에 있어서,
상기 집합 설정 단계는 상기 학습 데이터 집합을 소정의 개수의 부분 집합으로 분할하고, 상기 분할한 부분 집합 중 일부를 상기 테스트 집합으로 설정하고, 상기 테스트 집합을 제외한 나머지 상기 부분 집합들을 상기 학습 집합으로 설정하는 것을 특징으로 하는, 약물과 단백질 간 관계 분석 방법.
제1항에 있어서, 상기 선별 단계는,
상기 테스트 집합에 포함된 상기 약물과 단백질의 조합 데이터의 상기 약물 특징 정보와, 상기 학습 집합에 포함된 상기 약물과 단백질의 조합 데이터의 상기 약물 특징 정보 간의 유사도를 산출하는 약물 간 유사도 산출 단계;
상기 테스트 집합에 포함된 상기 약물과 단백질의 조합 데이터의 상기 단백질 특징 정보와, 상기 학습 집합에 포함된 상기 약물과 단백질의 조합 데이터의 상기 단백질 특징 정보 간의 유사도를 산출하는 단백질 간 유사도 산출 단계;
상기 산출한 상기 약물 특징 정보 간의 유사도와 상기 단백질 특징 정보 간의 유사도를 이용하여 상기 관련도를 산출하는 관련도 산출 단계; 및
상기 산출한 관련도에 기초하여 상기 약물과 단백질의 조합 데이터를 선정하는 선정 단계를 포함하는 것을 특징으로 하는, 약물과 단백질 간 관계 분석 방법.
제1항에 있어서,
상기 분류기 파라미터 학습 단계는 상기 집합 설정 단계에서 설정된 상기 테스트 집합의 개수의 부분 분류기들을 각 상기 테스트 집합과 상기 학습 집합을 이용하여 학습하여, 상기 부분 분류기들을 포함하는 상기 분류기를 학습하는 것을 특징으로 하는, 약물과 단백질 간 관계 분석 방법.
제3항에 있어서,
상기 단백질 상호 작용 네트워크 기반 단백질 위치 정보 갱신 단계는 상기 단백질 상호 작용 네트워크의 상기 단백질의 상기 단백질 위치 정보를, 상기 단백질 상호 작용 네트워크에서 상기 단백질에 연결되는 이웃 단백질의 상기 단백질 위치 정보를 이용하여 산출하여 갱신하는 것을 특징으로 하는, 약물과 단백질 간 관계 분석 방법.
제12항에 있어서, 상기 단백질 상호 작용 네트워크 기반 단백질 위치 정보 갱신 단계는,
상기 단백질 상호 작용 네트워크에서 상기 단백질 위치 정보가 초기에 설정된 상기 단백질의 상기 단백질 위치 정보는 유지하고,
상기 단백질 위치 정보가 초기에 설정되지 아니한 상기 단백질의 상기 단백질 위치 정보를 상기 이웃 단백질을 이용하여 산출한 상기 단백질 위치 정보로 설정하는 것을 특징으로 하는, 약물과 단백질 간 관계 분석 방법.
약물과 단백질 간 관계 분석 방법에 있어서,
연관성을 판단할 대상이 되는 약물과 단백질에 관하여, 상기 약물의 약물 특징 정보 및 상기 단백질의 단백질 특징 정보를 입력받는 약물 단백질 특징 정보 입력 단계; 및
미리 학습된 분류기를 이용하여 상기 약물 특징 정보와 상기 단백질 특징 정보를 기초로, 상기 약물과 상기 단백질 간의 상기 연관성을 판단하는 연관성 판단 단계; 를 포함하고,
상기 단백질 특징 정보는 상기 단백질이 세포 내 존재하는 위치를 나타내는 단백질 위치 정보를 포함하며,
상기 분류기는 상기 연관성이 있는 약물과 단백질의 조합 데이터를 적어도 하나 이상 포함하는 학습 데이터 집합에서 테스트 집합과 학습 집합을 설정하여, 상기 학습 집합에 포함된 상기 약물과 단백질의 조합 데이터 중에서 상기 테스트 집합에 포함된 상기 약물과 단백질의 조합 데이터와의 관련도가 소정의 기준 이상인 약물과 단백질의 조합 데이터 및 상기 테스트 집합에 포함된 상기 약물과 단백질의 조합 데이터의 각 상기 단백질 특징 정보 및 약물 특징 정보를 입력으로 하는 상기 분류기의 파라미터 학습을 통하여 미리 학습되는 것을 특징으로 하는 약물과 단백질 간 관계 분석 방법.
제14항에 있어서,
상기 단백질 위치 정보는 상기 단백질이 세포 내 미리 정해진 적어도 하나 이상의 대표 위치에 각각 존재하는지 여부를 나타내는 단백질 위치 정보 벡터를 포함하는 것을 특징으로 하는, 약물과 단백질 간 관계 분석 방법.
제14항에 있어서,
상기 단백질 특징 정보는 상기 단백질 위치 정보와 함께, 상기 단백질의 아미노산 서열 정보, 단백질 상호 작용 네트워크 상에서의 위치 정보 중 적어도 어느 하나 이상을 포함하고,
상기 약물 특징 정보는 상기 약물의 화학 구조 정보, 상기 약물의 부작용 정보 중 적어도 어느 하나 이상을 포함하는 것을 특징으로 하는, 약물과 단백질 간 관계 분석 방법.
제14항에 있어서, 상기 연관성 판단 단계는,
상기 연관성이 존재하는 것으로 미리 알려진 약물과 단백질 간의 조합 데이터들을 포함하는 정답 집합 중에서, 상기 연관성을 판단할 대상이 되는 상기 약물과 상기 단백질 간의 조합 데이터와 관련도가 소정의 기준 이상이 되는 상기 약물과 단백질 간의 조합 데이터를 선별하는 선별 단계; 및
상기 정답 집합 중에서 선별된 상기 약물과 단백질 간의 조합 데이터와, 상기 연관성을 판단할 대상이 되는 상기 약물과 상기 단백질 간의 조합 데이터의 각 상기 단백질 특징 정보 및 상기 약물 특징 정보에 기초하여 상기 분류기를 이용하여 상기 약물과 상기 단백질 간의 상기 연관성을 판별하는 판별 단계;를 포함하는 것을 특징으로 하는, 약물과 단백질 간 관계 분석 방법.
약물과 단백질 간 관계 분석 장치에 있어서,
상호 연관성이 있는 약물과 단백질의 조합 데이터를 적어도 하나 이상 포함하는 학습 데이터 집합과 관련하여, 상기 학습 데이터 집합에 포함되는 상기 단백질이 세포 내 존재하는 위치를 나타내는 단백질 위치 정보를 입력받는 단백질 위치 정보 입력부; 및
상기 단백질 위치 정보를 포함하는 상기 단백질의 단백질 특징 정보와 상기 약물의 약물 특징 정보를 기반으로, 상기 학습 데이터 집합을 이용하여 상기 약물과 상기 단백질 간의 연관성을 판단하기 위한 분류기를 학습하는 분류기 학습부; 를 포함하고,
상기 분류기 학습부는 상기 학습 데이터 집합에서 테스트 집합과 학습 집합을 설정하고, 상기 학습 집합에 포함된 상기 약물과 단백질의 조합 데이터 중에서 상기 테스트 집합에 포함된 상기 약물과 단백질의 조합 데이터와의 관련도가 소정의 기준 이상인 선별된 약물과 단백질의 조합 데이터 및 상기 테스트 집합에 포함된 상기 약물과 단백질의 조합 데이터의 각 상기 단백질 특징 정보 및 약물 특징 정보를 입력으로 하는 상기 분류기의 파라미터를 학습하여 상기 분류기를 학습하는 것을 특징으로 하는 약물과 단백질 간 관계 분석 장치.
약물과 단백질 간 관계 분석 장치에 있어서,
연관성을 판단할 대상이 되는 약물과 단백질에 관하여, 상기 약물의 약물 특징 정보 및 상기 단백질의 단백질 특징 정보를 입력받는 약물 단백질 특징 정보 입력부; 및
미리 학습된 분류기를 이용하여 상기 약물 특징 정보와 상기 단백질 특징 정보를 기초로, 상기 약물과 상기 단백질 간의 상기 연관성을 판단하는 연관성 판단부; 를 포함하고,
상기 단백질 특징 정보는 상기 단백질이 세포 내 존재하는 위치를 나타내는 단백질 위치 정보를 포함하며,
상기 분류기는 상기 연관성이 있는 약물과 단백질의 조합 데이터를 적어도 하나 이상 포함하는 학습 데이터 집합에서 테스트 집합과 학습 집합을 설정하여, 상기 학습 집합에 포함된 상기 약물과 단백질의 조합 데이터 중에서 상기 테스트 집합에 포함된 상기 약물과 단백질의 조합 데이터와의 관련도가 소정의 기준 이상인 선별된 약물과 단백질의 조합 데이터 및 상기 테스트 집합에 포함된 상기 약물과 단백질의 조합 데이터의 각 상기 단백질 특징 정보 및 약물 특징 정보를 입력으로 하는 상기 분류기의 파라미터 학습을 통하여 미리 학습되는 것을 특징으로 하는 약물과 단백질 간 관계 분석 장치.
제19항에 있어서, 상기 연관성 판단부는,
상기 연관성이 존재하는 것으로 미리 알려진 약물과 단백질 간의 조합 데이터들을 포함하는 정답 집합 중에서, 상기 연관성을 판단할 대상이 되는 상기 약물과 상기 단백질 간의 조합 데이터와 관련도가 소정의 기준 이상이 되는 상기 약물과 단백질 간의 조합 데이터를 선별하는 선별부; 및
상기 정답 집합 중에서 선별된 상기 약물과 단백질 간의 조합 데이터와, 상기 연관성을 판단할 대상이 되는 상기 약물과 상기 단백질 간의 조합 데이터의 각 상기 단백질 특징 정보 및 상기 약물 특징 정보에 기초하여 상기 분류기를 이용하여 상기 약물과 상기 단백질 간의 상기 연관성을 판별하는 판별부;를 포함하는 것을 특징으로 하는, 약물과 단백질 간 관계 분석 장치.