KR102035162B1

KR102035162B1 - 질병 표적 대사 효소에 특이적인 인체 대사 물질을 이용하여 질병에 대한 약물 후보를 예측하는 방법

Info

Publication number: KR102035162B1
Application number: KR1020190028220A
Authority: KR
Inventors: 이관수; 이윤혁; 최호재
Original assignee: 한국과학기술원
Priority date: 2019-03-12
Filing date: 2019-03-12
Publication date: 2019-11-08
Also published as: KR20190028417A

Abstract

약물 후보 예측 방법이 제공된다. 이 방법은 적어도 하나의 프로세서에 의해 동작하는 시스템이 약물 후보를 예측하는 방법으로서, 이미 알려진 약물들 중에서, 각각의 약물의 화학적 지문과 특정 질병의 발생에 관련된 인체 대사 물질의 화학적 지문 간의 유사도 점수가 기준값 이상인 적어도 하나의 약물을 추출하는 단계, 그리고 상기 적어도 하나의 약물을 상기 특정 질병의 약물 후보로 결정하는 단계를 포함하고, 상기 인체 대사 물질은, 상기 특정 질병의 발생에 기여하는 질병 표적 대사 효소와 상호 작용하는 것이다.

Description

질병 표적 대사 효소에 특이적인 인체 대사 물질을 이용하여 질병에 대한 약물 후보를 예측하는 방법{METHOD FOR PREDICTING DRUG CANDIDATE FOR DISEASES BY USING HUMAN METABOLITE SPECIFIC FOR THE DISEASE TARGET METABOLIZING ENZYME}

본 발명은 인체 대사 물질과의 유사도 기반 약물 후보 예측 방법 및 그 시스템에 관한 것이다.

최근 약물 개발 프로세스에서의 높은 실패율로 인해 약물 재창출이 새로운 패러다임으로 떠오르고 있다. 약물 재창출은 이미 시판 중이거나 임상 단계에서 안정성 이외의 이유로 상업화에 실패한 약물을 대상으로 새로운 효능을 입증하여 약물로 개발하는 방법이다.

약물 후보를 예측하기 위해 기존 약물과의 구조 유사성, 표적 결합 구조의 예측 등의 방법론들이 개발되고 있으며 약물 개발 프로세스에 기여를 하고 있다.

그러나 이미 개발된 방법론들에서 인체 대사 물질 공간(a space of human innate metabolites)은 비교적 고려되지 않았다.

약물의 구조가 인체 대사 물질과 유사한 경우, 같은 표적에 유사한 방식으로 상호 작용할 수 있으므로, 인체 대사 물질 공간은 약물 개발의 훌륭한 자원이 될 수 있다. 일례로, 모르핀(Morphine)은 인체 오피오이드(Opioid) 시스템의 엔도르핀(Endorphin)을 모방하며, 약리학적 및 생리학적 효과가 유사하다는 것이 증명되었다. 이처럼, 약물 개발에 있어서 인체 대사 물질 유사성은 중요한 특성임에도 불구하고 이 특성을 고려하여 약물 후보 물질을 예측할 수 있는 방법론이 없어 인체 대사 물질 유사 약물 발굴이 제한적인 상황이다.

현재, 인체 대사 물질의 특성을 약물 개발에 이용하려는 노력의 하나로 대사 물질 유사도(metabolite-likeness)라는 개념이 제안되어 있다.

대사 물질 유사도는 인체 대사 물질과 유사한 구조를 가지는 약물의 경우, 약물 유사 대사 물질이 사용하는 인체 수송 시스템을 함께 이용할 가능성이 있다는 점에서 새로운 약물 가능성 여과기(druggability filter)로 제안되었다.

그러나 대부분의 인체 대사 물질은 대사 효소를 포함하는 생체 내 표적(innate target) 들과 상호 작용하고 있으며, 새로운 질병 연관 표적-약물 관계가 약물의 생체 내 표적 연관 대사 물질 유사도로부터 직접 추론될 수 있음에도 불구하고, 이 특성을 이용한 신규 약물 예측 방법론은 제안되지 않은 실정이다.

이처럼, 기존에도 여러 약물 재창출 방법론이 있었지만, 이미 개발된 방법론들에서는 질병 연관 표적 단백질과 상호 작용하는 기존의 약물 정보가 없는 경우에는 약물 재창출이 어렵다는 한계를 가지고 있다.

본 발명이 해결하고자 하는 과제는 질병 연관 인체 대사 물질과 이미 알려진 약물 간의 화학적 구조 유사성을 기반으로, 질병 연관 생체 표적 단백질과 약물의 상호작용 관계를 추론함으로써, 기존 약물 중에서 약물 재창출이 될 수 있는 약물 후보를 예측하는 방법을 제공하는 것이다.

본 발명의 하나의 특징에 따르면, 적어도 하나의 프로세서에 의해 동작하는 시스템이 약물 후보를 예측하는 방법으로서, 이미 알려진 약물들 중에서, 각각의 약물의 화학적 지문과 특정 질병의 발생에 관련된 인체 대사 물질의 화학적 지문 간의 유사도 점수가 기준값 이상인 적어도 하나의 약물을 추출하는 단계, 그리고 상기 적어도 하나의 약물을 상기 특정 질병의 약물 후보로 결정하는 단계를 포함하고, 상기 인체 대사 물질은, 상기 특정 질병의 발생에 기여하는 질병 표적 대사 효소와 상호 작용하는 것일 수 있다.

상기 추출하는 단계 이전에, 질병을 발생시키는 질병 표적 대사 효소 정보, 상기 질병 표적 대사 효소와 반응성이 있는 화합물 정보, 그리고 인체 대사에 참여하거나 또는 상기 인체 대사로 생성되는 화합물에 관한 인체 대사 물질 정보를 기초로, 인체 대사 물질과 상기 질병 표적 대사 효소 간의 상호작용 관계 수를 이용하여 빈도표를 생성하는 단계, 상기 빈도표에서 상호작용 관계들이 통계적으로 유의미한지를 평가하여 유의확률(p-value)을 계산하는 단계, 그리고 상기 유의확률이 임계치 이하의 값을 가지는 상호 작용 관계들 중에서 상기 유의확률의 우선순위가 가장 높은 상호 작용 관계를 결정하는 단계를 더 포함하고, 상기 추출하는 단계는, 상기 결정된 상호 작용 관계에 포함된 인체 대사 물질을 대상으로 상기 적어도 하나의 약물을 추출할 수 있다.

상기 추출하는 단계는, 상기 화학적 지문 간의 유사도 점수를 토대로 상기 각각의 약물과 상기 인체 대사 물질의 유사도 행렬을 생성하는 단계, 상기 결정된 상호 작용 관계에 기초하여, 상기 유사도 행렬에서 상기 인체 대사 물질을 상기 질병 표적 대사 효소로 치환한 점수화 행렬을 생성하는 단계, 그리고 상기 점수화 행렬의 약물들 중에서 기준 유사도 점수보다 가장 높은 유사도 점수를 갖는 약물을 추출하는 단계를 포함할 수 있다.

상기 상호 작용 관계를 결정하는 단계와 상기 추출하는 단계 사이에, 약물 표적 대사 효소, 인체 대사 물질 및 약물 간의 관계 정보를 포함하는 기준 데이터 세트의 화학적 지문 간의 유사도 점수를 바탕으로 생성한 수신자 조작 특성 곡선(Receiver Operating Characteristic curve) 및 요덴 지표(Youden's Index)를 이용하여 상기 기준 유사도 점수를 선정하는 단계를 더 포함할 수 있다.

상기 기준 데이터 세트는, 공개 데이터베이스로부터 수집한 약물 표적 대사 효소 정보 및 상기 빈도표로부터 결정된 상호 작용 관계 정보를 이용하여 선정될 수 있다.

상기 기준 유사도 점수는, 상기 화학적 지문 간의 유사도 점수들 중에서 상기 수신자 조작 특정 곡선을 이용하여 계산된 요덴 지표(Youden's Index)가 가장 높은 유사도 점수로 결정될 수 있다.

상기 기준 유사도 점수를 선정하는 단계 이후, 상기 기준 데이터 세트에 대하여 분자와 표적 간 상호 작용을 예측하는 적어도 하나의 예측 알고리즘을 이용하여 예측한 값을 기초로 예측 수신자 조작 특성 곡선을 생성하여 상기 기 생성한 수신자 조작 특성 곡선과 비교하여 상기 기준 데이터 세트의 예측 정확도를 검증하는 단계를 더 포함할 수 있다.

본 발명의 실시예에 따르면, 이미 인체에 대한 독성, 부작용 등의 데이터가 있는 임상 승인 약물들의 인체 대사 물질 유사도를 이용하여 질병 연관 표적과의 상호 작용을 추론함으로써, 약물 후보를 예측 및 발굴할 수 있다.

또한, 특정 질병 연관 표적 단백질과 상호 작용하는 알려진 약물정보가 없다고 하더라도 질병 연관 표적 단백질과 상호 작용하는 인체 대사 물질 관계와의 유사도를 기반으로 하여 특정 표적 단백질에 대한 기존 약물 중에서 약물 후보를 예측할 수 있다. 따라서, 종래에 약물 재창출을 하기 힘들었던 질병들까지 약물 재창출이 가능하도록 약물 재창출 공간을 증가시키는 효과가 기대된다.

또한, 약물 공간의 인체 대사 물질 유사도를 이용하여 약물 후보 예측에만 한정하지 않고, 선도물질 공간(lead space), 화학물질 공간(chemical space)으로 확장하여 신규 약물 후보를 예측하는 방법으로 사용할 수도 있다.

또한, 약물 재창출이나 신규 약물 후보 예측과 더불어 약물의 신규 부작용(side-effect) 예측에도 응용 및 활용 될 수 있다.

또한, 인체 대사 물질 유사성을 기반으로 약물 후보를 예측하게 되면 약동학 및 약력학적으로 우수한 약물 후보가 예측될 가능성이 커진다.

도 1은 본 발명의 한 실시예에 따른 약물 후보 예측 시스템의 개략적인 블록도이다.
도 2는 본 발명의 한 실시예에 따른 약물 후보 예측 방법의 순서도이다.
도 3은 본 발명의 한 실시예에 따른 약물 후보 예측 결과의 예시도이다.
도 4는 본 발명의 다른 실시예에 따른 약물 후보 예측 시스템의 개략적인 블록도이다.
도 5는 본 발명의 실시예에 따른 질병 연관 인체 대사 물질을 추출하는 과정을 나타낸 순서도이다.
도 6은 본 발명의 실시예에 따른 점수화 행렬을 생성하는 과정을 나타낸 순서도이다.
도 7은 본 발명의 실시예에 따른 유사도 행렬의 히트맵을 나타낸 것이다.
도 8은 본 발명의 실시예에 따른 기준 유사도 점수 선정 과정을 나타낸 순서도이다.
도 9는 본 발명의 한 실시예에 따른 기준 데이터 세트의 예시도이다.
도 10은 본 발명의 실시예와 종래 SwissTargetPrediction(STP) 알고리즘의 수신자 조작 특성 곡선을 비교한 도면이다.
도 11은 본 발명의 실시예와 종래 TargetNet(TN) 알고리즘의 수신자 조작 특성 곡선을 비교한 도면이다.
도 12는 본 발명의 실시예와 Libdock(Site-Directed Docking Program)의 수신자 조작 특성 곡선을 비교한 도면이다.
도 13은 본 발명의 한 실시예에 따른 수신자 조작 특성 곡선을 나타낸 그래프이다.
도 14는 본 발명의 한 실시예에 따른 요덴 지표를 나타낸 그래프이다.
도 15는 본 발명의 실시예에 따른 약물 후보 예측 과정을 나타낸 순서도이다.
도 16은 본 발명의 한 실시예에 따른 대사 길항 물질과 관련된 약물 후보를 나타낸 표이다.
도 17은 본 발명의 한 실시예에 따른 고쉐병과 연관된 효소 및 대사물질을 포함한 대사 경로의 단편을 보여준다.
도 18은 본 발명의 한 실시예에 따라 문헌 조사를 통해 근거가 뒷받침 된 후보들의 목록을 나타낸 표이다.
도 19는 본 발명의 또 다른 실시예에 따른 약물 후보 예측 시스템의 하드웨어 구성을 나타낸 블록도이다.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

또한, 명세서에 기재된 "…부", "…기", "…모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

도 1은 본 발명의 한 실시예에 따른 약물 후보 예측 시스템의 개략적인 블록도이고, 도 2는 본 발명의 한 실시예에 따른 약물 후보 예측 방법의 순서도이며, 도 3은 본 발명의 한 실시예에 따른 약물 후보 예측 결과의 예시도이고, 도 4는 본 발명의 다른 실시예에 따른 약물 후보 예측 시스템의 개략적인 블록도이다.

먼저, 도 1을 참조하면, 약물 후보 예측 시스템(100)은 질병 연관 대사물질 정보 추출부(101), 유사도 생성부(103), 기준 유사도 선정부(105) 및 약물 후보 예측부(107)를 포함하고, 이들 구성의 동작에 대해 설명하면, 도 2와 같다.

도 2를 참조하면, 질병 연관 대사물질 정보 추출부(101)는 질병 연관 단백질과 인체 대사 물질 간의 상호작용 관계 정보를 추출한다(S101). 이때, 질병 연관 대사물질 정보 추출부(101)는 질병 단백질 데이터베이스(200), 단백질-화합물 상호작용 데이터베이스(300), 인체 대사물질 데이터베이스(400) 각각으로부터 수집한 정보들에 기초하여 질병 연관 단백질과 인체 대사 물질 간의 상호작용 관계 정보를 추출한다. 구체적인 동작은 도 5를 참고하여 후술한다.

유사도 생성부(103)는 이미 임상에서 사용되고 있는 승인된 약물과 질병 연관 인체 대사물질 사이의 화학적 구조 유사도 점수에 따른 유사도 행렬을 생성한다(S103). 유사도 생성부(103)는 S101 단계에서 추출한 상호작용 관계 정보에 기초하여 S103 단계에서 생성된 유사도 행렬로부터 질병 연관 단백질을 매개로 하여 약물과 질병 연관 단백질 간의 점수화 행렬을 생성한다(S105). 즉, S103 단계에서 생성된 유사도 행렬에서 질병 연관 인체 대사 물질을 S101 단계에서 추출한 상호작용 관계 정보에 기초하여 질병 연관 단백질로 치환한다.

약물 후보 예측부(107)는 기준 유사도 선정부(105)가 선정한 기준 유사도 점수를 S105 단계에서 생성된 점수화 행렬에 적용하여 질병 별로 약물 후보를 예측한다(S107).

도 3을 참조하면, Mesothlioma라는 질병의 표적 효소(Targer Enzyme)는 GART이고 연관된 대사물질(Metabolite)은 10-Formyltetrahydrofolate이며, 구조 유사도 점수(0.97)가 가장 높은 약물(Top-similarity Drug)은 Leucovorin이다. 따라서, Leucovorin는 약물 후보(Drug Candidate)로 제시되었는데, 원래 이 약물의 연관 질병(Original Indication)은 Osteosarcoma이나, Mesothlioma라는 새로운 연관 질병(New Indication)에 대하여 약물 후보로 제시될 수 있다.

또한, Leukemia라는 질병의 표적 효소는 POLA/B이고, 연관된 대사물질은 dCTP이며, 구조 유사도 점수(0.81)가 가장 높은 약물은 Decitabine이다. 따라서, Decitabine는 약물 후보로 제시되었는데, 원래 이 약물의 연관 질병은 Myelodysplastic syndrome이나, Leukemia라는 질병에 대하여 약물 후보로 제시될 수 있다.

이와 같이, 약물 후보 예측 시스템(100)은 질병 연관 인체 대사 물질과 기존 약물 간의 화학적 구조 유사성을 기반으로 하여 질병 연관 표적 단백질과 약물의 상호작용 관계를 추론함으로써, 질병 별로 약물 재창출이 될 수 있는 후보를 예측할 수 있다.

도 4를 참조하면, 약물 후보 예측부(107)는 표시 장치(700)와 연결될 수 있다. 약물 후보 예측부(107)는 표시 장치(700)의 화면에 예측된 약물 후보를 출력할 수 있다.

또한, 약물 후보 예측부(107)는 질병 별로 예측한 약물 후보를 데이터베이스(109)에 저장하여, 약물 후보 데이터베이스(109)를 구축할 수 있다. 그리고 약물 후보 예측 시스템(100)은 사용자 인터페이스부(111)를 추가로 포함할 수 있다.

사용자 인터페이스부(111)는 통신망(800)을 통해 연결된 단말(900)과 연결된다. 사용자 인터페이스부(111)는 약물 후보를 데이터베이스(109)에 대한 접근을 제공하는 수단으로, 통신망(800)을 통해 단말(900)과 연결되어 각종 정보를 교환할 수 있도록 구성될 수 있다. 예를들면, 사용자 인터페이스부(111)는 단말(900)이 질병 별로 약물 후보를 검색할 수 있는 환경을 제공할 수 있다. 통신망(800)은 동일한 하드웨어에서의 통신은 물론, 구내 정보 통신망(local area network, LAN), 도시권 통신망(metropolitan area network, MAN), 광역 통신망(wide area network, WAN), 인터넷, 2G, 3G, 4G 이동 통신망, 와이파이(Wi-Fi), 와이브로(Wibro) 등을 포함할 수 있으며, 통신 방식도 유선, 무선을 가리지 않으며 어떠한 통신 방식이라도 상관없다. 단말(900)은 스마트 폰, PC(Personal Computer), 태블릿 PC, 개인 휴대 정보 단말기(Personal Digital Assistant, PDA), 웹 패드 등과 같이 메모리 수단을 구비하고 마이크로프로세서를 탑재하여 연산 능력을 갖춘 통신 기능을 구비할 수 있다.

이제, 약물 후보 예측 시스템(100)의 세부 동작에 대해 설명하기로 한다.

도 5는 본 발명의 실시예에 따른 질병 연관 인체 대사 물질을 추출하는 과정을 나타낸 순서도로서, 질병 연관 대사물질 정보 추출부(101)의 동작을 나타낸다.

도 5를 참조하면, 질병 연관 대사물질 정보 추출부(101)는 질병 연관 단백질과 인체 대사 물질 간의 상호작용 관계 정보를 추출한다. 여기서, 상호작용 관계 정보는 질병 연관 단백질과 상호 작용하는 인체 대사 물질 정보를 의미한다. 예를들면, 단백질의 하나인 Xanthine oxidase의 체내 퓨린(아데노신, 구아노신) 대사 작용으로 인해 대량으로 발생한 요산이 몸속에 축적되어 통풍을 유발하는데, Xanthine oxidase, 퓨린, 통풍의 관계가 질병 연관 단백질과 인체 대사 물질 간의 상호작용 관계 정보가 될 수 있다.

먼저, 질병 연관 대사물질 정보 추출부(101)는 질병 단백질 데이터베이스(200)로부터 질병 연관 단백질 정보를 수집한다(S201). 여기서, 질병 연관 단백질 정보는 특정 질병의 발병의 원인이 되거나 관여하는 단백질 정보를 의미한다. 이때, 추출부는 'DisGeNet'과 같은 공개 데이터베이스를 이용할 수 있다.

질병 연관 대사물질 정보 추출부(101)는 단백질-화합물 상호작용 데이터베이스(300)로부터 단백질-화합물 상호작용 정보를 수집한다(S203). 여기서, 단백질-화합물 상호작용 정보는 특정 단백질과 반응성이 있는 화합물 정보를 의미하며, 예를들면, 세포 재생에 관여하는 단백질과 저분자 화합물 정보 등을 포함할 수 있다. 이때, 질병 연관 대사물질 정보 추출부(101)는 'STITCH', 'KEGG', 'BRENDA'과 같은 공개 데이터베이스를 이용할 수 있다.

질병 연관 대사물질 정보 추출부(101)는 인체 대사 물질 데이터베이스(400)로부터 인체 대사 물질 정보를 수집한다(S205). 여기서, 대사물질은 대사에 참여하거나 그것으로 생성되는 화학 화합물을 말한다. 대사반응은 효소(Enzyme)의 촉매작용에 의하여 진행된다. 대사는 일반적으로 효소의 기능적 집합체(효소계)의 작용이며, 기질(substrate)의 화학결합이 하나씩 변화하여 대사물질이 된다. 이때, 질병 연관 대사물질 정보 추출부(101)는 'Recon2', 'HMDB'와 같은 공개 데이터베이스를 이용할 수 있다.

이때, 효소는 각종 화학반응에서 자신은 변화하지 않으나 반응속도를 빠르게 하는 단백질을 말한다. 기질은 효소가 촉매시키는 특정한 반응 분자나 분자 그룹을 말한다.

질병 연관 대사물질 정보 추출부(101)는 질병 연관 단백질 정보를 이용하여 단백질-화합물 상호작용 정보 중에서 질병 연관 단백질-화합물 상호작용 정보를 추출한다(S207).

질병 연관 대사물질 정보 추출부(101)는 인체 대사 물질 정보를 이용하여 질병 연관 단백질-화합물 상호작용 정보 중에서 인체 대사 물질과 관련된 질병 연관 상호작용 정보를 추출(S209)하여, 질병 연관 단백질과 인체 대사 물질간의 상호작용 관계를 매핑한다(S211).

이때, 질병 연관 대사물질 정보 추출부(101)가 단순히 수집한 정보들을 매핑하기만 하면 하나의 질병 연관 단백질에 하나의 인체 대사 물질 상호작용 정보가 추출 되는 것이 아니라 여러 인체 대사 물질과의 상호작용 관계가 추출된다. 본 발명에서는 질병 연관 인체 대사 물질을 매개로 하여 새로운 질병 연관 단백질-약물 상호작용 관계를 예측하는 것이므로, 가장 유의미한 질병 연관 인체 대사 물질을 우선순위화하는 과정이 필요하다. 유의미한 질병 연관 인체 대사 물질을 우선순위화하기 위해 인체 대사 물질과 특정 질병 연관 단백질들과 상호작용 관계수를 기준으로 하여 질병 연관 인체 대사 물질 관계를 정할 수 있다.

한 실시예에 따르면, 질병 연관 대사물질 정보 추출부(101)는 인체 대사 물질과 특정 질병 연관 단백질들 간의 상호작용 관계 수를 기준으로 유의성 평가를 한다(S213). 질병 연관 대사물질 정보 추출부(101)는 인체 대사 물질과 특정 질병 연관 단백질들 간의 상호작용 관계 수를 이용하여 빈도표를 생성할 수 있다. 빈도표는 2×2로 구현될 수 있는데, 특정 인체 대사 물질과, 그 물질과 상호작용 관계가 있는 질병 연관 단백질의 관계수를 빈도수로 하여 생성된다. 예를들면, 질병들과 연관된 단백질의 개수가 N개, 인체 대사 물질이 M개이며, 특정 인체 대사 물질 B가 질병 A 연관 단백질 a개와 상호작용한다고 하자. 그리고 특정 대사 물질 B가 질병 A 이외의 질병과 연관된 단백질 b개와 상호작용한다고 하자. 또한, 특정 대사 물질 B를 제외한 인체 대사 물질 M-1개가 질병 A 연관 단백질과 상호작용하는 개수를 c라고 하고, 질병 A 이외의 질병과 연관된 단백질과 상호작용하는 개수를 d라고하면 2×2의 빈도표는 표 1과 같이 생성된다.

	질병 A 연관 단백질	질병 A이외의 질병 연관 단백질	계
특정 인체 대사물질 B	a	b	a+b
그외의 인체 대사물질	c	d	c+d
계	a+c	b+d	a+b+c+d

질병 연관 대사물질 정보 추출부(101)는 특정 인체 대사 물질과 특정 질병 연관 단백질들과의 상호작용 관계가 통계적으로 유의미한지를 평가하며, 유의성 평가는 피셔의 정확 검정(fisher exact test)을 활용할 수 있다. 유의성 평가를 통해 산출된 유의 확률(p-value)이 임계값 0.05 이하의 값을 가지면, 그 상호작용 관계는 유의미하다고 평가한다.

질병 연관 대사물질 정보 추출부(101)는 유의하다고 평가된 상호작용 관계 정보를 유의 확률을 기준으로 우선순위화하고, 우선순위가 가장 높은 상호작용 관계 정보를 질병 연관 인체 대사 물질 정보로 추출한다(S215). 이러한 방법을 통해 하나의 인체 대사 물질과 하나의 특정 질병 연관 단백질 간의 상호작용 관계 정보, 즉, 질병 연관 인체 대사 물질 정보를 추출한다.

도 6은 본 발명의 실시예에 따른 점수화 행렬을 생성하는 과정을 나타낸 순서도이고, 도 7은 본 발명의 실시예에 따른 유사도 행렬의 히트맵을 나타낸 것이다. 이때, 도 6 및 도 7은 유사도 생성부(103)의 동작을 나타낸다.

먼저, 도 6을 참조하면, 유사도 생성부(103)는 공개된 약물 데이터베이스(500)로부터 약물 정보를 수집한다. 이때, 약물 정보는 FDA(Food and Drug Administration) 승인 약물 1,861 개일 수 있다.

유사도 생성부(103)는 수집한 모든 약물과 인체 대사 물질 데이터베이스(400)로부터 수집된 인체 대사 물질 각각의 구조 정보 파일을 공개 데이터베이스로부터 각각 수집한다(S301). 이때, 공개 데이터베이스는 예를들면, 'DrugBank', 'Recon2' 등이 이용될 수 있다.

유사도 생성부(103)는 'DrugBank'로부터 약물의 구조 정보 파일을 수집하고, 'Recon2'로부터 인체 대사 물질의 구조 정보 파일을 수집할 수 있다. 여기서, 구조 정보 파일은 화합물 구조를 표현하는 파일 형식일 수 있는데, 예를들면, sdf, smiles, inchi 등의 파일 형식을 포함한다.

한 실시예에 따르면, 유사도 생성부(103)는 수집(S301)한 약물과 인체 대사 물질 각각의 sdf 파일을 이용하여 모든 구조의 화학적 지문(chemical fingerprint)을 생성한다(S303). 이때, 유사도 생성부(103)는 Python의 RDKit module을 이용하여 MACCS key fingerprint 형태의 화학적 지문을 생성할 수 있다.

유사도 생성부(103)는 화학적 지문을 이용하여 약물과 인체 대사 물질 사이의 화학 구조적 유사도를 계산한다(S305). 한 실시예에 따르면 타니모토 유사도(Tanimoto similarity)를 이용하여 구조 유사도 점수를 계산할 수 있다.

유사도 생성부(103)는 모든 약물을 각각의 인체 대사 물질 들과의 구조 유사도를 계산하여, 구조 유사도 행렬을 생성한다(S307).

유사도 생성부(103)는 S307 단계에서 생성된 구조 유사도 행렬을 히트맵 함수를 이용하여 계측적 클러스터링(S309)한다. 그리고 구조 유사도 점수를 복수의 구간으로 분할하고, 분할된 각 구간에 할당된 색상을 달리하여 도 7과 같이, 히트맵 형태로 출력한다(S311).

이때, 유사도 생성부(103)는 FDA 승인 약물 1,861 개와, 인체 대사 물질 1,110개의 타니모토 유사도 점수를 가지는 구조 유사도 행렬을 생성할 수 있다. 유사도 생성부(103)는 생성된 구조 유사도 행렬을 R의 heatmap.2 함수를 이용하여 계층적 클러스터링하고, 타니모토 유사도 점수를 10등분하여 각각 다른 색으로 표시함으로써, 가독성을 높일 수 있다. 여기서, 히트맵은 x축과 y축으로 나타낸 그래프 혹은 2차원의 지도 위에 특정 연속형 변수의 값에 따라 색깔을 조금씩 다르게 하여 정보를 보여주는 시각화 방법이다.

유사도 생성부(103)는 S307 단계에서 생성한 약물-인체 대사 물질 유사도 행렬로부터 질병 연관 인체 대사 물질을 매개로 하여 질병 연관 단백질-약물 점수화 행렬을 생성한다(S313). 여기서, 도 5에서 설명한 바에 따르면, 질병 연관 인체 대사 물질 정보는 하나의 인체 대사 물질과 하나의 특정 질병 연관 단백질 간의 상호작용 관계 정보(일대일 매핑 정보)를 포함한다. 그러므로, 유사도 행렬의 인체 대사 물질을 상호작용 관계 정보에 따른 질병 연관 단백질로 치환하고 구조 유사도 점수를 기준으로 내림차순 정리하면, 질병 연관 단백질과 약물 간의 점수화 행렬을 생성할 수 있다. 이때, 유사도 생성부(103)는 도 7과 같이 히트맵 형태로 점수화 행렬을 제공할 수도 있다.

도 8은 본 발명의 실시예에 따른 기준 유사도 점수 선정 과정을 나타낸 순서도이고, 도 9는 본 발명의 한 실시예에 따른 기준 데이터 세트의 예시도이며, 도 10은 본 발명의 실시예와 종래 SwissTargetPrediction(STP) 알고리즘의 수신자 조작 특성 곡선을 비교한 도면이며, 도 11은 본 발명의 실시예와 종래 TargetNet(TN) 알고리즘의 수신자 조작 특성 곡선을 비교한 도면이고, 도 12는 본 발명의 실시예와 Libdock(Site-Directed Docking Program)의 수신자 조작 특성 곡선을 비교한 도면이며, 도 13은 본 발명의 한 실시예에 따른 수신자 조작 특성 곡선을 나타낸 그래프이고, 도 14는 본 발명의 한 실시예에 따른 요덴 지표를 나타낸 그래프이다.

이때, 8, 9, 10, 11, 12는 기준 유사도 선정부(105)의 동작을 나타낸다.

먼저, 도 8을 참조하면, 기준 유사도 선정부(105)는 공개된 약물 표적 단백질 데이터베이스(600)로부터 약물 표적 단백질 정보를 추출한다. 그리고 질병 연관 대사물질 정보 추출부(101)에서 제공받은 질병 연관 대사물질 정보와 약물 표적 단백질 정보에 기초하여, 약물 표적 단백질-인체 대사물질-약물을 추출한다. 그리고 약물 표적 단백질-인체 대사물질-약물 중에서 기준 데이터 세트(gold standard positive)를 선정한다(S401). 이때, 약물 데이터베이스(500)와 약물 표적 단백질 데이터베이스(600)는 하나의 공개된 데이터베이스로, 'Drugbank'가 사용될 수 있다.

이때, 기준 유사도 선정부(105)는 구조 유사도 점수가 기준값을 충족하는 약물 표적 단백질-인체 대사물질-약물을 기준 데이터 세트로 선정할 수 있다. 여기서, 기준값은 0.5 이상으로 설정될 수 있다.

이러한 기준 데이터 세트는 약물 표적 단백질-인체 대사물질과, 약물, 이들의 구조 유사도 점수(Similarity) 및 유의 확률(P-value)을 포함하며, 구조 유사도 점수에 따라 우선순위화되어 정렬될 수 있다. 이때, 구조 유사도 점수는 도 6의 S313 단계에서 산출한 질병 연관 단백질-약물 점수화 행렬로부터 제공된다. 그리고 유의 확률은 도 5의 S213 단계를 통해 산출한 질병 연관 인체 대사 물질의 유의성 평가를 통해 도출된 값이다.

본 발명의 한 실시예에 따르면, 기준 데이터 세트로 대사 길항 물질(antimetabolite) 계열의 약물을 이용할 수 있다. 여기서, 대사 길항 물질 계열의 약물들은 특정 효소의 기질 유사체(substrate analog)로 작용하여 효소의 활성을 저해함으로써 약효를 보이는 약물들이다. 이러한 대사 길항 물질 계열 약물은 인체 대사 물질과 구조 유사도가 높은 약물에 부합하는 좋은 예시의 약물이다.

따라서, 이미 임상에서 사용되고 있는 대사 길항 물질 약물 들로부터 얻을 수 있는 표적 효소-기질-대사 길항 물질의 관계 정보를 기준 데이터 세트로 하여 인체 대사 물질 유사도 기반 질병 연관 단백질-약물 상호작용 예측을 수행한다.

그러나, 본 발명이 대사 길항 물질 계열 약물로 국한되는 것은 아니며, 다양한 약물에 본 발명의 구성 및 방법을 적용할 수 있다.

기준 유사도 선정부(105)는 공개 데이터베이스로부터 수집하거나 또는 사용자가 입력한 데이터베이스로부터 대사 길항 물질 약물들과 약물 각각의 표적 정보를 수집한다. 기준 유사도 선정부(105)는 기질과 반응을 매개하는 효소 정보를 'Recon2', 'KEGG human pathway', 'BRENDA' 데이터베이스로부터 수집할 수 있다.

한 실시예에 따르면, 기준 유사도 선정부(105)는 대사 길항 물질 약물의 표적 중 효소만을 고려하고, 약물과 표적 효소 기질과의 구조 유사도 기준값 즉, 0.5 이하의 화학적 구조 유사도 점수를 갖는 경우, 제외하였다. 기준 유사도 선정부(105)는 대사 길항 물질 계열 약물의 표적 효소가 매개하는 두 개 이상의 기질과 매핑될 경우, 표적 효소가 매개하는 반응의 기질 중 대사 길항 물질 계열 약물과 화학적 구조 유사도가 가장 높은 기질 만을 고려하였다.

예를들면, Gemcitabine(대사 길항 물질) - TYMS(표적 효소) - dUMP(기질) - 0.82(유사도) 관계가 매핑되고, 또한 Gemcitabine(대사 길항 물질) - TYMS(표적 효소) - Methylene(기질) - 0.62(유사도)도 매핑 될 때, 둘 다 유사도는 0.5보다 높지만, 유사도가 가장 높은 첫번째 관계(유사도 0.82)만을 고려해서 기준 데이터 세트로 선정할 수 있다.

이러한 방식으로, 기준 유사도 선정부(105)는 18개의 대사 길항 물질, 11개의 표적 효소, 15개의 기질 간의 관계로 이루어진 기준 데이터 세트를 선정할 수 있고, 선정된 기준 데이터 세트는 도 9와 같다.

도 9를 참조하면, 기준 데이터 세트는 표적 효소(Target Enzyme), 표적 효소가 반응을 매개하는 기질(Substrate), 대사 길항 물질(Antimetabolite)을 포함하고, 이들의 구조 유사도 점수(Similarity) 및 유의 확률(P-value)을 포함한다.

이때, 구조 유사도 점수는 도 6, 7의 질병 연관 단백질-약물 점수화 행렬로부터 제공된다. 그리고 유의 확률은 도 5를 통해 산출한 질병 연관 인체 대사 물질의 유의성 평가를 통해 도출된 값으로서, 대사 길항 물질에 매핑된다. 대사 길항 물질은 인체 대사 물질과 구조가 유사하므로, 특정 인체 대사 물질과 특정 질병 연관 단백질의 상호작용 관계가 통계적으로 유의미한지를 나타내는 유의성 평가를 도출된 값으로 매핑된다.

다시, 도 8을 참조하면, 기준 유사도 선정부(105)는 성능 비교를 수행하여, 선정한 기준 데이터 세트의 예측 정확도를 검증한다(S403). 이때, 수신자 조작 특성 곡선(Receiver Operating Characteristic curve)을 토대로 기준 데이터 세트의 예측 정확도를 검증한다.

여기서, 기준 유사도 선정부(105)는 수신자 조작 특성 곡선을 생성하기 위해 R 프로그래밍 언어의 ROCR 라이브러리를 사용할 수 있다. ROCR은 X축 및 Y축에 대한 하나의 성능 척도를 자유롭게 선택하여 ROC 곡선을 그리는 프로그램이다.

기준 유사도 선정부(105)는 도 7의 유사도 행렬 중에서 기준 데이터 세트에 포함되는 유사도 점수에 기초하여 본 발명의 수신자 조작 특성 곡선을 생성한다.

기준 유사도 선정부(105)는 본 발명과의 성능 비교를 위해 이미 알려진(또는 공개된) 예측 알고리즘 3개, 즉, SwissTargetPrediction, TargetNet, Libdock(Site-Directed Docking Program) 각각을 사용하여 기준 데이터 세트에에 대한 수신자 조작 특성 곡선을 생성한다.

여기서, SwissTargetPrediction(STP) 알고리즘은 2차 및 3차원 화학적 구조 유사도 점수의 조합을 이용하여 분자-표적 상호작용을 예측한다. STP 알고리즘은 웹 기반 도구로 질의 분자에 대해 최대 15개의 상호작용 가능성이 있는 표적을 예측하여 제공한다. 따라서, 기준 유사도 선정부(105)는 1,861개의 FDA 승인 약물을 STP 도구에 질의하여 예측 표적 후보를 추출하고, STP 도구에서 제공되는 확률 점수를 기준으로 하여 분자-표적을 내림차순으로 정렬한다. 그리고 기준 유사도 선정부(105)는 이러한 확률 점수를 토대로 수신자 조작 특성 곡선을 생성하여, 본 발명과 비교하면, 도 10과 같다. STP 도구에서는 총 26개의 기준 데이터 세트 관계 중 13개의 관계만을 예측해 주었기 때문에, 13개의 관계만을 기준 데이터 세트로 하여 본 발명과의 비교를 진행했다.

도 10을 참조하면, 본 발명의 수신자 조작 특성 곡선(Metabolite-likeness)과 SwissTargetPrediction의 수신자 조작 특성 곡선을 나타내고 있다.

또한, TargetNet(TN) 알고리즘은 structure-activity relationship(SAR) 모델을 기반으로 분자-표적 상호작용을 예측한다. TN 알고리즘 역시 웹 기반 도구로서, 기준 유사도 선정부(105)는 1,861개의 FDA 승인 약물을 TN 도구에 질의하여 예측 표적 후보를 추출하고, TN 도구에서 제공되는 확률 점수를 기준으로 하여 분자-표적을 내림차순으로 정렬한다. 그리고 기준 유사도 선정부(105)는 이러한 확률 점수를 토대로 수신자 조작 특성 곡선을 생성하여, 본 발명과 비교하면, 도 11과 같다. TN 도구에서도 STP 도구와 마찬가지로 총 26개의 기준 데이터 세트 관계 중 13개의 관계만을 예측해 주었기 때문에, 13개의 관계만을 기준 데이터 세트로 하여 본 발명과의 비교를 진행했다. STP 도구의 수신자 조작 특성 곡선을 생성할 때 사용했던 13개의 기준 데이터 세트 관계와 TN 도구의 수신자 조작 특성 곡선을 생성 할 때 사용한 13개의 기준 데이터 세트 관계는 다른 관계로 구성되어 있다.

도 11을 참조하면, 본 발명의 수신자 조작 특성 곡선(Metabolite-likeness)과 TargetNet의 수신자 조작 특성 곡선을 나타내고 있다.

또한, Libdock은 분자 도킹(molecular docking)의 한 알고리즘이다. 기준 유사도 선정부(105)는 Accelrys의 Discovery Studio 3.1(DS) 프로그램을 이용하여 분자 도킹 실험을 진행한다. 기준 유사도 선정부(105)는 1,861개의 FDA 승인 약물들을 이용해 Dihydrofolate reductase(DHFR)와 Thymidylate synthase(TYMS) 두 효소에 대해 도킹 실험을 진행한다. 기준 유사도 선정부(105)는 DHFR과 기질인 엽산과의 X선 결정 구조 복합체 파일을 단백질 데이터 뱅크(PDB ID: 1DHF)에서 수집한다. 또한, 기준 유사도 선정부(105)는 TYMS와 기질인 dUMP과의 X선 결정 구조 복합체 파일을 단백질 데이터 뱅크(PDB ID: 1HVY)에서 수집한다. 기준 유사도 선정부(105)는 단백질 구조 준비 및 최소화, 수소 원자 추가, 물 분자 제거 및 pH 환경 중성화 등은 DS를 이용해 진행한다. 각 단백질의 활성 부위는 기질 결합 부위 주변 반경 10Å으로 정의된다. 기준 유사도 선정부(105)는 DS의 libdock 알고리즘 모듈을 통해 계산된 Libdock 점수를 획득하고, 한 약물의 여러 libdock 점수 중 최댓값만을 고려하여 내림차순으로 정렬한다. 그리고 기준 유사도 선정부(105)는 이러한 libdock 점수를 토대로 수신자 조작 특성 곡선을 생성하여, 본 발명과 비교하면, 도 12와 같다. Libdock 알고리즘에서는 총 26개의 기준 데이터 세트 관계 중 10개의 관계만을 기준 데이터 세트로 하여 본 발명과의 비교를 진행했다.

도 12를 참조하면, 본 발명의 수신자 조작 특성 곡선(Metabolite-likeness)과 Libdock 의 수신자 조작 특성 곡선을 나타내고 있다.

도 10, 11, 12를 참조하면, 각각의 수신자 조작 특성 곡선의 X축은 정확도(Specificity)를 나타내고, Y축은 민감도(Sensitivity)를 나타낸다.

기준 유사도 선정부(105)는 각 수신자 조작 특성 곡선에 대하여 AUC(Area under the curve)를 계산하여 수신자 조작 특성 곡선의 성능을 비교한다.

도 10에서, 본 발명의 AUC는 0.914이고, STP의 AUC는 0.658이다. 도 11에서, 본 발명의 AUC는 0.991이고, TN의 AUC는 0.862이다. 도 12에서, 본 발명의 AUC는 0.989이고, libdock의 AUC는 0.721이다.

따라서, 본 발명의 AUC는 STP, TN, libdock 각각의 AUC에 비해 모두 더 큰 값을 가진다. 그러므로, 본 발명의 기준 데이터 세트 예측이 STP, TN, libdock보다 우수한 성능을 나타냄을 알 수 있다.

다시, 도 8을 참조하면, 기준 유사도 선정부(105)는 26개의 기준 데이터 세트 관계에 대하여 도 13과 같이 수신자 조작 특성 곡선을 생성한다(S405). 그리고 이러한 수신자 조작 특성 곡선에 기초하여 요덴 지표(Youden's Index)를 계산(S407)하여 도 14와 같이 그래프를 생성한다. 요덴 지표는 수학식 1과 같이 계산된다.

여기서,

는 판단 기준을 x값으로 할때의 판단 결과의 정확도를 의미한다.

는 판단 기준을 x값으로 할때의 판단 결과의 민감도를 의미한다. 이때, x는 기준 데이터 세트의 화학적 구조 유사도 점수를 의미한다.

기준 유사도 선정부(105)는 도 13의 본 발명의 수신자 조작 특성 곡선에서 기준 데이터 세트의 유사도 점수의 정확도(

) 정보를 포함하는 X축 값과 민감도(

)를 나타내는 Y축 값을 이용하여 요덴 지표를 계산한다.

기준 유사도 선정부(105)는 위 수학식 1에 의해 계산된 요덴 지표에 기초하여 도 14와 같은 그래프를 생성한다. 도 14를 참조하면, 구조 유사도 점수가 0.654일 때 요덴 지표가 0.979로 가장 높은 값을 나타낸다. 따라서, 기준 유사도 선정부(105)는 0.654를 임계 유사도 점수로 선정한다. 이러한 임계 유사도 점수는 기준 데이터 세트를 가장 잘 분류하는 기준 유사도 점수로 판단된다.

도 15는 본 발명의 실시예에 따른 약물 후보 예측 과정을 나타낸 순서도이고, 도 16은 본 발명의 한 실시예에 따른 대사 길항 물질과 관련된 약물 후보를 나타낸 표이다. 이때, 도 15 및 도 16은 약물 후보 예측부(107)의 동작을 나타낸다.

먼저, 도 15를 참조하면, 약물 후보 예측부(107)는 질병 연관 단백질과 약물 간의 점수화 행렬에 기준 유사도 점수를 적용(S501)하여, 질병 별로 약물 후보를 예측한다.

약물 후보 예측부(107)는 기준 유사도 점수보다 높은 유사도 점수가 매핑된 약물들을 추출(S503)하여 그 질병에 대한 약물 후보로 예측한다(S505). 이때, 기준 유사도 점수보다 유사도 점수가 높을 수록 약물 재창출 가능성이 높은 후보로 예측된다. 다만, 신규 재창출 후보를 예측하는 것이므로, FDA 승인 약물 중 인체 대사 물질에 해당하는 약물은 제외할 수 있다.

도 16을 참조하면, 기준 데이터 세트에 포함된 대사 길항 물질과 관련된 총 11개의 질병 연관 효소에 대한 약물 후보 중 가장 점수가 높은 후보를 나타낸다. 특정 질병 관련 표적 효소(Target Enzyme), 표적 효소가 반응을 매개하는 기질(Substrate), 후보 약물(Candidate drug)과 그 후보 약물의 신규 표적 질병(Indicated Disease), 이들의 구조 유사도 점수(Similarity)를 매핑하여 나타내었다.

이때, 표적 효소 XDH의 경우에는 기준 유사도 점수인 0.654 이상의 유사도 점수를 가지는 신규 후보 약물이 없었다.

이와 같이, 본 발명의 실시예에 따라 예측한 10가지의 약물 후보 약물들이 실제로 가능성이 높은 후보 약물인지 알아보기 위해 문헌 조사를 한 결과, 예측된 10개의 약물-질병 중 7개의 약물-질병 관계가 이미 밝혀진 관계라는 것이 문헌 조사를 통해 뒷받침되었다.

한편, 전술한 기준 유사도 점수가 선정된 기준 데이터 세트 이외의 특정 질병을 치료할 수 있는 새로운 약물 후보를 예측할 수 있는지 알아보기 위해, 희귀 질병 중의 하나인 고쉐병(Gaucher disease)의 약물 후보를 예측하는 실험을 시도하였다.

고쉐병은 glucocerebrosidase라는 효소의 활성이나 그 양 자체가 부족하여 glucosylceramide가 축적되어 생기는 상염색체 열성 유전 질환이다. 현재는 이 병을 치료하기 위해 효소 교체 치료(Enzyme Replacement Therapy)가 주로 사용되고 있다. 그러나, 연간 3억원에 육박하는 치료비와 여러 밝혀지지 않은 이유로 인해 치료 효과도 천차만별인 상황이다. 게다가, 효소 교체 치료가 불가능할 경우, 기질 제거 치료(Substrate Reduction Therapy)를 진행하는데, 현재 이를 위해 FDA 승인된 약물은 miglustat, eliglustat 단 2가지뿐이다. 이마저도 치료 효과가 없다면 더 이상의 치료 선택권은 없는 실정이다.

본 발명의 실험예에서는, 고쉐병을 치료하기 위한 약물 후보를 예측하기 위해 고쉐병과 연관된 효소로서, Glucocerebrosidase, Ceramide glucosyltransferase 등과 기질 관계에 있는 대사 물질을 이용했다.

도 17은 본 발명의 한 실시예에 따른 고쉐병과 연관된 효소 및 대사물질을 포함한 대사 경로의 단편을 보여준다.

도 17을 참고하면, Lactosylceramide는 Ceramide-Glucose-Galactose 구조로 이루어진다. Lactosylceramide는 Beta-galactosidase의 효소 작용으로 Glucosylceramide로 변화하며, 이때, Galactose라는 대사물질을 발생시킨다.

Glucosylceramide는 Ceramide-Glucose 구조로 이루어지며, Glucocerebrosidase의 효소 작용으로 Glucose라는 대사물질을 발생시킨다. Glucocerebrosidase 효소는 고쉐병과 직접적으로 연관된다.

Galactosylceramide는 Ceramide-Galactose 구조로 이루어지며, Galactosylceramidase의 효소 작용으로 Ceramide로 변화하며, 이때, Galactose라는 대사물질을 발생시킨다. Ceramide는 Ceramide glucosyltransferase의 효소 작용으로 Glucosylceramide로 변화하고, 이때, Glucose라는 대사물질을 발생시킨다. 기존의 고쉐병 약물인 miglustat은 Ceramide glucosyltransferase 효소의 활성을 방해함으로써, Ceramide가 Glucosylceramide로 변화하는 것을 막는다. Glucocerebrosidase 효소의 비활성으로 인한 Glucosylceramide의 축적이 고쉐병의 원인이므로, Ceramide가 Glucosylceramide로 변화하는 것을 막음으로써, 고쉐병을 치료할 수 있다.

따라서, 고쉐병과 연관된 효소 단백질은 Glucocerebrosidase와 Ceramide glucosyltransferase이고, 고쉐병과 연관된 대사물질은 Glucosylceramide와 Ceramide이므로, 기존에 약물들을 Glucosylceramide와 Ceramide와의 화학적 구조를 비교하여, 산출한 구조 유사도 점수를 토대로 전술한 방법과 같이 약물 후보를 예측하였다. 이때, 기존의 고쉐병 약물인 miglustat을 제외하고 총36개의 약물 후보를 얻을 수 있었다.

도 18은 본 발명의 한 실시예에 따라 문헌 조사를 통해 근거가 뒷받침 된 후보들의 목록을 나타낸 표로서, 고쉐병 치료에 사용될 수 있을 것으로 예측된 약물 후보 중에서 문헌 조사를 통해 근거가 뒷받침된 후보들의 목록을 나타낸다.

도 18을 참조하면, 약물 후보로 예측된 총 36개의 새로운 고쉐병 치료 약물 후보 중에서 절반은 항생제(Aminoglycosides) 계열임을 알 수 있다. 나머지 절반은 항고혈압제(Anti-hypertension), 항면역제(Immunosuppressant), 항당뇨제(Anti-diabetic)등으로 분류되었다.

이러한 약물 후보들에 대한 효능을 검증하기 위해 문헌 조사를 진행하였다. 약물 후보 중에서 대부분의 항생제들은 Aminoglycoside와 관련된 Aminocyclitol 계열 항생제였다. 최근 Aminocyclitol 계열 유도체들이 고쉐병에 효과가 있다는 보고가 있었다.

그리고 현재 고쉐병 치료에 사용되고 있는 miglustat도 원래는 Nojirimycin 계열의 항생제로서, 처음 개발되었던 약물이다.

또한, 최근 항고혈압제, 항면역제 계열이 고쉐병 치료에 효과가 있을 수도 있다는 보고가 있었다.

이처럼, 약물 후보들이 고쉐병의 신규 약물로서 가능성이 높은 후보들이라는 것을 알 수 있다. 따라서, 질병 연관 단백질과 상호작용하는 인체 대사 물질의 유사도를 이용해 약물 후보를 제시할 수 있다는 가능성을 보여준다.

특히, 고쉐병과 같이, 효소 기능 장애와 관련된 유전적인 희귀 질병의 신규 약물을 재창출하는 데에 큰 장점이 있을 것으로 보이므로, 본 발명의 실시예는 인체 대사 물질 유사 약물 개발을 포함하여 제약 산업 전반에 도움이 되는 유용한 도구가 될 것으로 기대된다.

한편, 도 19는 본 발명의 또 다른 실시예에 따른 약물 후보 예측 시스템의 하드웨어 구성을 나타낸 블록도이다.

도 19를 참조하면, 약물 후보 예측 시스템(1000)은 적어도 하나의 저장부(1001), 적어도 하나의 출력부(1003), 적어도 하나의 입력부(1005), 적어도 하나의 통신부(1007) 및 적어도 하나의 프로세서(1009)를 포함하는 하드웨어로 구성된다. 약물 후보 예측 시스템(1000)은 하드웨어와 결합하여 동작하는 운영체제, 미들웨어, 프로그램 등 각종 소프트웨어를 포함한다. 약물 후보 예측 시스템(1000)의 하드웨어와 소프트웨어는 본 발명을 실행할 수 있는 구성과 성능을 가진다.

저장부(1001)는 도 1 ~ 도 18에서 설명한 구성 및 방법을 구현하기 위한 프로그램을 저장한다. 저장부(1001)는 컴퓨터와 같은 장치에 의해 판독 가능한 형태의 저장 또는 전달하는 임의의 매체를 포함하고, 예를 들면 ROM(read only memory), RAM(random access memory), 자기디스크 저장 매체, 광저장 매체, 플래쉬 메모리 장치 및 기타 전기적, 광학적 또는 음향적 신호 전달 매체 등을 포함할 수 있다. 저장부(1001)에 저장된 프로그램은 도 1 ~ 도 18에서 설명한 약물 후보 예측 시스템의 동작을 구현한 명령어들(instructions)를 포함한다. 프로세서(1009)는 프로그램을 로딩하여 본 발명에서 설명한 도 1 ~ 도 19에서 설명한 약물 후보 예측 시스템(1000)의 동작을 수행한다.

출력부(1003)는 프로세서(1009)의 동작에 따른 정보를 출력한다. 이때, 화면 상에 출력할 수도 있고, 인쇄물로 출력할 수도 있고, 사용자가 인지할 수 있는 다양한 방식으로 출력할 수 있다. 입력부(1005)는 구축하는데 필요한 정보를 인터넷 상에서 수집하거나 또는 사용자로부터 입력받아 프로세서(1009)로 출력한다.

통신부(1007)는 통신망(800)에 연결되어 데이터 송수신 기능을 수행한다.

이때, 각 구성(1001, 1003, 1005, 1007)은 하나의 프로세서(1009) 내에 탑재된 형태로 도시하였으나, 이는 각 구성(1001, 1003, 1005, 1007)이 프로세서 기반으로 동작하는 것을 의미하는 것으로, 하나의 프로세서(1009)로 구현될 수도 있지만, 이더넷이나 네트워크를 통해 서로 연결된 별개의 서버로 구현될 수도 있다.

이상에서 설명한 본 발명의 실시예는 장치 및 방법을 통해서만 구현이 되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있다.

이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims

적어도 하나의 프로세서에 의해 동작하는 시스템이 약물 후보를 예측하는 방법으로서,
질병의 발생에 기여하는 질병 표적 대사 효소들과 인체 대사 물질 간의 상호작용 관계수를 이용하여, 인체 대사 물질과 질병 표적 대사 효소 간의 상호작용 관계가 통계적으로 유의미하다고 판단되는 특정 질병의 발생에 관련된 인체 대사 물질을 결정하는 단계,
이미 알려진 약물들 중에서, 각각의 약물의 화학적 지문과 상기 결정한 인체 대사 물질의 화학적 지문 간의 유사도 점수가 기준값 이상인 적어도 하나의 약물을 추출하는 단계, 그리고
상기 적어도 하나의 약물을 상기 특정 질병의 약물 후보로 결정하는 단계를 포함하고,
상기 상호작용 관계수는,
질병을 발생시키는 질병 표적 대사 효소 정보, 상기 질병 표적 대사 효소와 반응성이 있는 화합물 정보, 그리고 인체 대사에 참여하거나 또는 상기 인체 대사로 생성되는 화합물에 관한 인체 대사 물질 정보에 기초하여 설정되고,
상기 인체 대사 물질은,
상기 질병 표적 대사 효소들과 상호 작용하는 것인, 약물 후보 예측 방법.
제1항에서,
상기 결정하는 단계는,
상기 상호작용 관계 수를 이용하여 빈도표를 생성하는 단계,
상기 빈도표에서 상호작용 관계들이 통계적으로 유의미한지를 평가하여 유의확률(p-value)을 계산하는 단계, 그리고
상기 유의확률이 임계치 이하의 값을 가지는 상호 작용 관계들 중에서 상기 유의확률의 우선순위가 가장 높은 상호 작용 관계를 결정하는 단계를 포함하고,
상기 약물을 추출하는 단계는,
상기 결정된 상호 작용 관계에 포함된 인체 대사 물질을 대상으로 상기 적어도 하나의 약물을 추출하는, 약물 후보 예측 방법.
제2항에서,
상기 추출하는 단계는,
상기 화학적 지문 간의 유사도 점수를 토대로 상기 각각의 약물과 상기 인체 대사 물질의 유사도 행렬을 생성하는 단계,
상기 결정된 상호 작용 관계에 기초하여, 상기 유사도 행렬에서 상기 인체 대사 물질을 상기 질병 표적 대사 효소로 치환한 점수화 행렬을 생성하는 단계, 그리고
상기 점수화 행렬의 약물들 중에서 기준 유사도 점수보다 가장 높은 유사도 점수를 갖는 약물을 추출하는 단계
를 포함하는, 약물 후보 예측 방법.
제3항에서,
상기 상호 작용 관계를 결정하는 단계와 상기 추출하는 단계 사이에,
약물 표적 대사 효소, 인체 대사 물질 및 약물 간의 관계 정보를 포함하는 기준 데이터 세트의 화학적 지문 간의 유사도 점수를 바탕으로 생성한 수신자 조작 특성 곡선(Receiver Operating Characteristic curve) 및 요덴 지표(Youden's Index)를 이용하여 상기 기준 유사도 점수를 선정하는 단계
를 더 포함하는, 약물 후보 예측 방법.
제4항에서,
상기 기준 데이터 세트는,
공개 데이터베이스로부터 수집한 약물 표적 대사 효소 정보 및 상기 빈도표로부터 결정된 상호 작용 관계 정보를 이용하여 선정되는, 약물 후보 예측 방법.
제4항에서,
상기 기준 유사도 점수는,
상기 화학적 지문 간의 유사도 점수들 중에서 상기 수신자 조작 특성 곡선을 이용하여 계산된 요덴 지표(Youden's Index)가 가장 높은 유사도 점수로 결정되는, 약물 후보 예측 방법.
제6항에서,
상기 기준 유사도 점수를 선정하는 단계 이후,
상기 기준 데이터 세트에 대하여 분자와 표적 간 상호 작용을 예측하는 적어도 하나의 예측 알고리즘을 이용하여 예측한 예측값을 기초로 예측 수신자 조작 특성 곡선을 생성하여 상기 기 생성한 수신자 조작 특성 곡선과 비교하여 상기 기준 데이터 세트의 예측 정확도를 검증하는 단계
를 더 포함하는, 약물 후보 예측 방법.