KR20200116801A - 약물재창출을 이용한 질환에 대한 바이오 마커 선별 방법 - Google Patents

약물재창출을 이용한 질환에 대한 바이오 마커 선별 방법 Download PDF

Info

Publication number
KR20200116801A
KR20200116801A KR1020190038694A KR20190038694A KR20200116801A KR 20200116801 A KR20200116801 A KR 20200116801A KR 1020190038694 A KR1020190038694 A KR 1020190038694A KR 20190038694 A KR20190038694 A KR 20190038694A KR 20200116801 A KR20200116801 A KR 20200116801A
Authority
KR
South Korea
Prior art keywords
drug
gene expression
combination data
expression level
biomarker
Prior art date
Application number
KR1020190038694A
Other languages
English (en)
Other versions
KR102636659B1 (ko
Inventor
전예린
이규황
Original Assignee
주식회사 엘지화학
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 엘지화학 filed Critical 주식회사 엘지화학
Priority to KR1020190038694A priority Critical patent/KR102636659B1/ko
Publication of KR20200116801A publication Critical patent/KR20200116801A/ko
Application granted granted Critical
Publication of KR102636659B1 publication Critical patent/KR102636659B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Abstract

본 발명은 바이오 마커의 선별 방법 및 상기 바이오 마커를 선별하는 단계를 포함하는 대상 질환의 진단에 대한 정보를 제공하는 방법에 관한 것으로, 약물과 약물 투여시의 유전자 발현 수준에 대한 정보를 포함하는 조합 데이터를 이용하여 딥러닝 모형을 형성하고, 이를 이용하여 종래 특정 대상 질환의 치료제로 알려져 있지 않은 약물 재창출 대상이 되는 약물과 이를 투여한 경우의 유전자 발현 수준에 대한 조합 데이터를 분석하여 새로운 바이오 마커를 선별하고 이를 이용하여 상기 특정 대상 질환의 진단에 대한 정보를 제공한다.

Description

약물재창출을 이용한 질환에 대한 바이오 마커 선별 방법{Method for selecting biomarkers by utilizing drug repositioning}
본 발명은 바이오 마커의 선별 방법에 관한 것으로, 보다 상세하게는 약물재창출(Drug repositioning)을 통해 질환에 대한 종래 알려져 있지 않은 새로운 바이오 마커를 선별하는 방법, 상기 바이오 마커를 선별하는 단계를 포함하는 대상 질환의 진단에 대한 정보를 제공하는 방법에 관한 것이다.
약물 재창출은 이미 시판 중이나 개발, 임상단계에서 안정성 이외의 이유로 상업화에 실패한 약물들의 새로운 의학적 효능을 규명해 신약으로 개발하는 신약 개발의 한 방법이다. 평균 신약 1개에 들어가는 R&D 비용은 현재 10억달러 이상임에도 불구하고, 후보 약물 5,000~10,000종 중에 전임상 단계에 들어가는 후보는 250종, 임상시험은 5종, 최종 승인을 받아 출시되는 약물은 1종에 불과하다. 또한 개발 기간 또한 보통 10-17년 정도가 소요된다고 알려져 있다. 그러나 약물 재창출은 기존 약물 또는 실패한 약물로부터 동일한 약물 표적을 통해 다른 새로운 질환에 대한 효과를 찾아내거나, 신규 표적을 선별하여 새로운 질병에 치료 효과가 있음을 규명하기 때문에 재창출할 수 있는 물질을 쉽게 획득할 수 있고, 신약 R&D 비용의 25~35%에 해당하는 비용과 시간을 줄일 수 있다.
한편, 기존의 약물을 새로운 질병을 목적으로 하여 재창출하기 위해서는, 해당 약물을 투여시에 어떠한 유전자가 발현되어 질병의 치료로 연결되는지 그 메커니즘을 알아내는 것이 중요하다고 할 수 있다. 이러한 새로운 바이오 마커를 선별하기 위해서는 상기와 같은 약물 재창출 후보 약물을 대상으로 유전자 발현 데이터를 분석하여, 전산학적으로 특정 질병의 치료에 유의한 바이오 마커를 선별하는 방법이 요구된다.
이러한 배경하에서, 본 발명이 해결하고자 하는 과제는 질병 치료에 대해 이미 알려진 약물의 약물재창출(Drug repositioning)을 통해 질환에 대한 종래 알려져 있지 않은 새로운 바이오 마커를 선별하는 방법과 상기 바이오 마커를 선별하는 단계를 포함하는 대상 질환의 진단에 대한 정보를 제공하는 방법을 제공하는 것이다.
상기와 같은 본 발명의 과제를 해결하기 위한 수단으로서 본 발명은 다음의 단계를 포함하는 바이오 마커 선별 방법을 제공한다:
a) 바이오 마커 선별 방법에 있어서, 특정 질환에 대한 상호 연관성이 있는 약물 정보와 유전자 발현 수준 정보를 약물 별로 매칭한 조합 데이터를 적어도 하나 이상 포함하는 학습 데이터 집합을 이용하여 딥러닝 모형을 형성하는 단계;
b) 상기 딥러닝 모형에, 상기 특정 질환에 대한 연관성을 판단하고자 하는 약물과 그 약물의 유전자 발현 수준에 대한 새로운 조합 데이터를 입력하여 상기 약물의 상기 특정 질환에 대한 연관성을 판단하는 단계;
c) 단계 b)에서 판단된 특정 질환에 대한 연관성 예측 결과와 상기 연관성이 존재하는 것으로 미리 알려진 특정 질환의 치료제 정보 데이터들을 포함하는 정답 집합과 비교하는 단계; 및
d) 상기 연관성 예측 결과가 상기 정답 집합과 다르게 분류되는 경우, 이 분류결과를 이용하여 상기 단계 b) 연관성 판단 대상인 조합 데이터 중의 유전자 발현 수준을 분석하여 바이오 마커로서 유용한 타겟 유전자를 선별하는 단계.
또한 본 발명은 이러한 방법에 의해 선별된 바이오 마커를 이용하여 대상 질환의 진단에 대한 정보를 제공하는 방법을 제공한다.
본 발명은 기존에 해당 질병을 실제로 치료하는 약물들만을 대상으로 질병과 유전자간의 상관관계에 기반하여 바이오 마커를 탐색하는 방법과는 달리, 실제 치료 약물과 유사한 패턴을 나타내는 약물의 유전자 발현 데이터까지 고려하여, 이미 공지된 약물 외에 새로운 바이오 마커를 효과적으로 선별할 수 있다. 이와 같이 선별된 새로운 바이오 마커는 기존의 약물을 재창출(repositioning)하는 데 유용하게 사용될 수 있다.
도 1은 본 발명에 따른 바이오 마커의 선별을 이용한 약물 재창출 방법을 실시예 1에 근거하여 개략적으로 나타낸 도면이다.
도 2는 본 발명에 따른 바이오 마커의 선별에서 사용된 데이터의 개요를 나타낸 도면이다.
도 3은 본 발명에 따른 바이오 마커의 선별방법 중 약물투여-유전자 발현의 데이터로부터 T-검정(T-test) 이후, 주성분 분석을 통해 바이오 마커의 선별을 위해 관심 오분류 영역을 설정하고, 분산분석을 위한 유전자를 추출하는 방법을 실시예 1에 근거하여 개략적으로 나타낸 도면이다.
도 4는 상기 도 3에서 추출된 유전자 데이터를 대상으로 분산분석을 수행하여 새로운 유의적인 바이오 마커를 최종적으로 추출하는 방법을 실시예 1에 근거하여 개략적으로 나타낸 도면이다.
이하에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
하나의 양태로서, 본 발명은 하기의 단계를 포함하는 대상 질환에 대한 바이오 마커를 선별하는 방법에 관한 것이다:
a) 바이오 마커 선별 방법에 있어서, 특정 질환에 대한 상호 연관성이 있는 약물 정보와 유전자 발현 수준 정보를 약물 별로 매칭한 조합 데이터를 적어도 하나 이상 포함하는 학습 데이터 집합을 이용하여 딥러닝 모형을 형성하는 단계;
b) 상기 딥러닝 모형에, 상기 특정 질환에 대한 연관성을 판단하고자 하는 약물과 그 약물의 유전자 발현 수준에 대한 새로운 조합 데이터를 입력하여 상기 약물의 상기 특정 질환에 대한 연관성을 판단하는 단계;
c) 단계 b)에서 판단된 특정 질환에 대한 연관성 예측 결과와 상기 연관성이 존재하는 것으로 미리 알려진 특정 질환의 치료제 정보 데이터들을 포함하는 정답 집합과 비교하는 단계; 및
d) 상기 연관성 예측 결과가 상기 정답 집합과 다르게 분류되는 경우, 이 분류결과를 이용하여 상기 단계 b) 연관성 판단 대상인 조합 데이터 중의 유전자 발현 수준을 분석하여 바이오 마커로서 유용한 타겟 유전자를 선별하는 단계를 포함하는 바이오 마커 선별 방법.
이하에서는 본 발명에 따른 바이오 마커 선별 방법 및 이를 이용한 질환에 대한 정보를 제공하는 방법에 대하여 보다 상세히 설명한다.
용어 "바이오 마커(biomarker)"란 약물 투여시 간 조직에서 증가 또는 감소를 보이는 폴리펩타이드 또는 핵산(예컨대, mRNA 등), 지질, 당지질, 당단백질, 당(단당류, 이당류, 올리고당류 등) 등과 같은 유기 생체 분자 등을 포함한다. 본 발명에서, 바이오 마커란 바람직하게 유전자를 의미한다.
본 발명에서 상기 "유전자의 발현 수준"은, 바람직하게 상기 유전자가 발현된 mRNA 수준, 즉, mRNA의 양을 의미한다.
상기 단계 a)는 약물 정보와 이를 투여한 후의 유전자 발현 수준 정보를 약물별로 매칭한 조합 데이터를 적어도 하나 이상 포함하는 학습 데이터 집합을 이용하여 딥러닝 모형을 형성하는 단계이다.
상기 약물 정보와 이를 처리한 후의 유전자의 발현 수준 정보를 약물별로 매칭한 조합데이터는, 예를 들어 약물 처리/비처리한 후 유전자 발현 양상을 측정한 정보를 포함하고 있는 대규모 교란 데이터베이스(Large-scale perturbation databases), 예를 들어 NIH 에서 제공하는 컨넥티비티 맵(Connectivity Map, CMap) 또는 통합된 네트워크 기반의 세포 시그니쳐 라이브러리(Library of Integrated Network-based Cellular Signatures, LINCS) 으로부터 데이터를 수득할 수 있다. 이러한 대규모 교란 데이터베이스는 각 약물 반응에 대한 유전자 발현 정보를 통합한 큰 규모의 라이브러리를 의미한다. 이러한 컨넥티비티 맵의 예로는, 미국 국립 보건원(NIH)에서 제공하는 링크스 프로그램(NIH LINCS (Library of Integrated Network-based Cellular Signatures) Program; www.lincsproject.org), DGIdb(The Drug Gene Interaction Database, www.dgidb.org) 등을 사용할 수 있으나, 이에 한정된 것은 아니고, 약물과 유전자간의 상호관계에 대한 정보를 제공할 수 있는 데이터베이스라면 모두 포함될 수 있다. 이처럼 상기 조합 데이터는 실험을 통하여 획득하거나 또는 기 존재하는 실험 결과에서 나타나는 약물과 유전자 발현 수준 간의 연관성 정보를 포함하는 데이터일 수 있다.
상기 약물 정보는 약물의 명칭 정보 및 화학 구조 정보 중 적어도 어느 하나 이상과 함께, 약물의 약리학적 용도, 즉 치료가능한 대상 질환에 대한 정보를 포함할 수 있다.
본 발명의 구체적인 일 실시예에서는, 딥러닝 모형을 형성하기 위하여, 약물과 약물 투여시의 유전자 발현 수준에 대한 데이터를 LINCS로부터 수집하였다. 도 2에 나타난 바와 같이, 상기 조합 데이터 중의 약물 종류(약물 ID)는 모두 814 종이며, 간암 세포주인 HEPG2 세포주에 투여한 데이터만을 선별하였고, 발현량 수준을 특정하는 유전자(landmark gene)을 977종으로 특정하였으며, 상기 약물의 투여용량, 투여 방법 등에 따라 각각 다른 유전자 발현 수준을 나타낸 데이터를 모두 포함하여 총 4049 종의 약물-유전자 발현양 조합 데이터 샘플을 수집하여 이를 사용하여 딥러닝 모형을 형성하였다.
구체적으로, 딥러닝 모형은 입력층과 출력층 사이에 적어도 하나의 중간층을 두어 비선형적으로 분리되는 데이터에 대해서 학습이 가능한 멀티레이어 퍼셉트론(multi-layer perceptron)으로 구현될 수 있다. 중간층을 은닉층이라고 부르고, 입력층과 출력층 사이에 적어도 하나의 은닉층이 있는 심층 신경망으로 딥러닝 모형을 구현할 수 있다. 일 실시예에서, 입력층의 입력 노드는 발현량 수준을 특정하는 유전자 977종에 따라 977개이고, 출력층의 출력 노드는 치료제로서의 적합성을 예측하는 결과로 하나일 수 있으며, 은닉층의 수 및 각 은닉층에 위치하는 노드는 설계에 따라 설정 및 변경될 수 있다. 이렇게 형성된 딥러닝 모형은, 총 4049 종의 약물-유전자 발현양 조합 데이터 샘플 각각의 977 종의 유전자 발현량 수준을 입력층의 입력 노드에 입력하고, 치료제 적합성을 지시하는 출력값이 출력층으로부터 도출된다. 출력값이 실제 치료제 적합성에 따르도록, 딥러닝 모형은 학습되며, 구체적으로 은닉층 및 출력층 위치한 노드들 각각의 활성 함수에 대한 가중치가 업데이트 될 수 있다. 딥러닝 모형을 통한 예측 결과가 실제 값을 따르도록 학습되는 방식은 다양하며, 설계에 따라 변경될 수 있다.
나아가, 단계 b)는 상기 단계 a)에서 형성된 딥러닝 모형에, 임의의 약물과 그 약물의 유전자 발현 수준에 대한 새로운 조합 데이터를 입력하여, 상기 약물의 상기 특정 질환에 대한 연관성을 예측하는 단계이다. 구체적으로, 상기 단계 b)에서 사용되는 조합 데이터는 상기 단계 a)에서 사용된 대규모 교란 데이터베이스로부터 수집된 조합 데이터를 사용할 수도 있고, 다른 출처의 조합 데이터를 사용할 수도 있다. 이러한 데이터를 단계 a)에서 형성된 딥러닝 모형에 입력하여, 새로운 바이오 마커를 선별하고자 하는 특정 질환에 대한 치료제인지 여부를 유전자 발현 수준 기반으로 예측한다. 상기 연관성은 특정 약물과 유전자 발현 수준이 상호 연관성이 있는지 또는 없는지 여부를 TRUE 또는 FALSE 로 나타내는 지표가 될 수 있다. 또는 필요에 따라 상기 연관성은 특정 약물과 유전자 발현 수준이 상호 연관성이 있는 정도를 나타내는 특정 범위를 가지는 값으로 표현되는 지표가 될 수도 있다.
단계 c)에서는 이와 같이 바이오 마커 선별을 목적으로 하는 특정 질환에 대한 치료제에 해당하는지 여부를 예측한 결과를 가지고 실제 해당 치료제가 상기 특정 질환에 대한 치료제가 맞는지, 즉 예측한 결과가 실제 결과와 일치하는지(정분류) 또는 실제 결과와 일치하지 않는지(오분류)를 확인하는 단계이다. 이때 실제 해당 치료제가 상기 특정 질환에 대한 치료제인지 여부를 확인하기 위해서는 연관성이 존재하는 것으로 미리 알려진 특정 질환의 치료제 정보를 포함하는 정답 집합과 비교하여 확인할 수 있다.
상기 정답 집합은 상호 연관성이 있는 것으로 알려진 특정 질환의 치료제 약물의 정보를 포함하는 데이터 집합이다. 구체적인 일례로, 본 발명은 인테그리티 데이터베이스(Integrity database; https://integrity.clarivate.com), CTD(North Carolina 주립대 제공, The Comparative Toxicogenomics Database, ctdbase.org), MeSH(미국 국립 의학도서관 제공, Medical Subject Headings, meshb.nlm.nih.gov) 와 같은 데이터베이스로부터 이를 수집할 수 있으나 이에 제한되는 것은 아니다.
본 발명의 실시예에서는, 상기 인테그리티 데이터베이스에서 수집된 제2형 당뇨병 치료제 여부인지에 관한 정보를 포함하는 조합데이터를 정답집합으로 하고, 딥러닝 모형을 이용하여 4049종의 약물-유전자 발현 수준의 조합데이터가 제2형 당뇨병 치료제와 연관성이 있는지 여부를 예측한 결과와 비교하였으며, 그 결과 하기 표 1과 같이 4049종의 약물-유전자 발현 수준의 조합데이터가 분류되었다.
4049종의 약물-유전자 발현 수준 조합데이터 분류 결과
정답 집합 결과(실제 제2형 당뇨병 치료제인지 여부)
연관성 예측
결과
양성 음성 총합
양성 124 14 138
음성 23 3888 3911
총합 147 3902 4049
이후 단계 d)에서는 상기 단계 c)에서 연관성 예측 결과가 상기 정답 집합과 동일하게 분류되는지(정분류) 또는 다르게 분류되는지(오분류)를 확인하고, 만약 정답 집합과 다르게 분류되는 경우, 이 분류결과를 이용하여 상기 단계 b) 연관성 판단 대상인 조합 데이터 중의 유전자 발현 수준을 분석하여 바이오 마커로서 유용한 타겟 유전자를 선별하게 된다. 본 발명에서는 특히 연관성 예측 결과가 상기 정답 집합과 다르게 분류되는 경우의 약물-유전자 발현 수준 조합데이터를 새로운 바이오 마커를 선별할 수 있는 조합데이터로 판단하고, 이러한 조합데이터로부터 최종적으로 바이오 마커로서 유용한 타켓 유전자를 선별하는 것을 특징으로 한다.
바람직한 양태에서, 이러한 바이오 마커로서 유용한 타겟 유전자를 선별하기 위해, 다음의 단계를 포함하는 방법에 의해 수행될 수 있다:
1) 약물-유전자 발현 수준 조합데이터로부터 T-검정을 사용하여 특정 질환의 치료제로 분류된 약물-유전자 발현 수준 조합데이터들의 유전자 발현 수준 평균과 특정 질환의 치료제가 아닌 것으로 분류된 약물-유전자 발현 수준 조합데이터들의 유전자 발현 수준 평균과 비교시 발현량 차이를 나타내는 유의적으로 나타내는 유전자들을 1차 선별하는 단계;
2) 주성분 분석을 사용하여 오분류로 분류된 약물-유전자 발현 수준 조합데이터들의 유전자 중 상기 주성분 분석 결과에 따라 유의적인 유전자들을 2차 선별하는 단계; 및
3) 2차 선별된 조합데이터 유전자들의 프로파일에 대해 분산분석하여 최종적으로 타겟 유전자를 선별하는 단계.
연관성이 있는 약물 정보와 유전자 발현 수준 정보를 약물 별로 매칭한 조합 데이터는 전체 샘플(N; 도 2 참조)이 상기 단계 1) 내지 3)에서 동일하게 분석에 사용되며, 단계별로 새로운 바이오 마커로서 유의한 유전자(X; 도 2 참조)를 스크리닝하게 된다.
상기 단계 1)에서는 우선, 약물-유전자 발현 수준 조합데이터로부터 1차적으로 유의적인 유전자를 선별하기 위하여, T-검정(T-test)을 사용한다. T-검정이란 두 집단 간 평균을 비교하는 통계분석기법으로, 두 집단 간 평균 차이에 대한 통계적 유의성을 검정하는 방식을 의미한다. 구체적으로 본 발명에서는 양성, 즉, 특정 질환의 치료제로 판단된 약물-유전자 발현 수준 조합데이터 중의 유전자 발현 수준과, 음성, 즉, 특정 질환의 치료제가 아닌 것으로 판단된 약물-유전자 발현 수준 조합데이터 중의 유전자 발현량 수준의 평균을 각각 구하고, 평균 수준에 유의한 차이를 보이는 유전자를 선별한다.
다음으로, 단계 2)에서는 상기 단계 1)에서 T-검정에 의해 1차 선별된 유의적인 유전자들 중 오분류된 약물-유전자 발현 수준 조합데이터에 대해 주성분 분석(Principle Component Analysis: PCA)을 수행하여 유전자를 2차 선별한다. 주성분 분석이란 원래 변수들의 선형결합으로 표시되는 새로운 주성분을 찾고, 이를 통하여 자료의 요약과 용이한 해석을 목적으로 하는 통계적 기법으로, 구체적으로, 여러 개(p≥2)의 양적변수(quantitative variable)들 사이의 분산-공분산 관계를 이용하여 이 변수들의 선형결합(linear combination)으로 표시되는 주성분(principal component)을 찾고, 이 중에서 중요한 k(≤p)개(보통 2~3개)의 주성분으로 전체 변동(variance)의 대부분을 설명하고자 하는 다변량분석법의 일종으로, 차후의 분석을 위한 수단을 제공하여 주는 분석방법이다. 주성분분석은 자료의 요약이나 선형관계식을 통하여 차수(dimension)를 감소시켜 해석을 용이하게 하는데 목적이 있으며(data reduction and interpretation), 주성분들은 서로 상관이 없거나 또는 독립적인 새로운 변수들로서 정보의 손실이 최소화되도록 구한다. 변수들 사이의 관계를 분석하기 위해서는 주로 공분산행렬(covariance matrix) 또는 상관 행렬(correlation matrix)을 사용하여 p차원의 자료를 2차원 또는 3차원 주성분 공간으로 사영(projection)시켜 저차원 공간에 그래프로 나타내어 자료가 갖는 특성을 찾는다. p차원 공간의 n개의 관측점을 가장 잘 근접하는 1차원 부공간을 찾는다. 즉, 가장 설명력이 높은 새로운 축은 가장 큰 고유값에 해당되는 고유벡터(주성분)에 의해 결정되며, (p×1) 관측점 x1, x2, ... ,xn을 ((p×1) 단위벡터 e(e'e=1)에 사영시킨다.
구체적으로 본 발명에서는, T-검정에 의해 1차 선별된 유의적인 유전자들 중 오분류된 약물-유전자 발현 수준 조합데이터들을 대상으로 상기한 방법에 따라 주성분 분석을 수행한다. 이때, 상기 주성분 분석시의 주성분은 바람직하게는 2 종을 사용한다. 이러한 2종의 주성분을 가지고 1차로 선별된 다차원의 약물-유전자 발현 수준 조합 데이터들을 2차원에 시각화하여 서브데이터(Subdata) 영역을 특정하는 데 활용한다.
이와 같이 수행한 2의 주성분 분석 결과를 산점도(scatter diagram) 등으로 나타내어 상기 조합데이터들의 주성분 분석 결과가 분포된 영역 중 오분류된(즉, 양성이나 음성으로 판정되거나, 음성이나 양성으로 판정된) 약물-유전자 발현 수준 조합데이터의 주성분 분석 결과들이 주로 군집되어 있는 오분류 영역을 특히 새로운 바이오 마커로서 선별가능성이 높은 바이오 마커의 특성이 잘 나타나는 서브데이터(subdata) 영역으로서, 관심 오분류 영역으로 설정/축소한다. 이 축소된 서브데이터에서 이하 설명하는 바와 같이, 절대값이 큰 특성을 보이는 유전자들은 이후 단계 3)에서 분산분석의 대상이 된다.
또한, 해당 관심 오분류 영역에 있는 유전자 중 각 주성분 분석 계수(주성분 1 및 2)의 절대값이 큰 유전자를 선별한다. 이와 같이 각 주성분 분석 계수의 절대값이 큰 유전자들은 관심 오분류 영역의 서브데이터 특성을 설명할 수 있다. 또한 상기 서브데이터는 주성분 1, 2가 다 작은 특성을 갖게 된다. 예를 들어, 도 3의 주성분계수 막대그래프에서 첫번째 등장하는 BIRC5는 제1,2 주성분 계수가 음수를 나타내며, 이러한 관점에서 보면, 곧 서브데이터 영역에서 BIRC5 값이 큰 특성을 갖는다는 의미로 해석이 가능하다.
바람직하게, 관심 오분류 영역의 서브데이터의 특징을 좀 더 직관적으로 알아보기 쉽도록 오분류 케이스의 주성분 분석 결과를 별도로 플롯(Plot)하여 시각화하여 분석할 수도 있다.
본 발명에 따른 일 실시양태에서는 T-검정을 통하여 평균을 비교한 결과 유의확률이 0.01 미만인 유전자를 79종을 1차적으로 선별한 후, 오분류된 약물-유전자 발현 수준 조합데이터를 이용하여 주성분 분석을 수행하였다. 주성분 분석은 총 2회 진행하여 주성분 분석 1의 계수를 X축으로, 주성분 분석 2의 계수를 Y 축으로 하여 산점도를 작성하였다(도 3). 이후 산점도에 나타난 오분류 결과 중 음성(도 3 중의 사각형), 즉 실제 음성임에도 양성으로 예측된 결과가 군집을 이루고 있는 부분을 관심 오분류 영역으로 설정하여 상기 영역에 해당하는 약물-유전자 발현 수준 조합데이터를 서브데이터로 축소하여 다음 단계 3)에서 분산분석을 수행하였다. 또한, 이들 주성분 1 및 2 계수의 절대값이 큰 유전자 12종인 BIRC5, USP22, UBE2C, USP1, KIF2C, CDK1, CCNB2, CCNF, POLE2, DLGAPS, ERLIN1 및 TGDS을 2차 추출하였다.
이와 같이 주성분 분석에 의해 2차로 선별(축소)된 유전자 발현 수준 데이터를 대상으로 타켓이 되는 유의 유전자를 도출하기 위하여 단계 3)에서는 분산분석을 수행한다.
분산분석은 R.A Fisher에 의해 개발된 3 개 이상의 모평균에 대한 분석으로, 측정치의 변동을 총 제곱 합(total sum of squares)으로 나타내고 이 총 제곱 합을 실험과 관련된 요인(인자의 작용)에 대한 각자의 제곱 합으로 분해한 후, 나머지를 오차변동으로 해석하는 검정법이다. 각 요인 마다 분해한 분산을 오차분산과 비교하여 특히 큰 영향을 주는 인자(요인)가 무엇인가를 검정하고 그 결과 유의치가 있으면 요인마다 효과 추정을 행한다. 따라서 분산분석은 측정치의 변동을 요인별로 분해하여 어느 요인이 특성치에 어느 정도 영향을 주는지를 파악하는 것이라 말할 수 있다. 분산분석은 원칙적으로 계량치에 대해서 사용되고 그 계량치가 정규분포를 따른다고 가정한다. 이러한 분산분석은 인자(요인)수에 따라 일원분산분석, 이원분산분석, 다원분산분석 등으로 분류되거나, 인자의 모형에 따라 모수효과 모형, 변량효과 모형, 혼합효과 모형, 구조모형, 실험순서에 의한 분류로 완전 확률화 실험, 분할법 등으로 분류될 수 있으며, 본 발명에서는 일원분산분석을 사용하나, 이에 제한되는 것은 아니다.
구체적으로 분산분석을 위해서 앞서 분류된 약물-유전자 발현 조합데이터 중 특정 대상 질환의 치료제가 아닌 것으로 정분류된(negative=>negative) 조합데이터와 특정 대상 질환의 치료제로서 정분류된(positive=>positive) 조합데이터, 그리고 특정 대상 질환의 치료제가 아님에도 불구하고 특정 대상 질환의 치료제로 오분류된(negative => positive)의 조합데이터 중에 나타난 상기 단계 2)에서 선별된 유전자들의 프로파일을 이용하여 분산분석을 수행한다. 이후 구간그림(interval plot)을 이용하여 분산분석 결과를 분석하여 새로운 바이오 마커의 대상이 될 수 있는 타겟 유전자를 최종적으로 선별할 수 있다. 선별기준은 이에 제한되는 것은 아니나, 특정 대상 질환의 치료제가 아님에도 불구하고 특정 대상 질환의 치료제로 오분류된(negative => positive)의 조합데이터의 구간그림 중의 평균 및 꼬리가 (i) 특정 대상 질환의 치료제가 아닌 것으로 정분류된(negative=>negative) 조합데이터의 평균 및/또는 꼬리와 겹치지 않는지 여부, 및 (ii) 특정 대상 질환의 치료제로서 정분류된(positive=>positive) 조합데이터의 평균 및/또는 꼬리가 겹치는 경우에, 새로운 바이오 마커의 대상이 될 수 있는 타겟 유전자로서 유의하다고 선별할 수 있다.
본 발명에 따른 일 실시예에서는, 도 4에 나타난 바와 같이, T-검정 및 주성분 분석을 통해 서브데이터로 축소된 약물-유전자 발현 수준 조합데이터를 중심으로, 주성분 분석에서 제2형 당뇨병에 유의적인 것으로 선별된 12개의 유전자 프로파일에 대한 분산분석을 수행하였다.
그 결과, CCNB2M POLE2 및 DLGAP5 총 3종의 유전자를 선별하였으며, 선별된 상기 유전자들이 실제로 제2형 당뇨병과 연관이 있는지를 문헌 검색을 수행한 결과, 상기 3종의 유의 유전자 중 CCNB2 및 DLGAP5의 유전자가 제2형 당뇨병과 연관성이 있다는 2종의 문헌(Journal of Diabetes Research, Vol. 2018, Article ID 8391253, pp. 12; 및 kidney Int. Rep. (2018), 3, 867-878)이 검색되어, 상기 두 유전자가 실제로 제2형 당뇨병의 바이오 마커임을 확인하였다.
또 다른 양태로서, 본 발명은 상기 선별방법에서 선별된 특정 대상 질환에 대한 바이오 마커를 이용하여 상기 대상 질환의 진단에 대한 정보를 제공하는 방법에 관한 것이다.
본 발명에서 기술적이거나 과학적인 용어를 포함한 모든 용어들은, 상세한 설명에서 다르게 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다. 사전에 정의된 용어와 같이 일반적으로 사용되는 용어들은 관련 기술의 문맥상의 의미와 일치하는 것으로 해석되어야 하며, 본 발명에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에 서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다. 따라서, 본 발명에 개시된 실시예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구 범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (11)

  1. a) 바이오 마커 선별 방법에 있어서, 특정 질환에 대한 상호 연관성이 있는 약물 정보와 유전자 발현 수준 정보를 약물 별로 매칭한 조합 데이터를 적어도 하나 이상 포함하는 학습 데이터 집합을 이용하여 딥러닝 모형을 형성하는 단계;
    b) 상기 딥러닝 모형에, 상기 특정 질환에 대한 연관성을 판단하고자 하는 약물과 그 약물의 유전자 발현 수준에 대한 새로운 조합 데이터를 입력하여 상기 약물의 상기 특정 질환에 대한 연관성을 판단하는 단계;
    c) 단계 b)에서 판단된 특정 질환에 대한 연관성 예측 결과와 상기 연관성이 존재하는 것으로 미리 알려진 특정 질환의 치료제 정보 데이터들을 포함하는 정답 집합과 비교하는 단계; 및
    d) 상기 연관성 예측 결과가 상기 정답 집합과 다르게 분류되는 경우, 이 분류결과를 이용하여 상기 단계 b) 연관성 판단 대상인 조합 데이터 중의 유전자 발현 수준을 분석하여 바이오 마커로서 유용한 타겟 유전자를 선별하는 단계를 포함하는 바이오 마커 선별 방법.
  2. 제1항에 있어서, 상기 약물 정보와 유전자 발현 수준 정보를 약물 별로 매칭한 조합 데이터는 약물 처리/비처리한 후 유전자 발현 양상을 측정한 정보를 포함하고 있는 대규모 교란 데이터베이스(Large-scale perturbation databases)로부터 수득하는 것인, 바이오 마커 선별 방법.
  3. 제2항에 있어서, 상기 대규모 교란 데이터베이스는 컨넥티비티 맵(Connectivity Map, CMap) 또는 통합된 네트워크 기반의 세포 시그니쳐 라이브러리(Library of Integrated Network-based Cellular Signatures, LINCS)인 것인, 바이오 마커 선별 방법.
  4. 제1항에 있어서, 상기 단계 d)에서 조합 데이터 중의 유전자 발현 수준을 분석하여 바이오 마커로서 유용한 타겟 유전자를 선별하는 단계는 다음의 단계를 포함하는 방법에 의해 수행되는 것인, 바이오 마커 선별 방법:
    1) 약물-유전자 발현 수준 조합데이터로부터 T-검정을 사용하여 특정 질환의 치료제로 분류된 약물-유전자 발현 수준 조합데이터들의 유전자 발현 수준 평균과 특정 질환의 치료제가 아닌 것으로 분류된 약물-유전자 발현 수준 조합데이터들의 유전자 발현 수준 평균과 비교시 발현량 차이를 나타내는 유의적으로 나타내는 유전자들을 1차 선별하는 단계;
    2) 주성분 분석을 사용하여 오분류로 분류된 약물-유전자 발현 수준 조합데이터들의 유전자 중 상기 주성분 분석 결과에 따라 유의적인 유전자들을 2차 선별하는 단계; 및
    3) 2차 선별된 조합데이터 유전자들의 프로파일에 대해 분산분석하여 최종적으로 타겟 유전자를 선별하는 단계.
  5. 제4항에 있어서, 상기 단계 1)에서 약물-유전자 발현 수준 조합데이터들의 유전자 발현 수준 평균과 특정 질환의 치료제가 아닌 것으로 분류된 약물-유전자 발현 수준 조합데이터들의 유전자 발현 수준 평균과 비교시 유의확률이 0.01 미만인 유전자들을 선별하는 것인, 바이오 마커 선별 방법.
  6. 제4항에 있어서, 상기 단계 2)에서 2종의 주성분을 사용하여 분석을 수행하는 것인, 바이오 마커 선별 방법.
  7. 제4항에 있어서, 상기 단계 2)에서 주성분 결과에 따라 유의적인 유전자를 2차 선별하는 것은, 주성분 계수의 절대값이 큰 유전자들을 선별하는 것인, 바이오 마커 선별 방법.
  8. 제4항에 있어서, 상기 단계 3)는 약물-유전자 발현 조합데이터 중 특정 대상 질환의 치료제가 아닌 것으로 정분류된 조합데이터와 특정 대상 질환의 치료제로서 정분류된 조합데이터, 및 특정 대상 질환의 치료제가 아님에도 불구하고 특정 대상 질환의 치료제로 오분류된 조합데이터 중에서, 상기 단계 2)에서 선별된 유전자들의 발현 수준에 대하여 분산분석하여 수행되는 것인, 바이오 마커 선별 방법.
  9. 제4항에 있어서, 상기 단계 3)에서 타겟 유전자 선별은 분산분석 결과를 구현한 구간그림을 분석하여 수행되는 것인, 바이오 마커 선별 방법.
  10. 제9항에 있어서, 상기 구간그림의 분석은
    (i) 특정 대상 질환의 치료제가 아닌 것으로 정분류된 조합데이터의 평균 및/또는 꼬리와 겹치지 않는지 여부, 및
    (ii) 특정 대상 질환의 치료제로서 정분류된 조합데이터의 평균 및/또는 꼬리가 겹치는지 여부를 판단하는 것에 의해 수행되는 것인, 바이오 마커 선별 방법.
  11. 제1항 내지 제10항 중 어느 한 항의 방법에 의해 선별된 바이오 마커를 이용하여 대상 질환의 진단에 대한 정보를 제공하는 방법.
KR1020190038694A 2019-04-02 2019-04-02 약물재창출을 이용한 질환에 대한 바이오 마커 선별 방법 KR102636659B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190038694A KR102636659B1 (ko) 2019-04-02 2019-04-02 약물재창출을 이용한 질환에 대한 바이오 마커 선별 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190038694A KR102636659B1 (ko) 2019-04-02 2019-04-02 약물재창출을 이용한 질환에 대한 바이오 마커 선별 방법

Publications (2)

Publication Number Publication Date
KR20200116801A true KR20200116801A (ko) 2020-10-13
KR102636659B1 KR102636659B1 (ko) 2024-02-13

Family

ID=72885105

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190038694A KR102636659B1 (ko) 2019-04-02 2019-04-02 약물재창출을 이용한 질환에 대한 바이오 마커 선별 방법

Country Status (1)

Country Link
KR (1) KR102636659B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112349424A (zh) * 2020-11-06 2021-02-09 中国人民解放军总医院 心衰组学数据整合分析平台的构建方法、存储介质及系统
KR20230063485A (ko) 2021-11-02 2023-05-09 성균관대학교산학협력단 딥 러닝 모델을 이용한 유전자 발현 예측 모델 학습 방법
WO2023214696A1 (ko) * 2022-05-02 2023-11-09 서울시립대학교 산학협력단 화학물질의 질환 유발 기여도 평가를 위한 독성발현경로 네트워크 구성 장치 및 질환 유발 가능 화학물질의 우선순위 선별 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003281156A (ja) * 2002-03-26 2003-10-03 Hitachi Ltd 画面表示システム及び医療診断支援システム
KR20100001177A (ko) * 2008-06-26 2010-01-06 주식회사 비츠로시스 주성분 분석을 이용한 유전자 선택 알고리즘
KR20160010285A (ko) * 2014-07-17 2016-01-27 한국과학기술원 약물 반응 유전자 발현 특성을 이용한 약물 재창출 방법
KR20160144065A (ko) * 2015-06-08 2016-12-16 한국과학기술원 질병유전자 발현 특징을 이용한 약물 재창출 예측 시스템 및 방법
KR101953762B1 (ko) * 2017-09-25 2019-03-04 (주)신테카바이오 이종 특성정보 병합 데이터 기반 인공지능 딥러닝 모델을 이용한 약물 적응증 및 반응 예측 시스템 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003281156A (ja) * 2002-03-26 2003-10-03 Hitachi Ltd 画面表示システム及び医療診断支援システム
KR20100001177A (ko) * 2008-06-26 2010-01-06 주식회사 비츠로시스 주성분 분석을 이용한 유전자 선택 알고리즘
KR20160010285A (ko) * 2014-07-17 2016-01-27 한국과학기술원 약물 반응 유전자 발현 특성을 이용한 약물 재창출 방법
KR20160144065A (ko) * 2015-06-08 2016-12-16 한국과학기술원 질병유전자 발현 특징을 이용한 약물 재창출 예측 시스템 및 방법
KR101953762B1 (ko) * 2017-09-25 2019-03-04 (주)신테카바이오 이종 특성정보 병합 데이터 기반 인공지능 딥러닝 모델을 이용한 약물 적응증 및 반응 예측 시스템 및 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112349424A (zh) * 2020-11-06 2021-02-09 中国人民解放军总医院 心衰组学数据整合分析平台的构建方法、存储介质及系统
KR20230063485A (ko) 2021-11-02 2023-05-09 성균관대학교산학협력단 딥 러닝 모델을 이용한 유전자 발현 예측 모델 학습 방법
WO2023214696A1 (ko) * 2022-05-02 2023-11-09 서울시립대학교 산학협력단 화학물질의 질환 유발 기여도 평가를 위한 독성발현경로 네트워크 구성 장치 및 질환 유발 가능 화학물질의 우선순위 선별 방법

Also Published As

Publication number Publication date
KR102636659B1 (ko) 2024-02-13

Similar Documents

Publication Publication Date Title
Ronen et al. netSmooth: Network-smoothing based imputation for single cell RNA-seq
Ebbels et al. Toxicity classification from metabonomic data using a density superposition approach:‘CLOUDS’
KR102636659B1 (ko) 약물재창출을 이용한 질환에 대한 바이오 마커 선별 방법
JP2018152000A (ja) 分析データ解析装置及び分析データ解析方法
Cavill et al. Genetic algorithms for simultaneous variable and sample selection in metabonomics
Rousseau et al. Comparison of some chemometric tools for metabonomics biomarker identification
Cordero et al. Tracing co-regulatory network dynamics in noisy, single-cell transcriptome trajectories
Marczyk et al. Gamred—Adaptive filtering of high-throughput biological data
Wang et al. Subpopulation detection and their comparative analysis across single-cell experiments with scPopCorn
CN110085324B (zh) 一种多重生存终端结果联合分析的方法
CN110610763A (zh) 基于katz模型的代谢物与疾病关联关系预测方法
De Iorio et al. Statistical techniques in metabolic profiling
Chen et al. Robust variable selection based on bagging classification tree for support vector machine in metabonomic data analysis
Devaux et al. Random survival forests for competing risks with multivariate longitudinal endogenous covariates
Bell-Glenn et al. A novel framework for the identification of reference dna methylation libraries for reference-based deconvolution of cellular mixtures
Liu et al. Partial least‐squares discriminant analysis optimized by particle swarm optimization: application to 1H nuclear magnetic resonance analysis of lung cancer metabonomics
Wu et al. Network-based feature screening with applications to genome data
Lei Model-driven design and uncertainty quantification for cardiac electrophysiology experiments
Dabke et al. A Simple Optimization Workflow to Enable Precise and Accurate Imputation of Missing Values in Proteomic Datasets
Jha et al. Qualitative assessment of functional module detectors on microarray and RNASeq data
Zhang et al. SynBa: improved estimation of drug combination synergies with uncertainty quantification
Kakourou et al. Bayesian variable selection logistic regression with paired proteomic measurements
Mattsson Analysis of LC-MS data in untargeted nutritional metabolomics
Bertinetto et al. Comprehensive multivariate evaluation of the effects on cell phenotypes in multicolor flow cytometry data using ANOVA simultaneous component analysis
Latapiat et al. Individualized Coexpression Network Strategies Employing Transcriptomic Data to Address Challenges in Stratification

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant