KR102590752B1 - 질병에 효과적인 약물을 예측하기 위한 네트워크 구축 방법과 이를 이용한 약물 예측 방법 및 장치 - Google Patents

질병에 효과적인 약물을 예측하기 위한 네트워크 구축 방법과 이를 이용한 약물 예측 방법 및 장치 Download PDF

Info

Publication number
KR102590752B1
KR102590752B1 KR1020230032515A KR20230032515A KR102590752B1 KR 102590752 B1 KR102590752 B1 KR 102590752B1 KR 1020230032515 A KR1020230032515 A KR 1020230032515A KR 20230032515 A KR20230032515 A KR 20230032515A KR 102590752 B1 KR102590752 B1 KR 102590752B1
Authority
KR
South Korea
Prior art keywords
genes
disease
networks
drug
input
Prior art date
Application number
KR1020230032515A
Other languages
English (en)
Inventor
이지현
배상훈
Original Assignee
닥터노아바이오텍 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 닥터노아바이오텍 주식회사 filed Critical 닥터노아바이오텍 주식회사
Priority to KR1020230032515A priority Critical patent/KR102590752B1/ko
Application granted granted Critical
Publication of KR102590752B1 publication Critical patent/KR102590752B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Landscapes

  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physiology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 개시의 일 실시예에 따른 질병에 대한 약물 예측 방법은, 질병에 대한 입력 유전자들을 결정하는 단계; 상기 입력 유전자들과 상기 입력 유전자들 각각의 발현 정보에 기초하여 상기 질병에서 공발현(co-expression)되는 유전자들의 집합인 복수의 네트워크들을 형성하는 단계; 상기 질병의 특징에 대한 상기 네트워크들 각각의 반영 점수를 계산하고, 상기 계산된 반영 점수에 기초하여 미리 설정된 기준 반영 점수 이상의 네트워크들을 결정하는 단계; 및 상기 결정된 네트워크들을 이용하여, 상기 질병의 유전자 발현 패턴을 역전(reverse)시키는 적어도 하나의 약물을 예측하는 단계를 포함한다.

Description

질병에 효과적인 약물을 예측하기 위한 네트워크 구축 방법과 이를 이용한 약물 예측 방법 및 장치 {NETWORK CONSTRUCTION METHOD FOR ELICITING EFFECTIVE DRUGS FOR DISEASES, AND METHOD AND APPARATUS FOR ELICITING THE DRUGS USING THEREOF}
본 개시는 질병에 효과적인 약물을 예측하기 위한 네트워크 구축 및 이를 이용하여 약물을 예측하는 기술에 관한 것으로, 보다 구체적으로 질병에 대하여 선별된 입력 유전자들과 그 발현 정보만을 이용하여 네트워크들을 구축하고, 이렇게 구축된 네트워크들을 이용하여 질병에 효과적인 약물을 예측하는 방법 및 장치에 대한 것이다.
제약업계들이 신약 연구, 개발에 막대한 투자를 지속적으로 확대하고 있음에도 불구하고 실제 신약 승인 건수는 해가 갈수로 줄어들고 있고, 신약 후보 물질들이 점점 고갈되어 가고 있는 점도 신약개발의 생산성을 낮추고 있다.
약물 유전체 데이터(예를 들어, 약물 처리 후 mRNA 발현정보)나 다양한 질병 유전체 데이터(환자의 mRNA 발현 정보)가 기하급수적으로 공용 데이터베이스(public database)에 축적되고 있는 시점에서 데이터를 기반으로 개발이 완료된 약이나 안전성이 확보되었으나 특정 질병에 대해 유의적인 약효를 보이지 못해 승인을 얻지 못한 약물들을 대상으로 신약후보물질을 선별하는 약물 재창출(drug repositioning) 방법은 기존의 전통적인 신약개발 방식에 효율성을 극대화할 수 있는 하나의 대안으로 제시되고 있다.
2006년과 2017년에 게재된 일명 CMAP과 L1000 논문은 데이터 기반 약물 재창출 연구를 활성화시켰으며, 두 논문은 다양한 셀 라인(cell line)에 약2만여개의 small molecule을 처리한 후 mRNA단계에서 발현정보를 획득하여 연구를 위해 제공해주었다.
하지만, 아직도 많은 약물 재창출의 대상이 되는 약물들이 적용하였을 때도 실제로 다른 질병으로 인하여 약효가 기대이상으로 나오지 않거나 독성과 관련된 이슈를 완전히 해결하지 못하는 경우가 많다.
본 개시의 기술적 과제는, 질병에 대하여 선별된 입력 유전자들과 그 발현 정보만을 이용하여 네트워크들을 구축하고, 이렇게 구축된 네트워크들을 이용하여 질병에 효과적인 약물을 예측하는 방법 및 장치를 제공하는데 그 목적이 있다.
본 개시에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 개시의 일 실시예에 따른 질병에 대한 약물 예측 방법은, 질병에 대한 입력 유전자들을 결정하는 단계; 상기 입력 유전자들과 상기 입력 유전자들 각각의 발현 정보에 기초하여 상기 질병에서 공발현(co-expression)되는 유전자들의 집합인 복수의 네트워크들을 형성하는 단계; 상기 질병의 특징에 대한 상기 네트워크들 각각의 반영 점수를 계산하고, 상기 계산된 반영 점수에 기초하여 미리 설정된 기준 반영 점수 이상의 네트워크들을 결정하는 단계; 및 상기 결정된 네트워크들을 이용하여, 상기 질병의 유전자 발현 패턴을 역전(reverse)시키는 적어도 하나의 약물을 예측하는 단계를 포함한다.
이때, 상기 네트워크를 형성하는 단계는, 군집(clustering) 분석 기법, 양방향 군집(bi-clustering) 분석 기법과 행렬 분해(matrix decomposition) 기법 중 적어도 하나의 기법을 이용하여 상기 네트워크들을 형성할 수 있다.
이때, 상기 네트워크들을 형성하는 단계는, 상기 군집 분석 기법을 이용하는 경우, 상기 입력 유전자들에서 두 유전자 간의 유사성 또는 상관 관계로 상기 두 유전자 간의 거리를 정의하여 거리 행렬을 도출한 후 상기 거리 행렬에 기반한 군집 분석을 수행함으로써, 상기 입력 유전자들 중 일부의 유전자들과 상기 일부의 유전자들 각각의 모든 샘플들에 대한 발현 정보를 포함하는 네트워크들을 형성할 수 있다.
이때, 상기 네트워크들을 형성하는 단계는, 상기 양방향 군집 분석 기법을 이용하는 경우, 상기 입력 유전자들과 상기 입력 유전자들 각각의 샘플들에 대한 발현 정보의 양방향으로 군집 분석을 수행함으로써, 상기 입력 유전자들 중 일부의 유전자들과 상기 일부의 유전자들 각각의 샘플들 중 일부의 샘플들에 대한 발현 정보를 포함하는 네트워크들을 형성할 수 있다.
이때, 상기 네트워크들을 형성하는 단계는, 상기 행렬 분해 기법을 이용하는 경우, 상기 입력 유전자들과 상기 입력 유전자들 각각의 샘플들에 대한 발현 정보에서 상기 질병의 특징을 검출하기 위한 가중치 행렬의 가중치 값의 크기에 따른 유전자들을 결정하고, 상기 가중치 값의 크기에 따라 결정된 유전자들을 이용하여 네트워크들을 형성할 수 있다.
이때, 상기 네트워크들을 결정하는 단계는, 상기 형성된 네트워크들 각각에 대하여 차원 축소 방법을 통해 중요 발현 패턴을 추출하고, 상기 추출된 중요 발현 패턴과 상기 질병의 특징을 비교하여 상기 네트워크들 각각의 반영 점수를 계산할 수 있다.
이때, 상기 네트워크들을 결정하는 단계는, 상기 형성된 네트워크들 각각에 포함된 유전자들이 미리 정의된 생물학적 네트워크 또는 경로를 얼마나 반영하는지에 대한 상기 반영 점수를 초기하분포(hypergeometric distribution)를 기반으로 계산할 수 있다.
이때, 상기 입력 유전자들을 결정하는 단계는, 단백질-단백질 상호작용(protein-protein interaction), 상기 질병과 정상 상태의 비교를 통한 통계적 RNA 발현양 차이를 보이는 유전자, 상기 질병의 특이적인 신호전달경로(signaling pathway)에 참여하는 단백질을 인코딩(encoding)하는 유전자, 상기 질병과 관계되어 있는 유전자 변이 정보(genetic variant), 유전자 조절 네트워크(gene regulatory network)에서 전사인자(transcription factor) 단백질과 전사인자의 조절을 받는 유전자 집합, 신호전달경로에서 약물의 주요 표적이 되는 수용체 단백질, 중간 신호 전달 단백질, 인산화 조절 단백질을 인코딩하는 유전자, 미리 설정된 상기 질병의 경로(pathway) 유전자, 질병-질병 관계(Disease-Disease relationship) 데이터에서 두 질병 간의 공유되는 유전자 정보와 다양한 종에서 공발현되는 유전자 정보 중 적어도 하나의 데이터를 이용하여, 상기 입력 유전자들을 결정할 수 있다.
이때, 상기 적어도 하나의 약물을 예측하는 단계는, 상기 결정된 네트워크들을 이용하여, 약물들의 유전자 발현 데이터와 상기 질병의 유전자 발현 데이터를 비교 분석함으로써, 상기 결정된 네트워크들 각각에서의 상기 약물들에 대한 예측 점수를 계산하는 단계; 및 상기 약물들에 대한 예측 점수에 기초하여 상기 적어도 하나의 약물을 예측하는 단계를 포함할 수 있다.
이때, 상기 적어도 하나의 약물을 예측하는 단계는, 상기 약물들에 대한 예측 점수에 상기 결정된 네트워크들 각각의 미리 결정된 가중치를 반영하여 상기 적어도 하나의 약물을 예측하고, 상기 가중치는, 상기 결정된 네트워크들 각각에 포함된 유전자 개수와 상기 결정된 네트워크들 각각에서 상기 질병의 경로에 속하는 주요 유전자(key gene) 개수에 기초하여 결정될 수 있다.
본 개시의 다른 실시예에 따른 질병에 대한 약물 예측 장치는, 질병에 대한 입력 유전자들을 결정하는 결정부; 상기 입력 유전자들과 상기 입력 유전자들 각각의 발현 정보에 기초하여 상기 질병에서 공발현(co-expression)되는 유전자들의 집합인 복수의 네트워크들을 형성하는 형성부; 상기 질병의 특징에 대한 상기 네트워크들 각각의 반영 점수를 계산하고, 상기 계산된 반영 점수에 기초하여 미리 설정된 기준 반영 점수 이상의 네트워크들을 결정하는 평가부; 및 상기 결정된 네트워크들을 이용하여, 상기 질병의 유전자 발현 패턴을 역전(reverse)시키는 적어도 하나의 약물을 예측하는 예측부를 포함한다.
본 개시의 또 다른 실시예에 따른 네트워크 구축 방법은, 질병에 대한 약물을 예측하기 위한 네트워크 구축 방법에 있어서, 상기 질병에 대한 입력 유전자들을 정하는 단계; 상기 입력 유전자들과 상기 입력 유전자들 각각의 발현 정보를 이용한 군집 분석 기법, 양방향 군집 분석 기법과 행렬 분해 기법 중 적어도 두 개 이상의 기법에 기초하여 상기 질병에서 공발현되는 유전자들의 집합인 복수의 네트워크들을 형성하는 단계; 및 상기 질병의 특징에 대한 상기 네트워크들 각각의 반영 점수를 계산하고, 상기 계산된 반영 점수에 기초하여 상기 질병에 대한 약물을 예측하기 위한 네트워크들을 결정하는 단계를 포함한다.
본 개시에 대하여 위에서 간략하게 요약된 특징들은 후술하는 본 개시의 상세한 설명의 예시적인 양상일 뿐이며, 본 개시의 범위를 제한하는 것은 아니다.
본 개시에 따르면, 질병에 대하여 선별된 입력 유전자들과 그 발현 정보만을 이용하여 네트워크들을 구축하고, 이렇게 구축된 네트워크들을 이용하여 질병에 효과적인 약물을 예측하는 방법 및 장치를 제공할 수 있다.
본 개시에 따르면, 질병에 대한 네트워크들의 상호보완적 분석을 통해 질병 치료에 효과적인 다양한 약물들이 결합된 복합제(또는 조합약물)를 예측할 수 있다.
본 개시에 따르면, 질병에 대하여 중요한 유전자들만 선정하여 분석함으로써, 질병 치료에 효과적인 약물 또는 복합제에 대한 예측 신뢰도를 향상시킬 수 있다.
본 개시에 따르면, 네트워크들 각각에 포함된 질병의 주요 유전자(key gene) 개수에 따라 가중치를 상이하게 적용함으로써, 질병 치료에 효과적인 약물 또는 복합제에 대한 예측 신뢰도를 향상시킬 수 있다.
본 개시에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 개시의 일 실시예에 따른 질병에 대한 약물 예측 방법에 대한 동작 흐름도를 나타낸 것이다.
도 2는 본 개시의 방법에서 질병에 대한 복합제를 예측하는 과정에 대한 모식도를 나타낸 것이다.
도 3은 질병에 대한 복합제 예측 결과에 대한 일 예시도를 나타낸 것이다.
도 4는 본 개시의 다른 실시예에 따른 네트워크 구축 방법에 대한 동작 흐름도를 나타낸 것이다.
도 5는 군집 분석 기법에 의한 네트워크 구축 방식을 설명하기 위한 예시도를 나타낸 것이다.
도 6은 양방향 군집 분석 기법에 의한 네트워크 구축 방식을 설명하기 위한 예시도를 나타낸 것이다.
도 7은 행렬 분해 기법에 의한 네트워크 구축 방식을 설명하기 위한 예시도를 나타낸 것이다.
도 8은 차원 축소 방법을 통해 네트워크를 평가하는 방식을 설명하기 위한 예시도를 나타낸 것이다.
도 9는 네트워크를 평가하는 다른 방식을 설명하기 위한 예시도를 나타낸 것이다.
도 10은 본 개시의 또 다른 실시예에 따른 질병에 대한 약물 예측 장치에 대한 구성을 나타낸 것이다.
도 11은 본 개시의 또 다른 실시예에 따른 질병에 대한 약물 예측 장치가 적용되는 디바이스의 구성도를 나타낸 도면이다.
이하에서는 첨부한 도면을 참고로 하여 본 개시의 실시예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나, 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다.
본 개시의 실시예를 설명함에 있어서 공지 구성 또는 기능에 대한 구체적인 설명이 본 개시의 요지를 흐릴 수 있다고 판단되는 경우에는 그에 대한 상세한 설명은 생략한다. 그리고, 도면에서 본 개시에 대한 설명과 관계없는 부분은 생략하였으며, 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
본 개시에 있어서, 어떤 구성요소가 다른 구성요소와 "연결", "결합" 또는 "접속"되어 있다고 할 때, 이는 직접적인 연결 관계 뿐만 아니라, 그 중간에 또 다른 구성요소가 존재하는 간접적인 연결관계도 포함할 수 있다. 또한 어떤 구성요소가 다른 구성요소를 "포함한다" 또는 "가진다"고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 배제하는 것이 아니라 또 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
본 개시에 있어서, 제1, 제2 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용되며, 특별히 언급되지 않는 한 구성요소들 간의 순서 또는 중요도 등을 한정하지 않는다. 따라서, 본 개시의 범위 내에서 일 실시예에서의 제1 구성요소는 다른 실시예에서 제2 구성요소라고 칭할 수도 있고, 마찬가지로 일 실시예에서의 제2 구성요소를 다른 실시예에서 제1 구성요소라고 칭할 수도 있다.
본 개시에 있어서, 서로 구별되는 구성요소들은 각각의 특징을 명확하게 설명하기 위함이며, 구성요소들이 반드시 분리되는 것을 의미하지는 않는다. 즉, 복수의 구성요소가 통합되어 하나의 하드웨어 또는 소프트웨어 단위로 이루어질 수도 있고, 하나의 구성요소가 분산되어 복수의 하드웨어 또는 소프트웨어 단위로 이루어질 수도 있다. 따라서, 별도로 언급하지 않더라도 이와 같이 통합된 또는 분산된 실시예도 본 개시의 범위에 포함된다.
본 개시에 있어서, 다양한 실시예에서 설명하는 구성요소들이 반드시 필수적인 구성요소들을 의미하는 것은 아니며, 일부는 선택적인 구성요소일 수 있다. 따라서, 일 실시예에서 설명하는 구성요소들의 부분집합으로 구성되는 실시예도 본 개시의 범위에 포함된다. 또한, 다양한 실시예에서 설명하는 구성요소들에 추가적으로 다른 구성요소를 포함하는 실시예도 본 개시의 범위에 포함된다.
본 개시에 있어서, 본 명세서에 사용되는 위치 관계의 표현, 예컨대 상부, 하부, 좌측, 우측 등은 설명의 편의를 위해 기재된 것이고, 본 명세서에 도시된 도면을 역으로 보는 경우에는, 명세서에 기재된 위치 관계는 반대로 해석될 수도 있다.
본 개시에 있어서, "A 또는 B", "A 및 B 중 적어도 하나", "A 또는 B 중 적어도 하나", "A, B 또는 C", "A, B 및 C 중 적어도 하나", 및 "A, B, 또는 C 중 적어도 하나"와 같은 문구들 각각은 그 문구들 중 해당하는 문구에 함께 나열된 항목들 중 어느 하나, 또는 그들의 모든 가능한 조합을 포함할 수 있다.
본 개시의 실시예들은, 질병 예를 들어, 해당 질병을 가지고 있는 환자에게서 핵심적으로 또는 기능적으로 중요하면서 비교 대상이 되는 유전자 정보를 이용하여 유전자 집합인 복수의 네트워크들을 구축(또는 형성)하고, 이렇게 구축된 네트워크들을 평가하여 질병의 특징(disease signature)을 잘 반영하는 네트워크들을 결정한 후 이렇게 결정된 네트워크들 간의 상호보완적 분석을 기반으로 질병 치료에 효과적인 약물 또는 복합제를 예측하는 것을 그 요지로 한다.
본 개시의 실시예에서 네트워크를 형성하는데 사용되는 입력 데이터는, 유전자의 전체 발현 값을 사용하지 않고 질병의 문헌 분석을 통해 획득된 유전자와 데이터 분석에서 획득된 수치 계산 결과로서 중요한 유전자들을 포함할 수 있다.
본 개시의 실시예들은, 약물을 처리했을 때의 mRNA 발현 데이터와 질병 상태일 때의 mRNA 발현 변화 데이터 두 가지 정보를 기반으로 질병 상태일 때 mRNA 발현 패턴(expression pattern)과 반대 발현 mRNA 발현 패턴을 보이는 약물 또는 약물들을 찾아주는 것으로, mRNA 발현 양상은 질병과 정상 상태를 구별하는데 중요한 역할을 하며 질병 상태에서 세포 분자 단계에서의 변화를 잘 설명해줄 수 있는 정보이다. 또한, 대부분의 약물들은 체내에 있는 단백질에 결합하여 일련의 화학반응들을 거쳐 최종적으로는 조절 기전(control mechanism)을 통해 유전자 발현(gene expression)의 변화를 유발한다는 사실이며, 본 개시의 실시예들은, 이러한 mRNA 발현 데이터를 이용하는 것이다.
본 개시의 실시예에 따른 방법과 장치에 대하여 도 1 내지 도 10을 참조하여 설명한다.
도 1은 본 개시의 일 실시예에 따른 질병에 대한 약물 예측 방법에 대한 동작 흐름도를 나타낸 것이고, 도 2는 본 개시의 방법에서 질병에 대한 복합제를 예측하는 과정에 대한 모식도를 나타낸 것이다.
도 1과 도 2를 참조하면, 본 개시의 일 실시예에 따른 질병에 대한 약물 예측 방법은, 질병 데이터를 수집하고 질병과 관련된 입력 유전자들을 선별(또는 결정)한다(S110).
예를 들어, 단계 S110은, 도 2에 도시된 data preparation for prediction에 해당하는 단계로, 약물에 의한 mRNA 변화 데이터(NOTE-C)와 질병에 의한 mRNA 변화 데이터(NOTE-P)를 확보하고 이를 전처리함으로써, 질병에 해당하는 데이터와 질병과 관련된 입력 유전자들(이하, “질병 입력 데이터”라 칭함)을 선별할 수 있다.
여기서, 약물에 의한 mRNA 변화 데이터(NOTE-C)와 질병에 의한 mRNA 변화 데이터(NOTE-P)는, 다양한 문헌들 예를 들어, 다양한 의약학 문헌 데이터(NOTE-R)를 통해서 획득될 수도 있고, 다양한 질병(예를 들어, 360개의 질병)에 대한 큐레이션(curation) 데이터를 수집하여 획득될 수도 있는데, 이렇게 획득된 데이터를 기반으로 약물을 예측하고자 하는 질병 입력 데이터를 선별할 수 있다.
실시예에 따라, 단계 S110은, 질병의 문헌 분석을 통해 나온 유전자와 데이터 분석에서 나온 수치 계산결과로서 중요한 유전자들을 해당 질병과 관련된 유전자들로 선별할 수 있다.
실시예에 따라, 단계 S110은, 질병과 관련된 유전자들을 선별할 수 있고, 선별된 유전자들 중에는 해당 질병에 중요한 유전자인 주요 유전자(key gene)을 포함할 수 있다. 여기서, 주요 유전자는, 본 개시의 기술을 제공하는 사업자 또는 개인에 의해 결정될 수 있으며, 예로, 질병과 관련된 경로(pathway)에 속하는 유전자들을 주요 유전자로 결정할 수 있다.
실시예에 따라, 단계 S110에서 질병 입력 데이터를 선별하는데 사용되는 데이터는, 단백질-단백질 상호작용(protein-protein interaction), 질병과 정상 상태를 비교했을 때 통계적으로 유의미한 RNA 발현양 차이를 보이는 유전자, 기존에 알려진 질병 특이적인 신호전달경로(signaling pathway)에 참여하는 단백질을 인코딩(encoding)하는 유전자, 직접적으로 질병과 관계되어 있는 유전자 변이 정보(genetic variant), 유전자 조절 네트워크(gene regulatory network)에서 전사인자(transcription factor) 단백질과 그 전사인자의 조절을 받는 유전자 집합, 신호전달경로에서 약물의 주요 표적이 되는 수용체 단백질, 중간 신호 전달 단백질, 인산화 조절 단백질을 인코딩하는 유전자, 질병 경로(pathway) 유전자, 질병-질병 관계(Disease-Disease relationship) 데이터에서 두 질병 간의 공유되는 유전자 정보, 다양한 종에서 공발현(co-expression) 되는 유전자 정보 등을 포함할 수 있다. 여기서, 단백질-단백질 상호작용은, 세포 내 단백질들은 물리적으로 서로 complex를 형성하여 상호작용하여 생체 내 필요한 분자적 변화를 유발하거나 대사 경로(metabolic pathway)나 신호 전달(signal transduction)에서 일련의 화학 반응을 조절하는 효소나 신호 매개체들이 협력하는 형태로 상호작용하는 것을 의미할 수 있다.
단계 S110을 통해 질병 입력 데이터가 선별되면, 질병 입력 데이터 분석을 통해 해당 질병에 대한 특징적 발현 정보를 획득하고, 질병에 대한 특징적 발현 정보를 이용하여 유전자들의 집합인 복수의 네트워크들(210)을 형성한다(S120).
여기서, 네트워크는, 질병에서 볼 수 있는 유전자들의 발현 정보를 기반으로 같은 조절 기전에 속하거나 비슷한 기능을 할 가능성이 높은 유전자들이 여러 군집으로 묶일 가능성이 높다는 이론을 기반으로, 질병 특이적으로 형성된 유전자 그룹을 의미할 수 있다.
예를 들어, 단계 S120은, 도 2에 도시된 dynamic module detection에 해당하는 단계로, 질병 입력 데이터에 포함된 유전자들 중 질병에서 공발현(co-expression)되는 유전자들의 집합을 각각의 네트워크로 형성할 수 있다.
실시예에 따라, 단계 S120은, 질병에 대한 경로(pathway) 정보 및 유전자와 단백질 간의 관계정보를 이용하여 네트워크들을 형성할 수 있다.
실시예에 따라, 단계 S120은, 군집(clustering) 분석 기법, 양방향 군집(bi-clustering) 분석 기법과 행렬 분해(matrix decomposition) 기법 중 적어도 하나의 기법을 이용하여 네트워크들을 형성할 수 있다. 예를 들어, 단계 S120은, 질병 입력 데이터를 이용한 군집 분석 기법을 통해 네트워크들을 형성할 수도 있고, 질병 입력 데이터를 이용한 양방향 군집 분석 기법을 통해 네트워크들을 형성할 수도 있으며, 질병 입력 데이터를 이용한 행렬 분해 기법을 통해 네트워크들을 형성할 수도 있다. 물론, 단계 S120은 두 개 이상의 기법을 이용하여 네트워크들을 형성할 수도 있다.
즉, 단계 S120은, 단계 S110에 의해 질병에 대하여 선별된 유전들만을 이용하여 네트워크들을 형성할 수 있다.
단계 S120에 의해 질병에 대하여 선별된 유전들을 이용한 네트워크들이 형성되면, 형성된 네트워크들을 평가하여 질병의 특징을 잘 반영하는 네트워크들을 결정 또는 선택한다(S130).
구체적으로, 단계 S130은, 질병의 특징에 대한 네트워크들 각각의 반영 점수를 계산하고, 계산된 반영 점수에 기초하여 미리 설정된 기준 반영 점수 이상의 네트워크들을 결정 또는 선택한다. 예를 들어, 단계 S130은, 도 2에 도시된 network evaluation에 해당하는 단계로, 해당 질병에 대하여 네트워크들 각각의 반영 점수(예를 들어, functional enrichment score)를 계산하고, 네트워크들 각각에 대해 계산된 반영 점수에 기초하여 네트워크들 중 질병의 특징을 잘 반영하는 네트워크들 예를 들어, 반영 점수가 미리 설정된 기준 반영 점수 이상의 네트워크들을 결정할 수 있다.
단계 S130은 단계 S120에서 형성된 모든 네트워크들을 이용하는 것이 아니라, 해당 질병에 대한 약물을 예측하는데 있어서, 중요한 네트워크들만을 선별하여 사용하기 위한 것이다.
단계 S120의 네트워크를 형성 또는 구축하는 과정과 단계 S130의 약물을 예측하기 위한 네트워크들을 결정하는 과정에 대해서는, 도 4 내지 도 8에서 상세히 설명한다.
단계 S130에 의해 약물 예측을 위한 기준 반영 점수 이상의 네트워크들이 결정되면, 결정된 네트워크들을 이용하여, 약물들의 유전자 발현 데이터와 질병의 유전자 발현 데이터를 비교 분석함으로써, 네트워크들 각각에서의 약물들에 대한 예측 점수를 계산하고, 네트워크들 각각의 약물들에 대한 예측 점수에 기초하여 약물들 중 질병의 유전자 발현 패턴을 역전(reverse)시키는 적어도 하나의 약물을 예측한다(S140, S150).
실시예에 따라, 단계 S140은, 약물들 각각에 대하여 복수의 유전자 발현 데이터를 포함하는 경우, 예를 들어, 약물당 실험 조건을 상이하게 하여 실험한 복수의 실험 데이터를 포함하는 경우, 네트워크들 각각에서 약물들 각각의 복수의 실험 데이터(예를 들어, 유전체 데이터)에 대한 랭킹을 결정하고, 약물들 각각에 대한 랭킹의 통계적 분포를 통해 약물들에 대한 예측 점수를 계산할 수 있다.
여기서, 단계 S140은, 하나의 약물에 대한 복수의 실험 데이터에 대한 랭킹에 대한 통계적 분석을 통해, 해당 약물이 질병에 얼마만큼 효과가 좋을지에 대한 예측 점수를 계산할 수 있으며, 이는 각 실험 데이터에 대한 효능을 예측하고, 예측한 효능을 통합 계산함으로써, 각 네트워크에서의 각 약물에 대한 예측 점수를 계산할 수 있다.
실시예에 따라, 단계 S140은, 각 네트워크에서 각 약물들에 대하여, -1(효과 좋음)부터 1(악 영향)까지의 예측 점수를 계산할 수 있는데, 예측 점수가 가까울수록 약물의 유전자 패턴이 환자에서의 패턴과 반대 경향을 보임으로 인해 약효 있을 것으로 예측할 수 있고, 예측 점수가 0에 가까울수록 패턴 상에 경향성이 보이지 않아 약물이 해당 네트워크에 영향력이 없을 것으로 예측할 수 있으며, 예측 점수가 1에 가까울수록 약물로 인한 반응이 환자에서의 패턴과 유사하다고 판단하여 악 영향을 미칠 것으로 예측할 수 있다.
실시예에 따라, 단계 S150은, 단계 S140에서 계산된 약물들에 대한 예측 점수에 네트워크들 각각의 미리 결정된 가중치를 반영하여 질병 치료에 효과적인 적어도 하나의 약물을 예측할 수 있다. 여기서, 가중치는, 네트워크들 각각에 포함된 유전자 개수와 네트워크들 각각에서 질병의 경로에 속하는 주요 유전자(key gene) 개수에 기초하여 결정될 수 있다.
즉, 단계 S150은, 네트워크별로 각 약물에 대한 예측 점수를 계산하고, 계산된 각 약물의 예측 점수에 네트워크 각각의 가중치를 부여함으로써, 네트워크별 각 약물에 대한 예측 점수를 계산할 수 있으며, 이렇게 가중치가 부여된 네트워크별 각 약물에 대한 예측 점수를 이용하여 질병 치료에 효과적인 약물을 예측할 수 있다.
이때, 단계 S150은, 가중치가 부여된 예측 점수를 기반으로 약물들 중 질병의 유전자 발현 패턴을 역전시키는 하나의 약물을 예측하거나 약물들 중 상호보완적으로 질병의 유전자 발현 패턴을 역전시키는 복수의 약물들을 예측할 수 있다. 예컨대, 단계 S150은 도 2의 ④의 왼쪽에서와 같이 환자의 mRNA 패턴(220)과 도 2의 ④의 오른쪽에서와 같이 약물의 mRNA 패턴(230) 간의 관계를 계산함으로써, 환자의 mRNA 패턴을 역전시킬 수 있는 약물을 예측 또는 탐색하는 것이다.
단계 S150은, 도 2에 도시된 drug prediction for networks와 prediction of synergistic drug pair에 해당하는 단계로, 네트워크별 가중치가 부여된 예측 점수를 기반으로 질병의 유전자 발현 패턴을 역전시키는 하나의 약물을 예측하거나 복수의 약물들을 예측할 수 있다.
실시예에 따라, 단계 S150은, 네트워크들 각각에서 가중치가 부여된 각 약물에 대한 예측 점수를 기반으로 질병에 효과적인 각 약물에 대한 순위를 도출하고, 이렇게 도출된 순위를 통해 질병 치료에 효과적인 하나의 약물을 예측할 수 있다. 물론, 하나의 약물보다 여러 개의 약물이 복합된 복합제가 질병 치료에 효과적일 수도 있기에, 각 약물에 대한 순위 뿐만 아니라 두 개 이상의 약물이 합쳐진 복합제의 순위를 함께 도출한 후, 도출된 전체 순위를 통해 복합제가 가장 높은 순위를 가지는 경우, 가장 높은 순위의 복합제를 해당 질병의 복합제 약물로 예측할 수도 있다.
예를 들어, 도 3에 도시된 바와 같이, 해당 질병에 대한 네트워크들(320a, 320b, 320c)이 결정되고, 해당 네트워크들(320a, 320b, 320c) 각각의 약물에 대한 예측 점수와 가중치를 반영하여 해당 질병을 치료하는데 가장 적합한 약물로, 제1 네트워크(320a) 에서의 제1 약물(310a), 제2 네트워크(320b)에서의 제2 약물(310b)과 제3 네트워크(320c)에서의 제3 약물(310c)이 상호보완적으로 해당 질병의 유전자 발현 패턴을 가장 가깝게 역전시키는 것으로 예측함으로써, 제1 약물(310a), 제2 약물(310b)과 제3 약물(310c)의 복합제(310)를 해당 질병을 치료하기에 가장 적합한 후보 약물들로 예측할 수 있다.
본 개시의 실시예에서 네트워크를 구축하는 방식은, 다양한 방법을 통해 질병과 관련된 네트워크들을 구축하는데, 다양한 방법을 통해 질병 네트워크를 구축하는 것에 대하여 설명하면 다음과 같다. 모든 세포들은 주변 환경으로부터 오는 신호(signal)에 반응하여 생물학적 경로(biological pathway)를 통해 RNA 발현을 조절하고, 세포 내 화학적 변화(change in cell behavior)를 유발하여 끊임없이 변하는 외부 자극에 대응하여 생존한다. 유전자들은 단독으로 전사(transcription)되어서 기능을 하지 않고 비슷한 기능을 하는 유전자들이 그룹(network or module)을 형성하여 발현되는 경우가 많다. 이런 현상을 RNA가 공발현 된다고 표현하고 질병의 특징을 보여주는 중요한 지표로 사용되고 있다. RNA 발현 정보를 이용하여 가장 많이 시행하는 분석 방법은 유전자들의 관계를 독립적으로 보고 각 유전자별로 통계분석을 실시하여 발현 차이가 통계적으로 유의적인 유전자들만 골라 분석을 실시하는 것으로, 유전자의 발현을 개별 관점으로 분석을 시행하게 되면 생체내에서 일어나는 중요한 신호를 많이 놓칠 수 있고 중요한 기능을 한다고 알려진 유전자들이 univariate 통계 검증을 통해 발견되지 않는 경우도 많다. 이와 같이 세포 내에서 발생하는 중요한 신호(여기서는 RNA 발현)을 분석하기 위해서는 유전자의 발현을 개별, 독립적으로 보는 univariate 관점이 아니라 multivariate 관점으로 분석을 할 필요가 있으며, 공발현 되는 유전자들의 모임 형태도 복잡하고 다양하게 형성될 수 있어 한 가지 분석방법으로는 질병에 발현 패턴을 일부만 반영될 수 있다. 따라서, 본 개시의 실시예에서는, 다양한 방법을 사용하여 다양한 네트워크들을 구축함으로써, 구축된 다양한 네트워크들을 사용하여 질병에 효과적인 약물을 예측하는데 있어서 보다 강건한 예측 결과(roust prediction)를 도출할 수 있다.
이러한 네트워크들을 구축하는 방법에 대하여 도 4 내지 도 9를 참조하여 설명한다.
도 4는 본 개시의 다른 실시예에 따른 네트워크 구축 방법에 대한 동작 흐름도를 나타낸 것으로, 약물을 예측하기 위한 네트워크들을 구축하는 과정에 대한 동작 흐름도를 나타낸 것이다.
도 4를 참조하면, 본 개시의 다른 실시예에 따른 네트워크 구축 방법은, 질병 데이터를 수집하고 질병과 관련된 입력 유전자들을 결정한다(S410).
예를 들어, 단계 S410은, 도 2를 통해 설명한 바와 같이, 약물에 의한 mRNA 변화 데이터(NOTE-C)와 질병에 의한 mRNA 변화 데이터(NOTE-P)를 확보하고 이를 전처리함으로써, 질병에 해당하는 데이터와 질병과 관련된 입력 유전자들을 결정할 수 있다.
여기서, 약물에 의한 mRNA 변화 데이터(NOTE-C)와 질병에 의한 mRNA 변화 데이터(NOTE-P)는, 다양한 문헌들 예를 들어, 다양한 의약학 문헌 데이터(NOTE-R)를 통해서 획득될 수도 있고, 다양한 질병(예를 들어, 360개의 질병)에 대한 큐레이션(curation) 데이터를 수집하여 획득될 수도 있는데, 이렇게 획득된 데이터를 기반으로 약물을 예측하고자 하는 입력 유전자들을 결정할 수 있다.
실시예에 따라, 단계 S410은, 질병의 문헌 분석을 통해 나온 유전자와 데이터 분석에서 나온 수치 계산결과로서 중요한 유전자들을 해당 질병과 관련된 입력 유전자들로 결정할 수 있다.
단계 S410에 의해 결정된 입력 유전자들 중에는 해당 질병에 중요한 유전자인 주요 유전자를 포함할 수 있으며, 예로, 질병과 관련된 경로(pathway)에 속하는 유전자들을 주요 유전자로 결정할 수 있다.
여기서, 입력 유전자를 결정하는데 사용되는 데이터는, 단백질-단백질 상호작용(protein-protein interaction), 질병과 정상 상태를 비교했을 때 통계적으로 유의미한 RNA 발현양 차이를 보이는 유전자, 기존에 알려진 질병 특이적인 신호전달경로(signaling pathway)에 참여하는 단백질을 인코딩(encoding)하는 유전자, 직접적으로 질병과 관계되어 있는 유전자 변이 정보(genetic variant), 유전자 조절 네트워크(gene regulatory network)에서 전사인자(transcription factor) 단백질과 그 전사인자의 조절을 받는 유전자 집합, 신호전달경로에서 약물의 주요 표적이 되는 수용체 단백질, 중간 신호 전달 단백질, 인산화 조절 단백질을 인코딩하는 유전자, 질병 경로(pathway) 유전자, 질병-질병 관계(Disease-Disease relationship) 데이터에서 두 질병 간의 공유되는 유전자 정보, 다양한 종에서 공발현(co-expression) 되는 유전자 정보 등을 포함할 수 있다.
단계 S410에 의해 질병에 대한 입력 유전자들이 결정되면, 입력 유전자들과 입력 유전자들 각각의 발현 정보를 이용한 적어도 두 개 이상의 기법 예를 들어, 군집 분석 기법, 양방향 군집 분석 기법과 행렬 분해 기법 중 두 개 이상의 기법에 기초하여 복수의 네트워크들을 형성한다(S420).
단계 S420의 실시예들을 설명하기에 앞서, 용어를 정의하면 다음과 같다.
Feature(genes)은 특정 유전자의 RNA 발현수치를 의미하는 것으로, 데이터 행렬에서는 행(row)방향으로 표시되고, 발현 수치는 실수로 표현되며, 네트워크를 형성하기 위한 기법을 적용하기 전에 각 유전자들의 발현 수치는 평균이 0, 분산이 1이 되도록 데이터 전처리가 수행될 수 있다.
Sample(condition)은 RNA 발현 측정을 한 sample로 질병 그룹이나 정상 그룹의 조직(tissue)에서 추출될 수 있으며, 데이터 행렬에서는 열(column) 방향으로 표시된다.
데이터 행렬은 데이터 분석에 사용되는 입력 데이터 형태로, 행과 열이 있는 2차원 행렬 형태이며 gene(혹은 feature, channel)은 행 방향(row-oriented)으로 샘플(혹은 조건)은 열 방향(column-oriented)으로 정렬된다. 대부분의 데이터는 행의 수가 열의 수보다 많은 행 방향이 긴 행렬 형태이다.
실시예에 따라, 단계 S420은 도 5에 도시된 바와 같이, 입력 유전자들과 입력 유전자들 각각의 발현 정보를 이용한 군집 분석(clustering analysis) 기법을 통해 네트워크들(510a, 510b)을 형성할 수 있다.
구체적으로, 군집 분석 기법에 의한 네트워크 형성 과정은, 두 유전자 간의 유사성이나 상관 관계로 유전자 간의 거리(distance)를 정의하여 거리 행렬(distance matrix)을 도출한 후 거리 행렬에 기반한 군집 분석을 수행하여 비슷한 발현 프로파일(expression profile)을 보이는 유전자들을 묶음으로써, 입력 유전자들 중 일부의 유전자들과 일부의 유전자들 각각의 모든 샘플들에 대한 발현 정보를 포함하는 네트워크들을 형성할 수 있다. 여기서, 유전자들의 상호 관계는 가중치로, 관계의 강도로 표시될 수 있으며, 모든 샘플(sample)의 정보를 바탕으로 군집 분석하기 때문에 전역 유사성(global similarity)이라 할 수 있다. 이때, 알고리즘에 따라 다른 거리(1 - similarity) 측정 방법을 적용함으로써, 거리 행렬이 도출될 수 있다.
군집 분석 알고리즘은, K-medoids, Self-organizing maps, K-means, spectral clustering, Weighted Gene Co-expression Network analysis, Agglomerative hierarchical clustering과 DBSCAN(Density-based spatial clustering of applications with noise) 중 적어도 하나를 포함할 수 있다. 물론, 군집 분석 알고리즘이 상술한 알고리즘으로 제한되거나 한정되지 않으며, 본 기술에 적용 가능한 모든 군집 분석 알고리즘을 포함할 수 있다.
실시예에 따라, 단계 S420은 도 6에 도시된 바와 같이, 입력 유전자들과 입력 유전자들 각각의 발현 정보를 이용한 양방향 군집 분석(bi-clustering analysis) 기법을 통해 네트워크들(610a, 610b)을 형성할 수 있다.
구체적으로, 양방향 군집 분석 기법에 의한 네트워크 형성 과정은, 입력 유전자들과 입력 유전자들 각각의 샘플들에 대한 발현 정보의 양방향으로 군집 분석을 수행함으로써, 입력 유전자들 중 일부의 유전자들과 일부의 유전자들 각각의 샘플들 중 일부의 샘플들에 대한 발현 정보를 포함하는 네트워크들을 형성할 수 있다.
양방향 군집 분석 기법은, 군집 분석 기법과는 다르게 군집을 gene과 sample 두 방향으로 진행하여 지역 공발현(local co-expression)을 찾는 기법으로, 전체 샘플에서 패턴을 보이지 않고 일부 샘플에서만 발현 패턴이 보여도 네트워크를 형성할 수 있다. 즉, 도 6에 도시된 바와 같이, 군집 분석 기법은 모든 sample(condition)의 데이터를 다 활용하여 네트워크를 형성하는 반면, 양방향 군집 분석 기법은 sample(condition)의 일부에서만 공발현(local co-expression) 패턴을 보여도 네트워크를 형성하는 것으로, 네트워크의 그룹핑(grouping) 방향이 군집 분석 기법은 row 방향으로만 진행되고, 양방향 군집 분석 기법은 row와 column 양방향으로 진행되어 일부 조건에서만 일어나는 공발현 패턴을 찾아 낼 수 있다.
이러한 양방향 군집 분석 기법은, 전역 군집에서 놓칠 수 있는 유전자들의 공발현 양상을 찾을 수 있기 때문에 군집 분석 기법과 함께 사용하는 경우 서로 보완할 수 있다. 양방향 군집 분석 기법은, 알고리즘에 따라 한 유전자가 두 개 이상의 네트워크에 속할 수도 있어 실제 조절기전에 적합할 수 있다.
양방향 군집 분석 알고리즘은, spectral bi-clustering, Iterative Signature Algorithm, Qualitative bi-clustering Algorithm, Factor analysis for bi-cluster acquisition와 Plaid 중 적어도 하나를 포함할 수 있다. 물론, 양방향 군집 분석 알고리즘이 상술한 알고리즘으로 제한되거나 한정되지 않으며, 본 기술에 적용 가능한 모든 양방향 군집 분석 알고리즘을 포함할 수 있다.
실시예에 따라, 단계 S420은 도 7a에 도시된 바와 같이, 입력 유전자들과 입력 유전자들 각각의 발현 정보를 이용한 행렬 분해(matrix decomposition) 기법을 통해 네트워크들을 형성할 수 있다.
구체적으로, 행렬 분해 기법에 의한 네트워크 형성 과정은, 입력 유전자들과 입력 유전자들 각각의 샘플들에 대한 발현 정보에서 질병의 특징을 검출하기 위한 가중치 행렬의 가중치 값의 크기에 따른 유전자들을 결정하고, 가중치 값의 크기에 따라 결정된 유전자들을 이용하여 네트워크들을 형성할 수 있다.
예컨대, 도 7a에 도시된 바와 같이, 행렬 분해(matrix decomposition) 기법을 이용하여, 실험을 통해 얻은 mixed data matrix에서 source matrix(질병의 특징을 보여주는 정보)를 분리하고 중요한 정보가 있는 source matrix(first row in source matrix) 계산 시 기여 정도(first column in unmixing matrix)를 unmixing matrix에서 가중치의 절대값의 크기로 찾아 네트워크를 형성한다. 이때, 도 7a의 오른쪽 상단에 표시한 box plot처럼 그룹 간의 차이를 보여주는 신호를 찾고 거기에 해당되는 gene 가중치의 크기로 네트워크에 속할 유전자를 결정할 수 있다.
이러한 행렬 분해 기법은, 신호 처리(signal processing)에서 많이 적용되는 방식으로 mRNA발현양을 혼합 신호(mixed signal)로 보고 각 mRNA를 신호(signal)가 추출되는 채널(channel)로 생각하고 다변량 형태의 데이터(혹은 행렬)를 분해(decomposition)하여 노이즈(noise)를 없애고 중요한 신호, 즉 질병의 특징을 가장 잘 보여줄 수 있는 특징(signature)을 뽑아 질병 네트워크를 형성할 수 있다. 이 방법은 네트워크 간에 유전자의 오버랩이 있을 수 있으며, 이 방법의 기본 가정은 혼합된 원 데이터(original data)에서 source signal을 뽑고 혼합 데이터에서 source signal로 변환시켜주는 unmixing matrix(또는 가중치 행렬)의 가중치 값의 크기에 따라 네트워크에 들어갈 유전자들을 결정할 수 있다.
행렬 분해 알고리즘은, Independent component analysis with false discovery rate estimation, Independent component analysis with z-scores, Independent Principal component analysis와 Principal component analysis 중 적어도 하나를 포함할 수 있다. 물론, 행렬 분해 알고리즘이 상술한 알고리즘으로 제한되거나 한정되지 않으며, 본 기술에 적용 가능한 모든 행렬 분해 알고리즘을 포함할 수 있다.
행렬 분해 기법을 이용한 네트워크를 형성하는 과정에 있어서, 분해 기법 적용의 해석과 기본 가정은, 도 7b에 도시된 바와 같다. 즉, 질병에 의해 특이적으로 보이는 유전자들의 네트워크 정보(알고 싶은 정보, 그러나 알려지 있지 않은 정보)는 RNA 발현 측정이라는 실험 방법에 의해 측정되고 측정된 정보는 본래 정보(signal)가 혼합된 형태로 관찰된다는 것이고, 혼합된 관찰 값을 분해 방법을 통해 서로 독립적으로 조절되는 유전자 그룹으로 복원(unmixing)한다는 것이다.
다시 도 4를 참조하면, 단계 S420에 의해 질병에 효과적인 약물을 예측하기 위한 복수의 네트워크들이 형성되면, 질병의 특징에 대한 네트워크들 각각의 반영 점수를 계산하고, 계산된 반영 점수에 기초하여 질병에 대한 약물을 예측하기 위한 네트워크들을 결정한다(S430, S440).
단계 S420에서 비지도 학습(unsupervised learning)으로 형성된 공발현 네트워크는 RNA 발현 수치 정보로만 형성된 것이고 각 알고리즘의 파라미터(parameter) 설정에 따라 다양한 네트워크들이 형성된다. 따라서, 단계 S430과 S440을 통해 단계 S420에 의해 형성된 네트워크들을 평가함으로써, 질병에 대한 약물을 예측하기 위한 네트워크들을 결정할 수 있다.
이때, 본 개시의 실시예에서는, 두 가지 방법을 사용하여 네트워크들을 평가할 수 있다.
첫번째 방법은, 네트워크들 각각에 대하여 차원 축소 방법을 통해 중요 발현 패턴을 추출하고, 추출된 중요 발현 패턴과 질병의 특징을 비교하여 네트워크들 각각의 반영 점수를 계산함으로써, 네트워크를 결정할 수 있다. 해당 방법은, 차원 축소를 통해 네트워크의 축약된 발현 패턴을 추출하고, 축약된 발현 패턴에 질병과 정상의 차이가 보이는지를 평가하는 방법으로, 실제 구축된 네트워크가 질병의 특징을 잘 반영해주는지 평가하는 방법이다.
분석 관점에서 유전자들을 설명 변수 또는 multi-signal channel로 보면 RNA 발현 데이터는 다변수형 자료이다. 그리고, 유저자들의 발현 수치 값은 서로 간의 높은 상관성(correlation)을 보이며 중요한 패턴이 여러 유전자들(혹은 변수들)의 서로 선형적인 관계(linear relation)에 의해 숨어 있는(latent variable) 경우가 많다. 단계 S420에 의해 형성된 네트워크 또한 비슷한 패턴을 보이는 유전자들의 집합이므로, 차원 축소를 통해 해당 네트워크의 특징을 저 차원(low-dimensional space)에 재해석하여 질병과 관계에 대한 설명력을 획득할 수 있다.
구체적으로, 도 8에 도시된 바와 같이, 차원 축소 방법을 통해 데이터의 variance 정보를 최대로 담고 있는 질병의 중요 발현 패턴(eigengene 또는 eigenvector)을 추출하고, eigengene과 질병 정보 또는 샘플 정보 간의 상관성을 분석한다. 여기서, eigengene 또는 eigenvector는 네트워크의 정보를 압축하여 대표되는 1차원의 vector를 의미할 수 있다. 샘플 정보는 질병의 유무 정보를 포함하고 있기 때문에 알고리즘에 의해 같은 네트워크에 속한 유전자들의 발현 양상이 실제 질병의 유무 정보와 관계가 있는지 판단할 수 있다. 네트워크에 속한 유전자들의 정보는 multi-dimensional 정보이고 질병의 유무 정보는 1-dimensional 정보이기 때문에 다른 차원과 정보의 상관성을 보기 위해서 차원 축소를 통해 네트워크의 발현 패턴을 low-dimension에서 보아야 한다. 이러한 차원 축소 방법은 네트워크에 속한 유전자들이 정보의 관점에서 보면 서로 패턴이 비슷한 경우가 많기에, 더욱 의미가 있다. 도 8의 eigengene의 발현 패턴에서 알 수 있듯이, eigengene의 발현 패턴이 두 개의 그룹(질병 유무)으로 나뉘는 걸 볼 수 있다.
두번째 방법은, 네트워크들 각각에 포함된 유전자들이 미리 정의된 생물학적 네트워크 또는 경로를 얼마나 반영하는지에 대한 반영 점수를 계산함으로써, 네트워크를 결정할 수 있다.
구체적으로, 두번째 방법은, 해당 질병에 대하여 미리 정의된 생물학적 네트워크 또는 경로에 대한 네트워크들 각각의 반영 점수(예를 들어, functional enrichment score)를 계산하고, 네트워크들 각각에 대해 계산된 반영 점수에 기초하여 네트워크들 중 질병의 특징을 잘 반영하는 네트워크들 예를 들어, 반영 점수가 미리 설정된 기준 반영 점수 이상의 네트워크들을 결정할 수 있다.
일 예로, 도 9에 도시된 바와 같이, 기존에 많이 알려진 네트워크나 경로들을 잘 반영해야 하기 때문에 각 네트워크가 기존에 많이 알려진 네트워크나 경로들 또는 해당 기술을 제공하는 사업자 또는 개입에 의해 중요하다고 선정된 경로를 잘 반영하는지를 점수로 계산함으로써, 질병을 치료하기 위한 약물을 예측하는 네트워크들을 결정할 수 있다. 이때, 반영 점수는, 확률 분포인 초기하분포(hypergeometric distribution)를 기반으로, 네트워크 안에 기존에 알려진 생체 신호 전달 경로나 분자 네트워크와 관련 있는 유전자들이 얼마나 많이 분포되어 있는지를 랜덤으로 생성된 네트워크와 비교하여 평가하는 방식으로 계산될 수 있다.
이와 같이, 본 개시의 실시예에 따른 약물 예측 방법과 네트워크 구축 방법은, 질병에 대하여 선별된 입력 유전자들과 그 발현 정보만을 이용하여 네트워크들을 구축하고, 이렇게 구축된 네트워크들을 이용하여 질병에 효과적인 약물을 예측할 수 있다.
또한, 본 개시의 실시예들에 따른 방법은, 질병에 대한 특징적 발현 정보에 의해 형성되는 네트워크들의 상호보완적 분석에 기반하여 질병에 효과적인 하나의 약물 또는 다양한 약물들이 결합된 복합제를 예측할 수 있다.
또한, 본 개시의 실시예들에 따른 방법은, 질병에 대하여 중요한 유전자들만 선정하여 분석함으로써, 질병 치료에 효과적인 약물 또는 복합제에 대한 예측 신뢰도를 향상시킬 수 있다.
본 개시의 실시예들에 따른 방법은, 네트워크들 각각에 포함된 질병의 주요 유전자 개수와 전체 유전자 개수에 따라 가중치를 상이하게 적용함으로써, 질병 치료에 효과적인 약물 또는 복합제에 대한 예측 신뢰도를 향상시킬 수 있다.
상술한 바와 같이, 본 개시의 실시예에 다른 방법은, 네트워크별로 약물의 유전자 발현 패턴과 환자의 유전자 발현 패턴을 비교 분석하여 각 네트워크별로 가장 적합한 약물이 예측되고 이 과정에서 여러 네트워크와 약물 간의 관계를 통해 복합제를 도출할 수 있다.
이러한 본 개시의 실시예에 따른 방법은, 도 1에 도시된 바와 같이, 다양한 질병에 대한 데이터를 수집하고, 특정 질병에 대한 질병 입력 데이터를 선별한 후 선별된 질병 입력 데이터를 기반으로 네트워크들을 형성하는 과정을 반드시 수행해야 하는 것은 아니며, 타겟으로 하는 질병들 각각에 대하여 상술한 과정을 통해 질병들 각각에 대한 네트워크들 형성 및 평가를 통한 사용 네트워크들의 결정이 이루어진 상태라면, 이러한 질병별 결정된 네트워크들을 미리 저장하여 사용할 수도 있다. 즉, 특정 질병에 대한 정보와 특정 질병에 대한 약물 데이터와 약물 실험 데이터만 입력으로 주어지면, 특정 질병에 대한 약물 또는 복합제를 도출할 수도 있다.
도 10은 본 개시의 또 다른 실시예에 따른 질병에 대한 약물 예측 장치에 대한 구성을 나타낸 것으로, 도 1 내지 도 9의 방법을 수행하는 장치에 대한 개념적인 구성을 나타낸 것이다.
도 10을 참조하면, 본 개시의 또 다른 실시예에 따른 질병에 대한 약물 예측 장치(1000)는, 결정부(1010), 형성부(1020), 평가부(1030), 예측부(1040)와 데이터베이스(DB)(1050)를 포함한다.
DB(1050)는, 본 개시의 장치에서 질병에 대한 약물 또는 복합제를 예측하는데 사용되는 모든 데이터 예를 들어, 질병 입력 데이터, 질병 관련 문헌 데이터, 환자의 유전자 발현 데이터, 약물들에 대한 유전자 발현 데이터, 네트워크를 형성하기 위한 알고리즘 등을 저장한다. 물론, DB(1050)는 상술한 데이터 뿐만 아니라, 본 개시의 기술을 수행하기 위한 모든 종류의 데이터를 저장할 수 있다.
결정부(1010)는, 미리 수집된 질병 데이터에 기초하여 질병과 관련된 입력 유전자들을 선별 또는 결정한다.
이때, 결정부(1010)는, 단백질-단백질 상호작용(protein-protein interaction), 질병과 정상 상태를 비교했을 때 통계적으로 유의미한 RNA 발현양 차이를 보이는 유전자, 기존에 알려진 질병 특이적인 신호전달경로(signaling pathway)에 참여하는 단백질을 인코딩(encoding)하는 유전자, 직접적으로 질병과 관계되어 있는 유전자 변이 정보(genetic variant), 유전자 조절 네트워크(gene regulatory network)에서 전사인자(transcription factor) 단백질과 그 전사인자의 조절을 받는 유전자 집합, 신호전달경로에서 약물의 주요 표적이 되는 수용체 단백질, 중간 신호 전달 단백질, 인산화 조절 단백질을 인코딩하는 유전자, 질병 경로(pathway) 유전자, 질병-질병 관계(Disease-Disease relationship) 데이터에서 두 질병 간의 공유되는 유전자 정보, 다양한 종에서 공발현(co-expression) 되는 유전자 정보 등의 데이터를 이용하여 질병에 대한 입력 유전자들을 결정할 수 있다.
형성부(1020)는, 질병에 대하여 결정된 입력 유전자들과 입력 유전자들 각각의 발현 정보 분석을 통해 해당 질병에 대한 특징적 발현 정보를 획득하고, 질병에 대한 특징적 발현 정보를 이용하여 유전자들의 집합인 복수의 네트워크들을 형성한다.
실시예에 따라, 형성부(1020)는, 입력 유전자들에 포함된 유전자들 중 질병에서 공발현(co-expression)되는 유전자들의 집합을 각각의 네트워크로 형성할 수 있다.
실시예에 따라, 형성부(1020)는, 질병에 대한 경로(pathway) 정보 및 유전자와 단백질 간의 관계정보를 이용하여 네트워크들을 형성할 수 있다.
실시예에 따라, 형성부(1020)는, 군집 분석 기법, 양방향 군집 분석 기법과 행렬 분해 기법 중 적어도 두 개의 기법을 이용하여 네트워크들을 형성할 수 있다. 예를 들어, 형성부(1020)는, 질병 입력 데이터를 이용한 군집 분석 기법을 통해 네트워크들을 형성할 수도 있고, 질병 입력 데이터를 이용한 양방향 군집 분석 기법을 통해 네트워크들을 형성할 수도 있으며, 질병 입력 데이터를 이용한 행렬 분해 기법을 통해 네트워크들을 형성할 수도 있으며, 두 개 이상의 기법을 이용하여 네트워크들을 형성할 수도 있다.
평가부(1030)는, 형성부(1020)에 의해 형성된 질병에 대한 네트워크들을 평가하여 질병의 특징을 잘 반영하는 네트워크들을 결정 또는 선택한다.
실시예에 따라, 평가부(1030)는, 질병의 특징에 대한 네트워크들 각각의 반영 점수를 계산하고, 계산된 반영 점수에 기초하여 미리 설정된 기준 반영 점수 이상의 네트워크들을 결정 또는 선택한다.
실시예에 따라, 평가부(1030)는, 네트워크들 각각에 대하여 차원 축소 방법을 통해 중요 발현 패턴을 추출하고, 추출된 중요 발현 패턴과 질병의 특징을 비교하여 네트워크들 각각의 반영 점수를 계산함으로써, 네트워크를 결정할 수 있다.
실시예에 따라, 평가부(1030)는, 네트워크들 각각에 포함된 유전자들이 미리 정의된 생물학적 네트워크 또는 경로를 얼마나 반영하는지에 대한 반영 점수를 계산하고, 네트워크들 각각에 대해 계산된 반영 점수에 기초하여 네트워크들 중 기준 반영 점수 이상의 네트워크들을 결정할 수 있다.
이때, 반영 점수는, 확률 분포인 초기하분포(hypergeometric distribution)를 기반으로, 네트워크 안에 기존에 알려진 생체 신호 전달 경로나 분자 네트워크와 관련 있는 유전자들이 얼마나 많이 분포되어 있는지를 랜덤으로 생성된 네트워크와 비교하여 평가하는 방식으로 계산될 수 있다.
예측부(1040)는, 결정된 네트워크들을 이용하여, 약물들의 유전자 발현 데이터와 질병의 유전자 발현 데이터를 비교 분석함으로써, 네트워크들 각각에서의 약물들에 대한 예측 점수를 계산하고, 네트워크들 각각의 약물들에 대한 예측 점수에 기초하여 약물들 중 질병의 유전자 발현 패턴을 역전(reverse)시키는 적어도 하나의 약물을 예측한다.
실시예에 따라, 예측부(1040)는, 약물들 각각에 대하여 복수의 유전자 발현 데이터를 포함하는 경우, 예를 들어, 약물당 실험 조건을 상이하게 하여 실험한 복수의 실험 데이터를 포함하는 경우, 네트워크들 각각에서 약물들 각각의 복수의 실험 데이터(예를 들어, 유전체 데이터)에 대한 랭킹을 결정하고, 약물들 각각에 대한 랭킹의 통계적 분포를 통해 약물들에 대한 예측 점수를 계산할 수 있다.
여기서, 예측부(1040)는, 하나의 약물에 대한 복수의 실험 데이터에 대한 랭킹 즉, 약물에 대한 통계적 분석을 통해, 해당 약물이 질병에 얼마만큼 효과가 좋을지에 대한 예측 점수를 계산할 수 있으며, 이는 각 실험 데이터에 대한 효능을 예측하고, 예측한 효능을 통합 계산함으로써, 각 네트워크에서의 각 약물에 대한 예측 점수를 계산할 수 있다.
실시예에 따라, 예측부(1040)는, 각 네트워크에서 각 약물들에 대하여, -1(효과 좋음)부터 1(악 영향)까지의 예측 점수를 계산할 수 있다.
실시예에 따라, 예측부(1040)는, 계산된 약물들에 대한 예측 점수에 네트워크들 각각의 미리 결정된 가중치를 반영하여 질병 치료에 효과적인 적어도 하나의 약물을 예측할 수 있다. 여기서, 가중치는, 네트워크들 각각에 포함된 유전자 개수와 네트워크들 각각에서 질병의 경로에 속하는 주요 유전자 개수에 기초하여 결정될 수 있다.
즉, 예측부(1040)는, 네트워크별로 각 약물에 대한 예측 점수를 계산하고, 계산된 각 약물의 예측 점수에 네트워크 각각의 가중치를 부여함으로써, 네트워크별 각 약물에 대한 예측 점수를 계산할 수 있으며, 이렇게 가중치가 부여된 네트워크별 각 약물에 대한 예측 점수를 이용하여 질병 치료에 효과적인 약물을 예측할 수 있다.
실시예에 따라, 예측부(1040)는, 네트워크들 각각에서 가중치가 부여된 각 약물에 대한 예측 점수를 기반으로 질병에 효과적인 각 약물에 대한 순위를 도출하고, 이렇게 도출된 순위를 통해 질병 치료에 효과적인 하나의 약물을 예측할 수도 있고, 각 약물에 대한 순위 뿐만 아니라 두 개 이상의 약물이 합쳐진 복합제의 순위를 함께 도출한 후, 도출된 전체 순위를 통해 복합제가 가장 높은 순위를 가지는 경우, 가장 높은 순위의 복합제를 해당 질병의 복합제 약물로 예측할 수도 있다.
비록, 본 개시의 장치에서 그 설명이 생략되더라도, 본 개시의 실시예에 따른 방법은 도 1 내지 도 9의 방법에서 설명한 모든 내용을 포함할 수 있으며, 이는 해당 기술 분야에 종사하는 당업자에게 있어서 자명하다.
도 11은 본 개시의 또 다른 실시예에 따른 질병에 대한 약물 예측 장치가 적용되는 디바이스의 구성도를 나타낸 도면이다.
예를 들어, 도 10의 본 개시의 일 실시예에 따른 질병에 대한 약물 예측 장치(1000)는 도 11의 디바이스(1600)가 될 수 있다. 도 11을 참조하면, 디바이스(1600)는 메모리(1602), 프로세서(1603), 송수신부(1604) 및 주변 장치(1601)를 포함할 수 있다. 또한, 일 예로, 디바이스(1600)는 다른 구성을 더 포함할 수 있으며, 상술한 실시예로 한정되지 않는다. 이때, 상기 디바이스(1600)는 예를 들어 이동 가능한 사용자 단말기(예를 들어, 스마트 폰, 노트북, 웨어러블 기기 등) 이거나 고정된 관리 장치(예를 들어, 서버, PC 등) 일 수 있다.
보다 상세하게는, 도 6의 디바이스(1600)는 약물 조합 장치, 질병 치료 약물 예측 장치, 네트워크 구축 장치 등과 같은 예시적인 하드웨어/소프트웨어 아키텍처일 수 있다. 이때, 일 예로, 메모리(1602)는 비이동식 메모리 또는 이동식 메모리일 수 있다. 또한, 일 예로, 주변 장치(1601)는 디스플레이, GPS 또는 다른 주변기기들을 포함할 수 있으며, 상술한 실시예로 한정되지 않는다.
또한, 일 예로, 상술한 디바이스(1600)는 상기 송수신부(1604)와 같이 통신 회로를 포함할 수 있으며, 이에 기초하여 외부 디바이스와 통신을 수행할 수 있다.
또한, 일 예로, 프로세서(1603)는 범용 프로세서, DSP(digital signal processor), DSP 코어, 제어기, 마이크로제어기, ASIC들(Application Specific Integrated Circuits), FPGA(Field Programmable Gate Array) 회로들, 임의의 다른 유형의 IC(integrated circuit) 및 상태 머신과 관련되는 하나 이상의 마이크로프로세서 중 적어도 하나 이상일 수 있다. 즉, 상술한 디바이스(1600)를 제어하기 위한 제어 역할을 수행하는 하드웨어적/소프트웨어적 구성일 수 있다. 또한 상기 프로세서(1603)는 전술한 도 5의 형성부(1020), 평가부(1030)와 예측부(1040)의 기능을 모듈화하여 수행할 수 있다.
이때, 프로세서(1603)는 질병에 대한 약물 예측 장치의 다양한 필수 기능들을 수행하기 위해 메모리(1602)에 저장된 컴퓨터 실행가능한 명령어들을 실행할 수 있다. 일 예로, 프로세서(1603)는 신호 코딩, 데이터 처리, 전력 제어, 입출력 처리 및 통신 동작 중 적어도 어느 하나를 제어할 수 있다. 또한, 프로세서(1603)는 물리 계층, MAC 계층, 어플리케이션 계층들을 제어할 수 있다. 또한, 일 예로, 프로세서(1603)는 액세스 계층 및/또는 어플리케이션 계층 등에서 인증 및 보안 절차를 수행할 수 있으며, 상술한 실시예로 한정되지 않는다.
일 예로, 프로세서(1603)는 송수신부(1604)를 통해 다른 장치들과 통신을 수행할 수 있다. 일 예로, 프로세서(1603)는 컴퓨터 실행가능한 명령어들의 실행을 통해 질병에 대한 약물 예측 장치가 네트워크를 통해 다른 장치들과 통신을 수행하게 제어할 수 있다. 즉, 본 개시에서 수행되는 통신이 제어될 수 있다. 일 예로, 송수신부(1604)는 안테나를 통해 RF 신호를 전송할 수 있으며, 다양한 통신망에 기초하여 신호를 전송할 수 있다.
또한, 일 예로, 안테나 기술로서 MIMO 기술, 빔포밍 등이 적용될 수 있으며, 상술한 실시예로 한정되지 않는다. 또한, 송수신부(1604)를 통해 송수신한 신호는 변조 및 복조되어 프로세서(1603)에 의해 제어될 수 있으며, 상술한 실시예로 한정되지 않는다.
본 개시의 예시적인 방법들은 설명의 명확성을 위해서 동작의 시리즈로 표현되어 있지만, 이는 단계가 수행되는 순서를 제한하기 위한 것은 아니며, 필요한 경우에는 각각의 단계가 동시에 또는 상이한 순서로 수행될 수도 있다. 본 개시에 따른 방법을 구현하기 위해서, 예시하는 단계에 추가적으로 다른 단계를 포함하거나, 일부의 단계를 제외하고 나머지 단계를 포함하거나, 또는 일부의 단계를 제외하고 추가적인 다른 단계를 포함할 수도 있다.
본 개시의 다양한 실시예는 모든 가능한 조합을 나열한 것이 아니고 본 개시의 대표적인 양상을 설명하기 위한 것이며, 다양한 실시예에서 설명하는 사항들은 독립적으로 적용되거나 또는 둘 이상의 조합으로 적용될 수도 있다.
또한, 본 개시의 다양한 실시예는 하드웨어, 펌웨어(firmware), 소프트웨어, 또는 그들의 결합 등에 의해 구현될 수 있다. 하드웨어에 의한 구현의 경우, 하나 또는 그 이상의 ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), 범용 프로세서(general processor), 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다.
본 개시의 범위는 다양한 실시예의 방법에 따른 동작이 장치 또는 컴퓨터 상에서 실행되도록 하는 소프트웨어 또는 머신-실행가능한 명령들(예를 들어, 운영체제, 애플리케이션, 펌웨어(firmware), 프로그램 등), 및 이러한 소프트웨어 또는 명령 등이 저장되어 장치 또는 컴퓨터 상에서 실행 가능한 비-일시적 컴퓨터-판독가능 매체(non-transitory computer-readable medium)를 포함한다.
1000 질병에 대한 약물 예측 장치
1010 결정부
1020 형성부
1030 평가부
1040 예측부

Claims (20)

  1. 질병에 대한 입력 유전자들을 결정하는 단계;
    상기 입력 유전자들과 상기 입력 유전자들 각각의 발현 정보를 이용한 군집(clustering) 분석 기법, 양방향 군집(bi-clustering) 분석 기법과 행렬 분해(matrix decomposition) 기법 중 적어도 두 개 이상의 기법에 따른 각 결과를 조합하여 상기 질병에서 공발현(co-expression)되는 유전자들의 집합인 복수의 네트워크들을 형성하는 단계;
    상기 질병의 특징에 대한 상기 네트워크들 각각의 반영 점수를 계산하고, 상기 계산된 반영 점수에 기초하여 미리 설정된 기준 반영 점수 이상의 네트워크들을 결정하는 단계; 및
    상기 결정된 네트워크들을 상호보완적으로 분석하여, 상기 질병의 유전자 발현 패턴을 역전(reverse)시키는 적어도 하나의 약물을 예측하는 단계
    를 포함하고,
    상기 적어도 하나의 약물을 예측하는 단계는,
    상기 결정된 네트워크들을 이용하여, 약물들의 유전자 발현 데이터와 상기 질병의 유전자 발현 데이터를 비교 분석함으로써, 상기 결정된 네트워크들 각각에서의 상기 약물들에 대한 예측 점수를 계산하는 단계; 및
    상기 약물들에 대한 예측 점수에 상기 결정된 네트워크들 각각의 미리 결정된 가중치를 반영하는 단계를 포함하되,
    상기 가중치는,
    상기 결정된 네트워크들 각각에 포함된 유전자 개수와 상기 결정된 네트워크들 각각에서 상기 질병의 경로에 속하는 주요 유전자(key gene) 개수에 기초하여 결정되는, 질병에 대한 약물 예측 방법.
  2. 삭제
  3. 제1항에 있어서,
    상기 네트워크들을 형성하는 단계는,
    상기 군집 분석 기법을 이용하는 경우, 상기 입력 유전자들에서 두 유전자 간의 유사성 또는 상관 관계로 상기 두 유전자 간의 거리를 정의하여 거리 행렬을 도출한 후 상기 거리 행렬에 기반한 군집 분석을 수행함으로써, 상기 입력 유전자들 중 일부의 유전자들과 상기 일부의 유전자들 각각의 모든 샘플들에 대한 발현 정보를 포함하는 네트워크들을 형성하는, 질병에 대한 약물 예측 방법.
  4. 제1항에 있어서,
    상기 네트워크들을 형성하는 단계는,
    상기 양방향 군집 분석 기법을 이용하는 경우, 상기 입력 유전자들과 상기 입력 유전자들 각각의 샘플들에 대한 발현 정보의 양방향으로 군집 분석을 수행함으로써, 상기 입력 유전자들 중 일부의 유전자들과 상기 일부의 유전자들 각각의 샘플들 중 일부의 샘플들에 대한 발현 정보를 포함하는 네트워크들을 형성하는, 질병에 대한 약물 예측 방법.
  5. 제1항에 있어서,
    상기 네트워크들을 형성하는 단계는,
    상기 행렬 분해 기법을 이용하는 경우, 상기 입력 유전자들과 상기 입력 유전자들 각각의 샘플들에 대한 발현 정보에서 상기 질병의 특징을 검출하기 위한 가중치 행렬의 가중치 값의 크기에 따른 유전자들을 결정하고, 상기 가중치 값의 크기에 따라 결정된 유전자들을 이용하여 네트워크들을 형성하는, 질병에 대한 약물 예측 방법.
  6. 제1항에 있어서,
    상기 네트워크들을 결정하는 단계는,
    상기 형성된 네트워크들 각각에 대하여 차원 축소 방법을 통해 중요 발현 패턴을 추출하고, 상기 추출된 중요 발현 패턴과 상기 질병의 특징을 비교하여 상기 네트워크들 각각의 반영 점수를 계산하는, 질병에 대한 약물 예측 방법.
  7. 제1항에 있어서,
    상기 네트워크들을 결정하는 단계는,
    상기 형성된 네트워크들 각각에 포함된 유전자들이 미리 정의된 생물학적 네트워크 또는 경로를 얼마나 반영하는지에 대한 상기 반영 점수를 초기하분포(hypergeometric distribution)를 기반으로 계산하는, 질병에 대한 약물 예측 방법.
  8. 제1항에 있어서,
    상기 입력 유전자들을 결정하는 단계는,
    단백질-단백질 상호작용(protein-protein interaction), 상기 질병과 정상 상태의 비교를 통한 통계적 RNA 발현양 차이를 보이는 유전자, 상기 질병의 특이적인 신호전달경로(signaling pathway)에 참여하는 단백질을 인코딩(encoding)하는 유전자, 상기 질병과 관계되어 있는 유전자 변이 정보(genetic variant), 유전자 조절 네트워크(gene regulatory network)에서 전사인자(transcription factor) 단백질과 전사인자의 조절을 받는 유전자 집합, 신호전달경로에서 약물의 주요 표적이 되는 수용체 단백질, 중간 신호 전달 단백질, 인산화 조절 단백질을 인코딩하는 유전자, 미리 설정된 상기 질병의 경로(pathway) 유전자, 질병-질병 관계(Disease-Disease relationship) 데이터에서 두 질병 간의 공유되는 유전자 정보와 다양한 종에서 공발현되는 유전자 정보 중 적어도 하나의 데이터를 이용하여, 상기 입력 유전자들을 결정하는, 질병에 대한 약물 예측 방법.
  9. 삭제
  10. 삭제
  11. 질병에 대한 입력 유전자들을 결정하는 결정부;
    상기 입력 유전자들과 상기 입력 유전자들 각각의 발현 정보를 이용한 군집(clustering) 분석 기법, 양방향 군집(bi-clustering) 분석 기법과 행렬 분해(matrix decomposition) 기법 중 적어도 두 개 이상의 기법에 따른 각 결과를 조합하여 상기 질병에서 공발현(co-expression)되는 유전자들의 집합인 복수의 네트워크들을 형성하는 형성부;
    상기 질병의 특징에 대한 상기 네트워크들 각각의 반영 점수를 계산하고, 상기 계산된 반영 점수에 기초하여 미리 설정된 기준 반영 점수 이상의 네트워크들을 결정하는 평가부; 및
    상기 결정된 네트워크들을 상호보완적으로 분석하여, 상기 질병의 유전자 발현 패턴을 역전(reverse)시키는 적어도 하나의 약물을 예측하는 예측부
    를 포함하고,
    상기 예측부는,
    상기 결정된 네트워크들을 이용하여, 약물들의 유전자 발현 데이터와 상기 질병의 유전자 발현 데이터를 비교 분석함으로써, 상기 결정된 네트워크들 각각에서의 상기 약물들에 대한 예측 점수를 계산하고,
    상기 약물들에 대한 예측 점수에 상기 결정된 네트워크들 각각의 미리 결정된 가중치를 반영하되,
    상기 가중치는,
    상기 결정된 네트워크들 각각에 포함된 유전자 개수와 상기 결정된 네트워크들 각각에서 상기 질병의 경로에 속하는 주요 유전자(key gene) 개수에 기초하여 결정되는, 질병에 대한 약물 예측 장치.
  12. 삭제
  13. 제11항에 있어서,
    상기 형성부는,
    상기 군집 분석 기법을 이용하는 경우, 상기 입력 유전자들에서 두 유전자 간의 유사성 또는 상관 관계로 상기 두 유전자 간의 거리를 정의하여 거리 행렬을 도출한 후 상기 거리 행렬에 기반한 군집 분석을 수행함으로써, 상기 입력 유전자들 중 일부의 유전자들과 상기 일부의 유전자들 각각의 모든 샘플들에 대한 발현 정보를 포함하는 네트워크들을 형성하는, 질병에 대한 약물 예측 장치.
  14. 제11항에 있어서,
    상기 형성부는,
    상기 양방향 군집 분석 기법을 이용하는 경우, 상기 입력 유전자들과 상기 입력 유전자들 각각의 샘플들에 대한 발현 정보의 양방향으로 군집 분석을 수행함으로써, 상기 입력 유전자들 중 일부의 유전자들과 상기 일부의 유전자들 각각의 샘플들 중 일부의 샘플들에 대한 발현 정보를 포함하는 네트워크들을 형성하는, 질병에 대한 약물 예측 장치.
  15. 제11항에 있어서,
    상기 형성부는,
    상기 행렬 분해 기법을 이용하는 경우, 상기 입력 유전자들과 상기 입력 유전자들 각각의 샘플들에 대한 발현 정보에서 상기 질병의 특징을 검출하기 위한 가중치 행렬의 가중치 값의 크기에 따른 유전자들을 결정하고, 상기 가중치 값의 크기에 따라 결정된 유전자들을 이용하여 네트워크들을 형성하는, 질병에 대한 약물 예측 장치.
  16. 제11항에 있어서,
    상기 평가부는,
    상기 형성된 네트워크들 각각에 대하여 차원 축소 방법을 통해 중요 발현 패턴을 추출하고, 상기 추출된 중요 발현 패턴과 상기 질병의 특징을 비교하여 상기 네트워크들 각각의 반영 점수를 계산하는, 질병에 대한 약물 예측 장치.
  17. 제11항에 있어서,
    상기 평가부는,
    상기 형성된 네트워크들 각각에 포함된 유전자들이 미리 정의된 생물학적 네트워크 또는 경로를 얼마나 반영하는지에 대한 상기 반영 점수를 초기하분포(hypergeometric distribution)를 기반으로 계산하는, 질병에 대한 약물 예측 장치.
  18. 삭제
  19. 삭제
  20. 삭제
KR1020230032515A 2023-03-13 2023-03-13 질병에 효과적인 약물을 예측하기 위한 네트워크 구축 방법과 이를 이용한 약물 예측 방법 및 장치 KR102590752B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020230032515A KR102590752B1 (ko) 2023-03-13 2023-03-13 질병에 효과적인 약물을 예측하기 위한 네트워크 구축 방법과 이를 이용한 약물 예측 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020230032515A KR102590752B1 (ko) 2023-03-13 2023-03-13 질병에 효과적인 약물을 예측하기 위한 네트워크 구축 방법과 이를 이용한 약물 예측 방법 및 장치

Publications (1)

Publication Number Publication Date
KR102590752B1 true KR102590752B1 (ko) 2023-10-19

Family

ID=88507685

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230032515A KR102590752B1 (ko) 2023-03-13 2023-03-13 질병에 효과적인 약물을 예측하기 위한 네트워크 구축 방법과 이를 이용한 약물 예측 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102590752B1 (ko)

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
M. Yuan 외, "A gene co-expression network-based drug repositioning approach identifies candidates for treatment of Hepatocellular Carcinoma", Cancers 14, 2022.05.19.* *
S. Zickenrott 외, "Prediction of disease-gene-drug relationships following a differential network analysis", Cell Death and Disease 7, 2016, 2020.* *

Similar Documents

Publication Publication Date Title
Handl et al. Multiobjective optimization in bioinformatics and computational biology
US20110246409A1 (en) Data set dimensionality reduction processes and machines
Chipman et al. Clustering microarray data
Ramos-Pérez et al. When is resampling beneficial for feature selection with imbalanced wide data?
Abraham et al. Multiparametric analysis of screening data: growing beyond the single dimension to infinity and beyond
Mukhopadhyay et al. Towards improving fuzzy clustering using support vector machine: Application to gene expression data
Alok et al. Semi-supervised clustering for gene-expression data in multiobjective optimization framework
Li et al. Bregmannian consensus clustering for cancer subtypes analysis
Zhu et al. Deep-gknock: nonlinear group-feature selection with deep neural networks
Phan et al. Functional genomics and proteomics in the clinical neurosciences: data mining and bioinformatics
He et al. A selective overview of feature screening methods with applications to neuroimaging data
Hussain Bi-clustering gene expression data using co-similarity
KR102590752B1 (ko) 질병에 효과적인 약물을 예측하기 위한 네트워크 구축 방법과 이를 이용한 약물 예측 방법 및 장치
Asadi et al. A heuristic information cluster search approach for precise functional brain mapping
KR102584249B1 (ko) 네트워크들의 상호보완적 분석에 기반하여 질병에 효과적인 복합 약물을 도출하는 방법 및 장치
KR102593385B1 (ko) 네트워크들의 상호보완적 분석에 기반하여 질병에 효과적인 약물을 예측하는 방법 및 장치
Handl et al. Modes of problem solving with multiple objectives: Implications for interpreting the pareto set and for decision making
KR20200131750A (ko) 게놈 모듈 네트워크의 커널 모듈에 기반한 샘플 분석 방법 및 분석장치
Yoon et al. Direct integration of microarrays for selecting informative genes and phenotype classification
Czajkowski et al. Evolutionary approach for relative gene expression algorithms
Mariño et al. Two weighted c-medoids batch SOM algorithms for dissimilarity data
Parraga-Alava et al. A bi-objective clustering algorithm for gene expression data
Bell et al. Development of novel methodology for gene identification-based classification of leukaemia disorder
Li et al. A framework of gene subset selection using multiobjective evolutionary algorithm
Gliozzo Network-based methods for outcome prediction in the" sample space"

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant