KR20220057821A - 인공지능 기반 약물 반응성 예측 장치 및 방법 - Google Patents

인공지능 기반 약물 반응성 예측 장치 및 방법 Download PDF

Info

Publication number
KR20220057821A
KR20220057821A KR1020200142875A KR20200142875A KR20220057821A KR 20220057821 A KR20220057821 A KR 20220057821A KR 1020200142875 A KR1020200142875 A KR 1020200142875A KR 20200142875 A KR20200142875 A KR 20200142875A KR 20220057821 A KR20220057821 A KR 20220057821A
Authority
KR
South Korea
Prior art keywords
information
drug
data set
data
reactivity
Prior art date
Application number
KR1020200142875A
Other languages
English (en)
Other versions
KR102532095B1 (ko
Inventor
남승윤
박아론
이진혁
Original Assignee
가천대학교 산학협력단
(의료)길의료재단
한국생명공학연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가천대학교 산학협력단, (의료)길의료재단, 한국생명공학연구원 filed Critical 가천대학교 산학협력단
Priority to KR1020200142875A priority Critical patent/KR102532095B1/ko
Publication of KR20220057821A publication Critical patent/KR20220057821A/ko
Application granted granted Critical
Publication of KR102532095B1 publication Critical patent/KR102532095B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/10ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Medicinal Chemistry (AREA)
  • General Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Pathology (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Bioethics (AREA)
  • Toxicology (AREA)
  • Genetics & Genomics (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Analytical Chemistry (AREA)
  • Computational Linguistics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)

Abstract

본 발명의 일 실시 예에 따른 인공지능 기반 약물 반응성 예측 방법은, 데이터 세트를 형성하는 단계; 상기 데이터 세트를 기반으로 인공지능 모델을 선택하는 단계; 상기 데이터 세트로 상기 선택된 인공지능 모델을 수행하여 약물 반응성 예측 모델을 생성하는 단계; 환자 정보 및 투여 약물 정보를 수신하는 단계; 및 상기 환자 정보 및 상기 투여 약물 정보로 상기 약물 반응성 예측 모델을 수행하여 환자에 대한 약물 반응성 수치를 산출하는 단계를 포함하고, 상기 데이터 세트는 유전 정보 및 약물 화합물 특징 정보 중 적어도 하나의 정보 및 약물 반응성 정보의 조합으로 구성되며, 상기 인공지능 모델의 선택은 상기 데이터 세트의 조합된 정보의 구성 및 상기 데이터 세트의 데이터 크기를 기반으로 이루어지는 것을 특징으로 한다. 이에 따라, 본 발명의 일 실시 예에서는, 의료 분야 사용자가 효율적으로 정확도 높은 약물 반응성 정보를 획득할 수 있는 효과가 달성된다.

Description

인공지능 기반 약물 반응성 예측 장치 및 방법{AI-based device and method for predicting drug responsiveness}
본 발명은 인공지능 기반 약물 반응성 예측 장치 및 방법에 관한 것으로, 보다 구체적으로는 데이터 세트의 조합된 정보의 구성 및 상기 데이터 세트의 크기를 기반으로 인공지능 모델의 선택이 가능하여 의료 분야 사용자가 효율적으로 약물 반응성 정보를 획득할 수 있는 인공지능 기반 약물 반응성 예측 장치 및 방법에 관한 것이다.
최근 인공지능 기술 중에서 인간이 만든 프로그램 없이 컴퓨터가 스스로 데이터를 학습하여 그 의미를 해석해내는 머신러닝(machine learning)과 딥러닝(deep learning) 기술이 의료 분야에 광범위하게 도입되어 일부는 임상에서 적용되기 시작하였다.
딥러닝은 자발적으로 데이터 특성을 찾아내어 학습한다는 점에서 기존 머신러닝과 차이가 있다. 딥러닝 모델들은 기존 머신러닝이나 인공 신경망의 한계를 뛰어 넘는 유용성으로 인하여 의료 분야에서의 활용이 크게 증가하고 있으나, 기존 머신러닝 모델들을 완전히 대체하기에는 실질적으로 다음과 같은 한계를 가지고 있다. 1) 일단 딥러닝 모델에서는 결과 도출에 대한 해석이 거의 불가능하다. 2) 또한, 데이터가 적은 경우 딥러닝 모델을 적용하기 어려울 수 있는데, 그 이유는 딥러닝 모델의 학습을 위해서는 일반적으로 많은 양의 데이터가 필요하기 때문이다. 3) 특히 임상에서는 여러 제한들 때문에 딥러닝 모델을 만들기에 필요한 데이터 양을 충족시키기 어려운 경우가 많다. 4) 마지막으로 딥러닝 모델의 학습을 위해서는 고사양의 컴퓨터 하드웨어와 긴 학습 시간이 필요하다.
대한민국 등록특허공보 제10-1953762호는 인공지능 딥러닝 모델을 이용한 약물 적응증 및 반응 예측 시스템 및 방법에 관하여 개시하고 있으나, 여전히 의료 분야에서의 활용에 있어서 상술한 딥러닝의 한계를 해결하지는 못하고 있다. 이에 따라, 정확도 높은 결과를 얻으면서도 결과의 해석이 필요하거나, 데이터의 양이 적은 경우, 그리고 구축 비용 및 학습 시간 측면에서 효율이 요구되는 경우까지 커버할 수 있는 인공지능 기반 약물 반응성 예측 수단이 필요하다.
대한민국 등록특허공보 제10-1953762호 (공고일자 2019.03.04)
본 발명은 상술한 바와 같은 종래 기술의 문제점을 해결하기 위한 것으로서, 의료 분야 사용자가 효율적으로 약물 반응성 정보를 획득할 수 있도록 데이터 세트의 조합된 정보의 구성 및 상기 데이터 세트의 크기를 기반으로 인공지능 모델의 선택이 가능한 인공지능 기반 약물 반응성 예측 장치 및 방법을 제공하는 것이다.
본 발명의 제1 특징에 따른 약물 반응성 예측 방법은, 데이터 세트를 형성하는 단계; 상기 데이터 세트를 기반으로 인공지능 모델을 선택하는 단계; 상기 데이터 세트로 상기 선택된 인공지능 모델을 수행하여 약물 반응성 예측 모델을 생성하는 단계; 환자 정보 및 투여 약물 정보를 수신하는 단계; 및 상기 환자 정보 및 상기 투여 약물 정보로 상기 약물 반응성 예측 모델을 수행하여 환자에 대한 약물 반응성 수치를 산출하는 단계를 포함하고, 상기 데이터 세트는 유전 정보 또는 약물 화합물 특징 정보 중 적어도 하나의 정보 및 약물 반응성 정보의 조합으로 구성되며, 상기 인공지능 모델의 선택은 상기 데이터 세트의 조합된 정보의 구성 및 상기 데이터 세트의 데이터 크기를 기반으로 이루어지는 것을 특징으로 한다.
본 발명의 제2 특징에 따른 약물 반응성 예측 장치는, 환자 정보 및 투여 약물 정보를 수신하는 입력부; 데이터 세트를 형성하고, 상기 데이터 세트를 기반으로 인공지능 모델을 선택하여, 상기 데이터 세트로 상기 선택된 인공지능 모델을 수행하여 약물 반응성 예측 모델을 생성하며, 상기 환자 정보 및 상기 투여 약물 정보를 사용하여 상기 약물 반응성 예측 모델을 수행하여 환자에 대한 약물 반응성 수치를 산출하는 제어부; 상기 생성된 약물 반응성 예측 모델을 저장하는 저장부; 및 상기 산출된 환자에 대한 약물 반응성 수치를 표시하는 출력부를 포함하고, 상기 데이터 세트는 유전 정보 또는 약물 화합물 특징 정보 중 적어도 하나의 정보 및 약물 반응성 정보의 조합으로 구성되며, 상기 인공지능 모델의 선택은 상기 데이터 세트의 조합된 정보의 구성 및 상기 데이터 세트의 데이터 크기를 기반으로 이루어지는 것을 특징으로 한다.
본 발명의 실시 예에 따른 인공지능 기반 약물 반응성 예측 장치 및 방법은 다음과 같은 효과를 제공한다.
1. 인공지능 수행 여건에 따라 데이터 세트의 조합된 정보 구성 및 크기에 기반하여 인공지능 모델의 선택이 가능하여 인공지능 기반의 약물 반응성 예측에 있어서 정확도 높은 결과를 얻을 수 있다.
2. 인공지능 모델을 수행할 데이터 양이 적은 경우에도 약물 반응성 예측에 있어서 정확도 높은 결과를 얻을 수 있다.
3. 현실적 여건 상 인공지능 장비 구축 비용에 대한 충분한 투자가 불가능하거나 긴 학습 시간을 감당하기 힘들어 딥러닝 모델을 사용하기 어려운 경우에도 약물 반응성 예측에 있어서 정확도 높은 결과를 얻을 수 있다.
4. 딥러닝 모델을 충분히 사용 가능한 상황에서라도, 데이터 세트의 조합된 정보 구성 및 크기에 기반하여 인공지능 모델을 적절히 선택함으로써 학습 시간 측면에서 효율적으로 정확도 높은 결과를 얻을 수 있다.
도 1은 본 발명의 일 실시 예에 따른 인공지능 기반 약물 반응성 예측 방법의 플로우차트를 도시한 도면이다.
도 2는 본 발명의 일 실시 예에 따른 인공지능 기반 약물 반응성 예측 방법을 설명하기 위한 개념도이다.
도 3은 본 발명의 일 실시 예에 따른 데이터 세트의 구성을 도시한 도면이다.
도 4는 본 발명의 일 실시 예에 따른 인공지능 기반 약물 반응성 예측 장치를 설명하기 위한 개념도이다.
도 5는 본 발명의 일 실시 예에 따른 데이터 세트를 구성하는 정보 요소와 그에 따른 데이터 세트의 조합 및 선택 가능한 인공지능 모델을 간략히 도시한 도면이다.
도 6은 본 발명의 일 실시 예에 따른 데이터 세트의 구성 조합에 기반하여 인공지능 별로 약물 반응성 예측 정확도를 평가하는 실험 시나리오들을 개략적으로 나타낸 도면이다.
도 7은 본 발명의 일 실시 예에 따른 실험 시나리오 별로 조합된 데이터 세트의 구조를 예시적으로 도시한 도면이다.
도 8 내지 도 13은 각각 본 발명의 일 실시 예에 따른 데이터 세트의 소정의 구성 조합에서 인공지능 별로 약물 반응성 예측 정확도를 평가한 실험의 결과를 나타내는 그래프들이다.
도 14는 본 발명의 일 실시 예에 따른 새로운 약물에 대한 암세포의 약물 반응성 예측을 수행하여 정리한 데이터 중 일부를 나타낸 도면이다.
도 15 및 도 16은 본 발명의 일 실시 예에 따른 약물 반응성 예측 모델을 통해 암환자들의 약물 반응성을 예측한 데이터 중 일부를 나타낸 도면이다.
이하, 본 발명에 대해서 실시예 및 도면을 참조하여 구체적으로 설명한다. 그러나, 이하의 설명은 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
도 1은 본 발명의 일 실시 에에 따른 인공지능 기반 약물 반응성 예측 방법의 플로우차트를 도시한 도면이고, 도 2는 본 발명의 일 실시 예에 따른 인공지능 기반 약물 반응성 예측 방법을 설명하기 위한 개념도이며, 도 3은 본 발명의 일 실시 예에 따른 데이터 세트의 구성을 도시한 도면이다.
도 1 내지 도 3을 참조하면, 본 발명의 일 실시 예에 따른 인공지능 기반 약물 반응성 예측 방법(100)은 데이터 세트(10)를 형성하는 단계(110); 상기 데이터 세트(10)를 기반으로 인공지능 모델(20a)을 선택(210)하는 단계(120); 상기 데이터 세트(10)로 상기 선택된 인공지능 모델(20b)을 수행하여 약물 반응성 예측 모델을 생성하는 단계(130); 환자 정보 및 투여 약물 정보를 수신하는 단계(140); 및 상기 환자 정보 및 상기 투여 약물 정보로 상기 약물 반응성 예측 모델을 수행하여 환자에 대한 약물 반응성 수치를 산출하는 단계(150)를 포함하고, 상기 데이터 세트(10)는 유전 정보(12) 및 약물 화합물 특징 정보(14) 중 적어도 하나의 정보 및 약물 반응성 정보(16)의 조합으로 구성되며, 상기 인공지능 모델(20a)의 선택(210)은 상기 데이터 세트(10)의 조합된 정보의 구성 및 상기 데이터 세트(10)의 데이터 크기를 기반으로 이루어지는 것을 특징으로 한다.
도 2를 참조하면, 본 발명의 일 실시 예에 있어서 데이터 세트(10)의 조합된 정보의 구성 및 데이터 세트(10)의 데이터 크기는 데이터 세트(10)가 수행될 인공지능 모델(20a)을 선택(210)하는 기준이 될 수 있다.
도 3을 참조하면, 본 발명의 일 실시 예에 있어서, 데이터 세트(10)의 정보 조합은 유전 정보(12) 및 약물 화합물 특징 정보(14) 중 적어도 하나의 정보 및 약물 반응성 정보(16)의 조합일 수 있다. 보다 구체적으로 데이터 세트(10)는 유전 정보(12) 및 약물 반응성 정보(16)의 조합(도 3(a) 참조), 약물 화합물 특징 정보(14) 및 약물 반응성 정보(16)의 조합(도 3(b) 참조), 또는 유전 정보(12), 약물 화합물 특징 정보(14), 및 약물 반응성 정보(16)의 조합(도 3(c) 참조)으로 구성될 수 있다.
도 2 및 후술하는 도 5를 참조하면, 본 발명의 일 실시 예에 있어서 데이터 세트(10)가 수행될 인공지능 모델(20)은 딥러닝 모델(22) 및 머신러닝 모델(24)을 포함할 수 있다. 보다 상세하게는, 본 발명의 일 실시 예에 따른 딥러닝 모델(22)은 ResNet 및 CNN 중 적어도 하나를 포함할 수 있고, 머신러닝 모델(24)은 ridge, lasso, SVR, random forest 및 XGBoost 중 적어도 하나를 포함할 수 있다. 딥러닝 및 머신러닝 모델(22,24)에 대한 상술한 모델들 외의 다른 모델들도 본 발명의 다양한 실시 예에 포함될 수 있다는 점이 본 발명 분야의 기술자들에게 충분히 이해될 수 있을 것이다.
다시 도 2를 참조하면, 데이터 세트(10)의 조합 구성 및 데이터 세트(10)의 크기를 통해 인공지능 모델(20a)이 선택(210)되면, 형성된 데이터 세트(10)로 선택된 인공지능 모델(20b)을 수행하여 약물 반응성 예측 모델을 생성할 수 있다. 이렇게 생성된 약물 반응성 예측 모델은 후술하는 도 4에 도시된 저장부(54)에 저장이 가능하며, 필요한 경우 제어부(50)에 로드하여 활용할 수 있다. 입력 받은 환자 정보 및 투여 약물 정보를 사용하여 생성된 약물 반응성 예측 모델을 수행하면 환자에 대한 약물 반응성 수치가 산출된다.
도 4는 본 발명의 일 실시 예에 따른 인공지능 기반 약물 반응성 예측 장치를 설명하기 위한 개념도이다.
도 4를 참조하면, 본 발명의 일 실시 예에 따른 인공지능 기반 약물 반응성 예측 장치(400)는 환자 정보 및 투여 약물 정보를 수신하는 입력부(52); 데이터 세트(10)를 형성하고, 상기 데이터 세트(10)를 기반으로 인공지능 모델(20a)을 선택(210)하여, 상기 데이터 세트(10)로 상기 선택된 인공지능 모델(20b)을 수행하여 약물 반응성 예측 모델을 생성하며, 상기 환자 정보 및 상기 투여 약물 정보를 사용하여 상기 약물 반응성 예측 모델을 수행하여 환자에 대한 약물 반응성 수치를 산출하는 제어부(50); 상기 생성된 약물 반응성 예측 모델을 저장하는 저장부(54); 및 상기 산출된 환자에 대한 약물 반응성 수치를 표시하는 출력부(56)를 포함하고, 상기 데이터 세트(10)는 유전 정보(12) 및 약물 화합물 특징 정보(14) 중 적어도 하나의 정보 및 약물 반응성 정보(16)의 조합으로 구성되며, 상기 인공지능 모델(20a)의 선택(210)은 상기 데이터 세트(10)의 조합된 정보의 구성 및 상기 데이터 세트(10)의 데이터 크기를 기반으로 이루어지는 것을 특징으로 한다.
달리 말하면, 제어부(50)는 데이터 세트(10)의 형성을 제어하고, 형성된 데이터 세트(10)의 조합된 정보의 구성 및 데이터 세트(10)의 데이터 크기를 판단하여 인공지능 모델(20a)을 선택(210)한다. 데이터 세트(10)로 선택된 인공지능 모델(20b)을 수행하여 약물 반응성 예측 모델을 생성하고, 생성된 약물 반응성 예측 모델을 저장부(54)에 저장할 수 있다. 다시 제어부(50)는 입력부(52)를 통해 입력 받은 환자 정보 및 투여 약물 정보로 생성된 약물 반응성 예측 모델을 수행하여 환자에 대한 약물 반응성 수치를 산출하며, 산출된 결과 값들을 사용자들이 확인 가능하도록 출력부(56)에 디스플레이 할 수 있다.
제어부(50)는 약물 반응성 예측 장치(400)의 전반적인 동작을 제어하는 기능을 한다. 구체적으로, 제어부(50)는 프로세서를 포함할 수 있으며, 명령어들의 임의의 시퀀스를 처리할 수 있는 임의의 장치를 포함하거나, 또는 그 일부일 수 있다. 예를 들어, 제어부(50)는 컴퓨터 프로세서, 이동 장치, 또는 다른 전자 장치 내의 프로세서 및/또는 디지털 프로세서를 포함할 수 있으며, 서버 컴퓨팅 디바이스, 서버 컴퓨터, 일련의 서버 컴퓨터들, 서버 팜, 클라우드 컴퓨터, 컨텐츠 플랫폼, 이동 컴퓨팅 장치, 스마트폰, 태블릿, 셋톱 박스, 미디어 플레이어 등에 포함될 수도 있다.
입력부(52)는 사용자가 약물 반응성 예측 장치(400)의 전반적인 조작을 위한 각종 명령을 입력할 수 있는 수단이다. 입력부(52)는 리모트 컨트롤러, 마우스, 키보드, 음성인식장치 및 동작인식장치 등을 포함할 수 있다.
저장부(54)는 약물 반응성 예측 장치(400)를 동작시키기 위해 필요한 각종 프로그램 등이 저장되는 저장매체로서, 메모리, HDD(Hard Disk Drive) 등으로 구현 가능하다. 예를 들어, 저장부(54)는 제어부(50)의 동작 수행을 위한 프로그램을 저장하기 위한 ROM, 제어부(50)의 동작 수행에 따른 데이터를 일시적으로 저장하기 위한 RAM 등을 구비할 수 있다. 또한, 저장부(54)는 각종 참조 데이터를 저장하기 위한 EEROM(Electrically Erasable and Programmable ROM) 등을 더 구비할 수 있다.
출력부(56)는 제어부(50)가 산출한 결과 값들을 화면에 디스플레이 할 수 있다. 예를 들어, 출력부(56)는 액정 디스플레이(Liquid Crystal Display, LCD), 박막 트랜지스터 액정 디스플레이(Thin Film Transistor-Liquid Crystal Display, TFT LCD), 유기 발광 다이오드(Organic Light-Emitting Diode, OLED), 플렉시블 디스플레이(Flexible Display), 3차원 디스플레이(3D Display) 중에서 적어도 하나를 포함할 수 있다.
이상에서 설명된 인공지능 기반 약물 반응성 예측 장치(400) 및 구성요소들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있으며, 이에 한정되지 않는다. 예를 들어, 상술한 실시 예들에서 설명된 인공지능 기반 약물 반응성 예측 장치(400) 및 구성요소들은, 예를 들어, 프로세서, 컨트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 임의의 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다.
도 5는 본 발명의 일 실시 예에 따른 데이터 세트를 구성하는 정보 요소와 그에 따른 데이터 세트의 조합 및 선택 가능한 인공지능 모델을 간략히 도시한 도면이다.
도 5를 도 3과 함께 참조하여 설명하면, 본 발명의 일 실시 예에 있어서 데이터 세트(10)는 유전 정보(12) 및 약물 화합물 특징 정보(14) 중 적어도 하나의 정보 및 약물 반응성 정보(16)의 조합으로 구성된다.
본 발명의 일 실시 예에 따른 유전 정보(12)는 돌연변이 정보(M 정보)(12a), 유전자 발현 정보(E 정보)(12b), DNA 메틸화 정보(Y 정보)(12c) 중 적어도 하나를 포함할 수 있다. 일 실시 예에 의하면 약물 화합물 특징 정보(14)는 파델 화합물 정보(PaDEL chemical descriptor)(D 정보)(14)일 수 있다. 일 실시 예에 의하면 약물 반응성 정보(16)는 약물 유전체 공개 데이터베이스인 GDSC(Genomics of Drug Sensitivity in Cancer) 또는 CCLE(Cancer Cell Line Encyclopedia)에서 제공되는 IC50 데이터일 수 있으며, 이하에서는 GDSC 제공 데이터(G 정보)(16a), CCLE 제공 데이터(C 정보)(16b)로 간략하게 기재하기로 한다.
추가적으로, 보다 상세하게는 GDSC 제공 데이터(G 정보)(16a)의 양은 CCLE 제공 데이터(C 정보)(16b)의 양보다 많으며, 두 정보 모두 사용된 암세포주와 각각의 암세포주에 투여된 약물의 종류, 그리고 해당 약물을 투여했을 때 각각의 암세포주의 약물 반응성 수치를 ln(IC50)으로 나타내는 정보를 의미한다.
다시 도 5를 참조하면, 본 발명의 일 실시 예에 있어서, 데이터 세트(10)의 조합된 정보의 구성 및 데이터 세트의 데이터 크기는 (a) 돌연변이 정보(12a), 약물 화합물 특징 정보(14), GDSC 제공 데이터(16a) 및 160K (즉, MDG-160K)(10a), (b) 유전자 발현 정보(12b), 약물 화합물 특징 정보(14), CCLE 제공 데이터(16b) 및 11K (즉, EDC-11K)(10b), (c) 유전자 발현 정보(12b), DNA 메틸화 정보(12c), 약물 화합물 특징 정보(14), CCLE 제공 데이터(16b) 및 9K (즉, EYDC-9K)(10c), (d) 유전자 발현 정보(12b), CCLE 제공 데이터(16b) 및 11K (즉, EC-11K)(10d), (e) 돌연변이 정보(12a), 약물 화합물 특징 정보(14), CCLE 제공 데이터(16b) 및 9K (즉, MDC-9K)(10e), (f) 돌연변이 정보(12a), CCLE 제공 데이터(16b) 및 9K (즉, MC-9K)(10f)를 포함할 수 있다.
본 발명의 일 실시 예에 있어서, 데이터 세트(10)가 수행될 인공지능 모델(20)은 상술한 바와 같이 딥러닝 모델(22) 및 머신러닝 모델(24)을 포함할 수 있다. 보다 상세하게는, 본 발명의 일 실시 예에 따른 딥러닝 모델(22)은 ResNet 및 CNN 중 적어도 하나를 포함할 수 있고, 머신러닝 모델(24)은 ridge, lasso, SVR, random forest 및 XGBoost 중 적어도 하나를 포함할 수 있다. 이러한 딥러닝 및 머신러닝 모델(22,24)에 대한 상술한 모델들 이외의 다른 모델들도 본 발명의 다양한 실시 예에 포함될 수 있다는 점이 본 발명 분야의 기술자들에게 충분히 이해될 수 있을 것이다.
도 6은 본 발명의 일 실시 예에 따른 데이터 세트의 구성 조합에 기반하여 인공지능 별로 약물 반응성 예측 정확도를 평가하는 실험 시나리오들을 개략적으로 나타낸 도면이다.
도 6을 참조하면, 본 발명의 일 실시 예에 따른 인공지능 별로 약물 반응성 예측 정확도를 평가하는 각각의 실험 시나리오에 해당하는 데이터 세트의 구성 조합은 도 5를 참조하여 상술한 바와 같이, (a) 돌연변이 정보(12a), 약물 화합물 특징 정보(14), GDSC 제공 데이터(16a) 및 160K (즉, MDG-160K)(10a), (b) 유전자 발현 정보(12b), 약물 화합물 특징 정보(14), CCLE 제공 데이터(16b) 및 11K (즉, EDC-11K)(10b), (c) 유전자 발현 정보(12b), DNA 메틸화 정보(12c), 약물 화합물 특징 정보(14), CCLE 제공 데이터(16b) 및 9K (즉, EYDC-9K)(10c), (d) 유전자 발현 정보(12b), CCLE 제공 데이터(16b) 및 11K (즉, EC-11K)(10d), (e) 돌연변이 정보(12a), 약물 화합물 특징 정보(14), CCLE 제공 데이터(16b) 및 9K (즉, MDC-9K)(10e), (f) 돌연변이 정보(12a), CCLE 제공 데이터(16b) 및 9K (즉, MC-9K)(10f)에 해당한다.
도 6에 도시된 실험 시나리오의 4번째 및 5번째 행 그룹, 그리고 7번째 및 8번째 행 그룹에서, 데이터 세트의 구성 조합은 각각 EC-11K(10d), MC-9K(10f)로 동일하나, 마지막 열의 Unified/single model approach에서 “Single”과 “Unified”로 차이가 존재한다. 여기서, “Unified”는 사용 가능한 모든 약물들에 대한 정보들에 기반하여 통합 모델을 생성하였음을 의미하고, “Single”은 개별적인 일부 약물에 대한 정보들에 기반하여 단일 모델을 생성하였음을 의미한다.
도 7은 본 발명의 일 실시 예에 따른 실험 시나리오 별로 조합된 데이터 세트의 구조를 예시적으로 도시한 도면이다.
좀 더 구체적으로, 도 7은 통합 모델 생성을 위해 각각의 실험 시나리오에서 실제 사용될 수 있는 예시적인 방식으로 배열된 입력 데이터에 대해 개략적으로 도시한 것으로서, 입력 데이터에는 도 5에서 상술한 바와 같이 유전 정보(12), 약물 화합물 특징 정보(14), 약물 반응성 정보(16)가 포함된다.
도 7을 참조하면, 본 발명의 일 실시 예에 있어서 데이터 세트가 EC-11K(10d), MC-9K(10f)인 경우, 입력 데이터는 도 7(a)와 같이 유전 정보(12) 및 약물 반응성 정보(16)가 되며, 이는 도 3(a)의 경우에 해당한다. 데이터 세트가 MDG-160K(10a), MDC-9K(10e), EDC-11K(10b)인 경우, 입력 데이터는 도 7(b)와 같이 유전 정보(12), 약물 화합물 특징 정보(14), 및 약물 반응성 정보(16)가 되며, 이는 도 3(c)의 경우에 해당한다. 데이터 세트가 EYDC-9K(10c)인 경우, 입력 데이터는 도 7(c)와 같이 유전자 발현 정보(12b) 및 DNA 메틸화 정보(12c)의 유전 정보(12), 약물 화합물 특징 정보(14), 및 약물 반응성 정보(16)가 되며, 이는 마찬가지로 도 3(c)의 경우에 해당한다.
도 8 내지 도 13은 각각 본 발명의 일 실시 예에 따른 데이터 세트의 소정의 구성 조합에서 인공지능 별로 약물 반응성 예측 정확도를 평가한 실험의 결과를 나타내는 그래프들이다.
도 8 내지 도 13에 각각 도시된 실험결과와 관련하여, 본 발명의 일 실시 예에 있어서, 소정 데이터 세트(10)를 이용하여 생성한 약물 반응성 예측 모델의 성능 평가에 대하여, 도 7에 도시된 바와 같은 테스트 데이터를 각각의 인공지능 모델(20a)에 대해 입력하여 얻은 예측 값 및 테스트 데이터의 ln(IC50) 실험 값을 통해 도출된 평균 제곱근 편차 값(RMSE: root mean squared error) 및 R제곱(R2: r-square) 값으로 성능 평가가 이루어질 수 있으며, RMSE 및 R2 값은 하기의 식을 통해 계산된다.
Figure pat00001
Figure pat00002
(n: 샘플 수,
Figure pat00003
: i번째 참 실험값,
Figure pat00004
: i번째 예측값,
Figure pat00005
: 모든
Figure pat00006
에 대한 전체 평균값)
<실험 예 1> MDG-160K
도 8은 본 발명의 일 실시 예에 있어서 (a) 돌연변이 정보(12a), 약물 화합물 특징 정보(14), GDSC 제공 데이터(16a) 및 160K (즉, MDG-160K)(10a) 데이터 세트로 각각의 인공지능 모델을 수행한 경우 약물 반응성 예측 정확도를 평가한 실험 결과를 나타내는 그래프로서, MDG-160K(10a)의 테스트 데이터를 통해 얻은 ln(IC50) 실험값과 예측값 간의 산점도이다.
도 8에서, S는 추세선의 기울기, E는 상기 RMSE 값, R2은 상기 R제곱 값에 해당하며, 이는 이하에서 설명할 도 9 내지 도 13에서도 동일하다.
본 발명의 일 실시 예에 따른 도 8의 그래프의 해석에 있어서, RMSE 값이 낮을수록 S 값과 R2 값이 높음을 확인하였고, 이와 같은 수치의 경향은 생성된 약물 반응성 예측 모델의 성능이 더 우월하다는 것을 의미함을 확인하였다. 이와 같은 그래프의 해석은 이하에서 설명할 도 9 내지 도 13에서도 동일하다는 점이 이해되어야 한다.
보다 구체적으로, MDG-160K(10a) 데이터 세트를 형성하기 위해 GDSC를 통해 1,001개의 암세포로부터 21,213개의 돌연변이 위치(각 전사체에 대한 점돌연변이 정보, ENSEMBL annotation version 56)를 추출하여 돌연변이 정보(M 정보)(12a)를 각각 이진화한다. GDSC에서 제공하는 217개의 각각의 약물들의 정보는 PaDEL descriptors를 이용하여 2,325개의 약물의 화합물 특징 정보(D 정보)(14)로 저장하여, 2,325개 피처로 구성된 약물정보들을 모두 min-max normalization을 이용하여 0과 1사이의 값으로 표준화시킨다. GDSC의 217개 각각의 약물에 대한 1,001개의 암세포의 ln(IC50) 실험 값(G 정보)(16a)의 수는 총 160,375개(약 160K에 해당)가 되며, 돌연변이 정보(12a)와 약물 화합물 특징 정보(14)를 x값으로, ln(IC50) 실험값을 y값으로 하여 모두 열 기준(도 7의 데이터 세트 구조 참조)으로 합친다. 이 데이터 세트를 9:1 비율로 각각 훈련용 데이터와 학습용 데이터로 구분한다.
보다 구체적으로, 머신러닝 모델(24) 중 SVR, random forest, XGBoost 모델은 기본 옵션 하에서 scikit-learn python package를 이용하여 구성하였고, 딥러닝 모델(22)인 ResNet, CNN은 Nvidia GTX1080ti GPU로 Keras package를 이용하여 구성하였다. ResNet, CNN 모델에서는 학습 횟수(training epoch)는 150, 배치 크기(batch size)는 100, 손실 함수(loss function)는 평균 제곱 편차(MSE: mean square error), 최적화 알고리즘(optimizer)은 Adam으로 설정하여 학습률(training rate)은 0.0002 하에서 학습하였다.
본 발명의 일 실시 예에 따른 MDG-160K(10a)의 데이터 세트에 대한 실험 결과는 도 8을 참조하면, 딥러닝 모델(22)이 머신러닝 모델(24)보다 더 성능이 좋았음을 확인할 수 있으며 특히 ResNet 모델이 가장 좋은 성능을 보여주었음을 확인할 수 있다.
<실험 예 2> EDC-11K
도 9는 본 발명의 일 실시 예에 있어서 (b) 유전자 발현 정보(12b), 약물 화합물 특징 정보(14), CCLE 제공 데이터(16b) 및 11K (즉, EDC-11K)(10b) 데이터 세트로 각각의 인공지능 모델을 수행한 경우 약물 반응성 예측 정확도를 평가한 실험 결과를 나타내는 그래프로서, EDC-11K(10b)의 테스트 데이터를 통해 얻은 ln(IC50) 실험값과 예측값 간의 산점도이다.
보다 구체적으로, EDC-11K(10b)의 데이터 세트를 형성하기 위해 암세포주의 유전자 발현 정보(E 정보)(12b)를 사용하고, 24개의 약물의 화합물 특징 정보(D 정보)(14)는 SMILES 화합물 포맷으로부터 PaDEL desciptor를 통해 계산된다. 각각의 유전자 발현량은 모두 z-normalization을 통해 표준화되고 약물정보들은 모두 min-max normalization을 이용하여 0과 1사이의 값으로 정리한다. 각각의 세포주와 약물의 조합에 대해 18,988개의 유전자 발현 정보(12b)와 24개 약물에 대해 2,325개의 화합물 정보를 통합하여 21,313개의 피처로 구성된 입력 데이터를 생성한다. 암세포주에 약물을 처리한 세포 사멸율 실험 결과로서 CCLE에서 제공하는 정보(C 정보)(16b) 11,360개(약 11K에 해당)의 ln(IC50) 실험값을 학습용 출력 데이터 값으로 지정한다. 이 데이터 세트를 9:1 비율로 각각 훈련용 데이터와 학습용 데이터로 구분한다.
도 9에 도시된 실시 예에서, 머신러닝 모델(24)은 lasso, ridge, random forest, SVR 및 XGBoost를 사용하였으며, 딥러닝 모델(22)은 ResNet, CNN을 사용하였다.
본 발명의 일 실시 예에 따른 EDC-11K(10b)의 데이터 세트에 대한 실험 결과는 도 9를 참조하면, 머신러닝 모델(24)이 딥러닝 모델(22)보다 더 성능이 좋았음을 확인할 수 있으며, 특히 XGBoost 모델이 가장 좋은 성능을 보여주었음을 확인할 수 있다.
<실험 예 3> EYDC-9K
도 10은 본 발명의 일 실시 예에 있어서 (c) 유전자 발현 정보(12b), DNA 메틸화 정보(12c), 약물 화합물 특징 정보(14), CCLE 제공 데이터(16b) 및 9K (즉, EYDC-9K)(10c) 데이터 세트로 각각의 인공지능 모델을 수행한 경우 약물 반응성 예측 정확도를 평가한 실험 결과를 나타내는 그래프로서, EYDC-9K(10c)의 테스트 데이터를 통해 얻은 ln(IC50) 실험값과 예측값 간의 산점도이다.
보다 구체적으로, EYDC-9K(10c)의 데이터 세트를 형성하기 위해 약물의 화합물 특징 정보(D 정보)(14)는 상술한 실험 예들과 마찬가지로 PaDEL 프로그램에 의해 계산된다. 유전자 발현 정보(E 정보)(12b)는 z-normalization을 이용해 표준화하고, DNA 메틸화 정보(Y 정보)(12c)는 전사 시작점(transcription start site)의 1kb 상위에 있는 프로모터(promoter) 지역에 대한 값을 사용한다. DNA 메틸화 정보(12c)에서 일부 암세포주에 대한 결측값은 Bioconductor에서 제공하는 R impute package를 사용하여 대체한다. 이와 같은 과정을 통해 완성된 DNA 메틸화 정보(12c)는 유전자 발현 정보(12b)와 동일하게 각 유전자에 대한 z-normalization을 통해 표준화되고, 약물정보들은 모두 min-max normalization에 의해 표준화된다. 상술한 3가지 데이터를 통합하여 암세포주-약물조합에 대한 41,505개의 피처로 구성된 입력 데이터를 생성한다. 입력 데이터에 대한 출력 데이터로 CCLE에서 제공하는 정보(C 정보)(16b) 9,590개(약 9K에 해당)의 ln(IC50) 실험값을 학습용 출력 데이터 값으로 지정한다. 이 데이터 세트를 9:1 비율로 각각 훈련용 데이터와 학습용 데이터로 구분한다.
도 10에 도시된 실시 예에서, 머신러닝 모델(24)은 lasso, ridge, random forest, SVR 및 XGBoost를 사용하였으며, 딥러닝 모델(22)은 ResNet, CNN을 사용하였다.
본 발명의 일 실시 예에 따른 EYDC-9K(10c)의 데이터 세트에 대한 실험 결과는 도 10을 참조하면, SVR 모델을 제외한 머신러닝 모델(24)이 딥러닝 모델(22)보다 더 성능이 좋았음을 확인할 수 있으며, 특히 XGBoost 모델이 가장 좋은 성능을 보여주었음을 확인할 수 있다.
<실험 예 4> EC-11K
도 11은 본 발명의 일 실시 예에 있어서 (d) 유전자 발현 정보(12b), CCLE 제공 데이터(16b) 및 11K (즉, EC-11K)(10d) 데이터 세트로 각각의 인공지능 모델을 수행한 경우 약물 반응성 예측 정확도를 평가한 실험 결과를 나타내는 그래프로서, EC-11K(10d)의 테스트 데이터를 통해 얻은 ln(IC50) 실험값과 예측값 간의 산점도이다.
도 11에 도시된 실시 예에서, 머신러닝 모델(24)은 lasso, ridge, random forest, SVR 및 XGBoost를 사용하였으며, 딥러닝 모델(22)은 ResNet, CNN을 사용하였다.
본 발명의 일 실시 예에 따른 EC-11K(10d)의 데이터 세트에 대한 실험 결과는 도 11을 참조하면, 모든 모델에서 성능이 좋지 않다는 것을 확인할 수 있다.
<실험 예 5> MDC-9K
도 12는 본 발명의 일 실시 예에 있어서 (e) 돌연변이 정보(12a), 약물 화합물 특징 정보(14), CCLE 제공 데이터(16b) 및 9K (즉, MDC-9K)(10e) 데이터 세트로 각각의 인공지능 모델을 수행한 경우 약물 반응성 예측 정확도를 평가한 실험 결과를 나타내는 그래프로서, MDC-9K(10e)의 테스트 데이터를 통해 얻은 ln(IC50) 실험값과 예측값 간의 산점도이다.
보다 구체적으로, MDC-9K(10e)의 데이터 세트를 형성하기 위해 암세포주에 대한 돌연변이 정보(M 정보)(12a), 24개 약물에 대한 약물 화합물 특징 정보(D 정보)(14)와 CCLE에서 제공하는 24개 약물에 대한 504개 암세포주의 약물 반응성 정보(C 정보)(16)로 데이터 세트를 구성한다. 약물정보는 모두 min-max normalization을 통해 0과 1 사이의 값으로 변환한다. 돌연변이 정보(12a)와 약물 화합물 특징 정보(14)가 입력 데이터로 활용되고, 8,727개(약 9K에 해당)의 ln(IC50) 실험 값이 출력 데이터로 활용된다. 입력 데이터의 총 피처 수는 23,538개이며, 이 데이터 세트를 9:1 비율로 각각 훈련용 데이터와 학습용 데이터로 구분한다.
도 12에 도시된 실시 예에서, 머신러닝 모델(24)은 lasso, ridge, random forest, SVR 및 XGBoost를 사용하였으며, 딥러닝 모델(22)은 ResNet, CNN을 사용하였다.
본 발명의 일 실시 예에 따른 MDC-9K(10e)의 데이터 세트에 대한 실험 결과는 도 12를 참조하면, 전체적으로 머신러닝 모델(24)이 딥러닝 모델(22)보다 성능이 우월함을 확인할 수 있으며, 특히 lasso, ridge, XGBoost 모델이 타 모델에 비해 좋은 성능을 보여주었음을 확인할 수 있다.
<실험 예 6> MC-9K
도 13은 본 발명의 일 실시 예에 있어서 (f) 돌연변이 정보(12a), CCLE 제공 데이터(16b) 및 9K (즉, MC-9K)(10f) 데이터 세트로 각각의 인공지능 모델을 수행한 경우 약물 반응성 예측 정확도를 평가한 실험 결과를 나타내는 그래프로서, MC-9K(10f)의 테스트 데이터를 통해 얻은 ln(IC50) 실험값과 예측값 간의 산점도이다.
도 13에 도시된 실시 예에서, 머신러닝 모델(24)은 lasso, ridge, random forest, SVR 및 XGBoost를 사용하였으며, 딥러닝 모델(22)은 ResNet, CNN을 사용하였다.
본 발명의 일 실시 예에 따른 MC-9K(10f)의 데이터 세트에 대한 실험 결과는 도 13을 참조하면, 모든 모델에서 성능이 좋지 않다는 것을 확인할 수 있다.
이러한 실험 결과는 EC-11K(10d)를 사용한 실험 예 4의 경우와 실질적으로 동일하며, 좋은 성능을 갖춘 약물 반응성 예측 모델 생성을 위해서는 약물 화합물 특징 정보(D 정보)(14)가 데이터 세트에 포함되어야 함을 의미한다.
상술한 실험 예들 외에도 데이터 세트 구성에 다양한 변화를 주어 실무에 더욱 적합한 약물 반응성 예측 모델을 제공할 수 있다.
본 발명의 또 다른 실시 예에 의하면, MDG-160K(10a) 데이터 세트를 기반으로 사전에 획득한 돌연변이 정보(M 정보)(12a)에 나타난 여러 유전자에 대한 돌연변이 위치 중에서 실무적으로 환자의 돌연변이 정보를 확인하기 위한 200여개의 유전자 정보에 대한 돌연변이 위치 정보들만 재구성하여 새로운 돌연변이 정보를 형성한다. 형성된 새로운 돌연변이 정보는 8,181개에 대한 돌연변이 위치 정보를 포함하며 이를 기반으로 새로운 MDG 약물 반응성 예측 모델 학습 데이터를 구축한다. 상술한 실험 예들과 마찬가지로 이 데이터 세트는 9:1 비율로 각각 훈련용 데이터와 학습용 데이터로 구분한다.
이 경우, 머신러닝 모델(24)은 ridge, 딥러닝 모델(22)은 ResNet을 사용하였으며, 실험 결과는 ridge에서의 예측 성능이 더 좋다는 것을 확인할 수 있다.
본 발명의 일 실시 예에 있어서, 생성된 약물 반응성 예측 모델에 기반하여 새로운 약물에 대한 암세포의 약물 반응성을 확인할 수 있으며, 이를 통해 신약을 발굴하는 목적을 달성할 수 있다.
도 14는 본 발명의 일 실시 예에 따른 새로운 약물에 대한 암세포의 약물 반응성 예측을 수행하여 정리한 데이터 중 일부를 나타낸 도면이다.
보다 상세하게는, 도 14를 참조하면, 새로운 10개의 약물(도 14 Drug 열의 Drug A-J)이 30종류의 암세포주(812개의 암세포)에 처리되었을 때의 약물 반응성 예측을 통해 812개 암세포주의 돌연변이 정보(12a)와 10개 약물의 약물 화합물 특징 정보(14)를 MDG-160K를 통해 구축된 ResNet 약물 반응성 예측 모델에 입력하여 812개 암세포주에 처리된 10개의 약물에 대한 약물 반응성 예측값을 얻음으로써, 새로운 10개의 약물과 반응성이 좋은 암종 및 암세포주를 선별하게 된다.
그 결과, 각각의 약물에 대해 가장 약물 반응성이 좋은 암종을 예측 가능하고, 이를 기반으로 각 약물의 특징 및 표적 유전자를 이용하여 약물 기전을 추가적으로 연구하여 신약 발굴을 진행할 수 있다.
본 발명의 일 실시 예에 있어서 신약 발굴 외에도 약물 재배치(drug repositioning)와 같이 기존 약물들 중 항암제로 활용 가능한 약물들을 새롭게 선별할 수도 있다.
도 15 및 도 16은 본 발명의 일 실시 예에 따른 약물 반응성 예측 모델을 통해 암환자들의 약물 반응성을 예측한 데이터 중 일부를 나타낸 도면이다.
도 15에 도시된 본 발명의 일 실시 예에서는, MDG-160K의 데이터 세트로 ResNet 모델을 수행하여 생성된 약물 반응성 예측 모델을 통해 유방암 환자들의 약물 반응성을 확인하였다. 참고로, 유방암 환자들의 데이터는 TCGA(The Cancer Genome Atlas)에서 수집하였다.
보다 구체적으로, 환자 77명의 돌연변이 정보를 수집하였고, 이 환자들에 대해 4개의 약물(Docetaxel, Doxorubicin, Gemcitabine, Paclitaxel)에 대한 약물 반응성을 딥러닝 기반의 ResNet 모델을 통해 예측하였으며, 이에 대한 비교를 위해 환자들에 대해 본 약물들을 실제 투여했을 때의 약물 반응성 기록도 비교 자료로서 수집하였다. 참고로, 77명의 환자들 중 29명에게는 Docetaxel을, 다른 29명에게는 Doxorubicin을, 18명에게는 Paclitaxel을, 1명에게는 Gemcitabine을 투여 하였다.
각각의 환자들에 대한 돌연변이 정보(M 정보)(12a) 및 4가지 약물의 화합물 특징 정보(D 정보)(14)를 ResNet에 입력하여 얻은 약물 반응성 예측 결과 값, 즉, ln(IC50) 값이 0.693 미만일 때 Responder, 그 외의 경우를 Non-responder로 분류하였다.
그 결과, 환자들에 대해 실험 대상 약물들을 실제 투여했을 때의 약물 반응성 기록과 비교하여 하기 표 1과 같이 대상 환자 77명 중 75명에 대한 약물 반응성 예측에 성공한 바 약물 반응성 예측의 정확도는 97%임을 확인하였다.
Prediction
Responder Non-responder
Clinical follow-up Responder 75 0
Non-responder 2 0
도 16에 도시된 본 발명의 일 실시 예에서는, EDC-11K의 데이터 세트로 ResNet 모델을 수행하여 생성된 약물 반응성 예측 모델을 통해 위암 환자들의 약물 반응성을 확인하였다. 참고로, 위암 환자들의 데이터는 TCGA(The Cancer Genome Atlas)에서 수집하였다.
보다 구체적으로, 위암 환자들의 유전자 발현 정보(12b)와 6개의 약물(Paclitaxel, 17-AAG, Panobinostat, LBW242, Sorafenib, PLX4720)에 대한 약물 반응성을 딥러닝 기반의 ResNet 모델을 통해 예측한 결과로서, 이를 통해 해당 위암 환자들에 대한 처방 약물로 상기 6개의 약물 중에서 Paclitaxel, 17-AAG, Panobinostat이 추천되는 것을 확인할 수 있다.
지금까지 살펴본 바와 같이, 본 발명의 실시 예에 따른 인공지능 기반 약물 반응성 예측 장치 및 방법은 인공지능 수행 여건에 따라 데이터 세트의 조합된 정보 구성 및 크기에 기반하여 인공지능 모델의 선택이 가능하여 인공지능 기반의 약물 반응성 예측에 있어서 정확도 높은 결과를 얻을 수 있으며, 인공지능 모델을 수행할 데이터 양이 적은 경우나 인공지능 장비 구축 비용에 대한 충분한 투자가 불가능하거나 긴 학습 시간을 감당하기 힘든 현실적 여건 하에서도 약물 반응성 예측에 있어서 정확도 높은 결과를 얻을 수 있는 효과를 제공한다.
다양한 변형예가 본 발명의 범위를 벗어남이 없이 본 명세서에 기술되고 예시된 구성 및 방법으로 만들어질 수 있으므로, 상기 상세한 설명에 포함되거나 첨부 도면에 도시된 모든 사항은 예시적인 것으로 본 발명을 제한하기 위한 것이 아니다. 따라서, 본 발명의 범위는 상술한 예시적인 실시예에 의해 제한되지 않으며, 이하의 청구 범위 및 그 균등물에 따라서만 정해져야 한다.
10: 데이터 세트 10a: MDG-160K
10b: EDC-11K 10c: EYDC-9K
10d: EC-11K 10e: MDC-9K
10f: MC-9K 12: 유전 정보
14: 약물 화합물 특징 정보 16: 약물 반응성 정보
20,20a: 인공지능 모델 20b: 선택된 인공지능 모델
22: 딥러닝 모델 24: 머신러닝 모델
50: 제어부 52: 입력부
54: 저장부 56: 출력부

Claims (14)

  1. 약물 반응성 예측 방법에 있어서,
    데이터 세트를 형성하는 단계;
    상기 데이터 세트를 기반으로 인공지능 모델을 선택하는 단계;
    상기 데이터 세트로 상기 선택된 인공지능 모델을 수행하여 약물 반응성 예측 모델을 생성하는 단계;
    환자 정보 및 투여 약물 정보를 수신하는 단계; 및
    상기 환자 정보 및 상기 투여 약물 정보로 상기 약물 반응성 예측 모델을 수행하여 환자에 대한 약물 반응성 수치를 산출하는 단계
    를 포함하고,
    상기 데이터 세트는 유전 정보 및 약물 화합물 특징 정보 중 적어도 하나의 정보 및 약물 반응성 정보의 조합으로 구성되며,
    상기 인공지능 모델의 선택은 상기 데이터 세트의 조합된 정보의 구성 및 상기 데이터 세트의 데이터 크기를 기반으로 이루어지는 것을 특징으로 하는 약물 반응성 예측 방법.
  2. 제1항에 있어서,
    상기 인공지능 모델은 딥러닝 모델 및 머신러닝 모델을 포함하는 것을 특징으로 하는 약물 반응성 예측 방법.
  3. 제2항에 있어서,
    상기 딥러닝 모델은 ResNet 및 CNN 중 적어도 하나를 포함하고, 상기 머신러닝 모델은 ridge, lasso, SVR, random forest 및 XGBoost 중 적어도 하나를 포함하는 것을 특징으로 하는 약물 반응성 예측 방법.
  4. 제1항에 있어서,
    상기 유전 정보는 돌연변이 정보, 유전자 발현 정보 및 DNA 메틸화 정보 중 적어도 하나를 포함하는 것을 특징으로 하는 약물 반응성 예측 방법.
  5. 제1항에 있어서,
    상기 약물 화합물 특징 정보는 파델 화합물 정보(PaDEL chemical descriptor)인 것을 특징으로 하는 약물 반응성 예측 방법.
  6. 제1항에 있어서,
    상기 약물 반응성 정보는 약물 유전체 공개 데이터베이스인 GDSC(Genomics of Drug Sensitivity in Cancer) 또는 CCLE(Cancer Cell Line Encyclopedia)에서 제공되는 IC50 데이터인 것을 특징으로 하는 약물 반응성 예측 방법.
  7. 제1항에 있어서,
    상기 유전 정보는 돌연변이 정보, 유전자 발현 정보 및 DNA 메틸화 정보 중 적어도 하나를 포함하고, 상기 약물 반응성 정보는 약물 유전체 공개 데이터베이스인 GDSC 또는 CCLE에서 제공되는 IC50 데이터이며,
    상기 데이터 세트의 조합된 정보의 구성 및 상기 데이터 세트의 데이터 크기는
    (a) 상기 돌연변이 정보, 상기 약물 화합물 특징 정보, 상기 GDSC 제공 데이터 및 160K
    (b) 상기 유전자 발현 정보, 상기 약물 화합물 특징 정보, 상기 CCLE 제공 데이터 및 11K
    (c) 상기 유전자 발현 정보, 상기 DNA 메틸화 정보, 상기 약물 화합물 특징 정보, 상기 CCLE 제공 데이터 및 9K
    (d) 상기 유전자 발현 정보, 상기 CCLE 제공 데이터 및 11K
    (e) 상기 돌연변이 정보, 상기 약물 화합물 특징 정보, 상기 CCLE 제공 데이터 및 9K
    (f) 상기 돌연변이 정보, 상기 CCLE 제공 데이터 및 9K
    를 포함하는 것을 특징으로 하는 약물 반응성 예측 방법.
  8. 약물 반응성 예측 장치에 있어서,
    환자 정보 및 투여 약물 정보를 수신하는 입력부;
    데이터 세트를 형성하고, 상기 데이터 세트를 기반으로 인공지능 모델을 선택하여, 상기 데이터 세트로 상기 선택된 인공지능 모델을 수행하여 약물 반응성 예측 모델을 생성하며, 상기 환자 정보 및 상기 투여 약물 정보를 사용하여 상기 약물 반응성 예측 모델을 수행하여 환자에 대한 약물 반응성 수치를 산출하는 제어부;
    상기 생성된 약물 반응성 예측 모델을 저장하는 저장부; 및
    상기 산출된 환자에 대한 약물 반응성 수치를 표시하는 출력부
    를 포함하고,
    상기 데이터 세트는 유전 정보 및 약물 화합물 특징 정보 중 적어도 하나의 정보 및 약물 반응성 정보의 조합으로 구성되며,
    상기 인공지능 모델의 선택은 상기 데이터 세트의 조합된 정보의 구성 및 상기 데이터 세트의 데이터 크기를 기반으로 이루어지는 것을 특징으로 하는 약물 반응성 예측 장치.
  9. 제8항에 있어서,
    상기 인공지능 모델은 딥러닝 모델 및 머신러닝 모델을 포함하는 것을 특징으로 하는 약물 반응성 예측 장치.
  10. 제9항에 있어서,
    상기 딥러닝 모델은 ResNet 및 CNN 중 적어도 하나를 포함하고, 상기 머신러닝 모델은 ridge, lasso, SVR, random forest 및 XGBoost 중 적어도 하나를 포함하는 것을 특징으로 하는 약물 반응성 예측 장치.
  11. 제8항에 있어서,
    상기 유전 정보는 돌연변이 정보, 유전자 발현 정보 및 DNA 메틸화 정보 중 적어도 하나를 포함하는 것을 특징으로 하는 약물 반응성 예측 장치.
  12. 제8항에 있어서,
    상기 약물 화합물 특징 정보는 파델 화합물 정보(PaDEL chemical descriptor)인 것을 특징으로 하는 약물 반응성 예측 장치.
  13. 제8항에 있어서,
    상기 약물 반응성 정보는 약물 유전체 공개 데이터베이스인 GDSC(Genomics of Drug Sensitivity in Cancer) 또는 CCLE(Cancer Cell Line Encyclopedia)에서 제공되는 IC50 데이터인 것을 특징으로 하는 약물 반응성 예측 장치.
  14. 제8항에 있어서,
    상기 유전 정보는 돌연변이 정보, 유전자 발현 정보 및 DNA 메틸화 정보 중 적어도 하나를 포함하고, 상기 약물 반응성 정보는 약물 유전체 공개 데이터베이스인 GDSC 또는 CCLE에서 제공되는 IC50 데이터이며,
    상기 데이터 세트의 조합된 정보의 구성 및 상기 데이터 세트의 데이터 크기는
    (a) 상기 돌연변이 정보, 상기 약물 화합물 특징 정보, 상기 GDSC 제공 데이터 및 160K
    (b) 상기 유전자 발현 정보, 상기 약물 화합물 특징 정보, 상기 CCLE 제공 데이터 및 11K
    (c) 상기 유전자 발현 정보, 상기 DNA 메틸화 정보, 상기 약물 화합물 특징 정보, 상기 CCLE 제공 데이터 및 9K
    (d) 상기 유전자 발현 정보, 상기 CCLE 제공 데이터 및 11K
    (e) 상기 돌연변이 정보, 상기 약물 화합물 특징 정보, 상기 CCLE 제공 데이터 및 9K
    (f) 상기 돌연변이 정보, 상기 CCLE 제공 데이터 및 9K
    를 포함하는 것을 특징으로 하는 약물 반응성 예측 장치.
KR1020200142875A 2020-10-30 2020-10-30 인공지능 기반 약물 반응성 예측 장치 및 방법 KR102532095B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200142875A KR102532095B1 (ko) 2020-10-30 2020-10-30 인공지능 기반 약물 반응성 예측 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200142875A KR102532095B1 (ko) 2020-10-30 2020-10-30 인공지능 기반 약물 반응성 예측 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20220057821A true KR20220057821A (ko) 2022-05-09
KR102532095B1 KR102532095B1 (ko) 2023-05-15

Family

ID=81582255

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200142875A KR102532095B1 (ko) 2020-10-30 2020-10-30 인공지능 기반 약물 반응성 예측 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102532095B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102456208B1 (ko) * 2022-06-08 2022-10-19 주식회사 원스글로벌 의약품 부작용 예측을 기반으로 한 의약품 부작용 관리 시스템 제공 방법 및 이러한 방법을 수행하는 장치
KR102456205B1 (ko) * 2022-06-03 2022-10-19 주식회사 원스글로벌 의약품 부작용 예측 방법 및 이러한 방법을 수행하는 장치
WO2023229239A1 (ko) * 2022-05-24 2023-11-30 차의과학대학교 산학협력단 백신 대상자 변수 정보 기반의 인공지능 학습 모델을 이용한 백신 부작용 예측 분석 방법 및 그 장치

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101953762B1 (ko) 2017-09-25 2019-03-04 (주)신테카바이오 이종 특성정보 병합 데이터 기반 인공지능 딥러닝 모델을 이용한 약물 적응증 및 반응 예측 시스템 및 방법
KR20200023689A (ko) * 2018-08-20 2020-03-06 아주대학교산학협력단 인공지능 기반의 약물유해반응 탐지 방법 및 그 시스템
KR20200082490A (ko) * 2018-12-28 2020-07-08 사단법인 한국인지과학산업협회 기계 학습 데이터 선택 방법 및 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101953762B1 (ko) 2017-09-25 2019-03-04 (주)신테카바이오 이종 특성정보 병합 데이터 기반 인공지능 딥러닝 모델을 이용한 약물 적응증 및 반응 예측 시스템 및 방법
KR20200023689A (ko) * 2018-08-20 2020-03-06 아주대학교산학협력단 인공지능 기반의 약물유해반응 탐지 방법 및 그 시스템
KR20200082490A (ko) * 2018-12-28 2020-07-08 사단법인 한국인지과학산업협회 기계 학습 데이터 선택 방법 및 장치

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023229239A1 (ko) * 2022-05-24 2023-11-30 차의과학대학교 산학협력단 백신 대상자 변수 정보 기반의 인공지능 학습 모델을 이용한 백신 부작용 예측 분석 방법 및 그 장치
KR102456205B1 (ko) * 2022-06-03 2022-10-19 주식회사 원스글로벌 의약품 부작용 예측 방법 및 이러한 방법을 수행하는 장치
KR102456208B1 (ko) * 2022-06-08 2022-10-19 주식회사 원스글로벌 의약품 부작용 예측을 기반으로 한 의약품 부작용 관리 시스템 제공 방법 및 이러한 방법을 수행하는 장치

Also Published As

Publication number Publication date
KR102532095B1 (ko) 2023-05-15

Similar Documents

Publication Publication Date Title
KR102532095B1 (ko) 인공지능 기반 약물 반응성 예측 장치 및 방법
US11769572B2 (en) Method and process for predicting and analyzing patient cohort response, progression, and survival
Nguyen et al. Graph convolutional networks for drug response prediction
US20140278130A1 (en) Method of predicting toxicity for chemical compounds
Cosgun et al. High-dimensional pharmacogenetic prediction of a continuous trait using machine learning techniques with application to warfarin dose prediction in African Americans
JP2020522794A (ja) ニューラルネットワーク分類
Qu et al. Visual analytics of genomic and cancer data: a systematic review
Liu et al. Statistical methods for analyzing tissue microarray data
Maity et al. Bayesian data integration and variable selection for pan-cancer survival prediction using protein expression data
US20200227134A1 (en) Drug Efficacy Prediction for Treatment of Genetic Disease
Shafi et al. GSMA: an approach to identify robust global and test Gene Signatures using Meta-Analysis
Butte et al. Relevance networks: a first step toward finding genetic regulatory networks within microarray data
Carré et al. Reverse engineering highlights potential principles of large gene regulatory network design and learning
Nardini Machine learning in oncology: a review
US20240087747A1 (en) Method and process for predicting and analyzing patient cohort response, progression, and survival
Haussler et al. A million cancer genome warehouse
Bibi et al. Automated Machine Learning Analysis of Patients With Chronic Skin Disease Using a Medical Smartphone App: Retrospective Study
Hoellinger et al. Enhancer/gene relationships: Need for more reliable genome-wide reference sets
Kweon et al. Personal health information inference using machine learning on RNA expression data from patients with cancer: algorithm validation study
Polley Power estimation in biomarker studies where events are already observed
Shestopaloff et al. DCMD: Distance-based classification using mixture distributions on microbiome data
Hilbush In Silico Dreams: How Artificial Intelligence and Biotechnology Will Create the Medicines of the Future
Xu et al. A Bayes factor approach with informative prior for rare genetic variant analysis from next generation sequencing data
Gruca et al. Functional interpretation of gene sets: semantic-based clustering of gene ontology terms on the BioTest platform
Rischke et al. Machine learning identifies right index finger tenderness as key signal of DAS28-CRP based psoriatic arthritis activity

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant