KR102299221B1 - 기계 학습 기반의 예후 예측 방법 및 그 장치 - Google Patents

기계 학습 기반의 예후 예측 방법 및 그 장치 Download PDF

Info

Publication number
KR102299221B1
KR102299221B1 KR1020200169694A KR20200169694A KR102299221B1 KR 102299221 B1 KR102299221 B1 KR 102299221B1 KR 1020200169694 A KR1020200169694 A KR 1020200169694A KR 20200169694 A KR20200169694 A KR 20200169694A KR 102299221 B1 KR102299221 B1 KR 102299221B1
Authority
KR
South Korea
Prior art keywords
data
prognosis
patient group
learning
prognostic
Prior art date
Application number
KR1020200169694A
Other languages
English (en)
Inventor
김이랑
이용흔
심우광
구창대
조준희
Original Assignee
주식회사 온코크로스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 온코크로스 filed Critical 주식회사 온코크로스
Priority to KR1020200169694A priority Critical patent/KR102299221B1/ko
Application granted granted Critical
Publication of KR102299221B1 publication Critical patent/KR102299221B1/ko
Priority to PCT/KR2021/018330 priority patent/WO2022124724A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B10/00ICT specially adapted for evolutionary bioinformatics, e.g. phylogenetic tree construction or analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Primary Health Care (AREA)
  • Chemical & Material Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Pathology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Bioethics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Physiology (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

기계 학습 기반의 예후 예측 방법 및 그 장치가 제공된다. 본 개시의 몇몇 실시예들에 따른 예후 예측 방법은, 복수의 환자의 유전자발현데이터와 생존기간데이터를 포함하는 원본데이터를 획득하는 단계, 획득된 원본데이터를 전처리하여 학습데이터를 구성하는 단계, 구성된 학습데이터를 이용하여 예후예측모델을 구축하는 단계 및 예후예측모델을 이용하여 피검자의 예후를 예측하는 단계를 포함할 수 있다.

Description

기계 학습 기반의 예후 예측 방법 및 그 장치{METHOD FOR PREDICTING PROGNOSIS BASED ON MACHINE-LEARNING AND APPARATUS THEREOF}
본 개시는 기계 학습 기반의 예후 예측 방법 및 그 장치에 관한 것이다. 보다 자세하게는, 피검자의 예후를 예측할 수 있는 기계 학습(machine-learning) 모델을 구축하고, 구축된 모델을 이용하여 피검자의 예후를 예측하는 방법 및 그 방법을 수행하는 장치에 관한 것이다.
컴퓨팅 방법(computational method)과 생명정보학(bio-informatics)을 이용함으로써, 연구자들은 기존 화합물의 새로운 용도를 찾거나 신규 화합물의 용도를 예측할 수 있다. 이러한 방식은 신규 약제 발견에 많이 사용되고 있다.
신약 발견과 개발은 항상 많은 시간 및 비용을 필요로 하며, 복잡한 프로세스를 거치게 된다. 이에 따라, 최근에는 다른 분야의 학문, 예를 들면 생명정보학, 화학정보학(chemi-informatics), 컴퓨터 공학 및 CADD(computer-aided drug discovery/design) 등을 융합하여, 신약 발견과 개발에 드는 시간을 줄이고 그 효과를 높이려는 연구가 활발하게 이루어지고 있다.
하지만, 이러한 종래 기술은 규칙에 기반(rule-based)하므로, 인간이 인지하지 못하여 규칙을 정의할 수 없는 경우까지 예측하지는 못한다.
본 개시의 몇몇 실시예들을 통해 해결하고자 하는 기술적 과제는, 기계 학습(machine-learning) 모델을 이용하여 피검자의 예후를 정확하게 예측할 수 있는 방법 및 그 방법을 수행하는 장치를 제공하는 것이다.
본 개시의 몇몇 실시예들을 통해 해결하고자 하는 다른 기술적 과제는, 피검자의 예후를 정확하게 예측할 수 있는 기계 학습(machine-learning) 모델을 구축할 수 있는 방법 및 그 방법을 수행하는 장치를 제공하는 것이다.
본 개시의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 개시의 기술분야에서의 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
상기 기술적 과제를 해결하기 위한, 본 개시의 몇몇 실시예들에 따른 예후 예측 방법은, 컴퓨팅 장치에서 피검자의 예후를 예측하는 방법에 있어서, 복수의 환자의 유전자발현데이터와 생존기간데이터를 포함하는 원본데이터를 획득하는 단계, 상기 원본데이터를 전처리하여 학습데이터를 구성하는 단계, 상기 학습데이터를 이용하여 예후예측모델을 구축하는 단계 및 상기 예후예측모델을 이용하여 상기 피검자의 예후를 예측하는 단계를 포함할 수 있다. 이때, 상기 학습데이터를 구성하는 단계는, 상기 생존기간데이터를 이용하여 상기 복수의 환자를 제1 환자그룹과 제2 환자그룹으로 분류하는 단계 및 상기 제1 환자그룹의 유전자발현데이터에 제1 예후클래스를 레이블링(labeling)하고, 상기 제2 환자그룹의 유전자발현데이터에 제2 예후클래스를 레이블링하여 상기 학습데이터를 구성하는 단계를 포함할 수 있다.
몇몇 실시예들에서, 상기 생존기간데이터는 상기 환자의 전체생존기간에 관한 데이터를 포함하고, 상기 분류하는 단계는, 상기 복수의 환자를 사망 이벤트 발생 여부를 기준으로 사망 환자군과 비-사망 환자군으로 구분하는 단계, 상기 비-사망 환자군에서 상기 전체생존기간이 제1 기준치 이상인 환자를 상기 제1 환자그룹으로 분류하는 단계 및 상기 사망 환자군에서 상기 전체생존기간이 제2 기준치 이상인 환자를 상기 제1 환자그룹으로 분류하고 상기 제2 기준치보다 작은 제3 기준치 이하인 환자를 상기 제2 환자그룹으로 분류하는 단계를 포함할 수 있다.
몇몇 실시예들에서, 상기 생존기간데이터는 상기 환자의 무병생존기간에 관한 데이터를 포함하고, 상기 분류하는 단계는, 상기 복수의 환자를 재발 이벤트 발생 여부를 기준으로 재발 환자군과 비-재발 환자군으로 구분하는 단계, 상기 비-재발 환자군에서 상기 무병생존기간이 제1 기준치 이상인 환자를 상기 제1 환자그룹으로 분류하는 단계 및 상기 재발 환자군에서 상기 무병생존기간이 제2 기준치 이상인 환자를 상기 제1 환자그룹으로 분류하고 상기 제2 기준치보다 작은 제3 기준치 이하인 환자를 상기 제2 환자그룹으로 분류하는 단계를 포함할 수 있다.
몇몇 실시예들에서, 상기 유전자발현데이터는 리보솜 유전자, 미토콘드리아리보솜(mitoribosome) 유전자, 면역세포표면마커(CD marker) 유전자, 스플라이오솜(spliceosome) 유전자 및 tRNA 합성효소 유전자에 관한 발현 데이터를 포함할 수 있다.
상술한 기술적 과제를 해결하기 위한 본 개시의 몇몇 실시예들에 따른 예후 예측 장치는, 하나 이상의 인스트럭션들(instructions)을 저장하는 메모리 및 상기 저장된 하나 이상의 인스트럭션들을 실행시킴으로써, 복수의 환자의 유전자발현데이터와 생존기간데이터를 포함하는 원본데이터를 획득하는 동작, 상기 원본데이터를 전처리하여 학습데이터를 구성하는 동작, 상기 학습데이터를 이용하여 예후예측모델을 구축하는 동작 및 상기 예후예측모델을 이용하여 피검자의 예후를 예측하는 동작을 수행하는 프로세서를 포함할 수 있다. 이때, 상기 학습데이터를 구성하는 동작은, 상기 생존기간데이터를 이용하여 상기 복수의 환자를 제1 환자그룹과 제2 환자그룹으로 분류하는 동작 및 상기 제1 환자그룹의 유전자발현데이터에 제1 예후클래스를 레이블링(labeling)하고, 상기 제2 환자그룹의 유전자발현데이터에 제2 예후클래스를 레이블링하여 상기 학습데이터를 구성하는 동작을 포함할 수 있다.
상술한 기술적 과제를 해결하기 위한 본 개시의 몇몇 실시예들에 따른 컴퓨터 프로그램은, 컴퓨팅 장치와 결합되어, 복수의 환자의 유전자발현데이터와 생존기간데이터를 포함하는 원본데이터를 획득하는 단계, 상기 원본데이터를 전처리하여 학습데이터를 구성하는 단계, 상기 학습데이터를 이용하여 예후예측모델을 구축하는 단계 및 상기 예후예측모델을 이용하여 피검자의 예후를 예측하는 단계를 실행시키기 위하여 컴퓨터로 판독가능한 기록매체에 저장될 수 있다. 이때, 상기 학습데이터를 구성하는 단계는, 상기 생존기간데이터를 이용하여 상기 복수의 환자를 제1 환자그룹과 제2 환자그룹으로 분류하는 단계 및 상기 제1 환자그룹의 유전자발현데이터에 제1 예후클래스를 레이블링(labeling)하고, 상기 제2 환자그룹의 유전자발현데이터에 제2 예후클래스를 레이블링하여 상기 학습데이터를 구성하는 단계를 포함할 수 있다.
상술한 본 개시의 몇몇 실시예들에 따르면, 환자의 생존기간데이터를 이용하여 해당 환자의 유전자발현데이터에 예후클래스가 자동으로 레이블링(labeling)될 수 있다. 이에 따라, 양질의 학습데이터가 자동으로 구성될 수 있으며, 피검자의 유전자발현데이터로부터 질병의 예후를 정확하게 예측하는 예후예측모델이 용이하게 구축될 수 있다.
또한, 기계 학습(machine-learning)을 통해 예후예측모델이 구축될 수 있다. 이러한 예후예측모델은 인간이 정확하게 규명하기 어려운 유전자발현데이터와 예후 정보와의 관계를 탐지 및 학습함으로써, 피검자의 유전자발현데이터로부터 예후 정보를 정확하게 예측할 수 있다.
또한, 유전자발현데이터 외에 조직 이미지에서 나타나는 예후 관련 특징 등을 더 고려하여 예측을 수행하도록 예후예측모델이 학습될 수 있다. 이에 따라, 예후예측모델의 예측 정확도가 더욱 향상될 수 있다.
또한, 예후 정보와 연관된 리보솜 단백질의 발현 패턴이 탐지되고, 탐지된 발현 패턴을 포함하는 데이터 샘플에 대해서는 가중 학습이 이루어질 수 있다. 이러한 경우, 예후예측모델이 예후 정보와 연관된 리보솜 단백질의 발현 특징을 더욱 잘 학습하게 되므로, 예후예측모델의 예측 정확도가 더욱 향상될 수 있다.
본 개시의 기술적 사상에 따른 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 개시의 몇몇 실시예들에 따른 예후 예측 장치와 그의 입출력 데이터를 설명하기 위한 예시적인 도면이다.
도 2는 본 개시의 몇몇 실시예들에 따른 기계 학습 기반의 예후 예측 방법을 개략적으로 나타내는 예시적인 흐름도이다.
도 3 내지 도 7은 도 2에 도시된 학습데이터 구성 단계 S200의 세부 과정을 설명하기 위한 예시적인 도면이다.
도 8은 본 개시의 몇몇 실시예들에서 참조될 수 있는 인공 신경망의 구조를 예시한다.
도 9는 도 2에 도시된 예후예측모델 구축 단계 S300의 세부 과정을 설명하기 위한 예시적인 도면이다.
도 10은 본 개시의 제1 실시예에 따른 예후예측모델의 세부 구조 및 학습 방법을 설명하기 위한 예시적인 도면이다.
도 11은 본 개시의 제2 실시예에 따른 예후예측모델의 세부 구조 및 학습 방법을 설명하기 위한 예시적인 도면이다.
도 12 내지 도 14는 본 개시의 제3 실시예에 따른 예후예측모델의 세부 구조 및 학습 방법을 설명하기 위한 예시적인 도면이다.
도 15는 본 개시의 제1 실시예에 따른 가중 학습 방법을 설명하기 위한 예시적인 도면이다.
도 16 및 도 17은 본 개시의 제2 실시예에 따른 가중 학습 방법을 설명하기 위한 예시적인 도면이다.
도 18 및 도 19는 본 개시의 몇몇 실시예들에 따른 대상 질병의 예후예측모델 결정 방법을 설명하기 위한 예시적인 도면이다.
도 20은 본 개시의 몇몇 실시예들에 따른 복수 유전자의 발현데이터에 기반한 예후예측모델의 세부 구조 및 학습 방법을 설명하기 위한 예시적인 도면이다.
도 21은 본 개시의 몇몇 실시예들에 따른 예후 예측 장치를 구현할 수 있는 예시적인 컴퓨팅 장치를 도시한다.
이하, 첨부된 도면을 참조하여 본 개시의 바람직한 실시예들을 상세히 설명한다. 본 개시의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 개시의 기술적 사상은 이하의 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 이하의 실시예들은 본 개시의 기술적 사상을 완전하도록 하고, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 본 개시의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 개시의 기술적 사상은 청구항의 범주에 의해 정의될 뿐이다.
각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 개시를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 개시의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다. 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 개시를 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다.
또한, 본 개시의 구성요소를 설명하는 데 있어서, 제1, 제2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성요소를 다른 구성요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 어떤 구성요소가 다른 구성요소에 "연결", "결합" 또는 "접속"된다고 기재된 경우, 그 구성요소는 그 다른 구성요소에 직접적으로 연결되거나 또는 접속될 수 있지만, 각 구성요소 사이에 또 다른 구성요소가 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다.
본 개시에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
이하, 본 개시의 다양한 실시예들에 대하여 첨부된 도면에 따라 상세하게 설명한다.
도 1은 본 개시의 몇몇 실시예들에 따른 예후 예측 장치(10)와 입출력 데이터를 설명하기 위한 예시적인 도면이다.
도 1에 도시된 바와 같이, 예후 예측 장치(10)는 피검자의 유전자발현데이터 등과 같은 입력 데이터를 토대로 피검자의 예후정보를 예측하여 출력하는 컴퓨팅 장치일 수 있다. 여기서, 컴퓨팅 장치는 노트북, 데스크톱(desktop), 랩탑(laptop) 등이 될 수 있으나, 이에 국한되는 것은 아니며 컴퓨팅 기능이 구비된 모든 종류의 장치를 포함할 수 있다. 컴퓨팅 장치의 일 예시에 관하여서는 도 21을 참조하도록 한다. 이하에서는, 설명의 편의상, 예후 예측 장치(10)를 "예측 장치(10)"로 약칭하도록 한다.
보다 구체적으로, 예측 장치(10)는 대상 질병(e.g. 암)에 걸린 환자들의 유전자발현데이터와 예후정보를 학습하여 예후예측모델을 구축하고, 구축된 예후예측모델을 이용하여 피검자의 예후를 예측할 수 있다. 예후예측모델을 구축하는 자세한 방법에 관하여서는 추후 도 2 이하의 도면을 참조하여 상세하게 설명하도록 한다. 이하에서는, 대상 질병이 암(cancer)인 것을 가정하여 설명을 이어가도록 한다. 다만, 본 개시의 범위가 이에 한정되는 것은 아니다.
예후예측모델은 예를 들어 신경망(neural network) 모델에 기초하여 구현될 수 있다. 그러나, 본 개시의 범위가 이에 한정되는 것은 아니며, 예후예측모델은 결정 트리(decision tree), 서포트 벡터 머신(support vector machine), 로지스틱 회귀(logistic regression) 등과 같은 전통적인 기계 학습 모델에 기초하여 구현될 수도 있다. 또한, 신경망 모델은 인공 신경망(artificial neural networks; ANN), 컨볼루션 신경망(convolutional neural networks; CNN), 순환 신경망(recurrent neural networks; RNN) 또는 이들의 조합 등과 같이 다양한 종류의 신경망을 포함할 수 있다. 이하에서는, 설명의 편의상, "예후예측모델"을 "예측모델"로 약칭하도록 한다.
유전자발현데이터는 유전자로부터 발현되는 mRNA 및/또는 단백질 등에 관한 데이터로서, 예를 들어 단백질의 발현 비율, 발현 위치, 발현 분포 등에 관한 데이터를 포함할 수 있다. 그러나, 이에 한정되는 것은 아니다. 또한, 상기 유전자는 예를 들어 리보솜 유전자, 미토콘드리아리보솜(mitoribosome) 유전자, 면역세포표면마커(CD marker) 유전자, 스플라이오솜(spliceosome) 유전자, tRNA 합성효소 유전자 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.
보다 구체적인 예로서, 유전자의 종류가 리보솜 유전자인 경우, 유전자발현데이터는 리보솜 단백질의 발현 비율, 발현 위치, 발현 분포, 리보솜을 구성하는 대형 서브유닛(large sub unit; LSU)과 소형 서브유닛(small sub unit; SSU) 간의 단백질 발현 비율, 발현량(또는 발현 비율)이 기준치 이상(또는 이하)인 리보솜 단백질의 종류/개수, 특정 사이트(site; e.g. E, P, A site) 주변의 단백질 종류 또는 단백질 발현 비율, 이들로부터 가공된 데이터 등을 포함할 수 있다. 그러나, 이에 한정되는 것은 아니다.
예후정보는 예측모델의 예측 대상으로서, 예를 들어 예후의 좋고 나쁨(good/poor), 전체생존기간(overall survival; OS), 무병생존기간(relapse free survival; RFS) 또는 이들로부터 가공된 정보를 포함할 수 있다. 그러나, 이에 한정되는 것은 아니다.
몇몇 실시예들에서는, 예측 장치(10)는 환자의 조직데이터를 더 이용하여 예측모델을 구축할 수 있고, 피검자의 예후를 예측하기 위해 피검자의 조직데이터를 더 입력받을 수 있다. 여기서, 조직데이터는 예를 들어 조직의 종류, 조직 관련 이미지, 병변 정보 또는 이들로부터 가공된 데이터 등을 포함할 수 있다. 그러나, 이에 한정되는 것은 아니다.
예측 장치(10)의 구체적인 동작에 관하여서는 추후 도 2 이하의 도면을 참조하여 상세하게 설명하도록 한다.
한편, 도 1은 예측 장치(10)가 하나의 컴퓨팅 장치로 구현된 것을 예로써 도시하고 있으나, 예측 장치(10)는 복수의 컴퓨팅 장치로 구현될 수도 있다. 이러한 경우, 예측 장치(10)의 제1 기능은 제1 컴퓨팅 장치에서 구현되고, 제2 기능은 제2 컴퓨팅 장치에서 구현될 수 있다. 또는, 예측 장치(10)의 특정 기능이 복수의 컴퓨팅 장치에서 구현될 수도 있다.
지금까지 도 1을 참조하여 본 개시의 몇몇 실시예들에 따른 예측 장치(10)와 입출력 데이터에 대하여 간략하게 설명하였다. 이하에서는, 도 2 이하의 도면을 참조하여 본 개시의 몇몇 실시예들에 따른 기계 학습 기반의 예후 예측 방법에 관하여 설명하도록 한다.
이하에서 후술될 예후 예측 방법의 각 단계는 컴퓨팅 장치에 의해 수행될 수 있다. 다시 말하면, 상기 방법의 각 단계는 컴퓨팅 장치의 프로세서에 의해 실행되는 하나 이상의 인스트럭션들로 구현될 수 있다. 상기 방법에 포함되는 모든 단계는 하나의 물리적인 컴퓨팅 장치에 의하여 실행될 수도 있을 것이나, 복수의 물리적인 컴퓨팅 장치에 의해 분산되어 실행될 수도 있다. 예를 들면, 상기 방법의 제1 단계들은 제1 컴퓨팅 장치에 의하여 수행되고, 상기 방법의 제2 단계들은 제2 컴퓨팅 장치에 의하여 수행될 수도 있다. 이하에서는, 상기 방법의 각 단계가 도 1에 예시된 예측 장치(10)에 의해 수행되는 것을 가정하여 설명을 이어가도록 한다. 따라서, 이하의 설명에서 각 동작의 주어가 생략된 경우, 상기 예시된 장치(10)에 의하여 수행되는 것으로 이해될 수 있다. 다만, 경우에 따라, 상기 예후 예측 방법의 일부 단계는 별도의 컴퓨팅 장치에서 수행될 수도 있다.
도 2는 본 개시의 몇몇 실시예들에 따른 기계 학습 기반의 예후 예측 방법을 개략적으로 나타내는 예시적인 흐름도이다. 단, 이는 본 개시의 목적을 달성하기 위한 바람직한 실시예일뿐이며, 필요에 따라 일부 단계가 추가되거나 삭제될 수 있음은 물론이다.
도 2에 도시된 바와 같이, 상기 예후 예측 방법은 원본데이터(셋)를 획득하는 단계 S100에서 시작될 수 있다. 여기서, 원본데이터는 전처리가 수행되지 않는 데이터를 의미하고, 상기 전처리는 데이터의 가공, 확장(augmentation), 선별, 레이블링(labeling) 등과 같이 학습 전에 수행될 수 있는 각종 처리를 포함할 수 있다.
구체적으로, 원본데이터는 대상암(target cancer)에 걸린 복수의 환자에 대한 유전자발현데이터와 생존기간데이터를 포함할 수 있다. 또한, 생존기간데이터는 예를 들어 전체생존기간과 무병생존기간에 관한 데이터를 포함할 수 있다.
대상암은 예를 들어 유방암(breast cancer), 대장암(colon cancer), 위암(gastric cancer), 간암(liver cancer), 폐암(lung cancer) 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.
단계 S200에서, 원본데이터를 전처리하여 학습데이터(셋)가 구성될 수 있다. 구체적으로, 도 3에 예시된 바와 같이, 생존기간(e.g. OS, RFS)에 관한 데이터를 이용하여 복수의 환자의 유전자발현데이터(21)가 제1 환자그룹의 유전자발현데이터(22)와 제2 환자그룹의 유전자발현데이터(23)로 분류될 수 있다. 또한 제1 환자그룹의 유전자발현데이터(22)에 제1 예후클래스(e.g. good)가 레이블링되고, 제2 환자그룹의 유전자발현데이터(23)에 제2 예후클래스(e.g. poor)가 레이블링될 수 있다. 이하에서는, 이해의 편의를 제공하기 위해, 예후클래스가 2개의 클래스로 정의되어 있고, 제1 예후클래스가 좋은(good) 예후를 나타내는 클래스이고 제2 예후클래스가 불량한(poor) 예후를 나타내는 클래스인 것을 가정하여 설명을 이어가도록 한다. 다만, 본 개시의 범위가 이에 한정되는 것은 아니며, 예후클래스는 셋 이상의 다중 클래스로 정의될 수도 있음은 물론이다.
복수의 환자를 서로 다른 예후클래스의 환자그룹으로 분류하는 구체적인 방식은 다양할 수 있으며, 이는 실시예에 따라 달라질 수 있다.
몇몇 실시예들에서는, 사망, 재발 등의 이벤트 발생 여부를 기준으로 복수의 환자를 이벤트 발생군과 미-발생군으로 구분하고, 환자의 생존기간 데이터를 이용하여 각 군에서 제1 예후클래스 또는 제2 예후클래스로 분류될 환자가 선별될 수 있다. 보다 이해의 편의를 제공하기 위해, 도 4 내지 도 7을 참조하여 본 실시예에 대하여 부연 설명하도록 한다.
도 4는 유방암 환자의 전체생존기간(OS) 분포를 사망 이벤트 발생 여부를 기준으로 구분하여 도시하고 있다. 구체적으로, 우측은 사망 이벤트가 발생한 사망 환자군의 전체생존기간을 나타내고, 좌측은 사망 이벤트가 발생하지 않은 비-사망 환자군의 전체생존기간을 나타내고 있다.
도 4를 참조하면, 사망 환자군에서 전체생존기간이 제1 기준치 이하(e.g. 하위 25%)인 환자가 제2 예후클래스로 분류될 수 있다(영역 31 참조). 전체생존기간이 짧다는 것은 그만큼 예후가 좋지 않은 것을 의미하기 때문이다. 또한, 사망 환자군에서 전체생존기간이 제2 기준치(단, 제1 기준치보다 큰 값) 이상(e.g. 상위 25%, 50% 등)인 환자가 제1 예후클래스로 분류될 수 있다(영역 32 참조). 전체생존기간이 길다는 것은 그만큼 예후가 좋다는 것을 의미하기 때문이다. 또한, 비-사망 환자군에서 전체 생존기간이 제3 기준치 이상(e.g. 상위 25%, 50% 등)인 환자도 제1 예후클래스로 분류될 수 있다(영역 32 참조). 도 4는 상기 제2 기준치와 상기 제3 기준치가 동일하게 설정된 경우를 예로써 도시하고 있으나, 제2 기준치와 제3 기준치는 서로 다른 값으로 설정될 수도 있다.
다음으로, 도 5는 유방암 환자의 무병생존기간(RFS) 분포를 재발 이벤트 발생 여부를 기준으로 구분하여 도시하고 있다. 구체적으로, 우측은 재발 이벤트가 발생한 재발 환자군의 무병생존기간을 나타내고, 좌측은 재발 이벤트가 발생하지 않은 비-재발 환자군의 무병생존기간을 나타내고 있다.
도 5를 참조하면, 재발 환자군에서 무병생존기간이 제1 기준치 이하(e.g. 하위 25%)인 환자가 제2 예후클래스로 분류될 수 있다(영역 33 참조). 무병생존기간이 짧다는 것은 그만큼 예후가 좋지 않은 것을 의미하기 때문이다. 또한, 재발 환자군에서 무병생존기간이 제2 기준치(단, 제1 기준치보다 큰 값) 이상(e.g. 상위 25%, 50% 등)인 환자가 제1 예후클래스로 분류될 수 있다(영역 34 참조). 무병생존기간이 길다는 것은 그만큼 예후가 좋다는 것을 의미하기 때문이다. 또한, 비-재발 환자군에서 전체 생존기간이 제3 기준치 이상(e.g. 상위 25%, 50% 등)인 환자도 제1 예후클래스로 분류될 수 있다(영역 34 참조). 도 5는 상기 제2 기준치와 상기 제3 기준치가 동일하게 설정된 경우를 예로써 도시하고 있으나, 제2 기준치와 제3 기준치는 서로 다른 값으로 설정될 수도 있다.
도 6 및 도 7은 각각 대장암과 위암 환자의 전체생존기간 분포를 사망 이벤트 발생 여부를 기준으로 구분하여 도시하고 있다. 다른 종류의 암에 대해서도 동일한 방식으로 환자의 예후클래스가 분류될 수 있는데, 중복된 설명을 배제하기 위해 이에 대한 설명은 생략하도록 한다.
몇몇 실시예들에서는, 전체생존기간과 무병생존기간을 함께 고려하여 복수의 환자가 서로 다른 예후클래스로 분류될 수도 있다. 가령, 도 4 및 도 5의 두 영역(31, 33)에 모두 속한(즉, 교집합) 환자가 제2 예후클래스로 분류되고, 다른 두 영역(32, 34)에 모두 속한 환자가 제1 예후클래스로 분류될 수 있다. 이러한 경우, 학습데이터의 양은 줄어들 것이나, 품질(즉, 학습데이터의 정확도)이 향상되어 예측모델의 성능이 향상될 수 있다.
몇몇 실시예들에서는, 두 영역(31/33 or 32/34)에 모두 속한 환자의 학습데이터에 대해서는 가중 학습이 수행될 수 있다. 즉, 두 영역(31/33 or 32/34)의 차집합에 속한 환자의 학습데이터에 대해서는 상대적으로 낮은 샘플 가중치로 학습이 수행되고, 교집합에 속한 환자의 학습데이터에 대해서는 상대적으로 높은 샘플 가중치로 학습이 수행될 수 있다. 가령, 제2 예후클래스의 환자그룹에서 사망 환자군과 재발 환자군에 모두 속한 환자(즉, 영역 31과 33에 모두 속한 환자)의 학습데이터는 나머지 환자의 학습데이터보다 높은 샘플 가중치로 학습될 수 있다. 여기서, 가중 학습이란 학습데이터를 구성하는 샘플 데이터에 따라 학습 강도를 달리하며 모델을 학습시키는 것을 의미할 수 있는데, 이러한 경우 중요한 학습데이터(e.g. 예후와 연관이 깊은 유전자발현데이터)가 보다 강하게 학습됨으로써 예측모델의 성능이 향상될 수 있다. 가중 학습을 수행하는 방식은 학습 횟수를 증가시키기는 방식, 예측 오차를 증폭시키는 방식, 학습 순서를 변경하는 방식 등과 같이 다양하게 설계될 수 있다.
앞선 실시예들에서, 전체생존기간(또는 무병생존기간)에 따라서도 샘플 가중치가 달라질 수도 있다. 가령, 제1 예후클래스에 속한 환자의 데이터 샘플의 경우 전체생존기간이 길수록 더 높은 샘플 가중치가 부여되고, 제2 예후클래스에 속한 환자의 데이터 샘플의 경우 전체생존기간이 짧을수록 더 높은 샘플 가중치가 부여될 수 있다. 이러한 경우, 예측모델의 성능이 더욱 향상될 수 있다.
다시 도 2를 참조하여 설명한다.
단계 S300에서, 상술한 바에 따라 구성된 학습데이터를 이용하여 예측모델이 구축될 수 있다. 가령, 예측 장치(10)는 학습데이터를 구성하는 각 데이터 샘플을 예측 모델에 입력하여 예측값을 획득하고, 획득된 예측값(즉, 예측 예후클래스 or 예후클래스에 따른 컨피던스 스코어)과 정답(즉, 정답 예후클래스)과의 예측 오차를 산출하며, 산출된 예측 오차를 역전파(back-propagation)함으로써 예측모델을 학습시킬 수 있다. 여기서, 학습이라는 것은 예측 오차가 최소화되는 방향으로 예측모델의 가중치를 업데이트하는 것을 의미할 수 있다.
앞서 언급한 바와 같이, 예측모델은 기계 학습 모델로서, 예를 들어 신경망에 기초하여 구현된 모델일 수 있다. 보다 구체적인 예로서, 예측모델은 도 8에 예시된 바와 같은 인공 신경망에 기초한 모델일 수 있다. 그러나, 본 개시의 범위가 이에 한정되는 것은 아니다. 도시된 바와 같이, 인공 신경망 모델은 입력층(input layer), 은닉층(hidden layer) 및 출력층(output layer)으로 구성될 수 있는데, 당해 기술 분야의 종사자라면 각 층의 기능, 동작 원리 및 학습 방법(e.g. 오차 역전파를 통해 오차가 최소화되는 방향으로 각 층의 가중치를 업데이트하는 방법) 등에 관하여 충분히 숙지하고 있을 것인 바, 이에 대한 설명은 생략하도록 한다.
상기 예측모델은 대상암의 종류 별(즉, 조직 별)로 구축될 수 있다. 즉, 제1 대상암에 대한 예후를 예측하는 제1 예측모델이 구축되고, 이와 별도로 제2 대상암에 대한 예후를 예측하는 제2 예측모델이 구축될 수 있다. 가령, 유전자발현데이터로부터 유방암에 대한 예후의 좋고 나쁨을 예측하는 모델을 구축한다고 가정하자. 이러한 경우, 도 9에 예시된 바와 같이, 유방암 환자의 제1 예후클래스(good)의 유전자발현데이터(41)와 제2 예후클래스(poor)의 유전자발현데이터(42)를 학습함으로써, 피검자의 유전자발현데이터로부터 유방암의 예후를 예측하는 모델(43)이 구축될 수 있다.
또는, 예측모델은 복수의 대상암에 대한 예후를 예측하도록 구축될 수도 있다. 예를 들어, 유방암 환자의 학습데이터와 대장암 환자의 학습데이터를 함께 학습하는 경우, 유방암과 대장암의 예후를 예측하는 모델이 구축될 수 있다.
한편, 예측모델의 세부 구조와 그에 따른 학습 방법은 다양하게 설계될 수 있으며, 이는 실시예에 따라 달라질 수 있다. 이와 관련하여서는 추후 도 10 이하의 도면을 참조하여 상세하게 설명하도록 한다.
다시 도 2를 참조하여 설명한다.
단계 S400에서, 구축된 예측모델을 이용하여 피검자의 예후가 예측될 수 있다. 가령, 예측 장치(10)는 피검자의 유전자발현데이터를 예측모델에 입력함으로써 얻어진 예측값(e.g. 예후클래스에 따른 컨피던스 스코어)을 토대로 피검자의 예후를 예측할 수 있다.
지금까지 도 2 내지 도 9를 참조하여 본 개시의 몇몇 실시예들에 따른 기계 학습 기반의 예후 예측 방법에 대하여 개략적으로 설명하였다. 이하에서는, 예측모델의 세부 구조와 그에 따른 학습 방법에 관한 다양한 실시예들에 대하여 도 10 이하의 도면을 참조하여 설명하도록 한다. 또한, 이하에서는, 이해의 편의를 제공하기 위해, 유전자발현데이터가 리보솜 유전자로부터 발현되는 리보솜 단백질에 관한 데이터인 것을 예로 들어 설명을 하도록 한다. 다만, 이하의 설명 내용은 유전자발현데이터가 다른 종류의 유전자(e.g. 미토콘드리아리보솜 유전자, 면역세포표면마커 유전자, 스플라이오솜 유전자, tRNA 합성효소 유전자 등)에 관한 발현데이터인 경우에도 실질적인 기술적 사상의 변경없이 적용될 수 있다.
도 10은 본 개시의 제1 실시예에 따른 예측모델의 세부 구조와 학습 방법을 설명하기 위한 예시적인 도면이다.
도 10에 도시된 바와 같이, 제1 실시예에 따른 예측모델은 하나 이상의 신경망(51)을 포함하도록 구성될 수 있다. 신경망(51)은 인공 신경망일 수 있을 것이나, 경우에 따라 다른 종류의 신경망으로 이루어질 수도 있다.
신경망(51)은 리보솜 단백질에 관한 데이터(이하, "리보솜데이터")를 입력받아 예후를 예측하도록 학습될 수 있다. 가령, 신경망(51)이 리보솜데이터를 입력받아 예측 예후클래스를 출력하면, 예측 예후클래스와 정답 예후클래스와의 오차가 역전파되어 신경망(51)의 가중치가 업데이트됨으로써 학습이 이루어질 수 있다. 이렇게 학습된 신경망(51)은 피검자의 리보솜데이터로부터 예후의 좋고 나쁨을 정확하게 예측할 수 있다.
본 실시예에서, 리보솜데이터는 리보솜 단백질의 발현 비율뿐만 아니라, 대형 서브유닛(LSU)과 소형 서브유닛(SSU) 간의 단백질 발현 비율, 발현량(또는 발현 비율)이 기준치 이상(또는 이하)인 리보솜 단백질(즉, 저발현 또는 과발현된 리보솜 단백질)의 종류 또는 개수, 특정 사이트(e.g. E, P, A site) 주변의 단백질 종류 또는 단백질 발현 비율 등을 포함할 수 있다. 이러한 경우, 신경망(51)(또는 예측모델)이 리보솜 단백질에 관한 다양한 발현데이터를 종합적으로 고려하여 예후를 예측하게 되므로, 예측 정확도가 보다 향상될 수 있다.
지금까지 도 10을 참조하여 본 개시의 제1 실시예에 따른 예측모델의 세부 구조와 학습 방법에 대하여 설명하였다. 이하에서는, 도 11을 참조하여 본 개시의 제2 실시예에 따른 예측모델의 세부 구조와 학습 방법에 대하여 설명하도록 한다.
도 11은 본 개시의 제2 실시예에 따른 예측모델의 세부 구조와 학습 방법을 설명하기 위한 예시적인 도면이다.
도 11에 도시된 바와 같이, 제2 실시예에 따른 예측모델은 제1 신경망(61), 제2 신경망(62) 및 제3 신경망(63)을 포함하도록 구성될 수 있다. 또한, 제1 신경망(61) 및 제2 신경망(62)의 출력값이 제3 신경망(63)으로 입력되도록 구성될 수 있다.
제1 신경망(61)은 조직 이미지를 입력받아 대상암의 예후와 연관된 제1 특징값을 추출하도록 학습될 수 있다. 제1 신경망(61)은 이미지 처리에 특화된 컨볼루션 신경망일 수 있으며, 조직 이미지로부터 예후와 연관된 특징값(e.g. 특징맵, 액티베이션 맵 등) 또는 병변 정보(e.g. 병변 위치, 병변 종류, 종양 증식 점수 등)를 출력하도록 학습될 수 있다
다음으로, 제2 신경망(62)은 리보솜데이터를 입력받아 대상암의 예후와 연관된 제2 특징값을 추출하도록 학습될 수 있다. 앞서 언급한 바와 같이, 리보솜데이터는 예를 들어 리보솜 단백질에 관한 다양한 데이터를 포함할 수 있다. 제2 신경망(62)은 예를 들어 인공 신경망일 수 있을 것이나, 이에 한정되는 것은 아니다.
다음으로, 제3 신경망(63)은 제1 특징값 및 제2 특징값을 입력으로 받아 대상암의 예후를 예측하도록 학습될 수 있다. 가령, 제3 신경망(63)이 제1 특징값과 제2 특징값을 종합하여 예측 예후클래스를 출력하면, 출력된 예후 예측클래스와 정답 예후클래스와의 오차가 역전파되어 제3 신경망(63)의 가중치가 업데이트됨으로써 학습이 이루어질 수 있다. 또한, 이러한 오차 역전파에 의해 제1 신경망(61) 및/또는 제2 신경망(62)의 가중치도 업데이트될 수 있다. 제3 신경망(63)은 인공 신경망(e.g. 완전 연결 계층)일 수 있을 것이나, 이에 한정되는 것은 아니다.
몇몇 예들에서는, 제1 신경망(61)이 사전 학습(pre-trained)된 것일 수도 있다. 구체적으로, 제1 신경망(61)은 조직 이미지로부터 예후와 연관된 특징을 추출하도록 사전에 별도로 학습되고, 제2 신경망(62) 및 제3 신경망(63)이 학습될 때 제1 신경망(61)은 학습되지 않을 수 있다. 또는, 제1 신경망(61)도 함께 학습됨에 따라 제1 신경망(61)의 가중치가 미세 조정(fine-tuning)될 수도 있다. 어떠한 경우이든, 제1 신경망(61)이 사전에 집중적으로 학습됨으로써 예후와 연관된 특징을 정확하게 추출할 수 있게 되므로, 예측모델의 성능이 향상될 수 있다.
위와 같이 학습된 예측모델은 피검자의 조직 이미지와 리보솜데이터로부터 대상암의 예후를 정확하게 예측할 수 있게 된다.
지금까지 도 11을 참조하여 본 개시의 제2 실시예에 따른 예측모델의 세부 구조와 학습 방법에 대하여 설명하였다. 상술한 방법에 따르면, 조직 이미지에서 나타나는 예후 관련 특징을 더 고려하여 대상암의 예후를 예측하도록 예측모델이 학습될 수 있는 바, 예측모델의 성능이 더욱 향상될 수 있다. 이하에서는, 도 12를 참조하여 본 개시의 제3 실시예에 따른 예측모델의 세부 구조와 학습 방법에 대하여 설명하도록 한다.
도 12는 본 개시의 제3 실시예에 따른 예측모델의 세부 구조와 학습 방법을 설명하기 위한 예시적인 도면이다.
도 12에도시된 바와 같이, 제3 실시예에 따른 예측모델은 제1 신경망(71), 제2 신경망(72) 및 제3 신경망(73)을 포함하도록 구성될 수 있다. 또한, 제1 신경망(71) 및 제2 신경망(72)의 출력값이 제3 신경망(73)으로 입력되도록 구성될 수 있다.
제1 신경망(71)은 제1 리보솜데이터를 입력받아 예후와 연관된 제1 특징값을 추출하도록 학습될 수 있다. 여기서, 제1 리보솜데이터는 리보솜 단백질에 관한 데이터를 2차원(또는 3차원)의 이미지 형태로 가공한 것일 수 있고, 제1 신경망(71)은 이미지 처리에 특화된 컨볼루션 신경망일 수 있다. 다만, 제1 리보솜데이터를 생성하는 구체적인 방식은 다양할 수 있다.
몇몇 예들에서, 리보솜 단백질의 위치에 따른 발현량 또는 발현 비율(즉, 리보솜 내 리보솜 단백질의 발현 분포)을 2차원(또는 3차원)의 데이터로 가공함으로써 제1 리보솜데이터가 생성될 수 있다. 이해의 편의를 제공하기 위해, 본 예시에 관하여 도 13을 참조하여 부연 설명하도록 한다.
도 13은 리보솜 서브유닛(81, 82) 내 리보솜 단백질의 위치에 따른 발현량이 히트맵(heat map) 형태로 가공된 것을 예시하고 있다. 예시된 바와 같이, 2차원 평면(80) 상에 리보솜 서브유닛(81, 82)을 매핑시키고, 매핑된 위치의 단백질 발현량에 따라 적절한 픽셀값을 부여함으로써 2차원의 히트맵 이미지(83; 즉, 제1 리보솜데이터)가 생성될 수 있다. 이때, 히트맵 이미지(83)의 특정 채널에는 해당 위치에서 발현된 리보솜 단백질의 종류 정보가 더 포함될 수도 있다. 이러한 히트맵 이미지(83)가 학습데이터로 활용되면, 제1 신경망(71)이 리보솜 단백질의 발현 분포와 예후와의 연관성(e.g. 리보솜의 특정 부위에서 단백질이 저발현 또는 과발현되는 경우 예후가 안 좋을 확률이 높음)을 학습할 수 있게 된다. 따라서, 예측모델의 예측 정확도가 더욱 향상될 수 있다.
다른 몇몇 예들에서는, 리보솜 단백질들 간의 위치 관계(또는 연결 관계)를 2차원(또는 3차원)의 데이터로 가공함으로써 제1 리보솜데이터가 생성될 수 있다. 이해의 편의를 제공하기 위해, 본 예시에 관하여 도 14를 참조하여 부연 설명하도록 한다.
도 14를 참조하면, 리보솜 단백질과 대응되는 2개의 축에 의해 형성된 2차원 평면(또는 매트릭스)(90) 상에 리보솜 단백질 쌍(e.g. RP1-RP2)의 위치 관계를 나타내는 값을 할당함으로써 2차원의 이미지(92; 즉, 제1 리보솜데이터)가 생성될 수 있다. 가령, 리보솜을 구성할 때, 제1 리보솜 단백질(e.g. RP1)과 제2 리보솜 단백질(e.g. RP2)이 인접하여 위치한 경우, 2차원 평면(90)의 매핑 위치(91)에 소정의 값(e.g. 1)이 할당될 수 있다. 이때, 두 리보솜 단백질의 인접 정도에 따라 차등적인 값이 할당될 수도 있다(e.g. 거리가 가까울수록 큰 값이 할당됨). 이러한 이미지(92)가 학습데이터로 활용되면, 제1 신경망(71)이 리보솜 단백질들 간의 위치 관계와 예후와의 연관성(e.g. 특정 종류의 리보솜 단백질들이 뭉쳐있는 경우 예후가 안좋을 확률이 높음)을 학습할 수 있게 된다. 따라서, 예측모델의 예측 정확도가 더욱 향상될 수 있다.
다시 도 12를 참조하여 예측모델을 구성하는 다른 신경망(72, 73)에 대한 설명을 이어가도록 한다.
제2 신경망(72)은 제2 리보솜데이터를 입력받아 예후와 연관된 제2 특징값을 추출하도록 학습될 수 있다. 제2 리보솜데이터는 예를 들어 리보솜 단백질의 발현 비율에 관한 다양한 데이터를 포함할 수 있다. 또한, 제2 신경망(72)은 예를 들어 인공 신경망일 수 있을 것이나, 이에 한정되는 것은 아니다.
다음으로, 제3 신경망(73)은 제1 특징값 및 제2 특징값을 입력받아 대상암의 예후를 예측하도록 학습될 수 있다. 가령, 제3 신경망(73)이 제1 특징값과 제2 특징값을 종합하여 예측 예후클래스를 출력하면, 출력된 예측 예후클래스와 정답 예후클래스와의 오차가 역전파되어 제3 신경망(73)의 가중치가 업데이트됨으로써 학습이 이루어질 수 있다. 또한, 이러한 오차 역전파에 의해 제1 신경망(71) 및/또는 제2 신경망(72)의 가중치도 업데이트될 수 있다.
몇몇 예들에서는, 제1 신경망(71)이 사전 학습된 것일 수도 있다. 구체적으로, 제1 신경망(71)은 이미지 형태의 제1 리보솜데이터부터 예후와 연관된 특징을 추출하도록 사전에 별도로 학습되고, 제2 신경망(72) 및 제3 신경망(73)이 학습될 때 제1 신경망(71)은 학습되지 않을 수 있다. 또는, 제1 신경망(71)도 함께 학습되어, 제1 신경망(71)의 가중치가 미세 조정될 수도 있다. 어떠한 경우이든, 제1 신경망(71)이 사전에 집중적으로 학습됨으로써 예후와 연관된 특징을 정확하게 추출할 수 있게 되므로, 예측모델의 성능이 향상될 수 있다.
위와 같이 학습된 예측모델은 피검자의 리보솜데이터로부터 대상암의 예후를 정확하게 예측할 수 있게 된다.
지금까지 도 12 내지 도 14를 참조하여 본 개시의 제3 실시예에 따른 예측모델의 세부 구조와 학습 방법에 대하여 설명하였다. 상술한 방법에 따르면, 이미지 형태로 가공된 리보솜데이터에서 나타나는 예후 관련 특징을 더 고려하도록 예측모델이 학습될 수 있는 바, 예측 모델의 성능이 더욱 향상될 수 있다.
지금까지 도 10 내지 도 14를 참조하여 본 개시의 제1 내지 제3 실시예를 개별적으로 설명하였으나, 상술한 제1 내지 제3 실시예는 다양한 형태로 조합될 수 있다. 예를 들어, 예측모델은 조직 이미지를 입력받는 제1 신경망(e.g. 도 11의 61), 이미지 형태의 리보솜데이터를 입력받는 제2 신경망(e.g. 도 12의 71), 리보솜데이터를 입력받는 제3 신경망(e.g. 도 11의 62, 도 12의 72) 및 제1 내지 제3 신경망의 출력값을 입력받아 예후를 예측하는 제4 신경망(e.g. 도 11의 63, 도 12의 73)으로 구성될 수도 있다.
한편, 본 개시의 몇몇 실시예들에서는, 예측모델의 성능을 보다 향상시키기 위해 가중 학습이 수행될 수 있는데, 이하, 이러한 실시예들에 대하여 도 15 내지 도 17을 참조하여 상세하게 설명하도록 한다.
도 15는 본 개시의 제1 실시예에 따른 가중 학습 방법을 설명하기 위한 예시적인 도면이다.
제1 실시예에 따른 가중 학습 방법은 학습데이터에 포함된 리보솜 단백질의 발현 비율을 분석하여 예후와 연관된 리보솜 단백질의 발현 패턴을 탐지하는 단계에서 시작될 수 있다.
예를 들어, 도 15에 도시된 바와 같이, 제1 예후클래스(good)의 리보솜 단백질 발현 비율과 제2 예후클래스(poor)의 리보솜 단백질 발현 비율이 비교될 수 있다. 그리고, 발현 비율의 차이가 기준치 이상인 부분(101 내지 104)의 리보솜 단백질(RP1, RP2, RPn-1, RPn)에 기초하여 발현 패턴(e.g. {RP1, RP2, RPn-1, RPn})이 결정될 수 있다. 또는, 발현 비율의 차이가 기준치 이상인 제1 리보솜 단백질(e.g. RP1, RP2)과 기준치 미만인 제2 리보솜 단백질(e.g. RP3, RPn-2)의 조합에 기초하여 발현 패턴(e.g. {RP1, RP2, RP3, RPn-2})이 결정될 수도 있다. 또는, 리보솜 단백질의 종류와 발현 비율 조건의 다양한 조합에 기초하여 발현 패턴(e.g. {RP1 > 0.5 and RP3 < 0.2})이 결정될 수도 있다.
다른 예로서, 제2 예후클래스의 리보솜 단백질 발현 비율을 분석하여 불량 예후와 연관된 발현 패턴(e.g. 다수의 제2 예후클래스에게서 등장하고 발현 비율이 기준치 이상 또는 미만인 리보솜 단백질)이 탐지될 수 있고, 제1 예후클래스의 리보솜 단백질의 발현 비율을 분석하여 좋은 예후와 연관된 발현 패턴(e.g. 다수의 제1 예후클래스에게서 등장하고 발현 비율이 기준치 이상 또는 미만인 리보솜 단백질)이 탐지될 수도 있다.
다음 단계에서, 탐지된 발현 패턴을 이용하여 학습데이터를 구성하는 각 데이터 샘플에 샘플 가중치가 부여될 수 있다. 예를 들어, 탐지된 발현 패턴과 데이터 샘플과의 유사도에 따라 샘플 가중치가 차등적으로 부여될 수 있다. 보다 구체적으로, 탐지된 발현 패턴과 완전히 부합하는 제1 데이터 샘플(또는 발현 패턴을 포함하는 데이터 샘플)에는 가장 높은 샘플 가중치가 부여되고, 일부 부합하는 제2 데이터 샘플에는 제1 데이터 샘플보다 낮은 샘플 가중치가 부여될 수 있다. 그리고, 전혀 부합하지 않는 제3 데이터 샘플에는 가장 낮은 샘플 가중치가 부여될 수 있다.
다음 단계에서, 부여된 샘플 가중치를 기초로 예측모델이 학습될 수 있다. 즉, 샘플 가중치가 높은 데이터 샘플들에 대해 더 강도 높은 학습이 이루어질 수 있다. 다만, 그 구체적인 학습 방식은 다양할 수 있다.
몇몇 예들에서는, 데이터 샘플에 대한 예측모델의 오차(즉, 예측값과 정답의 차이)에 따라 예측모델의 가중치를 업데이트하기 전에, 샘플 가중치에 기초하여 오차가 증감될 수 있다. 가령, 샘플 가중치가 높을수록 오차가 더 증가되고, 반대의 경우에는 오차가 감소될 수 있다. 또한, 증감된 오차에 기초하여 예측모델의 가중치가 업데이트될 수 있다. 이러한 경우, 샘플 가중치가 높은 데이터 샘플에 대한 오차가 예측모델에 더 큰 영향을 미치게 되기 때문에, 샘플 가중치에 따른 가중 학습이 효과적으로 이루어질 수 있다.
다른 몇몇 예들에서는, 샘플 가중치에 기초하여 데이터 샘플의 학습횟수가 달라질 수 있다. 가령, 샘플 가중치가 높은 데이터 샘플에 대해 추가 학습이 더 이루어질 수 있다.
또 다른 몇몇 예들에서는, 데이터 샘플을 예측모델에 입력할 때, 샘플 가중치에 기초하여 데이터 샘플의 값(e.g. 리보솜 단백질의 발현 비율값)이 증감될 수 있다. 가령, 샘플 가중치가 높을수록 데이터 샘플의 값이 더 증가되고, 반대의 경우에는 데이터 샘플의 값이 감소될 수 있다. 이러한 경우, 샘플 가중치가 높은 데이터 샘플이 예측모델의 학습에 더 큰 영향을 미치게 되기 때문에, 샘플 가중치에 따른 가중 학습이 효과적으로 이루어질 수 있다.
또 다른 몇몇 예들에서는, 샘플 가중치에 기초하여 데이터 샘플의 학습 순서가 달라질 수 있다. 가령, 샘플 가중치가 높은 데이터 샘플이 낮은 데이터 샘플보다 먼저 학습될 수 있다. 통상적으로, 먼저 학습된 데이터 샘플이 나중에 학습된 데이터 샘플보다 예측모델의 학습에 더 큰 영향을 미칠 수 있기 때문이다.
또 다른 몇몇 예들에서는, 전술한 예시들의 조합에 기초하여 예측모델이 학습될 수 있다.
지금까지, 도 15를 참조하여 본 개시의 제1 실시예에 따른 가중 학습 방법에 대하여 설명하였다. 이하에서는, 도 16 및 도 17를 참조하여 본 개시의 제2 실시예에 따른 가중 학습 방법에 대하여 설명하도록 한다.
도 16 및 도 17는 본 개시의 제2 실시예에 따른 가중 학습 방법을 설명하기 위한 예시적인 도면이다. 이하, 도 16 및 도 17를 참조하여 설명한다.
제2 실시예에 따른 가중 학습 방법은 학습데이터를 학습하여 임시 예측모델(113)을 구축하는 단계에서 시작될 수 있다. 임시 예측모델(113)의 구조 및 학습 방식은 어떠한 방식이 되더라도 무방하다.
다음 단계에서, 학습데이터를 구성하는 제1 데이터 샘플에서 리보솜 단백질의 발현 비율 중 적어도 일부를 변경하여 제2 데이터 샘플이 생성될 수 있다. 가령, 도 16에 도시된 바와 같이, 발현 비율이 기준치 이상인 리보솜 단백질(111, 112)의 발현 비율값이 변경될 수 있다. 다만, 본 단계의 세부 내용은 다양할 수 있다.
몇몇 예들에서는, 제1 데이터 샘플에서 발현 비율이 기준치 이상(또는 기준치 미만)인 리보솜 단백질의 발현 비율이 변경될 수 있다.
다른 몇몇 예들에서는, 제1 데이터 샘플에서 랜덤하게 선택된 리보솜 단백질의 발현 비율이 변경될 수 있다. 이때, 선택된 리보솜 단백질의 개수는 1개일 수도 있고, 복수일 수도 있다.
또 다른 몇몇 예들에서는, 제1 데이터 샘플에서 특정 리보솜 단백질의 발현 비율이 특정 값으로 변경되어 제2 데이터 샘플이 생성될 수 있다. 이때, 특정 값은 0일 수도 있고, 제1 예후클래스의 환자그룹 또는 제2 예후클래스의 환자그룹의 평균 발현 비율값일 수도 있다. 가령, 상기 제1 데이터 샘플이 제1 예후클래스의 샘플인 경우, 상기 특정 리보솜 단백질의 발현 비율이 제2 예후클래스의 평균 발현 비율값으로 변경될 수 있다. 반대의 경우라면, 제1 예후클래스의 평균 발현 비율값으로 변경될 수 있다.
또 다른 몇몇 예들에서는, 전술한 예시들의 조합에 기초하여 제2 데이터 샘플이 생성될 수도 있다.
다음 단계에서, 제1 데이터 샘플을 임시 예측모델(113)에 입력하여 제1 예측값(Out1)이 획득되고, 제2 데이터 샘플을 임시 예측모델(113)에 입력하여 제2 예측값(Out2)이 획득될 수 있다. 그리고, 두 예측값의 차이(Diff)가 산출될 수 있다.
다음 단계에서, 두 예측값의 차이(Diff)에 기초하여 예후와 연관된 리보솜 단백질의 발현 패턴이 탐지될 수 있다. 가령, 차이값(Diff)이 기준치 이상인 경우, 제1 데이터 샘플에서 발현 비율이 변경된 리보솜 단백질(111, 112)을 기초로 발현 패턴이 결정될 수 있다. 특정 리보솜 단백질(111, 112)의 발현 비율을 변경하였을 때, 임시 예측모델의 예측값이 크게 달라진다는 것은 특정 리보솜 단백질(111, 112)의 발현 비율이 예후 예측에 크게 영향을 미친다는 것(즉, 핵심적인 특징임)을 의미하기 때문이다. 발현 패턴을 결정하는 구체적인 방식에 관하여서는 도 15의 설명 부분을 더 참조하도록 한다.
다음 단계에서, 탐지된 발현 패턴을 이용하여 학습데이터(121, 122)를 구성하는 각 데이터 샘플에 샘플 가중치가 부여될 수 있다. 이와 관련하여서는 도 15의 설명 부분을 더 참조하도록 한다.
다음 단계에서, 부여된 샘플 가중치를 기초로 학습데이터(121, 122)를 새롭게 학습하여 예측모델(123)이 구축될 수 있다. 가령, 샘플 가중치를 기초로 초기화된 상태(즉, 모델의 가중치가 초기화된 상태)의 예측모델(123)이 새롭게 학습될 수 있다. 이와 관련하여서는 도 15의 설명 부분을 더 참조하도록 한다.
지금까지, 도 15 내지 도 17를 참조하여 본 개시의 몇몇 실시예들에 따른 가중 학습 방법에 대하여 설명하였다. 상술한 방법에 따르면, 대상암의 예후와 연관성이 높을 것으로 추정되는 데이터 샘플들에 대하여 가중 학습이 이루어질 수 있다. 이에 따라, 예측모델에 대한 학습이 보다 효과적으로 이루어질 수 있으며, 그의 예측 성능 또한 크게 향상될 수 있다.
한편, 본 개시의 몇몇 실시예들에 따르면, 대상암의 예후를 예측하는 복수의 후보 모델을 구축하고, 성능 비교를 통해 대상암의 예후 예측에 이용될 모델이 결정될 수 있다. 이해의 편의를 제공하기 위해, 이러한 실시예들에 대하여 도 18을 참조하여 부연 설명하도록 한다.
도 18은 본 개시의 몇몇 실시예들에 따른 대상 질병(e.g. 암)의 예측모델 결정 방법을 설명하기 위한 예시적인 도면이다.
도 18에 도시된 바와 같이, 제1 유전자의 발현데이터를 포함하는 제1 학습데이터(131)와 제2 유전자의 발현데이터를 포함하는 제2 학습데이터(133)를 각각 이용하여 대상암의 예후를 예측하는 제1 후보모델(132)과 제2 후보모델(134)이 구축될 수 있다. 여기서, 제1 유전자는 제2 유전자의 다른 종류의 유전자를 의미하는 것으로, 예를 들어 제1 유전자는 리보솜 유전자가 될 수 있고 제2 유전자는 미토콘드리아리보솜 유전자가 될 수 있다. 도 18은 두 종류의 유전자의 학습데이터(131, 133)로부터 후보 모델(132, 134)이 구축되는 것을 예로써 도시하고 있으나, 이는 이해의 편의를 제공하기 위한 것일 뿐, 유전자는 세 종류 이상일 수도 있다.
다음으로, 제1 후보모델(132)과 제2 후보모델(134)의 성능 비교 결과를 통해 적어도 하나의 모델이 예측모델로 결정될 수 있다. 가령, 두 후보모델(132, 134) 중에 성능이 우수한 후보모델이 예측모델로 결정될 수 있고, 성능이 기준치 이상인 적어도 하나의 후보모델이 예측모델로 결정될 수도 있다. 각 후보모델(132, 134)에 대한 성능 평가는 예를 들어 교차 검증(cross-validation) 기법에 기초하여 수행될 수 있을 것이나, 이에 한정되는 것은 아니다.
지금까지 상술한 예측모델 결정 방법은 다양한 대상암에 대하여 반복적으로 수행될 수 있다. 그렇게 함으로써, 특정 암의 예후 예측에 가장 적합한 유전자의 종류가 무엇인지가 결정될 수 있다. 다시 말해, 어떠한 종류의 유전자의 발현이 어떠한 암(질병)과 가장 연관이 있는지가 결정될 수 있다. 가령, 도 19에 도시된 바와 같이, 유방암과 대장암의 예후가 리보솜 유전자의 발현과 연관이 깊은 것으로 결정되면, 관련 학습데이터를 학습한 제1 예측모델(141)이 유방암과 대장암의 예후를 예측하는데 활용될 수 있다. 유사하게, 제2 및 제3 예측모델(142, 143)은 위암 또는 대장암의 예후를 예측하는데 활용될 수 있다.
한편, 도 19에 예시된 바와 같이, 복수의 유전자의 발현이 특정 암의 예후와 동시에 연관이 있을 수 있다. 이러한 경우, 복수의 유전자에 대한 발현데이터를 함께 학습하는 것이 상기 특정 암의 예후를 예측하는데 효과적일 수 있다. 따라서, 본 개시의 몇몇 실시예들에 따르면, 복수 유전자의 발현데이터를 학습하여 구축된 예측모델이 제공될 수 있는데, 이하 이러한 예측모델에 대하여 도 20을 참조하여 간략하게 설명하도록 한다.
도 20은 본 개시의 몇몇 실시예들에 따른 복수(복합) 유전자의 발현데이터에 기반한 예후예측모델의 세부 구조 및 학습 방법을 설명하기 위한 예시적인 도면이다.
도 20에 도시된 바와 같이, 실시예들에 따른 예측모델은 제1 신경망(151), 제2 신경망(152) 및 제3 신경망(153)을 포함하도록 구성될 수 있다. 또한, 제1 신경망(151) 및 제2 신경망(152)의 출력값이 제3 신경망(153)으로 입력되도록 구성될 수 있다.
제1 신경망(151)은 제1 유전자(e.g. 리보솜 유전자)의 발현데이터를 입력받아 대상암의 예후와 연관된 제1 특징을 추출하도록 학습될 수 있다. 제1 신경망(151)은 예를 들어 인공 신경망일 수 있을 것이나, 이에 한정되는 것은 아니다.
다음으로, 제2 신경망(152)은 제2 유전자(e.g. 미토콘드리아리보솜 유전자)의 발현데이터를 입력받아 대상암의 예후와 연관된 제2 특징을 추출하도록 학습될 수 있다. 제2 신경망(152)은 예를 들어 인공 신경망일 수 있을 것이나, 이에 한정되는 것은 아니다.
다음으로, 제3 신경망(153)은 제1 특징값 및 제2 특징값을 입력으로 받아 대상암의 예후를 예측하도록 학습될 수 있다. 가령, 제3 신경망(153)이 제1 특징값과 제2 특징값을 종합하여 예측 예후클래스를 출력하면, 출력된 예후 예측클래스와 정답 예후클래스와의 오차가 역전파되어 제3 신경망(153)의 가중치가 업데이트됨으로써 학습이 이루어질 수 있다. 또한, 이러한 오차 역전파에 의해 제1 신경망(151) 및/또는 제2 신경망(152)의 가중치도 업데이트될 수 있다. 제3 신경망(153)은 인공 신경망(e.g. 완전 연결 계층)일 수 있을 것이나, 이에 한정되는 것은 아니다.
위와 같이 학습된 예측모델은 피검자의 다양한 유전자의 발현데이터를 종합적으로 고려하여 대상암의 예후를 정확하게 예측할 수 있게 된다.
한편, 도 20은 예측모델이 두 종류의 유전자(e.g. 리보솜 유전자, 미토콘드리아리보솜 유전자)의 발현데이터를 입력받을 수 있도록 구성된 경우를 예로써 도시하고 있으나, 예측모델은 세 종류 이상의 유전자의 발현데이터를 입력받는 형태로 구성될 수도 있음은 물론이다.
지금까지, 도 20을 참조하여 본 개시의 몇몇 실시예들에 따른 복수 유전자의 발현데이터에 기반한 예측모델의 세부 구조 및 학습 방법에 대하여 설명하였다. 이하에서는, 도 21을 참조하여 본 개시의 몇몇 실시예들에 따른 예측 장치(10)를 구현할 수 있는 예시적인 컴퓨팅 장치(120)에 대하여 설명하도록 한다.
도 21은 컴퓨팅 장치(160)를 나타내는 예시적인 하드웨어 구성도이다.
도 21에 도시된 바와 같이, 컴퓨팅 장치(160)는 하나 이상의 프로세서(161), 버스(163), 통신 인터페이스(164), 프로세서(161)에 의하여 수행되는 컴퓨터 프로그램을 로드(load)하는 메모리(162)와, 컴퓨터 프로그램(166)을 저장하는 스토리지(165)를 포함할 수 있다. 다만, 도 21에는 본 개시의 실시예와 관련 있는 구성요소들만이 도시되어 있다. 따라서, 본 개시가 속한 기술분야의 통상의 기술자라면 도 21에 도시된 구성요소들 외에 다른 범용적인 구성요소들이 더 포함될 수 있음을 알 수 있다. 즉, 컴퓨팅 장치(160)에는, 도 21에 도시된 구성요소 이외에도 다양한 구성요소가 더 포함될 수 있다. 또는, 컴퓨팅 장치(160)는 도 21에 도시된 구성요소 중 일부를 제외하고 구성될 수도 있다.
프로세서(161)는 컴퓨팅 장치(160)의 각 구성의 전반적인 동작을 제어할 수 있다. 프로세서(161)는 CPU(Central Processing Unit), MPU(Micro Processor Unit), MCU(Micro Controller Unit), GPU(Graphic Processing Unit) 또는 본 개시의 기술 분야에 잘 알려진 임의의 형태의 프로세서 중 적어도 하나를 포함하여 구성될 수 있다. 또한, 프로세서(161)는 본 개시의 실시예들에 따른 방법/동작을 실행하기 위한 적어도 하나의 애플리케이션 또는 프로그램에 대한 연산을 수행할 수 있다. 컴퓨팅 장치(160)는 하나 이상의 프로세서를 구비할 수 있다.
메모리(162)는 각종 데이터, 명령 및/또는 정보를 저장할 수 있다. 메모리(162)는 본 개시의 실시예들에 따른 방법/동작을 실행하기 위하여 스토리지(165)로부터 하나 이상의 컴퓨터 프로그램(166)을 로드할 수 있다. 메모리(162)는 RAM과 같은 휘발성 메모리로 구현될 수 있을 것이나, 이에 한정되는 것은 아니다.
버스(163)는 컴퓨팅 장치(160)의 구성요소 간 통신 기능을 제공할 수 있다. 버스(163)는 주소 버스(Address Bus), 데이터 버스(Data Bus) 및 제어 버스(Control Bus) 등 다양한 형태의 버스로 구현될 수 있다.
통신 인터페이스(164)는 컴퓨팅 장치(160)의 유무선 인터넷 통신을 지원할 수 있다. 또한, 통신 인터페이스(164)는 인터넷 통신 외의 다양한 통신 방식을 지원할 수도 있다. 이를 위해, 통신 인터페이스(164)는 본 개시의 기술 분야에 잘 알려진 통신 모듈을 포함하여 구성될 수 있다.
스토리지(165)는 상기 하나 이상의 프로그램(166)을 비임시적으로 저장할 수 있다. 스토리지(165)는 ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리 등과 같은 비휘발성 메모리, 하드 디스크, 착탈형 디스크, 또는 본 개시가 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터로 읽을 수 있는 기록 매체를 포함하여 구성될 수 있다.
컴퓨터 프로그램(166)은 메모리(162)에 로드될 때 프로세서(161)로 하여금 본 개시의 다양한 실시예들에 따른 방법/동작을 수행하도록 하는 하나 이상의 인스트럭션들(instructions)을 포함할 수 있다. 즉, 프로세서(161)는 상기 하나 이상의 인스트럭션들을 실행함으로써, 본 개시의 다양한 실시예들에 따른 방법/동작들을 수행할 수 있다.
예를 들어, 컴퓨터 프로그램(166)은 복수의 환자의 유전자발현데이터와 생존기간데이터를 포함하는 원본데이터를 획득하는 동작, 획득된 원본데이터를 전처리하여 학습데이터를 구성하는 동작, 구성된 학습데이터를 이용하여 예측모델을 구축하는 동작 및 구축된 예측모델을 이용하여 피검자의 예후를 예측하는 동작을 수행하도록 하는 인스트럭션들을 포함할 수 있다. 이와 같은 경우, 컴퓨팅 장치(120)를 통해 본 개시의 몇몇 실시예들에 따른 예측 장치(10)가 구현될 수 있다.
지금까지 도 1 내지 도 21을 참조하여 설명된 본 개시의 기술적 사상은 컴퓨터가 읽을 수 있는 매체 상에 컴퓨터가 읽을 수 있는 코드로 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체는, 예를 들어 이동형 기록 매체(CD, DVD, 블루레이 디스크, USB 저장 장치, 이동식 하드 디스크)이거나, 고정식 기록 매체(ROM, RAM, 컴퓨터 구비 형 하드 디스크)일 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체에 기록된 상기 컴퓨터 프로그램은 인터넷 등의 네트워크를 통하여 다른 컴퓨팅 장치에 전송되어 상기 다른 컴퓨팅 장치에 설치될 수 있고, 이로써 상기 다른 컴퓨팅 장치에서 사용될 수 있다.
이상에서, 본 개시의 실시예를 구성하는 모든 구성요소들이 하나로 결합되거나 결합되어 동작하는 것으로 설명되었다고 해서, 본 개시의 기술적 사상이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 개시의 목적 범위 안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다.
도면에서 동작들이 특정한 순서로 도시되어 있지만, 반드시 동작들이 도시된 특정한 순서로 또는 순차적 순서로 실행되어야만 하거나 또는 모든 도시 된 동작들이 실행되어야만 원하는 결과를 얻을 수 있는 것으로 이해되어서는 안 된다. 특정 상황에서는, 멀티태스킹 및 병렬 처리가 유리할 수도 있다. 더욱이, 위에 설명한 실시예들에서 다양한 구성들의 분리는 그러한 분리가 반드시 필요한 것으로 이해되어서는 안 되고, 설명된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일 소프트웨어 제품으로 함께 통합되거나 다수의 소프트웨어 제품으로 패키지 될 수 있음을 이해하여야 한다.
이상 첨부된 도면을 참조하여 본 개시의 실시예들을 설명하였지만, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자는 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 본 개시가 다른 구체적인 형태로도 실시될 수 있다는 것을 이해할 수 있다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다. 본 개시의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 개시에 의해 정의되는 기술적 사상의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (14)

  1. 컴퓨팅 장치에서 피검자의 예후를 예측하는 방법에 있어서,
    복수의 환자의 유전자발현데이터와 생존기간데이터를 포함하는 원본데이터를 획득하는 단계;
    상기 생존기간데이터를 이용하여 상기 복수의 환자를 제1 환자그룹과 제2 환자그룹으로 분류하는 단계;
    상기 제1 환자그룹의 유전자발현데이터에 제1 예후클래스를 레이블링(labeling)하고, 상기 제2 환자그룹의 유전자발현데이터에 제2 예후클래스를 레이블링하여 학습데이터를 구성하는 단계;
    상기 학습데이터를 이용하여 예후예측모델을 구축하는 단계; 및
    상기 예후예측모델을 이용하여 상기 피검자의 예후를 예측하는 단계를 포함하되,
    상기 유전자발현데이터는 리보솜 단백질의 발현 비율에 관한 데이터를 포함하고,
    상기 예후예측모델을 구축하는 단계는,
    상기 학습데이터를 이용하여 임시 예후예측모델을 학습시키는 단계;
    상기 학습데이터를 구성하는 제1 데이터 샘플에서, 특정 리보솜 단백질의 발현 비율을 변경하여 제2 데이터 샘플을 생성하는 단계;
    상기 제1 데이터 샘플을 상기 임시 예후예측모델에 입력하여 제1 예측값을 획득하고, 상기 제2 데이터 샘플을 상기 임시 예후예측모델에 입력하여 제2 예측값을 획득하는 단계;
    상기 제1 예측값과 상기 제2 예측값의 차이가 기준치 이상이라는 판단에 응답하여, 상기 특정 리보솜 단백질을 기초로 상기 예후와 연관된 리보솜 단백질의 발현 패턴을 생성하는 단계;
    상기 생성된 발현 패턴을 이용하여 상기 학습데이터를 구성하는 데이터 샘플에 샘플 가중치를 부여하는 단계; 및
    상기 샘플 가중치 및 상기 학습데이터를 기초로 모델 가중치가 초기화된 상태의 기계학습모델을 학습시킴으로써 상기 예후예측모델을 구축하는 단계를 포함하는,
    예후 예측 방법.
  2. 제1 항에 있어서,
    상기 생존기간데이터는 상기 환자의 전체생존기간에 관한 데이터를 포함하고,
    상기 분류하는 단계는,
    상기 복수의 환자를 사망 이벤트 발생 여부를 기준으로 사망 환자군과 비-사망 환자군으로 구분하는 단계;
    상기 비-사망 환자군에서 상기 전체생존기간이 제1 기준치 이상인 환자를 상기 제1 환자그룹으로 분류하는 단계; 및
    상기 사망 환자군에서 상기 전체생존기간이 제2 기준치 이상인 환자를 상기 제1 환자그룹으로 분류하고 상기 제2 기준치보다 작은 제3 기준치 이하인 환자를 상기 제2 환자그룹으로 분류하는 단계를 포함하는,
    예후 예측 방법.
  3. 제2 항에 있어서,
    상기 생존기간데이터는 상기 환자의 무병생존기간에 관한 데이터를 더 포함하고,
    상기 분류하는 단계는,
    상기 복수의 환자를 재발 이벤트 발생 여부를 기준으로 재발 환자군과 비-재발 환자군으로 구분하는 단계;
    상기 비-재발 환자군에서 상기 무병생존기간이 제4 기준치 이상인 환자를 상기 제1 환자그룹으로 분류하는 단계; 및
    상기 재발 환자군에서 상기 무병생존기간이 제5 기준치 이상인 환자를 상기 제1 환자그룹으로 분류하고 상기 제5 기준치보다 작은 제6 기준치 이하인 환자를 상기 제2 환자그룹으로 분류하는 단계를 더 포함하고,
    상기 예후예측모델을 구축하는 단계는,
    상기 제2 환자그룹에서 상기 사망 환자군과 상기 재발 환자군에 모두 속한 환자를 선별하고, 상기 선별된 환자의 학습데이터를 제1 샘플 가중치로 학습하는 단계; 및
    상기 선별되지 않은 나머지 환자의 학습데이터를 제2 샘플 가중치로 학습하는 단계를 포함하되,
    상기 제1 샘플 가중치는 상기 제2 샘플 가중치보다 높은,
    예후 예측 방법.
  4. 제1 항에 있어서,
    상기 생존기간데이터는 상기 환자의 무병생존기간에 관한 데이터를 포함하고,
    상기 분류하는 단계는,
    상기 복수의 환자를 재발 이벤트 발생 여부를 기준으로 재발 환자군과 비-재발 환자군으로 구분하는 단계;
    상기 비-재발 환자군에서 상기 무병생존기간이 제1 기준치 이상인 환자를 상기 제1 환자그룹으로 분류하는 단계; 및
    상기 재발 환자군에서 상기 무병생존기간이 제2 기준치 이상인 환자를 상기 제1 환자그룹으로 분류하고 상기 제2 기준치보다 작은 제3 기준치 이하인 환자를 상기 제2 환자그룹으로 분류하는 단계를 포함하는,
    예후 예측 방법.
  5. 제1 항에 있어서,
    상기 유전자발현데이터는 리보솜 유전자, 미토콘드리아리보솜(mitoribosome) 유전자, 면역세포표면마커(CD marker) 유전자, 스플라이오솜(spliceosome) 유전자 및 tRNA 합성효소 유전자에 관한 발현 데이터를 포함하는,
    예후 예측 방법.
  6. 제1 항에 있어서,
    상기 유전자발현데이터는 제1 유전자의 발현데이터 및 제2 유전자의 발현데이터를 포함하고,
    상기 예후예측모델을 구축하는 단계는,
    상기 제1 유전자의 발현데이터를 포함하는 제1 학습데이터를 이용하여 대상 질병의 예후를 예측하는 제1 후보모델을 구축하는 단계;
    상기 제2 유전자의 발현데이터를 포함하는 제2 학습데이터를 이용하여 상기 대상 질병의 예후를 예측하는 제2 후보모델을 구축하는 단계;
    상기 제1 후보모델과 상기 제2 후보모델의 성능 비교 결과에 기초하여 적어도 하나의 후보모델을 상기 예후예측모델로 결정하는 단계를 포함하는,
    예후 예측 방법.
  7. 제1 항에 있어서,
    상기 학습데이터는 대상암(target cancer)과 연관된 조직의 이미지를 더 포함하고,
    상기 예후예측모델은,
    상기 조직의 이미지를 입력받아 상기 예후와 연관된 제1 특징값을 출력하는 제1 신경망,
    상기 유전자발현데이터를 입력받아 상기 예후와 연관된 제2 특징값을 추출하는 제2 신경망 및
    상기 제1 특징값 및 상기 제2 특징값을 입력받아 상기 대상암의 예후를 예측하는 제3 신경망을 포함하되,
    상기 제1 신경망은 컨볼루션 신경망(convolutional neural networks)으로 이루어지는,
    예후 예측 방법.
  8. 제1 항에 있어서,
    상기 학습데이터는 상기 리보솜 단백질에 관한 데이터를 가공하여 생성된 이미지 형태의 데이터를 포함하며,
    상기 예후예측모델은,
    상기 이미지 형태의 데이터를 입력받아 상기 예후와 연관된 제1 특징값을 추출하는 제1 신경망,
    상기 유전자발현데이터를 입력받아 상기 예후와 연관된 제2 특징값을 추출하는 제2 신경망 및
    상기 제1 특징값 및 상기 제2 특징값을 입력받아 상기 예후를 예측하는 제3 신경망을 포함하며,
    상기 제1 신경망은 컨볼루션 신경망(convolutional neural networks)으로 이루어지는,
    예후 예측 방법.
  9. 제8 항에 있어서,
    상기 이미지 형태의 데이터는 리보솜 내에서 리보솜 단백질의 위치에 따른 발현량 또는 발현 비율을 나타내는 것인,
    예후 예측 방법.
  10. 제8 항에 있어서,
    상기 이미지 형태의 데이터는 리보솜 단백질에 대응되는 2개의 축에 의해 형성되는 2차원 평면 상에 리보솜 단백질 쌍의 위치 관계에 따른 값을 할당함으로써 생성된 것인,
    예후 예측 방법.
  11. 제1 항에 있어서,
    상기 예후예측모델을 구축하는 단계는,
    상기 제1 환자그룹의 리보솜 단백질 발현 비율과 상기 제2 환자그룹의 리보솜 단백질 발현 비율을 비교하여, 상기 예후와 연관된 리보솜 단백질의 발현 패턴을 탐지하는 단계; 및
    상기 탐지된 발현 패턴을 이용하여 상기 학습데이터를 구성하는 데이터 샘플에 샘플 가중치를 부여하는 단계를 더 포함하는,
    예후 예측 방법.
  12. 삭제
  13. 하나 이상의 인스트럭션들(instructions)을 저장하는 메모리; 및
    상기 저장된 하나 이상의 인스트럭션들을 실행시킴으로써,
    복수의 환자의 유전자발현데이터와 생존기간데이터를 포함하는 원본데이터를 획득하는 동작,
    상기 생존기간데이터를 이용하여 상기 복수의 환자를 제1 환자그룹과 제2 환자그룹으로 분류하는 동작,
    상기 제1 환자그룹의 유전자발현데이터에 제1 예후클래스를 레이블링(labeling)하고, 상기 제2 환자그룹의 유전자발현데이터에 제2 예후클래스를 레이블링하여 학습데이터를 구성하는 동작,
    상기 학습데이터를 이용하여 예후예측모델을 구축하는 동작 및
    상기 예후예측모델을 이용하여 피검자의 예후를 예측하는 동작을 수행하는 프로세서를 포함하되,
    상기 유전자발현데이터는 리보솜 단백질의 발현 비율에 관한 데이터를 포함하고,
    상기 예후예측모델을 구축하는 동작은,
    상기 학습데이터를 이용하여 임시 예후예측모델을 학습시키는 동작,
    상기 학습데이터를 구성하는 제1 데이터 샘플에서, 특정 리보솜 단백질의 발현 비율을 변경하여 제2 데이터 샘플을 생성하는 동작,
    상기 제1 데이터 샘플을 상기 임시 예후예측모델에 입력하여 제1 예측값을 획득하고, 상기 제2 데이터 샘플을 상기 임시 예후예측모델에 입력하여 제2 예측값을 획득하는 동작,
    상기 제1 예측값과 상기 제2 예측값의 차이가 기준치 이상이라는 판단에 응답하여, 상기 특정 리보솜 단백질을 기초로 상기 예후와 연관된 리보솜 단백질의 발현 패턴을 생성하는 동작,
    상기 생성된 발현 패턴을 이용하여 상기 학습데이터를 구성하는 데이터 샘플에 샘플 가중치를 부여하는 동작 및
    상기 샘플 가중치 및 상기 학습데이터를 기초로 모델 가중치가 초기화된 상태의 기계학습모델을 학습시킴으로써 상기 예후예측모델을 구축하는 동작을 포함하는,
    예후 예측 장치.
  14. 컴퓨팅 장치와 결합되어,
    복수의 환자의 유전자발현데이터와 생존기간데이터를 포함하는 원본데이터를 획득하는 단계;
    상기 생존기간데이터를 이용하여 상기 복수의 환자를 제1 환자그룹과 제2 환자그룹으로 분류하는 단계;
    상기 제1 환자그룹의 유전자발현데이터에 제1 예후클래스를 레이블링(labeling)하고, 상기 제2 환자그룹의 유전자발현데이터에 제2 예후클래스를 레이블링하여 학습데이터를 구성하는 단계;
    상기 학습데이터를 이용하여 예후예측모델을 구축하는 단계; 및
    상기 예후예측모델을 이용하여 피검자의 예후를 예측하는 단계를 실행시키되,
    상기 유전자발현데이터는 리보솜 단백질의 발현 비율에 관한 데이터를 포함하고,
    상기 예후예측모델을 구축하는 단계는,
    상기 학습데이터를 이용하여 임시 예후예측모델을 학습시키는 단계;
    상기 학습데이터를 구성하는 제1 데이터 샘플에서, 특정 리보솜 단백질의 발현 비율을 변경하여 제2 데이터 샘플을 생성하는 단계;
    상기 제1 데이터 샘플을 상기 임시 예후예측모델에 입력하여 제1 예측값을 획득하고, 상기 제2 데이터 샘플을 상기 임시 예후예측모델에 입력하여 제2 예측값을 획득하는 단계;
    상기 제1 예측값과 상기 제2 예측값의 차이가 기준치 이상이라는 판단에 응답하여, 상기 특정 리보솜 단백질을 기초로 상기 예후와 연관된 리보솜 단백질의 발현 패턴을 생성하는 단계;
    상기 생성된 발현 패턴을 이용하여 상기 학습데이터를 구성하는 데이터 샘플에 샘플 가중치를 부여하는 단계; 및
    상기 샘플 가중치 및 상기 학습데이터를 기초로 모델 가중치가 초기화된 상태의 기계학습모델을 학습시킴으로써 상기 예후예측모델을 구축하는 단계를 포함하는, 컴퓨터 판독가능한 기록매체에 저장된,
    컴퓨터 프로그램.
KR1020200169694A 2020-12-07 2020-12-07 기계 학습 기반의 예후 예측 방법 및 그 장치 KR102299221B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020200169694A KR102299221B1 (ko) 2020-12-07 2020-12-07 기계 학습 기반의 예후 예측 방법 및 그 장치
PCT/KR2021/018330 WO2022124724A1 (ko) 2020-12-07 2021-12-06 기계 학습 기반의 예후 예측 방법 및 그 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200169694A KR102299221B1 (ko) 2020-12-07 2020-12-07 기계 학습 기반의 예후 예측 방법 및 그 장치

Publications (1)

Publication Number Publication Date
KR102299221B1 true KR102299221B1 (ko) 2021-09-07

Family

ID=77797321

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200169694A KR102299221B1 (ko) 2020-12-07 2020-12-07 기계 학습 기반의 예후 예측 방법 및 그 장치

Country Status (2)

Country Link
KR (1) KR102299221B1 (ko)
WO (1) WO2022124724A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022124724A1 (ko) * 2020-12-07 2022-06-16 주식회사 온코크로스 기계 학습 기반의 예후 예측 방법 및 그 장치
WO2023234647A1 (ko) * 2022-05-31 2023-12-07 고려대학교 산학협력단 암 특이 표적 및 csp 패널 획득 방법 및 장치

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102299221B1 (ko) * 2020-12-07 2021-09-07 주식회사 온코크로스 기계 학습 기반의 예후 예측 방법 및 그 장치

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
James M. Dolezal et al., Diagnostic and prognostic implications of ribosomal protein transcript expression patterns in human cancers, BMC Cancer Vol.18, 275(2018) 1부.* *
Richard J. Chen et al., Pathomic Fusion: An Integrated Framework for Fusing Histopathology and Genomic Features for Cancer Diagnosis and Prognosis, arXiv:1912.08937(2020.09.03.) 1부.* *
Wei Li et al., Integrated Analysis of the Functions and Prognostic Values of RNA Binding Proteins in Lung Squamous Cell Carcinoma, Front. Genet. Vol.11 Article185(2020.03.05.) 1부.* *
박치현 외, 암의 예후 예측을 위한 그래프 기반의 준지도 학습 방법, Journal of KIISE Vol.19 pp71-76(2013) 1부.* *
최종환 외, 암 예후를 효과적으로 예측하기 위한 Node2Vec 기반의 유전자 발현량 이미지 표현기법, KIPS Trans. Softw. and Data Eng. Vol.8 pp397-402(2019) 1부.* *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022124724A1 (ko) * 2020-12-07 2022-06-16 주식회사 온코크로스 기계 학습 기반의 예후 예측 방법 및 그 장치
WO2023234647A1 (ko) * 2022-05-31 2023-12-07 고려대학교 산학협력단 암 특이 표적 및 csp 패널 획득 방법 및 장치

Also Published As

Publication number Publication date
WO2022124724A1 (ko) 2022-06-16

Similar Documents

Publication Publication Date Title
Lopez-Garcia et al. Transfer learning with convolutional neural networks for cancer survival prediction using gene-expression data
Kar et al. Gene selection from microarray gene expression data for classification of cancer subgroups employing PSO and adaptive K-nearest neighborhood technique
US11462325B2 (en) Multimodal machine learning based clinical predictor
Kadurin et al. The cornucopia of meaningful leads: Applying deep adversarial autoencoders for new molecule development in oncology
JP7490576B2 (ja) 訓練された統計モデルを使用するマルチモーダル予測のための方法および装置
Ozyildirim et al. Generalized classifier neural network
Savareh et al. A machine learning approach identified a diagnostic model for pancreatic cancer through using circulating microRNA signatures
US11971963B2 (en) Methods and apparatus for multi-modal prediction using a trained statistical model
KR102299221B1 (ko) 기계 학습 기반의 예후 예측 방법 및 그 장치
Ceci et al. Semi-supervised multi-view learning for gene network reconstruction
US11967436B2 (en) Methods and apparatus for making biological predictions using a trained multi-modal statistical model
Gunavathi et al. A review on convolutional neural network based deep learning methods in gene expression data for disease diagnosis
Medina-Ortiz et al. Development of supervised learning predictive models for highly non-linear biological, biomedical, and general datasets
Soruri et al. Gene clustering with hidden Markov model optimized by PSO algorithm
Li et al. Prognostic prediction of carcinoma by a differential-regulatory-network-embedded deep neural network
Thakur et al. Machine learning techniques with ANOVA for the prediction of breast cancer
Sahu et al. MRMR-BAT-HS: a clinical decision support system for cancer diagnosis
Tahmouresi et al. Gene selection using pyramid gravitational search algorithm
KR102290875B1 (ko) 질병 예측 방법, 장치 및 컴퓨터 프로그램
Sethi et al. Long Short-Term Memory-Deep Belief Network based Gene Expression Data Analysis for Prostate Cancer Detection and Classification
Dhrif et al. A stable combinatorial particle swarm optimization for scalable feature selection in gene expression data
Zheng et al. Digital profiling of cancer transcriptomes from histology images with grouped vision attention
Chakraborty et al. Applications of Bayesian neural networks in prostate cancer study
Sathya et al. A search space enhanced modified whale optimization algorithm for feature selection in large-scale microarray datasets
Al-Baity et al. A New Optimized Wrapper Gene Selection Method for Breast Cancer Prediction.

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant