KR102515437B1 - 기계학습 기반 전립선암 위험도 산출 장치 및 방법과, 전립선암 위험도 산출 모델 생성 장치 및 방법 - Google Patents

기계학습 기반 전립선암 위험도 산출 장치 및 방법과, 전립선암 위험도 산출 모델 생성 장치 및 방법 Download PDF

Info

Publication number
KR102515437B1
KR102515437B1 KR1020200116339A KR20200116339A KR102515437B1 KR 102515437 B1 KR102515437 B1 KR 102515437B1 KR 1020200116339 A KR1020200116339 A KR 1020200116339A KR 20200116339 A KR20200116339 A KR 20200116339A KR 102515437 B1 KR102515437 B1 KR 102515437B1
Authority
KR
South Korea
Prior art keywords
prostate
prostate cancer
risk calculation
model
risk
Prior art date
Application number
KR1020200116339A
Other languages
English (en)
Other versions
KR20220033906A (ko
Inventor
서준교
정현
손환철
변석수
Original Assignee
서울대학교병원
주식회사 프로카젠
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교병원, 주식회사 프로카젠 filed Critical 서울대학교병원
Priority to KR1020200116339A priority Critical patent/KR102515437B1/ko
Publication of KR20220033906A publication Critical patent/KR20220033906A/ko
Application granted granted Critical
Publication of KR102515437B1 publication Critical patent/KR102515437B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/43Detecting, measuring or recording for evaluating the reproductive systems
    • A61B5/4375Detecting, measuring or recording for evaluating the reproductive systems for evaluating the male reproductive system
    • A61B5/4381Prostate evaluation or disorder diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/10ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Surgery (AREA)
  • Veterinary Medicine (AREA)
  • Animal Behavior & Ethology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Computational Linguistics (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medicinal Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Reproductive Health (AREA)
  • Gynecology & Obstetrics (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

일 양상에 따른 전립선암 위험도 산출 장치는 피험자의 임상 정보를 입력받는 데이터 입력부; 및 기계학습 기반의 위험도 산출 모델을 이용하여 상기 임상 정보로부터 상기 피험자의 전립선암 위험도 또는 임상적으로 의미있는 전립선암 위험도를 산출하는 위험도 산출부; 를 포함하고, 상기 임상 정보는 연령, 전립선 조직 검사 횟수, 혈청 전립선 특이 항원 수치, 혈청 유리 전립선 특이 항원 수치, 혈청 테스토스테론 수치, 총 전립선 부피, 전립선 전이 영역 부피 및 초음파상 저에코 병변을 포함한다.

Description

기계학습 기반 전립선암 위험도 산출 장치 및 방법과, 전립선암 위험도 산출 모델 생성 장치 및 방법{Apparatus and method for calculating risk of prostate cancer based on machine learning, Apparatus and method for generating risk calculation model of prostate cancer based on machine learning}
기계학습을 이용하여 전립선암의 위험도를 산출하는 기술과 관련된다.
전립선암은 남성의 가장 흔한 악성 종양이며, 두 번째로 높은 암 관련 사망 원인이다. 전립선 특이 항원 기반 스크리닝(prostate-specific antigen (PSA)-based screening)이 조기 검출을 보조하지만, 전립선암은 전립선 조직 검사(prostate biopsy)에 의해서만 확인될 수 있다. 그러나 전립선 조직 검사는 감염이나 출혈과 같은 합병증의 위험이 있으며, 전립선 특이 항원(PSA)이 높은 환자의 위험과 혜택을 평가하는 것은 임상의에게 어려운 일이다.
전립선 특이 항원은 양성 전립성 비대증 또는 전립선염과 같은 비악성 상태에서도 나타날 수 있다. 따라서, 전립선 특이 항원만을 이용하여 전립선 조직 검사를 위한 임상적 결정을 내리는 것은 쉽지 않은 일이다.
기계학습 기반 전립선암 위험도 산출 장치 및 방법과, 전립선암 위험도 산출 모델 생성 장치 및 방법을 제공하는 것을 목적으로 한다.
일 양상에 따른 전립선암 위험도 산출 장치는, 피험자의 임상 정보를 입력받는 데이터 입력부; 및 기계학습 기반의 위험도 산출 모델을 이용하여 상기 임상 정보로부터 상기 피험자의 전립선암 위험도 또는 임상적으로 의미있는 전립선암 위험도를 산출하는 위험도 산출부; 를 포함하고, 상기 임상 정보는 연령, 전립선 조직 검사 횟수, 혈청 전립선 특이 항원 수치, 혈청 유리 전립선 특이 항원 수치, 혈청 테스토스테론 수치, 총 전립선 부피, 전립선 전이 영역 부피 및 초음파상 저에코 병변을 포함할 수 있다.
상기 위험도 산출 모델은 트리 기반 기계학습 알고리즘을 이용하여 미리 생성될 수 있다.
상기 트리 기반 기계학습 알고리즘은 XGboost(Extreme Gradient Boost), ADAboost(Adaptive Boost), Light GBM(Light Gradient Boost Machine)을 포함할 수 있다.
상기 위험도 산출 모델은 전립선암 위험도를 산출하는 제1 위험도 산출 모델과 임상적으로 의미있는 전립선암 위험도를 산출하는 제2 위험도 산출 모델을 포함할 수 있다.
전립선암 위험도 산출 장치는, 상기 피험자의 조직 검사 결과 최종 판단된 전립선암 진단 결과 또는 임상적으로 의미있는 전립선암 진단 결과를 피드백으로 입력받는 피드백 입력부; 및 상기 피드백과 상기 임상 정보를 기반으로 상기 위험도 산출 모델을 갱신하는 모델 갱신부; 를 더 포함할 수 있다.
다른 실시예에 따른 전립선암 위험도 산출 모델 생성 장치는, 다수 환자들에 대한 임상 정보와, 그에 대응하는 전립선암 진단 결과 또는 임상적으로 의미있는 전립선암 진단 결과를 학습 데이터로 수집하는 학습 데이터 수집부; 및 상기 수집된 학습 데이터를 기반으로 기계학습 모델을 학습시켜 전립선암 위험도 또는 임상적으로 의미있는 전립선암 위험도를 산출하는 위험도 산출 모델을 생성하는 모델 생성부; 를 포함하고, 상기 임상 정보는 연령, 전립선 조직 검사 횟수, 혈청 전립선 특이 항원 수치, 혈청 유리 전립선 특이 항원 수치, 혈청 테스토스테론 수치, 총 전립선 부피, 전립선 전이 영역 부피 및 초음파상 저에코 병변을 포함할 수 있다.
상기 학습 데이터 수집부는 상기 수집된 임상 정보에 결측치가 존재하면 다중 대치 알고리즘을 이용하여 상기 결측치를 처리할 수 있다.
상기 기계학습 모델은 트리 기반 기계학습 모델일 수 있다.
상기 트리 기반 기계학습 모델은 XGboost(Extreme Gradient Boost), ADAboost(Adaptive Boost), Light GBM(Light Gradient Boost Machine)을 포함할 수 있다.
상기 모델 생성부는, 연령, 전립선 조직 검사 횟수, 혈청 전립선 특이 항원 수치, 혈청 유리 전립선 특이 항원 수치, 혈청 테스토스테론 수치, 총 전립선 부피, 전립선 전이 영역 부피 및 초음파상 저에코 병변과, 이에 대응하는 전립선암 진단 결과를 기반으로 기계학습 모델을 학습시켜 전립선암 위험도를 산출하는 제1 위험도 산출 모델을 생성하고, 연령, 혈청 전립선 특이 항원 수치, 혈청 유리 전립선 특이 항원 수치, 혈청 테스토스테론 수치, 총 전립선 부피, 전립선 전이 영역 부피 및 초음파상 저에코 병변과, 이에 대응하는 임상적으로 의미있는 전립선암 진단 결과를 기반으로 기계학습 모델을 학습시켜 임상적으로 의미있는 전립선암 위험도를 산출하는 제2 위험도 산출 모델을 생성할 수 있다.
또 다른 실시예에 따른 전립선암 위험도 산출 장치의 전립선암 위험도 산출 방법은, 피험자의 임상 정보를 입력받는 단계; 및 기계학습 기반의 위험도 산출 모델을 이용하여 상기 임상 정보로부터 상기 피험자의 전립선암 위험도 또는 임상적으로 의미있는 전립선암 위험도를 산출하는 단계; 를 포함하고, 상기 임상 정보는 연령, 전립선 조직 검사 횟수, 혈청 전립선 특이 항원 수치, 혈청 유리 전립선 특이 항원 수치, 혈청 테스토스테론 수치, 총 전립선 부피, 전립선 전이 영역 부피 및 초음파상 저에코 병변을 포함할 수 있다.
상기 위험도 산출 모델은 트리 기반 기계학습 알고리즘을 이용하여 미리 생성될 수 있다.
상기 트리 기반 기계학습 알고리즘은 XGboost(Extreme Gradient Boost), ADAboost(Adaptive Boost), Light GBM(Light Gradient Boost Machine)을 포함할 수 있다.
상기 위험도 산출 모델은 전립선암 위험도를 산출하는 제1 위험도 산출 모델과 임상적으로 의미있는 전립선암 위험도를 산출하는 제2 위험도 산출 모델을 포함할 수 있다.
전립선암 위험도 산출 방법은, 상기 피험자의 조직 검사 결과 최종 판단된 전립선암 위험도 산출 결과 또는 임상적으로 의미있는 전립선암 위험도 산출 결과를 피드백으로 입력받는 단계; 및 상기 피드백과 상기 임상 정보를 기반으로 상기 위험도 산출 모델을 갱신하는 단계; 를 더 포함할 수 있다.
또 다른 양상에 따른 전립선암 위험도 산출 모델 생성 장치의 전립선암 위험도 산출 모델 생성 방법은, 다수 환자들에 대한 임상 정보와, 그에 대응하는 전립선암 진단 결과 또는 임상적으로 의미있는 전립선암 진단 결과를 학습 데이터로 수집하는 단계; 및 상기 수집된 학습 데이터를 기반으로 기계학습 모델을 학습시켜 전립선암 위험도 또는 임상적으로 의미있는 전립선암 위험도를 산출하는 위험도 산출 모델을 생성하는 단계; 를 포함하고, 상기 임상 정보는 연령, 전립선 조직 검사 횟수, 혈청 전립선 특이 항원 수치, 혈청 유리 전립선 특이 항원 수치, 혈청 테스토스테론 수치, 총 전립선 부피, 전립선 전이 영역 부피 및 초음파상 저에코 병변을 포함할 수 있다.
전립선암 위험도 산출 모델 생성 방법은, 상기 수집된 임상 정보에 결측치가 존재하면 다중 대치 알고리즘을 이용하여 상기 결측치를 처리하는 단계; 를 더 포함할 수 있다.
상기 기계학습 모델은 트리 기반 기계학습 모델일 수 있다.
상기 트리 기반 기계학습 모델은 XGboost(Extreme Gradient Boost), ADAboost(Adaptive Boost), Light GBM(Light Gradient Boost Machine)을 포함할 수 있다.
상기 위험도 산출 모델을 생성하는 단계는, 연령, 전립선 조직 검사 횟수, 혈청 전립선 특이 항원 수치, 혈청 유리 전립선 특이 항원 수치, 혈청 테스토스테론 수치, 총 전립선 부피, 전립선 전이 영역 부피 및 초음파상 저에코 병변과, 이에 대응하는 전립선암 진단 결과를 기반으로 기계학습 모델을 학습시켜 전립선암 위험도를 산출하는 제1 위험도 산출 모델을 생성하는 단계; 및 연령, 혈청 전립선 특이 항원 수치, 혈청 유리 전립선 특이 항원 수치, 혈청 테스토스테론 수치, 총 전립선 부피, 전립선 전이 영역 부피 및 초음파상 저에코 병변과, 이에 대응하는 임상적으로 의미있는 전립선암 진단 결과를 기반으로 기계학습 모델을 학습시켜 임상적으로 의미있는 전립선암 위험도를 산출하는 제2 위험도 산출 모델을 생성하는 단계; 를 포함할 수 있다.
기계학습 기반으로 전립선암 위험도 또는 임상적으로 의미있는 전립선암 위험도를 산출하기 모델을 생성하여 이용함으로써, 전립선암 위험도 또는 임상적으로 의미있는 전립선암 위험도를 정확하고 용이하게 판단하고 전립선 조직 검사를 위한 임상적 결정에 이용할 수 있다.
도 1은 일 실시예에 따른 전립선암 위험도 예측 시스템을 도시한 도면이다.
도 2는 일 실시예에 따른 전립선암 위험도 산출 모델 생성 장치를 도시한 도면이다.
도 3은 일 실시예에 따른 전립선암 위험도 산출 장치를 도시한 도면이다.
도 4는 다른 실시예에 따른 전립선암 위험도 산출 장치를 도시한 도면이다.
도 5는 일 실시예에 따른 전립선암 위험도 산출 모델 생성 방법을 도시한 도면이다.
도 6은 일 실시예에 따른 전립선암 위험도 산출 방법을 도시한 도면이다.
도 7은 다른 실시예에 따른 전립선암 위험도 산출 방법을 도시한 도면이다.
도 8은 실험예에 따른 제1 위험도 산출 모델의 성능을 도시한 도면이다.
도 9는 실험예에 따른 제2 위험도 산출 모델의 성능을 도시한 도면이다.
도 10은 실험예에 따른 제1 위험도 산출 모델에서 각 특징의 중요도를 도시한 도면이다.
도 11은 실험예에 따른 제2 위험도 산출 모델에서 각 특징의 중요도를 도시한 도면이다.
도 12는 PSA가 3-10인 그룹에 대한 제1 위험도 산출 모델의 성능을 도시한 도면이다.
도 13은 PSA가 10-20인 그룹에 대한 제1 위험도 산출 모델의 성능을 도시한 도면이다.
도 14는 PSA가 3-10인 그룹에 대한 제2 위험도 산출 모델의 성능을 도시한 도면이다.
도 15은 PSA가 10-20인 그룹에 대한 제2 위험도 산출 모델의 성능을 도시한 도면이다.
이하, 첨부된 도면을 참조하여 본 발명의 일 실시예를 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다.
한편, 각 단계들에 있어, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않은 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 단계들은 명기된 순서와 동일하게 수행될 수 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.
후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 용어들에 의해 한정되어서는 안 된다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함하고, '포함하다' 또는 '가지다' 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
또한, 본 명세서에서의 구성부들에 대한 구분은 각 구성부가 담당하는 주 기능별로 구분한 것에 불과하다. 즉, 2개 이상의 구성부가 하나의 구성부로 합쳐지거나 또는 하나의 구성부가 보다 세분화된 기능별로 2개 이상으로 분화되어 구비될 수도 있다. 그리고 구성부 각각은 자신이 담당하는 주기능 이외에도 다른 구성부가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성부 각각이 담당하는 주기능 중 일부 기능이 다른 구성부에 의해 전담되어 수행될 수도 있다. 각 구성부는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
도 1은 일 실시예에 따른 전립선암 위험도 예측 시스템을 도시한 도면이고, 도 2는 일 실시예에 따른 전립선암 위험도 산출 모델 생성 장치를 도시한 도면이고, 도 3은 일 실시예에 따른 전립선암 위험도 산출 장치를 도시한 도면이다.
도 1을 참조하면, 일 실시예에 따른 전립선암 위험도 예측 시스템(100)은 전립선암 위험도 산출 모델 생성 장치(110) 및 전립선암 위험도 산출 장치(120)를 포함할 수 있다.
전립선암 위험도 산출 모델 생성 장치(110)는 기계학습 알고리즘을 기반으로 전립선암 위험도 및/또는 임상적으로 의미있는 전립선암 위험도를 산출하는 위험도 산출 모델을 생성할 수 있다. 이때, 기계학습 알고리즘은 트리 기반 기계학습 알고리즘(예컨대, XGboost(Extreme Gradient Boost), ADAboost(Adaptive Boost) 또는 Light GBM(Light Gradient Boost Machine) 등), 딥러닝 알고리즘, K-근접 이웃 알고리즘, 나이브 베이즈 분류(Naㅿve Bayes Classification) 알고리즘, 신경망(Neural Networks) 알고리즘(예컨대, feed-forward neural network(FFNN) 등), 서포트 벡터 머신(Support Vector Machines) 등일 수 있으나, 이에 한정되는 것은 아니다. 임상적으로 의미있는 전립선암은 글리슨 등급의 3 내지 5 그룹에 속하는 전립선암으로 정의될 수 있다.
전립선암 위험도 산출 모델 생성 장치(110)는 도 2에 도시된 바와 같이, 학습 데이터 수집부(210) 및 모델 생성부(220)를 포함할 수 있다.
학습 데이터 수집부(210)는 위험도 산출 모델 생성에 이용될 학습 데이터를 수집할 수 있다.
보다 구체적으로, 학습 데이터 수집부(210)는 외부 장치로부터 다수의 환자들에 대한 임상 정보(clinical information)와, 그에 대응하는 전립선암 진단 결과 및/또는 임상적으로 의미있는 전립선암 진단 결과를 학습 데이터로서 수집할 수 있다. 여기서 임상 정보는 연령, 전립선 조직 검사 횟수, 혈청 전립선 특이 항원 수치(serum prostate-specific antigen(PSA) level), 혈청 유리 전립선 특이 항원 수치(serum free PSA level), 혈청 테스토스테론 수치(serum testosterone level), 총 전립선 부피(total prostate volume), 전립선 전이 영역 부피(prostate transitional zone volume) 및 초음파상 저에코 병변(hypoechoic lesion on ultrasonography) 등을 포함할 수 있다.
이때, 학습 데이터 수집부(210)는 외부 장치로부터 학습 데이터를 획득하기 위하여 다양한 유무선 통신 기술을 이용할 수 있다. 또한, 외부 장치는 전자 건강 기록(예컨대, EHR(electronic health record) 또는 EMR(electronic medical record))을 저장하는 장치 또는 서버일 수 있다.
학습 데이터 수집부(210)는 수집된 임상 정보에 결측치가 존재하면, 결측치를 처리할 수 있다. 일 실시예에 따르면, 학습 데이터 수집부(210)는 결측치를 삭제하는 방법, 결측치를 대치하는 방법 및 결측치가 없는 변수들로 구성된 데이터 세트로 결측치를 진단하는 방법 등 다양한 방법을 이용하여 결측치를 처리할 수 있다. 보다 바람직하게, 학습 데이터 수집부(210)는 결측치를 대치하는 방법, 예컨대 Mice, Amelia, MissForest, Hmisc, Mi 등을 포함하는 다중 대치 알고리즘을 이용하여 결측치를 처리할 수 있다.
모델 생성부(220)는 수집된 학습 데이터를 기반으로 기계학습 모델을 학습시켜 전립선암 위험도 및/또는 임상적으로 의미있는 전립선암 위험도를 산출하는 위험도 산출 모델을 생성할 수 있다. 이때, 위험도 산출 모델은 전립선암 위험도 및 임상적으로 의미있는 전립선암 위험도를 산출하는 하나의 통합 위험도 산출 모델일 수 있다. 또는, 위험도 산출 모델은 전립선암 위험도를 산출하는 제1 위험도 산출 모델 및 임상적으로 의미있는 전립선암 위험도를 산출하는 제2 위험도 산출 모델을 포함할 수도 있다.
예를 들면, 모델 생성부(220)는 다수의 환자들에 대한 연령, 전립선 조직 검사 횟수, 혈청 전립선 특이 항원 수치, 혈청 유리 전립선 특이 항원 수치, 혈청 테스토스테론 수치, 총 전립선 부피, 전립선 전이 영역 부피 및 초음파상 저에코 병변과, 이들에 대응하는 전립선암 진단 결과 및 임상적으로 의미있는 전립선암 진단 결과를 기반으로 기계학습 모델을 학습시켜 전립선암 위험도 및 임상적으로 의미있는 전립선암 위험도를 산출하는 하나의 통합 위험도 산출 모델을 생성할 수 있다.
다른 예를 들면, 모델 생성부(220)는 다수의 환자들에 대한 연령, 전립선 조직 검사 횟수, 혈청 전립선 특이 항원 수치, 혈청 유리 전립선 특이 항원 수치, 혈청 테스토스테론 수치, 총 전립선 부피, 전립선 전이 영역 부피 및 초음파상 저에코 병변과, 이들에 대응하는 전립선암 진단 결과를 기반으로 기계학습 모델을 학습시켜 전립선암 위험도를 산출하는 제1 위험도 산출 모델을 생성할 수 있다.
또 다른 예를 들면, 모델 생성부(220)는 다수의 환자들에 대한 연령, 혈청 전립선 특이 항원 수치, 혈청 유리 전립선 특이 항원 수치, 혈청 테스토스테론 수치, 총 전립선 부피, 전립선 전이 영역 부피 및 초음파상 저에코 병변과, 이들에 대응하는 임상적으로 의미있는 전립선암 진단 결과를 기반으로 기계학습 모델을 학습시켜 임상적으로 의미있는 전립선암 위험도를 산출하는 제2 위험도 산출 모델을 생성할 수 있다.
일 실시예에 따르면, 기계학습 모델은 트리 기반 기계학습 모델(예컨대, XGboost(Extreme Gradient Boost), ADAboost(Adaptive Boost) 또는 Light GBM(Light Gradient Boost Machine) 등), 딥러닝, K-근접 이웃, 나이브 베이즈 분류(Naㅿve Bayes Classification), 신경망(Neural Networks)(예컨대, feed-forward neural network(FFNN) 등), 서포트 벡터 머신(Support Vector Machines) 등을 포함할 수 있다. 보다 바람직하게, 기계학습 모델은 트리 기반 기계학습 모델일 수 있다.
한편, 일 실시예에 따르면, 모델 생성부(220)는 기계학습 모델의 하이퍼 파라미터를 최적화할 수 있다. 예컨대, 모델 생성부(220)는 베이지안 최적화(Bayesizan Optimization) 알고리즘을 통해 기계학습 모델의 하이퍼 파라미터를 최적화할 수 있다.
전립선암 위험도 산출 장치(120)는 전립선암 위험도 산출 모델 생성 장치(110)에서 생성된 위험도 산출 모델을 이용하여 피험자의 전립선암 위험도 및/또는 임상적으로 의미있는 전립선암 위험도를 산출할 수 있다.
전립선암 위험도 산출 장치(120)는 도 3에 도시된 바와 같이, 데이터 입력부(310), 저장부(320) 및 위험도 산출부(330)를 포함할 수 있다.
데이터 입력부(310)는 사용자로부터 전립선암 위험도 및/또는 임상적으로 의미있는 전립선암 위험도를 산출에 이용되는 피험자의 임상 정보를 입력받을 수 있다. 임상 정보는 전술한 바와 같이, 연령, 전립선 조직 검사 횟수, 혈청 전립선 특이 항원 수치, 혈청 유리 전립선 특이 항원 수치, 혈청 테스토스테론 수치, 총 전립선 부피, 전립선 전이 영역 부피, 초음파상 저에코 병변 등을 포함할 수 있다.
일 실시예에 따르면, 데이터 입력부(310)는 키 패드(key pad), 돔 스위치(dome switch), 터치 패드(touch pad), 조그 휠(Jog wheel), 조그 스위치(Jog switch), H/W 버튼 등을 포함할 수 있다. 특히, 터치 패드가 디스플레이와 상호 레이어 구조를 이룰 경우, 이를 터치 스크린이라 부를 수 있다.
저장부(320)는 전립선암 위험도 산출 모델 생성 장치(110)에서 생성된 위험도 산출 모델을 저장할 수 있다. 저장부(320)는 플래시 메모리 타입(flash memory type), 하드 디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예컨대, SD 또는 XD 메모리 등), 램(Random Access Memory, RAM), SRAM(Static Random Access Memory), 롬(Read Only Memory, ROM), EEPROM(Electrically Erasable Programmable Read Only Memory), PROM(Programmable Read Only Memory), 자기 메모리, 자기 디스크, 광디스크 등 적어도 하나의 타입의 저장매체를 포함할 수 있다.
위험도 산출부(330)는 데이터 입력부(310)를 통해 입력된 피험자의 임상 정보와 저장부(320)에 저장된 위험도 산출 모델을 이용하여 피험자의 전립선암 위험도 및/또는 임상적으로 의미있는 전립선암 위험도를 산출할 수 있다. 보다 구체적으로 데이터 입력부(310)는 피험자의 임상 정보를 위험도 산출 모델에 입력하여 피험자의 전립선암 위험도 및/또는 임상적으로 의미있는 전립선암 위험도를 산출할 수 있다.
예를 들면, 위험도 산출부(330)는 하나의 통합 위험도 산출 모델을 이용하여 피험자의 전립선암 위험도 및 임상적으로 의미있는 전립선암 위험도를 산출할 수 있다. 다른 예를 들면, 위험도 산출부(330)는 제1 위험도 산출 모델을 이용하여 피험자의 전립선암 위험도를 산출할 수 있다. 또 다른 예를 들면, 위험도 산출부(330)는 제2 위험도 산출 모델을 이용하여 피험자의 전립선암 위험도를 산출할 수 있다.
도 4는 다른 실시예에 따른 전립선암 위험도 산출 장치를 도시한 도면이다. 도 4의 전립선암 위험도 산출 장치(400)는 도 1의 전립선암 위험도 산출 장치(120)의 다른 실시예일 수 있다.
도 4를 참조하면, 전립선암 위험도 산출 장치(400)는 데이터 입력부(310), 저장부(320), 위험도 산출부(330), 피드백 입력부(410), 모델 갱신부(420) 통신부(430) 및 출력부(440)를 포함할 수 있다. 여기서 데이터 입력부(310), 저장부(320) 및 위험도 산출부(330)는 도 3을 참조하여 전술한 바와 같으므로 그 상세한 설명은 생략하기로 한다.
피드백 입력부(410)는 피험자의 조직 검사 결과 최종 판단된 전립선암 진단 결과 및/또는 임상적으로 의미있는 전립선암 진단 결과를 피드백으로 입력받을 수 있다. 일 실시예에 따르면, 피드백 입력부(410)는 키 패드(key pad), 돔 스위치(dome switch), 터치 패드(touch pad), 조그 휠(Jog wheel), 조그 스위치(Jog switch), H/W 버튼 등을 포함할 수 있다.
모델 갱신부(420)는 데이터 입력부(310)를 통해 입력받은 피험자의 임상 정보와, 피드백 입력부(410)를 통해 입력받은 전립선암 진단 결과 및/또는 임상적으로 의미있는 전립선암 진단 결과를 기반으로 기 저장된 위험도 산출 모델을 갱신할 수 있다. 예컨대, 모델 갱신부(420)는 데이터 입력부(310)를 통해 입력받은 피험자의 임상 정보와, 피드백 입력부(410)를 통해 입력받은 전립선암 진단 결과 및/또는 임상적으로 의미있는 전립선암 진단 결과를 새로운 학습 데이터로 하여, 기 저장된 위험도 산출 모델을 추가 학습시킬 수 있다. 이에 따라 위험도 산출부(330)의 전립선암 위험도 및/또는 임상적으로 의미있는 전립선암 위험도의 산출 정확도를 높일 수 있다.
통신부(430)는 외부 장치와 통신을 수행할 수 있다. 예컨대, 통신부(423)는 전립선암 위험도 산출 장치(400)에 입력된 데이터, 저장된 데이터, 처리된 데이터 등을 외부 장치로 전송하거나, 외부 장치로부터 전립선암 위험도 및/또는 임상적으로 의미있는 전립선암 위험도의 산출에 도움이 되는 다양한 데이터를 수신할 수 있다.
이때, 외부 장치는 전립선암 위험도 산출 모델 생성 장치(110)일 수도 있으며, 전립선암 위험도 산출 장치(400)에 입력된 데이터, 저장된 데이터, 처리된 데이터 등을 사용하는 의료 장비, 결과물을 출력하기 위한 프린트 또는 디스플레이 장치일 수도 있다. 이외에도 외부 장치는 디지털 TV, 데스크탑 컴퓨터, 휴대폰, 스마트 폰, 태블릿, 노트북, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 네비게이션 장치, MP3 플레이어, 디지털 카메라, 웨어러블 디바이스 등 일 수도 있으나, 이에 제한되지 않는다.
통신부(430)는 유무선 통신 기술을 이용하여 외부 장치와 통신할 수 있다. 이때 무선 통신 기술은 블루투스(bluetooth) 통신, BLE(Bluetooth Low Energy) 통신, 근거리 무선 통신(Near Field Communication, NFC), WLAN 통신, 지그비(Zigbee) 통신, 적외선(Infrared Data Association, IrDA) 통신, WFD(Wi-Fi Direct) 통신, UWB(ultra-wideband) 통신, Ant+ 통신, WIFI 통신, RFID(Radio Frequency Identification) 통신, 3G 통신, 4G 통신 및 5G 통신 등을 포함할 수 있으나 이는 일 예에 불과할 뿐이며, 이에 한정되는 것은 아니다.
출력부(440)는 전립선암 위험도 산출 장치(400)에 입력된 데이터, 저장된 데이터, 처리된 데이터 등을 출력할 수 있다. 예컨대, 전립선암 위험도 산출 장치(400)는 데이터 입력부(310) 및 피드백 입력부(410)를 통해 입력된 데이터, 위험도 산출부(330)를 통해 산출된 전립선암 위험도 및/또는 임상적으로 의미있는 전립선암 위험도 등을 출력할 수 있다.
일 실시예에 따르면, 출력부(440)는 전립선암 위험도 산출 장치(400)에 입력된 데이터, 저장된 데이터, 처리된 데이터 등을 청각적 방법, 시각적 방법 및 촉각적 방법 중 적어도 하나의 방법으로 출력할 수 있다. 이를 위해 출력부(440)는 디스플레이, 스피커, 진동기 등을 포함할 수 있다.
한편, 도 4는 데이터 입력부(310)와 피드백 입력부(410)를 별개의 구성부로 도시하였으나 이에 한정되는 것은 아니며, 데이터 입력부(310) 및 피드백 입력부(410)가 하나의 구성부로 통합될 수도 있다.
또한, 실시예에 따라서는 모델 갱신부(420)의 기능을 전립선암 위험도 산출 모델 생성 장치(110)가 수행할 수도 있다.
도 5는 일 실시예에 따른 전립선암 위험도 산출 모델 생성 방법을 도시한 도면이다.
도 5의 전립선암 위험도 산출 모델 생성 방법은 도 2의 전립선암 위험도 산출 모델 생성 장치(110)에 의해 수행될 수 있다.
도 2 및 도 5를 참조하면, 전립선암 위험도 산출 모델 생성 장치(110)는 위험도 산출 모델 생성에 이용될 학습 데이터를 수집한다(510). 예컨대, 전립선암 위험도 산출 모델 생성 장치(110)는 외부 장치로부터 다수의 환자들에 대한 임상 정보(clinical information)와, 그에 대응하는 전립선암 진단 결과 및/또는 임상적으로 의미있는 전립선암 진단 결과를 학습 데이터로서 수집할 수 있다. 여기서 임상 정보는 연령, 전립선 조직 검사 횟수, 혈청 전립선 특이 항원 수치(serum prostate-specific antigen(PSA) level), 혈청 유리 전립선 특이 항원 수치(serum free PSA level), 혈청 테스토스테론 수치(serum testosterone level), 총 전립선 부피(total prostate volume), 전립선 전이 영역 부피(prostate transitional zone volume) 및 초음파상 저에코 병변(hypoechoic lesion on ultrasonography) 등을 포함할 수 있다.
전립선암 위험도 산출 모델 생성 장치(110)는 수집된 임상 정보에 결측치가 존재하면, 결측치를 처리한다(520). 예컨대, 전립선암 위험도 산출 모델 생성 장치(110)는 결측치를 삭제하는 방법, 결측치를 대치하는 방법 및 결측치가 없는 변수들로 구성된 데이터 세트로 결측치를 진단하는 방법 등 다양한 방법을 이용하여 결측치를 처리할 수 있다. 보다 바람직하게, 전립선암 위험도 산출 모델 생성 장치(110)는 결측치를 대치하는 방법, 예컨대 Mice, Amelia, MissForest, Hmisc, Mi 등을 포함하는 다중 대치 알고리즘을 이용하여 결측치를 처리할 수 있다.
전립선암 위험도 산출 모델 생성 장치(110)는 수집된 학습 데이터를 기반으로 기계학습 모델을 학습시켜 전립선암 위험도 및/또는 임상적으로 의미있는 전립선암 위험도를 산출하는 위험도 산출 모델을 생성한다(530). 일 실시예에 따르면, 기계학습 모델은 트리 기반 기계학습 모델(예컨대, XGboost(Extreme Gradient Boost), ADAboost(Adaptive Boost) 또는 Light GBM(Light Gradient Boost Machine) 등), 딥러닝, K-근접 이웃, 나이브 베이즈 분류(Naㅿve Bayes Classification), 신경망(Neural Networks)(예컨대, feed-forward neural network(FFNN) 등), 서포트 벡터 머신(Support Vector Machines) 등을 포함할 수 있다. 보다 바람직하게, 기계학습 모델은 트리 기반 기계학습 알고리즘일 수 있다.
위험도 산출 모델은 전립선암 위험도 및 임상적으로 의미있는 전립선암 위험도를 산출하는 하나의 통합 위험도 산출 모델일 수 있다. 또는, 위험도 산출 모델은 전립선암 위험도를 산출하는 제1 위험도 산출 모델 및 임상적으로 의미있는 전립선암 위험도를 산출하는 제2 위험도 산출 모델을 포함할 수도 있다.
예를 들면, 전립선암 위험도 산출 모델 생성 장치(110)는 다수의 환자들에 대한 연령, 전립선 조직 검사 횟수, 혈청 전립선 특이 항원 수치, 혈청 유리 전립선 특이 항원 수치, 혈청 테스토스테론 수치, 총 전립선 부피, 전립선 전이 영역 부피 및 초음파상 저에코 병변과, 이들에 대응하는 전립선암 진단 결과 및 임상적으로 의미있는 전립선암 진단 결과를 기반으로 기계학습 모델을 학습시켜 전립선암 위험도 및 임상적으로 의미있는 전립선암 위험도를 산출하는 하나의 통합 위험도 산출 모델을 생성할 수 있다.
다른 예를 들면, 전립선암 위험도 산출 모델 생성 장치(110)는 다수의 환자들에 대한 연령, 전립선 조직 검사 횟수, 혈청 전립선 특이 항원 수치, 혈청 유리 전립선 특이 항원 수치, 혈청 테스토스테론 수치, 총 전립선 부피, 전립선 전이 영역 부피 및 초음파상 저에코 병변과, 이들에 대응하는 전립선암 진단 결과를 기반으로 기계학습 모델을 학습시켜 전립선암 위험도를 산출하는 제1 위험도 산출 모델을 생성할 수 있다.
또 다른 예를 들면, 전립선암 위험도 산출 모델 생성 장치(110)는 다수의 환자들에 대한 연령, 혈청 전립선 특이 항원 수치, 혈청 유리 전립선 특이 항원 수치, 혈청 테스토스테론 수치, 총 전립선 부피, 전립선 전이 영역 부피 및 초음파상 저에코 병변과, 이들에 대응하는 임상적으로 의미있는 전립선암 진단 결과를 기반으로 기계학습 모델을 학습시켜 임상적으로 의미있는 전립선암 위험도를 산출하는 제2 위험도 산출 모델을 생성할 수 있다.
한편, 일 실시예에 따르면, 전립선암 위험도 산출 모델 생성 장치(110)는 위험도 산출 모델 생성 과정(530)에서 기계학습 모델의 하이퍼 파라미터를 최적화할 수 있다. 예컨대, 전립선암 위험도 산출 모델 생성 장치(110)는 베이지안 최적화(Bayesizan Optimization) 알고리즘을 통해 기계학습 모델의 하이퍼 파라미터를 최적화할 수 있다.
도 6은 일 실시예에 따른 전립선암 위험도 산출 방법을 도시한 도면이다.
도 6의 전립선암 위험도 산출 방법은 도 3의 전립선암 위험도 산출 장치(120)에 의해 수행될 수 있다.
도 3 및 도 6을 참조하면, 전립선암 위험도 산출 장치(120)는 사용자로부터 전립선암 위험도 및/또는 임상적으로 의미있는 전립선암 위험도를 산출에 이용되는 피험자의 임상 정보를 입력받는다(610). 임상 정보는 전술한 바와 같이, 연령, 전립선 조직 검사 횟수, 혈청 전립선 특이 항원 수치, 혈청 유리 전립선 특이 항원 수치, 혈청 테스토스테론 수치, 총 전립선 부피, 전립선 전이 영역 부피, 초음파상 저에코 병변 등을 포함할 수 있다.
전립선암 위험도 산출 장치(120)는 입력된 피험자의 임상 정보와 기 저장된 위험도 산출 모델을 이용하여 피험자의 전립선암 위험도 및/또는 임상적으로 의미있는 전립선암 위험도를 산출한다(620). 보다 구체적으로 전립선암 위험도 산출 장치(120)는 피험자의 임상 정보를 위험도 산출 모델에 입력하여 피험자의 전립선암 위험도 및/또는 임상적으로 의미있는 전립선암 위험도를 산출할 수 있다.
예를 들면, 전립선암 위험도 산출 장치(120)는 하나의 통합 위험도 산출 모델을 이용하여 피험자의 전립선암 위험도 및 임상적으로 의미있는 전립선암 위험도를 산출할 수 있다. 다른 예를 들면, 전립선암 위험도 산출 장치(120)는 제1 위험도 산출 모델을 이용하여 피험자의 전립선암 위험도를 산출할 수 있다. 또 다른 예를 들면, 전립선암 위험도 산출 장치(120)는 제2 위험도 산출 모델을 이용하여 피험자의 임상적으로 의미있는 전립선암 위험도를 산출할 수 있다.
도 7은 다른 실시예에 따른 전립선암 위험도 산출 방법을 도시한 도면이다.
도 7의 전립선암 위험도 산출 방법은 도 4의 전립선암 위험도 산출 장치(400)에 의해 수행될 수 있다.
도 4 및 도 7을 참조하면, 전립선암 위험도 산출 장치(400)는 사용자로부터 전립선암 위험도 및/또는 임상적으로 의미있는 전립선암 위험도를 산출에 이용되는 피험자의 임상 정보를 입력받는다(710).
전립선암 위험도 산출 장치(400)는 입력된 피험자의 임상 정보와 기 저장된 위험도 산출 모델을 이용하여 피험자의 전립선암 위험도 및/또는 임상적으로 의미있는 전립선암 위험도를 산출한다(720).
전립선암 위험도 산출 장치(400)는 피험자의 조직 검사 결과 최종 판단된 전립선암 진단 결과 및/또는 임상적으로 의미있는 전립선암 진단 결과를 사용자로부터 피드백으로 입력받는다(730).
전립선암 위험도 산출 장치(400)는 단계 710에서 입력받은 피험자의 임상 정보와, 단계 730에서 입력받은 전립선암 진단 결과 및/또는 임상적으로 의미있는 전립선암 진단 결과를 기반으로 기 저장된 위험도 산출 모델을 갱신한다(740). 예컨대, 전립선암 위험도 산출 장치(400)는 피험자의 임상 정보와, 전립선암 진단 결과 및/또는 임상적으로 의미있는 전립선암 진단 결과를 새로운 학습 데이터로 하여, 기 저장된 위험도 산출 모델을 추가 학습시킬 수 있다.
본 발명의 일 양상은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수 있다. 상기의 프로그램을 구현하는 코드들 및 코드 세그먼트들은 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함할 수 있다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 디스크 등을 포함할 수 있다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드로 작성되고 실행될 수 있다.
이제까지 본 발명에 대하여 그 바람직한 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 따라서, 본 발명의 범위는 전술한 실시 예에 한정되지 않고 특허 청구범위에 기재된 내용과 동등한 범위 내에 있는 다양한 실시 형태가 포함되도록 해석되어야 할 것이다.
[실험예]
환자 3791명의 임상 정보를 수집하였다. 수집된 임상 정보에는 연령, 전립선 조직 검사 횟수, 체질량지수(BMI), 혈청 크레아티닌 레벨, 직장 수지 검사의 이상(abnormality in digital rectal exam), 혈청 전립선 특이 항원 수치(serum PSA level), 혈청 유리 전립선 특이 항원 수치(serum free PSA level), 혈청 테스토스테론 수치(serum testosterone level), 총 전립선 부피(total prostate volume), 전립선 전이 영역 부피(prostate transitional zone volume) 및 초음파상 저에코 병변(hypoechoic lesion on ultrasonography) 등 총 11가지 특징들이 포함되었다.
수집된 임상 정보를 랜덤하게 분할하여 2843명의 임상 정보를 학습 세트로서 위험도 산출 모델 생성에 이용하고, 948명의 임상 정보를 검증 세트로서 위험도 산출 모델의 성능 검증에 이용하였다.
라쏘(least absolute shrinkage and selection operator, LASSO) 회귀 및 벌점화 우도 기법(penalized likelihood)을 이용하여 학습 세트의 11가지 특징들 중 전립선암에 독립적으로 영향을 미치는 특징과 임상적으로 의미있는 전립선암에 독립적으로 영향을 미치는 특징을 확인하였다.
그 결과, 전립선암에 독립적으로 영향을 미치는 특징으로 연령, 전립선 조직 검사 횟수, 혈청 전립선 특이 항원 수치, 혈청 유리 전립선 특이 항원 수치, 혈청 테스토스테론 수치, 총 전립선 부피, 전립선 전이 영역 부피, 초음파상 저에코 병변 총 8가지 특징들이 확인되었으며, 임상적으로 의미있는 전립선암에 독립적으로 영향을 미치는 특징으로 연령, 혈청 전립선 특이 항원 수치, 혈청 유리 전립선 특이 항원 수치, 혈청 테스토스테론 수치, 총 전립선 부피, 전립선 전이 영역 부피, 초음파상 저에코 병변 총 7가지 특징들이 확인되었다.
수집된 임상 정보들에서 결측값은 다중 대치 알고리즘인 MissForest를 이용하여 대치한 후, 위험도 산출 모델의 개발을 위해 트리 기반 기계학습 알고리즘인 XGBoost 모델을 선택하였다.
학습 세트의 8가지 특징(연령, 전립선 조직 검사 횟수, 혈청 전립선 특이 항원 수치, 혈청 유리 전립선 특이 항원 수치, 혈청 테스토스테론 수치, 총 전립선 부피, 전립선 전이 영역 부피, 초음파상 저에코 병변)을 이용하여 XGBoost 모델을 학습시켜 전립선암 위험도를 산출하는 제1 위험도 산출 모델을 생성하고, 학습 세트의 7가지 특징(연령, 혈청 전립선 특이 항원 수치, 혈청 유리 전립선 특이 항원 수치, 혈청 테스토스테론 수치, 총 전립선 부피, 전립선 전이 영역 부피, 초음파상 저에코 병변)을 이용하여 XGBoost 모델을 학습시켜 임상적으로 의미있는 전립선암 위험도를 산출하는 제2 위험도 산출 모델을 생성하였다. 제1 위험도 산출 모델 및 제2 위험도 산출 모델을 생성하는 과정에서 XGBoost 모델의 하이퍼파라미터를 베이지안 최적화를 통해 최적화하였다.
제1 위험도 산출 모델 및 제2 위험도 산출 모델 생성 후 검증 세트를 이용하여 제1 위험도 산출 모델 및 제2 위험도 산출 모델의 성능을 검증하고, 각 특징의 중요도를 평가하였다. 모델 성능의 검증은 수신기 작동 특성 커브(receiver operating Characteristic(ROC) Curve)의 곡선하면적(area under the curve, AUC)를 이용하고, 각 모델별 각 특징의 중요도 평가는 샤플리 값(Shapley value)을 이용하였다.
도 8은 실험예에 따른 제1 위험도 산출 모델의 성능을 도시한 도면이고, 도 9는 실험예에 따른 제2 위험도 산출 모델의 성능을 도시한 도면이다.
도 8을 참조하면, 제1 위험도 산출 모델의 ROC Curve의 AUC는 0.869이고, 도 9를 참조하면, 제2 위험도 산출 모델의 ROC Curve의 AUC는 0.945임을 알 수 있다. 즉 검증 세트로 제1 위험도 산출 모델 및 제2 위험도 산출 모델을 검증한 결과, 제1 위험도 산출 모델 및 제2 위험도 산출 모델 모두 매우 높은 성능을 보임을 알 수 있다.
도 10은 실험예에 따른 제1 위험도 산출 모델에서 각 특징의 중요도를 도시한 도면이고, 도 11은 실험예에 따른 제2 위험도 산출 모델에서 각 특징의 중요도를 도시한 도면이다.
도 10을 참조하면, 제1 위험도 산출 모델 즉, 전립선암 위험도를 산출할 때 가장 중요한 파라미터는 혈청 전립선 특이 항원 수치(PSA)이고, 그 뒤로 연령(Age), 전립선 전이 영역 부피(TZ_Vol), 총 전립선 부피(Total_Vol), 혈청 테스토스테론 수치(Testosterone), 초음파상 저에코 병변(HypoE), 전립선 조직 검사 횟수(Bx_N) 및 혈청 유리 전립선 특이 항원 수치(fPSA)가 순차적으로 따른다는 것을 알 수 있다.
도 11을 참조하면, 제2 위험도 산출 모델 즉, 임상적으로 의미있는 전립선암 위험도를 산출할 때 가장 중요한 파라미터는 혈청 전립선 특이 항원 수치(PSA)이고, 그 뒤로 총 전립선 부피(Total_Vol), 연령(Age), 초음파상 저에코 병변(HypoE), 전립선 전이 영역 부피(TZ_Vol), 혈청 테스토스테론 수치(Testosterone) 및 혈청 유리 전립선 특이 항원 수치(fPSA)가 순차적으로 따른다는 것을 알 수 있다.
도 12는 PSA가 3-10인 그룹에 대한 제1 위험도 산출 모델의 성능을 도시한 도면이고, 도 13은 PSA가 10-20인 그룹에 대한 제1 위험도 산출 모델의 성능을 도시한 도면이고, 도 14는 PSA가 3-10인 그룹에 대한 제2 위험도 산출 모델의 성능을 도시한 도면이고, 도 15은 PSA가 10-20인 그룹에 대한 제2 위험도 산출 모델의 성능을 도시한 도면이다.
도 12 및 도 13을 참조하면, PSA가 3-10인 그룹에 대한 제1 위험도 산출 모델의 ROC Curve의 AUC는 0.827이고(도 12 참조), PSA가 10-20인 그룹에 대한 제1 위험도 산출 모델의 ROC Curve의 AUC는 0.846임(도 13 참조)을 알 수 있다.
도 14 및 도 15를 참조하면, PSA가 3-10인 그룹에 대한 제2 위험도 산출 모델의 ROC Curve의 AUC는 0.926이고(도 14 참조), PSA가 10-20인 그룹에 대한 제2 위험도 산출 모델의 ROC Curve의 AUC는 0.891임(도 15 참조)을 알 수 있다.
즉, 임상적으로 중요한 범위인 PSA 3-10과 PSA 10-20에서 제1 위험도 산출 모델과 제2 위험도 산출 모델을 검증한 결과, 제1 위험도 산출 모델과 제2 위험도 산출 모델 모두 매우 높은 성능을 보임을 알 수 있다.
100: 전립선암 위험도 예측 시스템
110: 전립선암 위험도 모델 생성 장치
120, 400: 전립선암 위험도 산출 장치
210: 학습 데이터 수집부
220: 모델 생성부
310: 데이터 입력부
320: 저장부
330: 위험도 산출부
410: 피드백 입력부
420: 모델 갱신부
430: 통신부
440: 출력부

Claims (20)

  1. 피험자의 임상 정보를 입력받는 데이터 입력부; 및
    기계학습 기반의 위험도 산출 모델을 이용하여 상기 임상 정보로부터 상기 피험자의 전립선암 위험도 또는 임상적으로 의미있는 전립선암 위험도를 산출하는 위험도 산출부; 를 포함하고,
    상기 임상 정보는 연령, 전립선 조직 검사 횟수, 혈청 전립선 특이 항원 수치, 혈청 유리 전립선 특이 항원 수치, 혈청 테스토스테론 수치, 총 전립선 부피, 전립선 전이 영역 부피 및 초음파상 저에코 병변을 포함하고,
    상기 위험도 산출 모델은 전립선암 위험도를 산출하는 제1 위험도 산출 모델과 임상적으로 의미있는 전립선암 위험도를 산출하는 제2 위험도 산출 모델을 포함하는,
    전립선암 위험도 산출 장치.
  2. 제1항에 있어서,
    상기 위험도 산출 모델은 트리 기반 기계학습 알고리즘을 이용하여 미리 생성되는,
    전립선암 위험도 산출 장치.
  3. 제2항에 있어서,
    상기 트리 기반 기계학습 알고리즘은 XGboost(Extreme Gradient Boost), ADAboost(Adaptive Boost), Light GBM(Light Gradient Boost Machine)을 포함하는,
    전립선암 위험도 산출 장치.
  4. 제1항에 있어서,
    상기 제1 위험도 산출 모델은, 연령, 전립선 조직 검사 횟수, 혈청 전립선 특이 항원 수치, 혈청 유리 전립선 특이 항원 수치, 혈청 테스토스테론 수치, 총 전립선 부피, 전립선 전이 영역 부피 및 초음파상 저에코 병변과, 이에 대응하는 전립선암 진단 결과를 기반으로 기계학습 모델을 학습시켜 전립선암 위험도를 산출하는 위험도 산출 모델이고,
    상기 제2 위험도 산출 모델은, 연령, 혈청 전립선 특이 항원 수치, 혈청 유리 전립선 특이 항원 수치, 혈청 테스토스테론 수치, 총 전립선 부피, 전립선 전이 영역 부피 및 초음파상 저에코 병변과, 이에 대응하는 임상적으로 의미있는 전립선암 진단 결과를 기반으로 기계학습 모델을 학습시켜 임상적으로 의미있는 전립선암 위험도를 산출하는 위험도 산출 모델인,
    전립선암 위험도 산출 장치.
  5. 제1항에 있어서,
    상기 피험자의 조직 검사 결과 최종 판단된 전립선암 진단 결과 또는 임상적으로 의미있는 전립선암 진단 결과를 피드백으로 입력받는 피드백 입력부; 및
    상기 피드백과 상기 임상 정보를 기반으로 상기 위험도 산출 모델을 갱신하는 모델 갱신부; 를 더 포함하는,
    전립선암 위험도 산출 장치.
  6. 다수 환자들에 대한 임상 정보와, 그에 대응하는 전립선암 진단 결과 또는 임상적으로 의미있는 전립선암 진단 결과를 학습 데이터로 수집하는 학습 데이터 수집부; 및
    상기 수집된 학습 데이터를 기반으로 기계학습 모델을 학습시켜 전립선암 위험도 또는 임상적으로 의미있는 전립선암 위험도를 산출하는 위험도 산출 모델을 생성하는 모델 생성부; 를 포함하고,
    상기 임상 정보는 연령, 전립선 조직 검사 횟수, 혈청 전립선 특이 항원 수치, 혈청 유리 전립선 특이 항원 수치, 혈청 테스토스테론 수치, 총 전립선 부피, 전립선 전이 영역 부피 및 초음파상 저에코 병변을 포함하는
    전립선암 위험도 산출 모델 생성 장치.
  7. 제6항에 있어서,
    상기 학습 데이터 수집부는 상기 수집된 임상 정보에 결측치가 존재하면 다중 대치 알고리즘을 이용하여 상기 결측치를 처리하는,
    전립선암 위험도 산출 모델 생성 장치.
  8. 제6항에 있어서,
    상기 기계학습 모델은 트리 기반 기계학습 모델인,
    전립선암 위험도 산출 모델 생성 장치.
  9. 제8항에 있어서,
    상기 트리 기반 기계학습 모델은 XGboost(Extreme Gradient Boost), ADAboost(Adaptive Boost), Light GBM(Light Gradient Boost Machine)을 포함하는,
    전립선암 위험도 산출 모델 생성 장치.
  10. 제6항에 있어서,
    상기 모델 생성부는,
    연령, 전립선 조직 검사 횟수, 혈청 전립선 특이 항원 수치, 혈청 유리 전립선 특이 항원 수치, 혈청 테스토스테론 수치, 총 전립선 부피, 전립선 전이 영역 부피 및 초음파상 저에코 병변과, 이에 대응하는 전립선암 진단 결과를 기반으로 기계학습 모델을 학습시켜 전립선암 위험도를 산출하는 제1 위험도 산출 모델을 생성하고,
    연령, 혈청 전립선 특이 항원 수치, 혈청 유리 전립선 특이 항원 수치, 혈청 테스토스테론 수치, 총 전립선 부피, 전립선 전이 영역 부피 및 초음파상 저에코 병변과, 이에 대응하는 임상적으로 의미있는 전립선암 진단 결과를 기반으로 기계학습 모델을 학습시켜 임상적으로 의미있는 전립선암 위험도를 산출하는 제2 위험도 산출 모델을 생성하는,
    전립선암 위험도 산출 모델 생성 장치.
  11. 전립선암 위험도 산출 장치의 전립선암 위험도 산출 방법에 있어서,
    데이터 입력부를 통해 피험자의 임상 정보를 입력받는 단계; 및
    위험도 산출부에서 기계학습 기반의 위험도 산출 모델을 이용하여 상기 임상 정보로부터 상기 피험자의 전립선암 위험도 또는 임상적으로 의미있는 전립선암 위험도를 산출하는 단계; 를 포함하고,
    상기 임상 정보는 연령, 전립선 조직 검사 횟수, 혈청 전립선 특이 항원 수치, 혈청 유리 전립선 특이 항원 수치, 혈청 테스토스테론 수치, 총 전립선 부피, 전립선 전이 영역 부피 및 초음파상 저에코 병변을 포함하고,
    상기 위험도 산출 모델은 전립선암 위험도를 산출하는 제1 위험도 산출 모델과 임상적으로 의미있는 전립선암 위험도를 산출하는 제2 위험도 산출 모델을 포함하는,
    전립선암 위험도 산출 방법.
  12. 제11항에 있어서,
    상기 위험도 산출 모델은 트리 기반 기계학습 알고리즘을 이용하여 미리 생성되는,
    전립선암 위험도 산출 방법.
  13. 제12항에 있어서,
    상기 트리 기반 기계학습 알고리즘은 XGboost(Extreme Gradient Boost), ADAboost(Adaptive Boost), Light GBM(Light Gradient Boost Machine)을 포함하는,
    전립선암 위험도 산출 방법.
  14. 제11항에 있어서,
    상기 제1 위험도 산출 모델은, 연령, 전립선 조직 검사 횟수, 혈청 전립선 특이 항원 수치, 혈청 유리 전립선 특이 항원 수치, 혈청 테스토스테론 수치, 총 전립선 부피, 전립선 전이 영역 부피 및 초음파상 저에코 병변과, 이에 대응하는 전립선암 진단 결과를 기반으로 기계학습 모델을 학습시켜 전립선암 위험도를 산출하는 위험도 산출 모델이고,
    상기 제2 위험도 산출 모델은, 연령, 혈청 전립선 특이 항원 수치, 혈청 유리 전립선 특이 항원 수치, 혈청 테스토스테론 수치, 총 전립선 부피, 전립선 전이 영역 부피 및 초음파상 저에코 병변과, 이에 대응하는 임상적으로 의미있는 전립선암 진단 결과를 기반으로 기계학습 모델을 학습시켜 임상적으로 의미있는 전립선암 위험도를 산출하는 위험도 산출 모델인,
    전립선암 위험도 산출 방법.
  15. 제11항에 있어서,
    피드백 입력부에서 상기 피험자의 조직 검사 결과 최종 판단된 전립선암 위험도 산출 결과 또는 임상적으로 의미있는 전립선암 위험도 산출 결과를 피드백으로 입력받는 단계; 및
    모델 갱신부에서 상기 피드백과 상기 임상 정보를 기반으로 상기 위험도 산출 모델을 갱신하는 단계; 를 더 포함하는,
    전립선암 위험도 산출 방법.
  16. 전립선암 위험도 산출 모델 생성 장치의 전립선암 위험도 산출 모델 생성 방법에 있어서,
    학습 데이터 수집부에서 다수 환자들에 대한 임상 정보와, 그에 대응하는 전립선암 진단 결과 또는 임상적으로 의미있는 전립선암 진단 결과를 학습 데이터로 수집하는 단계; 및
    모델 생성부에서 상기 수집된 학습 데이터를 기반으로 기계학습 모델을 학습시켜 전립선암 위험도 또는 임상적으로 의미있는 전립선암 위험도를 산출하는 위험도 산출 모델을 생성하는 단계; 를 포함하고,
    상기 임상 정보는 연령, 전립선 조직 검사 횟수, 혈청 전립선 특이 항원 수치, 혈청 유리 전립선 특이 항원 수치, 혈청 테스토스테론 수치, 총 전립선 부피, 전립선 전이 영역 부피 및 초음파상 저에코 병변을 포함하는,
    전립선암 위험도 산출 모델 생성 방법.
  17. 제16항에 있어서,
    상기 수집된 임상 정보에 결측치가 존재하면 다중 대치 알고리즘을 이용하여 상기 결측치를 처리하는 단계; 를 더 포함하는,
    전립선암 위험도 산출 모델 생성 방법.
  18. 제16항에 있어서,
    상기 기계학습 모델은 트리 기반 기계학습 모델인,
    전립선암 위험도 산출 모델 생성 방법.
  19. 제18항에 있어서,
    상기 트리 기반 기계학습 모델은 XGboost(Extreme Gradient Boost), ADAboost(Adaptive Boost), Light GBM(Light Gradient Boost Machine)을 포함하는,
    전립선암 위험도 산출 모델 생성 방법.
  20. 제16항에 있어서,
    상기 위험도 산출 모델을 생성하는 단계는,
    연령, 전립선 조직 검사 횟수, 혈청 전립선 특이 항원 수치, 혈청 유리 전립선 특이 항원 수치, 혈청 테스토스테론 수치, 총 전립선 부피, 전립선 전이 영역 부피 및 초음파상 저에코 병변과, 이에 대응하는 전립선암 진단 결과를 기반으로 기계학습 모델을 학습시켜 전립선암 위험도를 산출하는 제1 위험도 산출 모델을 생성하는 단계; 및
    연령, 혈청 전립선 특이 항원 수치, 혈청 유리 전립선 특이 항원 수치, 혈청 테스토스테론 수치, 총 전립선 부피, 전립선 전이 영역 부피 및 초음파상 저에코 병변과, 이에 대응하는 임상적으로 의미있는 전립선암 진단 결과를 기반으로 기계학습 모델을 학습시켜 임상적으로 의미있는 전립선암 위험도를 산출하는 제2 위험도 산출 모델을 생성하는 단계; 를 포함하는,
    전립선암 위험도 산출 모델 생성 방법.
KR1020200116339A 2020-09-10 2020-09-10 기계학습 기반 전립선암 위험도 산출 장치 및 방법과, 전립선암 위험도 산출 모델 생성 장치 및 방법 KR102515437B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200116339A KR102515437B1 (ko) 2020-09-10 2020-09-10 기계학습 기반 전립선암 위험도 산출 장치 및 방법과, 전립선암 위험도 산출 모델 생성 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200116339A KR102515437B1 (ko) 2020-09-10 2020-09-10 기계학습 기반 전립선암 위험도 산출 장치 및 방법과, 전립선암 위험도 산출 모델 생성 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20220033906A KR20220033906A (ko) 2022-03-17
KR102515437B1 true KR102515437B1 (ko) 2023-03-29

Family

ID=80936189

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200116339A KR102515437B1 (ko) 2020-09-10 2020-09-10 기계학습 기반 전립선암 위험도 산출 장치 및 방법과, 전립선암 위험도 산출 모델 생성 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102515437B1 (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102102848B1 (ko) * 2019-06-12 2020-04-22 주식회사 프로카젠 전립선암 위험점수 산출기, 상기 산출기의 동작 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101018665B1 (ko) * 2008-08-18 2011-03-04 재단법인서울대학교산학협력재단 전립선암 진단 방법 및 장치
KR102327062B1 (ko) * 2018-03-20 2021-11-17 딜로이트컨설팅유한회사 임상시험 결과 예측 장치 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102102848B1 (ko) * 2019-06-12 2020-04-22 주식회사 프로카젠 전립선암 위험점수 산출기, 상기 산출기의 동작 방법

Also Published As

Publication number Publication date
KR20220033906A (ko) 2022-03-17

Similar Documents

Publication Publication Date Title
CN109378065A (zh) 医疗数据处理方法及装置、存储介质、电子设备
Kunapuli et al. A decision-support tool for renal mass classification
Dhanya et al. A comparative study for breast cancer prediction using machine learning and feature selection
Zhang et al. Machine learning and AI in cancer prognosis, prediction, and treatment selection: a critical approach
Jacob et al. Discovery of knowledge patterns in clinical data through data mining algorithms: Multi-class categorization of breast tissue data
Kim et al. Pre-operative prediction of advanced prostatic cancer using clinical decision support systems: accuracy comparison between support vector machine and artificial neural network
JP2020089711A (ja) モデルの生成方法およびプログラム
CN104335216A (zh) 加快的生物特征验证
CN109448858A (zh) 结直肠癌医疗数据处理方法及装置、存储介质、电子设备
Abdelsamea et al. Automated classification of malignant and benign breast cancer lesions using neural networks on digitized mammograms
Roski et al. How artificial intelligence is changing health and healthcare
Mysona et al. Applying artificial intelligence to gynecologic oncology: a review
Naveed et al. Interval valued fuzzy soft sets and algorithm of IVFSS applied to the risk analysis of prostate cancer
Gao et al. Deep multi-path network integrating incomplete biomarker and chest CT data for evaluating lung cancer risk
KR102515437B1 (ko) 기계학습 기반 전립선암 위험도 산출 장치 및 방법과, 전립선암 위험도 산출 모델 생성 장치 및 방법
Esce et al. Lymph node metastases in papillary thyroid carcinoma can be predicted by a convolutional neural network: a multi-institution study
Jeske et al. Maximizing the usefulness of statistical classifiers for two populations with illustrative applications
Bandos et al. Evaluation of diagnostic accuracy in free-response detection-localization tasks using ROC tools
Kim et al. Deep-learning-based natural language processing of serial free-text radiological reports for predicting rectal cancer patient survival
Okay et al. Interpretable machine learning: a case study of healthcare
Kim et al. Improved prediction of the pathologic stage of patient with prostate cancer using the cart–pso optimization analysis in the korean population
CN105765567B (zh) 基于视觉选择的通信请求的生成
Feng et al. Measuring diagnostic accuracy for biomarkers under tree-ordering
Banerjee et al. Radiogenomics influence on the future of prostate cancer risk stratification
Dhivya et al. Square static–deep hyper optimization and genetic meta-learning approach for disease classification

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right