KR102509550B1 - Apparatus and method for predicting recurrence - Google Patents

Apparatus and method for predicting recurrence Download PDF

Info

Publication number
KR102509550B1
KR102509550B1 KR1020210020826A KR20210020826A KR102509550B1 KR 102509550 B1 KR102509550 B1 KR 102509550B1 KR 1020210020826 A KR1020210020826 A KR 1020210020826A KR 20210020826 A KR20210020826 A KR 20210020826A KR 102509550 B1 KR102509550 B1 KR 102509550B1
Authority
KR
South Korea
Prior art keywords
recurrence
model
variable
algorithm
prediction
Prior art date
Application number
KR1020210020826A
Other languages
Korean (ko)
Other versions
KR20220117441A (en
Inventor
홍성후
최인영
김형민
이선정
박소진
Original Assignee
가톨릭대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가톨릭대학교 산학협력단 filed Critical 가톨릭대학교 산학협력단
Priority to KR1020210020826A priority Critical patent/KR102509550B1/en
Publication of KR20220117441A publication Critical patent/KR20220117441A/en
Application granted granted Critical
Publication of KR102509550B1 publication Critical patent/KR102509550B1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 개시는 재발 예측 장치 및 방법에 관한 것으로서, 환자 정보로부터 암 재발에 영향을 미치는 변수들을 선택하여 복수의 알고리즘 각각에 입력함으로써 재발 확률을 예측하는 재발 예측 장치 및 방법을 제공할 수 있다. 특히, 생성된 알고리즘 별 예측 모델의 성능을 비교하여 최종 예측 모델을 결정함으로써, 암의 재발을 보다 정확하게 예측할 수 있는 재발 예측 장치 및 방법을 제공할 수 있다. The present disclosure relates to an apparatus and method for predicting recurrence, and may provide an apparatus and method for predicting a recurrence probability by selecting variables influencing cancer recurrence from patient information and inputting them to each of a plurality of algorithms. In particular, a recurrence predicting apparatus and method capable of more accurately predicting cancer recurrence may be provided by comparing the performance of the predictive models for each generated algorithm to determine a final predictive model.

Description

재발 예측 장치 및 방법{APPARATUS AND METHOD FOR PREDICTING RECURRENCE}Apparatus and method for predicting recurrence {APPARATUS AND METHOD FOR PREDICTING RECURRENCE}

본 실시 예들은 재발 예측 장치 및 방법을 제공한다.The present embodiments provide a recurrence prediction apparatus and method.

오늘날 식생활의 서구화 등으로 인해 암환자가 증가하고, 이에 따라 암의 치료를 위한 다양한 방법을 필요로 하고 있다. 또한, 의료 기술의 발전으로 암의 치료 후 생존하는 사람들도 증가하고 있다. 따라서 암 생존자가 점차적으로 증가함에 따라 치료 후 삶의 질 및 생활습관 관리 등도 주목 받고 있다. 하지만, 실제로 암 생존자들은 암 수술 후 1~2년 안에 재발 빈도가 가장 높고, 최대 10~15년 지난 후에도 재발 및 전이가 되는 경우가 있어 정기적인 검사와 함께 꾸준한 관리가 필요한 실정이다. 특히, 대다수의 환자가 치료 후에 재발 여부를 확인하는 것 이외에 적절한 관리를 하지 못해 암 재발이나 사망에 대한 막연한 불안을 지니고 산다는 문제점이 있다. 따라서, 암의 치료 효과를 극대화하는데 있어서, 환자에 따라 암의 재발을 미리 예측할 수 있는 기술을 필요로 하고 있다. Today, the number of cancer patients is increasing due to the westernization of dietary life, and accordingly, various methods for cancer treatment are required. In addition, with the development of medical technology, the number of people who survive after cancer treatment is increasing. Therefore, as the number of cancer survivors gradually increases, quality of life after treatment and lifestyle management are drawing attention. However, in reality, cancer survivors have the highest recurrence frequency within 1 to 2 years after cancer surgery, and recurrence and metastasis may occur even after up to 10 to 15 years, so regular examinations and steady management are required. In particular, there is a problem that most patients live with vague anxiety about cancer recurrence or death because they do not manage properly other than checking for recurrence after treatment. Therefore, in maximizing the therapeutic effect of cancer, there is a need for a technology capable of predicting the recurrence of cancer in advance depending on the patient.

최근에는 정보의 디지털화 및 데이터 저장 기술의 발달에 따라, 대량의 데이터가 축적되어, 다양한 분야에서 인공지능 기술이 도입되어 활용되고 있다. 특히, 인공지능 기술의 한 종류인 머신 러닝은 입력 데이터를 분석하여, 확률적으로 대상을 분류하거나 특정 범위 내의 값을 예측하는 기술로 의료 분야에도 점차 활용되고 있다. 따라서, 이러한 머신 러닝을 이용하여 암의 재발을 미리 예측 한다면 환자의 개인 맞춤 치료 전략 결정에 도움을 줄 수 있을 것이다.Recently, with the development of information digitization and data storage technology, a large amount of data has been accumulated, and artificial intelligence technology has been introduced and utilized in various fields. In particular, machine learning, a type of artificial intelligence technology, analyzes input data and probabilistically classifies objects or predicts values within a specific range, and is gradually being used in the medical field. Therefore, if the recurrence of cancer is predicted in advance using such machine learning, it will help determine the patient's personalized treatment strategy.

이러한 배경에서, 본 실시 예들은 인공 지능을 이용하여 암 재발에 영향을 미치는 변수들로부터 암이 재발될 확률을 예측하는 재발 예측 장치 및 방법을 제공할 수 있다. Against this background, the present embodiments may provide a recurrence prediction apparatus and method for predicting the probability of cancer recurrence from variables affecting cancer recurrence using artificial intelligence.

전술한 목적을 달성하기 위하여, 일 측면에서, 본 실시 예는, 재발 예측 장치에 있어서, 신체 정보, 임상 정보 및 재발 정보를 포함하는 환자 별 환자 정보를 획득하고, 재발 정보에 기초하여 환자를 재발 그룹과 비재발 그룹으로 구분하되, 구분된 그룹 간의 차이를 보이는 1차 변수를 추출하고, 1차 변수 중에서 선택된 2차 변수로부터 기초 변수를 설정하는 기초 변수 설정부, 환자 별 환자 정보를 미리 설정된 기준으로 선별하여 학습 데이터를 생성하는 학습 데이터 생성부, 기초 변수 또는 기초 변수로부터 설정되는 조합 변수에 해당하는 학습 데이터를 복수의 알고리즘 각각에 입력하여 재발 확률을 예측하는 알고리즘 별 예측 모델을 생성하는 모델 생성부 및 알고리즘 별 예측 모델의 성능을 비교하여 최종 예측 모델을 결정하는 모델 결정부를 포함하는 것을 특징으로 하는 재발 예측 장치를 제공한다.In order to achieve the above object, in one aspect, the present embodiment, in the device for predicting recurrence, obtains patient-specific patient information including body information, clinical information, and recurrence information, and determines the patient to relapse based on the recurrence information. A basic variable setting unit that extracts the primary variable showing the difference between the group and the non-recurrence group, and sets the basic variable from the secondary variable selected from among the primary variables, and patient information for each patient is set as a preset standard A learning data generation unit that selects and generates learning data, generates a model that generates a prediction model for each algorithm that predicts the probability of recurrence by inputting learning data corresponding to a basic variable or a combination variable set from the basic variables into each of a plurality of algorithms. It provides a recurrence prediction device comprising a model determining unit for determining a final predictive model by comparing the performance of the predictive model for each unit and algorithm.

다른 측면에서, 본 실시 예는 재발 예측 방법에 있어서, 신체 정보, 임상 정보 및 재발 정보를 포함하는 환자 별 환자 정보를 획득하고, 재발 정보에 기초하여 환자를 재발 그룹과 비재발 그룹으로 구분하되, 구분된 그룹 간의 차이를 보이는 1차 변수를 추출하고, 1차 변수 중에서 선택된 2차 변수로부터 기초 변수를 설정하는 기초 변수 설정 단계, 환자 별 환자 정보를 미리 설정된 기준으로 선별하여 학습 데이터를 생성하는 학습 데이터 생성 단계, 기초 변수 또는 기초 변수로부터 설정되는 조합 변수에 해당하는 학습 데이터를 복수의 알고리즘 각각에 입력하여 재발 확률을 예측하는 알고리즘 별 예측 모델을 생성하는 모델 생성 단계 및 알고리즘 별 예측 모델의 성능을 비교하여 최종 예측 모델을 결정하는 모델 결정 단계를 포함하는 재발 예측 방법을 제공한다. In another aspect, in the present embodiment, in the recurrence prediction method, patient-specific patient information including body information, clinical information, and recurrence information is obtained, and based on the recurrence information, the patient is divided into a recurrence group and a non-recurrence group, Basic variable setting step of extracting the primary variable that shows the difference between the classified groups and setting the basic variable from the secondary variable selected from the primary variables, learning to generate learning data by selecting patient information for each patient based on preset criteria Data generation step, model generation step of generating a predictive model for each algorithm that predicts the probability of recurrence by inputting learning data corresponding to the basic variable or combination variable set from the basic variables into each of a plurality of algorithms, and the performance of the predictive model for each algorithm It provides a recurrence prediction method comprising a model determination step of comparing and determining a final prediction model.

본 실시 예들에 의하면, 인공 지능을 이용하여 암 재발에 영향을 미치는 변수들로부터 암이 재발될 확률을 예측하는 재발 예측 장치 및 방법을 제공할 수 있다. According to the present embodiments, it is possible to provide a recurrence prediction apparatus and method for predicting the probability of cancer recurrence from variables affecting cancer recurrence using artificial intelligence.

도 1은 본 개시가 적용될 수 있는 시스템 구성을 예시적으로 도시한 도면이다.
도 2는 본 개시의 일 실시 예에 따른 재발 예측 장치의 구성을 도시한 도면이다.
도 3은 본 개시의 일 실시 예에 따른 재발 예측 장치에서 환자 정보로부터 변수를 추출하는 동작을 설명하기 위한 예시를 도시한 도면이다.
도 4는 본 개시의 일 실시 예에 따른 재발 예측 장치에서 입력되는 학습 데이터를 생성하는 동작을 설명하기 위한 예시를 도시한 도면이다.
도 5는 본 개시의 일 실시 예에 따른 재발 예측 장치에서 환자 정보를 보정하여 생성된 학습 데이터를 설명하기 위한 예시를 도시한 도면이다.
도 6은 본 개시의 일 실시 예에 따른 재발 예측 장치에서 최종 예측 모델을 결정하는 동작을 설명하기 위한 예시를 도시한 도면이다.
도 7은 본 개시의 일 실시 예에 따른 재발 예측 장치에서 CNB 알고리즘의 스무딩 파라미터 값을 결정하는 동작을 설명하기 위한 예시를 도시한 도면이다.
도 8은 본 개시의 다른 실시 예에 따른 재발 예측 장치에서 조합 변수와 최종 예측 모델을 결정하는 동작을 설명하기 위한 예시를 도시한 도면이다.
도 9는 본 개시의 일 실시 예에 따른 재발 예측 장치에서 알고리즘 별 예측 모델의 성능을 비교하는 동작을 설명하기 위한 예시를 도시한 도면이다.
도 10은 본 개시의 일 실시 예에 따른 재발 예측 장치에서 조합 변수에 따라 생성된 알고리즘 별 예측 모델의 성능을 비교하는 동작을 설명하기 위한 예시를 도시한 도면이다.
도 11은 본 개시의 일 실시 예에 따른 재발 예측 방법의 흐름도이다.
1 is a diagram exemplarily illustrating a system configuration to which the present disclosure may be applied.
2 is a diagram showing the configuration of a recurrence prediction device according to an embodiment of the present disclosure.
3 is a diagram illustrating an example for explaining an operation of extracting a variable from patient information in a recurrence prediction apparatus according to an embodiment of the present disclosure.
4 is a diagram illustrating an example for explaining an operation of generating input learning data in a recurrence prediction apparatus according to an embodiment of the present disclosure.
5 is a diagram illustrating an example for explaining learning data generated by correcting patient information in an apparatus for predicting recurrence according to an embodiment of the present disclosure.
6 is a diagram illustrating an example for explaining an operation of determining a final predictive model in the apparatus for predicting recurrence according to an embodiment of the present disclosure.
7 is a diagram illustrating an example for explaining an operation of determining a smoothing parameter value of a CNB algorithm in an apparatus for predicting recurrence according to an embodiment of the present disclosure.
8 is a diagram illustrating an example for explaining an operation of determining a combination variable and a final predictive model in a recurrence prediction apparatus according to another embodiment of the present disclosure.
9 is a diagram illustrating an example for explaining an operation of comparing performance of predictive models for each algorithm in the apparatus for predicting recurrence according to an embodiment of the present disclosure.
10 is a diagram illustrating an example for explaining an operation of comparing performance of predictive models for each algorithm generated according to a combination variable in the apparatus for predicting recurrence according to an embodiment of the present disclosure.
11 is a flowchart of a recurrence prediction method according to an embodiment of the present disclosure.

본 개시는 재발 예측 장치 및 방법에 관한 것이다. The present disclosure relates to an apparatus and method for predicting recurrence.

이하, 본 개시의 일부 실시 예들을 예시적인 도면을 참조하여 상세하게 설명한다. 각 도면의 구성 요소들에 참조부호를 부가함에 있어서, 동일한 구성 요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가질 수 있다. 또한, 본 실시 예들을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 기술 사상의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략할 수 있다. 본 명세서 상에서 언급된 "포함한다", "갖는다", "이루어진다" 등이 사용되는 경우 "~만"이 사용되지 않는 이상 다른 부분이 추가될 수 있다. 구성 요소를 단수로 표현한 경우에 특별한 명시적인 기재 사항이 없는 한 복수를 포함하는 경우를 포함할 수 있다.Hereinafter, some embodiments of the present disclosure will be described in detail with reference to exemplary drawings. In adding reference numerals to components of each drawing, the same components may have the same numerals as much as possible even if they are displayed on different drawings. In addition, in describing the present embodiments, if it is determined that a detailed description of a related known configuration or function may obscure the gist of the present technical idea, the detailed description may be omitted. When "comprises", "has", "consists of", etc. mentioned in this specification is used, other parts may be added unless "only" is used. In the case where a component is expressed in the singular, it may include the case of including the plural unless otherwise explicitly stated.

또한, 본 개시의 구성 요소를 설명하는 데 있어서, 제1, 제2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질, 차례, 순서 또는 개수 등이 한정되지 않는다. Also, terms such as first, second, A, B, (a), and (b) may be used in describing the components of the present disclosure. These terms are only used to distinguish the component from other components, and the nature, sequence, order, or number of the corresponding component is not limited by the term.

구성 요소들의 위치 관계에 대한 설명에 있어서, 둘 이상의 구성 요소가 "연결", "결합" 또는 "접속" 등이 된다고 기재된 경우, 둘 이상의 구성 요소가 직접적으로 "연결", "결합" 또는 "접속" 될 수 있지만, 둘 이상의 구성 요소와 다른 구성 요소가 더 "개재"되어 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다. 여기서, 다른 구성 요소는 서로 "연결", "결합" 또는 "접속" 되는 둘 이상의 구성 요소 중 하나 이상에 포함될 수도 있다. In the description of the positional relationship of components, when it is described that two or more components are "connected", "coupled" or "connected", the two or more components are directly "connected", "coupled" or "connected". ", but it will be understood that two or more components and other components may be further "interposed" and "connected", "coupled" or "connected". Here, other components may be included in one or more of two or more components that are “connected”, “coupled” or “connected” to each other.

구성 요소들이나, 동작 방법이나 제작 방법 등과 관련한 시간적 흐름 관계에 대한 설명에 있어서, 예를 들어, "~후에", "~에 이어서", "~다음에", "~전에" 등으로 시간적 선후 관계 또는 흐름적 선후 관계가 설명되는 경우, "바로" 또는 "직접"이 사용되지 않는 이상 연속적이지 않은 경우도 포함할 수 있다.In the description of the temporal flow relationship related to components, operation methods, production methods, etc., for example, "after", "continued to", "after", "before", etc. Alternatively, when a flow sequence relationship is described, it may also include non-continuous cases unless “immediately” or “directly” is used.

한편, 구성 요소에 대한 수치 또는 그 대응 정보(예: 레벨 등)가 언급된 경우, 별도의 명시적 기재가 없더라도, 수치 또는 그 대응 정보는 각종 요인(예: 공정상의 요인, 내부 또는 외부 충격, 노이즈 등)에 의해 발생할 수 있는 오차 범위를 포함하는 것으로 해석될 수 있다.On the other hand, when a numerical value or corresponding information (eg, level, etc.) for a component is mentioned, even if there is no separate explicit description, the numerical value or its corresponding information is not indicated by various factors (eg, process factors, internal or external shocks, noise, etc.) may be interpreted as including an error range that may occur.

이하 첨부된 도면을 참고하여 본 개시를 상세히 설명하기로 한다.Hereinafter, the present disclosure will be described in detail with reference to the accompanying drawings.

도 1은 본 개시가 적용될 수 있는 시스템 구성을 예시적으로 도시한 도면이다. 1 is a diagram exemplarily illustrating a system configuration to which the present disclosure may be applied.

도 1을 참조하면, 본 개시는 재발 예측 방법을 제공하는 시스템에 관한 것으로, 재발 예측 장치(110) 및 서버(100)에 구현될 수 있다. Referring to FIG. 1 , the present disclosure relates to a system for providing a recurrence prediction method, and may be implemented in a recurrence prediction device 110 and a server 100 .

재발 예측 장치(110)는, 일반적인 데스크 탑이나 노트북 등의 일반 PC를 포함하고, 스마트 폰, 태블릿 PC, PDA(Personal Digital Assistants) 및 이동통신 단말기 등의 모바일 단말기 등을 포함할 수 있으며, 이에 제한되지 않고, 서버(100)와 통신 가능한 어떠한 전자 기기로 폭넓게 해석되어야 할 것이다. The recurrence prediction device 110 may include a general PC such as a general desktop or laptop computer, and may include a mobile terminal such as a smart phone, a tablet PC, a PDA (Personal Digital Assistants), and a mobile communication terminal, and is limited thereto. It should be interpreted broadly as any electronic device capable of communicating with the server 100.

서버(100)는 하드웨어적으로는 통상적인 웹 서버(Web Server) 또는 웹 어플리케이션 서버(Web Application Server) 또는 웹 서버(WAP Server)와 동일한 구성을 하고 있다. 그러나, 소프트웨어적으로는, 아래에서 상세하게 설명할 바와 같이, C, C++, Java, PHP, .Net, Python, Ruby 등 여하한 언어를 통하여 구현되어 여러 가지 기능을 하는 프로그램 모듈(Module)을 포함할 수 있다.The server 100 has the same configuration as a conventional web server (Web Server), web application server (Web Application Server), or web server (WAP Server) in terms of hardware. However, in terms of software, as will be described in detail below, it includes program modules that are implemented through any language such as C, C++, Java, PHP, .Net, Python, Ruby, and perform various functions. can do.

또한, 서버(100)는 네트워크를 통하여 불특정 다수 클라이언트(장치(110)를 포함) 및/또는 다른 서버와 연결될 수 있는데, 이에 따라, 서버(100)는 클라이언트 또는 다른 서버의 작업수행 요청을 접수하고 그에 대한 작업 결과를 도출하여 제공하는 컴퓨터 시스템 또는 이러한 컴퓨터 시스템을 위하여 설치되어 있는 컴퓨터 소프트웨어(서버 프로그램)를 뜻하는 것일 수도 있다. In addition, the server 100 may be connected to an unspecified number of clients (including the device 110) and/or other servers through a network. Accordingly, the server 100 receives requests from clients or other servers to perform tasks, and It may mean a computer system that derives and provides work results for it, or computer software (server program) installed for such a computer system.

또한, 서버(100)는 전술한 서버 프로그램 이외에도, 서버(100) 상에서 동작하는 일련의 응용 프로그램(Application Program)과, 경우에 따라서는 내부 또는 외부에 구축되어 있는 각종 데이터베이스를 포함하는 넓은 개념으로 이해되어야 할 것이다. In addition, the server 100 is understood as a broad concept including, in addition to the above-described server program, a series of application programs that operate on the server 100 and, in some cases, various databases built inside or outside. It should be.

여기서, 데이터베이스는, 서버 또는 다른 장치 등에 의해 사용될 목적으로 정보나 자료 등의 데이터가 구조화되어 관리되는 데이터의 집합체를 의미할 수 있으며, 이러한 데이터의 집합체를 저장하는 저장매체를 의미할 수도 있다. Here, the database may refer to an aggregate of data in which data such as information or data is structured and managed for use by a server or other device, and may also refer to a storage medium for storing such an aggregate of data.

또한, 이러한 데이터베이스는 데이터의 구조화 방식, 관리 방식, 종류 등에 따라 분류된 복수의 데이터베이스를 포함하는 것일 수도 있다. 경우에 따라서, 데이터베이스는 정보나 자료 등을 추가, 수정, 삭제 등을 할 수 있도록 해주는 소프트웨어인 데이터베이스 관리시스템(Database Management System, DBMS)을 포함할 수도 있다. In addition, such a database may include a plurality of databases classified according to a data structure method, management method, type, and the like. In some cases, the database may include a database management system (DBMS), which is software that allows information or data to be added, corrected, or deleted.

또한, 서버(100)는 콘텐츠, 각종 정보 및 데이터를 데이터베이스에 저장시키고 관리할 수 있다. 여기서, 데이터베이스는 서버(100)의 내부 또는 외부에 구현될 수 있다.In addition, the server 100 may store and manage contents and various types of information and data in a database. Here, the database may be implemented inside or outside the server 100 .

또한, 서버(100)는 일반적인 서버용 하드웨어에 도스(DOS), 윈도우(windows), 리눅스(Linux), 유닉스(UNIX), 매킨토시(Macintosh) 등의 운영체제에 따라 다양하게 제공되고 있는 서버 프로그램을 이용하여 구현될 수 있으며, 대표적인 것으로는 윈도우 환경에서 사용되는 웹 사이트(Website), IIS(Internet Information Server)와 유닉스환경에서 사용되는 Apache, Nginx, Light HTTP 등이 이용될 수 있다. In addition, the server 100 uses server programs that are provided in various ways according to operating systems such as DOS, Windows, Linux, UNIX, and Macintosh in general server hardware It can be implemented, and as a representative example, a website, IIS (Internet Information Server) used in a Windows environment, and Apache, Nginx, Light HTTP, etc. used in a Unix environment can be used.

한편, 네트워크(120)는 서버(100)와 재발 예측 장치(110)를 연결해주는 망(Network)으로서, LAN(Local Area Network), WAN(Wide Area Network)등의 폐쇄형 네트워크(120)일 수도 있으나, 인터넷(Internet)과 같은 개방형 네트워크(120)일 수도 있다. 여기서, 인터넷은 TCP/IP 프로토콜 및 그 상위계층에 존재하는 여러 서비스, 즉 HTTP(HyperText Transfer Protocol), Telnet, FTP(File Transfer Protocol), DNS(Domain Name System), SMTP(Simple Mail Transfer Protocol), SNMP(Simple Network Management Protocol), NFS(Network File Service), NIS(Network Information Service)를 제공하는 전 세계적인 개방형 컴퓨터 네트워크 구조를 의미한다. On the other hand, the network 120 is a network that connects the server 100 and the recurrence prediction device 110, and may be a closed network 120 such as a local area network (LAN) and a wide area network (WAN) However, it may be an open network 120 such as the Internet. Here, the Internet refers to the TCP/IP protocol and various services existing in its upper layer, namely HTTP (HyperText Transfer Protocol), Telnet, FTP (File Transfer Protocol), DNS (Domain Name System), SMTP (Simple Mail Transfer Protocol), It refers to a worldwide open computer network structure that provides Simple Network Management Protocol (SNMP), Network File Service (NFS), and Network Information Service (NIS).

간략하게 전술한 본 개시의 일 실시 예에 따른 재발 예측 장치 및 방법에 대하여, 이하에서 더욱 상세하게 설명한다. The apparatus and method for predicting recurrence according to an embodiment of the present disclosure briefly described above will be described in more detail below.

도 2는 본 개시의 일 실시 예에 따른 재발 예측 장치의 구성을 도시한 도면이다.2 is a diagram showing the configuration of a recurrence prediction device according to an embodiment of the present disclosure.

도 2를 참조하면, 본 개시의 일 실시 예에 따른 재발 예측 장치(110)는, 신체 정보, 임상 정보 및 재발 정보를 포함하는 환자 별 환자 정보를 획득하고, 재발 정보에 기초하여 환자를 재발 그룹과 비재발 그룹으로 구분하되, 구분된 그룹 간의 차이를 보이는 1차 변수를 추출하고, 추출된 1차 변수 중에서 선택된 2차 변수로부터 기초 변수를 설정하는 기초 변수 설정부(210), 환자 별 환자 정보를 미리 설정된 기준으로 선별하여 학습 데이터를 생성하는 학습 데이터 생성부(220), 기초 변수 또는 기초 변수로부터 설정되는 조합 변수에 해당하는 학습 데이터를 복수의 알고리즘 각각에 입력하여 재발 확률을 예측하는 알고리즘 별 예측 모델을 생성하는 모델 생성부(230) 및 알고리즘 별 예측 모델의 성능을 비교하여 최종 예측 모델을 결정하는 모델 결정부(240)를 포함하는 재발 예측 장치(110)를 제공한다. Referring to FIG. 2 , the apparatus for predicting recurrence 110 according to an embodiment of the present disclosure obtains patient-specific patient information including body information, clinical information, and recurrence information, and assigns the patient to a recurrence group based on the recurrence information. A basic variable setting unit 210 that extracts a primary variable showing a difference between the groups and a non-recurrence group, and sets a basic variable from a secondary variable selected from among the extracted primary variables, patient information for each patient The learning data generation unit 220 selects based on a preset criterion to generate learning data, and each algorithm predicts the probability of recurrence by inputting learning data corresponding to a basic variable or a combination variable set from the basic variables into each of a plurality of algorithms. The recurrence prediction device 110 includes a model generator 230 that generates a predictive model and a model determiner 240 that compares performance of the predictive model for each algorithm to determine a final predictive model.

기초 변수 설정부(210)는 신체 정보, 임상 정보 및 재발 정보를 포함하는 환자 별 환자 정보를 획득하고, 재발 정보에 기초하여 환자를 재발 그룹과 비재발 그룹으로 구분할 수 있다. 일 예로, 기초 변수 설정부(210)는 Web 기반의 대규모의 RCC(Renal Cell Carcinoma) 코호트 DB(database)로부터 분석용 데이터 셋을 획득할 수 있다. 예를 들어, 환자 정보에 포함되는 신체 정보는 성별, 수술 당시 연령, 체질량 지수, 흡연 여부 등의 정보일 수 있다. 또한, 환자 정보에 포함되는 임상 정보는 Pathologic T stage, 병리조직형, Necrosis, Lymphovascular invasion, Capsular invasion, Fuhrman nuclear grade 등의 정보일 수 있다. 또한, 재발 정보는 일정 기간 이내에 신장암 재발 여부에 관한 것으로, 5년 이내 재발 여부 또는 10년 이내 재발 여부에 관한 정보일 수 있다. 다만, 5년 또는 10년의 기간은 일 예로, 이에 한정되지는 않는다. 또한, 신장암은 일 예로, 이에 한정되지는 않는다. The basic variable setting unit 210 may obtain patient information for each patient including body information, clinical information, and recurrence information, and classify patients into a recurrence group and a non-recurrence group based on the recurrence information. For example, the basic variable setting unit 210 may obtain a data set for analysis from a web-based large-scale renal cell carcinoma (RCC) cohort database (DB). For example, the body information included in the patient information may be information such as gender, age at the time of surgery, body mass index, smoking status, and the like. In addition, clinical information included in patient information may be information such as pathologic T stage, histopathological type, necrosis, lymphovascular invasion, capsular invasion, and Fuhrman nuclear grade. Further, the recurrence information relates to recurrence of renal cancer within a certain period of time, and may be information regarding recurrence within 5 years or recurrence within 10 years. However, the period of 5 years or 10 years is an example, but is not limited thereto. In addition, renal cancer is an example, but is not limited thereto.

다른 일 예로, 기초 변수 설정부(210)는 환자 별 환자 정보에서 재발 정보에 기초하여 일정 기간 이내에 재발한 환자는 재발 그룹으로 구분하고, 재발하지 않은 환자는 비재발 그룹으로 구분할 수 있다. 예를 들어, 기초 변수 설정부(210)는 예측 모델의 종속 변수가 되는 재발 정보에 따라 예측 모델의 독립 변수가 되는 신체 정보 및 임상 정보를 포함하는 환자 별 환자 정보를 재발 그룹과 비재발 그룹으로 구분할 수 있다.As another example, the basic variable setting unit 210 may classify patients who have relapsed within a certain period of time as a recurrence group based on recurrence information in patient information for each patient, and classify patients who have not recurred as a non-recurrence group. For example, the basic variable setting unit 210 divides patient information for each patient including physical information and clinical information, which are independent variables of the prediction model, into a recurrence group and a non-recurrence group according to recurrence information, which is a dependent variable of the prediction model. can be distinguished.

기초 변수 설정부(210)는 환자 정보로부터 그룹 간의 차이를 보이는 1차 변수를 추출할 수 있다. 예를 들어, RCC(Renal Cell Carcinoma) 코호트 DB(database)에 저장된 환자 정보에는 총 205개의 변수가 포함되어 있다. 일 예로, 기초 변수 설정부(210)는 저장된 환자 정보로부터 T-검정(T-test)과 카이 제곱 검정(Chi square test)을 이용하여 유의 확률 값(p-value)을 산출할 수 있다. 기초 변수 설정부(210)는 산출된 유의 확률 값을 기준으로 저장된 환자 정보에 포함된 변수 중에서 재발에 유의한 1차 변수를 추출할 수 있다. The basic variable setting unit 210 may extract a primary variable showing a difference between groups from patient information. For example, patient information stored in the RCC (Renal Cell Carcinoma) cohort DB (database) includes a total of 205 variables. For example, the basic variable setting unit 210 may calculate a significance probability value (p-value) using a T-test and a Chi square test from stored patient information. The basic variable setting unit 210 may extract a primary variable significant to recurrence from variables included in the stored patient information based on the calculated significance probability value.

또한, 기초 변수 설정부(210)는 추출된 1차 변수 중에서 2차 변수를 선택하고, 선택된 2차 변수 중에서 기초 변수를 설정할 수 있다. 일 예로, 기초 변수 설정부(210)는 추출된 1차 변수로부터 결측 비율이 특정 값 이상인 변수를 제거하고, 나머지 변수로부터 임상 결과에 기초하여 2차 변수를 선택할 수 있다. 또한, 기초 변수 설정부(210)는 선택된 2차 변수 중에서 기초 변수를 설정할 수 있다. 기초 변수를 설정하는 것에 관한 상세한 내용은 도 3을 참조하여 후술한다. Also, the basic variable setting unit 210 may select a secondary variable from among the extracted primary variables and set the basic variable from the selected secondary variables. For example, the basic variable setting unit 210 may remove variables having a missing rate greater than or equal to a specific value from the extracted primary variables, and select secondary variables from the remaining variables based on clinical results. Also, the basic variable setting unit 210 may set a basic variable among selected secondary variables. Details on setting the basic variables will be described later with reference to FIG. 3 .

학습 데이터 생성부(220)는 획득한 환자 별 환자 정보를 미리 설정된 기준으로 선별하여 학습 데이터를 생성할 수 있다. 일 예로, 학습 데이터 생성부(220)는 환자 별 환자 정보를 미리 설정된 환자의 수술 여부, 재발된 일정 기간, 결측 값 등을 기준으로 선별하여 예측 모델에 사용되는 학습 데이터를 생성할 수 있다. The learning data generation unit 220 may generate learning data by selecting the obtained patient information for each patient based on a preset criterion. For example, the learning data generation unit 220 may generate learning data used in a predictive model by selecting patient information for each patient based on previously set whether or not the patient had undergone surgery, a certain period of recurrence, a missing value, and the like.

학습 데이터 생성부(220)는 구분된 그룹 간의 환자 비율에 따라 환자 정보를 보정하여 학습 데이터를 생성할 수 있다. 일 예로, 학습 데이터 생성부(220)는 재발 그룹과 비재발 그룹 간의 환자 비율이 특정 비율 이상이면 SMOTE(synthetic minority oversampling technique)을 이용하여 두 그룹 간의 환자 비율이 일정하도록 환자 정보를 보정하여 학습 데이터를 생성할 수 있다. 예를 들어, 학습 데이터 생성부(220)는 재발 그룹과 비재발 그룹 간의 환자 비율이 특정 비율 이상으로 데이터 불균형이 존재하면, 오버샘플링(Oversampling)하여 데이터 불균형을 해결할 수 있다. 데이터 불균형을 해결하여 학습 데이터를 생성하는 것에 관한 상세한 내용은 도 5를 참조하여 후술한다.The learning data generation unit 220 may generate learning data by correcting patient information according to a ratio of patients between divided groups. For example, if the ratio of patients between the recurrence group and the non-recurrence group is equal to or greater than a specific ratio, the learning data generation unit 220 corrects patient information so that the ratio of patients between the two groups is constant using SMOTE (synthetic minority oversampling technique) to obtain learning data. can create For example, if data imbalance exists when the patient ratio between the recurrence group and the non-recurrence group exceeds a specific ratio, the learning data generation unit 220 may solve the data imbalance by oversampling. Details on generating training data by resolving data imbalance will be described later with reference to FIG. 5 .

모델 생성부(230)는 기초 변수 또는 기초 변수로부터 설정되는 조합 변수에 해당하는 학습 데이터를 복수의 알고리즘 각각에 입력하여 재발 확률을 예측하는 알고리즘 별 예측 모델을 생성할 수 있다. 일 예로, 모델 생성부(230)는 기초 변수에 2차 변수 중 적어도 하나 이상의 변수를 추가하여 조합 변수를 설정하고, 조합 변수에 해당하는 학습 데이터를 복수의 알고리즘 각각에 입력하여 재발 확률을 예측하는 알고리즘 별 예측 모델을 생성할 수 있다. 따라서, 모델 생성부(230)는 기초 변수에 기초하여 생성된 알고리즘 별 예측 모델에서 변수들을 하나씩 추가하면서 변수에 따른 알고리즘 성능을 비교할 수 있도록 조합 변수를 설정하여 알고리즘 별 예측 모델을 재생성할 수 있다. The model generating unit 230 may generate a predictive model for each algorithm that predicts a recurrence probability by inputting learning data corresponding to a basic variable or a combination variable set from the basic variables to each of a plurality of algorithms. For example, the model generation unit 230 sets a combination variable by adding at least one or more of the secondary variables to the basic variable, and inputs learning data corresponding to the combination variable to each of a plurality of algorithms to predict the probability of recurrence. A predictive model for each algorithm can be created. Accordingly, the model generation unit 230 may regenerate a prediction model for each algorithm by setting a combination variable to compare algorithm performance according to variables while adding variables one by one in the prediction model for each algorithm generated based on the basic variables.

모델 결정부(240)는 생성된 알고리즘 별 예측 모델의 성능을 비교하여 최종 예측 모델을 결정할 수 있다. 일 예로, 모델 결정부(240)는 생성된 알고리즘 별 예측 모델로부터 정확도(Accuracy), 민감도(Sensitivity), 특이도(Specificity) 및 ROC curve(Receiver Operating Characteristics) 중 적어도 하나를 계산하고, 계산 결과를 이용하여 알고리즘 별 예측 모델 중에서 최종 예측 모델을 결정할 수 있다. 또한, 모델 결정부(240)는 기초 변수로부터 설정되는 조합 변수에 따라 알고리즘 별 예측 모델이 생성되면, 생성된 알고리즘 별 예측 모델의 성능을 비교하여 최종 조합 변수를 결정할 수 있다. 따라서 모델 결정부(240)는 결정된 최종 조합 변수에 기초하여 최종 예측 모델을 결정할 수 있다. The model determiner 240 may determine a final prediction model by comparing performances of the prediction models for each generated algorithm. For example, the model determiner 240 calculates at least one of accuracy, sensitivity, specificity, and ROC curve (Receiver Operating Characteristics) from the generated prediction model for each algorithm, and displays the calculation result. It is possible to determine a final prediction model among prediction models for each algorithm. In addition, when a predictive model for each algorithm is generated according to the combination variables set from the basic variables, the model determiner 240 may compare performance of the generated prediction model for each algorithm to determine a final combination variable. Accordingly, the model determination unit 240 may determine a final predictive model based on the determined final combination variable.

다른 일 예로, 모델 결정부(240)는 최종 예측 모델이 CNB(complement naive bayes) 알고리즘을 이용하는 경우, 최종 예측 모델에 구현된 CNB 알고리즘의 스무딩 파라미터(smoothing parameter) 값을 결정할 수 있다. 예를 들어, 모델 결정부(240)는 최종 예측 모델에 일정 범위 내의 스무딩 파라미터 값을 각각 대입하여 도출된 성능 비교 결과에 따라 스무딩 파라미터 값을 결정할 수 있다. As another example, when the final prediction model uses a complement naive bayes (CNB) algorithm, the model determiner 240 may determine a smoothing parameter value of the CNB algorithm implemented in the final prediction model. For example, the model determiner 240 may determine a smoothing parameter value according to a performance comparison result obtained by substituting smoothing parameter values within a certain range into a final predictive model.

도 3은 본 개시의 일 실시 예에 따른 재발 예측 장치에서 환자 정보로부터 변수를 추출하는 동작을 설명하기 위한 예시를 도시한 도면이다.3 is a diagram illustrating an example for explaining an operation of extracting a variable from patient information in a recurrence prediction apparatus according to an embodiment of the present disclosure.

도 3을 참조하면 본 개시의 일 실시 예에 따른 재발 예측 장치의 기초 변수 설정부(210)는 신체 정보, 임상 정보 및 재발 정보를 포함하는 환자 별 환자 정보를 획득할 수 있다(S310). 예를 들어, 기초 변수 설정부(210)는 KORCC(KOrean Renal Cell Carcinoma) DB(database)에 있는 의료 기관의 총 6849건의 환자 데이터로부터 환자 별 환자 정보를 획득할 수 있다. Referring to FIG. 3 , the basic parameter setting unit 210 of the apparatus for predicting recurrence according to an embodiment of the present disclosure may obtain patient information for each patient including body information, clinical information, and recurrence information (S310). For example, the basic variable setting unit 210 may obtain patient information for each patient from a total of 6849 patient data of medical institutions in a KOrean Renal Cell Carcinoma (KORCC) DB (database).

기초 변수 설정부(210)는 환자 별 환자 정보로부터 1차 변수를 추출할 수 있다(S320). 예를 들어, 기초 변수 설정부(210)는 KORCC(KOrean Renal Cell Carcinoma) DB(database)에 있는 총 205개의 변수 중에서 일정 기간 이내 재발에 영향을 주는 변수를 탐색하기 위해 1차 변수를 추출할 수 있다. 또한, 기초 변수 설정부(210)는 환자 정보로부터 T-검정(T-test)과 카이 제곱 검정(Chi square test)을 이용하여 유의 확률 값(p-value)을 산출하고, 산출된 유의 확률 값이 0.05 이하인 변수를 재발에 유의한 1차 변수로 추출할 수 있다. 여기서, T-검정은 획득한 환자 별 정보를 통해 해당 환자 별 정보가 모집단을 대표할 수 있을지에 대한 검정을 하기 위해 사용될 수 있다. 그리고 카이 제곱 검정은 변수간의 연관도를 검정하기 위해 사용될 수 있다. 다만, 기준이 되는 유의 확률 값은 0.05이나, 이는 일 예로 0.5이하 범위에서 변경되어 사용될 수도 있다. The basic variable setting unit 210 may extract a primary variable from patient information for each patient (S320). For example, the basic variable setting unit 210 may extract a primary variable in order to search for a variable that affects recurrence within a certain period of time from a total of 205 variables in the KOrean Renal Cell Carcinoma (KORCC) DB (database). there is. In addition, the basic variable setting unit 210 calculates a significance probability value (p-value) using a T-test and a Chi square test from patient information, and the calculated significance probability value A variable with a value of 0.05 or less can be extracted as a significant primary variable for recurrence. Here, the T-test may be used to test whether the information for each patient can represent the population through the obtained information for each patient. And the chi-square test can be used to test the degree of association between variables. However, the significance probability value serving as a standard is 0.05, but this value may be changed and used within a range of 0.5 or less, for example.

기초 변수 설정부(210)는 추출된 1차 변수 중에서 2차 변수를 선택할 수 있다(S330). 일 예로, 기초 변수 설정부(210)는 추출된 1차 변수 중에서 결측 비율이 특정 값 이상인 변수를 제거하고, 나머지 변수로부터 임상 결과에 기초하여 2차 변수를 선택할 수 있다. 예를 들어, 기초 변수 설정부(210)는 추출된 1차 변수 중에서 결측 데이터 양이 많아 관측치의 표본 크기를 축소시키고 통계적 유의성을 감소시키는 결측 비율이 25% 이상인 변수를 제거할 수 있다. 또한, 기초 변수 설정부(210)는 나머지 변수 중에서 임상적으로 재발에 유의한 영향을 미치는 변수를 2차 변수로 선택할 수 있다. 구체적인 예를 들면, 선택된 2차 변수는 신체 정보에 해당되는 성별, 수술 당시 연령, 체질량 지수, 흡연 여부에 관한 4가지 변수와 임상 정보에 해당되는 Pathologic T stage, 병리조직형, Necrosis, Lymphovascular invasion, Capsular invasion, Fuhrman nuclear grade에 관한 6가지 변수로 선택될 수 있다. The basic variable setting unit 210 may select a secondary variable from among the extracted primary variables (S330). For example, the basic variable setting unit 210 may remove variables having a missing rate greater than or equal to a specific value from among the extracted primary variables, and may select secondary variables from the remaining variables based on clinical results. For example, the basic variable setting unit 210 may remove a variable with a missing rate of 25% or more, which reduces the sample size of observations and reduces statistical significance, because the amount of missing data is large among the extracted primary variables. In addition, the basic variable setting unit 210 may select a variable having a clinically significant effect on recurrence among the remaining variables as a secondary variable. For example, the selected secondary variables are four variables related to gender, age at the time of surgery, body mass index, and smoking status corresponding to body information, and pathologic T stage, pathologic type, necrosis, lymphovascular invasion, and clinical information corresponding to clinical information. It can be selected as 6 parameters related to capsular invasion and Fuhrman nuclear grade.

기초 변수 설정부(210)는 선택된 2차 변수 중에서 기초 변수를 설정할 수 있다(S340). 일 예로, 기초 변수 설정부(210)는 재발 확률을 예측하는 알고리즘 별 예측 모델을 생성하기 위해 기초 변수를 설정할 수 있다. 구체적인 예를 들면, 기초 변수는 신체 정보에 해당되는 성별, 수술 당시 연령, 체질량 지수, 흡연 여부에 관한 4가지 변수와 임상 정보에 해당되는 Pathologic T stage, 병리조직형, Necrosis에 관한 3가지 변수로 설정될 수 있다. The basic variable setting unit 210 may set the basic variable among the selected secondary variables (S340). For example, the basic variable setting unit 210 may set basic variables to generate a predictive model for each algorithm for predicting the probability of recurrence. For example, the basic variables are 4 variables related to gender, age at the time of surgery, body mass index, and smoking status corresponding to body information, and 3 variables related to pathologic T stage, histopathological type, and necrosis corresponding to clinical information. can be set.

기초 변수 설정부(210)는 기초 변수를 기준으로 변수를 추가하여 조합 변수를 설정할 수 있다(S350). 일 예로, 기초 변수 설정부(210)는 기초 변수에 선택된 2차 변수 중 적어도 하나 이상의 변수를 추가하여 조합 변수를 설정할 수 있다. 구체적인 예를 들어, 추가되는 변수는 Lymphovascular invasion, Capsular invasion, Fuhrman nuclear grade 중 적어도 하나 이상의 변수일 수 있다. 따라서, 재발 예측 장치는 기초 변수로부터 복수의 알고리즘을 이용하여 재발 확률을 예측하는 알고리즘 별 예측 모델을 생성하고, 여기에 변수들을 하나씩 추가하면서 재생성한 알고리즘 별 예측 모델의 성능을 비교하여 최종 조합 변수와 최종 예측 모델을 결정할 수 있다. The basic variable setting unit 210 may set a combination variable by adding a variable based on the basic variable (S350). For example, the basic variable setting unit 210 may set a combination variable by adding at least one or more selected secondary variables to the basic variable. For a specific example, the variable to be added may be at least one variable among lymphovascular invasion, capsular invasion, and Fuhrman nuclear grade. Therefore, the recurrence prediction device generates a predictive model for each algorithm that predicts the probability of recurrence using a plurality of algorithms from basic variables, and compares the performance of the regenerated predictive model for each algorithm while adding variables one by one to the final combination variable and A final predictive model can be determined.

도 4는 본 개시의 일 실시 예에 따른 재발 예측 장치에서 입력되는 학습 데이터를 생성하는 동작을 설명하기 위한 예시를 도시한 도면이다.4 is a diagram illustrating an example for explaining an operation of generating input learning data in a recurrence prediction apparatus according to an embodiment of the present disclosure.

도 4를 참조하면, 본 개시의 일 실시 예에 따른 재발 예측 장치의 기초 변수 설정부(210)는 KORCC(KOrean Renal Cell Carcinoma) study group에 참여한 병원들에 의해 구축된 Web 기반의 대규모 DB로부터 환자 별 환자 정보를 획득할 수 있다(S410). 예를 들어, 기초 변수 설정부(210)는 KORCC(KOrean Cell Carcinoma) DB(database)에 있는 총 6849건의 환자 데이터와 신장암 재발에 유의하게 영향을 미치는 총 205개의 변수를 포함하는 환자 별 환자 정보를 획득할 수 있다Referring to FIG. 4, the basic parameter setting unit 210 of the apparatus for predicting recurrence according to an embodiment of the present disclosure is a patient from a web-based large-scale DB built by hospitals participating in a KORCC (KOrean Renal Cell Carcinoma) study group. Individual patient information may be acquired (S410). For example, the basic variable setting unit 210 includes a total of 6849 patient data in the KORean Cell Carcinoma (KORCC) DB (database) and patient-specific patient information including a total of 205 variables that significantly affect renal cancer recurrence. can obtain

기초 변수 설정부(210)는 변수 탐색 과정을 거쳐 변수를 설정할 수 있다(S420). 예를 들어, 기초 변수 설정부(210)는 T-검정(T-test)과 카이 제곱 검정(Chi square test)을 이용하여 재발 집단과 비재발 집단에서 차이를 보이는 변수 31개를 선택할 수 있다. 또한, 기초 변수 설정부(210)는 선택된 31개 변수 중 임상에서 실제로 유의한 10개 변수를 최종적으로 2차 변수로 선택할 수 있다. 따라서, 기초 변수는 선택된 2차 변수 중에서 설정될 수 있다. The basic variable setting unit 210 may set the variable through a variable search process (S420). For example, the basic variable setting unit 210 may select 31 variables showing differences between the recurrence group and the non-recurrence group using a T-test and a Chi square test. In addition, the basic variable setting unit 210 may finally select 10 clinically significant variables among the selected 31 variables as secondary variables. Therefore, the basic variable can be set among the selected secondary variables.

학습 데이터 생성부(220)는 환자 별 환자 정보를 미리 설정된 기준으로 선별하여 학습 데이터를 생성할 수 있다(S430). 예를 들어, 학습 데이터 생성부(220)는 DB에 저장된 총 6849건의 환자 데이터 중 수술 치료를 받지 않은 환자를 제외하고 수술 치료를 받은 환자 5281명만의 데이터로 학습 데이터를 생성할 수 있다. 또한, 학습 데이터 생성부(220)는 일정 기간 이후 재발한 환자 데이터와 Follow up loss에 해당하는 환자 데이터를 제외하여 선별된 학습 데이터를 생성할 수 있다. 그리고, 학습 데이터 생성부(220)는 선택된 2차 변수에 결측 값이 있는 데이터 역시 제외하여 선별된 학습 데이터를 생성할 수 있다. 예를 들어, 학습 데이터 생성부(220)는 10년 이후 재발한 13명의 환자 데이터와 Follow up loss에 해당하는 1079명의 환자 데이터를 제외한 학습 데이터를 생성할 수 있다. 그리고 학습 데이터 생성부(220)는 선택된 10개 변수에 결측 값이 있는 1375명의 환자 데이터를 제외한 학습 데이터를 생성할 수 있다. The learning data generation unit 220 may generate learning data by selecting patient information for each patient based on a preset criterion (S430). For example, the learning data generation unit 220 may generate learning data with data of only 5281 patients who received surgical treatment, excluding patients who did not undergo surgical treatment among a total of 6849 patient data stored in the DB. In addition, the learning data generating unit 220 may generate selected learning data by excluding patient data that relapses after a certain period of time and patient data corresponding to follow-up loss. Also, the learning data generating unit 220 may generate selected learning data by excluding data having a missing value in the selected secondary variable. For example, the learning data generation unit 220 may generate learning data excluding data of 13 patients who relapsed after 10 years and data of 1079 patients corresponding to follow-up loss. Further, the learning data generating unit 220 may generate learning data excluding 1375 patient data having missing values in the selected 10 variables.

학습 데이터 생성부(220)는 복수의 알고리즘에 입력하기 위한 기초 변수 또는 조합 변수에 해당하는 학습 데이터를 생성할 수 있다(S440). 예를 들어, 학습 데이터 생성부(220)는 재발 집단과 비재발 집단에서 차이를 보이는 변수 중에서 임상에서 실제로 유의한 변수를 10개를 선택하고 이에 해당되는 데이터를 학습 데이터로 생성할 수 있다. 또한, 학습 데이터 생성부(220)는 환자 별 환자 정보로부터 선별된 2814 명의 환자 데이터를 학습 데이터로 생성할 수 있다. The learning data generation unit 220 may generate learning data corresponding to basic variables or combination variables to be input to a plurality of algorithms (S440). For example, the learning data generation unit 220 may select 10 clinically significant variables among variables showing differences between the recurrence group and the non-recurrence group, and generate data corresponding thereto as learning data. In addition, the learning data generation unit 220 may generate patient data of 2814 patients selected from patient information for each patient as learning data.

다만, 본 명세서에서 각각의 수치들을 기준으로 설명하나 이에 한정되는 것은 아니다.However, although described based on each numerical value in this specification, it is not limited thereto.

도 5는 본 개시의 일 실시 예에 따른 재발 예측 장치에서 환자 정보를 보정하여 생성된 학습 데이터를 설명하기 위한 예시를 도시한 도면이다.5 is a diagram illustrating an example for explaining learning data generated by correcting patient information in an apparatus for predicting recurrence according to an embodiment of the present disclosure.

도 5를 참조하여, 본 개시의 일 실시 예에 따른 재발 예측 장치의 학습 데이터 생성부(220)가 일정 기간 내에 재발 여부에 따라 구분된 재발 그룹과 비재발 그룹 간의 환자 비율이 특정 비율 이상이면 SMOTE(Synthetic minority oversampling technique)을 이용하여 환자 정보를 보정하여 학습 데이터를 생성하는 일 예를 설명한다. 일 예로, 학습 데이터 생성부(220)는 5년 이내 재발 여부에 따라 구분된 재발 그룹과 비재발 그룹의 환자 비율(510)을 확인할 수 있다. 구체적으로, 그룹 간의 환자 비율은 1:10으로, 구분된 재발 그룹의 환자 수는 210명이고 비재발 그룹의 환자수는 2022명임을 확인할 수 있다. 따라서, 학습 데이터 생성부(220)는 SMOTE을 이용하여 새로운 데이터를 생성하는 방식으로 그룹 간의 환자 비율을 1:1로, 각각의 그룹의 환자 수를 2022명으로 환자 정보를 보정하여 학습 데이터를 생성할 수 있다. 이로써 데이터 간의 불균형을 해결함으로써, 모델의 학습이 제대로 이루어지는 효과를 제공할 수 있다. Referring to FIG. 5 , if the learning data generating unit 220 of the recurrence prediction device according to an embodiment of the present disclosure has a patient ratio between a recurrence group and a non-recurrence group classified according to whether or not recurrence within a certain period of time is greater than or equal to a specific ratio, SMOTE An example of generating learning data by correcting patient information using a synthetic minority oversampling technique will be described. For example, the learning data generation unit 220 may check the patient ratio 510 of the recurrence group and the non-recurrence group, classified according to recurrence within 5 years. Specifically, the ratio of patients between groups is 1:10, and it can be confirmed that the number of patients in the recurrence group is 210 and the number of patients in the non-recurrence group is 2022. Therefore, the learning data generation unit 220 generates learning data by correcting patient information so that the patient ratio between groups is 1:1 and the number of patients in each group is 2022 in a method of generating new data using SMOTE. can do. In this way, by resolving the imbalance between the data, it is possible to provide the effect of properly learning the model.

예를 들어, 학습 데이터 생성부(220)는 SMOTE(synthetic minority oversampling technique) 중 오버 샘플링(Oversampling) 방식을 이용하여 그룹 간의 환자 비율이 일정하도록 환자 정보를 보정하여 학습 데이터를 생성할 수 있다. 여기서, 오버 샘플링 방식은 데이터 개수가 적은 그룹의 표본으로부터 임의의 값을 추가하여 만든 새로운 샘플을 만들어 데이터에 추가하는 방식일 수 있다. 구체적으로, 학습 데이터 생성부(220)는 부트스트래핑(bootstrapping)이나 KNN(K-Nearest Neighbor) 모델 기법을 활용하여 낮은 비율 그룹의 데이터들의 최근접 이웃(Synthetic samples)을 이용하여 새로운 데이터를 생성할 수 있다. 즉, 학습 데이터 생성부(220)는 소수 데이터 중 특정 벡터와 가장 가까운 이웃 사이의 차이를 계산하고, 이 차이에 0과 1사이의 수를 곱하여 타겟 벡터에 추가하여 산출한 두 벡터 사이의 선분을 따라 임의의 점을 선택하여 새로운 데이터를 생성할 수 있다. For example, the learning data generation unit 220 may generate learning data by correcting patient information so that a patient ratio between groups is constant using an oversampling method among synthetic minority oversampling techniques (SMOTE). Here, the oversampling method may be a method of creating a new sample made by adding a random value from a sample of a group having a small number of data and adding it to the data. Specifically, the learning data generation unit 220 may generate new data using synthetic samples of data of a low ratio group by utilizing a bootstrapping or K-Nearest Neighbor (KNN) model technique. can That is, the learning data generation unit 220 calculates the difference between a specific vector and the nearest neighbor among the decimal data, multiplies the difference by a number between 0 and 1, adds it to the target vector, and obtains a line segment between the two vectors. You can create new data by selecting an arbitrary point along the way.

다른 일 예로, 학습 데이터 생성부(220)는 10년 이내 재발 여부에 따라 구분된 재발 그룹과 비재발 그룹의 환자 비율(520)을 확인할 수 있다. 구체적으로, 그룹 간의 환자 비율은 1:10으로, 구분된 재발 그룹의 환자 수는 226명이고 비재발 그룹의 환자수는 2025명임을 확인할 수 있다. 재발 여부의 기준이 된 일정 기간에 따라서 그룹 간의 환자 수는 차이가 있으나, 그룹 간의 환자 비율의 불균형은 유지되는 것을 확인할 수 있다. 따라서, 학습 데이터 생성부(220)는 SMOTE을 이용하여 새로운 데이터를 생성하는 방식으로 그룹 간의 환자 비율을 1:1로, 각각의 그룹의 환자 수를 2025명으로 환자 정보를 보정하여 학습 데이터를 생성할 수 있다. As another example, the learning data generation unit 220 may check the patient ratio 520 of the recurrence group and the non-recurrence group, classified according to recurrence within 10 years. Specifically, the patient ratio between the groups is 1:10, and it can be confirmed that the number of patients in the recurrence group is 226 and the number of patients in the non-recurrence group is 2025. Although the number of patients differed between groups according to a certain period of time as a criterion for recurrence, it can be confirmed that the imbalance in the proportion of patients between groups is maintained. Therefore, the learning data generation unit 220 generates learning data by correcting patient information so that the patient ratio between groups is 1:1 and the number of patients in each group is 2025 in a manner of generating new data using SMOTE. can do.

도 6은 본 개시의 일 실시 예에 따른 재발 예측 장치에서 최종 예측 모델을 결정하는 동작을 설명하기 위한 예시를 도시한 도면이다. 6 is a diagram illustrating an example for explaining an operation of determining a final predictive model in the apparatus for predicting recurrence according to an embodiment of the present disclosure.

도 6을 참조하면, 본 개시의 일 실시 예에 따른 재발 예측 장치의 모델 생성부(230)는 기초 변수 또는 기초 변수로부터 설정되는 조합 변수에 해당하는 상기 학습 데이터를 복수의 알고리즘 각각에 입력하여 재발 확률을 예측하는 알고리즘 별 예측 모델을 생성할 수 있다(S610). 모델 생성부(230)는 구성된 학습 데이터를 학습시키기 위해 예측 모델에서 대표적인 머신 러닝 알고리즘들을 복수의 알고리즘으로 이용할 수 있다. 예를 들어, 복수의 알고리즘은 Kernel SVM(Kernel Support Vector Machine), Logistic Regression, DecisionTree, KNN(K-Nearest Neighbor), Complement Naive Bayes, RandomForest, AdaBoost, GradientBoost, Xgboost 등의 알고리즘일 수 있다. 다만, 모델 생성부(230)에서 이용할 수 있는 알고리즘은 이에 제한 되지 않고 현재 또는 장래에 사용될 수 있는 다양한 머신 러닝 알고리즘일 수 있다. Referring to FIG. 6 , the model generation unit 230 of the apparatus for predicting recurrence according to an embodiment of the present disclosure inputs the learning data corresponding to a basic variable or a combination variable set from the basic variables to each of a plurality of algorithms, thereby recurring recurrence. A predictive model for each algorithm predicting probability may be generated (S610). The model generator 230 may use representative machine learning algorithms as a plurality of algorithms in the predictive model to learn the configured training data. For example, the plurality of algorithms may be algorithms such as Kernel Support Vector Machine (SVM), Logistic Regression, DecisionTree, K-Nearest Neighbor (KNN), Complement Naive Bayes, RandomForest, AdaBoost, GradientBoost, Xgboost, and the like. However, the algorithm that can be used in the model generating unit 230 is not limited thereto and may be various machine learning algorithms that can be used now or in the future.

모델 결정부(240)는 복수의 알고리즘 각각을 이용하여 생성한 알고리즘 별 예측 모델의 성능을 비교할 수 있다(S620). 일 예로, 모델 결정부(240)는 알고리즘 별 예측 모델로부터 정확도(Accuracy), 민감도(Sensitivity), 특이도(Specificity) 및 ROC curve(Reciever Operating Characteristics) 중 적어도 하나를 계산하고, 계산 결과를 이용하여 알고리즘 별 예측 모델의 성능을 비교할 수 있다. 따라서, 모델 결정부(240)는 알고리즘 별 예측 모델 중에서 최종 예측 모델을 결정할 수 있다. 예를 들어, 정확도는 전체 개수 중에서 실제 값과 예측 값이 일치한 개수의 비율을 의미하고, 민감도는 실제 값이 양성(재발)인 것 중에서 예측 값과 실제 값이 일치한 비율을 의미하고, 특이도는 실제 값이 음성(비재발)인 것 중에서 예측 값과 실제 값이 일치한 비율을 의미할 수 있다. 모델 결정부(240)는 정확도, 민감도, 특이도를 계산하고, 계산 결과가 큰 값을 가질수록 모델의 성능이 좋다고 평가할 수 있다. 또한, 모델 결정부(240)는 1-특이도를 X축으로, 민감도를 Y축으로 ROC curve를 생성하고, 생성된 ROC 커브의 밑면적인 AUC(Area Under the Curve)의 넓이가 넓을수록 모델의 성능이 좋다고 평가할 수 있다. 예를 들어, 모델 결정부(240)는 재발 확률을 예측하는 알고리즘 별 예측 모델에서 ROC curve, 정확도, 민감도, 특이도를 기준으로 종합적으로 비교했을 때 CNB 알고리즘을 이용한 예측 모델이 가장 좋은 성능의 모델임을 확인할 수 있다.The model determination unit 240 may compare performance of prediction models for each algorithm generated using each of a plurality of algorithms (S620). For example, the model determination unit 240 calculates at least one of accuracy, sensitivity, specificity, and ROC curve (Reciever Operating Characteristics) from the predictive model for each algorithm, and uses the calculation result The performance of prediction models for each algorithm can be compared. Accordingly, the model determination unit 240 may determine a final prediction model among prediction models for each algorithm. For example, accuracy means the ratio of the number in which the actual value and the predicted value match among the total number, and sensitivity means the ratio in which the predicted value and the actual value agree among the positive (recurrence) actual values, and the specific Degree may mean the ratio of coincidence between the predicted value and the actual value among those whose actual value is negative (non-recurrence). The model determination unit 240 may calculate accuracy, sensitivity, and specificity, and may evaluate that the performance of the model is good as the calculation result has a larger value. In addition, the model determiner 240 generates an ROC curve with 1-specificity as the X-axis and sensitivity as the Y-axis, and the wider the AUC (Area Under the Curve) of the generated ROC curve, the better the model. Performance can be evaluated as good. For example, when the model determiner 240 comprehensively compares the ROC curve, accuracy, sensitivity, and specificity in the prediction model for each algorithm for predicting the probability of recurrence, the prediction model using the CNB algorithm has the best performance. It can be confirmed that

모델 결정부(240)는 알고리즘 별 예측 모델 중에서 결정된 최종 예측 모델이 CNB(complement naive bayes) 알고리즘을 이용하는 경우, CNB 알고리즘의 스무딩 파라미터(smoothing parameter) 값을 결정할 수 있다(S620). 예를 들어, 모델 결정부(240)는 CNB 알고리즘의 정확도를 높이기 위해 스무딩 파라미터(smoothing parameter) 값을 0에서부터 200까지 범위에서 각각 대입하여 도출된 성능 비교 결과에 따라 스무딩 파라미터 값을 결정할 수 있다. 여기서 스무딩 파라미터는 확률이 0일 경우를 제외시키기 위하여 설정하는 것으로 값의 보정을 위해 사용될 수 있다. The model determination unit 240 may determine a smoothing parameter value of the CNB algorithm when the final prediction model determined from among prediction models for each algorithm uses a complement naive bayes (CNB) algorithm (S620). For example, the model determiner 240 may determine a smoothing parameter value according to a performance comparison result obtained by substituting a smoothing parameter value in the range of 0 to 200 in order to increase the accuracy of the CNB algorithm. Here, the smoothing parameter is set to exclude the case where the probability is 0, and can be used for value correction.

모델 결정부(240)는 결정된 스무딩 파라미터 값에 기초하여 최종 예측 모델을 결정할 수 있다. 예를 들어, 모델 결정부(240)는 CNB(complement naive bayes) 알고리즘을 이용하며 스무딩 파라미터 값이 최적화된 예측 모델을 최종 예측 모델로 결정할 수 있다. The model determination unit 240 may determine a final predictive model based on the determined smoothing parameter value. For example, the model determiner 240 may determine a prediction model in which a complement naive bayes (CNB) algorithm is used and a smoothing parameter value is optimized as the final prediction model.

도 7은 본 개시의 일 실시 예에 따른 재발 예측 장치에서 CNB 알고리즘의 스무딩 파라미터 값을 결정하는 동작을 설명하기 위한 예시를 도시한 도면이다. 7 is a diagram illustrating an example for explaining an operation of determining a smoothing parameter value of a CNB algorithm in an apparatus for predicting recurrence according to an embodiment of the present disclosure.

도 7을 참조하여, 본 개시의 일 실시 예에 따른 재발 예측 장치의 모델 결정부(240)가 CNB(complement naive bayes) 알고리즘을 이용하는 예측 모델로 최종 예측 모델이 결정되는 경우에 있어서, CNB 알고리즘의 스무딩 파라미터(smoothing parameter, α) 값을 결정하는 일 예를 설명한다. 예를 들어, 모델 결정부(240)는 스무딩 파라미터 값을 결정하기 위해 라플라스 스무딩(Laplace Smoothing) 기법을 활용할 수 있다. 이는 확률의 분모 분자에 스무딩 파라미터 값을 더해서 확률이 0이 되는 것을 방지하기 위함이다. 다만, 모델 결정부(240)는 스무딩 파라미터 값을 0에서부터 200까지 범위에서 각각 대입하여 도출된 성능 비교 결과에 따라 스무딩 파라미터 값을 결정할 수 있다. 구체적인 예를 들면, 모델 결정부(240)는 5년 이내 재발을 예측하는 예측 모델의 경우에는 CNB 알고리즘의 스무딩 파라미터 값이 10인 경우에 예측 모델의 성능이 가장 좋은 것으로 판단할 수 있다. 따라서, 모델 결정부(240)는 CNB 알고리즘으로 구현된 5년 이내 재발을 예측하는 최종 예측 모델의 스무딩 파라미터 값은 10으로 결정할 수 있다. 반면에, 모델 결정부(240)는 10년 이내 재발을 예측하는 예측 모델의 경우에는 CNB 알고리즘의 스무딩 파라미터 값이 100인 경우에 예측 모델의 성능이 가장 좋은 것으로 판단할 수 있다. 따라서, 모델 결정부(240)는 CNB 알고리즘으로 구현된 10이내 재발을 예측하는 최종 예측 모델의 스무딩 파라미터 값은 100으로 결정할 수 있다. 다만, 설정된 재발 기간과 결정된 스무딩 파라미터 값은 일 예를 설명한 것으로, 이에 한정되지 않는다. Referring to FIG. 7 , when the model determination unit 240 of the apparatus for predicting recurrence according to an embodiment of the present disclosure determines the final prediction model as a prediction model using a complement naive bayes (CNB) algorithm, the CNB algorithm An example of determining the value of the smoothing parameter (α) will be described. For example, the model determiner 240 may utilize a Laplace smoothing technique to determine a smoothing parameter value. This is to prevent the probability from becoming 0 by adding a smoothing parameter value to the denominator numerator of the probability. However, the model determiner 240 may determine the smoothing parameter value according to the performance comparison result obtained by substituting the smoothing parameter value in the range of 0 to 200, respectively. As a specific example, in the case of a predictive model predicting recurrence within 5 years, the model determiner 240 may determine that the performance of the predictive model is the best when the smoothing parameter value of the CNB algorithm is 10. Accordingly, the model determiner 240 may determine a smoothing parameter value of 10 for the final predictive model for predicting recurrence within 5 years implemented by the CNB algorithm. On the other hand, in the case of a predictive model predicting recurrence within 10 years, the model determiner 240 may determine that the performance of the predictive model is the best when the smoothing parameter value of the CNB algorithm is 100. Accordingly, the model determiner 240 may determine a smoothing parameter value of 100 for the final prediction model for predicting recurrence within 10 implemented by the CNB algorithm. However, the set recurrence period and the determined smoothing parameter value are examples, and are not limited thereto.

도 8은 본 개시의 다른 실시 예에 따른 재발 예측 장치에서 조합 변수와 최종 예측 모델을 결정하는 동작을 설명하기 위한 예시를 도시한 도면이다. 8 is a diagram illustrating an example for explaining an operation of determining a combination variable and a final predictive model in a recurrence prediction apparatus according to another embodiment of the present disclosure.

도 8을 참조하면, 본 개시의 일 실시 예에 따른 재발 예측 장치의 모델 생성부(230)는 기초 변수로부터 조합 변수를 설정할 수 있다(S810). 예를 들어, 모델 생성부(230)는 기초 변수에 2차 변수 중 적어도 하나 이상의 변수를 추가하여 조합 변수를 설정할 수 있다. 구체적인 예를 들면, 모델 생성부(230)는 성별, 수술 당시 연령, 체질량 지수, 흡연 여부, Pathologic T stage, 병리조직형, Necrosis로 이루어진 기초 변수에 Lymphovascular invasion, Capsular invasion, Fuhrman nuclear grade 중 적어도 하나 이상의 변수를 추가하여 조합 변수를 설정할 수 있다. Referring to FIG. 8 , the model generating unit 230 of the apparatus for predicting recurrence according to an embodiment of the present disclosure may set combination variables from basic variables (S810). For example, the model generator 230 may set a combination variable by adding at least one or more secondary variables to the basic variable. For example, the model generating unit 230 may use at least one of lymphovascular invasion, capsular invasion, and Fuhrman nuclear grade in basic variables including gender, age at the time of surgery, body mass index, smoking status, pathologic T stage, histopathological type, and necrosis. Combination variables can be set by adding the above variables.

모델 생성부(230)는 기초 변수 또는 조합 변수에 해당하는 학습 데이터를 복수의 알고리즘 각각에 입력하여 재발 확률을 예측하는 알고리즘 별 예측 모델을 생성할 수 있다(S820). 예를 들어, 모델 생성부(230)는 기초 변수에 해당하는 학습 데이터를 복수의 알고리즘 각각에 입력하여 알고리즘 별 예측 모델을 생성할 수 있다. 그리고 모델 생성부(230)는 기초 변수에 2차 변수에 포함되는 변수들을 하나씩 추가하여 설정된 조합 변수에 해당하는 학습 데이터를 복수의 알고리즘 각각에 입력하여 조합 변수에 따른 알고리즘 별 예측 모델을 생성할 수 있다. The model generating unit 230 may generate a predictive model for each algorithm for predicting a recurrence probability by inputting learning data corresponding to a basic variable or a combination variable to each of a plurality of algorithms (S820). For example, the model generation unit 230 may generate a prediction model for each algorithm by inputting learning data corresponding to a basic variable to each of a plurality of algorithms. In addition, the model generation unit 230 adds variables included in the secondary variables to the basic variables one by one and inputs learning data corresponding to the set combination variable to each of a plurality of algorithms to generate a predictive model for each algorithm according to the combination variable. there is.

모델 결정부(240)는 기초 변수 또는 조합 변수에 따라 생성된 알고리즘 별 예측 모델의 성능을 비교할 수 있다(S830). 예를 들어, 모델 결정부(240)는 변경된 변수에 따라 생성된 알고리즘 별 예측 모델로부터 정확도, 민감도, 특이도 및 ROC curve 중 적어도 하나를 계산하여 성능을 비교할 수 있다. The model determination unit 240 may compare performance of prediction models for each algorithm generated according to basic variables or combination variables (S830). For example, the model determiner 240 may compare performance by calculating at least one of accuracy, sensitivity, specificity, and ROC curve from a predictive model for each algorithm generated according to the changed variable.

모델 결정부(240)는 기초 변수 또는 조합 변수에 따라 생성된 알고리즘 별 예측 모델의 성능 비교 결과에 따라 최종 조합 변수를 결정할 수 있다(S830). 예를 들어, 모델 결정부(240)는 알고리즘 별 예측 모델의 성능 비교 결과에 따라 성능이 좋을 때의 변수를 최종 조합 변수로 결정할 수 있다. 구체적인 예를 들면, 모델 결정부(240)는 2차 변수로 선택된 10개 변수를 모두 사용하여 생성한 알고리즘 별 예측 모델의 성능이 가장 좋은 것을 확인할 수 있다. 따라서 모델 결정부(240)는 최종 조합 변수를 10개의 변수로 결정할 수 있다. The model determination unit 240 may determine a final combination variable according to a performance comparison result of prediction models for each algorithm generated according to basic variables or combination variables (S830). For example, the model determination unit 240 may determine a variable with good performance as a final combination variable according to a performance comparison result of prediction models for each algorithm. As a specific example, the model determination unit 240 may confirm that the performance of the predictive model for each algorithm generated using all 10 variables selected as secondary variables is the best. Accordingly, the model determining unit 240 may determine the final combination variables as 10 variables.

모델 결정부(240)는 결정된 최종 조합 변수에 따라 생성된 알고리즘 별 예측 모델 중에서 최종 예측 모델을 결정할 수 있다(S850). 예를 들어, 모델 결정부(240)는 동일한 최종 조합 변수에 해당하는 학습 데이터를 복수의 알고리즘 각각에 입력하여 생성한 알고리즘 별 예측 모델의 성능을 비교하여 최종 예측 모델을 결정할 수 있다. 구체적인 예를 들면, 모델 결정부(240)는 2차 변수로 선택된 10개 변수를 CNB 알고리즘에 입력하여 재발 확률을 예측하는 모델로 최종 예측 모델을 결정할 수 있다. The model determination unit 240 may determine a final prediction model from prediction models for each algorithm generated according to the determined final combination variable (S850). For example, the model determination unit 240 may determine a final prediction model by comparing performance of prediction models for each algorithm generated by inputting training data corresponding to the same final combination variable to each of a plurality of algorithms. As a specific example, the model determination unit 240 may input 10 variables selected as secondary variables to the CNB algorithm to determine a final predictive model as a model for predicting a recurrence probability.

도 9는 본 개시의 일 실시 예에 따른 재발 예측 장치에서 알고리즘 별 예측 모델의 성능을 비교하는 동작을 설명하기 위한 예시를 도시한 도면이다. 9 is a diagram illustrating an example for explaining an operation of comparing performance of predictive models for each algorithm in the apparatus for predicting recurrence according to an embodiment of the present disclosure.

도 9를 참조하여, 본 개시의 일 실시 예에 따른 재발 예측 장치의 모델 결정부(240)가 기초 변수를 이용하여 생성한 알고리즘 별 예측 모델의 성능을 비교하여 CNB(complement naive bayes) 알고리즘을 이용하는 예측 모델을 최종 예측 모델로 결정하는 일 예를 설명한다. 예를 들어, 모델 결정부(240)는 알고리즘 별 예측 모델로부터 정확도, 민감도, 특이도 및 ROC curve 중 적어도 하나를 계산하고, 계산 결과를 이용하여 알고리즘 별 예측 모델의 성능을 비교할 수 있다. 도 9를 참조하면, 모델 결정부(240)는 알고리즘 별 예측 모델 중에서 CNB(complement naive bayes) 알고리즘을 이용한 예측 모델의 성능이 가장 높음을 확인할 수 있다. 따라서 모델 결정부(240)는 CNB 알고리즘을 이용한 모델을 최종 예측 모델로 결정할 수 있다. Referring to FIG. 9 , the model determination unit 240 of the recurrence prediction apparatus according to an embodiment of the present disclosure compares the performance of prediction models for each algorithm generated using basic variables and uses a complement naive bayes (CNB) algorithm. An example of determining the prediction model as the final prediction model will be described. For example, the model determiner 240 may calculate at least one of accuracy, sensitivity, specificity, and ROC curve from the prediction model for each algorithm, and compare the performance of the prediction model for each algorithm using the calculation result. Referring to FIG. 9 , the model determiner 240 can confirm that the performance of a prediction model using a complement naive bayes (CNB) algorithm is the highest among prediction models for each algorithm. Accordingly, the model determination unit 240 may determine a model using the CNB algorithm as a final prediction model.

도 10은 본 개시의 일 실시 예에 따른 재발 예측 장치에서 조합 변수에 따라 생성된 알고리즘 별 예측 모델의 성능을 비교하는 동작을 설명하기 위한 예시를 도시한 도면이다. 10 is a diagram illustrating an example for explaining an operation of comparing performance of predictive models for each algorithm generated according to a combination variable in the apparatus for predicting recurrence according to an embodiment of the present disclosure.

도 10을 참조하여, 본 개시의 일 실시 예에 따른 재발 예측 장치의 모델 결정부(240)가 조합 변수 10개를 이용하여 생성된 알고리즘 별 예측 모델의 성능을 비교하여 최종 예측 모델을 결정하는 일 예를 설명한다. 예를 들어, 모델 결정부(240)는 기초 변수로부터 설정되는 조합 변수에 따라 생성된 알고리즘 별 예측 모델로부터 정확도, 민감도, 특이도 및 ROC curve 중 적어도 하나를 계산하고, 계산 결과를 이용하여 알고리즘 별 예측 모델의 성능을 비교할 수 있다. 도 10을 참조하면, 모델 결정부(240)는 조합 변수 10개인 예측 모델의 성능이 기초 변수 또는 다른 조합 변수보다 높음을 확인할 수 있다. 여기서, 조합 변수 10개는 성별, 수술 당시 연령, 체질량 지수, 흡연 여부, Pathologic T stage, 병리조직형, Necrosis, Lymphovascular invasion, Capsular invasion, Fuhrman nuclear grade로 설정될 수 있다. 또한, 모델 결정부(240)는 조합 변수 10개를 이용한 알고리즘 별 예측 모델 중에서는 CNB 알고리즘을 이용한 예측 모델의 성능이 가장 높음을 확인할 수 있다. 따라서, 모델 결정부(240)는 조합 변수 10개를 CNB 알고리즘에 입력하여 재발 확률을 예측하는 모델을 최종 예측 모델로 결정할 수 있다. Referring to FIG. 10, the model determination unit 240 of the recurrence prediction apparatus according to an embodiment of the present disclosure compares performance of prediction models for each algorithm generated using 10 combination variables to determine a final prediction model. Explain an example. For example, the model determiner 240 calculates at least one of accuracy, sensitivity, specificity, and ROC curve from a predictive model for each algorithm generated according to a combination variable set from basic variables, and uses the calculation result for each algorithm. You can compare the performance of predictive models. Referring to FIG. 10 , the model determiner 240 may confirm that the performance of the predictive model with 10 combination variables is higher than that of the basic variables or other combination variables. Here, the 10 combined variables can be set to gender, age at surgery, body mass index, smoking status, Pathologic T stage, histopathological type, necrosis, lymphovascular invasion, capsular invasion, and Fuhrman nuclear grade. In addition, the model determiner 240 can confirm that the performance of the prediction model using the CNB algorithm is the highest among the prediction models for each algorithm using 10 combination variables. Accordingly, the model determination unit 240 may determine a model for predicting a recurrence probability by inputting 10 combination variables to the CNB algorithm as a final prediction model.

이하에서는 도 1 내지 도 10을 참조하여 설명한 재발 예측 장치가 수행할 수 있는 재발 예측 방법에 대해서 설명한다.Hereinafter, a recurrence prediction method that can be performed by the apparatus for predicting recurrence described with reference to FIGS. 1 to 10 will be described.

도 11은 본 개시의 다른 실시 예에 따른 재발 예측 방법의 흐름도이다. 11 is a flowchart of a recurrence prediction method according to another embodiment of the present disclosure.

도 11을 참조하면, 본 개시의 재발 예측 방법은 기초 변수를 설정하는 기초 변수 설정 단계를 포함할 수 있다(S1110). 일 예로, 재발 예측 장치는 신체 정보, 임상 정보 및 재발 정보를 포함하는 환자 별 환자 정보를 획득하고, 재발 정보에 기초하여 환자를 재발 그룹과 비재발 그룹으로 구분할 수 있다. 예를 들어, 재발 예측 장치는 Web 기반의 대규모의 RCC(Renal Cell Carcinoma) 코호트 DB(database)를 구축하여 분석용 데이터 셋을 획득할 수 있다. 구체적인 예를 들면, 환자 정보에 포함되는 신체 정보는 성별, 수술 당시 연령, 체질량 지수, 흡연 여부 등의 정보일 수 있다. 또한, 환자 정보에 포함되는 임상 정보는 Pathologic T stage, 병리조직형, Necrosis, Lymphovascular invasion, Capsular invasion, Fuhrman nuclear grade 등의 정보일 수 있다. 또한, 재발 정보는 일정 기간 이내에 재발 여부에 관한 것으로, 5년 이내 재발 여부 또는 10년 이내 재발 여부에 관한 정보일 수 있다. Referring to FIG. 11 , the recurrence prediction method of the present disclosure may include a basic variable setting step of setting basic variables (S1110). For example, the recurrence prediction device may obtain patient information for each patient including physical information, clinical information, and recurrence information, and classify patients into a recurrence group and a non-recurrence group based on the recurrence information. For example, the apparatus for predicting recurrence may acquire a data set for analysis by constructing a large-scale web-based renal cell carcinoma (RCC) cohort DB (database). For example, the body information included in the patient information may be information such as gender, age at the time of surgery, body mass index, smoking status, and the like. In addition, clinical information included in patient information may be information such as pathologic T stage, histopathological type, necrosis, lymphovascular invasion, capsular invasion, and Fuhrman nuclear grade. In addition, the recurrence information relates to recurrence within a certain period of time, and may be information regarding recurrence within 5 years or recurrence within 10 years.

다른 일 예로, 재발 예측 장치는 환자 별 환자 정보에서 재발 정보에 기초하여 일정 기간 이내에 재발한 환자는 재발 그룹으로 구분하고, 재발하지 않은 환자는 비재발 그룹으로 구분할 수 있다. 예를 들어, 재발 예측 장치는 예측 모델의 종속 변수가 되는 재발 정보에 따라 예측 모델의 독립 변수가 되는 신체 정보 및 임상 정보를 포함하는 환자 별 환자 정보를 재발 그룹과 비재발 그룹으로 구분할 수 있다.As another example, the apparatus for predicting recurrence may classify patients who have relapsed within a certain period of time as a recurrence group based on recurrence information in patient information for each patient, and classify patients who have not recurred as a non-recurrence group. For example, the apparatus for predicting recurrence may classify patient information for each patient including body information and clinical information as independent variables of the prediction model into a recurrence group and a non-recurrence group according to recurrence information as a dependent variable of the prediction model.

일 예로, 재발 예측 장치는 환자 정보로부터 상기 그룹 간의 차이를 보이는 1차 변수를 추출하고, 추출된 1차 변수 중에서 선택된 2차 변수로부터 기초 변수를 설정할 수 있다. 예를 들어, 재발 예측 장치는 저장된 환자 정보로부터 T-검정(T-test)과 카이 제곱 검정(Chi square test)을 이용하여 유의 확률 값(p-value)을 산출하고, 산출된 유의 확률 값을 기준으로 재발에 유의한 1차 변수를 추출할 수 있다. 또한, 재발 예측 장치는 추출된 1차 변수로부터 결측 비율이 특정 값 이상인 변수를 제거하고, 나머지 변수로부터 임상 결과에 기초하여 2차 변수를 선택할 수 있다. 그리고 재발 예측 장치는 선택된 2차 변수 중에서 기초 변수를 설정할 수 있다.For example, the recurrence prediction device may extract a primary variable showing a difference between the groups from patient information, and may set a basic variable from a secondary variable selected from among the extracted primary variables. For example, the recurrence prediction device calculates a significance probability value (p-value) using a T-test and a Chi square test from stored patient information, and calculates a significance probability value As a criterion, the primary variable significant in recurrence can be extracted. Also, the apparatus for predicting recurrence may remove variables having a missing rate greater than or equal to a specific value from the extracted primary variables, and select secondary variables from the remaining variables based on clinical results. Also, the recurrence prediction device may set a basic variable among selected secondary variables.

본 개시의 재발 예측 방법은 학습 데이터를 생성하는 학습 데이터 생성 단계를 포함할 수 있다(S1120). 일 예로, 재발 예측 장치는 획득한 환자 별 환자 정보를 미리 설정된 기준으로 선별하여 학습 데이터를 생성할 수 있다. 예를 들어, 재발 예측 장치는 환자 별 환자 정보를 미리 설정된 환자의 수술 여부, 재발된 일정 기간, 결측 값 등을 기준으로 선별하여 예측 모델에 사용되는 학습 데이터를 생성할 수 있다. The recurrence prediction method of the present disclosure may include a learning data generation step of generating learning data (S1120). For example, the apparatus for predicting recurrence may generate learning data by selecting acquired patient information for each patient based on a preset criterion. For example, the apparatus for predicting recurrence may generate learning data used in a predictive model by selecting patient information for each patient based on previously set whether or not the patient had undergone surgery, a certain period of recurrence, a missing value, and the like.

또 다른 일 예로, 재발 예측 장치는 구분된 그룹 간의 환자 비율에 따라 환자 정보를 보정하여 학습 데이터를 생성할 수 있다. 예를 들어, 재발 예측 장치는 재발 그룹과 비재발 그룹 간의 환자 비율이 특정 비율 이상이면 SMOTE(synthetic minority oversampling technique)을 이용하여 두 그룹 간의 환자 비율이 일정하도록 환자 정보를 보정하여 학습 데이터를 생성할 수 있다. As another example, the recurrence prediction device may generate learning data by correcting patient information according to a patient ratio between divided groups. For example, if the ratio of patients between the recurrence group and the non-recurrence group exceeds a certain ratio, the recurrence prediction device corrects patient information so that the ratio of patients between the two groups is constant using SMOTE (synthetic minority oversampling technique) to generate learning data. can

재발 예측 방법은 알고리즘 별 예측 모델을 생성하는 모델 생성 단계를 포함할 수 있다(S1130). 일 예로, 재발 예측 장치는 기초 변수 또는 기초 변수로부터 설정되는 조합 변수에 해당하는 학습 데이터를 복수의 알고리즘 각각에 입력하여 재발 확률을 예측하는 알고리즘 별 예측 모델을 생성할 수 있다. 예를 들어, 재발 예측 장치는 기초 변수에 2차 변수 중 적어도 하나 이상의 변수를 추가하여 조합 변수를 설정하고, 조합 변수에 해당하는 학습 데이터를 복수의 알고리즘 각각에 입력하여 재발 확률을 예측하는 알고리즘 별 예측 모델을 생성할 수 있다. 이를 통해, 재발 예측 장치는 기초 변수에 기초하여 생성된 알고리즘 별 예측 모델에서 변수들을 하나씩 추가하면서 알고리즘 별 예측 모델의 성능을 비교할 수 있다. The recurrence prediction method may include a model generation step of generating a predictive model for each algorithm (S1130). For example, the recurrence prediction apparatus may generate a predictive model for each algorithm that predicts a recurrence probability by inputting learning data corresponding to a basic variable or a combination variable set from the basic variables to each of a plurality of algorithms. For example, the recurrence prediction device sets a combination variable by adding at least one or more of the secondary variables to the basic variable, and inputs learning data corresponding to the combination variable to each of a plurality of algorithms to predict the probability of recurrence. A predictive model can be created. Through this, the recurrence predicting device can compare the performance of the predictive model for each algorithm while adding variables one by one in the predictive model for each algorithm generated based on the basic variables.

재발 예측 방법은 최종 예측 모델을 결정하는 모델 결정 단계를 포함할 수 있다(S1140). 일 예로, 재발 예측 장치는 생성된 알고리즘 별 예측 모델의 성능을 비교하여 최종 예측 모델을 결정할 수 있다. 예를 들어, 재발 예측 장치는 생성된 알고리즘 별 예측 모델로부터 정확도(Accuracy), 민감도(Sensitivity), 특이도(Specificity) 및 ROC curve(Receiver Operating Characteristics) 중 적어도 하나를 계산하고, 계산 결과를 이용하여 알고리즘 별 예측 모델 중에서 최종 예측 모델을 결정할 수 있다. 또한, 재발 예측 장치는 기초 변수로부터 설정되는 조합 변수에 따라 알고리즘 별 예측 모델이 생성되면, 생성된 알고리즘 별 예측 모델의 성능을 비교하여 최종 조합 변수를 결정할 수 있다. 따라서, 재발 예측 장치는 결정된 최종 조합 변수에 기초하여 최종 예측 모델을 결정할 수 있다. The recurrence prediction method may include a model determination step of determining a final prediction model (S1140). For example, the recurrence predicting device may determine a final predictive model by comparing the performance of the generated predictive model for each algorithm. For example, the recurrence prediction device calculates at least one of accuracy, sensitivity, specificity, and ROC curve (Receiver Operating Characteristics) from the generated predictive model for each algorithm, and uses the calculation result A final prediction model may be determined among prediction models for each algorithm. In addition, when a predictive model for each algorithm is generated according to the combination variables set from the basic variables, the recurrence prediction apparatus may compare performance of the generated prediction model for each algorithm to determine a final combination variable. Accordingly, the recurrence prediction device may determine a final predictive model based on the determined final combination variable.

다른 일 예로, 재발 예측 장치는 최종 예측 모델이 CNB(complement naive bayes) 알고리즘을 이용하는 경우, 최종 예측 모델에 구현된 CNB 알고리즘의 스무딩 파라미터(smoothing parameter) 값을 결정할 수 있다. 또한, 재발 예측 장치는 일정 범위 내의 스무딩 파라미터 값을 각각 대입하여 도출된 최종 예측 모델의 성능 비교 결과에 따라 스무딩 파라미터 값을 결정하여 최종 예측 모델을 결정할 수 있다. As another example, when the final prediction model uses a complement naive bayes (CNB) algorithm, the recurrence prediction device may determine a smoothing parameter value of the CNB algorithm implemented in the final prediction model. In addition, the recurrence prediction apparatus may determine a final predictive model by determining a smoothing parameter value according to a performance comparison result of the final predictive model derived by substituting smoothing parameter values within a certain range.

이상에서는 본 개시의 실시 예에 따른 재발 예측 방법이 도11 에서와 같은 절차로 수행되는 것으로 설명되었으나, 이는 설명의 편의를 위한 것일 뿐, 본 개시의 본질적인 개념을 벗어나지 않는 범위 내에서, 구현 방식에 따라 각 단계의 수행 절차가 바뀌거나 둘 이상의 단계가 통합되거나 하나의 단계가 둘 이상의 단계로 분리되어 수행될 수도 있다. In the above, the recurrence prediction method according to an embodiment of the present disclosure has been described as being performed by the same procedure as in FIG. Accordingly, the procedure for performing each step may be changed, two or more steps may be integrated, or one step may be separated into two or more steps.

이상의 설명은 본 개시의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 기술 사상의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 또한, 본 실시 예들은 본 개시의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이므로 이러한 실시 예에 의하여 본 기술 사상의 범위가 한정되는 것은 아니다. 본 개시의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 개시의 권리 범위에 포함되는 것으로 해석되어야 할 것이다. The above description is merely illustrative of the technical idea of the present disclosure, and various modifications and variations can be made to those skilled in the art without departing from the essential characteristics of the technical idea. In addition, the present embodiments are not intended to limit the technical idea of the present disclosure, but rather to explain the scope of the present technical idea by these embodiments. The scope of protection of the present disclosure should be construed by the following claims, and all technical ideas within the scope equivalent thereto should be construed as being included in the scope of rights of the present disclosure.

Claims (16)

신체 정보, 임상 정보 및 재발 정보를 포함하는 환자 별 환자 정보를 획득하고, 상기 재발 정보에 기초하여 환자를 재발 그룹과 비재발 그룹으로 구분하되, 구분된 그룹 간의 차이를 보이는 1차 변수를 추출하고, 상기 1차 변수 중에서 선택된 2차 변수로부터 기초 변수를 설정하는 기초 변수 설정부;
상기 환자 별 환자 정보로부터 미리 설정된 기준으로 선별하여 학습 데이터를 생성하는 학습 데이터 생성부;
상기 기초 변수 또는 상기 기초 변수로부터 설정되는 조합 변수에 해당하는 상기 학습 데이터를 복수의 알고리즘 각각에 입력하여 재발 확률을 예측하는 알고리즘 별 예측 모델을 생성하는 모델 생성부; 및
상기 알고리즘 별 예측 모델의 성능을 비교하여 최종 예측 모델을 결정하는 모델 결정부;를 포함하는 것을 특징으로 하는 재발 예측 장치.
Acquiring patient-specific patient information including physical information, clinical information, and recurrence information, classifying patients into a recurrence group and a non-recurrence group based on the recurrence information, extracting a primary variable showing a difference between the classified groups, , a basic variable setting unit for setting a basic variable from a secondary variable selected from among the primary variables;
a learning data generation unit configured to generate learning data by selecting the patient information for each patient based on a preset criterion;
a model generating unit generating a predictive model for each algorithm for predicting a recurrence probability by inputting the learning data corresponding to the basic variable or a combination variable set from the basic variables to each of a plurality of algorithms; and
Recurrence prediction device comprising a; model determination unit for determining the final prediction model by comparing the performance of the prediction model for each algorithm.
제 1 항에 있어서,
상기 기초 변수 설정부는,
상기 환자 정보로부터 T-검정(T-test)과 카이 제곱 검정(Chi square test)을 이용하여 유의 확률 값(P-value)을 산출하고, 상기 유의 확률 값을 기준으로 상기 1차 변수를 추출하는 것을 특징으로 하는 재발 예측 장치.
According to claim 1,
The basic variable setting unit,
Calculating a P-value from the patient information using a T-test and a Chi square test, and extracting the primary variable based on the significance probability value Recurrence prediction device, characterized in that.
제 2 항에 있어서,
상기 기초 변수 설정부는,
상기 1차 변수로부터 결측 비율이 특정 값 이상인 변수를 제거하고, 나머지 변수로부터 임상 결과에 기초하여 상기 2차 변수를 선택하는 것을 특징으로 하는 재발 예측 장치.
According to claim 2,
The basic variable setting unit,
A recurrence predicting device, characterized in that for removing variables whose missing rate is equal to or greater than a specific value from the primary variables, and selecting the secondary variables based on clinical results from the remaining variables.
제 1 항에 있어서,
상기 학습 데이터 생성부는,
상기 그룹 간의 환자 비율이 특정 비율 이상이면 SMOTE(Synthetic minority oversampling technique)을 이용하여 상기 그룹 간의 환자 비율이 일정하도록 상기 환자 정보를 보정하여 학습 데이터를 생성하는 것을 특징으로 하는 재발 예측 장치.
According to claim 1,
The learning data generating unit,
If the patient ratio between the groups is greater than or equal to a specific ratio, a synthetic minority oversampling technique (SMOTE) is used to correct the patient information so that the ratio of patients between the groups is constant to generate learning data.
제 1 항에 있어서,
상기 모델 생성부는,
상기 기초 변수에 상기 2차 변수 중 적어도 하나 이상의 변수를 추가하여 조합 변수를 설정하고, 상기 조합 변수에 따라 상기 알고리즘 별 예측 모델을 생성하는 것을 특징으로 하는 재발 예측 장치.
According to claim 1,
The model generator,
Recurrence prediction apparatus, characterized in that for setting a combination variable by adding at least one or more of the secondary variables to the basic variable, and generating a predictive model for each algorithm according to the combination variable.
제 5 항에 있어서,
상기 모델 결정부는,
상기 조합 변수에 따라 생성된 상기 알고리즘 별 예측 모델의 성능을 비교하여 최종 조합 변수를 결정하고, 상기 최종 조합 변수에 기초하여 상기 최종 예측 모델을 결정하는 것을 특징으로 하는 재발 예측 장치.
According to claim 5,
The model determining unit,
Recurrence predicting device, characterized in that for determining the final combination variable by comparing the performance of the predictive model for each algorithm generated according to the combination variable, and determining the final prediction model based on the final combination variable.
제 1 항에 있어서,
상기 모델 결정부는,
상기 알고리즘 별 예측 모델로부터 정확도(Accuracy), 민감도(Sensitivity), 특이도(Specificity) 및 ROC Curve(Reciever operating characteristics) 중 적어도 하나를 계산하고, 계산 결과를 이용하여 상기 알고리즘 별 예측 모델 중에서 상기 최종 예측 모델을 결정하는 것을 특징으로 하는 재발 예측 장치.
According to claim 1,
The model determining unit,
At least one of Accuracy, Sensitivity, Specificity, and ROC Curve (Reciever operating characteristics) is calculated from the prediction model for each algorithm, and the final prediction is made among the prediction models for each algorithm using the calculation result. Recurrence prediction device, characterized in that for determining the model.
제 1 항에 있어서,
상기 모델 결정부는,
상기 최종 예측 모델이 CNB(Complement naive bayes) 알고리즘을 이용하는 경우, 상기 CNB 알고리즘의 스무딩 파라미터(Smoothing parameter) 값을 결정하되, 상기 최종 예측 모델에 일정 범위 내의 상기 스무딩 파라미터 값을 각각 대입하여 도출된 성능 비교 결과에 따라 상기 스무딩 파라미터 값을 결정하는 것을 특징으로 하는 재발 예측 장치.
According to claim 1,
The model determining unit,
When the final prediction model uses a Complement naive bayes (CNB) algorithm, a smoothing parameter value of the CNB algorithm is determined, and performance derived by substituting each of the smoothing parameter values within a certain range into the final prediction model Recurrence prediction device, characterized in that for determining the smoothing parameter value according to the comparison result.
재발 예측 장치가 재발을 예측하는 방법에 있어서,
상기 재발 예측 장치의 기초 변수 설정부가 신체 정보, 임상 정보 및 재발 정보를 포함하는 환자 별 환자 정보를 획득하고, 상기 재발 정보에 기초하여 환자를 재발 그룹과 비재발 그룹으로 구분하되, 구분된 그룹 간의 차이를 보이는 1차 변수를 추출하고, 상기 1차 변수 중에서 선택된 2차 변수로부터 기초 변수를 설정하는 기초 변수 설정 단계;
상기 재발 예측 장치의 학습 데이터 생성부가 상기 환자 별 환자 정보를 미리 설정된 기준으로 선별하여 학습 데이터를 생성하는 학습 데이터 생성 단계;
상기 재발 예측 장치의 모델 생성부가 상기 기초 변수 또는 상기 기초 변수로부터 설정되는 조합 변수에 해당하는 상기 학습 데이터를 복수의 알고리즘 각각에 입력하여 재발 확률을 예측하는 알고리즘 별 예측 모델을 생성하는 모델 생성 단계; 및
상기 재발 예측 장치의 모델 결정부가 상기 알고리즘 별 예측 모델의 성능을 비교하여 최종 예측 모델을 결정하는 모델 결정 단계;를 포함하는 것을 특징으로 하는 재발 예측 방법.
In the method for predicting recurrence by a recurrence prediction device,
The basic variable setting unit of the recurrence prediction device acquires patient-specific patient information including body information, clinical information, and recurrence information, classifies patients into a recurrence group and a non-recurrence group based on the recurrence information, and A basic variable setting step of extracting a primary variable showing a difference and setting a basic variable from a secondary variable selected from among the primary variables;
a learning data generation step in which the learning data generation unit of the recurrence prediction device selects the patient information for each patient based on a preset criterion and generates learning data;
A model generating step of generating a predictive model for each algorithm for predicting a recurrence probability by inputting the learning data corresponding to the basic variable or a combination variable set from the basic variables to each of a plurality of algorithms, by the model generating unit of the recurrence predicting device; and
A model determination step of determining a final prediction model by comparing the performance of the prediction model for each algorithm by the model determining unit of the recurrence prediction device; Recurrence prediction method comprising a.
제 9 항에 있어서,
상기 기초 변수 설정 단계는,
상기 환자 정보로부터 T-검정(T-test)과 카이 제곱 검정(Chi square test)을 이용하여 유의 확률 값(P-value)을 산출하고, 상기 유의 확률 값을 기준으로 상기 1차 변수를 추출하는 것을 특징으로 하는 재발 예측 방법.
According to claim 9,
The basic variable setting step,
Calculating a P-value from the patient information using a T-test and a Chi square test, and extracting the primary variable based on the significance probability value Recurrence prediction method, characterized in that.
제 10항에 있어서,
상기 기초 변수 설정 단계는,
상기 1차 변수로부터 결측 비율이 특정 값 이상인 변수를 제거하고, 나머지 변수로부터 임상 결과에 기초하여 상기 2차 변수를 선택하는 것을 특징으로 하는 재발 예측 방법.
According to claim 10,
The basic variable setting step,
A method for predicting recurrence, characterized in that, from the primary variable, variables having a missing rate greater than or equal to a specific value are removed, and the secondary variable is selected from the remaining variables based on clinical results.
제 9 항에 있어서,
상기 학습 데이터 생성 단계는,
상기 그룹 간의 환자 비율이 특정 비율 이상이면 SMOTE(Synthetic minority oversampling technique)을 이용하여 상기 그룹 간의 환자 비율이 일정하도록 상기 환자 정보를 보정하여 학습 데이터를 생성하는 것을 특징으로 하는 재발 예측 방법.
According to claim 9,
The learning data generation step,
If the patient ratio between the groups is more than a specific ratio, using SMOTE (Synthetic minority oversampling technique), the patient information is corrected so that the ratio of patients between the groups is constant to generate learning data. Recurrence prediction method.
제 9 항에 있어서,
상기 모델 생성 단계는,
상기 기초 변수에 상기 2차 변수 중 적어도 하나 이상의 변수를 추가하여 조합 변수를 설정하고, 상기 조합 변수에 따라 상기 알고리즘 별 예측 모델을 생성하는 것을 특징으로 하는 재발 예측 방법.
According to claim 9,
The model creation step,
A method for predicting recurrence, characterized in that a combination variable is set by adding at least one or more of the secondary variables to the basic variable, and a predictive model for each algorithm is generated according to the combination variable.
제 13 항에 있어서,
상기 모델 결정 단계는,
상기 조합 변수에 따라 생성된 상기 알고리즘 별 예측 모델의 성능을 비교하여 최종 조합 변수를 결정하고, 상기 최종 조합 변수에 기초하여 상기 최종 예측 모델을 결정하는 것을 특징으로 하는 재발 예측 방법.
According to claim 13,
The model determination step,
Recurrence prediction method, characterized in that the final combination variable is determined by comparing the performance of the prediction model for each algorithm generated according to the combination variable, and the final prediction model is determined based on the final combination variable.
제 9 항에 있어서,
상기 모델 결정 단계는,
상기 알고리즘 별 예측 모델로부터 정확도(Accuracy), 민감도(Sensitivity), 특이도(Specificity) 및 ROC Curve(Reciever operating characteristics) 중 적어도 하나를 계산하고, 계산 결과를 이용하여 상기 알고리즘 별 예측 모델 중에서 상기 최종 예측 모델을 결정하는 것을 특징으로 하는 재발 예측 방법.
According to claim 9,
The model determination step,
At least one of Accuracy, Sensitivity, Specificity, and ROC Curve (Reciever operating characteristics) is calculated from the prediction model for each algorithm, and the final prediction is made among the prediction models for each algorithm using the calculation result. Recurrence prediction method characterized by determining the model.
제 9 항에 있어서,
상기 모델 결정 단계는,
상기 최종 예측 모델이 CNB(Complement naive bayes) 알고리즘을 이용하는 경우, 상기 CNB 알고리즘의 스무딩 파라미터(Smoothing parameter) 값을 결정하되, 상기 최종 예측 모델에 일정 범위 내의 상기 스무딩 파라미터 값을 각각 대입하여 도출된 성능 비교 결과에 따라 상기 스무딩 파라미터 값을 결정하는 것을 특징으로 하는 재발 예측 방법.
According to claim 9,
The model determination step,
When the final prediction model uses a Complement naive bayes (CNB) algorithm, a smoothing parameter value of the CNB algorithm is determined, and performance derived by substituting each of the smoothing parameter values within a certain range into the final prediction model Recurrence prediction method, characterized in that for determining the smoothing parameter value according to the comparison result.
KR1020210020826A 2021-02-17 2021-02-17 Apparatus and method for predicting recurrence KR102509550B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210020826A KR102509550B1 (en) 2021-02-17 2021-02-17 Apparatus and method for predicting recurrence

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210020826A KR102509550B1 (en) 2021-02-17 2021-02-17 Apparatus and method for predicting recurrence

Publications (2)

Publication Number Publication Date
KR20220117441A KR20220117441A (en) 2022-08-24
KR102509550B1 true KR102509550B1 (en) 2023-03-10

Family

ID=83112002

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210020826A KR102509550B1 (en) 2021-02-17 2021-02-17 Apparatus and method for predicting recurrence

Country Status (1)

Country Link
KR (1) KR102509550B1 (en)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102061800B1 (en) * 2017-07-18 2020-02-11 사회복지법인 삼성생명공익재단 Method, Apparatus and Program for Predicting Prognosis of Ovarian Cancer Using Machine Learning
KR102186571B1 (en) * 2019-03-13 2020-12-03 울산대학교 산학협력단 Relapse Prediction Method for patient with breast cancer Using immune response differential gene expression Model

Also Published As

Publication number Publication date
KR20220117441A (en) 2022-08-24

Similar Documents

Publication Publication Date Title
US10621493B2 (en) Multiple record linkage algorithm selector
US11475161B2 (en) Differentially private dataset generation and modeling for knowledge graphs
CN110428137B (en) Updating method and device of risk prevention and control strategy
KR102293791B1 (en) Electronic device, method, and computer readable medium for simulation of semiconductor device
CN109388707B (en) Short text classification method and device
US11763154B1 (en) Machine learning services with pre-trained models
US20220414490A1 (en) Storage medium, machine learning method, and machine learning device
CN111062431A (en) Image clustering method, image clustering device, electronic device, and storage medium
US11783221B2 (en) Data exposure for transparency in artificial intelligence
CN111428078A (en) Audio fingerprint coding method and device, computer equipment and storage medium
WO2022042638A1 (en) Deterministic learning video scene detection
Lee et al. Holistic parameter optimization for software defect prediction
KR102509550B1 (en) Apparatus and method for predicting recurrence
de Araujo et al. Impact of feature selection methods on the classification of DDoS attacks using XGBoost
US20140279791A1 (en) Evaluation of predictions in the absence of a known ground truth
US11921756B2 (en) Automated database operation classification using artificial intelligence techniques
US20220309407A1 (en) Systems and Methods for Hybrid Integration and Development Pipelines
EP4207006A1 (en) Model generation program, model generation method, and model generation device
CN114841471A (en) Knowledge point prediction method and device, electronic equipment and storage medium
US11327825B2 (en) Predictive analytics for failure detection
CN112541548A (en) Relational network generation method and device, computer equipment and storage medium
CN114926701A (en) Model training method, target detection method and related equipment
WO2020247731A1 (en) Systems and methods for neighbor frequency aggregation of parametric probability distributions with decision trees
CN110059219A (en) A kind of video preference prediction technique, device, equipment and readable storage medium storing program for executing
US11809847B2 (en) Hardcoded string detection

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant