KR20210056598A - Method and system for providing medical data collection and analyzing service based on machine learning - Google Patents

Method and system for providing medical data collection and analyzing service based on machine learning Download PDF

Info

Publication number
KR20210056598A
KR20210056598A KR1020190143253A KR20190143253A KR20210056598A KR 20210056598 A KR20210056598 A KR 20210056598A KR 1020190143253 A KR1020190143253 A KR 1020190143253A KR 20190143253 A KR20190143253 A KR 20190143253A KR 20210056598 A KR20210056598 A KR 20210056598A
Authority
KR
South Korea
Prior art keywords
medical
data
medical data
machine learning
user terminal
Prior art date
Application number
KR1020190143253A
Other languages
Korean (ko)
Other versions
KR102328154B1 (en
Inventor
이수현
안재성
Original Assignee
주식회사 테서
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 테서 filed Critical 주식회사 테서
Priority to KR1020190143253A priority Critical patent/KR102328154B1/en
Publication of KR20210056598A publication Critical patent/KR20210056598A/en
Application granted granted Critical
Publication of KR102328154B1 publication Critical patent/KR102328154B1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Abstract

According to the present invention, a method of providing a medical data collection and analysis service based on machine learning includes: (a) collecting a plurality of medical data, and performing pre-processing and classification on the collected data; (b) constructing a medical learning model by performing machine learning with reference to the classified medical data; (c) providing a user interface for a medical data collection and analysis platform to a user terminal to allow a user to randomly input a plurality of medical data for a project to be analyzed as desired, and collecting the medical data input from the user terminal; (d) removing or correcting some data by performing an optimization operation on the medical data; and (e) providing an output value to the user terminal by inputting the collected medical data into the constructed medical learning model, wherein the medical data includes medical-related institution data including medical treatment data and clinical information data, and medical academic data including medical thesis data. Accordingly, an output value including a disease name, a treatment method, and disease prognosis prediction information, which is highly related to the project input by the user, is provided.

Description

머신러닝에 기반한 의료데이터 수집 및 분석 서비스 제공 방법 및 시스템{METHOD AND SYSTEM FOR PROVIDING MEDICAL DATA COLLECTION AND ANALYZING SERVICE BASED ON MACHINE LEARNING}Machine learning-based medical data collection and analysis service provision method and system {METHOD AND SYSTEM FOR PROVIDING MEDICAL DATA COLLECTION AND ANALYZING SERVICE BASED ON MACHINE LEARNING}

본 발명은 머신러닝에 기반한 의료데이터 수집 및 분석 서비스 제공 방법 및 시스템에 관한 것이다.The present invention relates to a method and system for providing medical data collection and analysis services based on machine learning.

최근 인공지능 기술의 발달과 더불어 많은 데이터를 처리하여 유용한 정보를 추출하는 빅데이터 기술이 주목을 받고 있다.With the recent development of artificial intelligence technology, big data technology that extracts useful information by processing a lot of data is attracting attention.

예를 들어, 제약 산업 분야의 경우 효율적인 약물 개발을 위해 인공지능이 적용되고 있다. 의료 분야에서도 인공지능 기술 및 빅데이터 기술은 의료 진단 및 예측을 위한 기술로서 주목을 받고 있다. For example, in the pharmaceutical industry, artificial intelligence is being applied for efficient drug development. In the medical field, artificial intelligence technology and big data technology are attracting attention as technologies for medical diagnosis and prediction.

종래의 의료 정보 분야는 진료 분야와 연구 분야로 나누어져 발전하고 있다. 예시적으로, 각 의료 정보 분야별로 환자의 진료 기록이 저장되는 환자진료데이터, 임상 시험(Clinical Trial)에 참여하는 피험자의 테스트 결과가 저장되는 임상정보데이터, 의학논문데이터, 환자 건강검진데이터, 병원내 전자진료차트(EMR, Electronic Medical Record) 등을 각 분야의 대표적인 정보 관리 시스템을 통하여 데이터베이스화 하여 관리하고 있다.The conventional medical information field is being divided into a medical field and a research field to develop. For example, patient care data that stores patient medical records for each medical information field, clinical information data that stores test results of subjects participating in clinical trials, medical paper data, patient health checkup data, hospitals My electronic medical chart (EMR, Electronic Medical Record) is managed as a database through a representative information management system in each field.

그러나, 현재 의료 분야에서는 전술한 다양한 의료데이터들이 연관성이 있는 카테고리별로 분류 및 관리되고 있지 못한 실정이며, 이로 인해, 상호 관련있는 하나의 카테고리 내에서 의학 문서 및 의료 데이터 검색하는 경우, 많은 시간이 소요된다는 문제가 있다.However, in the current medical field, the above-described various medical data are not classified and managed according to related categories, and for this reason, it takes a lot of time to search for medical documents and medical data within one correlated category. There is a problem of becoming.

이와 관련하여 대한민국 공개특허 제 10-2012-0004611 호는 의료검사결과데이터 관리시스템 및 관리방법에 관하여 개시하고 있다.In this regard, Korean Patent Publication No. 10-2012-0004611 discloses a medical test result data management system and a management method.

본 발명은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 사용자가 분석하고자 하는 프로젝트에 대한 복수의 의료데이터를 입력할 수 있는 사용자인터페이스를 제공하며, 의료학습모델에 의해, 분석된 출력값을 사용자 단말로 제공하는 머신러닝에 기반한 의료데이터 수집 및 분석 서비스 시스템을 제공하고자 한다.The present invention is to solve the problems of the prior art described above, and provides a user interface through which a user can input a plurality of medical data for a project to be analyzed, and an output value analyzed by a medical learning model is transmitted to a user terminal. We intend to provide a medical data collection and analysis service system based on machine learning provided by

다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.However, the technical problem to be achieved by the present embodiment is not limited to the technical problem as described above, and other technical problems may exist.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 제 1 측면에 따른 머신러닝에 기반한 의료데이터 수집 및 분석 서비스 제공 방법은 (a) 복수의 의료데이터를 수집하고, 수집된 데이터에 대한 전처리와 분류를 수행하는 단계; (b) 분류된 의료데이터들을 참조하여 기계학습을 수행하여 의료학습모델을 구축하는 단계; (c) 사용자 단말로 의료데이터 수집 및 분석 플랫폼 사용자인터페이스를 제공하여, 사용자가 분석할 프로젝트에 대한 복수의 의료데이터를 원하는 대로 랜덤하게 입력하도록 하고, 사용자 단말로부터 입력된 복수의 의료데이터를 수집하는 단계; (d) 복수의 의료데이터에 대한 최적화 작업을 수행하여 일부 데이터를 제거하거나 교정하는 단계; 및 (e) 수집된 복수의 의료데이터를 구축된 의료학습모델에 입력하여 출력값을 사용자 단말로 제공하는 단계를 포함하는 것이고, 의료데이터는 진료데이터와 임상정보데이터를 포함하는 의료관련 기관데이터 및 의학논문데이터를 포함하는 의료학계데이터를 포함한다. As a technical means for achieving the above-described technical problem, the method for providing medical data collection and analysis service based on machine learning according to the first aspect of the present invention includes (a) collecting a plurality of medical data and pre-processing the collected data. And performing classification; (b) constructing a medical learning model by performing machine learning by referring to the classified medical data; (c) Provides a medical data collection and analysis platform user interface to the user terminal, allowing the user to randomly input multiple medical data for the project to be analyzed as desired, and to collect a plurality of medical data input from the user terminal. step; (d) removing or correcting some data by performing an optimization operation on a plurality of medical data; And (e) inputting a plurality of collected medical data to the established medical learning model and providing an output value to the user terminal, wherein the medical data includes medical-related institutional data and medicine including medical treatment data and clinical information data. Includes medical academic data including thesis data.

(a) 단계는, 수집된 데이터 중 개인정보에 해당하는 정보들은 비식별처리를 수행하여 수집 대상에서 제거하거나 사람이 인지하지 못하도록 처리하는 단계; 수집된 데이터의 종류에 대한 라벨링을 수행하는 단계; 및 라벨링된 데이터를 카테고리 별로 분류하는 단계를 포함한다.The step (a) includes the steps of performing de-identification processing of information corresponding to personal information among the collected data to be removed from the collection object or processed so that humans cannot recognize it; Labeling the types of collected data; And classifying the labeled data by category.

(b) 단계는, 각 카테고리의 의료데이터로부터 키워드를 추출하고, 증상이나 환자상태에 관한 키워드들을 입력값으로 설정하고, 질병결과나 치료방법이나 임상결과에 관한 키워드들을 출력값으로 설정하여 기계학습을 수행하되, 의료데이터의 범주나 형태에 기초하여 기계학습 알고리즘을 결정하고, 복수의 기계학습 알고리즘 간의 조합을 자동 수행하는 fine tunig 과정을 거쳐 최적 알고리즘을 선택하여 기계학습을 수행한다.In step (b), machine learning is performed by extracting keywords from medical data of each category, setting keywords related to symptoms or patient conditions as input values, and setting keywords related to disease results, treatment methods, or clinical results as output values. However, machine learning is performed by determining a machine learning algorithm based on the category or type of medical data, and selecting an optimal algorithm through a fine tuning process that automatically performs a combination between a plurality of machine learning algorithms.

(c) 단계는, 사용자 단말로부터 프로젝트 템플릿에 대한 선택결과를 수신하고, 프로젝트 정보를 생성한 뒤 선택결과에 대응하는 템플릿을 사용자 단말로 제공하는 단계; 및 사용자 단말에서 원하는 대로 필드를 생성하고, 필드값을 입력함에 따라, 사용자 단말이 최종적으로 입력완료한 필드 및 필드값을 수신하는 단계;를 포함한다. Step (c) includes receiving a selection result for a project template from a user terminal, generating project information, and providing a template corresponding to the selection result to the user terminal; And generating a field as desired by the user terminal, and receiving, by the user terminal, the field and the field value, which are finally inputted, as the field value is input.

(d) 단계는, (d-1) 필드 및 필드값에 대한 논리적 모순에 의한 오류나 기 설정된 범위를 벗어나는 필드값들을 제거하는 정제작업을 수행하는 단계; 및 (d-2) 정제 작업을 통해 필터링된 의료데이터를 바탕으로 각 필드 간의 연관성 분석을 수행하여 연관성이 낮은 필드 및 필드값을 제거하는 단계;를 포함한다.Step (d) includes: (d-1) performing a refinement operation of removing errors due to logical contradictions between fields and field values or field values outside a preset range; And (d-2) removing fields and field values with low correlation by performing a correlation analysis between each field based on the medical data filtered through the purification operation.

(d-1) 단계는, 서버에 기 저장된 사용자들의 의료데이터 저장 및 교정 이력을 참조하여 학습을 수행하는 단계; 서버에 기 저장된 외부기관 의료데이터를 참조하여, 임의의 필드에 해당하는 필드값이 기입되기 위한 조건을 분석하도록 학습을 수행하는 단계; 의료검사결과 항목과 각 항목의 정상수치에 대한 데이터베이스를 참조하여, 임의의 필드에 해당하는 필드값의 수치의 기준점을 설정하는 단계; 및 (d-1) 단계 내에서 수행된 학습과 기준점을 바탕으로 불필요한 것으로 판단된 항목을 제거하고 모순된 필드값을 교정하는 단계를 포함한다. Step (d-1) includes performing learning by referring to the medical data storage and calibration history of users previously stored in the server; Performing learning to analyze a condition for inputting a field value corresponding to an arbitrary field by referring to medical data from an external institution previously stored in the server; Setting a reference point for a numerical value of a field value corresponding to an arbitrary field by referring to a database for medical test result items and normal values of each item; And removing the items determined to be unnecessary based on the learning performed in step (d-1) and the reference point, and correcting the contradictory field values.

(d-2) 단계는, (d-1) 단계에서 정제작업 후 남은 필드와 공통적인 필드를 갖는 의료데이터들을 반복적으로 검색하여 통계적인 노출 빈도를 분석하고, 공통적인 필드를 갖는 의료데이터 내에서의 결과값과 남은 필드 간의 연관성 분석을 수행하여, 통계적 의미가 기 설정된 기준치보다 낮은 필드 및 필드값을 분류하고, 분류된 필드 및 필드값을 제거한다.In step (d-2), statistical exposure frequency is analyzed by repetitively searching medical data having fields in common with fields remaining after refining in step (d-1), and within medical data having common fields. By performing a correlation analysis between the result value of and the remaining fields, fields and field values whose statistical significance is lower than a preset reference value are classified, and the classified fields and field values are removed.

기계학습은 CNN(Convolutional Neural Network)과 RNN(Recurrent Neural Nerwork), LSTM(Long Short-Term Memory), 및 NLP(Natiral Language Processing) 알고리즘 중 적어도 하나를 통해 수행된다.Machine learning is performed through at least one of a convolutional neural network (CNN), a recurrent neural network (RNN), a long short-term memory (LSTM), and a natural language processing (NLP) algorithm.

(f) 사용자 단말로 제공된 출력값을 구성하는 다양한 수치들 중 서로 높은 연관성이 있는 수치들을 묶어서 상호간의 연관관계를 표나 그래프로 변환하여 제공하는 단계를 더 포함한다.(f) further comprising the step of bundling values having high correlation among the various numerical values constituting the output value provided to the user terminal, and converting the correlation relationship into a table or graph, and providing it.

또한, 본 발명의 제 2 측면에 따른 머신러닝에 기반한 의료데이터 수집 및 분석 서비스 제공 시스템은 서버를 포함하며, 서버는, 복수의 의료데이터를 수집하고, 수집된 데이터에 대한 전처리와 분류를 수행하고, 분류된 의료데이터들을 참조하여 기계학습을 수행하여 의료학습모델을 구축하며, 사용자 단말로 의료데이터 수집 및 분석 플랫폼 사용자인터페이스를 제공하여, 사용자가 분석할 프로젝트에 대한 복수의 의료데이터를 원하는 대로 랜덤하게 입력하도록 하고, 사용자 단말로부터 입력된 복수의 의료데이터를 수집하고, 복수의 의료데이터에 대한 최적화 작업을 수행하여 일부 데이터를 제거하거나 교정하며, 수집된 복수의 의료데이터를 구축된 의료학습모델에 입력하여 출력값을 사용자 단말로 제공하는 것이고, 의료데이터는 진료데이터와 임상정보데이터를 포함하는 의료관련 기관데이터 및 의학논문데이터를 포함한다. In addition, the system for providing medical data collection and analysis service based on machine learning according to the second aspect of the present invention includes a server, and the server collects a plurality of medical data, performs pre-processing and classification on the collected data, and , A medical learning model is constructed by performing machine learning by referring to the classified medical data, and a user interface of a medical data collection and analysis platform is provided to the user terminal to randomize multiple medical data for the project to be analyzed by the user as desired. It is necessary to input multiple medical data inputted from the user terminal, remove or correct some data by performing optimization work on the plurality of medical data, and insert the collected medical data into the built medical learning model. The input and output values are provided to the user terminal, and the medical data includes medical-related institutional data including medical treatment data and clinical information data, and medical paper data.

본 발명은 의료데이터 수집 및 분석 플랫폼 사용자인터페이스를 통해 사용자가 분석하고자 하는 프로젝트에 대한 복수의 의료데이터를 원하는 대로 랜덤하게 입력하는 것만으로 사용자가 입력한 프로젝트와 연관성이 높은 질병명, 치료방법 및 질병예후예측정보 등을 포함하는 출력값을 제공할 수 있다.The present invention provides a disease name, treatment method, and disease prognosis that are highly related to the project entered by the user simply by randomly inputting a plurality of medical data for a project to be analyzed by a user through a medical data collection and analysis platform user interface. An output value including prediction information and the like may be provided.

더불어, 각 의료 정보 분야별로 정보관리시스템을 통해 분산 및 저장되어 있는 다양한 의료관련 데이터를 활용하여 사용자가 입력한 프로젝트의 의료데이터와 서로 높은 연관성이 있는 수치들을 묶어서 상호간의 연관관계를 표나 그래프의 형태로 2차 가공하여 제공할 수 있다.In addition, by using various medical-related data distributed and stored through the information management system for each medical information field, the medical data of the project entered by the user and the numerical values that are highly related to each other are grouped and the correlation between them is displayed in the form of a table or graph It can be provided by secondary processing.

도 1은 본 발명의 일 실시예에 따른 머신러닝에 기반한 의료데이터 수집 및 분석 서비스 제공 시스템의 구성도이다.
도 2는 본 발명의 일 실시예에 따른 머신러닝에 기반한 의료데이터 수집 및 분석 서비스 제공 방법을 설명하기 위한 순서도이다.
도 3은 본 발명의 일 실시예에 따른 머신러닝에 기반한 의료데이터 수집 및 분석 서비스 제공 서버에 의해 의료학습모델을 구축하는 방법을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 머신러닝에 기반한 의료데이터 수집 및 분석 서비스 제공 서버에 의해 의료데이터에 대한 최적화하는 방법을 설명하기 위한 도면이다.
1 is a block diagram of a system for providing a medical data collection and analysis service based on machine learning according to an embodiment of the present invention.
2 is a flowchart illustrating a method of collecting and analyzing medical data based on machine learning according to an embodiment of the present invention.
3 is a diagram for explaining a method of constructing a medical learning model by a server for providing medical data collection and analysis services based on machine learning according to an embodiment of the present invention.
4 is a diagram for explaining a method of optimizing medical data by a server for collecting and analyzing medical data based on machine learning according to an embodiment of the present invention.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those of ordinary skill in the art can easily implement the present invention. However, the present invention may be implemented in various different forms and is not limited to the embodiments described herein. In the drawings, parts irrelevant to the description are omitted in order to clearly describe the present invention, and similar reference numerals are attached to similar parts throughout the specification.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.Throughout the specification, when a part is said to be "connected" with another part, this includes not only "directly connected" but also "electrically connected" with another element interposed therebetween. . In addition, when a part "includes" a certain component, it means that other components may be further included rather than excluding other components unless specifically stated to the contrary.

본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1 개의 유닛이 2 개 이상의 하드웨어를 이용하여 실현되어도 되고, 2 개 이상의 유닛이 1 개의 하드웨어에 의해 실현되어도 된다. 한편, '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니며, '~부'는 어드레싱 할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로 더 분리될 수 있다. 뿐만 아니라, 구성요소들 및 '~부'들은 디바이스 또는 보안 멀티미디어카드 내의 하나 또는 그 이상의 CPU들을 재생시키도록 구현될 수도 있다.In the present specification, the term "unit" includes a unit realized by hardware, a unit realized by software, and a unit realized using both. Further, one unit may be realized by using two or more hardware, or two or more units may be realized by one piece of hardware. Meanwhile,'~ unit' is not meant to be limited to software or hardware, and'~ unit' may be configured to be in an addressable storage medium or configured to reproduce one or more processors. Thus, as an example,'~ unit' refers to components such as software components, object-oriented software components, class components, and task components, processes, functions, properties, and procedures. , Subroutines, segments of program code, drivers, firmware, microcode, circuits, data, databases, data structures, tables, arrays and variables. Components and functions provided in the'~ units' may be combined into a smaller number of elements and'~ units', or may be further separated into additional elements and'~ units'. In addition, components and'~ units' may be implemented to play one or more CPUs in a device or a security multimedia card.

이하에서 언급되는 "시스템"은 네트워크를 통해 서버나 타 단말에 접속할 수 있는 컴퓨터나 휴대용 단말기로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(desktop), 랩톱(laptop) 등을 포함한다. The "system" mentioned below may be implemented as a computer or portable terminal that can access a server or other terminal through a network. Here, the computer includes, for example, a notebook equipped with a web browser, a desktop, and a laptop.

휴대용 단말기는 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치이고, 예를 들어 스마트 폰, 태블릿 PC 또는 노트북 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치일 수 있다. The portable terminal is, for example, a wireless communication device that guarantees portability and mobility, and may be any kind of handheld-based wireless communication device such as, for example, a smart phone, a tablet PC, or a notebook.

또한, 네트워크는 단말들 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 근거리 통신망(LAN: Local Area Network), 광역 통신망(WAN: Wide Area Network), 인터넷 (WWW: World Wide Web), 유무선 데이터 통신망, 전화망, 유무선 텔레비전 통신망 등을 포함한다. 무선 데이터 통신망의 일례에는 3G, 4G, 5G, 3GPP(3rd Generation Partnership Project), LTE(Long Term Evolution), WIMAX(World Interoperability for Microwave Access), 와이파이(Wi-Fi), 블루투스 통신, 적외선 통신, 초음파 통신, 가시광 통신(VLC: Visible Light Communication), 라이파이(LiFi) 등이 포함되나 이에 한정되지는 않는다.In addition, a network refers to a connection structure in which information exchange between nodes such as terminals and servers is possible, and includes a local area network (LAN), a wide area network (WAN), and the Internet (WWW). : World Wide Web), wired and wireless data networks, telephone networks, wired and wireless television networks, etc. Examples of wireless data networks include 3G, 4G, 5G, 3GPP (3rd Generation Partnership Project), LTE (Long Term Evolution), WIMAX (World Interoperability for Microwave Access), Wi-Fi, Bluetooth communication, infrared communication, and ultrasound. Communication, Visible Light Communication (VLC), LiFi, and the like are included, but are not limited thereto.

도 1은 본 발명의 일 실시예에 따른 머신러닝에 기반한 의료데이터 수집 및 분석 서비스 제공 시스템의 구성도이다.1 is a block diagram of a system for providing a medical data collection and analysis service based on machine learning according to an embodiment of the present invention.

도 1을 참조하면, 본 발명의 일 실시예에 따른 머신러닝에 기반한 의료데이터 수집 및 분석 서비스 제공 시스템은 사용자 단말(100), 의료데이터 수집 및 분석 서비스 제공 서버(200)를 포함한다. Referring to FIG. 1, a system for providing a medical data collection and analysis service based on machine learning according to an embodiment of the present invention includes a user terminal 100 and a medical data collection and analysis service providing server 200.

예시적으로, 서버(200)는 통신모듈, 메모리, 프로세서 및 데이터베이스를 포함한다. 통신모듈은 사용자 단말(100) 및 정보관리시스템(300)과 각각 데이터 통신을 처리한다. 메모리에는 사용자 단말(100)에 대해 의료데이터 수집 및 분석 플랫폼 사용자인터페이스를 제공하기 위한 의료데이터 수집 및 분석 서비스 제공 프로그램이 저장되어 있다. 프로세서는 메모리에 저장된 프로그램을 실행하되, 이하에서 설명할 사용자 단말(100)을 통해 처리되는 의료데이터 수집 및 분석 서비스 제공 프로그램의 각 동작에 대응하는 처리를 수행한다.For example, the server 200 includes a communication module, a memory, a processor, and a database. The communication module processes data communication with the user terminal 100 and the information management system 300, respectively. A medical data collection and analysis service providing program for providing a medical data collection and analysis platform user interface to the user terminal 100 is stored in the memory. The processor executes the program stored in the memory, but performs processing corresponding to each operation of the medical data collection and analysis service providing program processed through the user terminal 100 to be described below.

구체적으로, 사용자 단말(100)은 스마트폰과 같이 다양한 기능이 탑재 되거나 또는 다양한 프로그램(예를 들어, 모바일 앱 등)을 자유롭게 탑재 및 설치할 수 있는 지능형 단말일 수 있다.Specifically, the user terminal 100 may be an intelligent terminal that is equipped with various functions, such as a smart phone, or that can freely mount and install various programs (eg, mobile apps, etc.).

서버(200)는 복수의 의료데이터를 수집하고, 수집된 데이터에 대한 전처리와 분류를 수행하고, 분류된 의료데이터들을 참조하여 기계학습을 수행하여 의료학습모델을 구축하며, 사용자 단말(100)로 의료데이터 수집 및 분석 플랫폼 사용자인터페이스를 제공하여, 사용자가 분석할 프로젝트에 대한 복수의 의료데이터를 원하는 대로 랜덤하게 입력하도록 하고, 사용자 단말(100)로부터 입력된 복수의 의료데이터를 수집하고, 복수의 의료데이터에 대한 최적화 작업을 수행하여 일부 데이터를 제거하거나 교정하며, 수집된 복수의 의료데이터를 구축된 의료학습모델에 입력하여 출력값을 사용자 단말(100)로 제공할 수 있다. 여기서, 의료데이터는 진료데이터와 임상정보데이터를 포함하는 의료관련 기관데이터 및 의학논문데이터를 포함한다. The server 200 collects a plurality of medical data, performs pre-processing and classification on the collected data, and builds a medical learning model by performing machine learning by referring to the classified medical data. Provides a medical data collection and analysis platform user interface, allowing a user to randomly input a plurality of medical data for a project to be analyzed as desired, collect a plurality of medical data input from the user terminal 100, and Some data may be removed or corrected by performing an optimization operation on medical data, and an output value may be provided to the user terminal 100 by inputting a plurality of collected medical data into a built medical learning model. Here, the medical data includes medical-related institutional data and medical thesis data including medical treatment data and clinical information data.

예시적으로, 서버(200)는 각 의료 정보 분야별로 구축되어 있는 정보관리시스템(300)으로부터 수집한 복수의 의료데이터들에 대하여 기계학습을 수행하여 의료학습모델을 구축할 수 있다. For example, the server 200 may build a medical learning model by performing machine learning on a plurality of medical data collected from the information management system 300 constructed for each medical information field.

또한 사용자 단말(100)은 의료데이터 수집 및 분석 플랫폼 사용자인터페이스를 통해 사용자가 분석하고자 하는 프로젝트를 생성할 수 있다. 예를 들어, 프로젝트는 환자의 상태를 특정 기간동안 주기적으로 조사하는 연구에 관한 의료데이터 입력템플릿, 병원 진료기록 템플릿, 일회성 의료정보조사 템플릿, 의학논문분석 템플릿, 의료이미지 학습 템플릿 등을 포함할 수 있다.In addition, the user terminal 100 may create a project to be analyzed by the user through a medical data collection and analysis platform user interface. For example, a project may include a medical data input template for research that periodically investigates a patient's condition for a specific period of time, a hospital medical record template, a one-time medical information search template, a medical paper analysis template, a medical image learning template, etc. have.

따라서, 본 발명은 각 의료 정보 분야별로 정보관리시스템을 통해 분산 및 저장되어 있는 다양한 의료관련 데이터를 활용하여 사용자가 분석하고자 하는 프로젝트와 서로 높은 연관성이 있는 질병명, 치료방법 및 질병예후예측정보 등을 포함하는 출력값을 제공할 수 있다.Accordingly, the present invention uses various medical-related data distributed and stored through an information management system for each medical information field, and provides the name of the disease, treatment method and disease prognosis information, etc., which are highly correlated with the project to be analyzed by the user. You can provide an output value to include.

이하에서는 상술한 도1에 도시된 구성 중 동일한 기능을 수행하는 구성의 경우 설명을 생략하기로 한다. Hereinafter, a description of a configuration that performs the same function among the configurations illustrated in FIG. 1 will be omitted.

이하에서는 도 2 내지 도4를 참조하여 본 발명의 일 실시예에 따른 의료데이터 수집 및 분석 서비스 제공방법을 구체적으로 설명하도록 한다.Hereinafter, a method of providing medical data collection and analysis service according to an embodiment of the present invention will be described in detail with reference to FIGS. 2 to 4.

도 2는 본 발명의 일 실시예에 따른 머신러닝에 기반한 의료데이터 수집 및 분석 서비스 제공 방법을 설명하기 위한 순서도이다. 2 is a flowchart illustrating a method of collecting and analyzing medical data based on machine learning according to an embodiment of the present invention.

도 2를 참조하면, 머신러닝에 기반한 의료데이터 수집 및 분석 서비스 제공 방법은 복수의 의료데이터를 수집하고, 수집된 데이터에 대한 전처리와 분류를 수행하는 단계(S100), 분류된 의료데이터들을 참조하여 기계학습을 수행하여 의료학습모델을 구축하는 단계(S200), 사용자 단말(100)로 의료데이터 수집 및 분석 플랫폼 사용자인터페이스를 제공하여, 사용자가 분석할 프로젝트에 대한 복수의 의료데이터를 원하는 대로 랜덤하게 입력하도록 하고, 사용자 단말(100)로부터 입력된 복수의 의료데이터를 수집하는 단계(S300), 복수의 의료데이터에 대한 최적화 작업을 수행하여 일부 데이터를 제거하거나 교정하는 단계(S400) 및 수집된 복수의 의료데이터를 구축된 의료학습모델에 입력하여 출력값을 사용자 단말(200)로 제공하는 단계(S500)를 포함한다. 여기서, 의료데이터는 진료데이터와 임상정보데이터를 포함하는 의료관련 기관데이터 및 의학논문데이터를 포함하는 의료학계데이터를 포함한다.Referring to FIG. 2, a method for providing medical data collection and analysis service based on machine learning includes a step of collecting a plurality of medical data, performing pre-processing and classification on the collected data (S100), with reference to the classified medical data. Step of constructing a medical learning model by performing machine learning (S200), by providing a medical data collection and analysis platform user interface to the user terminal 100 to randomly select a plurality of medical data for the project to be analyzed by the user. And collecting a plurality of medical data input from the user terminal 100 (S300), removing or correcting some data by performing an optimization operation on the plurality of medical data (S400), and a plurality of collected medical data And providing an output value to the user terminal 200 by inputting the medical data of the to the built medical learning model (S500). Here, the medical data includes medical-related institutional data including medical treatment data and clinical information data, and medical academic data including medical thesis data.

예시적으로, S100단계에서, 서버(200)는 각 의료 정보 분야별로 구축되어 있는 정보관리시스템(300)으로부터 복수의 의료데이터를 수집할 수 있다. 또한 서버(200)는 수집된 의료데이터 중 개인정보에 해당하는 정보들은 비식별화를 수행하고, 수집된 의료데이터의 종류에 대한 라벨링을 수행할 수 있다. 예를 들어, 환자진료데이터, 임상정보데이터 등 의료데이터의 종류별로 효율적으로 식별 · 분류 가능하도록 라벨링을 할 수 있다. 다음으로, 라벨링된 의료데이터를 카테고리별로 분류할 수 있다.For example, in step S100, the server 200 may collect a plurality of medical data from the information management system 300 built for each medical information field. In addition, the server 200 may de-identify information corresponding to personal information among the collected medical data, and may perform labeling on the type of the collected medical data. For example, labeling can be performed to enable efficient identification and classification for each type of medical data, such as patient treatment data and clinical information data. Next, the labeled medical data can be classified by category.

도 3은 본 발명의 일 실시예에 따른 머신러닝에 기반한 의료데이터 수집 및 분석 서비스 제공 서버에 의해 의료학습모델을 구축하는 방법을 설명하기 위한 도면이다.3 is a view for explaining a method of constructing a medical learning model by a server for providing medical data collection and analysis service based on machine learning according to an embodiment of the present invention.

도 3을 참조하면, S200단계에서, 서버(200)는 각 카테고리의 의료데이터로부터 키워드를 추출하고, 증상이나 환자상태에 관한 키워드들을 입력값으로 설정하고, 질병결과나 치료방법이나 임상결과에 관한 키워드들을 출력값으로 설정하여 기계학습을 수행하되, 의료데이터의 범주나 형태에 기초하여 기계학습 알고리즘을 결정하고, 복수의 기계학습 알고리즘 간의 조합을 자동 수행하는 fine tunig 과정을 거쳐 최적 알고리즘을 선택하여 기계학습을 수행할 수 있다.3, in step S200, the server 200 extracts keywords from medical data of each category, sets keywords related to symptoms or patient conditions as input values, and relates to disease results, treatment methods, or clinical results. Machine learning is performed by setting keywords as output values, and the machine learning algorithm is determined based on the category or type of medical data, and the optimal algorithm is selected through a fine tuning process that automatically performs a combination between a plurality of machine learning algorithms. Learning can be carried out.

일 예로, 분류된 의료데이터들을 참조하여 의료학습모델을 구축하기 위한 기계학습은 CNN(Convolutional Neural Network)과 RNN(Recurrent Neural Nerwork), LSTM(Long Short-Term Memory), 및 NLP(Natiral Language Processing) 알고리즘 중 적어도 하나를 통해 수행할 수 있다.As an example, machine learning for constructing a medical learning model by referring to classified medical data is a convolutional neural network (CNN), a recurrent neural network (RNN), a long short-term memory (LSTM), and a natural language processing (NLP). It can be performed through at least one of the algorithms.

S300 단계에서, 서버(200)는 사용자 단말(100)로부터 프로젝트 템플릿에 대한 선택결과를 수신하고, 프로젝트 정보를 생성한 뒤 선택결과에 대응하는 템플릿을 사용자 단말(100)로 제공할 수 있다. 또한, 서버(200)는 사용자 단말(100)에서 원하는 대로 필드를 생성하고, 필드값을 입력함에 따라, 사용자 단말(100)이 최종적으로 입력완료한 필드 및 필드값을 수신할 수 있다.In step S300, the server 200 may receive a selection result for a project template from the user terminal 100, generate project information, and provide a template corresponding to the selection result to the user terminal 100. In addition, the server 200 generates fields as desired by the user terminal 100 and inputs a field value, so that the user terminal 100 may receive the fields and field values that have been finally inputted.

예시적으로, S300단계에서, 사용자 단말(100)이 서버(200)로부터 제공된 의료데이터 수집 및 분석 플랫폼 사용자인터페이스를 통해 사용자가 분석하고자 하는 프로젝트 정보를 생성할 수 있다. 예시적으로, 사용자 단말(100)은 프로젝트 템플릿을 선택하여 프로젝트 정보를 생성할 수 있다. 예를 들어, 프로젝트 템플릿은 환자의 상태를 특정 기간동안 주기적으로 조사하는 연구에 관한 의료데이터 입력템플릿, 병원 진료기록 템플릿, 일회성 의료정보조사 템플릿, 의학논문분석 템플릿 및 의료이미지 학습 템플릿을 포함할 수 있으며, 사용자 단말(100)은 상기 템플릿 항목들 중에서 하나를 선택할 수 있다.For example, in step S300, the user terminal 100 may generate project information that the user wants to analyze through a medical data collection and analysis platform user interface provided from the server 200. For example, the user terminal 100 may generate project information by selecting a project template. For example, the project template may include a medical data input template, a hospital medical record template, a one-time medical information search template, a medical paper analysis template, and a medical image learning template for research that periodically investigates the patient's condition for a specific period of time. In addition, the user terminal 100 may select one of the template items.

또한, 사용자 단말(100)은 서버(200)로부터 사용자가 선택한 템플릿을 제공받은 후, 사용자 입력에 따라 프로젝트 성격에 맞는 필드를 원하는 대로 생성할 수 있다. 이때 필드는 입력양식(Case Report Form)을 의미한다. 예시적으로, 사용자 단말(100)은 사용자 자신의 프로젝트 성격에 맞는 원하는 필드종류(예를 들어, 질병의 증상, 질병의 기간, 환자 나이, 환자 성별, 환자 거주지, 환자의 생활 습관, 통증이 나타나는 시점, 통증의 강도, 진단명(진단코드), 대표증상, 처방명 등에 관한 정보)와 입력방식(예를 들어, 표, 텍스트, 이미지, 숫자, 체크박스, 의학용어 라이브러리를 활용한 자동완성)을 여러 개 생성하고, 그 필드에 해당하는 필드값을 기입할 수 있다. 예를 들어, 필드종류가 환자 성별일 때, 필드값은 남자 혹은 여자에 관한 데이터를 의미하고, 필드종류가 체중일때, 필드값은 임의의 수치(예를 들어, 50KG)을 의미한다.In addition, after receiving the template selected by the user from the server 200, the user terminal 100 may generate a field suitable for the project characteristics according to a user input as desired. At this time, the field means the case report form. For example, the user terminal 100 is a desired field type suitable for the user's own project characteristics (e.g., disease symptoms, disease period, patient age, patient gender, patient residence, patient lifestyle, and pain). Information on the time point, intensity of pain, diagnosis (diagnosis code), representative symptoms, prescription name, etc.) and input method (e.g., table, text, image, number, check box, automatic completion using medical terminology library) You can create several and write the field value corresponding to the field. For example, when the field type is the gender of the patient, the field value means data about a man or woman, and when the field type is weight, the field value means an arbitrary value (eg, 50KG).

도 4는 본 발명의 일 실시예에 따른 머신러닝에 기반한 의료데이터 수집 및 분석 서비스 제공 서버에 의해 의료데이터에 대한 최적화하는 방법을 설명하기 위한 도면이다.4 is a diagram for explaining a method of optimizing medical data by a server for collecting and analyzing medical data based on machine learning according to an embodiment of the present invention.

도 4를 참조하면, 서버(200)에 의해, 복수의 의료데이터에 대한 최적화 작업을 수행하여 일부 데이터를 제거하거나 교정하는 단계(S400)는 필드 및 필드값에 대한 논리적 모순에 의한 오류나 기 설정된 범위를 벗어나는 필드값들을 제거하는 정제작업을 수행하는 단계(S410) 및 정제 작업을 통해 필터링된 의료데이터를 바탕으로 각 필드 간의 연관성 분석을 수행하여 연관성이 낮은 필드 및 필드값을 제거하는 단계(S420)를 포함할 수 있다.Referring to FIG. 4, the step of removing or correcting some data by performing an optimization operation on a plurality of medical data by the server 200 (S400) is an error due to a logical contradiction of a field and a field value or a preset range. Performing a refining operation for removing field values outside of (S410) and performing a correlation analysis between each field based on the medical data filtered through the refining operation to remove fields and field values with low correlation (S420) It may include.

구체적으로 S410 단계에서, 서버(200)는 서버(200)의 데이터베이스에 기 저장된 사용자들의 의료데이터 저장 및 교정 이력을 참조하여 학습을 수행할 수 있다. 이어서, 서버(200)에 기 저장된 외부기관 의료데이터를 참조하여, 임의의 필드에 해당하는 필드값이 기입되기 위한 조건을 분석하도록 학습을 수행할 수 있다. 예를 들어, 필드의 종류가 성별에 해당하는 필드값이 ‘남자’일 경우 ‘임신 여부’는 무조건 ‘아니오’ 로 처리되는 조건 정보를 바탕으로 학습을 수행할 수 있다. 다음으로, 의료검사결과 항목과 각 항목의 정상수치에 대한 데이터베이스를 참조하여, 임의의 필드에 해당하는 필드값의 수치의 기준점을 설정할 수 있다. 이후, 서버(200)는 S410단계 내에서 수행된 학습과 기준점을 바탕으로 불필요한 것으로 판단된 항목을 제거하고 모순된 필드값을 교정할 수 있다. 예를 들어, 임신 관련 의료데이터 수집을 위한 것일 경우, 불필요한 항목인 성별 필드는 제거될 수 있다.Specifically, in step S410, the server 200 may perform learning by referring to the medical data storage and correction history of users previously stored in the database of the server 200. Subsequently, learning may be performed to analyze a condition for entering a field value corresponding to an arbitrary field by referring to medical data of an external institution previously stored in the server 200. For example, when the field value corresponding to the gender of the field type is'male', the'pregnant status' may be trained based on condition information that is unconditionally processed as'no'. Next, a reference point for a numerical value of a field value corresponding to an arbitrary field may be set by referring to the database for the medical test result items and the normal values of each item. Thereafter, the server 200 may remove items determined to be unnecessary based on the learning performed in step S410 and the reference point, and correct the contradictory field values. For example, in the case of collecting medical data related to pregnancy, the gender field, which is an unnecessary item, may be removed.

S420 단계에서, 서버(200)는 정제작업 후 남은 필드와 공통적인 필드를 갖는 의료데이터들을 반복적으로 검색하여 통계적인 노출 빈도를 분석하고, 공통적인 필드를 갖는 의료데이터 내에서의 결과값과 남은 필드 간의 연관성 분석을 수행하여, 통계적 의미가 기 설정된 기준치보다 낮은 필드 및 필드값을 분류하고, 분류된 필드 및 필드값을 제거할 수 있다. 즉, 최종적으로, 유의미한 필드들의 정제된 데이터를 추출함으로써, 보다 적은 데이터로 효과적인 학습이 가능하도록 한다는 효과가 있다.In step S420, the server 200 repeatedly searches for medical data having fields in common with the fields remaining after the refining operation to analyze the statistical exposure frequency, and the result values and remaining fields in the medical data having common fields. By performing a correlation analysis between the fields and field values having a statistical meaning lower than a preset reference value, the classified fields and field values may be removed. That is, finally, by extracting the refined data of meaningful fields, there is an effect of enabling effective learning with less data.

또한 서버(200)는 사용자 단말(100)로 제공된 출력값을 구성하는 다양한 수치들 중 서로 높은 연관성이 있는 수치들을 묶어서 상호간의 연관관계를 표나 그래프로 변환하여 제공할 수 있다. 예를 들어, 출력값은 질병명, 치료방법 및 질병예후예측정보 등을 포함할 수 있다.In addition, the server 200 may bundle values having a high correlation among various numerical values constituting the output value provided to the user terminal 100 and provide a table or a graph for the correlation between each other. For example, the output value may include disease name, treatment method, disease prognosis prediction information, and the like.

예시적으로, 사용자 단말(100)은 복수의 필드 및 필드값 중에서 분석이 필요한 항목과 적용할 기법 정보를 선택할 수 있다. 일 예로, 서버(200)는 사용자 단말(100)로부터 수신한 분석이 필요한 항목과 기법 정보를 참고하여, 사용자 단말(100)로 pValue 가설 검정, T검정, 네트워크 분석, 빈도 분석, Odds ratio 등 다양한 통계치를 실시간으로 분석한 통계세트를 제공할 수 있다. 이때, 통계세트는 그래프 및 표 등으로 시각화된 정보를 의미하며, 예를 들어 다양한 진료 데이터 사이에서 음주량과 치매발생율 간의 연관관계를 별도의 설정 없이도 자동으로 분석하여 제공할 수 있다.For example, the user terminal 100 may select an item to be analyzed and technique information to be applied from among a plurality of fields and field values. As an example, the server 200 refers to the item and technique information required to be analyzed received from the user terminal 100, and provides various information such as pValue hypothesis test, T test, network analysis, frequency analysis, Odds ratio, etc. It is possible to provide a set of statistics analyzed in real time. In this case, the statistics set means information visualized by graphs and tables, and for example, the relationship between alcohol consumption and dementia incidence rate among various treatment data can be automatically analyzed and provided without a separate setting.

다른 예로, 서버(200)는 수집된 데이터를 더 범주화하는 작업을 수행할 수 있다. 예를 들어, 사용자 단말(100)은 보고서 형태로 인쇄하거나 추출된 pdf 파일이나 웹 페이지를 다양한 방식으로 제공받고 공유할 수 있다.As another example, the server 200 may perform an operation of further categorizing the collected data. For example, the user terminal 100 may print in a report form or provide and share an extracted pdf file or web page in various ways.

본 발명의 일 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. An embodiment of the present invention may also be implemented in the form of a recording medium including instructions executable by a computer, such as a program module executed by a computer. Computer-readable media can be any available media that can be accessed by a computer, and includes both volatile and nonvolatile media, removable and non-removable media. Further, the computer-readable medium may include a computer storage medium. Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data.

본 발명의 방법 및 시스템은 특정 실시예와 관련하여 설명되었지만, 그것들의 구성 요소 또는 동작의 일부 또는 전부는 범용 하드웨어 아키텍쳐를 갖는 컴퓨터 시스템을 사용하여 구현될 수 있다.Although the methods and systems of the present invention have been described in connection with specific embodiments, some or all of their components or operations may be implemented using a computer system having a general-purpose hardware architecture.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.The above description of the present invention is for illustrative purposes only, and those of ordinary skill in the art to which the present invention pertains will be able to understand that other specific forms can be easily modified without changing the technical spirit or essential features of the present invention. will be. Therefore, it should be understood that the embodiments described above are illustrative and non-limiting in all respects. For example, each component described as a single type may be implemented in a distributed manner, and similarly, components described as being distributed may also be implemented in a combined form.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.The scope of the present invention is indicated by the claims to be described later rather than the detailed description, and all changes or modified forms derived from the meaning and scope of the claims and their equivalent concepts should be interpreted as being included in the scope of the present invention do.

100: 사용자 단말
200: 서버
300: 정보관리시스템
100: user terminal
200: server
300: information management system

Claims (10)

머신러닝에 기반한 의료데이터 수집 및 분석 서비스 제공 방법에 있어서,
(a) 복수의 의료데이터를 수집하고, 수집된 데이터에 대한 전처리와 분류를 수행하는 단계;
(b) 상기 분류된 의료데이터들을 참조하여 기계학습을 수행하여 의료학습모델을 구축하는 단계;
(c) 사용자 단말로 의료데이터 수집 및 분석 플랫폼 사용자인터페이스를 제공하여, 사용자가 분석할 프로젝트에 대한 복수의 의료데이터를 원하는 대로 랜덤하게 입력하도록 하고, 사용자 단말로부터 입력된 복수의 의료데이터를 수집하는 단계;
(d) 상기 복수의 의료데이터에 대한 최적화 작업을 수행하여 일부 데이터를 제거하거나 교정하는 단계; 및
(e) 상기 수집된 복수의 의료데이터를 상기 구축된 의료학습모델에 입력하여 출력값을 상기 사용자 단말로 제공하는 단계를 포함하는 것이고,
상기 의료데이터는 진료데이터와 임상정보데이터를 포함하는 의료관련 기관데이터 및 의학논문데이터를 포함하는 의료학계데이터를 포함하는 것인, 머신러닝에 기반한 의료데이터 수집 및 분석 서비스 제공 방법.
In the method of providing medical data collection and analysis services based on machine learning,
(a) collecting a plurality of medical data, and performing pre-processing and classification on the collected data;
(b) constructing a medical learning model by performing machine learning by referring to the classified medical data;
(c) Provides a medical data collection and analysis platform user interface to the user terminal, allowing the user to randomly input multiple medical data for the project to be analyzed as desired, and to collect a plurality of medical data input from the user terminal. step;
(d) removing or correcting some data by performing an optimization operation on the plurality of medical data; And
(e) inputting the collected plurality of medical data to the constructed medical learning model and providing an output value to the user terminal,
The medical data includes medical-related institutional data including medical treatment data and clinical information data, and medical academic data including medical thesis data. A method of collecting and analyzing medical data based on machine learning.
제 1 항에 있어서,
상기 (a) 단계는,
상기 수집된 데이터 중 개인정보에 해당하는 정보들은 비식별처리를 수행하여 수집 대상에서 제거하거나 사람이 인지하지 못하도록 처리하는 단계;
상기 수집된 데이터의 종류에 대한 라벨링을 수행하는 단계; 및
상기 라벨링된 데이터를 카테고리 별로 분류하는 단계를 포함하는, 머신러닝에 기반한 의료데이터 수집 및 분석 서비스 제공 방법.
The method of claim 1,
The step (a),
Performing de-identification processing of information corresponding to personal information among the collected data to be removed from the collection object or processed so that humans do not recognize it;
Labeling the types of the collected data; And
A method for providing a medical data collection and analysis service based on machine learning, comprising the step of classifying the labeled data by category.
제 2 항에 있어서,
상기 (b) 단계는,
상기 각 카테고리의 의료데이터로부터 키워드를 추출하고, 증상이나 환자상태에 관한 키워드들을 입력값으로 설정하고, 질병결과나 치료방법이나 임상결과에 관한 키워드들을 출력값으로 설정하여 기계학습을 수행하되, 의료데이터의 범주나 형태에 기초하여 기계학습 알고리즘을 결정하고, 복수의 기계학습 알고리즘 간의 조합을 자동 수행하는 fine tunig 과정을 거쳐 최적 알고리즘을 선택하여 기계학습을 수행하는 것인,
머신러닝에 기반한 의료데이터 수집 및 분석 서비스 제공 방법.
The method of claim 2,
The step (b),
Machine learning is performed by extracting keywords from the medical data of each category, setting keywords related to symptoms or patient conditions as input values, and setting keywords related to disease results, treatment methods, or clinical results as output values. Machine learning is performed by determining a machine learning algorithm based on the category or shape of and selecting the optimal algorithm through a fine tuning process that automatically performs a combination between a plurality of machine learning algorithms.
A method of providing medical data collection and analysis services based on machine learning.
제 1 항에 있어서,
상기 (c) 단계는,
상기 사용자 단말로부터 프로젝트 템플릿에 대한 선택결과를 수신하고, 프로젝트 정보를 생성한 뒤 선택결과에 대응하는 템플릿을 사용자 단말로 제공하는 단계; 및
상기 사용자 단말에서 원하는 대로 필드를 생성하고, 필드값을 입력함에 따라, 상기 사용자 단말이 최종적으로 입력완료한 필드 및 필드값을 수신하는 단계;를 포함하는,
머신러닝에 기반한 의료데이터 수집 및 분석 서비스 제공 방법.
The method of claim 1,
The step (c),
Receiving a selection result for a project template from the user terminal, generating project information, and providing a template corresponding to the selection result to the user terminal; And
Generating a field as desired in the user terminal, and receiving a field and field value finally inputted by the user terminal as the field value is input; including,
A method of providing medical data collection and analysis services based on machine learning.
제 4 항에 있어서,
상기 (d) 단계는,
(d-1) 상기 필드 및 필드값에 대한 논리적 모순에 의한 오류나 기 설정된 범위를 벗어나는 필드값들을 제거하는 정제작업을 수행하는 단계; 및
(d-2) 상기 정제 작업을 통해 필터링된 의료데이터를 바탕으로 각 필드 간의 연관성 분석을 수행하여 연관성이 낮은 필드 및 필드값을 제거하는 단계;를 포함하는,
머신러닝에 기반한 의료데이터 수집 및 분석 서비스 제공 방법.
The method of claim 4,
The step (d),
(d-1) performing a refinement operation of removing errors due to logical contradictions of the field and field values or field values outside a preset range; And
(d-2) removing fields and field values with low correlation by performing correlation analysis between fields based on the medical data filtered through the refining operation; including,
A method of providing medical data collection and analysis services based on machine learning.
제 5 항에 있어서,
상기 (d-1) 단계는,
서버에 기 저장된 사용자들의 의료데이터 저장 및 교정 이력을 참조하여 학습을 수행하는 단계;
상기 서버에 기 저장된 외부기관 의료데이터를 참조하여, 임의의 필드에 해당하는 필드값이 기입되기 위한 조건을 분석하도록 학습을 수행하는 단계;
의료검사결과 항목과 각 항목의 정상수치에 대한 데이터베이스를 참조하여, 임의의 필드에 해당하는 필드값의 수치의 기준점을 설정하는 단계; 및
상기 (d-1) 단계 내에서 수행된 학습과 기준점을 바탕으로 불필요한 것으로 판단된 항목을 제거하고 모순된 필드값을 교정하는 단계를 포함하는, 머신러닝에 기반한 의료데이터 수집 및 분석 서비스 제공 방법.
The method of claim 5,
The step (d-1),
Performing learning by referring to the medical data storage and calibration history of users previously stored in the server;
Performing learning to analyze a condition for inputting a field value corresponding to an arbitrary field by referring to medical data from an external institution previously stored in the server;
Setting a reference point for a numerical value of a field value corresponding to an arbitrary field by referring to a database for medical test result items and normal values of each item; And
A method for providing medical data collection and analysis service based on machine learning, comprising removing items determined to be unnecessary and correcting contradictory field values based on the learning performed in step (d-1) and the reference point.
제 6 항에 있어서,
상기 (d-2) 단계는,
상기 (d-1) 단계에서 정제작업 후 남은 필드와 공통적인 필드를 갖는 의료데이터들을 반복적으로 검색하여 통계적인 노출 빈도를 분석하고, 상기 공통적인 필드를 갖는 의료데이터 내에서의 결과값과 상기 남은 필드 간의 연관성 분석을 수행하여, 통계적 의미가 기 설정된 기준치보다 낮은 필드 및 필드값을 분류하고, 분류된 필드 및 필드값을 제거하는 것인, 머신러닝에 기반한 의료데이터 수집 및 분석 서비스 제공 방법.
The method of claim 6,
The step (d-2),
In step (d-1), medical data having a field remaining after the refining operation and a common field are repeatedly searched to analyze the statistical exposure frequency, and the result value in the medical data having the common field and the remaining A method for providing medical data collection and analysis service based on machine learning, which is to perform correlation analysis between fields, classify fields and field values whose statistical significance is lower than a preset reference value, and remove the classified fields and field values.
제 1 항에 있어서,
상기 기계학습은 CNN(Convolutional Neural Network)과 RNN(Recurrent Neural Nerwork), LSTM(Long Short-Term Memory), 및 NLP(Natiral Language Processing) 알고리즘 중 적어도 하나를 통해 수행되는 것인, 머신러닝에 기반한 의료데이터 수집 및 분석 서비스 제공 방법.
The method of claim 1,
The machine learning is performed through at least one of CNN (Convolutional Neural Network), RNN (Recurrent Neural Nerwork), LSTM (Long Short-Term Memory), and NLP (Natiral Language Processing) algorithm. How to provide data collection and analysis services.
제 1 항에 있어서,
(f) 상기 사용자 단말로 제공된 출력값을 구성하는 다양한 수치들 중 서로 높은 연관성이 있는 수치들을 묶어서 상호간의 연관관계를 표나 그래프로 변환하여 제공하는 단계를 더 포함하는, 머신러닝에 기반한 의료데이터 수집 및 분석 서비스 제공 방법.
The method of claim 1,
(f) Collecting medical data based on machine learning, further comprising the step of grouping values having high correlation among various numerical values constituting the output value provided to the user terminal and converting the correlation relationship to a table or graph, and providing How to provide analytics services.
머신러닝에 기반한 의료데이터 수집 및 분석 서비스 제공 시스템에 있어서,
서버를 포함하며,
상기 서버는,
복수의 의료데이터를 수집하고, 수집된 데이터에 대한 전처리와 분류를 수행하고,
상기 분류된 의료데이터들을 참조하여 기계학습을 수행하여 의료학습모델을 구축하며,
사용자 단말로 의료데이터 수집 및 분석 플랫폼 사용자인터페이스를 제공하여, 사용자가 분석할 프로젝트에 대한 복수의 의료데이터를 원하는 대로 랜덤하게 입력하도록 하고, 사용자 단말로부터 입력된 복수의 의료데이터를 수집하고,
상기 복수의 의료데이터에 대한 최적화 작업을 수행하여 일부 데이터를 제거하거나 교정하며,
상기 수집된 복수의 의료데이터를 상기 구축된 의료학습모델에 입력하여 출력값을 상기 사용자 단말로 제공하는 것이고,
상기 의료데이터는 진료데이터와 임상정보데이터를 포함하는 의료관련 기관데이터 및 의학논문데이터를 포함하는 의료학계데이터를 포함하는 것인, 머신러닝에 기반한 의료데이터 수집 및 분석 서비스 제공 시스템.
In a system for providing medical data collection and analysis services based on machine learning,
Includes a server,
The server,
Collect multiple medical data, perform pre-processing and classification on the collected data,
Constructing a medical learning model by performing machine learning by referring to the classified medical data,
Provides a medical data collection and analysis platform user interface to the user terminal, allowing the user to randomly input multiple medical data for the project to be analyzed as desired, and collects a plurality of medical data input from the user terminal,
Some data is removed or corrected by performing an optimization operation on the plurality of medical data,
Inputting the collected plurality of medical data to the constructed medical learning model and providing an output value to the user terminal,
The medical data includes medical-related institutional data including medical treatment data and clinical information data, and medical academic data including medical thesis data. A system for providing medical data collection and analysis service based on machine learning.
KR1020190143253A 2019-11-11 2019-11-11 Method and system for providing medical data collection and analyzing service based on machine learning KR102328154B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190143253A KR102328154B1 (en) 2019-11-11 2019-11-11 Method and system for providing medical data collection and analyzing service based on machine learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190143253A KR102328154B1 (en) 2019-11-11 2019-11-11 Method and system for providing medical data collection and analyzing service based on machine learning

Publications (2)

Publication Number Publication Date
KR20210056598A true KR20210056598A (en) 2021-05-20
KR102328154B1 KR102328154B1 (en) 2021-11-18

Family

ID=76142803

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190143253A KR102328154B1 (en) 2019-11-11 2019-11-11 Method and system for providing medical data collection and analyzing service based on machine learning

Country Status (1)

Country Link
KR (1) KR102328154B1 (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102485460B1 (en) 2022-01-25 2023-01-05 차라투 주식회사 System providing customized statistical analysis service and method of operation of system
WO2023015333A1 (en) * 2021-08-11 2023-02-16 Omniscient Neurotechnology Pty Limited Dynamic dictionary
WO2023033329A1 (en) * 2021-09-06 2023-03-09 주식회사 바스젠바이오 Device and method for generating risk gene mutation information for each disease through disease-related gene mutation analysis
KR20230047229A (en) * 2021-09-30 2023-04-07 고려대학교 산학협력단 System for split training of medical data, method therefor, and computer readable medium for performing the method
KR102595659B1 (en) * 2023-03-14 2023-10-30 주식회사 그레이드헬스체인 System for predicting the probability of passing the screening of insurance coverages for each insurance company through an general agency
KR102595654B1 (en) * 2023-03-14 2023-10-30 주식회사 그레이드헬스체인 System and method for predicting the probability of passing the underwriting review of insurance contracts using digital medical record information

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180036229A (en) * 2016-09-30 2018-04-09 주식회사 셀바스에이아이 Method and apparatus for predicting probability of the outbreak of a disease
KR101864412B1 (en) * 2017-12-28 2018-06-04 (주)휴톰 Data managing method, apparatus and program for machine learning
US20190034589A1 (en) * 2017-07-28 2019-01-31 Google Inc. System and Method for Predicting and Summarizing Medical Events from Electronic Health Records
KR20190069046A (en) * 2017-12-11 2019-06-19 한림대학교 산학협력단 Apparatus and method for generating dataset to provide healthcare services
KR20190105210A (en) * 2018-02-22 2019-09-16 고려대학교 산학협력단 System for providing integrated medical diagnostic service and method thereof

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180036229A (en) * 2016-09-30 2018-04-09 주식회사 셀바스에이아이 Method and apparatus for predicting probability of the outbreak of a disease
US20190034589A1 (en) * 2017-07-28 2019-01-31 Google Inc. System and Method for Predicting and Summarizing Medical Events from Electronic Health Records
KR20190069046A (en) * 2017-12-11 2019-06-19 한림대학교 산학협력단 Apparatus and method for generating dataset to provide healthcare services
KR101864412B1 (en) * 2017-12-28 2018-06-04 (주)휴톰 Data managing method, apparatus and program for machine learning
KR20190105210A (en) * 2018-02-22 2019-09-16 고려대학교 산학협력단 System for providing integrated medical diagnostic service and method thereof

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023015333A1 (en) * 2021-08-11 2023-02-16 Omniscient Neurotechnology Pty Limited Dynamic dictionary
WO2023033329A1 (en) * 2021-09-06 2023-03-09 주식회사 바스젠바이오 Device and method for generating risk gene mutation information for each disease through disease-related gene mutation analysis
KR20230047229A (en) * 2021-09-30 2023-04-07 고려대학교 산학협력단 System for split training of medical data, method therefor, and computer readable medium for performing the method
KR102485460B1 (en) 2022-01-25 2023-01-05 차라투 주식회사 System providing customized statistical analysis service and method of operation of system
KR20230114700A (en) 2022-01-25 2023-08-01 차라투 주식회사 System providing customized statistical analysis service and method of operation of system
WO2023145983A1 (en) * 2022-01-25 2023-08-03 차라투 주식회사 System providing customized statistical analysis service and method for operating system
KR102595659B1 (en) * 2023-03-14 2023-10-30 주식회사 그레이드헬스체인 System for predicting the probability of passing the screening of insurance coverages for each insurance company through an general agency
KR102595654B1 (en) * 2023-03-14 2023-10-30 주식회사 그레이드헬스체인 System and method for predicting the probability of passing the underwriting review of insurance contracts using digital medical record information

Also Published As

Publication number Publication date
KR102328154B1 (en) 2021-11-18

Similar Documents

Publication Publication Date Title
KR102328154B1 (en) Method and system for providing medical data collection and analyzing service based on machine learning
Kumar et al. Big data analytics for healthcare industry: impact, applications, and tools
Bajwa et al. Artificial intelligence in healthcare: transforming the practice of medicine
Milovic et al. Prediction and decision making in health care using data mining
US20200311610A1 (en) Rule-based feature engineering, model creation and hosting
US20200265931A1 (en) Systems and methods for coding health records using weighted belief networks
US20160110502A1 (en) Human and Machine Assisted Data Curation for Producing High Quality Data Sets from Medical Records
US10290370B2 (en) Systems and methods for extracting specified data from narrative text
Rios et al. EMR coding with semi–parametric multi–head matching networks
CN111145847A (en) Clinical test data entry method and device, medium and electronic equipment
Wanyan et al. Deep learning with heterogeneous graph embeddings for mortality prediction from electronic health records
Gaonkar et al. Ethical issues arising due to bias in training AI algorithms in healthcare and data sharing as a potential solution
Brito et al. A data mining approach to classify serum creatinine values in patients undergoing continuous ambulatory peritoneal dialysis
Carvalho et al. Knowledge Graph Embeddings for ICU readmission prediction
Basyal et al. A systematic review of natural language processing for knowledge management in healthcare
Alvarez et al. Application of the spreading activation technique for recommending concepts of well-known ontologies in medical systems
Gibson et al. Making the most of big data in plastic surgery: improving outcomes, protecting patients, informing service providers
KR20200076435A (en) Health care system for companion animal using interaction and method thereof
US20230197218A1 (en) Method and system for detection of waste, fraud, and abuse in information access using cognitive artificial intelligence
Todor et al. Future Trend in Healthcare: The Use of Big Data
Tamiziniyan et al. Future of Healthcare: Biomedical Big Data Analysis and IoMT
Anitha et al. Virtual Medical Assistant Using Machine Learning
Firthous et al. Survey on using electronic medical records (EMR) to identify the health conditions of the patients
CN114694777A (en) Medical data collection and analysis service providing method and system based on machine learning
Pivithuru et al. E-patient Card: An Integrated Electronic Health Recording System for Patient

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right