KR102605009B1

KR102605009B1 - 머신러닝을 이용한 의료정보 분류 장치

Info

Publication number: KR102605009B1
Application number: KR1020210100123A
Authority: KR
Inventors: 한상욱
Original assignee: 주식회사 메드올스
Priority date: 2021-07-29
Filing date: 2021-07-29
Publication date: 2023-11-23
Also published as: KR20230018210A

Abstract

일 실시예는 의료영상데이터 및 의료장치데이터를 수집하는 데이터수집부; 상기 의료영상데이터를 텍스트데이터로 변환하는 데이터변환부; 상기 텍스트데이터를 이용하여 분류모델을 학습시키고, 상기 의료장치데이터를 이용하여 상기 학습된 분류모델을 다시 학습시키는 학습부; 의료과목을 생성하고 상기 텍스트데이터 및 상기 의료장치데이터를 상기 의료과목으로 분류함으로써 학습을 수행하고, 학습이 완료되면 입력된 의료정보를 상기 의료과목으로 분류하는 분류모델을 포함하는 머신러닝을 이용한 의료정보 분류 장치를 제공할 수 있다.

Description

머신러닝을 이용한 의료정보 분류 장치{APPARATUS FOR CLASSIFYING MEDICAL INFORMATION USING MACHINE LEARNING}

본 실시예는 머신러닝에 기반하여 학습된 모델을 통해 의료정보를 분류하고 사용자의 요청에 따라 맞춤형 의료정보를 제공하기 위한 기술에 관한 것이다.

COVID-19와 같은 신종 전염병의 확산 및 과도한 의료정보의 생산으로 인해 의료인들에게 신뢰도 높은 최신 의료정보를 신속하고, 효율적으로 제공할 수 있는 솔루션이 절실히 요구되는 실정이다. COVID-19와 같은 새로운 질병의 경우, COVID-19는 기존 논문이나 교과서에 없기 때문에, 신뢰도 높은 정보의 빠른 수집이 중요할 수 있다. 그러나 COVID-19에 대한 정보는 온라인상에 파편화되어 있다. 암과 같은 종래의 질병의 경우, 정보가 홍수처럼 많고 적정한 정보의 습득이 어려울 수 있다. 의료인 개개인이 직접 검색하고 처리하기에는 시간이 부족하고, 정보 환경이 제한적일 수밖에 없다. 정보 탐색은 의료진에게 가장 큰 피로감을 제공하기도 한다.

또한 COVID-19의 확산으로 인해 의료기기 전자상거래로의 변화가 가속화되고 있으나, 의료기기 정보 또한 의사 수준의 전문의료인이 분류 및 검증하고 관리해야할 수 있다. 의료정보의 분류 및 편집은 각 과목별로 전문의 수준의 의학지식을 가진 다수의 의료인이 전담해야 하며, 비용과 시간적인 측면에서 의료정보 검증, 분류, 큐레이션을 수행할 수 있는 인공지능 의사가 필요하다.

이에, 본 발명의 발명자는 의료정보의 검증·분류·큐레이션을 전문의료인 수준으로 할 수 있는 인공지능 기술을 개발하기 위하여 오랜 연구를 거친 끝에 본 발명을 완성하기에 이르렀다.

한국 등록특허공보 제10-1785780호

이러한 배경에서, 본 실시예의 일 목적은, 의료영상데이터 및 의료장치데이터를 수집하고, 의료영상데이터를 텍스트데이터로 변환하고, 텍스트데이터를 이용하여 분류모델을 학습시키고, 상기 의료장치데이터를 이용하여 상기 학습된 분류모델을 다시 학습시키고, 학습이 완료되면 입력된 의료정보를 상기 의료과목으로 분류하는 머신러닝을 이용한 의료정보 분류하는 기술을 제공하는 것이다.

본 실시예의 다른 목적은, 분류된 의료정보가 의료과목에 따라 저장되고, 의료정보요청에 따라 상기 저장된 의료정보 중 일부를 제공하는 기술을 제공하는 것이다.

한편, 본 발명의 명시되지 않은 또 다른 목적들은 하기의 상세한 설명 및 그 효과로부터 용이하게 추론할 수 있는 범위 내에서 추가적으로 고려될 것이다.

전술한 목적을 달성하기 위하여, 일 실시예는, 의료영상데이터 및 의료장치데이터를 수집하는 데이터수집부; 상기 의료영상데이터를 텍스트데이터로 변환하는 데이터변환부; 상기 텍스트데이터를 이용하여 분류모델을 학습시키고, 상기 의료장치데이터를 이용하여 상기 학습된 분류모델을 다시 학습시키는 학습부; 의료과목을 생성하고 상기 텍스트데이터 및 상기 의료장치데이터를 상기 의료과목으로 분류함으로써 학습을 수행하고, 학습이 완료되면 입력된 의료정보를 상기 의료과목으로 분류하는 분류모델을 포함하는 머신러닝을 이용한 의료정보 분류 장치를 제공한다.

상기 장치에서, 상기 분류모델은, BERT(Bidirectional Encoder Representations from Transformers) 모델을 포함하고, 상기 BERT 모델에 연결된 다중레이블분류층(multi-label classification layer)을 포함할 수 있다.

상기 장치에서, 상기 데이터수집부는, 의료뉴스데이터를 수집하고, 상기 분류모델은, 상기 의료뉴스데이터를 상기 BERT 모델 및 다중레이블분류층을 통해 사전에 학습할 수 있다.

상기 장치에서, 상기 분류모델은, 상기 BERT 모델을 통해 상기 의료뉴스데이터에 대하여 자연어처리(NLP; natural language processing)를 수행하고, 상기 다중레이블분류층을 통해 상기 의료뉴스데이터를 상기 의료과목으로 분류할 수 있다.

상기 장치에서, 상기 BERT 모델은, 미리 공개된 의료데이터를 사전에 학습한 BioBERT 모델일 수 있다.

상기 장치에서, 상기 분류된 의료정보가 상기 의료과목에 따라 저장되는 저장부; 및 의료정보요청에 따라 상기 저장된 의료정보 중 일부를 제공하는 제어부를 포함할 수 있다.

이상에서 설명한 바와 같이 본 실시예에 의하면, 유튜브 등의 동영상 자료의 증가에 대응하고 의료기기 정보 제공의 적확성을 높일 수 있다.

그리고, 본 실시예에 의하면, 몇몇 종류의 데이터로 사전에 학습된 분류모델을 전이학습에 이용함으로써, 분류모델의 성능을 높일 수 있다.

한편, 여기에서 명시적으로 언급되지 않은 효과라 하더라도, 본 발명의 기술적 특징에 의해 기대되는 이하의 명세서에서 기재된 효과 및 그 잠정적인 효과는 본 발명의 명세서에 기재된 것과 같이 취급됨을 첨언한다.

도 1은 일 실시예에 따른 머신러닝을 이용한 의료정보 분류 장치의 구성도이다.
도 2는 일 실시예에 따른 분류모델의 구성도이다.
도 3은 일 실시예에 따른 분류모델의 특성을 설명하기 위한 도면이다.
도 4는 일 실시예에 따른 머신러닝을 이용한 의료정보 분류 장치의 동작을 설명하는 흐름도이다.
첨부된 도면은 본 발명의 기술사상에 대한 이해를 위하여 참조로서 예시된 것임을 밝히며, 그것에 의해 본 발명의 권리범위가 제한되지는 아니한다.

본 발명을 설명함에 있어서 관련된 공지기능에 대하여 이 분야의 기술자에게 자명한 사항으로서 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

이하, 본 발명에 따른 실시예를 첨부도면을 참조하여 상세히 설명하기로 하며, 첨부 도면을 참조하여 설명함에 있어, 동일하거나 대응하는 구성 요소는 동일한 도면번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.

도 1은 일 실시예에 따른 머신러닝을 이용한 의료정보 분류 장치의 구성도이다.

도 1을 참조하면, 머신러닝을 이용한 의료정보 분류 장치(100, 이하 ‘장치’라 함)은 데이터수집부(110), 데이터전처리부(120), 의료과목분류부(130) 및 출력부(140)를 포함할 수 있다. 의료과목분류부(130)는 학습부(131) 및 분류모델(132)을 더 포함할 수 있다. 장치(100)는 의료정보를 복수의 의료과목으로 분류할 수 있다. 분류를 위해서 장치(100)는 분류모델(132)을 학습시키고 학습된 분류모델(132)을 이용할 수 있다.

데이터수집부(110)는 학습을 위한 데이터를 수집할 수 있다. 수집된 데이터는 분류모델(132)의 학습을 위해 사용될 수 있다. 수집된 데이터는 분류모델(132)을 트레이닝(training)시키는 훈련데이터와 학습과정에서 학습의 중단 시점을 결정하기 위하여 사용하는 검증데이터로 구분될 수 있다. 분류모델(132)은 훈련데이터(training data)를 학습하고 일정 시점-예를 들어 과적합이 발생되기 이전-에서 검증데이터(validation data)를 통해 학습을 완료할 수 있다. 그리고 분류모델(132)의 성능이 훈련데이터 및 검증데이터와 상이한 테스트데이터(test data)를 통해 최종적으로 평가될 수 있다.

데이터수집부(110)는 의료영상데이터 및 의료장치데이터를 수집할 수 있다. 수집된 의료영상데이터 및 의료장치데이터는 분류모델(132)의 학습에 이용될 수 있다.

데이터변환부(120)는 의료영상데이터를 텍스트데이터로 변환할 수 있다. 예를 들어 데이터변환부(120)는 음성인식 알고리즘에 따라 동작할 수 있고, 음성인식 알고리즘에 따라 동영상으로부터 출력되는 음성을 텍스트(문자)로 변환할 수 있다.

학습부(131)는 텍스트데이터를 이용하여 분류모델(132)을 학습시키고, 의료장치데이터를 이용하여 상기 학습된 분류모델(132)을 다시 학습시킬 수 있다. 여기서 학습부(131)는 텍스트데이터를 먼저 학습하고, 그 다음으로 의료장치데이터를 학습할 수 있다. 또는 학습부(131)는 의료장치데이터를 먼저 학습하고, 그 다음으로 텍스트데이터를 학습할 수 있다. 학습의 순서에 따라 분류모델(132)의 성능이 결정될 수 있다.

학습의 과정에서 분류모델(132)은 의료과목을 생성하고 텍스트데이터 및 의료장치데이터를 의료과목으로 분류할 수 있다. 학습이 완료되면, 분류모델(132)은 입력된 의료정보를 의료과목에 대응시킬 수 있다.

예를 들어 의료정보가 속할 수 있는 의료과목은 총 93개의 과목을 포함할 수 있다. 모든 의료 영역은 현재 보편적으로 사용하고 있는 분류에 따라 총93개의 과목으로 분류될 수 있다. 위의 분류는 21개 내과계 과목과 10개의 외과계 과목, 8개의 진료지원 과목, 13개의 특수 과목, 10개의 치과 과목, 26개의 기초과목, 10개의 기타분류(간호학, 심리학, 법의학, 영양학, 동물학)을 포함할 수 있다.

좀 더 구체적인 예를 들면, 일반내과(General Internal Medicine)는 내과적 증상, 질환 및 관련 복합 문제에 대한 진단 추론 및 치료적 접근을 하는 전문 분야로써 병원의 응급실, 응급 치료 유니트 등에서 내과적 진단 및 치료에 관여하고 다른 전문분야의 내과적 문제 발생시 자문을 하며 내과적 질환에 대해 외래 진료를 시행하며, 내과적 합병증을 예방, 치료하는데 관여하는 것을 뜻할 수 있다.

병원의학(Hospital Medicine)은 병원에서 급성기 환자를 치료하는 의사로서 병원에 입원한 환자들의 치료에만 전문적으로 관여하는 분야이며, 병원의학과 의사는 내과의 다양한 세부과목에 대한 충분한 지식으로 장기별 구분에 따른 세부 과목에 제한되지않고 병원에서 모든 급성기 환자에 대해 진단, 치료, 교육, 및 연구 등에 관여할 수 있다.

중환자의학(Critical Care Medicine)은 중환자실에서 집중적인 치료를 필요로 하는 환자를 전문적으로 보는 의사로서 중환자에 대한 전반적인 지식을 필요로하며 아울러 중환자에게 시행되어야 하는 시술에 대한 기술 습득을 필요로 할 수 있다. 아울러 중환자들에게 생길 수 있는 여러 복잡한 삶의 연장 결정과 관련된 윤리, 사회적 문제에 대한 충분한 지식을 필요로 할 수 있다.

노인의학(Geriatric Medicine)은 노인의 건강 문제를 전문적으로 치료하는 의사로서 노인의 건강을 증진하고 노인 관련 질환과 장애에 대해 진단 및 치료적 지식을 습득을 필요로 하며, 노인의 노화를 연구하는 학문인 노인학과는 구분될 수 있다.

그리고 의료과목은 세부의료과목-대략 8000개의 세부의료과목-을 더 포함할 수 있다. 예를 들어 순환기 내과(Cardiology)는 일반 순환기 내과(General Cardiology), 성인 선천적 심장질환(Adult Congenital Heart Disease), 심장 크리티컬 케어(Cardiac Critical Care), 심장 전기 생리학(Cardiac Electrophysiology), 심장 흉부 영상(Cardiothoracic Imaging), 심혈관 질환 유전학(Cardiovascular Disease Genetics), 심 초음파(Echocardiography), 운동 생리학 및 심장 재활(Exercise Physiology and Cardiac Rehabilitation), 심부전 및 이식(Heart Failure & Transplantation), 중재 심장학(Interventional Cardiology), 비침습적 심장학(Non-Invasive Cardiology), 핵 심장학(Nuclear Cardiology), 말초 혈관 내 중재 심장학(Peripheral Endovascular Interventional Cardiology), 예방 심장학(Preventive Cardiology) 및 혈관 의학(Vascular Medicine)을 포함할 수 있다.

다른 예시로서, 호흡기내과(Pulmonology)는 일반 폐 의학(General Pulmonary Medicine), 천식 및 씨오피디(Asthma & COPD), 크리티컬 케어 의학(Critical Care Medicine), 낭포성 섬유 감염증(Cystic Fibrosis Infectious Disease), 간질성 폐질환(Interstitial Lung Diseases), 중재 폐학(Interventional Pulmonology), 폐 이식학(Lung Transplantation Medicine), 직업 및 환경 폐질환학(Occupational & Environmental Lung Disease), 흉막 질환(Pleural Disease), 폐 재활(Pulmonary Rehabilitation), 폐 혈관 의학(Pulmonary Vascular Medicine), 제한 폐 질환(Restrictive Lung Disease), 수면 의학(Sleep Medicine) 및 흉부 종양학(Thoracic Oncology)을 포함할 수 있다.

위장관학 및 간의학(Gastroenterology & Hepatology)은 일반 위장학(General Gastroenterology), 고급 내시졍 중재학(Advanced Endoscopic Intervention), 항문 직장 기능 및 골반저 기능 부진학(Anorectal Function & Pelvic Floor Dysfunction), 비만의학(Bariatric Medicine), 담관 질환(Biliary Tract Disease), 식도 질환(Esophagus Disease), 위장 암(Gastrointestinal Cancer), 위장관 기능 및 운동 장애(Gastrointestinal Functional & Motility Disorders), 간 및 간이식(Hepatology & Liver Transplantation), 염증성 장 질환(Inflammatory Bowel Disease), 흡수 장애(Malabsorption), 영양학(Nutrition) 및 췌장 질환(Pancreas Disease)을 포함할 수 있다.

분류모델(132)은 의료정보를 제공하는 종래의 서비스를 이용할 수 있고, 예를 들어 www.medisurf.com에서 제공하는 DB를 사용할 수 있다. 반드시 위의 DB를 사용할 필요는 없으며, 학습과정에 충분한 시간이 있다면 분류된 데이터가 없는 상태에서도 학습을 통해 문서들을 과목별로 분류 저장할 수 있다.

분류모델(132)은 의료영상데이터에 기반한 텍스트데이터로 학습하고 다시 의료장치데이터로 학습한 뒤에, 분류모델(132)은 입력된 의료정보를 학습과정에서 생성된 의료과목 또는 세부의료과목에 대응시킬 수 있다. 입력된 의료정보는 의료과목 또는 세부의료과목에 따라 저장부(미도시)에 저장될 수 있다. 그러면 제어부(미도시)는 사용자의 의료정보요청에 따라 상기 저장된 의료정보 중 일부-의료정보요청에 대응하는 저장된 의료정보 중 일부-를 출력부(140)를 통해 사용자에게 제공할 수 있다. 여기서 입력부(미도시)는 사용자로부터 의료정보요청을 수신하여 제어부(미도시)에 전달할 수 있다.

한편 분류모델(132)은 BERT(Bidirectional Encoder Representations from Transformers) 모델과, BERT 모델에 연결된 다중레이블분류층(multi-label classification layer)을 포함할 수 있다. 여기서 BERT 모델은 미리 공개된 의료데이터를 사전에 학습한 BioBERT 모델이 될 수 있다.

그리고 데이터수집부(110)는 의료뉴스데이터를 수집할 수 있고, 분류모델(132)은 BERT 모델 및 다중레이블분류층을 통해 의료뉴스데이터를 사전에 학습할 수 있다. 의료뉴스데이터를 학습한 분류모델(132)은 비로소 의료영상데이터에 기반한 텍스트데이터 및 의료장치데이터를 각각 학습할 수 있다.

여기서 의료뉴스데이터는 www.medisurf.com 또는 MedAlls에서 제공되는 데이터 일 수 있다. MedAlls는 의료과목별로 의료정보-학회(논문), 뉴스, 의료기기 등을 포함-를 제공할 수 있다. 의료뉴스데이터이외에, 의료논문데이터 또는 의료기기데이터가 사전 학습에 이용될 수 있다.

도 2는 일 실시예에 따른 분류모델의 구성도이고, 도 3은 일 실시예에 따른 분류모델의 특성을 설명하기 위한 도면이다.

도 2를 참조하면, 분류모델(132)은 BERT 모델(210) 및 다중레이블분류층(220)으로 구성될 수 있다.

BERT 모델(210)은 자연어처리(NLP; natural language processing)를 수행하고, 다중레이블분류층(220)은 분류(classification)를 수행할 수 있다.

BERT 모델(210)은 트랜스포머(transformer) 모델을 통해 위키피디아(25억 단어)와 BooksCorpus(8억 단어)에 포함된 레이블이 없는 텍스트로 사전 훈련된 언어 모델의 하나이다. BERT 모델(210)은 레이블이 없는 텍스트로 사전 훈련된 상태에서 레이블이 있는 다른 조건에서의 추가 훈련에 이용될 수 있다. 추가 훈련에는 신경망이 포함되어 이용될 수 있다. 일 실시예에 따른 장치(100)에서 다중레이블분류층(220)이 추가되는 신경망 중 하나일 수 있다.

BERT 모델(210)은 종래에 공개된 의료데이터를 학습한 모델일 수 있다. 여기서 종래에 공개된 의료데이터는 PubMed 또는 PMC에서 제공되는 데이터일 수 있다. PubMed는 검색엔진으로서 생명과학, 생물의학 및 건강심리학을 포함하는 보건 및 복지에 관한 참조 및 요약을 MEDLINE 데이터베이스로부터 제공할 수 있다. PMC(PubMed Central)는 미국의 공공보건·공공의료정보를 제공할 수 있다. 특히 PubMed 또는 PMC의 데이터를 사전에 학습한 BERT 모델(210)은 BioBERT 모델로 명명될 수 있다.

다중레이블분류층(220)은 인공신경망 구조를 가질 수 있다. 예를 들어 다중레이블분류층(220)은 순방향 신경망(FFNN; feedforward neural network) 또는 순환 신경망(RNN; recurrent neural network)일 수 있다. 따라서 다중레이블분류층(220)은 입력층(input layer) 및 출력층(output layer) 이외에 중간에 은닉층(hidden layer)을 포함하는 다층퍼셉트론(multi-layer perceptron) 구조를 가질 수 있다.

도 3을 참조하면, 분류모델(132)의 상세 구조 및 사전 학습의 흐름이 도시될 수 있다. 일 실시예에 따른 분류모델(132)이 생성되기 위해서, BERT 모델은 미리 공개된 의료데이터-예를 들어 PubMed 또는 PMC-를 학습할 수 있다(S301 단계 및 S303 단계). 미리 공개된 의료데이터를 학습한 BERT 모델은 BioBERT 모델로 명명될 수 있다. BioBERT 모델 역시 BERT 모델에 기반하므로 내부에 트랜스포머 모델(Trm)을 포함할 수 있다. BioBERT 모델에 다중레이블분류층이 연결될 수 있다(S305 단계). BioBERT 모델에 다중레이블분류층이 결합된 모델이 의료뉴스데이터를 학습할 수 있다. 분류모델(132)은 의료뉴스데이터를 학습한 후 BioBERT 모델일 수 있다.

도 4는 일 실시예에 따른 머신러닝을 이용한 의료정보 분류 장치의 동작을 설명하는 흐름도이다.

도 4를 참조하면, 일 실시예에 따른 장치는 분류모델을 학습시키고, 학습이 완료되면 입력된 의료정보를 분류하고 사용자의 의료정보요청에 따라 의료정보를 제공할 수 있다.

일 실시예에 따른 장치는 데이터수집부를 통해 의료영상데이터 및 의료장치데이터를 수집할 수 있다(S401 단계).

장치는 데이터변환부를 통해 의료영상데이터를 텍스트데이터로 변환할 수 있다(S403 단계).

장치는 학습부를 통해 텍스트데이터를 이용하여 분류모델을 학습시킬 수 있다(S405 단계).

장치는 학습부를 통해 의료장치데이터를 이용하여 상기 학습된 분류모델을 다시 학습시킬 수 있다(S407 단계).

장치는 분류모델의 학습이 완료되었는지를 판단할 수 있다(S409 단계). 학습이 완료되지 않으면, 텍스트데이터 및 의료장치데이터에 대한 학습을 다시 수행할 수 있다(S409 단계의 NO 및 S405 단계).

학습이 완료되면, 분류모델은 학습의 결과에 따라 입력된 의료정보를 의료과목으로 분류할 수 있다(S409 단계의 YES 및 S411 단계). 사용자로부터 의료정보요청이 입력되면, 분류모델은 의료정보요청에 따라 해당하는 의료과목 및 의료정보를 사용자에게 제공할 수 있다(S413 단계).

본 명세서에 설명된 대상의 양상들은 컴퓨터에 실행되는, 프로그램 모듈들과 같은 컴퓨터 실행가능 명령어들의 문맥에서 설명될 수 있다. 일반적으로, 프로그램 모듈들은 루틴들, 프로그램들, 오브젝트들, 컴포넌트들, 데이터 구조들 등을 포함하며, 이는 특정 태스크들 또는 특정 추상 데이터 타입들을 수행한다. 본 명세서에 설명된 대상의 양상들은 태스크들이 통신 네트워크를 통해 링크되는 원격 프로세싱 디바이스들에 의해 수행되는 분산형 컴퓨팅 환경들에서 또한 실행될 수 있다. 분산형 컴퓨팅 환경에서, 프로그램 모듈들은 메모리 저장 디바이스들을 포함하는 로컬 및 원격 컴퓨터 저장 매체들 모두에 위치될 수 있다.

대안적으로 또는 부가적으로, 본 명세서에 설명된 기능은 적어도 부분적으로, 하나 이상의 하드웨어 로직 컴포넌트들에 의해 수행될 수 있다. 제한이 아닌 예로서, 사용될 수 있는 예시적인 타입들의 하드웨어 로직 컴포넌트들은, 필드 프로그램가능 게이트 어레이들(FPGA, field-programmable gate array), 프로그램 특정 집적 회로들(ASIC, program-specific integrated circuit), 애플리케이션 특정 표준 제품들(ASSP, application-specific standard product), 시스템 온 칩 시스템들(SOC, system-on-a-chip system), 복합 프로그램가능 로직 디바이스들(CPLD, complex programmable logic device), 등을 포함한다.

한편, 개시된 실시예들은 컴퓨터에 의해 실행 가능한 프로그램 및/또는 명령어를 저장하는 기록매체의 형태로 구현될 수 있다. 명령어는 프로그램 코드의 형태로 저장될 수 있으며, 프로세서에 의해 실행되었을 때, 프로그램 모듈을 생성하여 개시된 실시예들의 동작을 수행할 수 있다. 기록매체는 컴퓨터로 읽을 수 있는 기록매체로 구현될 수 있다.

컴퓨터가 읽을 수 있는 기록매체로는 컴퓨터에 의하여 해독될 수 있는 명령어가 저장된 모든 종류의 기록 매체를 포함한다. 예를 들어, ROM(read only memory), RAM(random access memory), 자기 테이프, 자기 디스크, 플래쉬 메모리, 광 데이터 저장장치 등이 있을 수 있다.

본 발명의 보호범위가 이상에서 명시적으로 설명한 실시예의 기재와 표현에 제한되는 것은 아니다. 또한, 본 발명이 속하는 기술분야에서 자명한 변경이나 치환으로 말미암아 본 발명의 보호범위가 제한될 수도 없음을 다시 한 번 첨언한다.

Claims

의료영상데이터, 의료장치데이터 및 의료뉴스데이터를 수집하는 데이터수집부;
상기 의료영상데이터를 텍스트데이터로 변환하는 데이터변환부;
상기 텍스트데이터를 이용하여 분류모델을 학습시키고, 상기 의료장치데이터를 이용하여 상기 학습된 분류모델을 다시 학습시키는 학습부; 및
의료과목을 생성하고 상기 텍스트데이터 및 상기 의료장치데이터를 상기 의료과목으로 분류함으로써 학습을 수행하고, 학습이 완료되면 입력된 의료정보를 상기 의료과목으로 분류하는 분류모델을 포함하고,
상기 분류모델은, 미리 공개된 의료데이터를 통해 BERT(Bidirectional Encoder Representations from Transformers) 모델이 사전에 학습되어 형성된 BioBERT 모델과, 상기 BioBERT 모델에 연결된 다중레이블분류층(multi-label classification layer)을 포함하고,
상기 BioBERT 모델 및 상기 다중레이블분류층은, 상기 의료뉴스데이터를 통해 사전에 학습되며,
상기 학습부는, 상기 미리 공개된 의료데이터 및 상기 의료뉴스데이터에 대한 사전 학습을 완료한 상기 BioBERT 모델 및 상기 다중레이블분류층을 상기 텍스트데이터 및 상기 의료장치데이터 중 하나로 학습시키고, 상기 BioBERT 모델 및 상기 다중레이블분류층을 상기 텍스트데이터 및 상기 의료장치데이터 중 나머지로 다시 학습시키는 머신러닝을 이용한 의료정보 분류 장치.
삭제
삭제
제1항에 있어서,
상기 분류모델은, 상기 BERT 모델을 통해 상기 의료뉴스데이터에 대하여 자연어처리(NLP; natural language processing)를 수행하고, 상기 다중레이블분류층을 통해 상기 의료뉴스데이터를 상기 의료과목으로 분류하는 머신러닝을 이용한 의료정보 분류 장치.
삭제
제1항에 있어서,
상기 분류된 의료정보가 상기 의료과목에 따라 저장되는 저장부; 및
의료정보요청에 따라 상기 저장된 의료정보 중 일부를 제공하는 제어부를 포함하는 머신러닝을 이용한 의료정보 분류 장치.