WO2021101105A2

WO2021101105A2 - 의료 전문 자료의 과목 분류 시스템 및 방법

Info

Publication number: WO2021101105A2
Application number: PCT/KR2020/014759
Authority: WO
Inventors: 한상욱; 유우경
Original assignee: 주식회사 메드올스
Priority date: 2019-11-18
Filing date: 2020-10-28
Publication date: 2021-05-27
Also published as: KR20210059954A; KR102297113B1; WO2021101105A3

Abstract

본 발명은 의료 전문 자료의 과목 분류 시스템 및 방법에 관한 것으로, a) 텍스트를 포함하는 의료 정보 제공 서버에서 제공하는 의료 정보를 키워드 추출 서버에서 추출하는 단계와, b) 상기 의료 정보에서 키워드를 추출하고, 키워드 묶음을 생성하는 단계와, c) 인공지능 서버에서 키워드 묶음과 인덱스 데이터베이스의 매칭 테이블을 비교하여 유사도를 검출하는 단계와, d) 인공지능 서버에서 상기 유사도가 설정 유사도 이상인 과목을 선택하되, 유사도가 높은 순서에 따라 설정된 수만큼만 선택하는 단계와, e) 선택된 과목들을 상기 의료 정보에 태깅하고 인덱스 데이터베이스에 저장하는 단계를 포함한다.

Description

의료 전문 자료의 과목 분류 시스템 및 방법

본 발명은 의료 전문 자료의 과목 분류 시스템 및 방법에 관한 것으로, 더 상세하게는 인공지능을 이용하여 인터넷 상의 공개 자료를 수집하고, 의료 전문 과목 분류에 부여된 체계에 자동으로 분류하는 시스템 및 방법에 관한 것이다.

최근, 빅데이터를 활용하여 다양한 사용자 니즈(needs)에 부합하는 서비스를 제공할 수 있는 시스템 및 방법이 활발하게 개발되고 있다.

특히, 인터넷과 같은 컴퓨터 네트워크의 발달로 인해 다양한 표준 또는 비표준화된 문서를 개인이 쉽게 네트워크상에 게시할 수 있다. 이때의 표준화된 문서는 국제 표준 규약에 따르는 문서일 수 있으며, 반드시 표준 규약을 따르지 않더라도 특정한 형태를 가지는 논문일 수 있다.

비표준화된 문서는 구체적인 형식이 정해지지 않고 뉴스, 광고, 블로그의 형태로 특정한 정보를 제공하기 위한 문서일 수 있다.

이러한 공개된 문서들은 빅데이터의 구축은 물론 정보의 집중도를 포함하여, 기술 개발 방향, 시장의 동향등의 지표로 삼을 수도 있다. 따라서 공개된 문서의 특징을 분류하고, 수집하는 기술은 현재 데이터 처리 분야에서 매우 중요하다.

종래에는 공개된 의료, 의학 관련 문서들이 어떤 과목에 해당하는지 작업자가 직접 문서의 내용을 확인하여, 관련 분류 체계에 따라 분류하는 방식을 사용하였다.

그러나 이와 같은 종래 분류 방법은 작업 속도가 느려 방대한 의학관련 문서를 분류하는데 적당하지 않으며, 의료 분야에 전문적인 지식이 없는 작업자의 경우 정확한 분류를 수행하기 어렵다는 문제점이 있었다.

[선행기술문헌]

[특허문헌]

대한민국 공개특허 10-2019-0070430(빅데이터 분석 기반 질병 진단명 추정 방법 및 추정 장치, 2019년 6월 21일 공개)

본 발명이 해결하고자 하는 기술적 과제는, 공개된 문서에서 의학 관련 키워드 또는 구문을 추출하고, 학습을 통해 인덱스 데이터베이스에 자동으로 분류 저장할 수 있는 시스템 및 방법을 제공함에 있다.

좀 더 구체적으로, 본 발명이 해결하고자 하는 과제는 문서에서 추출된 키워드에 가중치를 더한 키워드 묶음을 생성하고, 분류된 인덱스 데이터베이스에 기저장된 데이터들과 비교하여 유사도를 측정하되, 처리 속도의 향상을 위해 정보를 특정 기준을 넘은 한정된 키워드만을 선택하여 태깅하는 기법을 사용하는 시스템 및 방법을 제공함에 있다.

상기와 같은 과제를 해결하기 위한 본 발명의 일측면에 따른 의료 전문 자료의 과목 분류 시스템은, 네트워크를 통해 다수의 의료 정보 제공 서버들이 제공하는 의료 정보에서 키워드를 추출하고, 추출된 키워드의 빈도와 가중치를 포함하는 키워드 묶음을 생성함과 아울러 유사도에 따라 의료 정보에 과목을 태깅하는 키워드 추출 서버와, 상기 키워드 추출 서버에서 진료 과목에 따라 기분류된 의학 전문 자료를 분류 저장함과 아울러 특정 키워드에 대한 매칭 테이블을 제공하는 인덱스 데이터베이스와, 상기 키워드 추출 서버의 키워드 묶음의 키워드에 대한 쿼리를 상기 인덱스 데이터베이스에 발송하여 상기 매칭 테이블을 생성하도록 하며, 상기 키워드 묶음과 매칭 테이블을 비교하여 유사도를 구하여 상기 키워드 추출 서버로 제공함으로써, 상기 키워드 추출 서버가 해당 의료 정보에 유사도가 높은 과목을 태깅하여 상기 인덱스 데이터베이스에 분류 저장하도록 하는 인공지능 서버를 포함한다.

본 발명의 실시예에서, 상기 키워드 묶음은 키워드, 빈도수, 가중치를 포함하고, 상기 매칭 테이블은 각 과목마다의 키워드와 가중치를 포함하며, 상기 인공지능 서버는 키워드 묶음과 매칭 테이블의 키워드와 가중치를 비교하여 유사도를 구하고 빈도수를 빈도 가중치로서 산출된 유사도에 가산하여 최종 유사도를 산출할 수 있다.

본 발명의 실시예에서, 상기 인공지능 서버는, 유사도가 높은 과목을 선정하되, 정확도와 처리속도 향상을 위하여 2개의 과목 이상, 상기과목 수의 25% 이내로 선정할 수 있다.

또한, 본 발명의 다른 측면에 따른 의료 전문 자료의 과목 분류 방법은, a) 텍스트를 포함하는 의료 정보 제공 서버에서 제공하는 의료 정보를 키워드 추출 서버에서 추출하는 단계와, b) 상기 의료 정보에서 키워드를 추출하고, 키워드 묶음을 생성하는 단계와, c) 인공지능 서버에서 키워드 묶음과 인덱스 데이터베이스의 매칭 테이블을 비교하여 유사도를 검출하는 단계와, d) 인공지능 서버에서 상기 유사도가 설정 유사도 이상인 과목을 선택하되, 유사도가 높은 순서에 따라 설정된 수만큼만 선택하는 단계와, e) 선택된 과목들을 상기 의료 정보에 태깅하고 인덱스 데이터베이스에 저장하는 단계를 포함한다.

본 발명의 실시예에서, 상기 b) 단계에서 키워드 묶음은 키워드, 빈도수, 가중치를 포함하고, 상기 c) 단계에서 매칭 테이블은 각 과목의 키워드와 가중치를 포함하며, 키워드 묶음과 매칭 테이블의 키워드와 가중치를 비교하여 유사도를 구할 수 있다.

본 발명의 실시예에서, 상기 c) 단계는 상기 빈도수를 빈도 가중치로서 산출된 유사도에 가산하여 최종 유사도를 산출할 수 있다.

본 발명의 실시예에서, 상기 d) 단계는, 유사도가 높은 과목을 선정하되, 정확도와 처리속도 향상을 위하여 2개의 과목 이상, 상기과목 수의 25% 이내로 선정할 수 있다.

본 발명은 공개된 문서에서 의학 관련 키워드 또는 구문을 추출하고, 학습을 통해 인덱스 데이터베이스에 자동으로 분류 저장할 수 있게 됨으로써, 의학 정보의 검색 정확도를 높일 수 있으며, 편의성을 향상시킬 수 있는 효과가 있다.

도 1은 본 발명의 바람직한 실시예에 따른 의료 전문 자료의 과목 분류 시스템의 구성도이다.

도 2는 본 발명의 바람직한 실시예에 따른 의료 전문 자료의 과목 분류 방법의 순서도이다.

도 3은 도 2에서 유사도를 구하는 단계의 상세 흐름도이다.

- 부호의 설명 -

10:키워드 추출 서버 20:인공지능 서버

30:인덱스 데이터베이스 40:네트워크

50:의료 정보 제공 서버

이하, 본 발명 의료 전문 자료의 과목 분류 시스템 및 방법에 대하여 첨부한 도면을 참조하여 상세히 설명한다.

본 발명의 실시 예들은 당해 기술 분야에서 통상의 지식을 가진 자에게 본 발명을 더욱 완전하게 설명하기 위해 제공되는 것이며, 아래에 설명되는 실시 예들은 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 아래의 실시 예들로 한정되는 것은 아니다. 오히려, 이들 실시 예는 본 발명을 더욱 충실하고 완전하게 하며 당업자에게 본 발명의 사상을 완전하게 전달하기 위하여 제공되는 것이다.

본 명세서에서 사용된 용어는 특정 실시 예를 설명하기 위하여 사용되며, 본 발명을 제한하기 위한 것이 아니다. 본 명세서에서 사용된 바와 같이 단수 형태는 문맥상 다른 경우를 분명히 지적하는 것이 아니라면, 복수의 형태를 포함할 수 있다. 또한, 본 명세서에서 사용되는 경우 "포함한다(comprise)" 및/또는"포함하는(comprising)"은 언급한 형상들, 숫자, 단계, 동작, 부재, 요소 및/또는 이들 그룹의 존재를 특정하는 것이며, 하나 이상의 다른 형상, 숫자, 동작, 부재, 요소 및/또는 그룹들의 존재 또는 부가를 배제하는 것이 아니다. 본 명세서에서 사용된 바와 같이, 용어 "및/또는"은 해당 열거된 항목 중 어느 하나 및 하나 이상의 모든 조합을 포함한다.　

본 명세서에서 제1, 제2 등의 용어가 다양한 부재, 영역 및/또는 부위들을 설명하기 위하여 사용되지만, 이들 부재, 부품, 영역, 층들 및/또는 부위들은 이들 용어에 의해 한정되지 않음은 자명하다. 이들 용어는 특정 순서나 상하, 또는 우열을 의미하지 않으며, 하나의 부재, 영역 또는 부위를 다른 부재, 영역 또는 부위와 구별하기 위하여만 사용된다. 따라서, 이하 상술할 제1 부재, 영역 또는 부위는 본 발명의 가르침으로부터 벗어나지 않고서도 제2 부재, 영역 또는 부위를 지칭할 수 있다.

이하, 본 발명의 실시 예들은 본 발명의 실시 예들을 개략적으로 도시하는 도면들을 참조하여 설명한다. 도면들에 있어서, 예를 들면, 제조 기술 및/또는 공차에 따라, 도시된 형상의 변형들이 예상될 수 있다. 따라서, 본 발명의 실시 예는 본 명세서에 도시된 영역의 특정 형상에 제한된 것으로 해석되어서는 아니 되며, 예를 들면 제조상 초래되는 형상의 변화를 포함하여야 한다.

또한, 본 발명은 네트워크 상에 공개된 문서의 키워드를 추출하고, 추출된 키워드를 중심으로 해당 문서를 설정된 의료 진료 과목에 따라 분류하는 것으로, 처리를 위한 프로세서, 저장을 위한 데이터베이스, 사용자의 확인을 위한 디스플레이, 사용자 입력을 위한 입력장치 등을 포함하는 장치에 의해 이루어지는 것이다.

본 발명에서는 "서버", "데이터베이스"의 용어를 사용하며, 이는 물리적으로 구체화된 연산장치와 저장장치를 뜻하며, 상기 서버는 통상의 컴퓨터를 포함한 다양한 연산처리가 가능한 장치를 이용할 수 있다. 데이터베이스는 서버의 분류체계에 따라 인덱스 가능한 영역에 키워드가 태깅된 문서를 저장하는 것이면 그 저장방식이나 형태에 무관하게 본 발명에 적용할 수 있다.

도 1은 본 발명의 바람직한 실시예에 따른 의료 전문 자료의 과목 분류 시스템 구성도이다.

도 1을 참조하면 본 발명은 네트워크(40)를 통해 다수의 의료 정보 제공 서버(50)들이 제공하는 의학 전문 자료에서 키워드를 추출하고, 추출된 키워드의 가중치를 산출하여 키워드와 가중치를 포함하는 키워드 묶음을 생성하는 키워드 추출 서버(10)와, 상기 키워드 추출 서버(10)에서 진료 과목에 따라 기분류된 의학 전문 자료를 분류 저장하는 인덱스 데이터베이스(30)와, 상기 키워드 추출 서버(10)의 키워드 묶음의 키워드에 대한 쿼리를 상기 인덱스 데이터베이스(30)에 발송하여, 그 결과로 매칭 테이블을 생성하고, 상기 키워드 묶음의 키워드를 매칭 테이블과 비교하여 유사도 점수를 구하여 해당 자료를 분류하는 인공지능 서버(20)로 이루어진다.

이하, 상기와 같이 구성되는 본 발명 의료 전문 자료의 과목 분류 시스템의 구성과 작용에 대하여 더 상세히 설명한다.

먼저, 의료 정보 제공 서버(50)들은 의학 전문 자료를 네트워크(40) 상에 공개하는 컴퓨팅 장치로서, 의학정보의 예로 의학 논문, 학회지, 의학전문 신문기사, 전문 블로거의 블로그 등일 수 있다.

즉, 의료 정보 제공 서버(50)들은 논문 정보 제공 서버, 학회 서버, 신문사 서버, 블로그 서비스를 제공하는 포털 서버 등이 될 수 있다.

의료 정보 제공 서버(50)는 적어도 텍스트 정보를 포함하는 것으로 하며, 텍스트의 구체적인 언어는 본 발명의 기술적 사상과는 무관한 것으로 별도로 한정하지 않는다.

키워드 추출 서버(10)는 의료 정보 제공 서버(50)에서 제공한 의학 전문 자료를 네트워크(40) 상에서 확인하고, 다운로드 할 수 있다.

이때 의학 전문 자료의 구분 및 다운로드는 크롤링(crawling) 기법을 사용할 수 있다. 크롤링은 웹상에 공유된 콘텐츠를 수집하는 기법으로 알려져있다.

크롤링은 HTML 페이지를 가져와 HTML/CSS 등을 파싱하고, 필요한 데이터를 추출하거나, Open API를 호출하여 필요한 데이터를 추출하거나, 브라우저를 프로그래밍 조작하여 필요한 데이터를 추출한다.

크롤링에 필요한 키워드는 미리 설정된 것으로 한다.

구체적으로 미국 국립의학도서관에서 계층 구조로 정리한 의학용어에서 각 과별 의학용어를 정리하여 크롤링에 필요한 키워드를 설정한다.

미국 국립의학도서관의 계층 구조의 일부를 소개하면 다음과 같다.

의학

- 중독 의학 [H02.403.007]

- 청소년 의학 [H02.403.014]

- 항공 우주 의학 [H02.403.029]

- 알레르기 및 면역학 [H02.403.044]

- 마취학 [H02.403.066]

- 비만학 [H02.403.074]

- 임상 의학 [H02.403.200]

- 지역 사회 의학 [H02.403.220]

- 피부과 [H02.403.225]

- 응급 의료 [H02.403.250] 등

위의 계층 구조에서 각 과별 용어를 수집하여, 키워드로 입력한다.

이와 같이 크롤링을 수행하기 전에 인덱스 데이터베이스(30)에는 이미 의학관련 문서들이 과목에 따라 분류 저장되어 있으며, 인공지능 서버(20)에서는 인덱스 데이터베이스(30)에 분류 저장된 문서를 학습하여 이후 크롤링된 결과를 분류할 수 있게 된다.

상기 인덱스 데이터베이스(30)에 저장되는 문서의 분류는 모든 의료 영역을 현재 보편적으로 사용하고 있는 분류에 따라 총93개의 과목으로 분류된 것으로 한다. 위의 분류는 21개 내과계 과목과 10개의 외과계 과목, 8개의 진료지원 과목, 13개의 특수 과목, 10개의 치과 과목, 26개의 기초과목, 10개의 기타분류(간호학, 심리학, 법의학, 영양학, 동물학)을 포함한다.

좀 더 구체적인 예를 들면, 일반내과(General Internal Medicine)는 내과적 증상, 질환 및 관련 복합 문제에 대한 진단 추론 및 치료적 접근을 하는 전문 분야로써 병원의 응급실, 응급 치료 유니트 등에서 내과적 진단 및 치료에 관여하고 다른 전문분야의 내과적 문제 발생시 자문을 하며 내과적 질환에 대해 외래 진료를 시행하며, 내과적 합병증을 예방, 치료하는데 관여하는 것을 뜻한다.

병원의학(Hospital Medicine)은 병원에서 급성기 환자를 치료하는 의사로서 병원에 입원한 환자들의 치료에만 전문적으로 관여하는 분야이며, 병원의학과 의사는 내과의 다양한 세부과목에 대한 충분한 지식으로 장기별 구분에 따른 세부 과목에 제한되지 않고 병원에서 모든 급성기 환자에 대해 진단, 치료, 교육, 및 연구 등에 관여한다.

중환자의학(Critical Care Medicine)은 중환자실에서 집중적인 치료를 필요로하는 환자를 전문적으로 보는 의사로서 중환자에 대한 전반적인 지식을 필요로하며 아울러 중환자에게 시행되어야 하는 시술에 대한 기술 습득을 필요로 함. 아울러 중환자들에게 생길 수 있는 여러 복잡한 삶의 연장 결정과 관련된 윤리, 사회적 문제에 대한 충분한 지식을 필요로 한다.

노인의학(Geriatric Medicine)은 노인의 건강 문제를 전문적으로 치료하는 의사로서 노인의 건강을 증진하고 노인 관련 질환과 장애에 대해 진단 및 치료적 지식을 습득을 필요로 하며, 노인의 노화를 연구하는 학문인 노인학과는 구분된다.

이처럼 알려진 과목들에 대하여 세부 과목을 분류한다.

구체적인 세부 과목의 예는 다음과 같다.

1. 순환기 내과(Cardiology)

- 일반 순환기 내과(General Cardiology)

- 성인 선천적 심장질환(Adult Congenital Heart Disease)

- 심장 크리티컬 케어(Cardiac Critical Care)

- 심장 전기 생리학(Cardiac Electrophysiology)

- 심장 흉부 영상(Cardiothoracic Imaging)

- 심혈관 질환 유전학(Cardiovascular Disease Genetics)

- 심 초음파(Echocardiography)

- 운동 생리학 및 심장 재활(Exercise Physiology and Cardiac Rehabilitation)

- 심부전 및 이식(Heart Failure & Transplantation)

- 중재 심장학(Interventional Cardiology)

- 비침습적 심장학(Non-Invasive Cardiology)

- 핵 심장학(Nuclear Cardiology)

- 말초 혈관 내 중재 심장학(Peripheral Endovascular Interventional Cardiology)

- 예방 심장학(Preventive Cardiology)

- 혈관 의학(Vascular Medicine)

2. 호흡기내과(Pulmonology)

- 일반 폐 의학(General Pulmonary Medicine)

- 천식 및 씨오피디(Asthma & COPD)

- 크리티컬 케어 의학(Critical Care Medicine)

- 낭포성 섬유 감염증(Cystic Fibrosis Infectious Disease)

- 간질성 폐질환(Interstitial Lung Diseases)

- 중재 폐학(Interventional Pulmonology)

- 폐 이식학(Lung Transplantation Medicine)

- 직업 및 환경 폐질환학(Occupational & Environmental Lung Disease)

- 흉막 질환(Pleural Disease)

- 폐 재활(Pulmonary Rehabilitation)

- 폐 혈관 의학(Pulmonary Vascular Medicine)

- 제한 폐 질환(Restrictive Lung Disease)

- 수면 의학(Sleep Medicine)

- 흉부 종양학(Thoracic Oncology)

3. 위장관학 및 간의학(Gastroenterology & Hepatology)

- 일반 위장학(General Gastroenterology)

- 고급 내시졍 중재학(Advanced Endoscopic Intervention)

- 항문 직장 기능 및 골반저 기능 부진학(Anorectal Function & Pelvic Floor Dysfunction)

- 비만의학(Bariatric Medicine)

- 담관 질환(Biliary Tract Disease)

- 식도 질환(Esophagus Disease)

- 위장 암(Gastrointestinal Cancer)

- 위장관 기능 및 운동 장애(Gastrointestinal Functional & Motility Disorders)

- 간 및 간이식(Hepatology & Liver Transplantation)

- 염증성 장 질환(Inflammatory Bowel Disease)

- 흡수 장애(Malabsorption)

- 영양학(Nutrition)

- 췌장 질환(Pancreas Disease)

이러한 분류는 의료 정보를 제공하는 기존의 서비스를 이용할 수 있다.

예를 들어 www.medisurf.com에서 제공하는 DB를 사용할 수 있다.

반드시 위의 DB를 사용할 필요는 없으며, 학습과정에 충분한 시간이 있다면 분류된 데이터가 없는 상태에서도 학습을 통해 문서들을 과목별로 분류 저장할 수 있다.

이처럼 인덱스 데이터베이스(30)에 학습을 위하여 기분류된 문서와 정의된 키워드를 분류하여 저장한 상태에서, 키워드 추출 서버(10)는 의료 정보 제공 서버(50)들이 네트워크(40) 상에 공개한 의료 정보에 대하여 설정된 키워드들을 이용하여 앞서 설명한 크롤링을 수행한다.

특정 의료 정보에 대하여 검색될 수 있는 키워드는 다수이며, 다수의 키워드 각각이 해당 정보에서 반복적으로 사용된 횟수를 검출할 수 있다. 즉, 의료 정보인 문서에서 키워드 A와 B가 각각 10회와 8회 검출될 수 있다.

이러한 검출 빈도는 해당 키워드가 선택된 의료 정보가 속하는 과목을 특정하는데 중요한 요소가 된다.

또한, 특정 키워드는 과목별로 가중치가 설정될 수 있다.

직접적으로 진료 과목을 지칭하는 키워드들은 가중치를 높게 설정하며, 통상의 의료 분야에서 사용하는 용어는 가중치를 낮게 설정할 수 있다.

구체적으로 가중치가 높은 키워드의 예로는, 앞서 설명한 일반 순환기 내과(General Cardiology), 성인 선천적 심장질환(Adult Congenital Heart Disease), 심장 크리티컬 케어(Cardiac Critical Care), 심장 전기 생리학(Cardiac Electrophysiology), 비만의학(Bariatric Medicine), 담관 질환(Biliary Tract Disease), 식도 질환(Esophagus Disease), 위장 암(Gastrointestinal Cancer) 등과 같이 구체적인 과목을 나타내는 키워드가 될 수 있다.

가중치가 낮은 키워드는 혈액, 암, 환자, 질병 등 포괄적인 것일 수 있다.

또한, 가중치는 과목마다 차이가 있는 것으로 비만의학에서 성인 선천적 심장질환은 가중치가 낮은 것으로 설정할 수 있다.

이는 비만의학과 성인 선천적 심장질환에서 비만의학과 성인 선천적 심장질환이라는 키워드 자체는 가중치가 높지만, 비만의학에서 성인 선천적 심장질환은 가중치가 상대적으로 낮아질 수 있음을 뜻한다.

상기 키워드 추출 서버(10)는 키워드, 빈도 및 가중치를 묶어 키워드 묶음을 생성한다. 이때 가중치는 10을 높음, 5를 중간, 1을 낮음으로 하여 설정할 수 있으며, 이는 다양한 변경이 가능하다.

키워드 묶음의 예는 (A, 10, 10), (B, 8, 5)일 수 있다.

즉, A 키워드의 빈도는 10이고, 가중치는 10으로 높음을 나타내는 키워드 묶음과 B 키워드에 대한 빈도는 8이고, 가중치는 보통을 나타내는 5인 것을 나타낼 수 있다.

그 다음, 상기 인공지능 서버(20)는 인덱스 데이터베이스(30)에 쿼리를 제공하고, 인덱스 데이터베이스(30)에서 분류된 과목에 따라 생성된 매칭테이블과 상기 키워드 묶음의 정보를 비교한다.

상기 매칭테이블은 과목별 키워드와 키워드의 가중치를 포함할 수 있다.

상기 인공지능 서버(20)는 키워드 묶음과 매칭테이블을 비교하되, 매칭테이블의 카테고리 수만큼 비교하는 프로세스를 반복한다.

이와 같은 과정을 통해 인공지능 서버(20)는 크롤링된 의료 정보의 과목을 결정하게 되며, 그 결정된 과목은 키워드 추출 서버(10)에 제공되고, 키워드 추출 서버(10)는 과목을 태깅하여 인덱스 데이터베이스(30)에 저장한다.

이처럼 본 발명은 의료 전문 정보에 대해 자동으로 과목을 분류할 수 있다.

본 발명은 의료 전문 정보의 분류 속도를 증가시키기 위한 특정한 분류 방법을 사용하며, 이와 같은 분류 방법의 구체적인 예를 아래에서 좀 더 상세히 설명한다.

도 2는 본 발명의 분류 방법 순서도이다.

도 2를 참조하면 본 발명 분류 방법은, 텍스트를 포함하는 의료 정보 제공 서버(50)에서 제공하는 의료 정보를 키워드 추출 서버(10)에서 크롤링하는 단계(S21)와, 상기 의료 정보에서 키워드를 추출하고, 키워드 묶음을 생성하는 단계(S22)와, 인공지능 서버(20)에서 키워드 묶음과 인덱스 데이터베이스(30)의 매칭테이블을 비교하여 유사도를 검출하는 단계(S23)와, 인공지능 서버(20)에서 상기 유사도가 설정 유사도 이상인 과목을 선택하되, 유사도가 높은 순서에 따라 설정된 수만큼만 선택하는 단계(S24)와, 선택된 과목들을 상기 의료 정보에 태깅하고 인덱스 데이터베이스(30)에 저장하는 단계(S25)를 포함한다.

이를 좀 더 구체적으로 설명하면, S21단계에서 키워드 추출 서버(10)는 네트워크(40)에 공개된 의료 정보를 수집한다.

상기 의료 정보는 적어도 텍스트를 포함하는 것으로, 의료 정보 제공 서버(50)에서 공개한 논문, 신문기사 또는 블로그일 수 있다.

의료 정보는 텍스트로 크롤링되는 것으로 하며, 정보의 출처를 포함하는 것으로 할 수 있다.

이처럼 수집된 의료 정보는 키워드 추출 서버(10)에 일단 저장된다.

그 다음, S22단계에서 상기 키워드 추출 서버(10)는 저장된 의료 정보에서 기설정된 키워드들을 검색한다.

이때 키워드 추출 서버(10)에는 의료 정보의 과목 분류를 위해서 설정된 키워드들을 저장하고 있으며, 그 키워드들 각각이 추출된 의료 정보에 몇 회나 사용되었는지와 앞서 설명한 가중치를 포함하여 키워드 묶음을 생성한다.

키워드 묶음의 예는 앞서 상세히 설명하였으므로, 그 설명을 생략한다.

그 다음, S23단계와 같이 인공지능 서버(20)에서 키워드 묶음과 인덱스 데이터베이스(30)의 매칭 테이블을 비교하여 유사도를 검출한다.

도 3은 S23단계를 구체적인 동작을 설명하기 위한 흐름도이다.

도 3을 참조하면 상기 인공지능 서버(20)는 인덱스 데이터베이스(30)에 쿼리를 발송한다(S31). 이때의 쿼리는 키워드와 해당 과목에서의 그 키워드의 가중치가 된다.

상기 쿼리를 수신한 인덱스 데이터베이스(30)는 진료 과목과 관련된 키워드를 추출하여 매칭 테이블을 생성한다(S32).

이때의 매칭 테이블은 각 과목별로 생성된다. 즉, 인덱스 데이터베이스(30)에 분류된 과목이 n개이면 매칭 테이블은 n개가 생성된다.

n개의 매칭 테이블마다 상기 쿼리에 해당하는 키워드와 그 키워드의 가중치에 대한 정보를 포함한다.

그 다음, 인공지능 서버(20)는 상기 키워드 묶음과 매칭 테이블을 비교하여 유사도를 산출한다(S33).

키워드 묶음은 키워드, 빈도수, 가중치가 포함되어 있으며 매칭 테이블에는 키워드와 가중치가 포함되어 있어 인공지능 서버(20)는 키워드와 가중치를 상호 비교하게 된다.

예를 들어 키워드 묶음과 매칭 테이블의 키워드의 일치 여부와 일치하는 경우 가중치의 일치여부를 확인하게 된다.

빈도수는 유사도를 결정한 후, 빈도수가 설정 값을 기준으로 높고 낮음을 판단하여 유사도에 빈도 가중치를 더 가산하여 빈도수가 더 많은 경우 유사도를 더 높게 설정하는 역할을 한다.

이처럼 키워드 묶음과 매칭 테이블 각각을 비교하여 유사도를 구한다.

그 다음, S24단계에서 인공지능 서버(20)는 유사도가 설정 유사도 이상인 과목을 선택한다.

설정 유사도가 80이라고 설정한 경우, 진료 과목인 n개 모두의 과목에서 모두 80 이상인 의료 정보가 있을 수 있다.

이는 의료 정보가 방대한 내용을 포함하는 것일 수도 있으나, 이러한 경우 분류의 의미가 없기 때문에 그 중에서도 좀 더 특정한 과목에 적당한 분류를 하기 위해 유사도 순위를 매겨 설정된 수의 과목을 정한다.

이때 설정된 수의 과목을 m개라하면, m은 n보다 작은 수가 된다.

다만, 분류의 정확도를 높이고, 분류의 처리 속도를 높이기 위해서 본 발명에서는 아래의 수학식1로 하나의 의료 정보가 분류될 수 있는 한계 과목 수를 설정할 수 있다.

[수학식 1]

2≤m≤(n/4)

수학식 1에서 m은 하나의 의료 정보가 속할 수 있는 과목의 수를 나타내며, n은 전체 과목의 수이다.

위의 수학식 1은 m은 2개 이상이며, n의 25% 이하임을 설정한 것으로 이해될 수 있다.

m이 1개일 때는 오히려 정확도가 저하될 수 있다. 즉, 본 발명은 하나의 의료 정보가 둘 이상의 과목으로 분류될 수 있도록 분류한다.

이와 같은 과정을 키워드 묶음별로 반복하여 키워드 묶음과 매칭 테이블의 유사도 산출을 머신 러닝 기법에 따라 훈련하여 결과값에 따라 가중치를 업데이트할 수 있다.

그 다음, S35단계와 같이 선택된 과목들을 상기 의료 정보에 태깅하고 인덱스 데이터베이스(30)에 저장한다.

이후의 서비스에서 의료 정보를 검색할 때 유사도 순서에 따라 의료 정보가 표시되도록 할 수 있다.

본 발명은 상기 실시예에 한정되지 않고 본 발명의 기술적 요지를 벗어나지 아니하는 범위 내에서 다양하게 수정, 변형되어 실시될 수 있음은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 있어서 자명한 것이다.

본 발명은 자연법칙을 이용하여 인터넷상의 의학정보들을 수집 및 분류 저장하여, 검색의 편의성을 도모하는 것으로 산업상 이용 가능성이 있다.

Claims

네트워크를 통해 다수의 의료 정보 제공 서버들이 제공하는 의료 정보에서 키워드를 추출하고, 추출된 키워드의 빈도와 가중치를 포함하는 키워드 묶음을 생성함과 아울러 유사도에 따라 의료 정보에 과목을 태깅하는 키워드 추출 서버;

상기 키워드 추출 서버에서 진료 과목에 따라 기분류된 의학 전문 자료를 분류 저장함과 아울러 특정 키워드에 대한 매칭 테이블을 제공하는 인덱스 데이터베이스; 및

상기 키워드 추출 서버의 키워드 묶음의 키워드에 대한 쿼리를 상기 인덱스 데이터베이스에 발송하여 상기 매칭 테이블을 생성하도록 하며, 상기 키워드 묶음과 매칭 테이블을 비교하여 유사도를 구하여 상기 키워드 추출 서버로 제공함으로써, 상기 키워드 추출 서버가 해당 의료 정보에 유사도가 높은 과목을 태깅하여 상기 인덱스 데이터베이스에 분류 저장하도록 하는 인공지능 서버를 포함하는 의료 전문 자료의 과목 분류 시스템.
제1항에 있어서,

상기 키워드 묶음은 키워드, 빈도수, 가중치를 포함하고,

상기 매칭 테이블은 각 과목마다의 키워드와 가중치를 포함하며,

상기 인공지능 서버는 키워드 묶음과 매칭 테이블의 키워드와 가중치를 비교하여 유사도를 구하고 빈도수를 빈도 가중치로서 산출된 유사도에 가산하여 최종 유사도를 산출하는 것을 특징으로 하는 의료 전문 자료의 과목 분류 시스템.
제1항 또는 제2항에 있어서,

상기 인공지능 서버는,

유사도가 높은 과목을 선정하되,

정확도와 처리속도 향상을 위하여 2개의 과목 이상, 상기과목 수의 25% 이내로 선정하는 것을 특징으로 하는 의료 전문 자료의 과목 분류 시스템.
a) 텍스트를 포함하는 의료 정보 제공 서버에서 제공하는 의료 정보를 키워드 추출 서버에서 추출하는 단계;

b) 상기 의료 정보에서 키워드를 추출하고, 키워드 묶음을 생성하는 단계;

c) 인공지능 서버에서 키워드 묶음과 인덱스 데이터베이스의 매칭 테이블을 비교하여 유사도를 검출하는 단계;

d) 인공지능 서버에서 상기 유사도가 설정 유사도 이상인 과목을 선택하되, 유사도가 높은 순서에 따라 설정된 수만큼만 선택하는 단계; 및

e) 선택된 과목들을 상기 의료 정보에 태깅하고 인덱스 데이터베이스에 저장하는 단계를 포함하는 의료 전문 자료의 과목 분류 방법.
제4항에 있어서,

상기 b) 단계에서 키워드 묶음은 키워드, 빈도수, 가중치를 포함하고,

상기 c) 단계에서 매칭 테이블은 각 과목의 키워드와 가중치를 포함하며,

키워드 묶음과 매칭 테이블의 키워드와 가중치를 비교하여 유사도를 구하는 것을 특징으로 하는 의료 전문 자료의 과목 분류 방법.
제5항에 있어서,

상기 c) 단계는,

상기 빈도수를 빈도 가중치로서 산출된 유사도에 가산하여 최종 유사도를 산출하는 것을 특징으로 하는 의료 전문 자료의 과목 분류 방법.
제6항에 있어서,

상기 d) 단계는,

유사도가 높은 과목을 선정하되,

정확도와 처리속도 향상을 위하여 2개의 과목 이상, 상기과목 수의 25% 이내로 선정하는 것을 특징으로 하는 의료 전문 자료의 과목 분류 방법.