WO2021101105A2 - 의료 전문 자료의 과목 분류 시스템 및 방법 - Google Patents

의료 전문 자료의 과목 분류 시스템 및 방법 Download PDF

Info

Publication number
WO2021101105A2
WO2021101105A2 PCT/KR2020/014759 KR2020014759W WO2021101105A2 WO 2021101105 A2 WO2021101105 A2 WO 2021101105A2 KR 2020014759 W KR2020014759 W KR 2020014759W WO 2021101105 A2 WO2021101105 A2 WO 2021101105A2
Authority
WO
WIPO (PCT)
Prior art keywords
keyword
subjects
similarity
medical
bundle
Prior art date
Application number
PCT/KR2020/014759
Other languages
English (en)
French (fr)
Other versions
WO2021101105A3 (ko
Inventor
한상욱
유우경
Original Assignee
주식회사 메드올스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 메드올스 filed Critical 주식회사 메드올스
Publication of WO2021101105A2 publication Critical patent/WO2021101105A2/ko
Publication of WO2021101105A3 publication Critical patent/WO2021101105A3/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Definitions

  • the present invention relates to a system and method for classifying medical specialty data, and more particularly, to a system and method for collecting public data on the Internet using artificial intelligence and automatically classifying it in a system assigned to classifying medical specialty subjects. About.
  • the standardized document at this time may be a document conforming to the international standard rules, and even if it does not necessarily follow the standard rules, it may be a manuscript having a specific form.
  • the non-standardized document may be a document for providing specific information in the form of news, advertisements, and blogs without a specific format.
  • the technical problem to be solved by the present invention is to provide a system and method capable of extracting medical-related keywords or phrases from a published document, and automatically classifying and storing them in an index database through learning.
  • the problem to be solved by the present invention is to generate a keyword bundle obtained by adding weight to the keywords extracted from the document, and measure the similarity by comparing with data previously stored in the classified index database, but to improve the processing speed. It is to provide a system and method using a technique of tagging by selecting only limited keywords exceeding a specific criterion for hazardous information.
  • the subject classification system of medical specialty data extracts keywords from medical information provided by a plurality of medical information providing servers through a network, and determines the frequency of the extracted keywords and A keyword extraction server that generates a keyword bundle including weights and tags subjects to medical information according to similarity, and the keyword extraction server categorizes and stores medical professional data according to treatment subjects,
  • An index database providing a matching table and a query for keywords of a keyword bundle of the keyword extraction server are sent to the index database to generate the matching table, and the similarity is calculated by comparing the keyword bundle and the matching table to obtain the keyword.
  • the keyword extraction server includes an artificial intelligence server for tagging subjects with high similarity to corresponding medical information and storing them in the index database.
  • the keyword bundle includes a keyword, a frequency, and a weight
  • the matching table includes a keyword and a weight for each subject
  • the artificial intelligence server stores the keyword bundle and the keyword and weight of the matching table.
  • the final similarity can be calculated by comparing and calculating the similarity and adding the frequency to the calculated similarity as a frequency weight.
  • the artificial intelligence server selects subjects with high similarity, but may select two or more subjects and within 25% of the number of subjects in order to improve accuracy and processing speed.
  • a method for classifying subjects of medical professional data includes: a) extracting medical information provided by a medical information providing server including text from a keyword extraction server, and b) a keyword from the medical information. Extracting and generating a keyword bundle; c) detecting a similarity by comparing the keyword bundle with the matching table of the index database in an artificial intelligence server; and d) selecting a subject whose similarity is greater than or equal to the set similarity in the artificial intelligence server. And selecting only as many as a set number according to an order of high similarity, and e) tagging the selected subjects in the medical information and storing them in an index database.
  • the keyword bundle in step b) includes a keyword, frequency, and weight
  • the matching table includes keywords and weights of each subject, and the keyword bundle and the keyword of the matching table Similarity can be obtained by comparing the weights.
  • step c) may calculate a final similarity by adding the frequency to the calculated similarity as a frequency weight.
  • a subject having a high degree of similarity may be selected, but two or more subjects may be selected within 25% of the number of subjects in order to improve accuracy and processing speed.
  • medical-related keywords or phrases can be extracted from a published document and automatically classified and stored in an index database through learning, thereby improving search accuracy of medical information and improving convenience.
  • FIG. 1 is a block diagram of a system for classifying a subject of medical professional data according to a preferred embodiment of the present invention.
  • FIG. 2 is a flowchart of a method for classifying subjects of medical professional data according to a preferred embodiment of the present invention.
  • FIG. 3 is a detailed flowchart of the step of obtaining the similarity in FIG. 2.
  • first and second are used to describe various members, regions, and/or parts, but it is obvious that these members, parts, regions, layers and/or parts are not limited by these terms. . These terms do not imply any particular order, top or bottom, or superiority, and are only used to distinguish one member, region, or region from another member, region, or region. Accordingly, the first member, region, or region to be described below may refer to the second member, region, or region without departing from the teachings of the present invention.
  • the present invention extracts keywords of documents published on the network, and classifies the documents according to the set medical treatment subjects, based on the extracted keywords, and provides a processor for processing, a database for storage, and a user's confirmation. It is made by a device including a display for user input, an input device for user input, and the like.
  • server and “database” are used, which means a physically embodied computing device and storage device, and the server may use a device capable of various operation processing including a general computer.
  • the database can be applied to the present invention irrespective of the storage method or type as long as it stores documents tagged with keywords in an indexable area according to the classification system of the server.
  • FIG. 1 is a block diagram of a system for classifying a subject of medical professional data according to a preferred embodiment of the present invention.
  • the present invention extracts keywords from medical specialty data provided by a plurality of medical information providing servers 50 through a network 40, calculates weights of the extracted keywords, and includes keywords and weights.
  • a keyword extraction server 10 for generating a bundle an index database 30 for classifying and storing medical professional data classified according to medical subjects in the keyword extraction server 10, and a keyword of the keyword extraction server 10
  • An artificial intelligence server that sends a query for a group of keywords to the index database 30, generates a matching table as a result, and compares the keywords of the keyword group with a matching table to obtain a similarity score and classifies the corresponding data ( 20).
  • the medical information providing servers 50 are computing devices that disclose medical specialized data on the network 40, and examples of medical information may be medical papers, journals, medical newspaper articles, blogs of specialized bloggers, and the like.
  • the medical information providing servers 50 may be a thesis information providing server, an academic conference server, a newspaper company server, a portal server providing a blog service, and the like.
  • the medical information providing server 50 is supposed to include at least text information, and the specific language of the text is not limited to that which is irrelevant to the technical idea of the present invention.
  • the keyword extraction server 10 may check and download medical professional data provided by the medical information providing server 50 on the network 40.
  • a crawling technique can be used to classify and download medical specialized data.
  • Crawling is known as a technique for collecting content shared on the web.
  • Crawling takes an HTML page, parses HTML/CSS, etc., extracts necessary data, calls Open API to extract necessary data, or programmatically manipulates a browser to extract necessary data.
  • Keywords required for crawling are set in advance.
  • the artificial intelligence server 20 learns the documents classified and stored in the index database 30, and then retrieves the crawled results. It becomes possible to classify.
  • the classification of documents stored in the index database 30 assumes that all medical fields are classified into a total of 93 subjects according to the currently commonly used classification.
  • the above categories are 21 internal medicine subjects, 10 surgical subjects, 8 medical support subjects, 13 special subjects, 10 dental subjects, 26 basic subjects, 10 other categories (nursing, psychology, forensic medicine, nutrition, zoology). ).
  • General Internal Medicine is a specialized field that provides diagnostic reasoning and therapeutic approaches to medical symptoms, diseases and related complex problems. It refers to being involved in the prevention and treatment of medical complications, providing advice on medical problems in other specialized fields, performing outpatient treatment for medical diseases, and preventing and treating medical complications.
  • Hospital Medicine is a field specializing in the treatment of patients admitted to the hospital as a doctor who treats acute patients in hospitals, and hospital medicine doctors have sufficient knowledge of various sub-subjects of internal medicine. It is not limited to specific subjects and is involved in diagnosis, treatment, education, and research for all acute patients in hospitals.
  • Critical Care Medicine is a doctor who specializes in seeing patients who need intensive treatment in the intensive care unit, and requires overall knowledge of critically ill patients, and also requires acquiring skills for procedures that must be performed in critically ill patients. In addition, it requires sufficient knowledge of the ethical and social issues related to the many complex life extension decisions that can occur to critically ill patients.
  • Geriatric Medicine is a doctor who specializes in treating health problems of the elderly, and it is a study to improve the health of the elderly, to acquire diagnostic and therapeutic knowledge about diseases and disorders related to the elderly, and to study aging in the elderly.
  • the geriatric department is distinct.
  • This classification can use existing services that provide medical information.
  • the keyword extraction server 10 provides medical information published on the network 40 by the medical information providing servers 50.
  • the above-described crawl is performed using keywords set for information.
  • keywords A and B may be detected 10 times and 8 times, respectively, in a document that is medical information.
  • This detection frequency becomes an important factor in specifying the subject to which the medical information for which the corresponding keyword is selected belongs.
  • Keywords that directly refer to treatment subjects may have a high weight, and terms used in a general medical field may have a low weight.
  • high-weighted keywords include General Cardiology, Adult Congenital Heart Disease, Cardiac Critical Care, Cardiac Electrophysiology, and Obesity, as described above.
  • Bostric Medicine bile duct disease (Biliary Tract Disease), esophagus disease (Esophagus Disease), gastrointestinal cancer (Gastrointestinal Cancer) can be a keyword indicating a specific subject.
  • Keywords with low weight may be comprehensive, such as blood, cancer, patients, and diseases.
  • the weight is different for each subject, and in obesity, adult congenital heart disease can be set to have a low weight.
  • the keyword extraction server 10 generates a keyword bundle by binding keywords, frequencies, and weights.
  • the weight can be set by setting 10 as high, 5 as medium, and 1 as low, which can be changed in various ways.
  • keyword bundles may be (A, 10, 10), (B, 8, 5).
  • the frequency of the keyword A is 10
  • the weight of the keyword group is 10
  • the frequency of the keyword B is 8, and the weight is 5, which indicates normal.
  • the artificial intelligence server 20 provides a query to the index database 30 and compares the information of the keyword bundle with the matching table generated according to the subjects classified in the index database 30.
  • the matching table may include keywords for each subject and weights of keywords.
  • the artificial intelligence server 20 compares the keyword bundle and the matching table, but repeats the process of comparing the number of categories of the matching table.
  • the artificial intelligence server 20 determines a subject of the crawled medical information, and the determined subject is provided to the keyword extraction server 10, and the keyword extraction server 10 tags the subject to an index database. Save to 30.
  • the present invention can automatically classify subjects for medical professional information.
  • the present invention uses a specific classification method to increase the classification speed of medical professional information, and a specific example of such classification method will be described in more detail below.
  • FIG. 2 is a flow chart of a classification method according to the present invention.
  • the classification method of the present invention includes the step of crawling the medical information provided by the medical information providing server 50 including text in the keyword extraction server 10 (S21), and extracting the keyword from the medical information. And, the step of generating the keyword bundle (S22), the step of comparing the keyword bundle and the matching table of the index database 30 in the artificial intelligence server 20 to detect the similarity (S23), and the artificial intelligence server 20 In the step of selecting subjects with a degree of similarity greater than or equal to the set similarity, selecting only as many as a set number according to the order of higher similarity (S24), and tagging the selected subjects with the medical information and storing them in the index database 30 (S25) Includes.
  • step S21 the keyword extraction server 10 collects medical information published on the network 40.
  • the medical information includes at least text, and may be a paper, a newspaper article, or a blog published by the medical information providing server 50.
  • Medical information is to be crawled as text, and may include the source of the information.
  • the medical information collected in this way is once stored in the keyword extraction server 10.
  • step S22 the keyword extraction server 10 searches for preset keywords from the stored medical information.
  • the keyword extraction server 10 stores keywords set for classifying subjects of medical information, and generates a keyword bundle including how many times each of the keywords has been used for the extracted medical information and the weights described above.
  • the artificial intelligence server 20 compares the keyword bundle and the matching table of the index database 30 to detect the degree of similarity.
  • step S23 is a flowchart for explaining a specific operation of step S23.
  • the artificial intelligence server 20 sends a query to the index database 30 (S31).
  • the query at this time becomes the keyword and the weight of the keyword in the subject.
  • the index database 30 receiving the query generates a matching table by extracting keywords related to medical treatment subjects (S32).
  • the matching table at this time is created for each subject. That is, if there are n subjects classified in the index database 30, n matching tables are generated.
  • Each n matching tables includes information on a keyword corresponding to the query and a weight of the keyword.
  • the artificial intelligence server 20 calculates the similarity by comparing the keyword bundle and the matching table (S33).
  • the keyword bundle includes keywords, frequencies, and weights
  • the matching table includes keywords and weights, so that the artificial intelligence server 20 compares the keywords and weights with each other.
  • the frequency is determined to be high and low based on a set value, and a frequency weight is further added to the similarity, thereby setting the similarity higher when the frequency is higher.
  • the similarity is obtained by comparing the keyword bundle and the matching table.
  • step S24 the artificial intelligence server 20 selects a subject whose similarity is equal to or greater than the set similarity.
  • the set similarity is set to 80, there may be medical information that is 80 or more in all n subjects that are treatment subjects.
  • n is a number less than n.
  • a limit number of subjects in which one medical information can be classified may be set by Equation 1 below.
  • Equation 1 m denotes the number of subjects to which one medical information belongs, and n denotes the total number of subjects.
  • Equation 1 above may be understood as setting that m is 2 or more and is 25% or less of n.
  • the present invention classifies one medical information so that it can be classified into two or more subjects.
  • the calculation of the similarity between the keyword bundle and the matching table is trained according to a machine learning technique, and the weights can be updated according to the result value.
  • step S35 the selected subjects are tagged to the medical information and stored in the index database 30.
  • medical information can be displayed in the order of similarity.
  • the present invention collects, classifies, and stores medical information on the Internet by using natural laws, and has the potential for industrial use by facilitating search convenience.

Landscapes

  • Engineering & Computer Science (AREA)
  • Public Health (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 의료 전문 자료의 과목 분류 시스템 및 방법에 관한 것으로, a) 텍스트를 포함하는 의료 정보 제공 서버에서 제공하는 의료 정보를 키워드 추출 서버에서 추출하는 단계와, b) 상기 의료 정보에서 키워드를 추출하고, 키워드 묶음을 생성하는 단계와, c) 인공지능 서버에서 키워드 묶음과 인덱스 데이터베이스의 매칭 테이블을 비교하여 유사도를 검출하는 단계와, d) 인공지능 서버에서 상기 유사도가 설정 유사도 이상인 과목을 선택하되, 유사도가 높은 순서에 따라 설정된 수만큼만 선택하는 단계와, e) 선택된 과목들을 상기 의료 정보에 태깅하고 인덱스 데이터베이스에 저장하는 단계를 포함한다.

Description

의료 전문 자료의 과목 분류 시스템 및 방법
본 발명은 의료 전문 자료의 과목 분류 시스템 및 방법에 관한 것으로, 더 상세하게는 인공지능을 이용하여 인터넷 상의 공개 자료를 수집하고, 의료 전문 과목 분류에 부여된 체계에 자동으로 분류하는 시스템 및 방법에 관한 것이다.
최근, 빅데이터를 활용하여 다양한 사용자 니즈(needs)에 부합하는 서비스를 제공할 수 있는 시스템 및 방법이 활발하게 개발되고 있다.
특히, 인터넷과 같은 컴퓨터 네트워크의 발달로 인해 다양한 표준 또는 비표준화된 문서를 개인이 쉽게 네트워크상에 게시할 수 있다. 이때의 표준화된 문서는 국제 표준 규약에 따르는 문서일 수 있으며, 반드시 표준 규약을 따르지 않더라도 특정한 형태를 가지는 논문일 수 있다.
비표준화된 문서는 구체적인 형식이 정해지지 않고 뉴스, 광고, 블로그의 형태로 특정한 정보를 제공하기 위한 문서일 수 있다.
이러한 공개된 문서들은 빅데이터의 구축은 물론 정보의 집중도를 포함하여, 기술 개발 방향, 시장의 동향등의 지표로 삼을 수도 있다. 따라서 공개된 문서의 특징을 분류하고, 수집하는 기술은 현재 데이터 처리 분야에서 매우 중요하다.
종래에는 공개된 의료, 의학 관련 문서들이 어떤 과목에 해당하는지 작업자가 직접 문서의 내용을 확인하여, 관련 분류 체계에 따라 분류하는 방식을 사용하였다.
그러나 이와 같은 종래 분류 방법은 작업 속도가 느려 방대한 의학관련 문서를 분류하는데 적당하지 않으며, 의료 분야에 전문적인 지식이 없는 작업자의 경우 정확한 분류를 수행하기 어렵다는 문제점이 있었다.
[선행기술문헌]
[특허문헌]
대한민국 공개특허 10-2019-0070430(빅데이터 분석 기반 질병 진단명 추정 방법 및 추정 장치, 2019년 6월 21일 공개)
본 발명이 해결하고자 하는 기술적 과제는, 공개된 문서에서 의학 관련 키워드 또는 구문을 추출하고, 학습을 통해 인덱스 데이터베이스에 자동으로 분류 저장할 수 있는 시스템 및 방법을 제공함에 있다.
좀 더 구체적으로, 본 발명이 해결하고자 하는 과제는 문서에서 추출된 키워드에 가중치를 더한 키워드 묶음을 생성하고, 분류된 인덱스 데이터베이스에 기저장된 데이터들과 비교하여 유사도를 측정하되, 처리 속도의 향상을 위해 정보를 특정 기준을 넘은 한정된 키워드만을 선택하여 태깅하는 기법을 사용하는 시스템 및 방법을 제공함에 있다.
상기와 같은 과제를 해결하기 위한 본 발명의 일측면에 따른 의료 전문 자료의 과목 분류 시스템은, 네트워크를 통해 다수의 의료 정보 제공 서버들이 제공하는 의료 정보에서 키워드를 추출하고, 추출된 키워드의 빈도와 가중치를 포함하는 키워드 묶음을 생성함과 아울러 유사도에 따라 의료 정보에 과목을 태깅하는 키워드 추출 서버와, 상기 키워드 추출 서버에서 진료 과목에 따라 기분류된 의학 전문 자료를 분류 저장함과 아울러 특정 키워드에 대한 매칭 테이블을 제공하는 인덱스 데이터베이스와, 상기 키워드 추출 서버의 키워드 묶음의 키워드에 대한 쿼리를 상기 인덱스 데이터베이스에 발송하여 상기 매칭 테이블을 생성하도록 하며, 상기 키워드 묶음과 매칭 테이블을 비교하여 유사도를 구하여 상기 키워드 추출 서버로 제공함으로써, 상기 키워드 추출 서버가 해당 의료 정보에 유사도가 높은 과목을 태깅하여 상기 인덱스 데이터베이스에 분류 저장하도록 하는 인공지능 서버를 포함한다.
본 발명의 실시예에서, 상기 키워드 묶음은 키워드, 빈도수, 가중치를 포함하고, 상기 매칭 테이블은 각 과목마다의 키워드와 가중치를 포함하며, 상기 인공지능 서버는 키워드 묶음과 매칭 테이블의 키워드와 가중치를 비교하여 유사도를 구하고 빈도수를 빈도 가중치로서 산출된 유사도에 가산하여 최종 유사도를 산출할 수 있다.
본 발명의 실시예에서, 상기 인공지능 서버는, 유사도가 높은 과목을 선정하되, 정확도와 처리속도 향상을 위하여 2개의 과목 이상, 상기과목 수의 25% 이내로 선정할 수 있다.
또한, 본 발명의 다른 측면에 따른 의료 전문 자료의 과목 분류 방법은, a) 텍스트를 포함하는 의료 정보 제공 서버에서 제공하는 의료 정보를 키워드 추출 서버에서 추출하는 단계와, b) 상기 의료 정보에서 키워드를 추출하고, 키워드 묶음을 생성하는 단계와, c) 인공지능 서버에서 키워드 묶음과 인덱스 데이터베이스의 매칭 테이블을 비교하여 유사도를 검출하는 단계와, d) 인공지능 서버에서 상기 유사도가 설정 유사도 이상인 과목을 선택하되, 유사도가 높은 순서에 따라 설정된 수만큼만 선택하는 단계와, e) 선택된 과목들을 상기 의료 정보에 태깅하고 인덱스 데이터베이스에 저장하는 단계를 포함한다.
본 발명의 실시예에서, 상기 b) 단계에서 키워드 묶음은 키워드, 빈도수, 가중치를 포함하고, 상기 c) 단계에서 매칭 테이블은 각 과목의 키워드와 가중치를 포함하며, 키워드 묶음과 매칭 테이블의 키워드와 가중치를 비교하여 유사도를 구할 수 있다.
본 발명의 실시예에서, 상기 c) 단계는 상기 빈도수를 빈도 가중치로서 산출된 유사도에 가산하여 최종 유사도를 산출할 수 있다.
본 발명의 실시예에서, 상기 d) 단계는, 유사도가 높은 과목을 선정하되, 정확도와 처리속도 향상을 위하여 2개의 과목 이상, 상기과목 수의 25% 이내로 선정할 수 있다.
본 발명은 공개된 문서에서 의학 관련 키워드 또는 구문을 추출하고, 학습을 통해 인덱스 데이터베이스에 자동으로 분류 저장할 수 있게 됨으로써, 의학 정보의 검색 정확도를 높일 수 있으며, 편의성을 향상시킬 수 있는 효과가 있다.
도 1은 본 발명의 바람직한 실시예에 따른 의료 전문 자료의 과목 분류 시스템의 구성도이다.
도 2는 본 발명의 바람직한 실시예에 따른 의료 전문 자료의 과목 분류 방법의 순서도이다.
도 3은 도 2에서 유사도를 구하는 단계의 상세 흐름도이다.
- 부호의 설명 -
10:키워드 추출 서버 20:인공지능 서버
30:인덱스 데이터베이스 40:네트워크
50:의료 정보 제공 서버
이하, 본 발명 의료 전문 자료의 과목 분류 시스템 및 방법에 대하여 첨부한 도면을 참조하여 상세히 설명한다.
본 발명의 실시 예들은 당해 기술 분야에서 통상의 지식을 가진 자에게 본 발명을 더욱 완전하게 설명하기 위해 제공되는 것이며, 아래에 설명되는 실시 예들은 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 아래의 실시 예들로 한정되는 것은 아니다. 오히려, 이들 실시 예는 본 발명을 더욱 충실하고 완전하게 하며 당업자에게 본 발명의 사상을 완전하게 전달하기 위하여 제공되는 것이다.
본 명세서에서 사용된 용어는 특정 실시 예를 설명하기 위하여 사용되며, 본 발명을 제한하기 위한 것이 아니다. 본 명세서에서 사용된 바와 같이 단수 형태는 문맥상 다른 경우를 분명히 지적하는 것이 아니라면, 복수의 형태를 포함할 수 있다. 또한, 본 명세서에서 사용되는 경우 "포함한다(comprise)" 및/또는"포함하는(comprising)"은 언급한 형상들, 숫자, 단계, 동작, 부재, 요소 및/또는 이들 그룹의 존재를 특정하는 것이며, 하나 이상의 다른 형상, 숫자, 동작, 부재, 요소 및/또는 그룹들의 존재 또는 부가를 배제하는 것이 아니다. 본 명세서에서 사용된 바와 같이, 용어 "및/또는"은 해당 열거된 항목 중 어느 하나 및 하나 이상의 모든 조합을 포함한다. 
본 명세서에서 제1, 제2 등의 용어가 다양한 부재, 영역 및/또는 부위들을 설명하기 위하여 사용되지만, 이들 부재, 부품, 영역, 층들 및/또는 부위들은 이들 용어에 의해 한정되지 않음은 자명하다. 이들 용어는 특정 순서나 상하, 또는 우열을 의미하지 않으며, 하나의 부재, 영역 또는 부위를 다른 부재, 영역 또는 부위와 구별하기 위하여만 사용된다. 따라서, 이하 상술할 제1 부재, 영역 또는 부위는 본 발명의 가르침으로부터 벗어나지 않고서도 제2 부재, 영역 또는 부위를 지칭할 수 있다.
이하, 본 발명의 실시 예들은 본 발명의 실시 예들을 개략적으로 도시하는 도면들을 참조하여 설명한다. 도면들에 있어서, 예를 들면, 제조 기술 및/또는 공차에 따라, 도시된 형상의 변형들이 예상될 수 있다. 따라서, 본 발명의 실시 예는 본 명세서에 도시된 영역의 특정 형상에 제한된 것으로 해석되어서는 아니 되며, 예를 들면 제조상 초래되는 형상의 변화를 포함하여야 한다.
또한, 본 발명은 네트워크 상에 공개된 문서의 키워드를 추출하고, 추출된 키워드를 중심으로 해당 문서를 설정된 의료 진료 과목에 따라 분류하는 것으로, 처리를 위한 프로세서, 저장을 위한 데이터베이스, 사용자의 확인을 위한 디스플레이, 사용자 입력을 위한 입력장치 등을 포함하는 장치에 의해 이루어지는 것이다.
본 발명에서는 "서버", "데이터베이스"의 용어를 사용하며, 이는 물리적으로 구체화된 연산장치와 저장장치를 뜻하며, 상기 서버는 통상의 컴퓨터를 포함한 다양한 연산처리가 가능한 장치를 이용할 수 있다. 데이터베이스는 서버의 분류체계에 따라 인덱스 가능한 영역에 키워드가 태깅된 문서를 저장하는 것이면 그 저장방식이나 형태에 무관하게 본 발명에 적용할 수 있다.
도 1은 본 발명의 바람직한 실시예에 따른 의료 전문 자료의 과목 분류 시스템 구성도이다.
도 1을 참조하면 본 발명은 네트워크(40)를 통해 다수의 의료 정보 제공 서버(50)들이 제공하는 의학 전문 자료에서 키워드를 추출하고, 추출된 키워드의 가중치를 산출하여 키워드와 가중치를 포함하는 키워드 묶음을 생성하는 키워드 추출 서버(10)와, 상기 키워드 추출 서버(10)에서 진료 과목에 따라 기분류된 의학 전문 자료를 분류 저장하는 인덱스 데이터베이스(30)와, 상기 키워드 추출 서버(10)의 키워드 묶음의 키워드에 대한 쿼리를 상기 인덱스 데이터베이스(30)에 발송하여, 그 결과로 매칭 테이블을 생성하고, 상기 키워드 묶음의 키워드를 매칭 테이블과 비교하여 유사도 점수를 구하여 해당 자료를 분류하는 인공지능 서버(20)로 이루어진다.
이하, 상기와 같이 구성되는 본 발명 의료 전문 자료의 과목 분류 시스템의 구성과 작용에 대하여 더 상세히 설명한다.
먼저, 의료 정보 제공 서버(50)들은 의학 전문 자료를 네트워크(40) 상에 공개하는 컴퓨팅 장치로서, 의학정보의 예로 의학 논문, 학회지, 의학전문 신문기사, 전문 블로거의 블로그 등일 수 있다.
즉, 의료 정보 제공 서버(50)들은 논문 정보 제공 서버, 학회 서버, 신문사 서버, 블로그 서비스를 제공하는 포털 서버 등이 될 수 있다.
의료 정보 제공 서버(50)는 적어도 텍스트 정보를 포함하는 것으로 하며, 텍스트의 구체적인 언어는 본 발명의 기술적 사상과는 무관한 것으로 별도로 한정하지 않는다.
키워드 추출 서버(10)는 의료 정보 제공 서버(50)에서 제공한 의학 전문 자료를 네트워크(40) 상에서 확인하고, 다운로드 할 수 있다.
이때 의학 전문 자료의 구분 및 다운로드는 크롤링(crawling) 기법을 사용할 수 있다. 크롤링은 웹상에 공유된 콘텐츠를 수집하는 기법으로 알려져있다.
크롤링은 HTML 페이지를 가져와 HTML/CSS 등을 파싱하고, 필요한 데이터를 추출하거나, Open API를 호출하여 필요한 데이터를 추출하거나, 브라우저를 프로그래밍 조작하여 필요한 데이터를 추출한다.
크롤링에 필요한 키워드는 미리 설정된 것으로 한다.
구체적으로 미국 국립의학도서관에서 계층 구조로 정리한 의학용어에서 각 과별 의학용어를 정리하여 크롤링에 필요한 키워드를 설정한다.
미국 국립의학도서관의 계층 구조의 일부를 소개하면 다음과 같다.
의학
- 중독 의학 [H02.403.007]
- 청소년 의학 [H02.403.014]
- 항공 우주 의학 [H02.403.029]
- 알레르기 및 면역학 [H02.403.044]
- 마취학 [H02.403.066]
- 비만학 [H02.403.074]
- 임상 의학 [H02.403.200]
- 지역 사회 의학 [H02.403.220]
- 피부과 [H02.403.225]
- 응급 의료 [H02.403.250] 등
위의 계층 구조에서 각 과별 용어를 수집하여, 키워드로 입력한다.
이와 같이 크롤링을 수행하기 전에 인덱스 데이터베이스(30)에는 이미 의학관련 문서들이 과목에 따라 분류 저장되어 있으며, 인공지능 서버(20)에서는 인덱스 데이터베이스(30)에 분류 저장된 문서를 학습하여 이후 크롤링된 결과를 분류할 수 있게 된다.
상기 인덱스 데이터베이스(30)에 저장되는 문서의 분류는 모든 의료 영역을 현재 보편적으로 사용하고 있는 분류에 따라 총93개의 과목으로 분류된 것으로 한다. 위의 분류는 21개 내과계 과목과 10개의 외과계 과목, 8개의 진료지원 과목, 13개의 특수 과목, 10개의 치과 과목, 26개의 기초과목, 10개의 기타분류(간호학, 심리학, 법의학, 영양학, 동물학)을 포함한다.
좀 더 구체적인 예를 들면, 일반내과(General Internal Medicine)는 내과적 증상, 질환 및 관련 복합 문제에 대한 진단 추론 및 치료적 접근을 하는 전문 분야로써 병원의 응급실, 응급 치료 유니트 등에서 내과적 진단 및 치료에 관여하고 다른 전문분야의 내과적 문제 발생시 자문을 하며 내과적 질환에 대해 외래 진료를 시행하며, 내과적 합병증을 예방, 치료하는데 관여하는 것을 뜻한다.
병원의학(Hospital Medicine)은 병원에서 급성기 환자를 치료하는 의사로서 병원에 입원한 환자들의 치료에만 전문적으로 관여하는 분야이며, 병원의학과 의사는 내과의 다양한 세부과목에 대한 충분한 지식으로 장기별 구분에 따른 세부 과목에 제한되지 않고 병원에서 모든 급성기 환자에 대해 진단, 치료, 교육, 및 연구 등에 관여한다.
중환자의학(Critical Care Medicine)은 중환자실에서 집중적인 치료를 필요로하는 환자를 전문적으로 보는 의사로서 중환자에 대한 전반적인 지식을 필요로하며 아울러 중환자에게 시행되어야 하는 시술에 대한 기술 습득을 필요로 함. 아울러 중환자들에게 생길 수 있는 여러 복잡한 삶의 연장 결정과 관련된 윤리, 사회적 문제에 대한 충분한 지식을 필요로 한다.
노인의학(Geriatric Medicine)은 노인의 건강 문제를 전문적으로 치료하는 의사로서 노인의 건강을 증진하고 노인 관련 질환과 장애에 대해 진단 및 치료적 지식을 습득을 필요로 하며, 노인의 노화를 연구하는 학문인 노인학과는 구분된다.
이처럼 알려진 과목들에 대하여 세부 과목을 분류한다.
구체적인 세부 과목의 예는 다음과 같다.
1. 순환기 내과(Cardiology)
- 일반 순환기 내과(General Cardiology)
- 성인 선천적 심장질환(Adult Congenital Heart Disease)
- 심장 크리티컬 케어(Cardiac Critical Care)
- 심장 전기 생리학(Cardiac Electrophysiology)
- 심장 흉부 영상(Cardiothoracic Imaging)
- 심혈관 질환 유전학(Cardiovascular Disease Genetics)
- 심 초음파(Echocardiography)
- 운동 생리학 및 심장 재활(Exercise Physiology and Cardiac Rehabilitation)
- 심부전 및 이식(Heart Failure & Transplantation)
- 중재 심장학(Interventional Cardiology)
- 비침습적 심장학(Non-Invasive Cardiology)
- 핵 심장학(Nuclear Cardiology)
- 말초 혈관 내 중재 심장학(Peripheral Endovascular Interventional Cardiology)
- 예방 심장학(Preventive Cardiology)
- 혈관 의학(Vascular Medicine)
2. 호흡기내과(Pulmonology)
- 일반 폐 의학(General Pulmonary Medicine)
- 천식 및 씨오피디(Asthma & COPD)
- 크리티컬 케어 의학(Critical Care Medicine)
- 낭포성 섬유 감염증(Cystic Fibrosis Infectious Disease)
- 간질성 폐질환(Interstitial Lung Diseases)
- 중재 폐학(Interventional Pulmonology)
- 폐 이식학(Lung Transplantation Medicine)
- 직업 및 환경 폐질환학(Occupational & Environmental Lung Disease)
- 흉막 질환(Pleural Disease)
- 폐 재활(Pulmonary Rehabilitation)
- 폐 혈관 의학(Pulmonary Vascular Medicine)
- 제한 폐 질환(Restrictive Lung Disease)
- 수면 의학(Sleep Medicine)
- 흉부 종양학(Thoracic Oncology)
3. 위장관학 및 간의학(Gastroenterology & Hepatology)
- 일반 위장학(General Gastroenterology)
- 고급 내시졍 중재학(Advanced Endoscopic Intervention)
- 항문 직장 기능 및 골반저 기능 부진학(Anorectal Function & Pelvic Floor Dysfunction)
- 비만의학(Bariatric Medicine)
- 담관 질환(Biliary Tract Disease)
- 식도 질환(Esophagus Disease)
- 위장 암(Gastrointestinal Cancer)
- 위장관 기능 및 운동 장애(Gastrointestinal Functional & Motility Disorders)
- 간 및 간이식(Hepatology & Liver Transplantation)
- 염증성 장 질환(Inflammatory Bowel Disease)
- 흡수 장애(Malabsorption)
- 영양학(Nutrition)
- 췌장 질환(Pancreas Disease)
이러한 분류는 의료 정보를 제공하는 기존의 서비스를 이용할 수 있다.
예를 들어 www.medisurf.com에서 제공하는 DB를 사용할 수 있다.
반드시 위의 DB를 사용할 필요는 없으며, 학습과정에 충분한 시간이 있다면 분류된 데이터가 없는 상태에서도 학습을 통해 문서들을 과목별로 분류 저장할 수 있다.
이처럼 인덱스 데이터베이스(30)에 학습을 위하여 기분류된 문서와 정의된 키워드를 분류하여 저장한 상태에서, 키워드 추출 서버(10)는 의료 정보 제공 서버(50)들이 네트워크(40) 상에 공개한 의료 정보에 대하여 설정된 키워드들을 이용하여 앞서 설명한 크롤링을 수행한다.
특정 의료 정보에 대하여 검색될 수 있는 키워드는 다수이며, 다수의 키워드 각각이 해당 정보에서 반복적으로 사용된 횟수를 검출할 수 있다. 즉, 의료 정보인 문서에서 키워드 A와 B가 각각 10회와 8회 검출될 수 있다.
이러한 검출 빈도는 해당 키워드가 선택된 의료 정보가 속하는 과목을 특정하는데 중요한 요소가 된다.
또한, 특정 키워드는 과목별로 가중치가 설정될 수 있다.
직접적으로 진료 과목을 지칭하는 키워드들은 가중치를 높게 설정하며, 통상의 의료 분야에서 사용하는 용어는 가중치를 낮게 설정할 수 있다.
구체적으로 가중치가 높은 키워드의 예로는, 앞서 설명한 일반 순환기 내과(General Cardiology), 성인 선천적 심장질환(Adult Congenital Heart Disease), 심장 크리티컬 케어(Cardiac Critical Care), 심장 전기 생리학(Cardiac Electrophysiology), 비만의학(Bariatric Medicine), 담관 질환(Biliary Tract Disease), 식도 질환(Esophagus Disease), 위장 암(Gastrointestinal Cancer) 등과 같이 구체적인 과목을 나타내는 키워드가 될 수 있다.
가중치가 낮은 키워드는 혈액, 암, 환자, 질병 등 포괄적인 것일 수 있다.
또한, 가중치는 과목마다 차이가 있는 것으로 비만의학에서 성인 선천적 심장질환은 가중치가 낮은 것으로 설정할 수 있다.
이는 비만의학과 성인 선천적 심장질환에서 비만의학과 성인 선천적 심장질환이라는 키워드 자체는 가중치가 높지만, 비만의학에서 성인 선천적 심장질환은 가중치가 상대적으로 낮아질 수 있음을 뜻한다.
상기 키워드 추출 서버(10)는 키워드, 빈도 및 가중치를 묶어 키워드 묶음을 생성한다. 이때 가중치는 10을 높음, 5를 중간, 1을 낮음으로 하여 설정할 수 있으며, 이는 다양한 변경이 가능하다.
키워드 묶음의 예는 (A, 10, 10), (B, 8, 5)일 수 있다.
즉, A 키워드의 빈도는 10이고, 가중치는 10으로 높음을 나타내는 키워드 묶음과 B 키워드에 대한 빈도는 8이고, 가중치는 보통을 나타내는 5인 것을 나타낼 수 있다.
그 다음, 상기 인공지능 서버(20)는 인덱스 데이터베이스(30)에 쿼리를 제공하고, 인덱스 데이터베이스(30)에서 분류된 과목에 따라 생성된 매칭테이블과 상기 키워드 묶음의 정보를 비교한다.
상기 매칭테이블은 과목별 키워드와 키워드의 가중치를 포함할 수 있다.
상기 인공지능 서버(20)는 키워드 묶음과 매칭테이블을 비교하되, 매칭테이블의 카테고리 수만큼 비교하는 프로세스를 반복한다.
이와 같은 과정을 통해 인공지능 서버(20)는 크롤링된 의료 정보의 과목을 결정하게 되며, 그 결정된 과목은 키워드 추출 서버(10)에 제공되고, 키워드 추출 서버(10)는 과목을 태깅하여 인덱스 데이터베이스(30)에 저장한다.
이처럼 본 발명은 의료 전문 정보에 대해 자동으로 과목을 분류할 수 있다.
본 발명은 의료 전문 정보의 분류 속도를 증가시키기 위한 특정한 분류 방법을 사용하며, 이와 같은 분류 방법의 구체적인 예를 아래에서 좀 더 상세히 설명한다.
도 2는 본 발명의 분류 방법 순서도이다.
도 2를 참조하면 본 발명 분류 방법은, 텍스트를 포함하는 의료 정보 제공 서버(50)에서 제공하는 의료 정보를 키워드 추출 서버(10)에서 크롤링하는 단계(S21)와, 상기 의료 정보에서 키워드를 추출하고, 키워드 묶음을 생성하는 단계(S22)와, 인공지능 서버(20)에서 키워드 묶음과 인덱스 데이터베이스(30)의 매칭테이블을 비교하여 유사도를 검출하는 단계(S23)와, 인공지능 서버(20)에서 상기 유사도가 설정 유사도 이상인 과목을 선택하되, 유사도가 높은 순서에 따라 설정된 수만큼만 선택하는 단계(S24)와, 선택된 과목들을 상기 의료 정보에 태깅하고 인덱스 데이터베이스(30)에 저장하는 단계(S25)를 포함한다.
이를 좀 더 구체적으로 설명하면, S21단계에서 키워드 추출 서버(10)는 네트워크(40)에 공개된 의료 정보를 수집한다.
상기 의료 정보는 적어도 텍스트를 포함하는 것으로, 의료 정보 제공 서버(50)에서 공개한 논문, 신문기사 또는 블로그일 수 있다.
의료 정보는 텍스트로 크롤링되는 것으로 하며, 정보의 출처를 포함하는 것으로 할 수 있다.
이처럼 수집된 의료 정보는 키워드 추출 서버(10)에 일단 저장된다.
그 다음, S22단계에서 상기 키워드 추출 서버(10)는 저장된 의료 정보에서 기설정된 키워드들을 검색한다.
이때 키워드 추출 서버(10)에는 의료 정보의 과목 분류를 위해서 설정된 키워드들을 저장하고 있으며, 그 키워드들 각각이 추출된 의료 정보에 몇 회나 사용되었는지와 앞서 설명한 가중치를 포함하여 키워드 묶음을 생성한다.
키워드 묶음의 예는 앞서 상세히 설명하였으므로, 그 설명을 생략한다.
그 다음, S23단계와 같이 인공지능 서버(20)에서 키워드 묶음과 인덱스 데이터베이스(30)의 매칭 테이블을 비교하여 유사도를 검출한다.
도 3은 S23단계를 구체적인 동작을 설명하기 위한 흐름도이다.
도 3을 참조하면 상기 인공지능 서버(20)는 인덱스 데이터베이스(30)에 쿼리를 발송한다(S31). 이때의 쿼리는 키워드와 해당 과목에서의 그 키워드의 가중치가 된다.
상기 쿼리를 수신한 인덱스 데이터베이스(30)는 진료 과목과 관련된 키워드를 추출하여 매칭 테이블을 생성한다(S32).
이때의 매칭 테이블은 각 과목별로 생성된다. 즉, 인덱스 데이터베이스(30)에 분류된 과목이 n개이면 매칭 테이블은 n개가 생성된다.
n개의 매칭 테이블마다 상기 쿼리에 해당하는 키워드와 그 키워드의 가중치에 대한 정보를 포함한다.
그 다음, 인공지능 서버(20)는 상기 키워드 묶음과 매칭 테이블을 비교하여 유사도를 산출한다(S33).
키워드 묶음은 키워드, 빈도수, 가중치가 포함되어 있으며 매칭 테이블에는 키워드와 가중치가 포함되어 있어 인공지능 서버(20)는 키워드와 가중치를 상호 비교하게 된다.
예를 들어 키워드 묶음과 매칭 테이블의 키워드의 일치 여부와 일치하는 경우 가중치의 일치여부를 확인하게 된다.
빈도수는 유사도를 결정한 후, 빈도수가 설정 값을 기준으로 높고 낮음을 판단하여 유사도에 빈도 가중치를 더 가산하여 빈도수가 더 많은 경우 유사도를 더 높게 설정하는 역할을 한다.
이처럼 키워드 묶음과 매칭 테이블 각각을 비교하여 유사도를 구한다.
그 다음, S24단계에서 인공지능 서버(20)는 유사도가 설정 유사도 이상인 과목을 선택한다.
설정 유사도가 80이라고 설정한 경우, 진료 과목인 n개 모두의 과목에서 모두 80 이상인 의료 정보가 있을 수 있다.
이는 의료 정보가 방대한 내용을 포함하는 것일 수도 있으나, 이러한 경우 분류의 의미가 없기 때문에 그 중에서도 좀 더 특정한 과목에 적당한 분류를 하기 위해 유사도 순위를 매겨 설정된 수의 과목을 정한다.
이때 설정된 수의 과목을 m개라하면, m은 n보다 작은 수가 된다.
다만, 분류의 정확도를 높이고, 분류의 처리 속도를 높이기 위해서 본 발명에서는 아래의 수학식1로 하나의 의료 정보가 분류될 수 있는 한계 과목 수를 설정할 수 있다.
[수학식 1]
2≤m≤(n/4)
수학식 1에서 m은 하나의 의료 정보가 속할 수 있는 과목의 수를 나타내며, n은 전체 과목의 수이다.
위의 수학식 1은 m은 2개 이상이며, n의 25% 이하임을 설정한 것으로 이해될 수 있다.
m이 1개일 때는 오히려 정확도가 저하될 수 있다. 즉, 본 발명은 하나의 의료 정보가 둘 이상의 과목으로 분류될 수 있도록 분류한다.
이와 같은 과정을 키워드 묶음별로 반복하여 키워드 묶음과 매칭 테이블의 유사도 산출을 머신 러닝 기법에 따라 훈련하여 결과값에 따라 가중치를 업데이트할 수 있다.
그 다음, S35단계와 같이 선택된 과목들을 상기 의료 정보에 태깅하고 인덱스 데이터베이스(30)에 저장한다.
이후의 서비스에서 의료 정보를 검색할 때 유사도 순서에 따라 의료 정보가 표시되도록 할 수 있다.
본 발명은 상기 실시예에 한정되지 않고 본 발명의 기술적 요지를 벗어나지 아니하는 범위 내에서 다양하게 수정, 변형되어 실시될 수 있음은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 있어서 자명한 것이다.
본 발명은 자연법칙을 이용하여 인터넷상의 의학정보들을 수집 및 분류 저장하여, 검색의 편의성을 도모하는 것으로 산업상 이용 가능성이 있다.

Claims (7)

  1. 네트워크를 통해 다수의 의료 정보 제공 서버들이 제공하는 의료 정보에서 키워드를 추출하고, 추출된 키워드의 빈도와 가중치를 포함하는 키워드 묶음을 생성함과 아울러 유사도에 따라 의료 정보에 과목을 태깅하는 키워드 추출 서버;
    상기 키워드 추출 서버에서 진료 과목에 따라 기분류된 의학 전문 자료를 분류 저장함과 아울러 특정 키워드에 대한 매칭 테이블을 제공하는 인덱스 데이터베이스; 및
    상기 키워드 추출 서버의 키워드 묶음의 키워드에 대한 쿼리를 상기 인덱스 데이터베이스에 발송하여 상기 매칭 테이블을 생성하도록 하며, 상기 키워드 묶음과 매칭 테이블을 비교하여 유사도를 구하여 상기 키워드 추출 서버로 제공함으로써, 상기 키워드 추출 서버가 해당 의료 정보에 유사도가 높은 과목을 태깅하여 상기 인덱스 데이터베이스에 분류 저장하도록 하는 인공지능 서버를 포함하는 의료 전문 자료의 과목 분류 시스템.
  2. 제1항에 있어서,
    상기 키워드 묶음은 키워드, 빈도수, 가중치를 포함하고,
    상기 매칭 테이블은 각 과목마다의 키워드와 가중치를 포함하며,
    상기 인공지능 서버는 키워드 묶음과 매칭 테이블의 키워드와 가중치를 비교하여 유사도를 구하고 빈도수를 빈도 가중치로서 산출된 유사도에 가산하여 최종 유사도를 산출하는 것을 특징으로 하는 의료 전문 자료의 과목 분류 시스템.
  3. 제1항 또는 제2항에 있어서,
    상기 인공지능 서버는,
    유사도가 높은 과목을 선정하되,
    정확도와 처리속도 향상을 위하여 2개의 과목 이상, 상기과목 수의 25% 이내로 선정하는 것을 특징으로 하는 의료 전문 자료의 과목 분류 시스템.
  4. a) 텍스트를 포함하는 의료 정보 제공 서버에서 제공하는 의료 정보를 키워드 추출 서버에서 추출하는 단계;
    b) 상기 의료 정보에서 키워드를 추출하고, 키워드 묶음을 생성하는 단계;
    c) 인공지능 서버에서 키워드 묶음과 인덱스 데이터베이스의 매칭 테이블을 비교하여 유사도를 검출하는 단계;
    d) 인공지능 서버에서 상기 유사도가 설정 유사도 이상인 과목을 선택하되, 유사도가 높은 순서에 따라 설정된 수만큼만 선택하는 단계; 및
    e) 선택된 과목들을 상기 의료 정보에 태깅하고 인덱스 데이터베이스에 저장하는 단계를 포함하는 의료 전문 자료의 과목 분류 방법.
  5. 제4항에 있어서,
    상기 b) 단계에서 키워드 묶음은 키워드, 빈도수, 가중치를 포함하고,
    상기 c) 단계에서 매칭 테이블은 각 과목의 키워드와 가중치를 포함하며,
    키워드 묶음과 매칭 테이블의 키워드와 가중치를 비교하여 유사도를 구하는 것을 특징으로 하는 의료 전문 자료의 과목 분류 방법.
  6. 제5항에 있어서,
    상기 c) 단계는,
    상기 빈도수를 빈도 가중치로서 산출된 유사도에 가산하여 최종 유사도를 산출하는 것을 특징으로 하는 의료 전문 자료의 과목 분류 방법.
  7. 제6항에 있어서,
    상기 d) 단계는,
    유사도가 높은 과목을 선정하되,
    정확도와 처리속도 향상을 위하여 2개의 과목 이상, 상기과목 수의 25% 이내로 선정하는 것을 특징으로 하는 의료 전문 자료의 과목 분류 방법.
PCT/KR2020/014759 2019-11-18 2020-10-28 의료 전문 자료의 과목 분류 시스템 및 방법 WO2021101105A2 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020190147402A KR102297113B1 (ko) 2019-11-18 2019-11-18 의료 전문 자료의 과목 분류 시스템 및 방법
KR10-2019-0147402 2019-11-18

Publications (2)

Publication Number Publication Date
WO2021101105A2 true WO2021101105A2 (ko) 2021-05-27
WO2021101105A3 WO2021101105A3 (ko) 2021-07-15

Family

ID=75980152

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/014759 WO2021101105A2 (ko) 2019-11-18 2020-10-28 의료 전문 자료의 과목 분류 시스템 및 방법

Country Status (2)

Country Link
KR (1) KR102297113B1 (ko)
WO (1) WO2021101105A2 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024005305A1 (ko) * 2022-06-27 2024-01-04 후다닥 주식회사 질병 추정 방법 및 질병 추정 장치

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102605009B1 (ko) * 2021-07-29 2023-11-23 주식회사 메드올스 머신러닝을 이용한 의료정보 분류 장치
KR102461647B1 (ko) * 2022-02-21 2022-11-01 가천대학교 산학협력단 뇌파검사보고서에 대한 의료 유형정보를 제공하는 인공지능 시스템 및 그 구현방법

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3603392B2 (ja) * 1995-07-06 2004-12-22 株式会社日立製作所 文書分類支援方法および装置
KR20030094966A (ko) * 2002-06-11 2003-12-18 주식회사 코스모정보통신 통제학습 기반의 문서 자동분류시스템 및 그 방법
KR20090002213A (ko) * 2007-06-22 2009-01-09 (주)인포랑 네트워크를 통한 건강관리 상담 시스템 및 그 방법
JP5043735B2 (ja) * 2008-03-28 2012-10-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報分類システム、情報処理装置、情報分類方法およびプログラム
KR20110071635A (ko) * 2009-12-21 2011-06-29 한국전자통신연구원 Rss기반 키워드 추출 장치 및 방법
US9798820B1 (en) * 2016-10-28 2017-10-24 Searchmetrics Gmbh Classification of keywords
KR101983975B1 (ko) * 2017-04-19 2019-05-30 아시아나아이디티 주식회사 문장 분류에 기반하는 문서 자동분류 방법 및 그 장치
US20190006027A1 (en) * 2017-06-30 2019-01-03 Accenture Global Solutions Limited Automatic identification and extraction of medical conditions and evidences from electronic health records
KR20190070430A (ko) 2017-12-13 2019-06-21 (주)엔텔스 빅데이터 분석 기반 질병 진단명 추정 방법 및 추정 장치

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024005305A1 (ko) * 2022-06-27 2024-01-04 후다닥 주식회사 질병 추정 방법 및 질병 추정 장치

Also Published As

Publication number Publication date
KR20210059954A (ko) 2021-05-26
KR102297113B1 (ko) 2021-09-02
WO2021101105A3 (ko) 2021-07-15

Similar Documents

Publication Publication Date Title
WO2021101105A2 (ko) 의료 전문 자료의 과목 분류 시스템 및 방법
WO2020204586A1 (ko) 신약 재창출 후보 추천 시스템 및 이 시스템의 각 기능을 실행시키기 위해 매체에 저장된 컴퓨터 프로그램
WO2010087566A1 (en) Document analysis system
WO2012091360A2 (ko) 유저 맞춤형 컨텐츠 제공 방법 및 시스템
WO2020119403A1 (zh) 住院数据异常检测方法、装置、设备及可读存储介质
WO2020119383A1 (zh) 医保监管方法、设备、装置及计算机可读存储介质
WO2016068391A1 (ko) 환자 개인 특성에 대한 분석 방법 및 그 장치
WO2012165709A1 (ko) 인스턴스 경로 탐색 및 시각화 방법 및 장치
WO2011136491A2 (ko) 용어체계 기반의 데이터 개체 정의지원 시스템
WO2020119402A1 (zh) 无关用药的识别方法、装置、终端及计算机可读存储介质
WO2014209005A1 (ko) 라이프 스타일 분석 시스템 및 방법
WO2017014469A1 (ko) 질병 위험도 예측 방법 및 이를 수행하는 장치
WO2020082766A1 (zh) 输入法的联想方法、装置、设备及可读存储介质
WO2020119118A1 (zh) 异常数据的处理方法、装置、设备及计算机可读存储介质
WO2012060502A1 (ko) 연구주체간의 상관관계 추론을 위한 시스템 및 방법
WO2021206439A1 (ko) 액티브 시니어 자립 생활 지원 시스템
WO2023195769A1 (ko) 신경망 모델을 활용한 유사 특허 문헌 추출 방법 및 이를 제공하는 장치
WO2020138924A2 (ko) 뇌전증 관련 정보 관리 시스템
WO2018143490A1 (ko) 웹 콘텐츠를 이용한 사용자 감성 예측 시스템 및 그 방법
WO2022149720A1 (ko) 기계학습모델을 이용하여 우울증예비진단정보를 제공하는 방법, 시스템 및 컴퓨터-판독가능 매체
WO2022114447A1 (ko) 유사 임상 시험 데이터 제공 방법 및 이를 실행하는 서버
WO2018169219A1 (en) Printing through automatic sorting
WO2022050713A1 (ko) 흉부 이미지 판독 방법
WO2016093407A1 (en) Clinical decision support system and method for evidence adaption using external resources
JP2018156204A (ja) 検査情報入力支援プログラム、検査情報入力支援方法及び検査情報入力支援装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20890720

Country of ref document: EP

Kind code of ref document: A2

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20890720

Country of ref document: EP

Kind code of ref document: A2

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 07/12/2022)