KR101875306B1 - 의료용어 클러스터를 이용한 질병정보제공시스템 - Google Patents

의료용어 클러스터를 이용한 질병정보제공시스템 Download PDF

Info

Publication number
KR101875306B1
KR101875306B1 KR1020170004163A KR20170004163A KR101875306B1 KR 101875306 B1 KR101875306 B1 KR 101875306B1 KR 1020170004163 A KR1020170004163 A KR 1020170004163A KR 20170004163 A KR20170004163 A KR 20170004163A KR 101875306 B1 KR101875306 B1 KR 101875306B1
Authority
KR
South Korea
Prior art keywords
medical
disease
unit
term
information
Prior art date
Application number
KR1020170004163A
Other languages
English (en)
Inventor
이경순
조승현
Original Assignee
전북대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 전북대학교산학협력단 filed Critical 전북대학교산학협력단
Priority to KR1020170004163A priority Critical patent/KR101875306B1/ko
Application granted granted Critical
Publication of KR101875306B1 publication Critical patent/KR101875306B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B65CONVEYING; PACKING; STORING; HANDLING THIN OR FILAMENTARY MATERIAL
    • B65DCONTAINERS FOR STORAGE OR TRANSPORT OF ARTICLES OR MATERIALS, e.g. BAGS, BARRELS, BOTTLES, BOXES, CANS, CARTONS, CRATES, DRUMS, JARS, TANKS, HOPPERS, FORWARDING CONTAINERS; ACCESSORIES, CLOSURES, OR FITTINGS THEREFOR; PACKAGING ELEMENTS; PACKAGES
    • B65D41/00Caps, e.g. crown caps or crown seals, i.e. members having parts arranged for engagement with the external periphery of a neck or wall defining a pouring opening or discharge aperture; Protective cap-like covers for closure members, e.g. decorative covers of metal foil or paper
    • B65D41/32Caps or cap-like covers with lines of weakness, tearing-strips, tags, or like opening or removal devices, e.g. to facilitate formation of pouring openings
    • B65D41/34Threaded or like caps or cap-like covers provided with tamper elements formed in, or attached to, the closure skirt
    • B65D41/3423Threaded or like caps or cap-like covers provided with tamper elements formed in, or attached to, the closure skirt with flexible tabs, or elements rotated from a non-engaging to an engaging position, formed on the tamper element or in the closure skirt
    • B65D41/3428Threaded or like caps or cap-like covers provided with tamper elements formed in, or attached to, the closure skirt with flexible tabs, or elements rotated from a non-engaging to an engaging position, formed on the tamper element or in the closure skirt the tamper element being integrally connected to the closure by means of bridges
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B65CONVEYING; PACKING; STORING; HANDLING THIN OR FILAMENTARY MATERIAL
    • B65DCONTAINERS FOR STORAGE OR TRANSPORT OF ARTICLES OR MATERIALS, e.g. BAGS, BARRELS, BOTTLES, BOXES, CANS, CARTONS, CRATES, DRUMS, JARS, TANKS, HOPPERS, FORWARDING CONTAINERS; ACCESSORIES, CLOSURES, OR FITTINGS THEREFOR; PACKAGING ELEMENTS; PACKAGES
    • B65D1/00Containers having bodies formed in one piece, e.g. by casting metallic material, by moulding plastics, by blowing vitreous material, by throwing ceramic material, by moulding pulped fibrous material, by deep-drawing operations performed on sheet material
    • B65D1/02Bottles or similar containers with necks or like restricted apertures, designed for pouring contents
    • B65D1/0223Bottles or similar containers with necks or like restricted apertures, designed for pouring contents characterised by shape
    • B65D1/023Neck construction
    • B65D1/0246Closure retaining means, e.g. beads, screw-threads
    • G06F17/30598
    • G06F17/3069
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders

Landscapes

  • Engineering & Computer Science (AREA)
  • Public Health (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Mechanical Engineering (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Ceramic Engineering (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 의학데이터서버 및 정보제공서버에 저장된 의학용어간의 임상인과관계를 구축하며, 임상인과관계를 통해 질병을 기준으로 하는 문서 클러스터를 구축하여 질의에 따른 질병의 검색이 가능한 의료용어 클러스터를 이용한 질병정보제공시스템에 관한 것이다. 본 발명은 질병에 대한 증상, 검사, 치료 등의 임상인과관계를 구축함으로써, 질병에 따른 의료정보를 쉽게 파악할 수 있는 효과가 있다. 또한, 질병클러스터 및 유사클러스터를 구축하여 의학데이터를 그룹화함으로써, 유사한 질병을 그룹화하여 질의정보에 해당하는 정확하고, 다양한 의료정보를 제공할 수 있는 효과가 있다.

Description

의료용어 클러스터를 이용한 질병정보제공시스템 {SYSTEM FOR PROVIDING DISEASE INFORMATION USING CLUSTER OF MEDICINE TEMINOLOGIES}
본 발명은 질병 중심의 의료용어 클러스터를 이용하여 질병정보를 제공하기 위한 시스템으로써, 보다 상세하게는 의학데이터서버 및 정보제공서버에 저장된 의학용어간의 임상인과관계를 구축하며, 임상인과관계를 통해 질병을 기준으로 하는 문서 클러스터를 구축하여 질의에 따른 질병의 검색이 가능한 의료용어 클러스터를 이용한 질병정보제공시스템에 관한 것이다.
최근 환자들은 본인이 왜 아픈지 궁금해 하며, 증상에 따라 치료 방법, 증상에 대한 병명 등을 알고 싶어한다. 증상에 따른 병명 및 치료방법에 대한 의학 문서를 빠르고 정확하게 찾을 수 있다면 임상 의사 결정에 도움을 줄 수 있다. 또한, 의사들은 환자의 증상에 대하여 임상 의사 결정을 내릴 때 해당 환자와 증상이 비슷한 환자들을 다룬 의학 문서를 이용한다면 임상 의사 결정에 큰 도움을 줄 수 있게 된다.
이에 한국 등록특허 제10-1364851호(이하 '선행문헌'이라 칭함)는 의미론 및 확률적 추론을 기반으로 한 데이터 베이스를 이용하여 U-Health 서비스를 제공하는 방법에 관한 것이다. 선행문헌은 질병, 증상, 치료법을 포함하는 U-Health 정보를 분석하여 서비스 제공에 필요한 복수의 U-Health 온톨로지를 구축하는 과정과, 구축된 상기 U-Health 온톨로지 사이의 원인 및 결과 관계에 대한 메타 모델을 설정하는 과정과, 복수의 U-Health 온톨로지 중, 적어도 둘 이상의 특정 U-Health 온톨로지를 선택하여 노드로 설정하고, 설정된 상기 노드들에 메타모델을 적용하여 소정의 베이지안 네트워크를 생성하는 과정을 포함한다. 선행문헌은 온톨로지를 기반으로하여 질병분석에 적합한 베이지안 네트워크를 자동적으로 구축하고, 구축된 베이지안 네트워크를 이용하여 질병에 따른 맞춤형 확률 추론 모델을 용이하게 구성할 수 있다.
하지만, 선행문헌은 온톨로지에 따라 데이터베이스를 구축하며, 단순히 유사한 단어를 통해 데이터베이스를 제작됨에 따라 질병에 대응하는 증상, 치료방식 등을 전문적인 의료정보로 식별할 수 없는 문제점이 발생한다.
한국 등록특허 제10-1364851호(명칭 : 데이터베이스 구축하는 방법 및 상기 데이터베이스를이용한 질병분석 방법, 등록일 : 2014.02.12)
본 발명은 위와 같은 문제점을 해결하기 위해 의학데이터서버의 의학의미정보를 의학카테고리로 분류하며, 의학의미정보를 통해 정보제공서버에 저장된 데이터로부터 의학용어를 추출하여 질병에 대한 증상, 검사, 치료 등의 임상인과관계를 구축하는데 그 목적이 있다.
또한, 본 발명은 의료도서데이터의 도서카테고리를 기준으로 질병클러스터를 구축 및 의학데이터의 각 중심벡터간의 유사도를 통해 유사클러스터를 구축하여 의학데이터를 그룹화하는데 그 목적이 있다.
또한, 본 발명은 질의에 포함된 증상용어를 통해 질병을 탐색하며, 탐색된 질병과 유사한 벡터값을 통해 확장의학용어를 식별 및 질병검색에 따른 피드백을 통해 검색 순위를 보정하는데 그 목적이 있다.
상기 목적을 달성하기 위한 본 발명의 관점에 따른 의료용어 클러스터를 이용한 질병정보제공시스템은 의료정보가 기록되어 있는 의학데이터서버 및 정보제공서버에 저장된 의학분야와 관련된 용어를 추출하며, 상기 용어 간의 임상인과관계를 구축하는 임상관계구축부, 상기 임상인과관계를 통해 질병을 기준으로 하는 문서 클러스터를 구축하는 클러스터링부, 및 외부로부터 입력된 질의정보에 포함된 증상용어를 추출하며, 상기 증상용어에 대응되는 질병을 검색하는 질병검색부를 포함한다.
본 발명의 관점에 따른 상기 임상관계구축부는 기 설정된 의학카테고리와 상기 의학데이터서버에 저장된 의학의미정보 간의 연결관계를 판단하여 상기 의학의미정보를 상기 의학카테고리로 분류하는 의미분류부, 상기 의학카테고리로 분류된 의학의미정보를 통해 상기 정보제공서버에 저장된 데이터로부터 의학용어를 추출하는 용어추출부, 상기 추출된 의학용어로부터 질병에 대한 증상, 검사 및 치료의 인과관계를 구축하는 관계구축부 및 상기 분류된 의학카테고리에 포함된 상기 의학용어의 벡터정보를 생성하는 벡터생성부를 포함하한다.
본 발명의 관점에 따른 상기 클러스터링부는 상기 정보제공서버로부터 상기 인과관계가 포함된 의학데이터를 추출하는 데이터추출부, 상기 의학데이터에서 증상, 검사 및 치료에 대한 용어가 적어도 하나가 포함되는 제1데이터를 검색하며, 상기 검색된 제1데이터 중 질병에 대한 용어가 포함된 적어도 하나의 제2데이터를 최초클러스터로 각 생성하는 최초클러스터부, 의학분야의 시소러스가 정의되어 있는 의료도서데이터의 도서카테고리를 기준으로 질병클러스터를 구축하며, 상기 각 최초클러스터에 포함된 제2데이터를 상기 질병클러스터로 지정하는 질병클러스터부, 기 설정된 유사도방식을 통해 상기 제2데이터 중 상기 질병클러스터에 미포함된 적어도 하나의 제3데이터의 각 중심벡터 간의 유사도를 계산하는 유사도계산부 및 상기 유사도의 임계점에 따라 상기 제3데이터간의 유사클러스터를 구축하는 유사클러스터부를 포함한다.
본 발명의 관점에 따른 상기 질병검색부는 상기 의학카테고리를 통해 상기 질의정보에 포함된 상기 증상용어로부터 적어도 하나의 질의의학용어를 추출하는 질의추출부, 상기 구축된 인과관계에 따라 상기 질의의학용어에 대응되는 적어도 하나의 질병용어를 탐색하는 질병탐색부, 상기 질병용어의 기 설정된 조건만족 여부에 따라 상기 질의정보에 대응하는 최종질병용어를 판단하는 질병판단부, 상기 최종질병용어의 특정 벡터정보와 소정범위의 유사도 값을 갖는 확장의학용어를 식별하는 확장용어식별부, 및 상기 질의정보의 유형에 따라 상기 질병판단부에 의해 판단된 최종질병용어가 포함된 특정 의학데이터에 가산점을 부여하여 상기 특정 의학데이터가 검색되는 순위를 보정하는 검색보정부를 포함한다.
본 발명은 의학데이터서버의 의학의미정보를 의학카테고리로 분류하며, 의학의미정보를 통해 정보제공서버에 저장된 데이터로부터 의학용어를 추출하여 질병에 대한 증상, 검사, 치료 등의 임상인과관계를 구축함으로써, 질병에 따른 의료정보를 쉽게 파악할 수 있는 효과가 있다.
또한, 본 발명은 의료도서데이터의 도서카테고리를 기준으로 질병클러스터를 구축 및 의학데이터의 각 중심벡터간의 유사도를 통해 유사클러스터를 구축하여 의학데이터를 그룹화함으로써, 유사한 질병을 그룹화하여 질의정보에 해당하는 정확하고, 다양한 의료정보를 제공할 수 있는 효과가 있다.
또한, 본 발명은 질의에 포함된 증상용어를 통해 질병을 탐색하며, 탐색된 질병과 유사한 벡터값을 통해 확장의학용어를 식별 및 질병검색에 따른 피드백을 통해 검색 순위를 보정함으로써, 질병과 연관된 데이터를 사용자에게 정확하게 제공할 수 있는 효과가 있다.
도 1은 본 발명에 따른 의학 클러스터를 이용한 질병정보제공시스템의 구성도이다.
도 2는 본 발명에 따른 질병에 따른 임상인과관계 구축을 설명하기 위한 일 실시예이다.
도 3은 본 발명에 따른 문서 클러스터링을 설명하기 위한 일 실시예이다.
도 4는 본 발명에 따른 질의에 따른 질병의 검색을 설명하기 위한 일 실시예이다.
이하, 본 발명의 바람직한 실시 예에 대하여 첨부된 도면을 참조하여 상세히 설명하기로 한다. 본 발명의 실시 예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다.
도 1은 본 발명에 따른 의학 클러스터를 이용한 질병정보제공시스템의 구성도이다. 도 1을 살펴보면, 질병정보 제공시스템(1000)은 임상관계구축부(1100), 클러스터링부(1200), 검색부(1300)을 포함할 수 있다.
임상관계구축부(1100)는 의료정보가 기록되어 있는 의학데이터서버(2000) 및 정보제공서버(3000)에 저장된 의학분야와 관련된 용어를 추출하며, 용어 간의 임상인과관계를 구축하는 장치이다. 임상관계구축부(1100)는 의학카테고리(1110), 의미분류부(1120), 용어추출부(1130), 관계구축부(1140), 벡터생성부(1150), 저장부(1160)를 포함할 수 있다.
[의학카테고리 분류]
의학카테고리(1110)는 의료정보를 분류하기 위한 정의된 카테고리이다. 의학카테고리(1110)는 병명, 증상, 치료, 검사의 카테고리로 설정될 수 있다.
의미분류부(1120)는 의학카테고리(1110)와 의학데이터베이스(2000)에 저장된 의학의미정보 간의 연결관계를 판단하여 의학의미정보를 의학카테고리로 분류하는 장치이다. 여기서 의학데이터베이스(2000)는 UMLS(Unified Medical Language System)와 같은 의학의 사전적 의미가 정의되어 있는 데이터베이스이다. 따라서 의학데이터베이스(2000)는 의학의 의미형태에 대응하는 용어를 저장하고 있으며, 용어에 따른 확장 지식을 내포하고 있다.
도 2의 예시를 통해 의학 카테고리 분류에 대해 자세히 설명하도록 한다. 도 2의 의학카테고리 분류표를 살펴보면, 의학카테고리가 병명, 증상, 검사, 치료의 카테고리로 정의된 것을 알 수 있다. 의미분류부(1120)는 정의된 4개의 의학 카테고리에 따라 의학데이터베이스(2000)에 포함된 의미형태를 병명, 증상, 검사, 치료의 카테고리로 분류하였다. 도 2는 의학데이터베이스(2000)가 UMLS(Unified Medical Language System)의 실시 예로써, 병명에 관련된 의학 용어 610,356개, 증상과 관련된 의학 용어는 1,224,254개, 검사와 관련된 의학용어 296,161개, 치료와 관련된 의학용어 609,675개로 분류되었다.
[의학용어 추출]
용어추출부(1130)는 의학카테고리로 분류된 의학의미정보를 통해 정보제공서버(3000)에 저장된 데이터로부터 의학용어를 추출하는 장치이다.
정보제공서버(3000)는 위키피디아(wikipedia)와 같은 질병과 관련된 증상, 검사, 치료 방법과 같은 의학 정보가 저장되어 있는 서버로 이루어진다. 위키피디아(wikipedia)는 제목(title), 초록(abstract), 내용물(contents)로 구성되어 있다. 또한, 내용물(contents)은 정보를 포함하고 있는 필드(field)들로 구성되어 있다. 필드는 ‘징후와 증상(Signs and symptoms)’, ‘진단(Diagnosis)’, ‘특징(Characteristics)’, ‘합병증(Complications)’, ‘검사(Screening)’, ‘치료(Treatment)’, ‘관리(Management)’를 포함할 수 있다. 따라서 ‘징후와 증상’, ‘진단’, ‘특징’, ‘합병증’ 필드에서는 해당 질병과 관련된 증상, 특징, 합병증에 대한 정보를 알 수 있기 때문에 질병의 증상을 추출할 수 있다. 또한, ‘진단’,‘검사’필드에서는 해당 질병에 대한 검사방법에 대한 정보를 확인할 수 있다. 또한,‘치료’,'관리’필드에서는 해당 질병을 치료하는 방법에 대한 정보를 확인할 수 있다. 용어추출부(1130)는 의학의미정보를 통해 필드정보로부터 의학용어를 추출한다.
도 2는 정보제공서버가 위키피디아일 경우의 실시 예이다. 도 2의 의학용어추출 도면 중 위키피디아의 페이지를 살펴보면, 제목(title), 초록(abstract), 내용물(contents)로 이루어져 있으며, 내용물(contents)의 필드가 구성된 것을 확인할 수 있다. 또한, 도 2와 같이 용어추출부(1130)는 '징후와 증상(Signs and symptoms)' 필드로부터 의학카테고리에 따른 의료용어를 추출한다.
[임상인과관계 구축]
관계구축부(1140)는 추출된 의학용어로부터 질병에 대한 증상, 검사 및 치료의 인과관계를 구축한다. 정보제공서버(3000)의‘징후와 증상’, ‘진단’, ‘특징’, ‘합병증’ 필드에서는 질병과 증상에 대한 인과 관계를 생성할 수 있다. 또한, 정보제공서버(3000)의 '진단',‘검사’ 필드에서는 질병과 검사 방법에 대한 인과 관계를 생성할 수 있다. 또한, ‘치료’, ‘관리’ 필드에서는 질병과 치료 방법에 대한 인과 관계를 생성할 수 있다.
도 2의 임상인과관계 구축 도면을 살펴보면, 질병1(Desease1)과 질병2(Desease2)에 대한 임상인과관계가 구축된 것을 살펴볼 수 있다. 또한, 임상인과관계는 증상과 병명과의 관계, 병명과 증상과의 관계, 검사와 병명과의 관계, 병명과 검사와의 관계, 치료와 병명과의 관계, 병명과 치료와의 관계로 구축된다.
[의학용어의 벡터정보 생성]
벡터생성부(1150)는 의학카테고리에 포함된 의학용어의 벡터정보를 생성한다. 벡터생성부(1150)는 벡터정보를 생성하기 위해 인공 신경망을 이용하여 의학용어를 표현한다. 인공 신경망은 피드 포워드 신경망 언어 모델(Feed-Forward Neural Net Language Model), 순환 신경망 언어 모델(Recurrent Neural Network Language Model), 단어의 효율적인 의미 추정 기법(word2vec) 등의 방식을 사용할 수 있다. 인공신경망을 통해 용어의 벡터를 생성하는 방식은 공지된 기술로써, 그 자세한 설명은 생략하도록 한다.
한편, 관계구축부(1140)를 통해 구축된 질병에 대한 증상, 검사 및 치료의 인과관계 및 의학용어의 벡터정보는 저장부(1160)에 저장된다.
도 1을 살펴보면, 클러스터링부(1200)는 임상인과관계를 통해 질병을 기준으로 하는 문서 클러스터를 구축하는 장치이다. 클러스터링부(1200)는 데이터추출부(1210), 최초클러스터부(1220), 도서카테고리(1230), 질병클러스터부(1240), 유사도계산부(1250), 유사클러스터부(1260)를 포함할 수 있다.
[최초클러스터 생성]
데이터추출부(1210)는 임상관계구축부(1100)로부터 인과관계가 포함된 의학데이터를 추출하는 장치이다.
최초클러스터부(1220)는 데이터추출부(1210)에서 추출된 의학데이터에서 증상, 검사 및 치료에 대한 용어가 적어도 하나가 포함되는 제1데이터를 검색한다. 최초클러스터부(1220)는 검색된 제1데이터 중 질병에 대한 용어가 포함된 적어도 하나의 제2데이터를 최초클러스터로 각 생성한다.
도 3의 최초클러스터 생성을 살펴보면, 진단, 검사 및 치료 유형에 대한 질의가 구성되어 있으며, 각 유형의 질의에 따른 의학데이터가 검색된 것을 알 수 있다.
도 3의 A는 해당 질병의 '질병'-'증상', '질병'-'검사' 인과 관계 정보를 이용하여 검색된 의학 데이터이다. B는 해당 질병의 '질병'-'증상', '질병'-'치료' 인과 관계 정보를 이용하여 검색된 의학 데이터이다. C는 해당 질병의 '질병'-'검사', '질병'-'치료' 인과 관계 정보를 이용하여 검색된 의학 데이터이다. D는 해당 질병의 '질병'-'증상', '질병'-'검사', '질병'-'치료' 인과 관계 정보를 이용하여 검색된 의학 데이터이다. 이러한 A 내지 D의 의학데이터는 편의상 제1데이터라 칭하며, 제1데이터는 최초클러스터 후보문서가 된다. A, B, C, D에 포함된 문서들을 묶어 최초클러스터를 생성한다.
최초클러스터부(1220)는 검색된 제1데이터 중 질병에 대한 용어가 포함된 제2데이터를 최초클러스터로 생성한다. 따라서 최초클러스터로 묶인 의료데이터에는 병명과 관련된 증상, 검사, 치료 어휘가 최소 1개 이상 포함된다.
최초 클러스터의 생성방법은 아래의 알고리즘으로 표현할 수 있다.
[최초 클러스터 생성 알고리즘]
입력: '질병'-'증상', '질병'-'검사', '질병'-'치료' 인과 관계 정보
출력: 초기 의학 문서 클러스터 N개 생성
알고리즘 절차
단계 1: : 3가지 인과 관계 정보를 이용하여 문서 검색
단계 2: for(i = 1; i < M; i++)
if(문서i가 2가지 이상의 인과 관계 정보를 통해 검색)
문서i를 초기 의학 문서 클러스터에 추가
M은 3가지 유형의 질의를 이용하여 검색된 문서의 수이다.
[질병 클러스터링]
질병클러스터부(1140)는 의학분야의 시소러스가 정의되어 있는 의료도서데이터의 도서카테고리(1130)를 기준으로 질병클러스터를 구축한다. 의료도서데이터는 MeSH(Medical Subject Headings)가 사용될 수 있다. MeSH는 미국 국립의학도서관이 정하는 의학 분야의 주제명이다. MeSH는 최상위 수준 카테고리에는 질환 카테고리가 존재한다. MeSH의 질환 카테고리에서 1계층와 2계층 카테고리로 구성됨으로써, 의학분야의 시소러스가 정의된다. 질병클러스터부(1140)는 MeSH에 구성된 카테고리를 기준으로 질병클러스터를 구축하며, 최초클러스터에 포함된 제2데이터를 질병클러스터로 지정한다.
도 3의 질병클러스터링을 살펴보면, MeSH를 이용한 갑상선 기능 저하증(hypothyroidism)의 질병클러스터링을 확인할 수 있다. 도 3과 같이, '갑상선 기능 저하증'이라는 병명은 2계층 카테고리의 '갑상선 질환(Thyroid disease)'의 세부 카테고리에 속해있기 때문에 '감성선 기능 저하증(hypothyroidism)'터는 '갑상선증(goiter)', '갑상선 이상발육(thyroid dysgenesis)'과 함께 질병클러스터를 구축하게 된다.
질병 클러스터링은 아래의 알고리즘으로 표현할 수 있다.
[질병클러스터링 알고리즘]
입력: 병명 N개
출력: 질병 중심 의학 문서 클러스터 M개
알고리즘 절차
for(i = 1; i < N; i++)
if(병명i가 MeSH에 존재할 경우) {
1. MeSH 카테고리의 2계층 카테고리를 기준으로 병명을 클러스터링
2. 병명i의 초기 의학 문서 클러스터에 포함된 문서들을 클러스터에 포함
[유사 클러스터링]
유사도계산부(1150)는 기 설정된 유사도방식을 통해 제2데이터 중 질병클러스터에 미포함된 적어도 하나의 제3데이터의 각 중심벡터 간의 유사도를 계산한다. 편의상 질병클러스터에 미포함된 의료데이터를 제3데이터로 칭한다. 유사도계산부(1150)는 클러스터간의 의료용어간의 유사도를 판단하기 위해 코사인 유사도(cosine similarity)를 이용할 수 있다. 코사인 유사도는 두 벡터간 각도의 코사인값을 이용하여 벡터간의 유사한 정도를 파악할 수 있는 방식이다. 유사도계산부(1150)는 벡터생성부(1150)에 의해 생성된 벡터정보를 통해 제3데이터의 중심벡터 간의 유사도를 계산한다.
유사클러스터부(1160)는 유사도의 임계점에 따라 제3데이터간의 유사클러스터를 구축한다. 의료도서데이터의 도서카테고리(1130)만을 이용하여 최초클러스터를 묶을 경우 도서카테고리(1130)에 포함되지 않은 병명은 클러스터링할 수 없다. 이러한 문제점을 해결하기 위해 질병클러스터에 미포함된 의료데이터들 간의 유사도를 통해 클러스터를 생성한다.
일 예로, 'A질병'의 클러스터와 포함된 의료용어와 'B질병'의 클러스터와 포함된 의료용어가 상당 부분 유사하다면 두 병은 유사한 질병으로 볼 수 있다. 따라서 유사클러스터부(1160)는 중심벡터간의 유사도가 임계점을 만족할 경우, 만족하는 제3데이터를 유사클러스터로 구축한다. 여기서 유사도의 임계점은 사용자에 의해 가장 적합한 수치로 설정된다.
도 3의 유사클러스터링을 살펴보면, '하시톡스토시스(hashitoxicosis)'와 '척추측만증(Scoliosis)'가 MeSH에 병명이 존재하지 않는 것을 확인할 수 있다. 도 3의 실시예와 같이, '하시톡스토시스'의 중심 벡터와 '갑상선 질환'의 중심 벡터 간의 코사인 유사도 값이 임계점을 만족함에 따라 '하시톡스토시스'와 '갑상선 질환'을 유사클러스터로 구축한다. 반면, '하시톡스토시스'의 중심 벡터와 '척추측만증'의 중심 벡터 간의 코사인 유사도 값이 임계점을 만족하지 못함에 따라 '척추측만증'은 유사클러스터에 포함되지 않는다.
유사 클러스터링은 아래의 알고리즘으로 표현할 수 있다.
[유사클러스터링 알고리즘]
입력: 병명 N개
출력: 질병 중심 의학 문서 클러스터 M개
알고리즘 절차
단계 1:
for(i = 1; i < N; i++)
if(병명i가 MeSH에 존재하지 않을 경우) {
병명i의 초기 의학 문서 클러스터에 포함된 문서들의 초록에서 증상, 검사, 치료 용어 추출
추출한 의학 용어를 이용하여 중심 벡터 생성
}
단계 2:
for(i = 1; i < N; i++)
for(j = 0; j <= N; j++) {
병명i 클러스터와 병명j 클러스터의 코사인 유사도 계산
if(코사인 유사도(병명i 클러스터, 병명j 클러스터) >= 임계점)
병명i 클러스터와 병명j 클러스터를 묶음
도 1을 살펴보면, 질병검색부(1300)는 외부로부터 입력된 질의정보에 포함된 증상용어를 추출하며, 증상용어에 대응되는 질병을 검색하는 장치이다. 질병검색부(1300)는 질의추출부(1310), 질병탐색부(1320), 질병판단부(1330), 확장용어식별부(1340), 검색보정부(1350)을 포함할 수 있다.
[질병 탐지]
질의추출부(1310)는 의학카테고리를 통해 질의정보에 포함된 증상용어로부터 적어도 하나의 질의의학용어를 추출한다. 질의정보는 사용자에 의해 입력된 증상의 대한 정보이다.
질병탐색부(1320)는 구축된 인과관계에 따라 질의의학용어에 대응되는 적어도 하나의 질병용어를 탐색한다. 질병탐색부(1320)는 질병과 증상간의 인과관계를 통해 추출된 증상에 대한 질병을 추출하게 된다. 한편, 질병탐색부(1320)는 증상에 대응되는 질병을 모두 추출함에 따라 하나 또는 복수개의 질병이 추출될 수 있다.
질병판단부(1330)는 질병용어의 기 설정된 조건만족 여부에 따라 질의정보에 대응하는 최종질병용어를 판단한다. 일 예로, 기 설정된 조건이 추출된 증상용어가 3개 이상을 포함하는 질병일 경우, 3개 이상의 증상이 포함된 질병이 최종질병용어가 된다.
도 4의 질병탐지를 살펴보면, 입력된 증상용어로부터 감기(cold), 피로(fatigue), 변비(constipation), 반사저하(hypoflexia), 건성 피부(dry skin)의 증상 용어를 추출된 것을 볼 수 있다.
질병탐색부(1320)는 질병과 증상간의 인과관계를 통해 추출된 증상용어의 대응하는 질병을 탐색한다. 도 4는 '상선 기능 저하증(hypothyroidism)'과 '전신 홍반 루푸스(Systemic lupus erythematosus)'가 탐색되었으며, 기 설정된 조건을 만족함에 따라 최종질병데이터가 된다.
[확장 단어 선택]
확장용어식별부(1340)는 질의질병용어의 특정 벡터정보와 유사한 벡터 값을 갖는 확장의학용어를 식별한다.
도 4의 확장 단어 선택을 살펴보면, 질병판단부(1330)에 의해 '상선 기능 저하증(hypothyroidism)'과 '전신 홍반 루푸스(Systemic lupus erythematosus)'의 최종질병용어가 판단된 것을 살펴볼 수 있다. 따라서, 확장용어식별부(1340)는 '상선 기능 저하증(hypothyroidism)' 및 '전신 홍반 루푸스(Systemic lupus erythematosus)'의 벡터정보와 유사한 벡터값을 갖는 확장의학용어를 식별한다.
도 4의 경우 '갑상선 기능 항진증(hyperthyroidism)', '류머티즘성(rheumatoid)', '패혈증(sepsis)'의 의학용어가 가장 근사치의 코사인 유사도를 가진다. 따라서, '갑상선 기능 항진증(hyperthyroidism)', '류머티즘성(rheumatoid)', '패혈증(sepsis)'이 확장의학용어로 선택된다.
[확장어휘식별 계산식]
Figure 112017003413621-pat00001
확장어휘식별 계산식의 t는 의학 용어이며, w(Vi(t))는 i번째 질병 어휘 벡터에서 t가 가지는 유사도 값이다. |C|는 탐지한 질병의 수이다. 질병 어휘 벡터들에서 용어 t가 가지는 유사도 값을 모두 더하여 해당 용어의 가중치를 구한 뒤, 가중치가 가장 높은 e개의 용어를 확장의학용어로 선택한다.
[문서 재순위화]
검색보정부(1150)는 질의정보의 유형에 따라 질병판단부에 의해 판단된 최종질병용어가 포함된 특정 의학데이터에 가산점을 부여한다. 또한, 검색보정부(1150)는 가산점의 부여에 따라 특정 의학데이터가 검색되는 순위를 보정한다.
위키피디아(wikipedia)와 같은 정보제공서버(3000)는 사용자에 의해 데이터에 평점이 부여된다. 따라서 평점이 높은 순으로 검색이 노출되며, 평점이 낮을수록 사용자에게 노출되는 횟수가 적어진다. 또는, 최초 생성된 순서에 의해 의학데이터가 노출된다.
검색보정부(1150)는 검색성능이 향상되도록 최종질병용어가 포함된 특정 의학데이터에 가산점을 부여한다. 검색보정부(1150)에 의해 부여된 가산점에 따라 특정 의학데이터의 검색순위가 보정된다.
[재순위화 계산식]
Figure 112017003413621-pat00002
Q는 입력된 질의정보이며, Q’은 최고클러스터의 생성시 사용된 질의다. QL(Q, D)는 질의정보로 검색한 결과이며, QL(Q’, Ci)는 최고클러스터의 생성시 사용된 질의에서 검색했을 때의 결과이다. |C|는 질병 클러스터에 포함된 병명의 수이다.
한편, 질의정보는 진단, 검사, 치료유형의 질의정보로 이루어짐에 따라 검색보정부(1150)는 질의정보의 유형에 따라 재순위화 계산식을 달리한다.
[진단(Diagnosis) 유형 질의 재순위화]
Figure 112017003413621-pat00003
[검사(Test) 유형 질의 재순위화]
Figure 112017003413621-pat00004
[치료(Treatment) 유형 질의 재순위화]
Figure 112017003413621-pat00005
여기에서 QD -S는 질병-증상 관계, QD -T는 질병-검사 관계, QD -X는 질병-치료 관계이다. score(Q, D)는 초기 질의와 연관된 의료데이터 값이며, scorei(QD-S, D)는 i번째 질병의 질병-검사 관계와 연관된 의료데이터 값, scorei(QD-T, D)는 i번째 질병의 질병-검사 관계와 연관된 의료데이터 값, scorei(QD-X, D)는 i번째 질병의 질병-검사 관계와 연관된 의료데이터 값이다.
이와 같은, 재순위화 계산식을 통해 질병의 초기 검색 결과가 높으면서, 최고클러스터의 생성시 사용된 질의로 검색된 결과가 높은 경우에도 상위 순위로 검색 할 수 있다.
도 4의 문서 재순위화를 살펴보면, 최종질병인 '갑상선 기능 저하증(hypothyroidism)'과 '전신 홍반 루푸스(Systemic lupus erythematosus)'의 질병클러스터에 포함된 의료데이터들의 순위를 재순위화하는 것을 볼 수 있다. 기존의 의료데이터 순위인 D1, D2, D3, D4. D5..가 D3, D2, D5, D4. D1..의 순위로 보정되었다.
1000 : 질병정보 제공시스템 1100 : 임상관계구축부
1110 : 의학카테고리 1120 : 의미분류부
1130 : 용어추출부 1140 : 관계구축부
1150 : 벡터생성부 1160 : 저장부
1200 : 클러스터링부 1210 : 데이터추출부
1220 : 최초클러스터부 1230 : 도서카테고리
1240 : 질병클러스터부 1250 : 유사도계산부
1260 : 유사클러스터부 1300 : 질병검색부
1310 : 질의추출부 1320 : 질병탐색부
1330 : 질병판단부 1340 : 확장용어식별부
1350 : 검색보정부 2000 : 의학데이터베이스
3000 : 정보제공서버

Claims (6)

  1. 의학정보를 분류하기 위해 정의된 카테고리와 의료정보가 기록되어 있는 의학데이터서버에 저장된 의학의미정보 간의 연결관계를 판단하여 상기 의학의미정보를 의학카테고리로 분류하는 의미분류부, 상기 의학의미정보를 통해 정보제공서버에 지정된 필드정보로부터 의학용어를 추출하는 용어추출부, 및 상기 필드정보를 통해 상기 의학용어로부터 질병에 대한 증상, 검사 및 치료의 인과관계를 구축하는 관계구축부;를 포함하는 임상관계구축부;
    상기 인과관계를 통해 질병을 기준으로 하는 문서 클러스터를 구축하는 클러스터링부; 및
    외부로부터 입력된 질의정보에 포함된 증상용어를 추출하며, 상기 증상용어에 대응되는 질병을 검색하는 질병검색부를 포함하는 것을 특징으로 하는 의료용어 클러스터를 이용한 질병정보제공시스템.
  2. 제1항에 있어서,
    상기 임상관계구축부는
    상기 분류된 의학카테고리에 포함된 상기 의학용어의 벡터정보를 생성하는 벡터생성부를 포함하는 것을 특징으로 하는 의료용어 클러스터를 이용한 질병정보제공시스템.
  3. 제2항에 있어서,
    상기 클러스터링부는
    상기 정보제공서버로부터 상기 인과관계가 포함된 의학데이터를 추출하는 데이터추출부; 및
    상기 의학데이터에서 증상, 검사 및 치료에 대한 용어가 적어도 하나가 포함되는 제1데이터를 검색하며, 상기 검색된 제1데이터 중 질병에 대한 용어가 포함된 적어도 하나의 제2데이터를 최초클러스터로 각 생성하는 최초클러스터부를 포함하는 것을 특징으로 하는 의료용어 클러스터를 이용한 질병정보제공시스템.
  4. 제3항에 있어서,
    상기 클러스터링부는
    의학분야의 시소러스가 정의되어 있는 의료도서데이터의 도서카테고리를 기준으로 질병클러스터를 구축하며, 상기 각 최초클러스터에 포함된 제2데이터를 상기 질병클러스터로 지정하는 질병클러스터부;
    기 설정된 유사도방식을 통해 상기 제2데이터 중 상기 질병클러스터에 미포함된 적어도 하나의 제3데이터의 각 중심벡터 간의 유사도를 계산하는 유사도계산부; 및
    상기 유사도의 임계점에 따라 상기 제3데이터간의 유사클러스터를 구축하는 유사클러스터부를 더 포함하는 것을 특징으로 하는 의료용어 클러스터를 이용한 질병정보제공시스템.
  5. 제4항에 있어서,
    상기 질병검색부는
    상기 의학카테고리를 통해 상기 질의정보에 포함된 상기 증상용어로부터 적어도 하나의 질의의학용어를 추출하는 질의추출부;
    상기 구축된 인과관계에 따라 상기 질의의학용어에 대응되는 적어도 하나의 질병용어를 탐색하는 질병탐색부; 및
    상기 질병용어의 기 설정된 조건만족 여부에 따라 상기 질의정보에 대응하는 최종질병용어를 판단하는 질병판단부를 포함하는 것을 특징으로 하는 의료용어 클러스터를 이용한 질병정보제공시스템.
  6. 제5항에 있어서, 상기 질병검색부는
    상기 최종질병용어의 특정 벡터정보와 소정범위의 유사도 값을 갖는 확장의학용어를 식별하는 확장용어식별부; 및
    상기 질의정보의 유형에 따라 상기 질병판단부에 의해 판단된 최종질병용어가 포함된 특정 의학데이터에 가산점을 부여하여 상기 특정 의학데이터가 검색되는 순위를 보정하는 검색보정부를 더 포함하는 것을 특징으로 하는 의료용어 클러스터를 이용한 질병정보제공시스템.

KR1020170004163A 2017-01-11 2017-01-11 의료용어 클러스터를 이용한 질병정보제공시스템 KR101875306B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170004163A KR101875306B1 (ko) 2017-01-11 2017-01-11 의료용어 클러스터를 이용한 질병정보제공시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170004163A KR101875306B1 (ko) 2017-01-11 2017-01-11 의료용어 클러스터를 이용한 질병정보제공시스템

Publications (1)

Publication Number Publication Date
KR101875306B1 true KR101875306B1 (ko) 2018-07-05

Family

ID=62920619

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170004163A KR101875306B1 (ko) 2017-01-11 2017-01-11 의료용어 클러스터를 이용한 질병정보제공시스템

Country Status (1)

Country Link
KR (1) KR101875306B1 (ko)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111986761A (zh) * 2020-09-03 2020-11-24 平安国际智慧城市科技股份有限公司 多维度并发症信息抽取方法、装置、电子设备及介质
CN111985246A (zh) * 2020-08-27 2020-11-24 武汉东湖大数据交易中心股份有限公司 一种基于主要症状与伴随症状词的疾病认知系统
CN112017774A (zh) * 2020-08-31 2020-12-01 吾征智能技术(北京)有限公司 一种基于口臭伴随症状的疾病预测模型的构建方法及系统
CN112259220A (zh) * 2020-09-30 2021-01-22 吾征智能技术(北京)有限公司 一种基于鼻出血伴随症状预测疾病的系统、设备、存储介质
CN112349423A (zh) * 2020-11-04 2021-02-09 吾征智能技术(北京)有限公司 一种基于BiMPM方法的口干信息匹配系统
WO2022035074A1 (ko) * 2020-08-13 2022-02-17 주식회사 스탠다임 문서 데이터에서 질병 관련 인자들 간의 관계를 추출하는 방법 및 이를 이용하여 구축되는 시스템
CN114822859A (zh) * 2022-03-31 2022-07-29 数魔方(北京)医药科技有限公司 治疗线程挖掘和检索方法及装置
KR20240093383A (ko) 2022-12-15 2024-06-24 주식회사 플라잉닥터 병원 고객 관계 관리 컨텐츠 제공 시스템 및 방법
EP4425507A1 (de) 2023-03-02 2024-09-04 ACMIT Gmbh System zur identifikation von medizinischen daten, computerimplementiertes verfahren dafür, computerprogrammprodukt sowie ein computerlesbares speichermedium

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022035074A1 (ko) * 2020-08-13 2022-02-17 주식회사 스탠다임 문서 데이터에서 질병 관련 인자들 간의 관계를 추출하는 방법 및 이를 이용하여 구축되는 시스템
CN111985246A (zh) * 2020-08-27 2020-11-24 武汉东湖大数据交易中心股份有限公司 一种基于主要症状与伴随症状词的疾病认知系统
CN111985246B (zh) * 2020-08-27 2023-08-15 武汉东湖大数据交易中心股份有限公司 一种基于主要症状与伴随症状词的疾病认知系统
CN112017774A (zh) * 2020-08-31 2020-12-01 吾征智能技术(北京)有限公司 一种基于口臭伴随症状的疾病预测模型的构建方法及系统
CN112017774B (zh) * 2020-08-31 2023-10-03 吾征智能技术(北京)有限公司 一种基于口臭伴随症状的疾病预测模型的构建方法及系统
CN111986761A (zh) * 2020-09-03 2020-11-24 平安国际智慧城市科技股份有限公司 多维度并发症信息抽取方法、装置、电子设备及介质
CN112259220B (zh) * 2020-09-30 2024-02-02 吾征智能技术(北京)有限公司 一种基于鼻出血伴随症状预测疾病的系统、设备、存储介质
CN112259220A (zh) * 2020-09-30 2021-01-22 吾征智能技术(北京)有限公司 一种基于鼻出血伴随症状预测疾病的系统、设备、存储介质
CN112349423A (zh) * 2020-11-04 2021-02-09 吾征智能技术(北京)有限公司 一种基于BiMPM方法的口干信息匹配系统
CN112349423B (zh) * 2020-11-04 2024-05-24 吾征智能技术(北京)有限公司 一种基于BiMPM方法的口干信息匹配系统
CN114822859A (zh) * 2022-03-31 2022-07-29 数魔方(北京)医药科技有限公司 治疗线程挖掘和检索方法及装置
CN114822859B (zh) * 2022-03-31 2023-11-03 数魔方(北京)医药科技有限公司 治疗线程挖掘和检索方法及装置
KR20240093383A (ko) 2022-12-15 2024-06-24 주식회사 플라잉닥터 병원 고객 관계 관리 컨텐츠 제공 시스템 및 방법
EP4425507A1 (de) 2023-03-02 2024-09-04 ACMIT Gmbh System zur identifikation von medizinischen daten, computerimplementiertes verfahren dafür, computerprogrammprodukt sowie ein computerlesbares speichermedium
WO2024180466A1 (de) 2023-03-02 2024-09-06 Acmit Gmbh System zur identifikation von medizinischen daten, computerimplementiertes verfahren dafür, computerprogrammprodukt sowie ein computerlesbares speichermedium

Similar Documents

Publication Publication Date Title
KR101875306B1 (ko) 의료용어 클러스터를 이용한 질병정보제공시스템
Purohit et al. Emergency-relief coordination on social media: Automatically matching resource requests and offers
US20190252074A1 (en) Knowledge graph-based clinical diagnosis assistant
Dong et al. Knowledge vault: A web-scale approach to probabilistic knowledge fusion
US10198431B2 (en) Information relation generation
CN104636430B (zh) 案例知识库表示及案例相似度获取方法及系统
KR101827764B1 (ko) 시각적 어의적 복잡계 네트워크 및 그의 형성 방법
KR20120092756A (ko) 사람의 활동 지식 데이터베이스를 이용한 모바일 어플리케이션 검색 방법 및 시스템
Thushara et al. A model for auto-tagging of research papers based on keyphrase extraction methods
CN113836321B (zh) 一种医学知识表示的生成方法和装置
CN117390145A (zh) 临床试验的自动文本对话方法、装置、设备及介质
US20150269693A1 (en) Method and System of querying patent information based on image interface
KR101686067B1 (ko) 개체간 암묵적 관계 추론을 통한 정보 추출 증강 시스템 및 이를 이용한 정보 추출 방법
CN116110594B (zh) 基于关联文献的医学知识图谱的知识评价方法及系统
Brummerloh et al. Boromir at Touché 2022: Combining Natural Language Processing and Machine Learning Techniques for Image Retrieval for Arguments.
Şerban et al. Hierarchical adaptive clustering
CN115687773A (zh) 一种基于知识图谱的跨环境元数据匹配方法及系统
Hossain et al. EdGCon: auto-assigner of iconicity ratings grounded by lexical properties to aid in generation of technical gestures
Bouarara et al. BHA2: bio-inspired algorithm and automatic summarisation for detecting different types of plagiarism
Heaton et al. Repurposing trec-covid annotations to answer the key questions of cord-19
Song Exploring concept graphs for biomedical literature mining
Boeva et al. Identifying a group of subject experts using formal concept analysis
Feng et al. Extracting meaningful correlations among heterogeneous datasets for medical question answering with domain knowledge
Toma Using ontologies as queries in information retrieval
Ymeralli et al. Representing Online Debates in the Context of E-Journalism

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant