KR20220000496A - 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템 - Google Patents

온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템 Download PDF

Info

Publication number
KR20220000496A
KR20220000496A KR1020200078222A KR20200078222A KR20220000496A KR 20220000496 A KR20220000496 A KR 20220000496A KR 1020200078222 A KR1020200078222 A KR 1020200078222A KR 20200078222 A KR20200078222 A KR 20200078222A KR 20220000496 A KR20220000496 A KR 20220000496A
Authority
KR
South Korea
Prior art keywords
deep learning
pathology
result report
ontology database
test result
Prior art date
Application number
KR1020200078222A
Other languages
English (en)
Other versions
KR102426091B1 (ko
Inventor
주형준
석준희
이정현
김유중
이정문
김종호
최선호
박수완
Original Assignee
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교 산학협력단 filed Critical 고려대학교 산학협력단
Priority to KR1020200078222A priority Critical patent/KR102426091B1/ko
Priority to PCT/KR2021/005760 priority patent/WO2021261763A1/ko
Publication of KR20220000496A publication Critical patent/KR20220000496A/ko
Application granted granted Critical
Publication of KR102426091B1 publication Critical patent/KR102426091B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Pathology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명의 일 실시예에 따른 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템은, 병리검사결과보고서의 정제 및 키워드 추출을 위한 키워드를 제공하는 온톨로지 데이터베이스; 인공지능 딥러닝 모델을 적용하여 상기 온톨로지 데이터베이스에 저장된 온톨로지를 기반으로 병리검사결과보고서의 키워드를 추출하는 인공지능 딥러닝 키워드 추출부; 및 상기 인공지능 딥러닝 키워드 추출부에 의해 추출된 키워드를 상기 온톨로지 데이터베이스에 저장된 온톨로지를 기반으로 카테고리 분류, 용어 매핑, 유사도 평가 중 적어도 하나 이상을 수행하여 정상적으로 정제되지 않은 데이터를 식별하고 필터링하는 후처리 필터부를 포함할 수 있다.

Description

온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템 {System for Refining Pathology Report through Ontology Database Based Deep Learning}
본 출원은 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템에 관한 것이다.
의료 분야의 빅데이터를 구축하기 위해서는 데이터의 정제가 필수적이다. 그러나, 의료기관 내의 대다수의 데이터가 코드화되지 않은 비정형 텍스트 혹은 이미지로 구성되어 있으며, 특히 병원검사결과들은 전문적인 용어 및 도메인 별로 특이한 구성으로 이루어져 있어서 일반적인 데이터 정제 과정을 통해 가치 있는 데이터로 정제하기 어렵다.
이에, 데이터의 분석을 위해서 사람이 직접 보고서를 분석 및 정리하여 데이터베이스로 구축하고 있는 실정이다. 그러나, 이 과정에서 데이터베이스의 일관성이 손상되고, 기입 과정에서 오타가 발생하는 등의 문제가 발생한다.
종래에는 의료 데이터베이스 구축을 위해 의료장비에서 직접 데이터를 분리 및 추출하여 데이터베이스화 하거나, 룰 기반으로 연계 활용하는 방법들이 제안된 바 있다.
그러나, 실제 병원 병원데이터는 전문가가 최종적으로 확인하여 수정 보완한 후 최종보고서 형태로 저장하고 있다. 따라서, 의료장비에서 출력된 데이터를 바로 데이터베이스화하는 경우 데이터 오류율이 높고, 방대한 의학적 지식을 기반으로 전문가가 최종 수정 보완하는 것을 룰 기반으로 정리하는 것도 실효성이 떨어진다는 문제가 있다.
따라서, 당해 기술분야에서는 보다 정확하고 효율적으로 의료 데이터를 정제하기 위한 방안이 요구되고 있다.
상기 과제를 해결하기 위해서, 본 발명의 일 실시예는 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템을 제공한다.
상기 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템은, 병리검사결과보고서의 정제 및 키워드 추출을 위한 키워드를 제공하는 온톨로지 데이터베이스; 인공지능 딥러닝 모델을 적용하여 상기 온톨로지 데이터베이스에 저장된 온톨로지를 기반으로 병리검사결과보고서의 키워드를 추출하는 인공지능 딥러닝 키워드 추출부; 및 상기 인공지능 딥러닝 키워드 추출부에 의해 추출된 키워드를 상기 온톨로지 데이터베이스에 저장된 온톨로지를 기반으로 카테고리 분류, 용어 매핑, 유사도 평가 중 적어도 하나 이상을 수행하여 정상적으로 정제되지 않은 데이터를 식별하고 필터링하는 후처리 필터부를 포함할 수 있다.
덧붙여 상기한 과제의 해결수단은, 본 발명의 특징을 모두 열거한 것이 아니다. 본 발명의 다양한 특징과 그에 따른 장점과 효과는 아래의 구체적인 실시형태를 참조하여 보다 상세하게 이해될 수 있을 것이다.
본 발명의 일 실시예에 따르면, 의료기관에서 활용도가 높은 병리검사결과보고서를 대상으로 온톨로지 데이터베이스 기반의 딥러닝을 통해 정제함으로써 고품질의 데이터베이스를 구축할 수 있다.
이를 통해, 데이터베이스의 다기관 상호운용성을 높이고 데이터 분석을 용이하게 할 수 있다.
도 1은 본 발명의 일 실시예에 따른 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템의 구성도이다.
도 2a 내지 도 2c는 도 1에 도시된 데이터 도입부로 입력된 병리검사결과보고서의 일 예 및 이를 텍스트 분할부 및 전처리 필터부를 통해 처리한 결과를 도시하는 도면이다.
도 3은 도 1에 도시된 온톨로지 데이터베이스의 일 예를 도시하는 도면이다.
도 4는 도 1에 도시된 데이터 수정부를 통해 처리한 결과를 도시하는 도면이다.
도 5는 본 발명의 일 실시예에 따른 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템에 다양한 인공지능 기술을 적용하여 성능을 비교한 결과를 도시하는 도면이다.
도 6은 본 발명의 일 실시예에 따라 온톨로지 데이터베이스를 기반으로 딥러닝을 적용하는 경우와 온톨로지 데이터베이스를 사용하지 않는 경우의 성능을 비교한 결과를 도시하는 도면이다.
도 7은 본 발명의 일 실시예에 따른 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템을 통해 정제 서비스를 제공하는 경우의 화면 구성 예를 도시하는 도면이다.
이하, 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예를 상세하게 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 또한, 유사한 기능 및 작용을 하는 부분에 대해서는 도면 전체에 걸쳐 동일한 부호를 사용한다.
덧붙여, 명세서 전체에서, 어떤 부분이 다른 부분과 '연결'되어 있다고 할 때, 이는 '직접적으로 연결'되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 '간접적으로 연결'되어 있는 경우도 포함한다. 또한, 어떤 구성요소를 '포함'한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.
도 1은 본 발명의 일 실시예에 따른 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템의 구성도이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 병리검사결과보고서 정제 시스템(100)은 데이터 도입부(110), 텍스트 분할부(120), 전처리 필터부(130), 데이터 수정부(140), 인공지능 딥러닝 키워드 추출부(150), 후처리 필터부(160), 데이터 수정부(170), 인공지능 딥러닝 알고리즘 수정부(180), 데이터베이스 서버(190) 및 온톨로지 데이터베이스(DB)를 포함하여 구성될 수 있다.
데이터 도입부(110)는 병원정보시스템 등과 같은 의료기관의 서버에 저장된 데이터, 즉, 병리검사결과보고서를 입력 받고 이를 후술하는 구성에 의해 처리할 수 있는 기 정해진 형태로 변환하여 데이터를 생성할 수 있다. 여기서, 병리검사결과보고서는 의료기관에서 수집 및 저장된 것으로, 인위적으로 작성되거나 의료 장비에서 추출된 것일 수 있으며, 텍스트 및 특수문자 중 적어도 하나에 의해 기술된 것일 수 있다. 또한, 병리검사결과보고서는 단일 결과보고서뿐만 아니라 복수의 결과보고서를 포함할 수도 있다.
일 실시예에 따르면, 데이터 도입부(110)은 사용자에 의해 직접 입력된 텍스트를 입력 받을 수도 있고, 예를 들어 CSV(comma separated value) 파일, EXCEL 파일, 텍스트 파일 등과 같은 임의의 파일 형식으로 데이터를 입력 받을 수도 있다. 그러나, 상술한 파일 형식은 예시에 불과한 것으로, 특정한 파일로 한정되지 않고 어떠한 파일 형식으로도 데이터를 입력 받을 수 있다.
다른 실시예에 따르면, 데이터 도입부(110)는 예를 들어 MS-SQL 등과 같은 DBMS(database management system)를 통해 병리검사결과보고서가 저장된 데이터베이스에 접속하여 데이터를 입력 받을 수도 있다.
텍스트 분할부(120)는 데이터 도입부(110)에 의해 생성된 하나 이상의 병리검사결과 데이터를 전달 받아서 단일 검사결과 분석단위로 분할할 수 있다.
전처리 필터부(130)는 텍스트 분할부(120)에 의해 단일 검사결과 분석단위로 분할된 데이터를 온톨로지 데이터베이스(DB)에 저장된 데이터와 비교 분석하여 수정이 필요한 부분을 필터링할 수 있다.
또한, 전처리 필터부(130)는 단일 검사결과 분석단위로 분할된 데이터에 포함된 대문자는 소문자로 변환하고, 웹 페이지 링크, 기 설정된 특수문자(예를 들어, '#', '.'등)를 제외한 불필요한 특수문자를 제거할 수 있다.
또한, 전처리 필터부(130)는 입력된 병리검사결과보고서에 복수의 결과보고서가 포함된 경우 이를 단일 검사결과보고서로 분리할 수도 있다.
도 2a 내지 도 2c는 도 1에 도시된 데이터 도입부로 입력된 병리검사결과보고서의 일 예 및 이를 텍스트 분할부 및 전처리 필터부를 통해 처리한 결과를 도시하는 도면이다.
도 2a에 도시된 바와 같은 병리검사결과보고서는 텍스트 분할부에 의해 도 2b에 도시된 바와 같이 단일 검사결과 분석단위로 분할될 수 있고, 이후 전처리 필터부에 의해 도 2c에 도시된 바와 같이 필요한 부분만 필터링될 수 있다.
본 발명의 일 실시예에 따른 병리검사결과보고서 정제 시스템(100)은 필요에 따라 상술한 데이터 도입부(110), 텍스트 분할부(120) 및 전처리 필터부(130) 중 적어도 하나 이상을 포함할 수 있으며, 데이터 도입부(110), 텍스트 분할부(120) 및 전처리 필터부(130) 중 적어도 하나의 의해 처리된 데이터가 후술하는 인공지능 딥러닝 키워드 추출부(150)에 전달될 수 있다.
데이터 수정부(140)는 전처리 필터부(130)에 의해 필터링된 데이터에서 수정이 필요한 부분(예를 들어, 오탈자, 텍스트 인코딩 오류 등)를 수정하여 후술하는 인공지능 딥러닝 키워드 추출부(150)에서의 분석이 용이하도록 할 수 있다.
도 4는 도 1에 도시된 데이터 수정부를 통해 처리한 결과를 도시하는 도면으로, 도 4에 도시된 바와 같이 필터링된 데이터에서 존재하는 오탈자 등을 수정할 수 있다.
인공지능 딥러닝 키워드 추출부(150)는 인공지능 딥러닝 모델을 적용하여 온톨로지 데이터베이스에 저장된 온톨로지를 기반으로 병리검사결과보고서의 키워드를 추출할 수 있다.
이를 위해, 인공지능 딥러닝 키워드 추출부(150)에서 사용되는 딥러닝 모델은 기 구축된 다량의 학습 데이터(즉, 비정형 데이터인 병리검사결과보고서 및 이에 대한 키워드 추출 결과)를 통해 사전에 학습될 수 있다.
이후, 인공지능 딥러닝 키워드 추출부(150)는 학습된 딥러닝 모델을 통해 온톨로지 데이터베이스에 저장된 표본(Specimen), 절차(Procedure) 및 병리학(Pathology) 중 하나의 키워드를 기반으로 키워드를 추출할 수 있다.
다시 말해, 본 발명의 실시예에 따르면, 인공지능 딥러닝 키워드 추출부(150)는 병리검사결과보고서에서 키워드를 추출함에 있어서 온톨로지를 기반으로 인공지능 딥러닝 모델을 적용함으로써, 도 6을 참조하여 구체적으로 후술하는 바와 같이 온톨로지를 사용하지 않고 학습을 수행하는 경우에 비해 키워드 추출의 정확도를 크게 향상시킬 수 있다.
후처리 필터부(160)는 인공지능 딥러닝 키워드 추출부(150)에 의해 추출된 키워드를 온톨로지 데이터베이스(DB)에 저장된 온톨로지를 기반으로 카테고리 분류, 용어 매핑, 유사도 평가 중 적어도 하나 이상을 수행하여 정상적으로 정제되지 않은 데이터를 식별하고 필터링할 수 있다.
후처리 필터부(160)에 의해 정상적으로 정제된 것으로 식별된 데이터는 별도 구비된 데이터베이스 서버(190)로 이관될 수 있고, 정상적으로 정제되지 않은 것으로 식별된 데이터는 데이터 수정부(170)로 이관될 수 있다.
데이터 수정부(170)는 후처리 필터부(160)로부터 이관된 데이터를 수정 및 정제하고 그 결과를 데이터베이스 서버(190) 및 인공지능 딥러닝 알고리즘 수정부(180)로 이관할 수 있다.
인공지능 딥러닝 알고리즘 수정부(180)는 데이터 수정부(170)로부터 이관된 수정 및 정제 결과를 기반으로 인공지능 딥러닝 키워드 추출부(150)에서 사용되는 딥러닝 모델을 수정하여 인공지능 딥러닝에 의한 키워드 분석 결과의 정확도를 보다 향상시킬 수 있다.
데이터베이스 서버(190)는 데이터 수정부(170)로부터 이관된 수정 및 정제 결과를 저장할 수 있다.
또한, 데이터베이스 서버(190)는 병리검사결과보고서의 정제 결과를 제공하는 인터페이스를 제공할 수 있으며, 인터페이스는 도 6을 참조하여 후술하는 바와 같이 인공지능 딥러닝 키워드 추출부(150)에 의해 추출된 키워드를 포함하며, 표본(Specimen), 절차(Procedure) 및 병리학(Pathology) 중 적어도 하나의 정보를 제공할 수 있다.
온톨로지 데이터베이스(DB)는 병리검사결과보고서의 정제 및 키워드 추출을 위해 키워드를 제공하는 것으로, 수집된 병리용어, 약자 등을 중복을 제외하고 정리하여 사전에 구축된 것일 수 있다.
도 3은 도 1에 도시된 온톨로지 데이터베이스의 일 예를 도시하는 도면이다. 일 실시예에 따르면, 온톨로지 데이터베이스(DB)는 도 3에 도시된 바와 같이 표본(Specimen), 절차(Procedure), 병리학(Pathology)으로 구분된 키워드를 포함하여 구축될 수 있다. 그러나, 본 발명에서 사용되는 온톨로지 데이터베이스가 반드시 이로 제한되는 것은 아니며, 병리검사결과보고서에서 추출 가능한 키워드가 추가적으로 존재하는 경우 확장될 수 있다.
또한, 온톨로지 데이터베이스(DB)는 입력된 병리검사결과보고서에 대한 키워드 추출 실행 시에 해당 병리검사결과보고서에 대한 요청에 응답하여 저장된 키워드를 실시간으로 제공할 수 있다.
도 5는 본 발명의 일 실시예에 따른 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템에 다양한 인공지능 기술을 적용하여 성능을 비교한 결과를 도시하는 도면이다.
상술한 바와 같은 본 발명의 실시예에 따른 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템의 성능 검증을 위해, 병리검사결과보고서 6,000여건을 이용하여 다양한 인공지능 기술, 즉 BERT, LSTM, CNN, Bayes Classifier, Kea 및 WINGNUS를 적용한 경우의 매칭률을 확인하였다. 여기서 사용되는 인공지능 기술은 통상의 기술자에게 알려진 바에 따라 구현될 수 있는 바 이에 대한 구체적인 설명은 생략한다.
도 5를 참조하면, BERT 모델을 적용한 경우에 매칭률이 가장 높은 것을 알 수 있으나, 본 발명에 적용되는 인공지능 기술이 반드시 이로 제한되는 것은 아니다.
도 6은 본 발명의 일 실시예에 따라 온톨로지 데이터베이스를 기반으로 딥러닝을 적용하는 경우와 온톨로지 데이터베이스를 사용하지 않는 경우의 성능을 비교한 결과를 도시하는 도면으로, 특히 BERT 모델을 적용한 경우의 성능을 비교한 것이다.
도 6을 참조하면, 본 발명의 일 실시예에 따라 온톨로지 데이터베이스를 기반으로 딥러닝을 적용하는 경우, 온톨로지 데이터베이스를 사용하지 않은 경우에 비해 매칭률이 대략 90배 이상 향상됨을 확인하였다. 즉, 본 발명에서는 병리검사결과보고서에 딥러닝을 적용하는 경우 온톨로지를 기반으로 함으로써 높은 정확도로 키워드를 추출하여 정제를 수행할 수 있다.
도 7은 본 발명의 일 실시예에 따른 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템을 통해 정제 서비스를 제공하는 경우의 화면 구성 예를 도시하는 도면이다.
도 7을 참조하면, 화면 상단에 제공되는 데이터 입력 부분(610)에 병리검사결과보고서가 입력될 수 있다. 여기서, 병리검사결과보고서는 서술문, 요약 및 단어 등의 형태로 입력될 수 있다. 서술문은 검사결과 및 이에 대한 설명이 함께 기재되어 있는 형태이고, 요약은 검사결과만 특수문자로 기재된 형태이며, 단어는 요약에 비해 더 간단한 필수용어만 포함하도록 기재된 형태이나, 본 발명에서 병리검사결과보고서의 입력 형태가 이로 제한되는 것은 아니다.
이와 같이, 데이터 입력 부분(610)에 병리검사결과보고서가 입력된 후 키워드 추출 버튼(620)이 클릭되면, 상술한 본 발명의 실시예에 따라 키워드가 추출되고 화면 하단에 키워드 추출결과(640)가 제공될 수 있다.
한편, 병리검사결과보고서의 입력은 직접적인 텍스트 입력에 의해서가 아니라 CSV, 엑셀 파일, 텍스트 등과 같은 파일 업로드를 통해 이루어질 수도 있으며(630), 이 밖에도 DBMS를 통해 원본 병리검사결과보고서가 저장된 데이터베이스에 직접 연결하여 입력되는 방식 등을 통해서도 이루어질 수 있다.
또한, 키워드 추출 및 정제 결과는 화면에서 직접적으로 확인하는 방법 이외에, 결과를 다양한 형식으로 다운로드(650) 가능하도록 구현될 수도 있다.
본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다. 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 본 발명에 따른 구성요소를 치환, 변형 및 변경할 수 있다는 것이 명백할 것이다.
100: 병리검사결과보고서 정제 시스템
110: 데이터 도입부
120: 텍스트 분할부
130: 전처리 필터부
140: 데이터 수정부
150: 인공지능 딥러닝 키워드 추출부
160: 후처리 필터부
170: 데이터 수정부
180: 인공지능 딥러닝 알고리즘 수정부
190: 데이터베이스 서버
DB: 온톨로지 데이터베이스

Claims (13)

  1. 병리검사결과보고서의 정제 및 키워드 추출을 위한 키워드를 제공하는 온톨로지 데이터베이스;
    인공지능 딥러닝 모델을 적용하여 상기 온톨로지 데이터베이스에 저장된 온톨로지를 기반으로 병리검사결과보고서의 키워드를 추출하는 인공지능 딥러닝 키워드 추출부; 및
    상기 인공지능 딥러닝 키워드 추출부에 의해 추출된 키워드를 상기 온톨로지 데이터베이스에 저장된 온톨로지를 기반으로 카테고리 분류, 용어 매핑, 유사도 평가 중 적어도 하나 이상을 수행하여 정상적으로 정제되지 않은 데이터를 식별하고 필터링하는 후처리 필터부를 포함하는 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템.
  2. 제 1 항에 있어서,
    상기 온톨로지 데이터베이스는 표본(Specimen), 절차(Procedure) 및 병리학(Pathology)으로 구분된 키워드를 포함하여 구축된 것을 특징으로 하는 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템.
  3. 제 1 항에 있어서,
    상기 온톨로지 데이터베이스는 입력된 병리검사결과보고서에 대한 키워드 추출 실행 시에 상기 병리검사결과보고서에 대한 요청에 응답하여 저장된 키워드를 제공하는 것을 특징으로 하는 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템.
  4. 제 2 항에 있어서,
    상기 인공지능 딥러닝 키워드 추출부는 상기 온톨로지 데이터베이스에 저장된 표본(Specimen), 절차(Procedure) 및 병리학(Pathology) 중 하나의 키워드를 기반으로 키워드를 추출하는 것을 특징으로 하는 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템.
  5. 제 1 항에 있어서,
    상기 병리검사결과보고서는 의료기관에서 수집 및 저장된 것으로, 인위적으로 작성되거나 의료 장비에서 추출된 것이며, 텍스트 및 특수문자 중 적어도 하나에 의해 기술된 것을 특징으로 하는 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템.
  6. 제 1 항에 있어서,
    상기 병리검사결과보고서는 단일 또는 복수의 결과보고서를 포함하며, CSV 파일, Excel 파일, 텍스트 파일을 포함하는 임의의 포맷인 것을 특징으로 하는 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템.
  7. 제 1 항에 있어서,
    입력된 병리검사결과보고서를 기 정해진 형태로 변환하여 데이터를 생성하는 데이터 도입부;
    상기 데이터 도입부에 의해 생성된 데이터를 전달받아 단일 검사결과 분석단위로 분할하는 텍스트 분할부; 및
    상기 텍스트 분할부에 의해 분할된 데이터를 상기 온톨로지 데이터베이스에 저장된 데이터와 비교 분석하여 수정이 필요한 부분을 필터링하는 전처리 필터부 중 적어도 하나를 더 포함하며,
    상기 데이터 도입부, 상기 텍스트 분할부 및 상기 전처리 필터부 중 적어도 하나의 의해 처리된 데이터를 상기 인공지능 딥러닝 키워드 추출부에 전달하는 것을 특징으로 하는 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템.
  8. 제 7 항에 있어서,
    상기 전처리 필터부는 상기 분할된 데이터에 포함된 대문자를 소문자로 변환하고, 웹 페이지 링크 및 기 설정된 특수문자를 제외한 특수문자를 제거하는 것을 특징으로 하는 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템.
  9. 제 7 항에 있어서,
    상기 전처리 필터부는 상기 병리검사결과보고서에 포함된 복수의 결과보고서를 단일 검사로 분리하는 것을 특징으로 하는 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템.
  10. 제 7 항에 있어서,
    상기 전처리 필터부에 의해 필터링된 데이터에 존재하는 오류를 수정하는 전처리 데이터 수정부를 더 포함하는 것을 특징으로 하는 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템.
  11. 제 1 항에 있어서,
    상기 후처리 필터부로부터 정상적으로 정제되지 않은 것으로 식별된 데이터를 이관받아 수정 및 정제하는 후처리 데이터 수정부; 및
    상기 후처리 데이터 수정부로부터 이관된 수정 및 정제 결과를 기반으로 상기 인공지능 딥러닝 키워드 추출부에서 사용되는 딥러닝 모델을 수정하는 인공지능 딥러닝 알고리즘 수정부를 더 포함하는 것을 특징으로 하는 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템.
  12. 제 11 항에 있어서,
    상기 후처리 데이터 수정부로부터 이관된 수정 및 정제 결과를 저장하는 데이터베이스 서버를 더 포함하는 것을 특징으로 하는 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템.
  13. 제 12 항에 있어서,
    상기 데이터베이스 서버는 상기 병리검사결과보고서의 정제 결과를 제공하는 인터페이스를 제공하며,
    상기 인터페이스는 상기 인공지능 딥러닝 키워드 추출부에 의해 추출된 키워드를 포함하며, 표본(Specimen), 절차(Procedure) 및 병리학(Pathology) 중 적어도 하나의 정보를 제공하는 것을 특징으로 하는 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템.
KR1020200078222A 2020-06-26 2020-06-26 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템 KR102426091B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020200078222A KR102426091B1 (ko) 2020-06-26 2020-06-26 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템
PCT/KR2021/005760 WO2021261763A1 (ko) 2020-06-26 2021-05-07 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200078222A KR102426091B1 (ko) 2020-06-26 2020-06-26 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템

Publications (2)

Publication Number Publication Date
KR20220000496A true KR20220000496A (ko) 2022-01-04
KR102426091B1 KR102426091B1 (ko) 2022-07-29

Family

ID=79281485

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200078222A KR102426091B1 (ko) 2020-06-26 2020-06-26 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템

Country Status (2)

Country Link
KR (1) KR102426091B1 (ko)
WO (1) WO2021261763A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116564539B (zh) * 2023-07-10 2023-10-24 神州医疗科技股份有限公司 基于信息抽取和实体归一的医学相似病例推荐方法和系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011010889A (ja) * 2009-07-02 2011-01-20 Toshiba Corp 医用画像読影システム
KR101099446B1 (ko) * 2010-07-07 2011-12-27 주식회사 경희매니지먼트컴퍼니 문자추출시스템 및 문자추출방법
JP2015207261A (ja) * 2014-04-23 2015-11-19 株式会社東芝 医用レポート作成支援装置およびそのレポート表示制御方法
KR20170133692A (ko) * 2016-05-26 2017-12-06 아주대학교산학협력단 의료 기록 문서에서의 의료 단어의 연관 규칙 생성 방법 및 그 장치
KR20180113287A (ko) * 2017-04-06 2018-10-16 인충교 비정형 의료 검사결과 데이터 관리시스템
KR20190102399A (ko) * 2018-02-26 2019-09-04 (주)헬스허브 정제된 인공지능 강화학습 데이터 생성을 통한 의료영상 판독 시스템 및 그 방법
KR20200022109A (ko) * 2018-08-22 2020-03-03 주식회사 위담바이오 한방 데이터의 온톨로지 정보체계 구축 시스템 및 방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200022110A (ko) * 2018-08-22 2020-03-03 주식회사 위담바이오 한의학 임상데이터 수집 및 딥러닝 기반 데이터 분석 시스템

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011010889A (ja) * 2009-07-02 2011-01-20 Toshiba Corp 医用画像読影システム
KR101099446B1 (ko) * 2010-07-07 2011-12-27 주식회사 경희매니지먼트컴퍼니 문자추출시스템 및 문자추출방법
JP2015207261A (ja) * 2014-04-23 2015-11-19 株式会社東芝 医用レポート作成支援装置およびそのレポート表示制御方法
KR20170133692A (ko) * 2016-05-26 2017-12-06 아주대학교산학협력단 의료 기록 문서에서의 의료 단어의 연관 규칙 생성 방법 및 그 장치
KR20180113287A (ko) * 2017-04-06 2018-10-16 인충교 비정형 의료 검사결과 데이터 관리시스템
KR20190102399A (ko) * 2018-02-26 2019-09-04 (주)헬스허브 정제된 인공지능 강화학습 데이터 생성을 통한 의료영상 판독 시스템 및 그 방법
KR20200022109A (ko) * 2018-08-22 2020-03-03 주식회사 위담바이오 한방 데이터의 온톨로지 정보체계 구축 시스템 및 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Engy Yehia 외, Ontology-based clinical information extraction from physician’s free-text notes, Journal of Biomedical Informatics, 2019.08.29., Vol.98, No.103276, pp.1-14.* *

Also Published As

Publication number Publication date
WO2021261763A1 (ko) 2021-12-30
KR102426091B1 (ko) 2022-07-29

Similar Documents

Publication Publication Date Title
CN107577826B (zh) 基于原始诊断数据的疾病分类编码方法及系统
CN107705839A (zh) 疾病自动编码方法及系统
KR102491172B1 (ko) 자연어 질의응답 시스템 및 그 학습 방법
CN111159223A (zh) 一种基于结构化嵌入的交互式代码搜索方法及装置
CN105975491A (zh) 企业新闻分析方法及系统
US20220004706A1 (en) Medical data verification method and electronic device
US20140180728A1 (en) Natural Language Processing
CN104391881A (zh) 一种基于分词算法的日志解析方法及系统
CN111028952B (zh) 一种中文医学蕴含知识图谱构建方法及装置
Katsis et al. Ait-qa: Question answering dataset over complex tables in the airline industry
Bani-Almarjeh et al. Arabic abstractive text summarization using RNN-based and transformer-based architectures
US10586161B2 (en) Cognitive visual debugger that conducts error analysis for a question answering system
KR102426091B1 (ko) 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템
CN115858886A (zh) 数据处理方法、装置、设备及可读存储介质
US20220300831A1 (en) Context-aware entity linking for knowledge graphs
CN107506349A (zh) 一种基于网络日志的用户负面情绪预测方法和系统
Gencoglu Deep representation learning for clustering of health tweets
CN115757695A (zh) 一种日志语言模型训练方法及系统
CN113869049B (zh) 基于法律咨询问题的具有法律属性的事实抽取方法及装置
CN115146634A (zh) 应急预案转化待办流程图的处理方法及相关装置
KR102569381B1 (ko) 테이블 중심의 웹 문서를 위한 기계독해 시스템 및 방법
Lincy et al. An enhanced pre-processing model for big data processing: A quality framework
KR102203895B1 (ko) 임베딩 기반의 인과 관계 탐지 시스템과 방법 및 이를 실행하기 위한 프로그램이 기록된 기록매체
CN107544962A (zh) 基于相似文本反馈的社交媒体文本查询扩展方法
Khankasikam Knowledge capture for Thai word segmentation by using CommonKADS

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right