KR20220000496A - 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템 - Google Patents
온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템 Download PDFInfo
- Publication number
- KR20220000496A KR20220000496A KR1020200078222A KR20200078222A KR20220000496A KR 20220000496 A KR20220000496 A KR 20220000496A KR 1020200078222 A KR1020200078222 A KR 1020200078222A KR 20200078222 A KR20200078222 A KR 20200078222A KR 20220000496 A KR20220000496 A KR 20220000496A
- Authority
- KR
- South Korea
- Prior art keywords
- deep learning
- pathology
- result report
- ontology database
- test result
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H15/00—ICT specially adapted for medical reports, e.g. generation or transmission thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Pathology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
본 발명의 일 실시예에 따른 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템은, 병리검사결과보고서의 정제 및 키워드 추출을 위한 키워드를 제공하는 온톨로지 데이터베이스; 인공지능 딥러닝 모델을 적용하여 상기 온톨로지 데이터베이스에 저장된 온톨로지를 기반으로 병리검사결과보고서의 키워드를 추출하는 인공지능 딥러닝 키워드 추출부; 및 상기 인공지능 딥러닝 키워드 추출부에 의해 추출된 키워드를 상기 온톨로지 데이터베이스에 저장된 온톨로지를 기반으로 카테고리 분류, 용어 매핑, 유사도 평가 중 적어도 하나 이상을 수행하여 정상적으로 정제되지 않은 데이터를 식별하고 필터링하는 후처리 필터부를 포함할 수 있다.
Description
본 출원은 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템에 관한 것이다.
의료 분야의 빅데이터를 구축하기 위해서는 데이터의 정제가 필수적이다. 그러나, 의료기관 내의 대다수의 데이터가 코드화되지 않은 비정형 텍스트 혹은 이미지로 구성되어 있으며, 특히 병원검사결과들은 전문적인 용어 및 도메인 별로 특이한 구성으로 이루어져 있어서 일반적인 데이터 정제 과정을 통해 가치 있는 데이터로 정제하기 어렵다.
이에, 데이터의 분석을 위해서 사람이 직접 보고서를 분석 및 정리하여 데이터베이스로 구축하고 있는 실정이다. 그러나, 이 과정에서 데이터베이스의 일관성이 손상되고, 기입 과정에서 오타가 발생하는 등의 문제가 발생한다.
종래에는 의료 데이터베이스 구축을 위해 의료장비에서 직접 데이터를 분리 및 추출하여 데이터베이스화 하거나, 룰 기반으로 연계 활용하는 방법들이 제안된 바 있다.
그러나, 실제 병원 병원데이터는 전문가가 최종적으로 확인하여 수정 보완한 후 최종보고서 형태로 저장하고 있다. 따라서, 의료장비에서 출력된 데이터를 바로 데이터베이스화하는 경우 데이터 오류율이 높고, 방대한 의학적 지식을 기반으로 전문가가 최종 수정 보완하는 것을 룰 기반으로 정리하는 것도 실효성이 떨어진다는 문제가 있다.
따라서, 당해 기술분야에서는 보다 정확하고 효율적으로 의료 데이터를 정제하기 위한 방안이 요구되고 있다.
상기 과제를 해결하기 위해서, 본 발명의 일 실시예는 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템을 제공한다.
상기 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템은, 병리검사결과보고서의 정제 및 키워드 추출을 위한 키워드를 제공하는 온톨로지 데이터베이스; 인공지능 딥러닝 모델을 적용하여 상기 온톨로지 데이터베이스에 저장된 온톨로지를 기반으로 병리검사결과보고서의 키워드를 추출하는 인공지능 딥러닝 키워드 추출부; 및 상기 인공지능 딥러닝 키워드 추출부에 의해 추출된 키워드를 상기 온톨로지 데이터베이스에 저장된 온톨로지를 기반으로 카테고리 분류, 용어 매핑, 유사도 평가 중 적어도 하나 이상을 수행하여 정상적으로 정제되지 않은 데이터를 식별하고 필터링하는 후처리 필터부를 포함할 수 있다.
덧붙여 상기한 과제의 해결수단은, 본 발명의 특징을 모두 열거한 것이 아니다. 본 발명의 다양한 특징과 그에 따른 장점과 효과는 아래의 구체적인 실시형태를 참조하여 보다 상세하게 이해될 수 있을 것이다.
본 발명의 일 실시예에 따르면, 의료기관에서 활용도가 높은 병리검사결과보고서를 대상으로 온톨로지 데이터베이스 기반의 딥러닝을 통해 정제함으로써 고품질의 데이터베이스를 구축할 수 있다.
이를 통해, 데이터베이스의 다기관 상호운용성을 높이고 데이터 분석을 용이하게 할 수 있다.
도 1은 본 발명의 일 실시예에 따른 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템의 구성도이다.
도 2a 내지 도 2c는 도 1에 도시된 데이터 도입부로 입력된 병리검사결과보고서의 일 예 및 이를 텍스트 분할부 및 전처리 필터부를 통해 처리한 결과를 도시하는 도면이다.
도 3은 도 1에 도시된 온톨로지 데이터베이스의 일 예를 도시하는 도면이다.
도 4는 도 1에 도시된 데이터 수정부를 통해 처리한 결과를 도시하는 도면이다.
도 5는 본 발명의 일 실시예에 따른 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템에 다양한 인공지능 기술을 적용하여 성능을 비교한 결과를 도시하는 도면이다.
도 6은 본 발명의 일 실시예에 따라 온톨로지 데이터베이스를 기반으로 딥러닝을 적용하는 경우와 온톨로지 데이터베이스를 사용하지 않는 경우의 성능을 비교한 결과를 도시하는 도면이다.
도 7은 본 발명의 일 실시예에 따른 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템을 통해 정제 서비스를 제공하는 경우의 화면 구성 예를 도시하는 도면이다.
도 2a 내지 도 2c는 도 1에 도시된 데이터 도입부로 입력된 병리검사결과보고서의 일 예 및 이를 텍스트 분할부 및 전처리 필터부를 통해 처리한 결과를 도시하는 도면이다.
도 3은 도 1에 도시된 온톨로지 데이터베이스의 일 예를 도시하는 도면이다.
도 4는 도 1에 도시된 데이터 수정부를 통해 처리한 결과를 도시하는 도면이다.
도 5는 본 발명의 일 실시예에 따른 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템에 다양한 인공지능 기술을 적용하여 성능을 비교한 결과를 도시하는 도면이다.
도 6은 본 발명의 일 실시예에 따라 온톨로지 데이터베이스를 기반으로 딥러닝을 적용하는 경우와 온톨로지 데이터베이스를 사용하지 않는 경우의 성능을 비교한 결과를 도시하는 도면이다.
도 7은 본 발명의 일 실시예에 따른 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템을 통해 정제 서비스를 제공하는 경우의 화면 구성 예를 도시하는 도면이다.
이하, 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예를 상세하게 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 또한, 유사한 기능 및 작용을 하는 부분에 대해서는 도면 전체에 걸쳐 동일한 부호를 사용한다.
덧붙여, 명세서 전체에서, 어떤 부분이 다른 부분과 '연결'되어 있다고 할 때, 이는 '직접적으로 연결'되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 '간접적으로 연결'되어 있는 경우도 포함한다. 또한, 어떤 구성요소를 '포함'한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.
도 1은 본 발명의 일 실시예에 따른 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템의 구성도이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 병리검사결과보고서 정제 시스템(100)은 데이터 도입부(110), 텍스트 분할부(120), 전처리 필터부(130), 데이터 수정부(140), 인공지능 딥러닝 키워드 추출부(150), 후처리 필터부(160), 데이터 수정부(170), 인공지능 딥러닝 알고리즘 수정부(180), 데이터베이스 서버(190) 및 온톨로지 데이터베이스(DB)를 포함하여 구성될 수 있다.
데이터 도입부(110)는 병원정보시스템 등과 같은 의료기관의 서버에 저장된 데이터, 즉, 병리검사결과보고서를 입력 받고 이를 후술하는 구성에 의해 처리할 수 있는 기 정해진 형태로 변환하여 데이터를 생성할 수 있다. 여기서, 병리검사결과보고서는 의료기관에서 수집 및 저장된 것으로, 인위적으로 작성되거나 의료 장비에서 추출된 것일 수 있으며, 텍스트 및 특수문자 중 적어도 하나에 의해 기술된 것일 수 있다. 또한, 병리검사결과보고서는 단일 결과보고서뿐만 아니라 복수의 결과보고서를 포함할 수도 있다.
일 실시예에 따르면, 데이터 도입부(110)은 사용자에 의해 직접 입력된 텍스트를 입력 받을 수도 있고, 예를 들어 CSV(comma separated value) 파일, EXCEL 파일, 텍스트 파일 등과 같은 임의의 파일 형식으로 데이터를 입력 받을 수도 있다. 그러나, 상술한 파일 형식은 예시에 불과한 것으로, 특정한 파일로 한정되지 않고 어떠한 파일 형식으로도 데이터를 입력 받을 수 있다.
다른 실시예에 따르면, 데이터 도입부(110)는 예를 들어 MS-SQL 등과 같은 DBMS(database management system)를 통해 병리검사결과보고서가 저장된 데이터베이스에 접속하여 데이터를 입력 받을 수도 있다.
텍스트 분할부(120)는 데이터 도입부(110)에 의해 생성된 하나 이상의 병리검사결과 데이터를 전달 받아서 단일 검사결과 분석단위로 분할할 수 있다.
전처리 필터부(130)는 텍스트 분할부(120)에 의해 단일 검사결과 분석단위로 분할된 데이터를 온톨로지 데이터베이스(DB)에 저장된 데이터와 비교 분석하여 수정이 필요한 부분을 필터링할 수 있다.
또한, 전처리 필터부(130)는 단일 검사결과 분석단위로 분할된 데이터에 포함된 대문자는 소문자로 변환하고, 웹 페이지 링크, 기 설정된 특수문자(예를 들어, '#', '.'등)를 제외한 불필요한 특수문자를 제거할 수 있다.
또한, 전처리 필터부(130)는 입력된 병리검사결과보고서에 복수의 결과보고서가 포함된 경우 이를 단일 검사결과보고서로 분리할 수도 있다.
도 2a 내지 도 2c는 도 1에 도시된 데이터 도입부로 입력된 병리검사결과보고서의 일 예 및 이를 텍스트 분할부 및 전처리 필터부를 통해 처리한 결과를 도시하는 도면이다.
도 2a에 도시된 바와 같은 병리검사결과보고서는 텍스트 분할부에 의해 도 2b에 도시된 바와 같이 단일 검사결과 분석단위로 분할될 수 있고, 이후 전처리 필터부에 의해 도 2c에 도시된 바와 같이 필요한 부분만 필터링될 수 있다.
본 발명의 일 실시예에 따른 병리검사결과보고서 정제 시스템(100)은 필요에 따라 상술한 데이터 도입부(110), 텍스트 분할부(120) 및 전처리 필터부(130) 중 적어도 하나 이상을 포함할 수 있으며, 데이터 도입부(110), 텍스트 분할부(120) 및 전처리 필터부(130) 중 적어도 하나의 의해 처리된 데이터가 후술하는 인공지능 딥러닝 키워드 추출부(150)에 전달될 수 있다.
데이터 수정부(140)는 전처리 필터부(130)에 의해 필터링된 데이터에서 수정이 필요한 부분(예를 들어, 오탈자, 텍스트 인코딩 오류 등)를 수정하여 후술하는 인공지능 딥러닝 키워드 추출부(150)에서의 분석이 용이하도록 할 수 있다.
도 4는 도 1에 도시된 데이터 수정부를 통해 처리한 결과를 도시하는 도면으로, 도 4에 도시된 바와 같이 필터링된 데이터에서 존재하는 오탈자 등을 수정할 수 있다.
인공지능 딥러닝 키워드 추출부(150)는 인공지능 딥러닝 모델을 적용하여 온톨로지 데이터베이스에 저장된 온톨로지를 기반으로 병리검사결과보고서의 키워드를 추출할 수 있다.
이를 위해, 인공지능 딥러닝 키워드 추출부(150)에서 사용되는 딥러닝 모델은 기 구축된 다량의 학습 데이터(즉, 비정형 데이터인 병리검사결과보고서 및 이에 대한 키워드 추출 결과)를 통해 사전에 학습될 수 있다.
이후, 인공지능 딥러닝 키워드 추출부(150)는 학습된 딥러닝 모델을 통해 온톨로지 데이터베이스에 저장된 표본(Specimen), 절차(Procedure) 및 병리학(Pathology) 중 하나의 키워드를 기반으로 키워드를 추출할 수 있다.
다시 말해, 본 발명의 실시예에 따르면, 인공지능 딥러닝 키워드 추출부(150)는 병리검사결과보고서에서 키워드를 추출함에 있어서 온톨로지를 기반으로 인공지능 딥러닝 모델을 적용함으로써, 도 6을 참조하여 구체적으로 후술하는 바와 같이 온톨로지를 사용하지 않고 학습을 수행하는 경우에 비해 키워드 추출의 정확도를 크게 향상시킬 수 있다.
후처리 필터부(160)는 인공지능 딥러닝 키워드 추출부(150)에 의해 추출된 키워드를 온톨로지 데이터베이스(DB)에 저장된 온톨로지를 기반으로 카테고리 분류, 용어 매핑, 유사도 평가 중 적어도 하나 이상을 수행하여 정상적으로 정제되지 않은 데이터를 식별하고 필터링할 수 있다.
후처리 필터부(160)에 의해 정상적으로 정제된 것으로 식별된 데이터는 별도 구비된 데이터베이스 서버(190)로 이관될 수 있고, 정상적으로 정제되지 않은 것으로 식별된 데이터는 데이터 수정부(170)로 이관될 수 있다.
데이터 수정부(170)는 후처리 필터부(160)로부터 이관된 데이터를 수정 및 정제하고 그 결과를 데이터베이스 서버(190) 및 인공지능 딥러닝 알고리즘 수정부(180)로 이관할 수 있다.
인공지능 딥러닝 알고리즘 수정부(180)는 데이터 수정부(170)로부터 이관된 수정 및 정제 결과를 기반으로 인공지능 딥러닝 키워드 추출부(150)에서 사용되는 딥러닝 모델을 수정하여 인공지능 딥러닝에 의한 키워드 분석 결과의 정확도를 보다 향상시킬 수 있다.
데이터베이스 서버(190)는 데이터 수정부(170)로부터 이관된 수정 및 정제 결과를 저장할 수 있다.
또한, 데이터베이스 서버(190)는 병리검사결과보고서의 정제 결과를 제공하는 인터페이스를 제공할 수 있으며, 인터페이스는 도 6을 참조하여 후술하는 바와 같이 인공지능 딥러닝 키워드 추출부(150)에 의해 추출된 키워드를 포함하며, 표본(Specimen), 절차(Procedure) 및 병리학(Pathology) 중 적어도 하나의 정보를 제공할 수 있다.
온톨로지 데이터베이스(DB)는 병리검사결과보고서의 정제 및 키워드 추출을 위해 키워드를 제공하는 것으로, 수집된 병리용어, 약자 등을 중복을 제외하고 정리하여 사전에 구축된 것일 수 있다.
도 3은 도 1에 도시된 온톨로지 데이터베이스의 일 예를 도시하는 도면이다. 일 실시예에 따르면, 온톨로지 데이터베이스(DB)는 도 3에 도시된 바와 같이 표본(Specimen), 절차(Procedure), 병리학(Pathology)으로 구분된 키워드를 포함하여 구축될 수 있다. 그러나, 본 발명에서 사용되는 온톨로지 데이터베이스가 반드시 이로 제한되는 것은 아니며, 병리검사결과보고서에서 추출 가능한 키워드가 추가적으로 존재하는 경우 확장될 수 있다.
또한, 온톨로지 데이터베이스(DB)는 입력된 병리검사결과보고서에 대한 키워드 추출 실행 시에 해당 병리검사결과보고서에 대한 요청에 응답하여 저장된 키워드를 실시간으로 제공할 수 있다.
도 5는 본 발명의 일 실시예에 따른 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템에 다양한 인공지능 기술을 적용하여 성능을 비교한 결과를 도시하는 도면이다.
상술한 바와 같은 본 발명의 실시예에 따른 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템의 성능 검증을 위해, 병리검사결과보고서 6,000여건을 이용하여 다양한 인공지능 기술, 즉 BERT, LSTM, CNN, Bayes Classifier, Kea 및 WINGNUS를 적용한 경우의 매칭률을 확인하였다. 여기서 사용되는 인공지능 기술은 통상의 기술자에게 알려진 바에 따라 구현될 수 있는 바 이에 대한 구체적인 설명은 생략한다.
도 5를 참조하면, BERT 모델을 적용한 경우에 매칭률이 가장 높은 것을 알 수 있으나, 본 발명에 적용되는 인공지능 기술이 반드시 이로 제한되는 것은 아니다.
도 6은 본 발명의 일 실시예에 따라 온톨로지 데이터베이스를 기반으로 딥러닝을 적용하는 경우와 온톨로지 데이터베이스를 사용하지 않는 경우의 성능을 비교한 결과를 도시하는 도면으로, 특히 BERT 모델을 적용한 경우의 성능을 비교한 것이다.
도 6을 참조하면, 본 발명의 일 실시예에 따라 온톨로지 데이터베이스를 기반으로 딥러닝을 적용하는 경우, 온톨로지 데이터베이스를 사용하지 않은 경우에 비해 매칭률이 대략 90배 이상 향상됨을 확인하였다. 즉, 본 발명에서는 병리검사결과보고서에 딥러닝을 적용하는 경우 온톨로지를 기반으로 함으로써 높은 정확도로 키워드를 추출하여 정제를 수행할 수 있다.
도 7은 본 발명의 일 실시예에 따른 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템을 통해 정제 서비스를 제공하는 경우의 화면 구성 예를 도시하는 도면이다.
도 7을 참조하면, 화면 상단에 제공되는 데이터 입력 부분(610)에 병리검사결과보고서가 입력될 수 있다. 여기서, 병리검사결과보고서는 서술문, 요약 및 단어 등의 형태로 입력될 수 있다. 서술문은 검사결과 및 이에 대한 설명이 함께 기재되어 있는 형태이고, 요약은 검사결과만 특수문자로 기재된 형태이며, 단어는 요약에 비해 더 간단한 필수용어만 포함하도록 기재된 형태이나, 본 발명에서 병리검사결과보고서의 입력 형태가 이로 제한되는 것은 아니다.
이와 같이, 데이터 입력 부분(610)에 병리검사결과보고서가 입력된 후 키워드 추출 버튼(620)이 클릭되면, 상술한 본 발명의 실시예에 따라 키워드가 추출되고 화면 하단에 키워드 추출결과(640)가 제공될 수 있다.
한편, 병리검사결과보고서의 입력은 직접적인 텍스트 입력에 의해서가 아니라 CSV, 엑셀 파일, 텍스트 등과 같은 파일 업로드를 통해 이루어질 수도 있으며(630), 이 밖에도 DBMS를 통해 원본 병리검사결과보고서가 저장된 데이터베이스에 직접 연결하여 입력되는 방식 등을 통해서도 이루어질 수 있다.
또한, 키워드 추출 및 정제 결과는 화면에서 직접적으로 확인하는 방법 이외에, 결과를 다양한 형식으로 다운로드(650) 가능하도록 구현될 수도 있다.
본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다. 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 본 발명에 따른 구성요소를 치환, 변형 및 변경할 수 있다는 것이 명백할 것이다.
100: 병리검사결과보고서 정제 시스템
110: 데이터 도입부
120: 텍스트 분할부
130: 전처리 필터부
140: 데이터 수정부
150: 인공지능 딥러닝 키워드 추출부
160: 후처리 필터부
170: 데이터 수정부
180: 인공지능 딥러닝 알고리즘 수정부
190: 데이터베이스 서버
DB: 온톨로지 데이터베이스
110: 데이터 도입부
120: 텍스트 분할부
130: 전처리 필터부
140: 데이터 수정부
150: 인공지능 딥러닝 키워드 추출부
160: 후처리 필터부
170: 데이터 수정부
180: 인공지능 딥러닝 알고리즘 수정부
190: 데이터베이스 서버
DB: 온톨로지 데이터베이스
Claims (13)
- 병리검사결과보고서의 정제 및 키워드 추출을 위한 키워드를 제공하는 온톨로지 데이터베이스;
인공지능 딥러닝 모델을 적용하여 상기 온톨로지 데이터베이스에 저장된 온톨로지를 기반으로 병리검사결과보고서의 키워드를 추출하는 인공지능 딥러닝 키워드 추출부; 및
상기 인공지능 딥러닝 키워드 추출부에 의해 추출된 키워드를 상기 온톨로지 데이터베이스에 저장된 온톨로지를 기반으로 카테고리 분류, 용어 매핑, 유사도 평가 중 적어도 하나 이상을 수행하여 정상적으로 정제되지 않은 데이터를 식별하고 필터링하는 후처리 필터부를 포함하는 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템.
- 제 1 항에 있어서,
상기 온톨로지 데이터베이스는 표본(Specimen), 절차(Procedure) 및 병리학(Pathology)으로 구분된 키워드를 포함하여 구축된 것을 특징으로 하는 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템.
- 제 1 항에 있어서,
상기 온톨로지 데이터베이스는 입력된 병리검사결과보고서에 대한 키워드 추출 실행 시에 상기 병리검사결과보고서에 대한 요청에 응답하여 저장된 키워드를 제공하는 것을 특징으로 하는 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템.
- 제 2 항에 있어서,
상기 인공지능 딥러닝 키워드 추출부는 상기 온톨로지 데이터베이스에 저장된 표본(Specimen), 절차(Procedure) 및 병리학(Pathology) 중 하나의 키워드를 기반으로 키워드를 추출하는 것을 특징으로 하는 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템.
- 제 1 항에 있어서,
상기 병리검사결과보고서는 의료기관에서 수집 및 저장된 것으로, 인위적으로 작성되거나 의료 장비에서 추출된 것이며, 텍스트 및 특수문자 중 적어도 하나에 의해 기술된 것을 특징으로 하는 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템.
- 제 1 항에 있어서,
상기 병리검사결과보고서는 단일 또는 복수의 결과보고서를 포함하며, CSV 파일, Excel 파일, 텍스트 파일을 포함하는 임의의 포맷인 것을 특징으로 하는 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템.
- 제 1 항에 있어서,
입력된 병리검사결과보고서를 기 정해진 형태로 변환하여 데이터를 생성하는 데이터 도입부;
상기 데이터 도입부에 의해 생성된 데이터를 전달받아 단일 검사결과 분석단위로 분할하는 텍스트 분할부; 및
상기 텍스트 분할부에 의해 분할된 데이터를 상기 온톨로지 데이터베이스에 저장된 데이터와 비교 분석하여 수정이 필요한 부분을 필터링하는 전처리 필터부 중 적어도 하나를 더 포함하며,
상기 데이터 도입부, 상기 텍스트 분할부 및 상기 전처리 필터부 중 적어도 하나의 의해 처리된 데이터를 상기 인공지능 딥러닝 키워드 추출부에 전달하는 것을 특징으로 하는 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템.
- 제 7 항에 있어서,
상기 전처리 필터부는 상기 분할된 데이터에 포함된 대문자를 소문자로 변환하고, 웹 페이지 링크 및 기 설정된 특수문자를 제외한 특수문자를 제거하는 것을 특징으로 하는 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템.
- 제 7 항에 있어서,
상기 전처리 필터부는 상기 병리검사결과보고서에 포함된 복수의 결과보고서를 단일 검사로 분리하는 것을 특징으로 하는 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템.
- 제 7 항에 있어서,
상기 전처리 필터부에 의해 필터링된 데이터에 존재하는 오류를 수정하는 전처리 데이터 수정부를 더 포함하는 것을 특징으로 하는 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템.
- 제 1 항에 있어서,
상기 후처리 필터부로부터 정상적으로 정제되지 않은 것으로 식별된 데이터를 이관받아 수정 및 정제하는 후처리 데이터 수정부; 및
상기 후처리 데이터 수정부로부터 이관된 수정 및 정제 결과를 기반으로 상기 인공지능 딥러닝 키워드 추출부에서 사용되는 딥러닝 모델을 수정하는 인공지능 딥러닝 알고리즘 수정부를 더 포함하는 것을 특징으로 하는 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템.
- 제 11 항에 있어서,
상기 후처리 데이터 수정부로부터 이관된 수정 및 정제 결과를 저장하는 데이터베이스 서버를 더 포함하는 것을 특징으로 하는 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템.
- 제 12 항에 있어서,
상기 데이터베이스 서버는 상기 병리검사결과보고서의 정제 결과를 제공하는 인터페이스를 제공하며,
상기 인터페이스는 상기 인공지능 딥러닝 키워드 추출부에 의해 추출된 키워드를 포함하며, 표본(Specimen), 절차(Procedure) 및 병리학(Pathology) 중 적어도 하나의 정보를 제공하는 것을 특징으로 하는 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200078222A KR102426091B1 (ko) | 2020-06-26 | 2020-06-26 | 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템 |
PCT/KR2021/005760 WO2021261763A1 (ko) | 2020-06-26 | 2021-05-07 | 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200078222A KR102426091B1 (ko) | 2020-06-26 | 2020-06-26 | 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20220000496A true KR20220000496A (ko) | 2022-01-04 |
KR102426091B1 KR102426091B1 (ko) | 2022-07-29 |
Family
ID=79281485
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200078222A KR102426091B1 (ko) | 2020-06-26 | 2020-06-26 | 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템 |
Country Status (2)
Country | Link |
---|---|
KR (1) | KR102426091B1 (ko) |
WO (1) | WO2021261763A1 (ko) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116564539B (zh) * | 2023-07-10 | 2023-10-24 | 神州医疗科技股份有限公司 | 基于信息抽取和实体归一的医学相似病例推荐方法和系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011010889A (ja) * | 2009-07-02 | 2011-01-20 | Toshiba Corp | 医用画像読影システム |
KR101099446B1 (ko) * | 2010-07-07 | 2011-12-27 | 주식회사 경희매니지먼트컴퍼니 | 문자추출시스템 및 문자추출방법 |
JP2015207261A (ja) * | 2014-04-23 | 2015-11-19 | 株式会社東芝 | 医用レポート作成支援装置およびそのレポート表示制御方法 |
KR20170133692A (ko) * | 2016-05-26 | 2017-12-06 | 아주대학교산학협력단 | 의료 기록 문서에서의 의료 단어의 연관 규칙 생성 방법 및 그 장치 |
KR20180113287A (ko) * | 2017-04-06 | 2018-10-16 | 인충교 | 비정형 의료 검사결과 데이터 관리시스템 |
KR20190102399A (ko) * | 2018-02-26 | 2019-09-04 | (주)헬스허브 | 정제된 인공지능 강화학습 데이터 생성을 통한 의료영상 판독 시스템 및 그 방법 |
KR20200022109A (ko) * | 2018-08-22 | 2020-03-03 | 주식회사 위담바이오 | 한방 데이터의 온톨로지 정보체계 구축 시스템 및 방법 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200022110A (ko) * | 2018-08-22 | 2020-03-03 | 주식회사 위담바이오 | 한의학 임상데이터 수집 및 딥러닝 기반 데이터 분석 시스템 |
-
2020
- 2020-06-26 KR KR1020200078222A patent/KR102426091B1/ko active IP Right Grant
-
2021
- 2021-05-07 WO PCT/KR2021/005760 patent/WO2021261763A1/ko active Application Filing
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011010889A (ja) * | 2009-07-02 | 2011-01-20 | Toshiba Corp | 医用画像読影システム |
KR101099446B1 (ko) * | 2010-07-07 | 2011-12-27 | 주식회사 경희매니지먼트컴퍼니 | 문자추출시스템 및 문자추출방법 |
JP2015207261A (ja) * | 2014-04-23 | 2015-11-19 | 株式会社東芝 | 医用レポート作成支援装置およびそのレポート表示制御方法 |
KR20170133692A (ko) * | 2016-05-26 | 2017-12-06 | 아주대학교산학협력단 | 의료 기록 문서에서의 의료 단어의 연관 규칙 생성 방법 및 그 장치 |
KR20180113287A (ko) * | 2017-04-06 | 2018-10-16 | 인충교 | 비정형 의료 검사결과 데이터 관리시스템 |
KR20190102399A (ko) * | 2018-02-26 | 2019-09-04 | (주)헬스허브 | 정제된 인공지능 강화학습 데이터 생성을 통한 의료영상 판독 시스템 및 그 방법 |
KR20200022109A (ko) * | 2018-08-22 | 2020-03-03 | 주식회사 위담바이오 | 한방 데이터의 온톨로지 정보체계 구축 시스템 및 방법 |
Non-Patent Citations (1)
Title |
---|
Engy Yehia 외, Ontology-based clinical information extraction from physician’s free-text notes, Journal of Biomedical Informatics, 2019.08.29., Vol.98, No.103276, pp.1-14.* * |
Also Published As
Publication number | Publication date |
---|---|
WO2021261763A1 (ko) | 2021-12-30 |
KR102426091B1 (ko) | 2022-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107577826B (zh) | 基于原始诊断数据的疾病分类编码方法及系统 | |
CN107705839A (zh) | 疾病自动编码方法及系统 | |
KR102491172B1 (ko) | 자연어 질의응답 시스템 및 그 학습 방법 | |
CN111159223A (zh) | 一种基于结构化嵌入的交互式代码搜索方法及装置 | |
CN105975491A (zh) | 企业新闻分析方法及系统 | |
US20220004706A1 (en) | Medical data verification method and electronic device | |
US20140180728A1 (en) | Natural Language Processing | |
CN104391881A (zh) | 一种基于分词算法的日志解析方法及系统 | |
CN111028952B (zh) | 一种中文医学蕴含知识图谱构建方法及装置 | |
Katsis et al. | Ait-qa: Question answering dataset over complex tables in the airline industry | |
Bani-Almarjeh et al. | Arabic abstractive text summarization using RNN-based and transformer-based architectures | |
US10586161B2 (en) | Cognitive visual debugger that conducts error analysis for a question answering system | |
KR102426091B1 (ko) | 온톨로지 데이터베이스 기반의 딥러닝을 통한 병리검사결과보고서 정제 시스템 | |
CN115858886A (zh) | 数据处理方法、装置、设备及可读存储介质 | |
US20220300831A1 (en) | Context-aware entity linking for knowledge graphs | |
CN107506349A (zh) | 一种基于网络日志的用户负面情绪预测方法和系统 | |
Gencoglu | Deep representation learning for clustering of health tweets | |
CN115757695A (zh) | 一种日志语言模型训练方法及系统 | |
CN113869049B (zh) | 基于法律咨询问题的具有法律属性的事实抽取方法及装置 | |
CN115146634A (zh) | 应急预案转化待办流程图的处理方法及相关装置 | |
KR102569381B1 (ko) | 테이블 중심의 웹 문서를 위한 기계독해 시스템 및 방법 | |
Lincy et al. | An enhanced pre-processing model for big data processing: A quality framework | |
KR102203895B1 (ko) | 임베딩 기반의 인과 관계 탐지 시스템과 방법 및 이를 실행하기 위한 프로그램이 기록된 기록매체 | |
CN107544962A (zh) | 基于相似文本反馈的社交媒体文本查询扩展方法 | |
Khankasikam | Knowledge capture for Thai word segmentation by using CommonKADS |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right |