KR20160030809A - 비구조화 임상 문서의 치환 기반 패턴 검색 장치 및 검색 방법 - Google Patents

비구조화 임상 문서의 치환 기반 패턴 검색 장치 및 검색 방법 Download PDF

Info

Publication number
KR20160030809A
KR20160030809A KR1020140120473A KR20140120473A KR20160030809A KR 20160030809 A KR20160030809 A KR 20160030809A KR 1020140120473 A KR1020140120473 A KR 1020140120473A KR 20140120473 A KR20140120473 A KR 20140120473A KR 20160030809 A KR20160030809 A KR 20160030809A
Authority
KR
South Korea
Prior art keywords
structured
information
unit
pattern
unstructured
Prior art date
Application number
KR1020140120473A
Other languages
English (en)
Other versions
KR101607672B1 (ko
Inventor
이승룡
아프잘 무하마드
Original Assignee
경희대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 경희대학교 산학협력단 filed Critical 경희대학교 산학협력단
Priority to KR1020140120473A priority Critical patent/KR101607672B1/ko
Publication of KR20160030809A publication Critical patent/KR20160030809A/ko
Application granted granted Critical
Publication of KR101607672B1 publication Critical patent/KR101607672B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Machine Translation (AREA)

Abstract

본 발명에 따른 비구조화 임상 문서의 치환 기반 패턴 검색 장치는 자연어 처리(Natural Language Processing, NLP) 과정을 통해 수신된 비구조화 의학 문서를 정규화(Normalization)하여 정규화된 텍스트를 생성하는 자연어 처리부, 정규화된 텍스트 및 수신된 도메인 모델을 매칭하여 개체명 인식(Named Entity Recognition) 정보를 식별하는 개체명 인식부, 치환 기반 패턴 발견 접근법(permutation-based pattern discovery approach)을 이용하여 개체명 인식 정보로부터 구조화된 정보를 생성하는 패턴 인식부 및 구조화된 정보에 기초하여 규정된 템플릿을 작성하는 템플릿 작성부를 포함한다.

Description

비구조화 임상 문서의 치환 기반 패턴 검색 장치 및 검색 방법{APPARATUS AND METHOD FOR PERMUTATION BASED PATTERN DISCOVERY TECHNIQUE IN UNSTRUCTURED CLINICAL DOCUMENTS}
본 발명은 자연어 처리(Natural Language Processing)에 관한 것으로, 보다 상세하게는 자연어 처리 기술을 활용하여 구조화 되지 않은 문서에서 정보를 추출하는 기술에 관한 것이다.
바이오메디컬(Biomedical) 분야에서 활용되는 가용한 의학 정보의 대부분은 비정형 텍스트(Free-text) 형태로 기록된다. 특히, 자유 형태로 작성된 서술형 텍스트(Narrative Text)는 분야별 약어(Abbreviation) 사용 및 맞춤법 때문에, 통일된 형태를 가지기 어렵다. 자유로운 형태로 작성된 문서는 의료 서비스를 제공하는 사람에게는 작성이 편리하지만, 임상 연구, 통계 분석, 의사 결정 지원(Decision Support) 및 다른 종단 역학조사 분야에서 활용하는데 어려움이 있다.
의학 관련 분야에서 활용되고 있는 종래의 정보 추출 기술은 퇴원 기록지(Discharge Summaries)나 수술병리검사 보고서 등과 같은 임상 관련 자료에 기재된 의학적 서술(Clinical Narratives)로부터 치료 행위(Medication) 명칭 및 서명을 추출한다. 하지만, 상술한 바와 같이, 상당수의 임상 관련 자료는 정해진 형식(Format)이나 템플릿(Template)을 가지지 않는 경우가 많으며, 특히, 연구 노트나 임상 노트와 같은 경우 서술형 텍스트로 기재되어 있는 경우가 많다. 따라서, 종래의 정보 추출 기술로는 정해진 템플릿을 가지지 않은 서술형 텍스트에서 필요한 정보를 제대로 추출하기 여려우며, 직접 필요한 정보를 검색하기 위해서는 상당한 시간이 요구된다.
대한민국 공개특허 제10-2011-0110683호는 참조용어에 기반하는 용어체계 저작지원 시스템에 대해 개시되어 있다. 상기 특허는 의료기관에서 사용되는 의료용어로부터 구조화된 용어체계를 구축하는 내용을 포함한다. 하지만, 상기 특허는 참조용어 체계와의 매핑 관계를 통해 구조화된 용어체계를 구축할 뿐, 불분명한 형식이나 템플릿으로 기재된 서술형 기록으로부터 구조화된 정보를 효과적으로 추출하지 못한다.
대한민국 공개특허 제10-2011-0110683호
본 발명이 해결하고자 하는 과제는 서술 형식으로 쓰여지거나 또는 자유로운 형식으로 기재된 다수의 구조화 되지 않은 의학 문서를 구조화할 수 있는 치환 기반 패턴 검색 장치 및 검색 방법을 제공하는 것이다.
본 발명에 따른 비구조화 임상 문서의 치환 기반 패턴 검색 장치는 자연어 처리(Natural Language Processing, NLP) 과정을 통해 수신된 비구조화 의학 문서를 정규화(Normalization)하여 정규화된 텍스트를 생성하는 자연어 처리부, 정규화된 텍스트 및 수신된 도메인 모델을 매칭하여 개체명 인식(Named Entity Recognition) 정보를 식별하는 개체명 인식부, 치환 기반 패턴 발견 접근법(permutation-based pattern discovery approach)을 이용하여 개체명 인식 정보로부터 구조화된 정보를 생성하는 패턴 인식부 및 구조화된 정보에 기초하여 규정된 템플릿을 작성하는 템플릿 작성부를 포함한다. 그리고, 도메인 사전(Domain Lexicons)으로 구성되어 있으며, 요구되는 모든 개체를 위한 엔트리(Entry)가 내장된 도메인 모델을 저장하는 도메인 모델부 및 구조화된 정보를 서로 다른 개체 사이의 명식적 관계를 고려하여 저장하는 구조화 텍스트 저장부를 더 포함할 수 있다.
자연어 처리부는 비구조화 의학 문서에서 의미있는 단어를 분류하고, 의미있는 단어를 선택된 특수 문자에 의거하여 개별 단어로 분할하여 토큰화된 단어를 생성하고, 토큰화된 단어에서 철자 변형, 알파벳 소문자화 및 축약을 조절하여 정규화된 텍스트를 생성한다.
패턴 인식부는 상기 개체명 인식 정보를 구성된 벨류(Value) 및 숫자가 아닌 키(Key)로 구분하고, 구분된 키 및 상기 벨류를 치환하여 비구조화 의학 문서의 패턴을 인식한다. 패턴 인식부는 개체명 인식 정보에서 키의 추출된 배열 및 벨류의 문자열을 매칭한다.
본 발명에 따른 비구조화 임상 문서의 치환 기반 패턴 검색 방법은 자연어 처리(Natural Language Processing, NLP) 과정을 통해 수신된 비구조화 의학 문서를 정규화(Normalization)하여 정규화된 텍스트를 생성한다. 그리고, 정규화된 텍스트 및 수신된 도메인 모델을 매칭하여 개체명 인식(Named Entity Recognition) 정보를 식별한다. 다음으로, 치환 기반 패턴 발견 접근법(permutation-based pattern discovery approach)을 이용하여 개체명 인식 정보로부터 구조화된 정보를 생성하고, 구조화된 정보에 기초하여 규정된 템플릿을 작성한다.
상기 정규화된 텍스트를 생성하는 단계는 상기 비구조화 의학 문서에서 의미있는 단어를 분류하고, 의미있는 단어를 선택된 특수 문자에 의거하여 개별 단어로 분할하여 토큰화된 단어를 생성하고, 토큰화된 단어에서 철자 변형, 알파벳 소문자화 및 축약을 조절하여 정규화된 텍스트를 생성한다. 그리고, 구조화된 정보를 생성하는 단계는 상기 개체명 인식 정보를 구성된 벨류(Value) 및 숫자가 아닌 키(Key)로 구분하고, 구분된 상기 키 및 상기 벨류를 치환하여 상기 비구조화 의학 문서의 패턴을 인식한다.
본 발명에 따른 비구조화 임상 문서의 치환 기반 패턴 검색 장치 및 검색 방법을 통해 구조화되지 않은 의학 문서로부터 구조화된 정보를 추출함으로써, 임상의 또는 연구원들이 정보를 보다 빠르게 검색 및 분류할 수 있으며, 정보의 공유를 용이하게 할 수 있다. 또한, 추출된 구조화된 정보의 환자 사례는 임상 의사 결정 시스템의 지식 베이스에 반영되어 임상 의사 결정을 효과적으로 지원할 수 있다.
도 1은 본 발명에 따른 비구조화 임상 문서의 치환 기반 패턴 검색 장치의 일 실시예를 나타내는 구성도이다.
도 2는 본 발명의 일 실시예에 따른 비구조화 임상 문서의 치환 기반 패턴 검색 방법을 나타내는 구성도이다.
이하, 본 발명의 실시예를 첨부된 도면들을 참조하여 상세하게 설명한다. 본 명세서에서 사용되는 용어 및 단어들은 실시예에서의 기능을 고려하여 선택된 용어들로서, 그 용어의 의미는 발명의 의도 또는 관례 등에 따라 달라질 수 있다. 따라서 후술하는 실시예에서 사용된 용어는, 본 명세서에 구체적으로 정의된 경우에는 그 정의에 따르며, 구체적인 정의가 없는 경우는 당업자들이 일반적으로 인식하는 의미로 해석되어야 할 것이다.
의학 분야에서, 의학 데이터의 상당수는 노트/레포트와 같이 자유로운 형식의 서술형 텍스트로 기재된 의학 문서의 형식으로 생성된다. 이와 같은 의학 데이터는 종종 임상의, 의학 연구원 또는 분석가에 의한 추가적인 분석이 요구된다. 일반적인 의학 문서의 데이터는 구조화되어 있지 않기 때문에, 임상의는 직접 의학 데이터를 구조화된 템플릿에 입력하는 과정을 필요로 한다. 하지만, 이와 같은 작업은 시간을 낭비하고 매일 매일의 의료 실습 과정에서 다양한 문제를 야기할 수 있다. 본 발명에 따른 비구조화 임상 문서의 치환 기반 패턴 검색 장치는 도메인 모델링(Domain Modeling), 개체명 인식(Named Entity Recognition), 새로운 치환 기반(Permutation-based) 패턴 인식 접근법에 따른 속성값 정렬, 템플릿 작성(Template Filling) 및 자연어 처리(Natural Language Processing, NLP) 기술을 활용하여 비구조화 의학 문서에서 구조화된 정보를 추출한다. 이와 같은 방법을 통해, 종래의 규칙 기반 시스템의 한계를 극복한다.
도 1은 본 발명에 따른 비구조화 임상 문서의 치환 기반 패턴 검색 장치의 일 실시예를 나타내는 구성도이다.
도 1을 참조하면, 본 발명에 따른 비구조화 임상 문서의 치환 기반 패턴 검색 장치(100)는 자연어 처리부(110), 개체명 인식부(120), 도메인 모델부(130), 패턴 인식부(140), 구조화 텍스트 저장부(150) 및 템플릿 작성부(160)를 포함한다.
자연어 처리부(110)는 자연어 처리(Natural Language Processing, NLP) 과정을 통해 구조화(Structure)되지 않은 비구조화 의학 문서를 정규화(Normalization)한다. 상당수의 의학 문서는 정해진 형식(Format)이나 템플릿(Template)을 가지지 않는 경우가 많다. 임상의나 연구원이 연구 노트 및 임상 노트 등을 작성할 때, 특정한 스타일로 작성하도록 강요할 수 없다. 따라서, 연구 노트나 임상 노트와 같은 경우 작성자에 의해 자유로운 형식의 서술형 텍스트로 기재되어 있는 경우가 많다. 따라서, 종래의 정보 추출 기술로는 정해진 템플릿을 가지지 않은 서술형 텍스트에서 필요한 정보를 제대로 추출하기 여려우며, 직접 필요한 정보를 검색하기 위해서는 상당한 시간이 요구된다. 이와 같은 문제를 해결하기 위해, 자연어 처리부(110)는 이와 같은 자유로운 형식의 구조화되지 않은 의학 문서를 인식하기 위해 먼저, 자연어 처리 기술을 활용한다. 자연어 처리 기술은 절/문장 경계 식별 및 토큰화(Tonenization) 과정을 포함한다. 자연어 처리부(110)는 일반적인 자연어 처리 과정(NLP)를 통해 이를 수행할 수 있다.
자연어 처리부(110)는 절/문장 경계 식별 및 토큰화 과정을 통해, 비구조화 의학 문서에서 의미있는 단어(Meaningful Words)를 분류하고, 의미있는 단어를 선택된 특수 문자(Character)에 의거하여 개별 단어로 분할하여 토큰화된 단어를 생성한다. 의미있는 단어는 불용어(Stop Words) 및 기호(괄호, 특수 문자 등)를 제외한 단어의 집합이다. 그리고, 자연어 처리부(110)는 토큰화된 단어에서 철자 변형(Spell Variation), 알파벳 소문자화(Alphabetic Lower Case) 및 축약(Abbreviation)을 조절하여 정규화한다. 예를 들어, 비구조화 의학 문서에 기재된 'Lymph Nodes Level 1'은 알파벳 소문자화 및 복수 단어의 단수화를 이용하여 'lymph node level 1'으로 정규화 된다. 자연어 처리부(110)는 정규화된 텍스트를 개체명 인식부(120)로 전달한다.
개체명 인식부(120)는 자연어 처리부(110)로부터 수신된 정규화된 텍스트 및 도메인 모델부(130)로부터 수신된 도메인 모델(Domain Model)을 매칭하여 개체명 인식(Named Entity Recognition) 정보를 식별한다. 개체명(Named Entity)은 입력 텍스트를 인식할 때 요구되는 개념이다. 그리고, 도메인 모델부(130)로부터 수신된 도메인 모델은 도메인 사전(Domain Lexicons)으로, 요구되는 모든 개체를 위한 엔트리(Entry)가 내장되어 있다. 개체명 인식 과정에서, 어휘 단어(Lexicon Word)는 정확하게 매칭되거나 또는 부분적으로 매칭될 수 있다. 정확한 매칭에서, 매칭된 단어는 부분적인 매칭 동안 추가 프로세싱을 위해 추출된다. 그리고, 부분 매칭 동안에 부분적으로 매칭된 단어는 추출되고, 다음 단어가 추출될 때까지 유지된다. 개체명 인식은 추출된 다음 단어와 연접(Concatenate)되고, 정확한 매칭 여부를 확인한다. 개체명 인식부(120)에서 인식된 개체명 인식 정보는 키(Key) 및 벨류(Value)를 포함한다. 개체명 인식부(120)는 개체명 인식 과정을 통해 생성된 개체명 인식 정보를 패턴 인식부(140)로 전달한다.
도메인 모델부(130)는 도메인 모델을 개체명 분석부(120)로 전달한다. 도메인 모델은 각 개념의 맥락(Context) 및 전체 경계를 배울 수 있도록 설계되었다. 도메인 모델은 개념, 표준화 및 범위의 개념을 이해하는데 도움을 준다. 어휘(Lexicon)는 모든 개념 및 특정 설정을 사용한 어휘의 변형을 찾는 것이 요구된다. 이와 같은 도메인 모델은 개체명 인식부(120)에서 매칭 과정을 통해 정구화된 텍스트의 개체명 인식을 가능하게 한다.
패턴 인식부(140)는 수신된 개체명 인식 정보에서 치환 기반 패턴 발견 접근법(permutation-based pattern discovery approach)을 이용하여 개체명 인식 정보에서 패턴을 식별한다. 필요한 서식인 요구된 템플릿은 관련된 추출된 정보로 채우는 과정을 필요로 한다. 템플릿 종류의 복잡한 부분은 문장에서 발생하는 상관된 정보의 옳바른 식별로서, 보다 상세하게는 속성의 정확한 값을 할당하는 것이다. 텍스트에서, 일부 개념은 숫자가 아닌 벨류(Value)로 표시되며, 일부는 숫자 벨류로 나타난다. 패턴 인식부(140)는 숫자 벨류만을 고려한다. 다른 개념의 시퀀스(Sequence)는 속성값에 대한 정확한 할당을 위해 중요한 역할을 한다. 일부 경우에서, 벨류는 그것의 속성을 따르며, 다른 경우에는 다른 경우에 반해 속성이 그것의 벨류를 따른다. 때때로, 모든 속성들의 값은 바로 뒤에 첫 번째로 나타나며, 때때로 모든 벨류는 그들의 속성 바로 뒤에 나타난다. 먼저, 모든 치환이 생성되고, 공동 특성을 가지는 하나의 단일 패턴을 표현하기 위해 함께 그룹화 된다. 즉, 일반적인 비구조화 의학 문서는 표 1가 같이 각각의 속성과 해당 속성의 값은 순차적으로 나타날 수 있다. 예를 들어, 속성인 임파선(lymphatic chain)과 임파선의 속성값인 5가 순차적으로 나타날 수 있다. 이와 같은 패턴을 인식하기 위해 패턴 인식부(140)는 숫자와 숫자가 아닌 값을 구별하여 패턴 인식을 수행한다.
패턴 인식부(140)의 입출력 데이터
입력(Input)
개체명 식별(Named Entity Recognition(키 및 벨류)
Figure pat00001
출력(Output)
패턴 인식(Pattern Recognition)
V1 K1 V2 K2 V3 K3 V4 K4 V5 K5(Permutation)
value key value key value key value key value key(pattern)
개체명 인식부(120)에서 인식된 개체는 키(Key) 및 벨류(Value)를 포함하는 두 파트를 가진다. 표 1을 살펴보면, 텍스트로부터 인식된 개념은 숫자가 아닌 벨류와 숫자인 키를 포함한다. 문제는 어떻게 벨류에 따른 키(또는 키에 따른 벨류) 처럼 다양한 주문에서 개체를 작성할 수 있는 키(임상의 처럼)에 속하는 벨류를 식별하느냐이다. 이를 위해, 패턴 인식부(140)는 치환 기반 패턴 발견 어프로치(Permutation based Pattern Discovery Approach)를 통해 마지막 패턴을 인식한다. 치환 기반 패턴 어프로치는 수학식 1에 의해 생성된 가능성 치환과 함께 키의 추출된 배열(Arrange) 및 벨류 문자열(String)을 매칭한다.
Figure pat00002
수학식 1에서 N은 치환으로부터 얻어진 키 및 벨류의 세트의 사이즈를 나타낸다. 그리고, r은 각각의 치환 사이즈를 나타낸다. 치환은 텍스트로부터 발생된 키 및 벨류의 배열을 나타낸다. 이와 같은 과정을 통해 인식된 개체명에서 마지막 패턴을 식별한다. 그리고, 패턴 인식부(140)는 인식된 패턴에 기초하여 구조화된 정보(Structured Information)를 생성한다. 즉, 패턴 인식부(140)는 숫자와 숫자가 아닌 속성으로 구분된 키 및 벨류를 치환하여 패턴을 인식함으로써, 비구조화 의학 문서의 구조와 내용(및 흐름)을 파악할 수 있다. 이와 같은 과정을 통해 패턴 인식부(140)는 구조화된 정보를 생성한다. 패턴 인식부(140)는 생성된 구조화된 정보를 구조화 텍스트 저장부(150)로 전달한다.
구조화 텍스트 저장부(150)는 패턴 인식부(140)로부터 수신된 구조화된 정보를 구조화된 방식으로 저장한다. 구조화된 정보는 서로 다른 개체 사이의 명시적 관계를 유지한다. 구조화된 방식으로 구조화 텍스트 저장부(150)에 저장된 구조화된 정보는 이후 다양한 분석을 위해 활용될 수 있다. 임상 및 역학조사 연구는 구조화 정보에 따라 수행한다. 이러한 분석의 종류는 정보가 비정형화 스타일로 분산되어 구조화되지 않은 문서를 통해 수행하기는 매우 어렵다. 저장된 구조화된 정보는 환자 사례(Patient Cases)로 고려될 수 있다. 다수의 통계는 환자 사례의 세트로부터 검색할 수 있다. 예를 들어, 나이 및 성별과 연관된 환자에서 발견된 생존율 및 위험 인자가 결정될 수 있다. 임상 연구원은 더 중요한 역학 분석 결과를 찾기 위해 정보 영역을 서로 연결시킬 수 있다.
템플릿 작성부(160)는 구조화 텍스트 저장부(150)에 저장된 구조화된 정보를 이용하여 규정된 템플릿을 작성한다. 구조화된 정보를 통해 작성된 규정된 템플릿은 동일한 포맷을 가지기 때문에, 정보 공유가 용이하며, 필요한 정보를 자동으로 검색할 수 있다.
그리고, 구조화 저장부(150)에 저장된 구조화된 정보는 임상 의사 결정 시스템(Clinical Decision Support System)에 적용될 수 있다. 임상 의사 결정 지원 시스템은 중요한 임상 결정 과정에서 임상의를 지원하기 위한 시스템이다. 임상 의사 결정 지원 시스템은 지식 베이스(Knowledge Base)를 활용한다. 그리고, 지식 베이스는 지식 규칙으로 구성된다. 지식 규칙은 구조화된 정보로 저장된 환자 사례로부터 생성될 수 있다. 임상 의사 결정 지원 시스템은 비구조 텍스트로부터 추출된 환자 사례로부터 생성된 지식베이스에서 규칙에 관해 추론할 수 있다.
도 2는 본 발명의 일 실시예에 따른 비구조화 임상 문서의 치환 기반 패턴 검색 방법을 나타내는 구성도이다.
도 2를 참조하면, 본 발명에 따른 비구조화 임상 문서의 치환 기반 패턴 검색 방법은 먼저, 자연어 처리(Natural Language Processing, NLP) 과정을 통해 구조화(Structure)되지 않은 비구조화 의학 문서를 정규화(Normalization)한다(201). 상당수의 의학 문서는 정해진 형식(Format)이나 템플릿(Template)을 가지지 않는 경우가 많다. 임상의나 연구원이 연구 노트 및 임상 노트 등을 작성할 때, 특정한 스타일로 작성하도록 강요할 수 없다. 따라서, 연구 노트나 임상 노트와 같은 경우 작성자에 의해 자유로운 형식의 서술형 텍스트로 기재되어 있는 경우가 많다. 따라서, 종래의 정보 추출 기술로는 정해진 템플릿을 가지지 않은 서술형 텍스트에서 필요한 정보를 제대로 추출하기 여려우며, 직접 필요한 정보를 검색하기 위해서는 상당한 시간이 요구된다. 이와 같은 문제를 해결하기 위해, 이와 같은 자유로운 형식의 구조화되지 않은 의학 문서를 인식하기 위해 먼저, 자연어 처리 기술을 활용한다. 자연어 처리 기술은 절/문장 경계 식별 및 토큰화(Tonenization) 과정을 포함한다.
자연어 처리 단계는 절/문장 경계 식별 및 토큰화 과정을 통해, 비구조화 의학 문서에서 의미있는 단어(Meaningful Words)를 분류하고, 의미있는 단어를 선택된 특수 문자(Character)에 의거하여 개별 단어로 분할하여 토큰화된 단어를 생성한다. 의미있는 단어는 불용어(Stop Words) 및 기호(괄호, 특수 문자 등)를 제외한 단어의 집합이다. 그리고, 자연어 처리 단계는 토큰화된 단어에서 철자 변형(Spell Variation), 알파벳 소문자화(Alphabetic Lower Case) 및 축약(Abbreviation)을 조절하여 정규화한다. 예를 들어, 비구조화 의학 문서에 기재된 'Lymph Nodes Level 1'은 알파벳 소문자화 및 복수 단어의 단수화를 이용하여 'lymph node level 1'으로 정규화 된다.
다음으로, 수신된 정규화된 텍스트 및 도메인 모델(Domain Model)을 매칭하여 개체명 인식(Named Entity Recognition) 정보를 식별한다(202). 개체명(Named Entity)은 입력 텍스트를 인식할 때 요구되는 개념이다. 그리고, 도메인 모델부(130)로부터 수신된 도메인 모델은 도메인 사전(Domain Lexicons)으로, 요구되는 모든 개체를 위한 엔트리(Entry)가 내장되어 있다. 개체명 인식 과정에서, 어휘 단어(Lexicon Word)는 정확하게 매칭되거나 또는 부분적으로 매칭될 수 있다. 정확한 매칭에서, 매칭된 단어는 부분적인 매칭 동안 추가 프로세싱을 위해 추출된다. 그리고, 부분 매칭 동안에 부분적으로 매칭된 단어는 추출되고, 다음 단어가 추출될 때까지 유지된다. 개체명 인식은 추출된 다음 단어와 연접(Concatenate)되고, 정확한 매칭 여부를 확인한다. 개체명 식별 단계에서 인식된 개체명 인식 정보는 키(Key) 및 벨류(Value)를 포함한다.
도메인 모델은 각 개념의 맥락(Context) 및 전체 경계를 배울 수 있도록 설계되었다. 도메인 모델은 개념, 표준화 및 범위의 개념을 이해하는데 도움을 준다. 어휘(Lexicon)는 모든 개념 및 특정 설정을 사용한 어휘의 변형을 찾는 것이 요구된다. 이와 같은 도메인 모델은 개체명 인식 단계에서 매칭 과정을 통해 정구화된 텍스트의 개체명 인식을 가능하게 한다.
다음으로, 치환 기반 패턴 발견 접근법(permutation-based pattern discovery approach)을 이용하여 개체명 인식 정보에서 패턴을 식별한다(203). 필요한 서식인 요구된 템플릿은 관련된 추출된 정보로 채우는 과정을 필요로 한다. 템플릿 종류의 복잡한 부분은 문장에서 발생하는 상관된 정보의 옳바른 식별로서, 보다 상세하게는 속성의 정확한 값을 할당하는 것이다. 텍스트에서, 일부 개념은 숫자가 아닌 벨류(Value)로 표시되며, 일부는 숫자 벨류로 나타난다. 패턴 인식부(140)는 숫자 벨류만을 고려한다. 다른 개념의 시퀀스(Sequence)는 속성값에 대한 정확한 할당을 위해 중요한 역할을 한다. 일부 경우에서, 벨류는 그것의 속성을 따르며, 다른 경우에는 다른 경우에 반해 속성이 그것의 벨류를 따른다. 때때로, 모든 속성들의 값은 바로 뒤에 첫 번째로 나타나며, 때때로 모든 벨류는 그들의 속성 바로 뒤에 나타난다. 먼저, 모든 치환이 생성되고, 공동 특성을 가지는 하나의 단일 패턴을 표현하기 위해 함께 그룹화 된다.
인식된 개체는 키(Key) 및 벨류(Value)를 포함하는 두 파트를 가진다. 텍스트로부터 인식된 개념은 숫자가 아닌 벨류와 숫자인 키를 포함한다. 문제는 어떻게 벨류에 따른 키(또는 키에 따른 벨류) 처럼 다양한 주문에서 개체를 작성할 수 있는 키(임상의 처럼)에 속하는 벨류를 식별하느냐이다. 이를 위해, 패턴 인식부(140)는 치환 기반 패턴 발견 접근법(Permutation based Pattern Discovery Approach)을 통해 마지막 패턴을 인식한다. 치환 기반 패턴 어프로치는 수학식 1에 의해 생성된 가능성 치환과 함께 키의 추출된 배열(Arrange) 및 벨류 문자열(String)을 매칭한다.
치환은 텍스트로부터 발생된 키 및 벨류의 배열을 나타낸다. 이와 같은 과정을 통해 인식된 개체명에서 마지막 패턴을 식별한다. 그리고, 패턴 인식부(140)는 인식된 패턴에 기초하여 구조화된 정보(Structured Information)를 생성한다.
구조화된 정보는 서로 다른 개체 사이의 명시적 관계를 유지한다. 구조화된 방식으로 구조화 텍스트 저장부(150)에 저장된 구조화된 정보는 이후 다양한 분석을 위해 활용될 수 있다. 임상 및 역학조사 연구는 구조화 정보에 따라 수행한다. 이러한 분석의 종류는 정보가 비정형화 스타일로 분산되어 구조화되지 않은 문서를 통해 수행하기는 매우 어렵다. 저장된 구조화된 정보는 환자 사례(Patient Cases)로 고려될 수 있다. 다수의 통계는 환자 사례의 세트로부터 검색할 수 있다. 예를 들어, 나이 및 성별과 연관된 환자에서 발견된 생존율 및 위험 인자가 결정될 수 있다. 임상 연구원은 더 중요한 역학 분석 결과를 찾기 위해 정보 영역을 서로 연결시킬 수 있다.
다음으로, 구조화된 정보를 이용하여 규정된 템플릿을 작성한다(204). 구조화된 정보를 통해 작성된 규정된 템플릿은 동일한 포맷을 가지기 때문에, 정보 공유가 용이하며, 필요한 정보를 자동으로 검색할 수 있다. 그리고, 구조화된 정보는 임상 의사 결정 시스템에 적용될 수 있다. 임상 의사 결정 지원 시스템은 중요한 임상 결정 과정에서 임상의를 지원하기 위한 시스템이다. 임상 의사 결정 지원 시스템은 지식 베이스를 활용한다. 그리고, 지식 베이스는 지식 규칙으로 구성된다. 지식 규칙은 구조화된 정보로 저장된 환자 사례로부터 생성될 수 있다. 임상 의사 결정 지원 시스템은 비구조 텍스트로부터 추출된 환자 사례로부터 생성된 지식베이스에서 규칙에 관해 추론할 수 있다.
상술한 내용을 포함하는 본 발명은 컴퓨터 프로그램으로 작성이 가능하다. 그리고 상기 프로그램을 구성하는 코드 및 코드 세그먼트는 당분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. 또한, 상기 작성된 프로그램은 컴퓨터가 읽을 수 있는 기록매체 또는 정보저장매체에 저장되고, 컴퓨터에 의하여 판독되고 실행함으로써 본 발명의 방법을 구현할 수 있다. 그리고 상기 기록매체는 컴퓨터가 판독할 수 있는 모든 형태의 기록매체를 포함한다.
이상 바람직한 실시예를 들어 본 발명을 상세하게 설명하였으나, 본 발명은 전술한 실시예에 한정되지 않고, 본 발명의 기술적 사상의 범위 내에서 당분야에서 통상의 지식을 가진자에 의하여 여러 가지 변형이 가능하다.
100: 비구조화 임상 문서의 치환 기반 패턴 검색 장치
110: 자연어 처리부
120: 개체명 인식부
130: 도메인 모델부
140: 패턴 인식부
150: 구조화 텍스트 저장부
160: 템플릿 작성부

Claims (10)

  1. 자연어 처리(Natural Language Processing, NLP) 과정을 통해 수신된 비구조화 의학 문서를 정규화(Normalization)하여 정규화된 텍스트를 생성하는 자연어 처리부;
    상기 정규화된 텍스트 및 수신된 도메인 모델을 매칭하여 개체명 인식(Named Entity Recognition) 정보를 식별하는 개체명 인식부;
    치환 기반 패턴 발견 접근법(permutation-based pattern discovery approach)을 이용하여 상기 개체명 인식 정보로부터 구조화된 정보를 생성하는 패턴 인식부; 및
    상기 구조화된 정보에 기초하여 규정된 템플릿을 작성하는 템플릿 작성부;
    를 포함하는 것을 특징으로 하는 비구조화 임상 문서의 치환 기반 패턴 검색 장치.
  2. 제1항에 있어서,
    상기 자연어 처리부는 상기 비구조화 의학 문서에서 의미있는 단어를 분류하고, 상기 의미있는 단어를 선택된 특수 문자에 의거하여 개별 단어로 분할하여 토큰화된 단어를 생성하고, 토큰화된 단어에서 철자 변형, 알파벳 소문자화 및 축약을 조절하여 정규화된 텍스트를 생성하는 것을 특징으로 하는 비구조화 임상 문서의 치환 기반 패턴 검색 장치.
  3. 제1항에 있어서,
    상기 패턴 인식부는 상기 개체명 인식 정보를 구성된 벨류(Value) 및 숫자가 아닌 키(Key)로 구분하고, 구분된 상기 키 및 상기 벨류를 치환하여 상기 비구조화 의학 문서의 패턴을 인식하는 것을 특징으로 하는 비구조화 임상 문서의 치환 기반 패턴 검색 장치.
  4. 제3항에 있어서,
    상기 패턴 인식부는,
    Figure pat00003
    를 통해,
    상기 개체명 인식 정보에서 키의 추출된 배열 및 벨류의 문자열을 매칭하며, 상기 N은 치환으로부터 얻어진 키 및 벨류의 세트의 사이즈를 나타내고, 상기 r은 각각의 치환 사이즈를 나타내는 특징으로 하는 비구조화 임상 문서의 치환 기반 패턴 검색 장치.
  5. 제1항에 있어서,
    도메인 사전(Domain Lexicons)으로 구성되어 있으며, 요구되는 모든 개체를 위한 엔트리(Entry)가 내장된 도메인 모델을 저장하는 도메인 모델부;
    를 더 포함하는 것을 특징으로 하는 비구조화 임상 문서의 치환 기반 패턴 검색 장치.
  6. 제1항에 있어서,
    상기 구조화된 정보를 서로 다른 개체 사이의 명식적 관계를 고려하여 저장하는 구조화 텍스트 저장부;
    를 더 포함하는 것을 특징으로 하는 비구조화 임상 문서의 치환 기반 패턴 검색 장치.
  7. 자연어 처리(Natural Language Processing, NLP) 과정을 통해 수신된 비구조화 의학 문서를 정규화(Normalization)하여 정규화된 텍스트를 생성하는 단계;
    상기 정규화된 텍스트 및 수신된 도메인 모델을 매칭하여 개체명 인식(Named Entity Recognition) 정보를 식별하는 단계;
    치환 기반 패턴 발견 접근법(permutation-based pattern discovery approach)을 이용하여 상기 개체명 인식 정보로부터 구조화된 정보를 생성하는 단계; 및
    상기 구조화된 정보에 기초하여 규정된 템플릿을 작성하는 단계;
    를 포함하는 것을 특징으로 하는 비구조화 임상 문서의 치환 기반 패턴 검색 방법.
  8. 제7항에 있어서,
    상기 정규화된 텍스트를 생성하는 단계는 상기 비구조화 의학 문서에서 의미있는 단어를 분류하고, 의미있는 단어를 선택된 특수 문자에 의거하여 개별 단어로 분할하여 토큰화된 단어를 생성하고, 토큰화된 단어에서 철자 변형, 알파벳 소문자화 및 축약을 조절하여 정규화된 텍스트를 생성하는 것을 특징으로 하는 비구조화 임상 문서의 치환 기반 패턴 검색 방법.
  9. 제7항에 있어서,
    상기 구조화된 정보를 생성하는 단계는 상기 개체명 인식 정보를 구성된 벨류(Value) 및 숫자가 아닌 키(Key)로 구분하고, 구분된 상기 키 및 상기 벨류를 치환하여 상기 비구조화 의학 문서의 패턴을 인식하는 것을 특징으로 하는 비구조화 임상 문서의 치환 기반 패턴 검색 방법.
  10. 제39에 있어서,
    상기 구조화된 정보를 생성하는 단계는,
    Figure pat00004
    를 통해,
    상기 개체명 인식 정보에서 키의 추출된 배열 및 벨류의 문자열을 매칭하며, 상기 N은 치환으로부터 얻어진 키 및 벨류의 세트의 사이즈를 나타내고, 상기 r은 각각의 치환 사이즈를 나타내는 특징으로 하는 비구조화 임상 문서의 치환 기반 패턴 검색 방법.
KR1020140120473A 2014-09-11 2014-09-11 비구조화 임상 문서의 치환 기반 패턴 검색 장치 및 검색 방법 KR101607672B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140120473A KR101607672B1 (ko) 2014-09-11 2014-09-11 비구조화 임상 문서의 치환 기반 패턴 검색 장치 및 검색 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140120473A KR101607672B1 (ko) 2014-09-11 2014-09-11 비구조화 임상 문서의 치환 기반 패턴 검색 장치 및 검색 방법

Publications (2)

Publication Number Publication Date
KR20160030809A true KR20160030809A (ko) 2016-03-21
KR101607672B1 KR101607672B1 (ko) 2016-04-11

Family

ID=55650945

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140120473A KR101607672B1 (ko) 2014-09-11 2014-09-11 비구조화 임상 문서의 치환 기반 패턴 검색 장치 및 검색 방법

Country Status (1)

Country Link
KR (1) KR101607672B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190003231A (ko) * 2017-06-30 2019-01-09 광주과학기술원 생의학적 개체명 정규화 방법
WO2020076635A1 (en) * 2018-10-08 2020-04-16 Schlumberger Technology Corporation Automatic fact extraction
CN114817386A (zh) * 2016-09-28 2022-07-29 医渡云(北京)技术有限公司 一种结构化医疗数据生成方法及装置
KR20220132679A (ko) 2021-03-23 2022-10-04 주식회사 웨이센 자연어 구조 정보를 이용한 임상정보 검색 시스템 및 방법
CN116304114A (zh) * 2023-05-11 2023-06-23 青岛市黄岛区中心医院 基于外科护理的智能数据处理方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2430568A4 (en) 2009-05-14 2015-11-04 Elsevier Inc METHODS AND SYSTEMS FOR KNOWLEDGE DISCOVERY

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114817386A (zh) * 2016-09-28 2022-07-29 医渡云(北京)技术有限公司 一种结构化医疗数据生成方法及装置
KR20190003231A (ko) * 2017-06-30 2019-01-09 광주과학기술원 생의학적 개체명 정규화 방법
WO2020076635A1 (en) * 2018-10-08 2020-04-16 Schlumberger Technology Corporation Automatic fact extraction
KR20220132679A (ko) 2021-03-23 2022-10-04 주식회사 웨이센 자연어 구조 정보를 이용한 임상정보 검색 시스템 및 방법
CN116304114A (zh) * 2023-05-11 2023-06-23 青岛市黄岛区中心医院 基于外科护理的智能数据处理方法及系统
CN116304114B (zh) * 2023-05-11 2023-08-04 青岛市黄岛区中心医院 基于外科护理的智能数据处理方法及系统

Also Published As

Publication number Publication date
KR101607672B1 (ko) 2016-04-11

Similar Documents

Publication Publication Date Title
CN109213870B (zh) 文档处理
US10176164B2 (en) Segmenting and interpreting a document, and relocating document fragments to corresponding sections
Catelli et al. Crosslingual named entity recognition for clinical de-identification applied to a COVID-19 Italian data set
CN109192255B (zh) 病历结构化方法
US20190006027A1 (en) Automatic identification and extraction of medical conditions and evidences from electronic health records
US10176889B2 (en) Segmenting and interpreting a document, and relocating document fragments to corresponding sections
KR101607672B1 (ko) 비구조화 임상 문서의 치환 기반 패턴 검색 장치 및 검색 방법
CN112487202B (zh) 融合知识图谱与bert的中文医学命名实体识别方法、装置
US12056258B2 (en) Anonymization of heterogenous clinical reports
Ravikumar et al. Machine learning model for clinical named entity recognition
JP6409071B2 (ja) 文の並び替え方法および計算機
Flores et al. CREGEX: A biomedical text classifier based on automatically generated regular expressions
CN113343680B (zh) 一种基于多类型病历文本的结构化信息提取方法
Yan et al. Chemical name extraction based on automatic training data generation and rich feature set
Al-Sanabani et al. Improved an algorithm for Arabic name matching
JP2007025834A (ja) 読影レポート入力支援方法及び読影レポート入力支援システム
JP2017134693A (ja) 意味情報登録支援プログラム、情報処理装置および意味情報登録支援方法
Fenz et al. De-identification of unstructured paper-based health records for privacy-preserving secondary use
Grandi ProbQL: A Probabilistic Query Language for Information Extraction from PDF Reports and Natural Language Written Texts
RU2804747C1 (ru) Способ и система обезличивания конфиденциальных данных
RU2802549C1 (ru) Способ и система обезличивания конфиденциальных данных
CN112036171B (zh) 医学特定指称及其关系的抽取方法、系统及装置
US20240242026A1 (en) Synonym determination system and synonym determination method
Ashish et al. Machine reading of biomedical data dictionaries
CN115688787A (zh) 一种病历的分析方法、装置和一种病历的分析系统

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190107

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20200128

Year of fee payment: 5