KR101897080B1

KR101897080B1 - 의료 기록 문서에서의 의료 단어의 연관 규칙 생성 방법 및 그 장치

Info

Publication number: KR101897080B1
Application number: KR1020160064790A
Authority: KR
Inventors: 오상윤; 엄준호; 박호식; 이민수
Original assignee: 아주대학교산학협력단
Priority date: 2016-05-26
Filing date: 2016-05-26
Publication date: 2018-09-11
Also published as: KR20170133692A

Abstract

의료 단어 연관 규칙 생성 방법이 개시된다. 본 발명의 일 실시예에 따른 의료 단어 연관 규칙 생성 방법은 복수의 의료 기록 문서에서 추출된 복수의 의료 단어를 이용하여 복수의 트랜잭션을 생성하는 단계; 상기 의료 기록 문서의 전체 개수, 특정한 의료 기록 문서에서의 상기 의료 단어 각각의 빈도수 및 상기 의료 단어 각각이 포함된 의료 기록 문서의 개수에 기초하여, 상기 복수의 의료 단어 각각에 대한 중요도 지표를 산출하는 단계; 상기 중요도 지표에 기초하여, 상기 복수의 트랜잭션을 재구성하여 빈발 패턴 트리를 생성하는 단계; 및 상기 빈발 패턴 트리에 기초하여, 상기 복수의 의료 단어간의 연관 규칙을 생성하는 단계를 포함한다.

Description

의료 기록 문서에서의 의료 단어의 연관 규칙 생성 방법 및 그 장치{Method and Apparatus for generating association rules between medical words in medical record document}

본 발명은 단어의 연관 규칙 생성에 관한 것으로, 특히 의료 기록 문서에서의 의료 단어의 연관 규칙 생성 방법 및 그 장치에 관한 것이다.

연관 규칙(Association Rule)이란 고객의 물품 구매 목록과 같은 트랜잭션(transaction)에서 추출한 "X⇒Y(support,confidence)" 형태의 조건-결과(Condition-Conclusion) 식으로 표현되는 유용한 패턴을 말한다.

여기서, X는 트랜잭션을 구성하는 항목(Item)이고, "X⇒Y"는 조건에 해당하는 항목 X가 발생할 때 결과에 해당하는 항목 Y가 같이 발생함을 의미한다. 그리고, Support는 전체 트랜잭션에서 항목 X와 항목 Y가 동시에 발생하는 트랜잭션의 비율을 의미하고, Confidence는 항목 X가 포함된 트랜잭션에서 항목 Y를 함께 포함하고 있는 트랜잭션의 비율을 의미한다.

장바구니 분석으로 널리 알려진 연관 규칙 추출 방법은 마트 고객들의 물품 구매 목록, TV 시청자들의 영화 시청 기록 등과 같은 대량의 데이터 내에 존재하는 항목들 사이에 존재하는 유용한 패턴을 찾아내어 상품을 추천하거나 사용자 소비 성향을 분석하는데 활용될 수 있다. 일례로, 미국의 한 마트에서 고객들의 구매 기록 분석을 통하여 "맥주를 구매하는 소비자는 기저귀를 함께 구매한다" 라는 규칙을 추출하고, 이에 따라 맥주와 기저귀의 판매 위치를 가깝게 한 결과 매출이 오르는 효과를 가져온 유명한 사례가 있다.

이와 같은 연관 규칙 추출 방법의 대표적인 종래기술로, Apriori 알고리즘과 빈발 패턴 트리(FP(Frequent Pattern)-Tree)를 이용한 FP-growth 알고리즘이 있다.

Apriori 알고리즘은 k개의 빈발 항목 집합을 이용하여 k+1개의 빈발 항목 집합을 발견함으로써 연관 규칙을 추출한다. 즉, Apriori 알고리즘은 k개의 항목 집합이 빈발하다면 그 항목 집합에 포함된 항목을 모두 포함하는 (k+1)개의 항목 집합도 빈발할 가능성이 있지만, k개의 항목집합이 빈발하지 않다면 그 항목 집합에 포함된 항목을 모두 포함하는 k+1개의 항목 집합 역시 빈발하지 않다는 반복적 접근방법을 사용하여 연관 규칙을 추출한다.

이와 같은 Apriori 알고리즘은 빈발할 가능성이 있는 k+1개의 항목 집합의 후보 항목 집합을 생성하여야 하는데, 이를 위해 반복적으로 데이터베이스에 접근을 해야 할 필요가 있어 많은 저장 공간을 요구하고 처리시간이 길다는 단점이 있다.

FP-Growth 알고리즘은 적어도 하나의 항목을 포함하는 복수의 트랜잭션 내에서의 항목의 출현 횟수(빈발 정도)를 항목별로 정렬한 후에 빈발 패턴 트리를 생성하고, 생성된 빈발 패턴 트리를 이용하여 연관 규칙을 추출한다. 이러한 FP-Growth 알고리즘은 데이터베이스를 반복적으로 접근할 필요가 없고, 빈발 패턴 추출을 위한 후보 항목 집합을 생성하지 않으므로, 연관 규칙 추출 속도가 빠르다는 장점이 있다.

한편, 종래 기술 중에는 빈발 패턴 트리를 이용하여 의료 분야에 적용한 예가 있었는데, 이는 심근 경색을 일으키는 원인을 추론하는 연구로 이 연구는 특정 타겟을 정해놓고 연관 관계를 분석함으로써 일반적인 질병에 적용하기 어려운 점이 있었고, 빈번하게 발생하지 않는 항목에 대해서는 고려하지 않아, 특이한 증상은 연관 규칙 생성에 포함되지 않는 문제가 있었다.

선행 기술로는 일본 공개특허공보 2008-083928(발명의 명칭: 의료 정보 추출 장치 및 의료 정보 추출 프로그램, 공개일: 2008.04.10)이 있다.

본 발명의 목적은 의료 기록 문서에 빈번하게 등장하거나 빈번하게 등장하지 않더라도 의학적으로 의미 있는 단어를 대상으로 연관 규칙을 생성하는 연관 규칙 생성 방법 및 장치를 제공하는 것이다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 의료 단어 연관 규칙 생성 방법은 복수의 의료 기록 문서에서 추출된 복수의 의료 단어를 이용하여 복수의 트랜잭션을 생성하는 단계; 상기 의료 기록 문서의 전체 개수, 특정한 의료 기록 문서에서의 상기 의료 단어 각각의 빈도수 및 상기 의료 단어 각각이 포함된 의료 기록 문서의 개수에 기초하여, 상기 복수의 의료 단어 각각에 대한 중요도 지표를 산출하는 단계; 상기 중요도 지표에 기초하여, 상기 복수의 트랜잭션을 재구성하여 빈발 패턴 트리를 생성하는 단계; 및 상기 빈발 패턴 트리에 기초하여, 상기 복수의 의료 단어간의 연관 규칙을 생성하는 단계를 포함한다.

바람직하게는, 상기 복수의 트랜잭션을 생성하는 단계는 상기 복수의 의료 기록 문서에 포함된 복수의 단어 중에서 상기 연관 규칙 생성과 무관한 불용어를 제거하여 상기 연관 규칙 생성의 대상이 되는 상기 복수의 의료 단어를 추출하는 단계; 및 상기 복수의 의료 단어를 이용하여 상기 복수의 트랜잭션을 생성하는 단계를 포함할 수 있다.

바람직하게는, 상기 복수의 의료 단어를 추출하는 단계는 질병의 증상, 수술명, 진단명, 환자의 상태 및 병력에 대한 단어 중 적어도 하나로 구성되는 의료 단어 DB 또는 복수의 상기 불용어로 구성되는 불용어 DB에 기초하여 수행될 수 있다.

바람직하게는, 상기 빈발 패턴 트리를 생성하는 단계는 상기 복수의 트랜잭션 각각을 구성하는 상기 복수의 의료 단어의 계층 구조상의 배치를 상기 중요도 지표의 지표 값의 내림 차순에 따라 변경함으로써 상기 복수의 트랜잭션을 재구성하는 단계; 및 상기 재구성된 복수의 트랜잭션에 기초하여, 상기 빈발 패턴 트리를 생성하는 단계를 포함할 수 있다.

바람직하게는, 상기 복수의 트랜잭션을 재구성하는 단계는 상기 복수의 의료 단어에 대한 신뢰도, 지지도 및 향상도 중 적어도 하나에 더 기초하여 수행될 수 있다.

바람직하게는, 상기 연관 규칙을 생성하는 단계는 상기 빈발 패턴 트리에 기초하여, 상기 복수의 의료 단어간의 연관 규칙을 산출하는 단계; 표준 질병명간의 관계를 정의하는 의료 온톨로지에 기초하여, 상기 복수의 의료 단어 각각에 대응되는 표준 질병명인 복수의 대응 표준 질병명을 검출하는 단계; 및 상기 복수의 의료 단어간의 연관 규칙에 기초하여, 상기 복수의 대응 표준 질병명간의 연관 규칙을 생성하는 단계를 포함할 수 있다.

바람직하게는, 상기 복수의 의료 단어간의 연관 규칙을 산출하는 단계는 특정한 의료 단어와 나머지 복수의 의료 단어 중 적어도 하나간의 신뢰도, 지지도 및 향상도를 산출할 수 있다.

바람직하게는, 상기 복수의 대응 표준 질병명간의 연관 규칙을 생성하는 단계는 상기 복수의 대응 표준 질병명을 대응되는 계층 구조의 복수의 노드로 표시하는 단계; 및 상기 복수의 노드 사이에 노드간의 유사도를 나타내는 노드 유사도를 표시하는 단계를 포함할 수 있다.

바람직하게는, 상기 복수의 대응 표준 질병명간의 연관 규칙을 생성하는 단계는 상기 복수의 대응 표준 질병명을 대응되는 계층 구조의 복수의 노드로 표시하는 단계; 및 상기 복수의 노드 사이에 노드간의 거리를 표시하는 단계를 포함하고, 상기 노드간의 거리는 상기 복수의 노드 상호간에 공유하는 상위 노드의 개수에 비례하여 결정되는 노드 유사도에 기초하여 결정될 수 있다.

바람직하게는, 상기 노드간의 거리는 상기 복수의 노드 상호간에 공유하는 상위 노드의 개수에 비례하여 증가하는 노드 유사도에 기초하여 결정될 수 있다.

바람직하게는, 본 발명의 일 실시예에 따른 의료 단어 연관 규칙 생성 방법은 사용자 단어를 수신하는 단계; 및 상기 복수의 의료 단어간의 연관 규칙에 기초하여, 상기 사용자 단어에 해당하는 현재 노드로부터 소정 거리 이내에 위치하는 적어도 하나의 이웃 노드에 대응되는 적어도 하나의 의료 단어를 출력하는 단계를 더 포함할 수 있다.

바람직하게는, 상기 중요도 지표는 상기 복수의 의료 단어 각각에 대한 TF-IDF(Term Frequency-Inverse Document Frequency) 값일 수 있다.

바람직하게는, 상기 중요도 지표는 수학식 1에 의하여 산출될 수 있다.

[수학식 1]

이때, w는 의료 단어를 나타내고, d는 특정 문서를 나타내고, D는 전체 문서를 나타내고,

는 특정한 의료 기록 문서에서의 의료 단어 각각의 빈도수를 나타내고,

는 전체 문서의 개수를 나타내고,

는 의료 단어 w가 등장한 문서의 횟수를 나타냄.

바람직하게는, 상기 특정한 의료 기록 문서에서의 상기 의료 단어 각각의 빈도수는 상기 특정한 의료 기록 문서에서의 상기 의료 단어 각각의 빈도수를 상기 복수의 의료 기록 문서에 포함된 모든 의료 단어의 개수를 이용하여 나눗셈함으로써 생성된 정규화된 빈도수일 수 있다.

바람직하게는, 상기 빈발 패턴 트리를 생성하는 단계는 상기 복수의 의료 단어 중에서 상기 중요도 지표 및 지지도 중 적어도 하나가 소정 임계치 이상인 의료 단어만을 이용하여 수행될 수 있다.

바람직하게는, 본 발명의 일 실시예에 따른 연관 규칙 생성 방법은 상기 연관 규칙에 포함되는 복수의 의료 단어가 모두 질병의 증상에 대한 의료 단어인 증상 연관 규칙을 검출하는 단계; 및 상기 증상 연관 규칙을 삭제하는 단계를 더 포함할 수 있다.

또한, 상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 의료 단어 연관 규칙 생성 장치는 복수의 의료 기록 문서에서 추출된 복수의 의료 단어를 이용하여 복수의 트랜잭션을 생성하는 트랜잭션 생성부; 상기 의료 기록 문서의 전체 개수, 특정한 의료 기록 문서에서의 상기 의료 단어 각각의 빈도수 및 상기 의료 단어 각각이 포함된 의료 기록 문서의 개수에 기초하여, 상기 복수의 의료 단어 각각에 대한 중요도 지표를 산출하는 지표 산출부; 상기 중요도 지표에 기초하여, 상기 복수의 트랜잭션을 재구성하여 빈발 패턴 트리를 생성하는 트리 생성부; 및 상기 빈발 패턴 트리에 기초하여, 상기 복수의 의료 단어간의 연관 규칙을 생성하는 규칙 관리부를 포함한다.

본 발명의 일 실시예에 따르면 의료 기록 문서에 빈번하게 등장하거나 빈번하게 등장하지 않더라도 의학적으로 의미 있는 단어를 대상으로 연관 규칙을 생성할 수 있게 되는 장점이 있다.

본 발명의 다른 실시예에 따르면 사용자 단어가 입력되면, 의료 단어 연관 규칙에 기초하여 그 사용자 단어와 관련성이 높은 질병명을 탐색하여 출력함으로써, 의료 전문가의 의사 결정에 도움을 주는 장점이 있다.

도 1은 본 발명의 일 실시예에 따른 의료 단어 연관 규칙 생성 방법을 설명하기 위하여 도시한 흐름도이다.
도 2는 본 발명의 일 실시예에 따른 의료 기록 문서의 예시를 도시한 도면이다.
도 3은 본 발명의 일 실시예에 따른 빈발 패턴 트리를 설명하기 위하여 도시한 도면이다.
도 4는 본 발명의 일 실시예에 따른 연관 규칙의 예시를 설명하기 위하여 도시한 도면이다.
도 5는 본 발명의 일 실시예에 따른 빈발 패턴 트리를 생성하기 위한 알고리즘의 예시를 설명하기 위하여 도시한 도면이다.
도 6은 본 발명의 일 실시예에 따라 의료 온톨로지에 기초하여 의료 단어간의 연관 규칙을 생성하는 방법을 설명하기 위하여 도시한 흐름도이다.
도 7은 의료 온톨로지의 예시를 도시한 도면이다.
도 8은 본 발명의 일 실시예에 따라 복수의 대응 표준 질병명간의 연관 규칙을 생성하는 방법을 설명하기 위하여 도시한 도면이다.
도 9는 본 발명의 일 실시예에 따른 의료 단어 연관 규칙 생성 장치를 설명하기 위하여 도시한 도면이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특 정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나 이는 본 발명을 특정한 실시 형태에 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하에서는 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

도 1은 본 발명의 일 실시예에 따른 의료 단어 연관 규칙 생성 방법을 설명하기 위하여 도시한 흐름도이다.

단계 110에서는, 연관 규칙 생성 장치가 복수의 의료 기록 문서에서 추출된 복수의 의료 단어를 이용하여 복수의 트랜잭션을 생성한다.

보다 구체적으로, 연관 규칙 생성 장치는 복수의 의료 기록 문서(임상 진료 문서, 처방 기록 문서, 진료 소견 문서 등)에 포함된 복수의 단어 중에서 연관 규칙 생성과 무관한 불용어를 제거하여 연관 규칙 생성의 대상이 되는 복수의 의료 단어를 추출하고, 그 추출된 복수의 의료 단어를 이용하여 복수의 트랜잭션을 생성할 수 있다. 여기서, 의료 단어는 질병의 증상, 수술명, 진단명, 환자의 상태 및 병력에 대한 단어 등을 포함한다.

다른 실시예에서, 연관 규칙 생성 장치는 질병의 증상, 수술명, 진단명, 환자의 상태 및 병력에 대한 단어 중 적어도 하나로 구성되는 의료 단어 DB에 기초하여 의료 기록 문서로부터 의료 단어만을 추출할 수도 있고, 연관 규칙 생성과 무관한 복수의 불용어로 구성되는 불용어 DB에 기초하여 의료 기록 문서로부터 "am", "are, "is" 등의 불용어(stop-word)를 제거할 수 있다.

이를 통해, 연관 규칙 생성 장치는 분석의 대상이 되는 단어의 개수를 줄일 수 있게 된다.

단계 120에서는, 연관 규칙 생성 장치가 의료 기록 문서의 전체 개수, 특정한 의료 기록 문서에서의 의료 단어 각각의 빈도수 및 의료 단어 각각이 포함된 의료 기록 문서의 개수에 기초하여, 복수의 의료 단어 각각에 대한 중요도 지표를 산출한다.

이때, 중요도 지표는 의료 기록 문서에 빈번하게 등장하는 단어 또는 의료 기록 문서에 빈번하게 등장하지는 않더라도 의학적으로 의미 있는 단어에게 높은 가중치가 할당되도록 설정될 수 있다. 예컨대, 중요도 지표는 하기의 수학식 1과 같이 복수의 의료 단어 각각에 대한 TF-IDF(Term Frequency-Inverse Document Frequency) 값으로 설정될 수 있다.

[수학식 1]

는 전체 문서의 개수를 나타내고,

는 의료 단어 w가 등장한 문서의 횟수를 나타낸다. 여기서,

가 TF(Term Frequency)에 해당하고,

가 IDF(Inverse Document Frequency)에 해당한다.

한편, DF는 특정한 의료 단어가 나타난 문서의 수를 의미하는데, 전체 문서 중에서 몇 개의 문서에서 그 의료 단어가 나타났는지를 의미한다. 만약, DF 값이 높은 단어는 많은 문서에서 나타난 것이므로 중요한 단어가 아니다. 따라서, DF 값의 역수인 IDF 값은 해당 단어의 중요도를 나타내는 것으로 볼 수 있다. 즉, IDF 값에 따라서 특정 단어가 다수의 문서에 등장하면 가중치가 감소하고, 소수의 문서에 등장하면 증가하게 된다.

즉, 수학식 1에서와 같이 중요도 지표를 TF-IDF로 설정하게 되면 TF 값을 통해 의료 기록 문서에서 등장 빈도가 높은 의료 단어에 대한 중요도 지표 값이 증가하게 되고, IDF 값에 의해 등장 빈도가 높지 않은 의료 단어라도 의미 있는 단어라면 중요도 지표의 지표 값이 증가하게 된다.

이와 같이, 본 발명의 일 실시예에 따르면 TF-IDF를 중요도 지표로 설정함으로써, 등장 빈도가 높은 의료 단어와 등장 빈도가 높지 않더라도 의미 있는 단어가 높은 중요도 지표 값을 가지게 된다.

한편, 다른 실시예에서는, 수학식 1에서

대신

를 정규화한 값이 적용될 수도 있다. 즉,

를 복수의 의료 기록 문서에 포함된 모든 의료 단어의 개수를 이용하여 나눗셈함으로써 정규화된 빈도수

를 산출하고, 그 산출된 정규화된 빈도수를 수학식 1의

대신 대입할 수 있다.

이와 같이 정규화를 수행하는 이유는, 정규화를 수행하지 않게 되면 TF의 범위가 너무 넓어지기 때문이다.

단계 130에서는, 연관 규칙 생성 장치가 중요도 지표에 기초하여, 복수의 트랜잭션을 재구성하여 빈발 패턴 트리(FP-tree)를 생성한다.

보다 구체적으로, 연관 규칙 생성 장치는 복수의 트랜잭션 각각을 구성하는 복수의 의료 단어의 계층 구조상의 배치를 중요도 지표의 지표 값의 내림 차순에 따라 변경함으로써 복수의 트랜잭션을 재구성하고, 그 재구성된 복수의 트랜잭션에 기초하여 빈발 패턴 트리를 생성할 수 있다.

여기서, 트랜잭션은 상호 연관성이 있는 의료 단어로 구성되는 단어 집합으로, 일반적으로 동일한 의료 기록 문서에서 함께 발견된 의료 단어들로 구성이 된다.

연관 규칙 생성 장치가 트랜잭션을 재구성하는 동작은 하기 표 1 및 표 2를 참조하여 설명한다.

표 1은 동일한 의료 단어에 대응되는 중요도 지표별 지표 값을 나타내는 표이다.

[표 1]

표 1에서는 복수개의 의료 단어(Term)들이 그 의료 단어들의 등장 빈도수(TF)의 지표 값의 내림차순에 따라 표시되어 있는데, 이와 같이 순서에 따라 배치된 의료 단어들의 집합이 트랜잭션이 될 수 있다. 다만, 트랜잭션에 포함되는 의료 단어들의 순서는 중요도 지표의 유형에 따라 달라지게 된다.

예컨대, 표 1에서 의료 단어들 각각의 IDF와 TF-IDF의 크기는 TF의 크기와 상이한 것을 알 수 있고, 만일 중요도 지표를 TF 대신, IDF 또는 TF-IDF를 사용하게 되면, 트랜잭션 내에서의 의료 단어의 배치 순서가 변경될 것이다.

또한, 다른 실시예에서는 중요도 지표의 유형에 따라서 중요도가 높다고 판단되는 의료 단어 자체가 변경될 수 있는데, 이에 대해서는 표 2를 참조하여 설명한다.

표 2는 중요도 지표의 유형별로 중요 단어를 표시한 표이다.

[표 2]

표 2에서는 TF를 중요도 지표로 하는 경우 Patient, Pain, Year, Left, Day 등 질병의 증상과는 무관한 일반적인 단어들이 높은 순위에 위치하고 있으나, TF-IDF를 중요도 지표로 하는 경우에는 Hyperlipemia, Abciximab, Nonketotic, Hyperglycinemia, Hypomagnesia, Ileocecostomy 등 질병의 증상과 관련된 의료 단어들이 높은 순위에 위치하는 것을 알 수 있다.

결과적으로, 본 발명의 일 실시예에 따라 중요도 지표를 TF-IDF 값으로 설정하게 되면 의료와는 무관한 일반적인 단어들은 중요 단어에서 배제되고, 의료적으로 의미가 있는 의료 단어들이 중요 단어에 포함되게 되어, 보다 의미 있는 의료 단어들만으로 구성된 연관 규칙이 생성될 수 있게 된다.

한편, 표 2에서는 표 1과는 달리 7개의 의료 단어만이 표시되어 있는데, 이는 중요도 지표의 지표 값이 상위 5개 이내에 해당하는 의료 단어만을 표시하였기 때문으로, 이와 같이 연관 규칙을 생성할때 모든 의료 단어를 이용하지 않고 중요도 지표의 지표 값을 고려하여 일부의 의료 단어만을 이용할 수도 있다.

다른 실시예에 따르면, 이와 같이 복수의 의료 단어 중에서 중요도 지표 및 지지도 중 적어도 하나가 소정 임계치 이상인 의료 단어만을 이용하여 빈발 패턴 트리를 생성할 수 있다.

한편, 의료 기록 문서에 기초하여 빈발 패턴 트리를 생성하는 동작에 대해서는 도 2 및 도 3을 참조하여 후술한다.

단계 140에서는, 연관 규칙 생성 장치가 빈발 패턴 트리에 기초하여, 복수의 의료 단어간의 연관 규칙을 생성한다.

보다 구체적으로, 연관 규칙 생성 장치는 빈발 패턴 트리에 포함된 복수의 노드간의 노드 유사도를 산출한 후, 상호 연관성이 있는 의료 단어들을 노드로 표시하고, 해당 노드 사이에 노드 유사도를 표시하는 방식으로 의료 단어간의 연관 규칙을 생성할 수 있다. 이때, 노드 유사도는 복수의 노드 상호간에 공유하는 상위 노드의 개수에 비례하여 증가한다.

이와 같이, 본 발명의 일 실시예에 따르면 단계 110 내지 단계 140을 통해 의료 단어간의 연관 규칙을 생성함으로써, 의료 기록 문서에 빈번하게 등장하거나 빈번하게 등장하지 않더라도 의학적으로 의미 있는 단어를 대상으로 연관 규칙을 생성할 수 있게 되는 장점이 있다.

한편, 연관 규칙 생성 장치가 빈발 패턴 트리에 기초하여 복수의 의료 단어간의 연관 규칙을 생성하는 구체적인 동작은 도 6을 참조하여 후술한다.

도 2는 본 발명의 일 실시예에 따른 의료 기록 문서의 예시를 도시한 도면이고, 도 3은 본 발명의 일 실시예에 따른 빈발 패턴 트리를 설명하기 위하여 도시한 도면이다.

도 2의 의료 기록 문서에 포함된 의료 단어들을 이용하여 트랜잭션을 생성하고, 그 생성된 트랜잭션에 포함되는 의료 단어들을 그 의료 단어들의 TF-IDF의 크기에 따라 재배치하게 되면 다음과 같이 4개의 트랜잭션이 도출될 수 있다.

트랜잭션 1: [Omphalocele, Hypospadias, Clomid, Intestines, Neuropathy]

트랜잭션 2: [Omphalocele, Hypospadias, Clomid, Aldomet, Intestines]

트랜잭션 3: [Omphalocele, Aldomet]

트랜잭션 4: [Hypospadias, Aldomet, Neuropathy]

상기 4개의 트랜잭션을 하기 표 3에 따라 대응되는 심볼로 변환하여 표시하면 다음과 같이 표시될 수 있다.

트랜잭션 1: [f, c, a, m, p]

트랜잭션 2: [f, c, a, b, m]

트랜잭션 3: [f, b]

트랜잭션 4: [c, b, p]

[표 3]

심볼로 표시된 4개의 트랜잭션을 이용하여 빈발 패턴 트리를 생성하게 되면, 도 3과 같이 표시될 수 있다.

도 3을 참조하면, 좌측에는 의료 단어의 심볼과 TF-IDF가 표시된 헤더 테이블이 도시되어 있고, 우측에는 의료 단어의 심볼을 이용하여 생성된 빈발 패턴 트리가 도시되어 있다.

우측의 빈발 패턴 트리는 루트 노드({})를 중심으로 계층구조를 가지는 복수의 노드로 구성되고, 각각의 노드에는 심볼이 매핑되며, 루트 노드({})에 가까운 노드일 수록 TF-IDF가 큰 노드를 나타낸다.

이때, 심볼 옆의 ":숫자"는 하나의 문서에서 등장하는 해당 심볼에 대응되는 의료 단어의 빈도 수인 TF를 나타내는데, 만일 TF-IDF가 동일한 의료 단어가 있다면 TF가 높은 의료 단어가 상위 노드에 배치될 수 있다. 또한, 각각의 노드는 TF-IDF와 점선의 화살표로 연결되어 있는데, 이는 각각의 노드에 해당하는 TF-IDF가 무엇인지를 표시하기 위한 것이다.

예컨대, "f:3"은 심볼 f의 TF가 3인 것을 나타내고, TF-IDF 4에서 "f:3"으로 연결되는 점선의 화살표는, 심볼 f의 TF-IDF가 4라는 것을 나타낸다.

다른 실시예에서는, 중요도 지표 뿐만 아니라, 복수의 의료 단어에 대한 신뢰도, 지지도 및 향상도 중 적어도 하나에 더 기초하여 복수의 트랜잭션을 재구성할 수도 있다.

예컨대, 연관 규칙 생성 장치는 중요도 지표가 동일한 의료 단어의 중요도를 할당하는 경우에 신뢰도, 지지도 및 향상도를 고려할 수 있고, 이때 향상도를 가장 우선적으로 고려하고, 다음으로 신뢰도를 고려하고, 최종적으로 지지도를 고려하여 중요도를 할당할 수 있다. 다만, 또 다른 실시예에서는 중요도 지표는 고려하지 않고 의료 단어의 신뢰도, 지지도 및 향상도만을 이용하여 의료 단어의 중요도를 할당할 수도 있다.

여기서, 지지도는 의료 단어 A와 의료 단어 B가 하나의 의료 기록 문서에 동시에 등장하는 확률을 의미한다. 신뢰도는 의료 단어 A가 특정한 의료 기록 문서에서 등장한 경우 중에서 의료 단어 B가 해당 의료 기록 문서에 등장하는 경우의 조건부확률(P(B|A))을 의미한다. 향상도는 신뢰도(P(B|A))를 B가 발생할 기대 신뢰확률(P(B))로 나눈 값으로 1에 가까우면 의료 단어 상호간에 상관관계가 거의 없음을 뜻하며, 1보다 크면 양의 상관관계, 1보다 작으면 음의 상관관계를 뜻한다.

한편, 도 3의 실시예에서, a라는 심볼과 연관성이 높은 심볼을 찾게 되면 (a, c, f)가 검출되고, b라는 심볼과 연관성이 높은 심볼을 찾게 되면 (b, a, c, f), (b, f), (b, c)가 검출되고, m이라는 심볼과 연관성이 높은 심볼을 찾게 되면 (m, a, c, f), (m, b, a, c, f)가 검출된다. 이때, 루트 노드에 가까운 심볼일수록 중요도가 높은 심볼이므로 사용자인 의료 전문가는 이와 같이 루트 노드에 가까운 심볼을 우선적으로 고려하여, 관련 질병명을 추론할 필요가 있다.

또한, 다른 실시예에 따르면 의료 단어 각각의 연관 규칙을 그림이나 그래프로 도시하여 표시하지 않고, 텍스트로 표시할 수도 있다. 이에 대해서는 도 4를 참조하여 설명한다.

도 4는 본 발명의 일 실시예에 따른 연관 규칙의 예시를 설명하기 위하여 도시한 도면이다.

도 4를 참조하면, 좌측에 표시된 omphalocele, clomid, hypertension라는 의료단어에 대해 우측에 연관 규칙이 표시되어 있다.

예컨대, omphalocele의 경우에는 그 omphalocele에 대한 연관 규칙이 {sabs, gc, clomid, aldomet, intestines, hypospadias, omphalocele}이고, 지지도(support)는 0.988, 신뢰도(Confidence)는 0.952, 향상도(Lift)는 1.17임을 알 수 있다.

도 5는 본 발명의 일 실시예에 따른 빈발 패턴 트리를 생성하기 위한 알고리즘의 예시를 설명하기 위하여 도시한 도면이다.

도 5의 라인 1 내지 2에서는, 의료 기록 문서에 포함된 의료 단어 F를 수집하고, TF-IDF를 산출한 후, 그 산출된 TF-IDF에 기초하여 트랜잭션 내에서의 의료 단어 F를 정렬한다.

도 5의 라인 3 내지 7에서는, 의료 단어의 명칭과 해당 의료 단어의 TF-IDF로 구성되는 헤더 테이블을 생성하되, TF-IDF가 임계치(γ) 미만인 의료 단어는 삭제하여 헤더 테이블에서 배제시킨다.

도 5의 라인 9 내지 20에서는, 빈발 패턴 트리를 생성하는데, 단일 경로 P로 생성이 되는 경우라면 신뢰도(α)가 소정 임계치 이상인 패턴(β)을 생성하고 종료되지만, 그렇지 않은 경우라면 헤더 테이블의 개별 구성요소(의료 단어)에 대응되는 모든 노드에 대하여 신뢰도(α)가 소정 임계치 이상인 패턴(β)을 생성한 후 종료하게 된다.

도 6은 본 발명의 일 실시예에 따라 의료 온톨로지에 기초하여 의료 단어간의 연관 규칙을 생성하는 방법을 설명하기 위하여 도시한 흐름도이다.

단계 142에서는, 연관 규칙 생성 장치가 빈발 패턴 트리에 기초하여, 복수의 의료 단어에 해당하는 복수의 노드간의 노드 유사도를 산출한다.

이때, 노드 Ci와 노드 Cj간의 노드 유사도는 수학식 2에 기초하여 산출될 수 있다.

[수학식 2]

이때, S(Ci,Cj)는 노드 Ci와 노드 Cj간의 상위 노드 C의 집합을 의미하고, p(c)는 모든 노드 중에서 상위 노드 C가 발생하는 확률빈도이며, -log(p(c))는 상위 노드 C의 계층적 정보량을 나타내는 값이다. 즉, -log(p(c))는 상위 노드 C에 속하는 노드가 많은 수록 계층적으로 정보량이 많은 것으로 볼 수 있고, 결과적으로 수학식 2에 기초할때 2개의 노드간에 공유하는 상위 노드가 많을수록 노드 유사도는 높아진다.

단계 144에서는, 연관 규칙 생성 장치가 표준 질병명간의 관계를 정의하는 의료 온톨로지에 기초하여, 복수의 의료 단어 각각에 대응되는 표준 질병명인 복수의 대응 표준 질병명을 검출한다.

이와 같이, 표준 질병명을 검출하는 이유는 의료 전문가가 항상 표준 질병명을 사용하는 것은 아니기 때문에, 이를 의료 온톨로지와 비교하여 표준 질병명과 매핑시키기 위한 것이다.

예컨대, 의료 전문가는 질병명에 약자를 사용할 수도 있고, 표준 질병명과는 상이한 다른 명칭으로 기재할 수도 있는데, 이에 대응되는 표준 질병명을 도 7에 도시된 것과 같은 의료 온톨로지에서 검색하여 대응 표준 질병명으로서 검출하게 된다. 여기서, 도 7은 의료 온톨로지의 예시로서 사람의 질병에 관한 온톨로지가 도시되어 있으며, 사람의 질병명이 표준 질병명으로 분류되어 있다.

다만, 다른 실시예에서는 단계 144는 생략될 수 있다.

단계 146에서는, 연관 규칙 생성 장치가 빈발 패턴 트리 및 노드 유사도에 기초하여, 복수의 대응 표준 질병명간의 연관 규칙을 생성한다.

보다 구체적으로, 연관 규칙 생성 장치는 빈발 패턴 트리에 기초하여 복수의 대응 표준 질병명을 대응되는 계층 구조의 복수의 노드로 표시한 후, 복수의 노드 사이에 노드간의 거리를 표시할 수 있다. 이때, 노드간의 거리는 복수의 노드 상호간에 공유하는 상위 노드의 개수에 비례하여 결정되는 노드 유사도에 기초하여 결정될 수 있다. 다만, 다른 실시예에서는 복수의 노드 사이에 노드간의 거리 대신 노드 유사도가 표시될 수도 있다.

만일, 단계 144가 생략된 경우에는 연관 규칙 생성 장치는 빈발 패턴 트리 및 노드 유사도에 기초하여, 복수의 의료 단어에 대한 연관 규칙을 생성한다.

도 8은 본 발명의 일 실시예에 따라 복수의 대응 표준 질병명간의 연관 규칙을 생성하는 방법을 설명하기 위하여 도시한 도면이다.

도 8을 참조하면, 의료 단어 Omphalocele을 중심으로 한 연관 규칙이 표시되어 있다. 이때, 각각의 노드에 표시된 의료 단어는 도 7의 의료 온톨로지에서의 표준 질병명간의 매핑을 통해 도출된 대응 표준 질병명이다. 또한, 노드와 노드 사이는 엣지라고 불리는 선으로 연결되어 있고, 엣지 위에는 숫자가 표시되어 있는데, 이는 2개의 노드간의 노드 유사도를 나타낸다.

한편, 도 8에서 Omphalocele 노드와 Hypospadias 노드 상호간의 노드 유사도가 0.791로 가장 높은데, 이는 도 8에는 도시되지 않았지만 Omphalocele 노드와 Hypospadias 노드 상호간에 공유하는 상위 노드가 가장 많다는 것을 의미한다. 즉, Omphalocele와 Hypospadias는 상호간에 가장 밀접한 관련성을 가진다고 볼 수 있다.

본 발명의 다른 실시예에 따르면, 도 8과 같은 대응 표준 질병명간의 연관 규칙이 생성되면, 이를 이용하여 의료 전문가에게 관련될 수 있는 질병명을 제시할 수 있다.

예컨대, 연관 규칙 생성 장치가 의료 전문가로부터 Omphalocele이라는 사용자 단어를 수신하게 되면, 연관 규칙 생성 장치는 도 8과 같이 표시된 의료 단어간의 연관 규칙에 기초하여 사용자 단어 Omphalocele에 해당하는 현재 노드로부터 가장 높은 노드 유사도를 가지는 이웃 노드에 대응되는 질병명인 Hypospadias를 출력할 수 있다. 경우에 따라서는, Omphalocele과의 노드 유사도가 가장 높은 3개의 이웃 노드에 대응되는 Hypospadias, Clomid, Neuropathy를 출력할 수도 있다. 이를 통해, 의료 전문가는 Omphalocele이 의심되는 환자에 대해 Hypospadias, Clomid, Neuropathy 등의 질병은 아닌지에 대해 다시 한번 체크해볼 수 있게 된다.

한편, 다른 실시예에서는 노드와 노드 사이에 노드 유사도 대신 노드간의 거리가 표시될 수도 있고, 이 경우에는 연관 규칙 생성 장치는 사용자 단어에 해당하는 현재 노드로부터 노드간의 거리가 가장 가까운 이웃 노드에 해당하는 질병명을 출력할 수 있다.

또한, 또 다른 실시예에서는 의료 전문가가 질병의 증상을 사용자 단어로서 연관 규칙 생성 장치에 입력하면, 연관 규칙 생성 장치가 그 질병의 증상에 대응되는 현재 노드와 노드 유사도가 가장 높은 이웃 노드의 질병명을 출력함으로써, 의료 전문가가 질병의 증상을 입력하는 것만으로도 의심되는 관련 질병명을 제공할 수도 있다. 다만, 이를 위해서는 의료 단어들간의 연관 규칙이 생성된 후에, 그 연관 규칙 중에서 질병의 증상에 대한 의료 단어간에 생성된 연관 규칙은 제거하고, 질병의 증상에 대한 의료 단어와 질병명에 대한 의료 단어간에 생성된 연관 규칙만을 남겨두는 후처리를 수행해야할 것이다.

예컨대, 연관 규칙 생성 장치는 이미 생성된 연관 규칙에 포함되는 복수의 의료 단어가 모두 질병의 증상에 대한 의료 단어인 증상 연관 규칙을 검출하고, 그 검출된 증상 연관 규칙을 삭제하는 방식으로 후처리를 수행할 수 있다. 이때, 연관 규칙 생성 장치는 질병의 증상에 대한 의료 단어에 대한 증상 DB를 생성한 후에, 연관 규칙이 생성된 2개의 의료 단어가 모두 증상 DB에 존재하는 단어일 경우에는 해당 연관 규칙을 삭제할 수 있다.

도 9는 본 발명의 일 실시예에 따른 의료 단어 연관 규칙 생성 장치를 설명하기 위하여 도시한 도면이다.

도 9를 참조하면, 본 발명의 일 실시예에 따른 연관 규칙 생성 장치는 트랜잭션 생성부(910), 지표 산출부(920), 트리 생성부(930) 및 규칙 관리부(940)를 포함한다.

트랜잭션 생성부(910)는 복수의 의료 기록 문서에서 추출된 복수의 의료 단어를 이용하여 복수의 트랜잭션을 생성한다.

지표 산출부(920)는 의료 기록 문서의 전체 개수, 특정한 의료 기록 문서에서의 의료 단어 각각의 빈도수 및 의료 단어 각각이 포함된 의료 기록 문서의 개수에 기초하여, 복수의 의료 단어 각각에 대한 중요도 지표를 산출한다.

트리 생성부(930)는 중요도 지표에 기초하여, 복수의 트랜잭션을 재구성하여 빈발 패턴 트리를 생성한다.

규칙 관리부(940)는 빈발 패턴 트리에 기초하여, 복수의 의료 단어간의 연관 규칙을 생성한다.

이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims

연관 규칙 생성 장치가 의료 단어 연관 규칙을 생성하는 방법에 있어서,
복수의 의료 기록 문서에서 추출된 복수의 의료 단어를 이용하여 복수의 트랜잭션을 생성하는 단계;
상기 의료 기록 문서의 전체 개수, 특정한 의료 기록 문서에서의 상기 의료 단어 각각의 빈도수 및 상기 의료 단어 각각이 포함된 의료 기록 문서의 개수에 기초하여, 상기 복수의 의료 단어 각각에 대한 중요도 지표를 산출하는 단계;
상기 중요도 지표에 기초하여, 상기 복수의 트랜잭션을 재구성하여 빈발 패턴 트리를 생성하는 단계; 및
상기 빈발 패턴 트리에 기초하여, 상기 복수의 의료 단어간의 연관 규칙을 생성하는 단계를 포함하되,
상기 중요도 지표는,
특정한 의료 기록 문서에서의 상기 의료 단어 각각의 빈도수를 상기 복수의 의료 기록 문서에 포함된 모든 의료 단어의 개수로 나눗셈하여 산출된 정규화된 빈도수와 IDF(Inverse Document Frequency)를 이용하여 산출된 값이고,
상기 연관 규칙을 생성하는 단계는,
상기 빈발 패턴 트리에 기초하여, 상기 복수의 의료 단어에 해당하는 복수의 노드간의 노드 유사도를 산출하고, 상기 빈발 패턴 트리 및 상기 노드 유사도에 기초하여, 복수의 대응 표준 질병명간의 연관 규칙을 생성하는 것을 특징으로 하는 의료 단어 연관 규칙 생성 방법.
제1항에 있어서,
상기 복수의 트랜잭션을 생성하는 단계는
상기 복수의 의료 기록 문서에 포함된 복수의 단어 중에서 상기 연관 규칙 생성과 무관한 불용어를 제거하여 상기 연관 규칙 생성의 대상이 되는 상기 복수의 의료 단어를 추출하는 단계; 및
상기 복수의 의료 단어를 이용하여 상기 복수의 트랜잭션을 생성하는 단계를 포함하는 것을 특징으로 하는 의료 단어 연관 규칙 생성 방법.
제2항에 있어서,
상기 복수의 의료 단어를 추출하는 단계는
질병의 증상, 수술명, 진단명, 환자의 상태 및 병력에 대한 단어 중 적어도 하나로 구성되는 의료 단어 DB 또는 복수의 상기 불용어로 구성되는 불용어 DB에 기초하여 수행되는 것을 특징으로 하는 의료 단어 연관 규칙 생성 방법.
제1항에 있어서,
상기 빈발 패턴 트리를 생성하는 단계는
상기 복수의 트랜잭션 각각을 구성하는 상기 복수의 의료 단어의 계층 구조상의 배치를 상기 중요도 지표의 지표 값의 내림 차순에 따라 변경함으로써 상기 복수의 트랜잭션을 재구성하는 단계; 및
상기 재구성된 복수의 트랜잭션에 기초하여, 상기 빈발 패턴 트리를 생성하는 단계를 포함하는 것을 특징으로 하는 의료 단어 연관 규칙 생성 방법.
제4항에 있어서,
상기 복수의 트랜잭션을 재구성하는 단계는
상기 복수의 의료 단어에 대한 신뢰도, 지지도 및 향상도 중 적어도 하나에 더 기초하여 수행되는 것을 특징으로 하는 의료 단어 연관 규칙 생성 방법.
제1항에 있어서,
상기 연관 규칙을 생성하는 단계는
상기 빈발 패턴 트리에 기초하여, 상기 복수의 의료 단어에 해당하는 복수의 노드간의 노드 유사도를 산출하는 단계;
표준 질병명간의 관계를 정의하는 의료 온톨로지에 기초하여, 상기 복수의 의료 단어 각각에 대응되는 표준 질병명인 복수의 대응 표준 질병명을 검출하는 단계; 및
상기 빈발 패턴 트리 및 상기 노드 유사도에 기초하여, 상기 복수의 대응 표준 질병명간의 연관 규칙을 생성하는 단계를 포함하는 것을 특징으로 하는 의료 단어 연관 규칙 생성 방법.
제6항에 있어서,
상기 복수의 대응 표준 질병명간의 연관 규칙을 생성하는 단계는
상기 복수의 대응 표준 질병명을 대응되는 계층 구조의 복수의 노드로 표시하는 단계; 및
상기 복수의 노드 사이에 노드간의 유사도를 나타내는 노드 유사도를 표시하는 단계를 포함하는 것을 특징으로 하는 것을 특징으로 하는 의료 단어 연관 규칙 생성 방법.
제6항에 있어서,
상기 복수의 대응 표준 질병명간의 연관 규칙을 생성하는 단계는
상기 복수의 대응 표준 질병명을 대응되는 계층 구조의 복수의 노드로 표시하는 단계; 및
상기 복수의 노드 사이에 노드간의 거리를 표시하는 단계를 포함하고,
상기 노드간의 거리는 상기 복수의 노드 상호간에 공유하는 상위 노드의 개수에 비례하여 결정되는 노드 유사도에 기초하여 결정되는 것을 특징으로 하는 의료 단어 연관 규칙 생성 방법.
제1항에 있어서,
사용자 단어를 수신하는 단계; 및
상기 복수의 의료 단어간의 연관 규칙에 기초하여, 상기 사용자 단어에 해당하는 현재 노드로부터 소정 거리 이내에 위치하는 적어도 하나의 이웃 노드에 대응되는 적어도 하나의 의료 단어를 출력하는 단계를 더 포함하는 것을 특징으로 하는 의료 단어 연관 규칙 생성 방법.
제1항에 있어서,
상기 중요도 지표는
상기 복수의 의료 단어 각각에 대한 TF-IDF(Term Frequency-Inverse Document Frequency) 값인 것을 특징으로 하는 의료 단어 연관 규칙 생성 방법.
제10항에 있어서,
상기 중요도 지표는 수학식 1에 의하여 산출되는 것을 특징으로 하는 의료 단어 연관 규칙 생성 방법.
[수학식 1]

이때, w는 의료 단어를 나타내고, d는 특정 문서를 나타내고, D는 전체 문서를 나타내고,
는 특정한 의료 기록 문서에서의 의료 단어 각각의 빈도수를 나타내고,
는 전체 문서의 개수를 나타내고,
는 의료 단어 w가 등장한 문서의 횟수를 나타냄.
제1항에 있어서,
상기 특정한 의료 기록 문서에서의 상기 의료 단어 각각의 빈도수는
상기 특정한 의료 기록 문서에서의 상기 의료 단어 각각의 빈도수를 상기 복수의 의료 기록 문서에 포함된 모든 의료 단어의 개수를 이용하여 나눗셈함으로써 생성된 정규화된 빈도수인 것을 특징으로 하는 의료 단어 연관 규칙 생성 방법.
제1항에 있어서,
상기 빈발 패턴 트리를 생성하는 단계는
상기 복수의 의료 단어 중에서 상기 중요도 지표 및 지지도 중 적어도 하나가 소정 임계치 이상인 의료 단어만을 이용하여 수행되는 것을 특징으로 하는 의료 단어 연관 규칙 생성 방법.
제1항에 있어서,
상기 연관 규칙에 포함되는 복수의 의료 단어가 모두 질병의 증상에 대한 의료 단어인 증상 연관 규칙을 검출하는 단계; 및
상기 증상 연관 규칙을 삭제하는 단계를 더 포함하는 것을 특징으로 하는 의료 단어 연관 규칙 생성 방법.
복수의 의료 기록 문서에서 추출된 복수의 의료 단어를 이용하여 복수의 트랜잭션을 생성하는 트랜잭션 생성부;
상기 의료 기록 문서의 전체 개수, 특정한 의료 기록 문서에서의 상기 의료 단어 각각의 빈도수 및 상기 의료 단어 각각이 포함된 의료 기록 문서의 개수에 기초하여, 상기 복수의 의료 단어 각각에 대한 중요도 지표를 산출하는 지표 산출부;
상기 중요도 지표에 기초하여, 상기 복수의 트랜잭션을 재구성하여 빈발 패턴 트리를 생성하는 트리 생성부; 및
상기 빈발 패턴 트리에 기초하여, 상기 복수의 의료 단어간의 연관 규칙을 생성하는 규칙 관리부를 포함하되,
상기 중요도 지표는,
특정한 의료 기록 문서에서의 상기 의료 단어 각각의 빈도수를 상기 복수의 의료 기록 문서에 포함된 모든 의료 단어의 개수로 나눗셈하여 산출된 정규화된 빈도수와 IDF(Inverse Document Frequency)를 이용하여 산출된 값이고,
상기 규칙 관리부는,
상기 빈발 패턴 트리에 기초하여, 상기 복수의 의료 단어에 해당하는 복수의 노드간의 노드 유사도를 산출하고, 상기 빈발 패턴 트리 및 상기 노드 유사도에 기초하여, 복수의 대응 표준 질병명간의 연관 규칙을 생성하는 것을 특징으로 하는 의료 단어 연관 규칙 생성 장치.