KR102445443B1

KR102445443B1 - 문서내 키워드 추출 자동화 방법 및 시스템

Info

Publication number: KR102445443B1
Application number: KR1020220065375A
Authority: KR
Inventors: 곽효승; 심지현; 이홍재; 고형석
Original assignee: (주)유알피시스템
Priority date: 2022-05-27
Filing date: 2022-05-27
Publication date: 2022-09-20

Abstract

본 발명의 일 실시예에 따른 문서내 키워드 추출 자동화 방법은 키워드 그룹 추출부가 입력되거나 저장된 각 문서내에 포함된 키워드 그룹(W)으로부터 스코어 키워드 그룹(WS) 및 빈도 키워드 그룹(WF)을 추출하는 단계; 지정 빈도 키워드 그룹(FW) 검색부가 범위 스코어 키워드 그룹 추출부가 기준 스코어를 이용하여 스코어 키워드 그룹(WS)으로부터 범위 스코어 키워드 그룹(WK)을 추출하는 단계; 지정 빈도 키워드 그룹(FW) 검색부가 상기 범위 스코어 키워드 그룹(WK)와 빈도 키워드 그룹(WF)의 교집합인 지정 빈도 키워드 그룹(FW)을 검색하는 단계; 기준 키워드 그룹(WSK) 검색부가 상기 지정 빈도 키워드 그룹(FW)으로부터 기준 빈도수를 이용하여 추출된 빈도 기준 키워드 그룹(FK)과 상기 범위 스코어 키워드 그룹(WK)의 교집합인 기준 키워드 그룹(WSK)을 검색하는 단계; 및 최종 키워드 그룹 추출부가 상기 기준 키워드 그룹(WSK)의 스코어를 이용하여 상기 범위 스코어 키워드 그룹(WK)로부터 최종 키워드 그룹을 추출하는 단계를 포함할 수 있다.

Description

문서내 키워드 추출 자동화 방법 및 시스템{METHOD AND SYSTEM FOR AUTOMATING KEYWORD EXTRACTION IN DOCUMENTS}

본 발명은 문서내 키워드 추출 자동화 방법 및 시스템에 관한 것이다.

방대한 문서 데이터 중에서 필요한 문서 데이터를 발견할 수 있게 하는 검색 시스템에 필수적인 기술 중 하나인 키워드 추출 기술은 자주 등장하는 키워드나 중요하다고 지정된 키워드를 유효한 키워드로 추출하여 해당 키워드를 미리 저장하여 둘 수 있다. 이를 통해 검색 시스템을 효율적으로 작동하게 할 수 있다.

다만, 종래에는 이러한 유효 키워드를 추출하려면 유효하다고 여겨지는 키워드의 스코어를 추출하기 위한 쓰레스홀드를 고정하여 지정해야만 했으나 그동안 적절한 목적에 따라 유용한 쓰레스홀드를 지정하는데 어려움이 있어왔다.

본 발명은 문서내에서 고정적인 쓰레스홀드 없이 일정 비율의 키워드를 자동으로 추출하기 위한 문서내 키워드 추출 자동화 방법 및 시스템을 제공하고자 한다.

상기 기준 스코어는, 상기 스코어 키워드 그룹(WS)로부터 산출될 수 있다.

상기 기준 빈도수는, 상기 빈도 키워드 그룹(WF)로부터 산출될 수 있다.

상기 스코어 키워드 그룹(WS)은 키워드와 키워드의 중요도 값이 매핑되며, 상기 빈도 키워드 그룹(WF)은 키워드와 키워드의 문서내 출연 빈도값이 매핑될 수 있다.

상기 기준 스코어는, 상기 스코어 키워드 그룹(WS)의 스코어 평균값 또는 스코어 중위값을 이용하여 산출될 수 있다.

상기 기준 빈도수는, 상기 지정 빈도 키워드 그룹(FW)의 빈도수 평균값 또는 빈도수 중위값을 이용하여 산출될 수 있다.

상기 빈도 기준 키워드 그룹(FK)은, 상기 기준 빈도수보다 빈도수가 큰 키워드 중에서 빈도수가 가장 작은 키워드일 수 있다.

상기 범위 스코어 키워드 그룹(WK)는 상기 스코어 키워드 그룹(WS) 내 키워드 중에서 기준 스코어 이상인 키워드이고, 상기 최종 키워드 그룹은 상기 범위 키워드 그룹(WK) 내 키워드 중에서 상기 기준 키워드 그룹(WSK)의 스코어 이상인 키워드일 수 있다.

본 발명의 일 실시예에 따른 문서내 키워드 추출 자동화 시스템은 키워드 그룹(W)으로부터 스코어 키워드 그룹(WS) 및 빈도 키워드 그룹(WF)을 추출하는 키워드 그룹 추출부; 기준 스코어를 이용하여 스코어 키워드 그룹(WS)으로부터 범위 스코어 키워드 그룹(WK)을 추출하는 범위 스코어 키워드 그룹(WK) 추출부; 상기 범위 스코어 키워드 그룹(WK)와 빈도 키워드 그룹(WF)의 교집합인 지정 빈도 키워드 그룹(FW)을 검색하는 지정 빈도 키워드 그룹(FW) 검색부; 상기 지정 빈도 키워드 그룹(FW)으로부터 기준 빈도수를 이용하여 추출된 빈도 기준 키워드 그룹(FK)과 상기 범위 스코어 키워드 그룹(WK)의 교집합인 기준 키워드 그룹(WSK)을 검색하는 기준 키워드 그룹(WSK) 검색부; 및 상기 기준 키워드 그룹(WSK)의 스코어를 이용하여 상기 범위 스코어 키워드 그룹(WK)로부터 최종 키워드 그룹을 추출하는 최종 키워드 그룹 추출부를 포함할 수 있다.

상기 기준 스코어는, 상기 스코어 키워드 그룹(WS)의 스코어 평균값과 스코어 중위값 중 큰 값이고,상기 기준 빈도수는,상기 지정 빈도 키워드 그룹(FW)의 빈도수 평균값과 빈도수 중위값 중 큰 값일 수 있다.

본 발명의 일 실시예에 따르면 키워드의 스코어에 해당하는 쓰레스홀드를 고정하여 키워드를 추출할 필요 없어 쓰레스홀드 지정 시간이 단축되며, 문서내에서 일정 비율의 키워드를 자동으로 추출해낼 수 있어 문서 간 유사도 측정이나 내용 요약, 검색 등의 효율성을 높이는 효과가 있다.

다만, 본 발명의 효과가 상술한 효과들로 제한되는 것은 아니며, 언급되지 아니한 효과들도 본 명세서 및 첨부된 도면으로부터 본 발명이 속하는 기술분야 에서 통상의 지식을 가진 자에게는 명확히 이해될 수 있을 것이다.

도 1은 본 발명의 일 실시예에 따른 문서내 키워드 추출 자동화 시스템의 개념도이다.
도 2는 본 발명의 일 실시예에 따른 문서내 키워드 추출 자동화 방법의 전체적인 시계열적 흐름을 나타내는 흐름도이다.

본 발명의 바람직한 실시예에 대하여 더 구체적으로 설명하되, 이미 주지된 기술적 부분에 대해서는 설명의 간결함을 위해 생략하거나 압축하기로 한다.

도 1은 본 발명의 일 실시예에 따른 문서내 키워드 추출 자동화 시스템의 개념도이다.

이하에서는 본 발명의 일 실시예에 따른 문서내 키워드 추출 자동화 시스템을 설명한다.

본 발명의 일 실시예에 따른 문서내 키워드 추출 자동화 시스템(100)은 범위 스코어 키워드 그룹(WK) 추출부(110), 지정 빈도 키워드 그룹(FW) 검색부(120), 기준 키워드 그룹(WSK) 검색부(130) 및 최종 키워드 그룹 추출부(140)를 포함할 수 있다.

문서에는 각종 텍스트 등 자료가 포함된 문서들일 수 있고, 각종 행정 문서, 보고서, 논문 및 평가서 등 다양한 포맷일 수 있고, odt, pdf, ppt, pptx, xls, xlsx, doc, docx, hwp 및 hwpx 등 파일형식을 갖출 수 있으며 데이터베이스 상에 저장되어 있을 수 있다.

본 발명의 일 실시예에 따른 입력된 문서내 키워드 추출 자동화 시스템(100)의 키워드 그룹 추출부를 통하여 키워드 그룹(W)으로부터 추출된 스코어 키워드 그룹(WS) 및 빈도 키워드 그룹(WF)으로부터 최종 키워드 그룹을 추출할 수 있다(S210).

스코어 키워드 그룹(WS)은 키워드와 키워드의 중요도 값이 매핑되며, 빈도 키워드 그룹(WF)은 키워드와 키워드의 문서내 출연 빈도값이 매핑되어 있을 수 있다.

구체적으로 범위 키워드 그룹(WK) 추출부(110)는 기준 스코어를 이용하여 스코어 키워드 그룹(WS)으로부터 범위 스코어 키워드 그룹(WK)을 추출할 수 있다(S230).

여기서 기준 스코어는, 스코어 키워드 그룹(WS)로부터 산출되며, 기준 빈도수는 빈도 키워드 그룹(WF)로부터 산출될 수 있다(S220).

예를 들어 기준 스코어는 스코어 키워드 그룹(WS)의 스코어 평균값 또는 스코어 중위값을 이용하여 산출될 수 있는데 기준 스코어는 스코어 키워드 그룹(WS)의 스코어 평균값과 스코어 중위값 중 큰 값으로 정해질 수 있다.

지정 빈도 키워드 그룹(FW) 검색부(120)는 범위 스코어 키워드 그룹(WK)와 빈도 키워드 그룹(WF)의 교집합인 지정 빈도 키워드 그룹(FW)을 검색할 수 있다.

예를 들어서, 빈도 기준 키워드 그룹(FK)은 기준 빈도수보다 빈도수가 큰 키워드 중에서 빈도수가 가장 작은 키워드로 정해질 수 있다.

기준 키워드 그룹(WSK) 검색부(130)는 지정 빈도 키워드 그룹(FW)으로부터 기준 빈도수를 이용하여 추출된 빈도 기준 키워드 그룹(FK)과 범위 스코어 키워드 그룹(WK)의 교집합인 기준 키워드 그룹(WSK)을 검색할 수 있다.

예를 들어서, 범위 스코어 키워드 그룹(WK)는 상기 스코어 키워드 그룹(WS) 내 키워드 중에서 기준 스코어 이상인 키워드일 수 있다.

최종 키워드 그룹 추출부(140)는 기준 키워드 그룹(WSK)의 스코어를 이용하여 상기 범위 스코어 키워드 그룹(WK)로부터 최종 키워드 그룹을 추출할 수 있다.

즉, 최종 키워드 그룹은 상기 범위 키워드 그룹(WK) 내 키워드 중에서 상기 기준 키워드 그룹(WSK)의 스코어 이상인 키워드일 수 있다.

또한, 기준 빈도수는 지정 빈도 키워드 그룹(FW)의 빈도수 평균값 또는 빈도수 중위값을 이용하여 산출될 수 있는데 지정 빈도 키워드 그룹(FW)의 빈도수 평균값과 빈도수 중위값 중 큰 값으로 정해질 수 있다.

구체적인 일례를 들어 설명하면, 문서내 키워드 그룹(W)가 다음과 같을 수수 있다.

W={문서, 키워드, 사이, 연관도, 분석, 추천, 기계, 학습, 이용, 분류, 효과, 가중치, 중요도, 연관성, 위키, 백과, 사전}

이때, 스코어 키워드 그룹(WS)는 각 키워드와 키워드의 중요도값이 매핑되어져 다음과 같을 수 있다.

WS={(문서, 5.9), (키워드, 5.7), (사이, 5.1), (연관도, 4.5), (분석, 4.4), (추천, 4.1), (기계, 3.6), (학습, 3.3), (이용, 2. 8), (분류, 2.6), (효과, 2.5), (가중치, 2.3), (중요도, 2.2), (연관성, 2.1), (위키, 1.9), (백과, 1.8), (사전, 1.5)}

또한, 빈도 키워드 그룹(WF)는 각 키워드와 키워드가 문서내 출연한 횟수인 빈도값과 매핑되어져 다음과 같을 수 있다.

WF={(문서, 9), (키워드, 9), (사이, 8), (연관도, 7), (분석, 7), (추천, 7), (기계, 6), (학습, 6), (이용, 5), (분류, 5), (효과, 5), (가중치, 4), (중요도, 4), (연관성, 3), (위키, 3), (백과, 2), (사전, 1)}

예를 들어서, 기준 스코어를 스코어 중위값과 평균값 중 큰 값이라고 할 때 중위값을 갖는 키워드는 (이용, 2.8)이고 평균값은 3.2이므로 기준 스코어는 3.2이다.

범위 스코어 키워드 그룹(WK)는 스코어 키워드(WS) 중에서 기준 스코어 이상인 키워드라고 할 때 다음과 같다.

WK={(문서, 5.9), (키워드, 5.7), (사이, 5.1), (연관도, 4.5), (분석, 4.4), (추천, 4.1), (기계, 3.6), (학습, 3.3)}

이에 지정 빈도 키워드 그룹(FW)를 검색하면 다음과 같다.

FW={(문서, 5.9), (키워드, 5.7), (사이, 5.1), (연관도, 4.5), (분석, 4.4), (추천, 4.1), (기계, 3.6), (학습, 3.3)}

기준 빈도수를 빈도 키워드 그룹(WF)의 빈도수 평균값과 중위값 중 큰 값이라고 하면 중위값을 갖는 키워드는 (연관도, 7)이고, 평균값은 7.375이므로 기준 빈도수는 7.375이다.

이에 빈도 기준 키워드 그룹(FK)는 지정 빈도 키워드 그룹(FW) 중에서 기준 빈도수보다 큰 키워드 중에서 가장 빈도수가 작은 키워드이므로 다음과 같다.

FK={(사이,8)}

기준 키워드 그룹(WSK)는 빈도 기준 키워드 그룹(FK)와 범위 스코어 키워드 그룹(WK)의 교집합으로 구해지므로 키워드는 '사이'로 검색된다.

기준 키워드 그룹(WSK)의 스코어는 5.1이므로 이를 이용하여 최종 키워드 그룹을 기준 키워드 이상인 키워드로 추출한다면 최종 키워드는 다음과 같이 추출된다.

최종 키워드 그룹 = {(문서, 5.9), (키워드, 5.7), (사이, 5.1)}

상술한 바와 같이 본 발명에 따르면 키워드의 스코어에 해당하는 문서내에서 기준값을 산출할 수 있으므로 기준값으로 쓰레스홀드를 고정하여 키워드를 추출할 필요 없이 일정 비율의 키워드를 자동으로 추출해낼 수 있어 해당 키워드를 이용하여 지능형 검색 시스템이나 문서 요약 시스템을 실현하는데 도움이 될 수 있다.

즉, 문서내 키워드 그룹 중에서 최종 키워드 그룹을 목적에 따라 중요도나 빈도에 따라 자동으로 추출해내면서 추출시간을 단축할 수 있고 이러한 최종 키워드 그룹은 지능형 검색으로 조회결과를 제공하거나 인공지능 분석에 이용하여 문서를 자동으로 요약하거나 핵심단어를 자동으로 추출하는 기술에 활용될 수 있다.

도 2는 본 발명의 일 실시예에 따른 문서내 키워드 추출 자동화 시스템에 의하여 수행되는 키워드 추출 자동화 방법의 전체적인 시계열적 흐름을 나타내는 흐름도이다.

도 2에서 보이는 바와 같이 본 발명의 일 실시예에 따른 문서내 키워드 추출 자동화 방법은 키워드 그룹 추출부가 입력되거나 저장된 각 문서내에 포함된 키워드 그룹(W)으로부터 스코어 키워드 그룹(WS) 및 빈도 키워드 그룹(WF)을 추출하는 단계; 지정 빈도 키워드 그룹(FW) 검색부가 범위 스코어 키워드 그룹 추출부가 기준 스코어를 이용하여 스코어 키워드 그룹(WS)으로부터 범위 스코어 키워드 그룹(WK)을 추출하는 단계; 지정 빈도 키워드 그룹(FW) 검색부가 상기 범위 스코어 키워드 그룹(WK)와 빈도 키워드 그룹(WF)의 교집합인 지정 빈도 키워드 그룹(FW)을 검색하는 단계; 기준 키워드 그룹(WSK) 검색부가 상기 지정 빈도 키워드 그룹(FW)으로부터 기준 빈도수를 이용하여 추출된 빈도 기준 키워드 그룹(FK)과 상기 범위 스코어 키워드 그룹(WK)의 교집합인 기준 키워드 그룹(WSK)을 검색하는 단계; 및 최종 키워드 그룹 추출부가 상기 기준 키워드 그룹(WSK)의 스코어를 이용하여 상기 범위 스코어 키워드 그룹(WK)로부터 최종 키워드 그룹을 추출하는 단계를 포함할 수 있다.

이하, 상술한 내용과 중복되는 한도에서 문서내 키워드 추출 자동화 방법의 자세한 설명은 생략될 수 있다.

이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형, 균등 내지 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

110 : 범위 스코어 키워드 그룹(WK) 추출부
120 : 지정 빈도 키워드 그룹(FW) 검색부

Claims

키워드 그룹 추출부가 입력되거나 저장된 각 문서내에 포함된 키워드 그룹(W)으로부터 스코어 키워드 그룹(WS) 및 빈도 키워드 그룹(WF)을 추출하는 단계;
범위 스코어 키워드 그룹 추출부가 기준 스코어를 이용하여 스코어 키워드 그룹(WS)으로부터 범위 스코어 키워드 그룹(WK)을 추출하는 단계;
지정 빈도 키워드 그룹(FW) 검색부가 상기 범위 스코어 키워드 그룹(WK)와 빈도 키워드 그룹(WF)의 교집합인 지정 빈도 키워드 그룹(FW)을 검색하는 단계;
기준 키워드 그룹(WSK) 검색부가 상기 지정 빈도 키워드 그룹(FW)으로부터 기준 빈도수를 이용하여 추출된 빈도 기준 키워드 그룹(FK)과 상기 범위 스코어 키워드 그룹(WK)의 교집합인 기준 키워드 그룹(WSK)을 검색하는 단계;
및
최종 키워드 그룹 추출부가 상기 기준 키워드 그룹(WSK)의 스코어를 이용하여 상기 범위 스코어 키워드 그룹(WK)로부터 최종 키워드 그룹을 추출하는 단계를 포함하는,
문서내 키워드 추출 자동화 방법.
제1항에 있어서,
상기 기준 스코어는,
상기 스코어 키워드 그룹(WS)로부터 산출되는 것을 특징으로 하는
문서내 키워드 추출 자동화 방법.
제1항에 있어서,
상기 기준 빈도수는,
상기 빈도 키워드 그룹(WF)로부터 산출되는 것을 특징으로 하는
문서내 키워드 추출 자동화 방법.
제1항에 있어서,
상기 스코어 키워드 그룹(WS)은 키워드와 키워드의 중요도 값이 매핑되며,
상기 빈도 키워드 그룹(WF)은 키워드와 키워드의 문서내 출연 빈도값이 매핑되어진 것을 특징으로 하는
문서내 키워드 추출 자동화 방법.
제1항에 있어서,
상기 기준 스코어는,
상기 스코어 키워드 그룹(WS)의 스코어 평균값 또는 스코어 중위값을 이용하여 산출되어지는 것을 특징으로 하는
문서내 키워드 추출 자동화 방법.
제1항에 있어서,
상기 기준 빈도수는,
상기 지정 빈도 키워드 그룹(FW)의 빈도수 평균값 또는 빈도수 중위값을 이용하여 산출되어지는 것을 특징으로 하는
문서내 키워드 추출 자동화 방법.
제1항에 있어서,
상기 빈도 기준 키워드 그룹(FK)은,
상기 기준 빈도수보다 빈도수가 큰 키워드 중에서 빈도수가 가장 작은 키워드인 것을 특징으로 하는
문서내 키워드 추출 자동화 방법.
제1항에 있어서,
상기 범위 스코어 키워드 그룹(WK)는 상기 스코어 키워드 그룹(WS) 내 키워드 중에서 기준 스코어 이상인 키워드이고,
상기 최종 키워드 그룹은 상기 범위 스코어 키워드 그룹(WK) 내 키워드 중에서 상기 기준 키워드 그룹(WSK)의 스코어 이상인 키워드인 것을 특징으로 하는
문서내 키워드 추출 자동화 방법.
키워드 그룹(W)으로부터 스코어 키워드 그룹(WS) 및 빈도 키워드 그룹(WF)을 추출하는 키워드 그룹 추출부;
기준 스코어를 이용하여 스코어 키워드 그룹(WS)으로부터 범위 스코어 키워드 그룹(WK)을 추출하는 범위 스코어 키워드 그룹(WK) 추출부;
상기 범위 스코어 키워드 그룹(WK)와 빈도 키워드 그룹(WF)의 교집합인 지정 빈도 키워드 그룹(FW)을 검색하는 지정 빈도 키워드 그룹(FW) 검색부;
상기 지정 빈도 키워드 그룹(FW)으로부터 기준 빈도수를 이용하여 추출된 빈도 기준 키워드 그룹(FK)과 상기 범위 스코어 키워드 그룹(WK)의 교집합인 기준 키워드 그룹(WSK)을 검색하는 기준 키워드 그룹(WSK) 검색부;
및
상기 기준 키워드 그룹(WSK)의 스코어를 이용하여 상기 범위 스코어 키워드 그룹(WK)로부터 최종 키워드 그룹을 추출하는 최종 키워드 그룹 추출부를 포함하는
문서내 키워드 추출 자동화 시스템.
제9항에 있어서,
상기 기준 스코어는,
상기 스코어 키워드 그룹(WS)의 스코어 평균값과 스코어 중위값 중 큰 값이고,
상기 기준 빈도수는,
상기 지정 빈도 키워드 그룹(FW)의 빈도수 평균값과 빈도수 중위값 중 큰 값인 것을 특징으로 하는
문서내 키워드 추출 자동화 시스템.