WO2019103224A1

WO2019103224A1 - 문서 내 핵심 키워드 추출 시스템 및 방법

Info

Publication number: WO2019103224A1
Application number: PCT/KR2017/013869
Authority: WO
Inventors: 김문종; 장정훈
Original assignee: (주)와이즈넛
Priority date: 2017-11-22
Filing date: 2017-11-30
Publication date: 2019-05-31
Also published as: KR20190058935A; KR102019194B1

Abstract

본 발명은 문서 내 핵심 키워드 추출 시스템에 관한 것으로서, 복수의 비정형 텍스트 문서 내의 키워드를 분석하여 후보 단어를 선정하는 후보단어선정부; 상기 복수의 비정형 텍스트 문서에서 단어 임베딩을 통해 단어를 군집하고, 상기 후보단어선정부에서 선정된 단어들의 의미를 분석하여 단어들 간의 유사 의미 단어를 선정하는 유사의미단어선정부; 및 상기 후보 단어와 상기 유사 의미 단어에 적용되는 가중치를 정규화하여 최종 키워드들을 추출하는 키워드추출부; 를 포함하는 것을 특징으로 한다.

Description

문서 내 핵심 키워드 추출 시스템 및 방법

본 발명은 문서 내 핵심 키워드 추출 시스템 및 방법에 관한 것으로서, 보다 상세하게는, 서로 상이한 키워드 선정 알고리즘을 이용하여 얻어진 단어 집합에 대하여 정규화된 가중치를 이용하여 키워드 추출을 수행함으로써 추출 품질을 향상시킬 수 있는 문서 내 핵심 키워드 추출 시스템 및 방법에 관한 것이다.

키워드는 문장을 대표할 수 있는 단어나 구의 형태로써 비정형 텍스트 데이터의 의미를 파악하기 위한 중요한 요소이다.

키워드를 추출하기 위한 연구는 1950년 한스 피터 룬 교수가 고안한 TF-IDF(Term Frequency - Inverse Document Frequency)가 대표적이며, 이후에는 그래프 기반, 계층 구조 및 단어 임베딩을 통한 키워드 추출 방법들이 등장하였다.

최근에는 키워드를 활용하여 문서 군집화, 요약, 분류 및 검색 등과 같은 다양한 응용 분석이 수행되고 있기 때문에 키워드의 중요성은 더욱 커지고 있다.

키워드 구성에 따라 문서의 분류나 요약이 달라지게 되고 그 결과에 따라 사용자에게 얼마나 더 가치 있고 유용한 정보를 주는지가 결정된다.

또한, 텍스트 분석을 통해 원하는 정보를 빠르게 파악하고 의사결정에 도움을 주기 때문에 키워드 추출 및 응용 분석에 대한 연구가 계속적으로 진행되고 있다.

한편, 키워드를 추출하기 위한 방법으로 TF-IDF 알고리즘뿐 아니라, 그래프 기반의 텍스트랭크 및 계층 구조 방법 등의 연구가 진행되어 왔고 최근에는 word2vec와 같은 단어 임베딩을 통해 유사한 의미를 군집하고 이를 통해 단어의 관계를 분석하는 방법 등이 연구되고 있다.

또한 키워드 추출의 품질을 높이기 위해 분석 알고리즘뿐 아니라 키워드 후보 단어의 가중치 조정, 불용어 처리 등 다양한 방법이 병행되고 있으며, 관련 선행기술로는 대한민국 공개특허공보 제10-2013-0045054호(2013.05.03. 공개, 키워드 추출 및 정련 시스템과 그 방법) 및 대한민국 공개특허공보 제10-2013-0142124(2013.12.27. 공개, 키워드 추출에 관한 시스템 및 방법) 등이 있었다.

그러나 상기 선행기술들은 특정 알고리즘 및 추출 기법을 통해 키워드를 추출하는 방식을 채택하고 있었으며, 단일의 특정 알고리즘을 사용하여 키워드를 추출하게 되면 그 알고리즘의 특성에 맞게 단어의 가중치를 계산하기 때문에 가중치가 낮은 단어는 키워드로 추출하지 못하게 되는 문제점이 있었다.

본 발명의 목적은, 텍스트랭크 알고리즘 기반의 키워드 추출과 word2vec 알고리즘 기반의 키워드 추출을 앙상블 기법으로 융합시킴과 동시에 각 알고리즘의 장점을 부각시키고 단점을 최소화시킨 문서 내 핵심 키워드 추출 시스템 및 방법을 제공하는 데 있다.

구체적으로 텍스트랭크에서는 불용어를 제거하는 전처리 과정을 수행하여 텍스트랭크의 품질을 향상시켰으나 텍스트랭크는 단어 간의 링크 관계로 가중치가 결정되기 때문에 의미 기반의 분석은 수행하지 못한다는 단점이 있었다. 이를 해결하기 위하여 텍스트랭크에 의해 추출된 키워드를 word2vec를 통해 의미 기반으로 분석하여 유사 의미 키워드를 선정하도록 하여 텍스트랭크의 단점을 보완하였고 각각의 분석 결과를 앙상블 기법을 통해 최종 키워드로 추출함으로써 키워드 추출 및 분석 결과의 품질의 향상을 기대할 수 있다.

정리하면, 앙상블 기법을 통하면 각각의 알고리즘으로 키워드를 추출한 결과가 가지고 있는 문제점과 이로 인해 키워드 추출의 품질이 떨어지는 부분을 보완할 수 있다. 즉 텍스트랭크에서는 불용어 제거한 자질들 간의 텍스트랭크를 통해 후보 단어를 선정하는 과정을 통해 품질을 향상시키고, word2vec에서는 후보 단어의 유사 단어에 대해 문서 내에 쓰임에 따라 가중치를 계산해주기 때문에 분석한 유사 단어에 대한 가중치를 계산할 수 있다. 이렇게 선정된 모든 후보 단어들은 앙상블 알고리즘의 가중치 정규화 요소를 거치게 되어 향상된 품질의 최종 키워드를 추출할 수 있다.

상기 목적은, 본 발명에 따라, 복수의 비정형 텍스트 문서 내의 키워드를 분석하여 후보 단어를 선정하는 후보단어선정부; 상기 복수의 비정형 텍스트 문서에서 단어 임베딩을 통해 단어를 군집하고, 상기 후보단어선정부에서 선정된 단어들의 의미를 분석하여 단어들 간의 유사 의미 단어를 선정하는 유사의미단어선정부; 및 상기 후보 단어와 상기 유사 의미 단어에 적용되는 가중치를 정규화하여 최종 키워드들을 추출하는 키워드추출부; 를 포함하는 문서 내 핵심 키워드 추출 시스템에 의해 달성될 수 있다.

여기서, 상기 후보단어선정부는, 상기 비정형 텍스트 문서에 포함된 키워드들 중 불용어를 제거하는 전처리부분; 및 상기 전처리부분을 통해 불용어가 제거된 키워드들 간의 링크를 연결하여 각 키워드들의 제1가중치를 계산하는 제1가중치계산부분; 을 포함한다.

또한, 상기 전처리부분은 RIDF(Residual Inverse Document Frequency) 알고리즘을 이용하여 불용어를 제거하도록 마련되며, 상기 RIDF 알고리즘은 IDF(Inverse Document Frequency)와 푸아송 분포(Poisson distribution)를 이용하여 구현되며, 상기 전처리부분을 통해 불용어가 제거된 키워드는 상기 제1가중치계산부분의 자질로 이용된다.

여기서, 상기 유사의미단어선정부는, 상기 복수의 비정형 덱스트 문서 내에 등장하는 단어를 자질 벡터(Feature Vector)로 가공하여 신경망 모델을 통해 학습시켜 유사 의미 단어 후보를 선정하는 임베딩부분; 및 상기 임베딩부분을 통해 선정된 유사 의미 단어 후보들에 제2가중치를 부여하는 제2가중치계산부분; 을 포함한다.

또한, 상기 제2가중치는 유사 의미 단어의 자질 벡터 간의 거리가 가까울수록 또는 문장 내에서 출현 빈도가 많을수록 높게 산출된다.

여기서, 상기 키워드추출부는, 상기 후보단어선정부에서 선정된 후보 단어 집합과 상기 유사의미단어선정부에서 선정된 유사 의미 단어 집합을 병합시키는 단어집합병합부분; 및 상기 단어집합병합부분으로부터 병합된 단어 집합에 정규화된 최종 가중치를 부여하는 가중치정규화부분; 을 포함한다.

한편, 상기 목적은 본 발명에 따라, 복수의 비정형 텍스트 문서 내의 키워드를 분석하여 후보 단어를 선정하는 제1단계; 상기 복수의 비정형 텍스트 문서에서 단어 임베딩을 통해 단어를 군집하고, 상기 제1단계를 통해 선정된 단어들의 의미를 분석하여 단어들 간의 유사 의미 단어를 선정하는 제2단계; 및 상기 제1단계를 통한 후보 단어와 상기 제2단계를 통한 유사 의미 단어에 적용되는 가중치를 정규화하여 최종 키워드들을 추출하는 제3단계; 로 이루어지는 문서 내 핵심 키워드 추출 방법에 의해서도 달성될 수 있다.

여기서, 상기 제1단계는, 상기 비정형 텍스트 문서에 포함된 키워드들 중 불용어를 제거하는 제1-1단계; 및 상기 제1-1단계를 통해 불용어가 제거된 키워드들 간의 링크를 연결하여 각 키워드들의 제1가중치를 계산하는 제1-2단계; 를 포함한다.

또한, 상기 제2단계는, 상기 복수의 비정형 덱스트 문서 내에 등장하는 단어를 자질 벡터(Feature Vector)로 가공하여 신경망 모델을 통해 학습시켜 유사 의미 단어 후보를 선정하는 제2-1단계; 및 상기 제2-1단계를 통해 선정된 유사 의미 단어 후보들에 제2가중치를 부여하는 제2-2단계; 를 포함한다.

또한, 상기 제3단계는, 상기 제1단계를 통해 선정된 후보 단어 집합과 상기 제2단계를 통해 선정된 유사 의미 단어 집합을 병합시키는 제3-1단계; 상기 제3-1단계를 통해 병합된 단어 집합에 정규화된 최종 가중치를 부여하는 제3-2단계; 를 포함한다.

본 발명에 의해, 서로 상이한 키워드 선정 알고리즘을 이용하여 얻어진 단어 집합에 대하여 정규화된 가중치를 이용하여 키워드 추출을 수행함으로써 추출 품질을 향상시킬 수 있다.

또한, 문서 내의 단어의 링크 관계로 가중치가 결정되어 선정된 후보 단어 집합과 문서 내의 유사 의미를 갖는 연관 단어 집합을 적절히 임베딩하고 각 단어 집합에 적용되는 가중치를 보정(가중치의 정규화)함으로써 문서 내의 중요 단어(링크가 많은) 뿐만이 아닌 중요 단어와 관계된 연관 단어의 추출을 구현할 수 있다.

또한, 오늘날 비정형 데이터에 대한 수가 방대해짐에 따라 기업뿐만 아니라 사회 전반적으로 효율적인 업무 관리를 하기 위한 요구가 계속적으로 증가하고 있다. 이에 따라 축적된 비정형 텍스트 데이터에서 키워드를 추출하여 문서의 주제를 보다 빠르게 얻을 수 있고, 이를 통해 기업 의사 결정에 기여 할 수 있다. 키워드와 유사한 의미의 단어를 같이 키워드로 추출하면 기존에 얻지 못했던 새로운 키워드 정보를 얻을 수 있을 뿐 아니라 키워드 간의 연관 정보도 같이 파악할 수 있는 장점이 있다.

결과적으로, 문서 요약, 분류, 군집화, 색인 및 검색 등 다양한 응용분석 기법들이 키워드를 활용하고 있기 때문에 키워드 추출 품질을 향상시킴으로써 응용분석 분석 결과의 품질의 향상을 기대할 수 있다.

도 1 은 본 발명에 따른 문서 내 핵심 키워드 추출 시스템의 구성을 나타낸 블럭도이며,

도 2 는 본 발명에 따른 문서 내 핵심 키워드 추출 방법의 전체적인 흐름도이며,

도 3 은 본 발명에 따른 문서 내 핵심 키워드 추출 방법의 세부 과정이 표현된 흐름도이다.

이하, 첨부된 도면을 참조하여 본 발명의 구성을 상세히 설명하기로 한다.

이에 앞서, 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

또한, 본 명세서 및 청구범위에 사용된 용어는 사전적인 의미로 한정 해석되어서는 아니되며, 발명자는 자신의 발명을 최선의 방법으로 설명하기 위해 용어의 개념을 적절히 정의할 수 있다는 원칙에 입각하여, 본 발명의 기술적 사상에 부합되는 의미와 개념으로 해석되어야 한다.

따라서, 본 명세서에 기재된 실시예 및 도면에 도시된 구성은 본 발명의 바람직한 실시예에 불과할 뿐이고, 본 발명의 기술적 사상을 모두 표현하는 것은 아니므로, 본 출원 시점에 있어 이들을 대체할 수 있는 다양한 균등물과 변형예들이 존재할 수 있음을 이해하여야 한다.

1. 문서 내 핵심 키워드 추출 시스템에 대한 구체적인 설명

이하에서 설명하는 문서 내 핵심 키워드 추출 시스템은 기본적으로 데이터 저장 구성과 데이터 가공, 분석 및 처리를 담당하는 데이터 연산 구성으로 이루어지며, 이를 소프트웨어 및 하드웨어 형태로 구현하기 위한 데이터 전달, 코딩, 연산 흐름, 회로 설계 등의 기술이 복합적으로 융합되어 문서 내의 앙상블 기법의 키워드 추출 시스템이 구축됨을 밝혀둔다.

도 1 은 본 발명에 따른 문서 내 핵심 키워드 추출 시스템의 구성을 나타낸 블럭도이다.

도 1 을 참조하면, 본 발명에 따른 문서 내 핵심 키워드 추출 시스템(100)은, 후보단어선정부(10)와 유사의미단어선정부(20) 및 키워드추출부(30)를 포함한다.

후보단어선정부(10)는 복수의 비정형 텍스트 문서 내의 키워드를 분석하여 후보 단어를 선정하는 역할을 수행하는 구성으로 텍스트랭크 알고리즘을 통해 후보 단어를 선정한다.

텍스트랭크는 Mihalcea(2004)이 제안한 알고리즘으로 구글의 페이지랭크를 활용한 그래프 기반의 랭킹 모델이다. 페이지랭크는 링크를 가지는 웹 문서에 상대적 중요도의 따라 가중치를 부여하는 방법인데 텍스트랭크는 페이지랭크의 알고리즘을 활용하여 문서 간의 링크에 따라 가중치를 부여하는 알고리즘이다. 텍스트랭크의 기본 수식은 다음과 같다.

[수식 1]

수식1	설명
	정점을 갖는 단어 에 대한 텍스트랭크 값
	단어 i와 j사이의 가중치
	페이지랭크에서 다른 페이지로 이동할 확률, 일반적으로는 0.85로 고정하여 사용

상기 후보단어선정부(10)는 텍스트랭크를 활용하여 후보 단어 선정하며, 정점

를 문서 내의 각 단어로 설정함으로써 단어와 단어간의 링크를 연결하고 이를 통해 가중치를 계산한다.

여기서, 텍스트랭크에서는 모든 단어들간의 링크를 연결하여 가중치를 계산하기 때문에 텍스트랭크 결과로서 불용어가 후보 단어로 선정될 수 있기 때문에 이를 방지하기 위하여 후보단어선정부(10)는 상기 비정형 텍스트 문서에 포함된 키워드들 중 불용어를 제거하는 전처리부분(12)과 상기 전처리부분(12)을 통해 불용어가 제거된 키워드들 간의 링크를 연결, 즉, 텍스트랭크 알고리즘을 이용하여 각 키워드들의 제1가중치를 계산하는 제1가중치계산부분(14)를 포함한다.

여기서, 상기 전처리부분(12)에서 수행되는 불용어 제거 과정은 텍스트 문서 내의 자질을 추출하는 과정에서 제외되는 대상을 선정하는 과정이다. 또한 사용자가 직접 불용어를 선정하는 것이 아닌 알고리즘을 통해 자동적으로 불용어를 제거하고, 이를 통해 텍스트랭크에 사용할 자질을 선정한다. 불용어 제거 알고리즘은 IDF(Inverse Document Frequency)와 Poisson 분포를 활용하여 계산한다.

먼저 IDF는 한 단어가 텍스트 데이터 전체에서 얼마나 공통적으로 나타나는지를 나타내는 값이다. 텍스트 데이터 전체의 문서 수를 해당 단어를 포함한 문서의 수로 나뉜 뒤 로그를 취하여 얻을 수 있다.

[수식 2]

수식2	설명
	텍스트 문서 D의 크기, 또는 전체 문서의 수
	단어 t가 포함된 문서의 수, 단어가 전체 말뭉치 안에 존재하지 않을 경우 이는 분모가 0이 되는 결과를 가져온다. 이를 방지하기 위해 1 + 를 사용한다.

Poisson은 단어 t를 0또는 양의 정수 값을 취하는 이산적 변수로 할 때 t의 값이 출현하는 확률로 주어 지는 분포이다.

[수식 3]

분포 λ는 이 분포에서의 이 분포에서의 평균값 및 분산을 나타낸다. 이분포에서 발생확률이 매우 작을 때 그 분포는 Poisson 분포에 근사하다.

RIDF는 IDF와 IDF의 Poisson 분포와의 차이로 정의한다. 이때, Poisson 분포의 λ값은 단어 t가 전체 문서에 나타난 빈도의 평균값을 사용한다.

[수식 4]

수식4	설명
	단어 가 전체 문서에 나타난 빈도의 평균 값
	적어도 한번이라도 나타난 문서의 Poisson 확률 값

즉, 후보단어선정부(10)는 전처리부분(12)을 통하여 불용어를 제거한 후, 제1가중치계산부분(14)을 통해 단어들 간의 텍스트랭크 가중치(제1가중치)를 구함으로써 후보 단어(중요 단어)를 선정한다.

한편, 상기 유사의미단어선정부(20)는 상기 복수의 비정형 텍스트 문서에서 단어 임베딩을 통해 단어를 군집하고, 상기 후보단어선정부(10)에서 선정된 단어들의 의미를 분석하여 단어들 간의 유사 의미 단어를 선정하는 역할을 수행하는 구성으로, 복수의 비정형 덱스트 문서 내에 등장하는 단어를 자질 벡터(Feature Vector)로 가공하여 신경망 모델을 통해 학습시켜 유사 의미 단어 후보를 선정하는 임베딩부분(22) 및 상기 임베딩부분(22)을 통해 선정된 유사 의미 단어 후보들에 제2가중치를 부여하는 제2가중치계산부분(24)를 포함한다.

여기서 상기 "유사 의미 단어"는 단어의 문언적 의미가 유사한 사례 외에 "공구" 및 "드라이버" 또는 "한국" 및 일본" 또는 "상승" 및 "하락" 등과 같이 단어의 상, 하위 개념 또는 의미 관계성을 가지는 개념을 모두 포함하는 포괄적 용어로서 정의됨을 밝혀둔다.

전술한 후보단어선정부(10)를 통한 텍스트랭크 기반의 단어 선정은 단어 간의 링크 관계로 가중치를 결정하기 때문에 의미 기반의 분석을 수행하지 않는다.

즉, 단어들 간의 링크로 키워드를 추출하게 되면 키워드와 유사한 의미를 갖는 다른 키워드를 추출할 수 없기 때문에 앞서 텍스트랭크 알고리즘을 통해 분석한 후보 단어와 유사 의미를 갖는 단어들에 대해 제2가중치를 적용하여 유사 의미 단어 후보를 선정한 것이다.

여기서, 임베딩부분(22)은 분산 단어 표현(Distributed Word Representation)을 사용하는데, 이는 말뭉치를 데이터 마이닝 기반으로 학습하여 차원 축소 및 추상화를 통해 문서 집합에 등장하는 단어를 수십에서 수백 차원의 자질 벡터(Feature Vector)로 표현하는 것이다.

초기 NNLM(Neural Net Language Model)은 이런 단어의 자질을 학습하기 위해서 많은 시간이 필요한 단점이 있었으나, 은닉층(Hidden layer)을 제거하고 신경망 모델을 단순화하는 방법으로 단어 자질의 학습 시간을 비약적으로 단축시켰다.

학습된 단어 벡터는 유사 의미의 단어들이 비슷한 군집을 이룬다는 점에서 주목할 만한 특징을 보이며, 유사 의미 단어 간의 거리를 계산하는 수식은 다음과 같다.

[수식 5]

수식5	설명
	단어 와 단어
	단어 와 의 원소 , 의 거리
	정규 분포 표현

즉, 단어들이 인베딩된 공간에서의 단어 간의 유사 의미는 단어 간의 거리를 계산하여 나태 낼 수 있다. 예를 들어, 실험한 문서 집합에 대한 학습 결과에서 "한국"과 "일본"의 결과는 가까운 거리를 갖는 특징 벡터를 이루었다. 마찬가지로 "서울"과 "도쿄"의 거리를 계산해 볼 때 두 단어를 유사 의미로 유추할 수 있다. 이를 통해, 학습을 통한 단어 벡터는 유사한 단어의 쓰임에 대하여 규칙적인 패턴을 잘 표현하며 문법적인 관계 정보도 잘 반영되는 것을 알 수 있다.

상기 제2가중치계산부분(24)은 상기 임베딩부분(22)에서 분석된 유사 의미 단어에 대하여 가중치를 부여하는 역할을 수행하며, 임베딩부분(22)을 통해 선정된 유사 의미 단어 후보들은 전술한 후보단어 선정부(10)에서 텍스트랭크 알고리즘을 통해 선정된 후보 단어와 병합하기 위해 제2가중치를 부여한다. 이러한 제2가중치의 계산 방법은 아래의 수식과 같다.

[수식 6]

수식6	설명
	단어 t의 출현 수
	1/단어 t가 출현한 문장의 수
	단어 t의 길이
N	가중치 정규화 요소

여기서, 특정 단어의 빈도(Term Frequency)와 그 단어의 독특함의 정도(여러 문장에 많이 나타날수록 그 독특함이 떨어진다 간주할 수 있으므로, 그 역수인 Inverse Sentence Frequency를 곱하여 준다), 단어의 조합이 많고 길이가 길수록 뜻이 명확해지는 특징(Term Length)을 조합하여 유사 의미 단어의 제2가중치를 부여한다. 유사 의미 단어에 대한 전체 가중치 계산 수식은 다음과 같다.

[수식 7]

즉, 후보 단어에 대한 유사 의미 단어의 가중치(제2가중치)는 거리가 가까울수록, 문장 내에서 빈도가 많이 발생할수록 높아지게 된다. 이렇게 계산한 제2가중치는 기존에 텍스트랭크로 계산한 제1가중치와 병합 및 정규화되어 최종 키워드를 추출하는 갱신된 가중치로 이용된다.

한편, 키워드추출부(30)는 상기 후보단어선정부(10)에서 선정된 후보 단어와 상기 유사의미단어선정부(20)에서 선정된 유사 의미 단어에 적용되는 가중치를 정규화하여 최종 키워드들을 추출하는 역할을 수행하는 구성이다.

여기서, 상기 키워드추출부(30)는, 상기 후보단어선정부(10)에서 선정된 후보 단어 집합과 상기 유사의미단어선정부(20)에서 선정된 유사 의미 단어 집합을 병합시키는 단어집합병합부분(32) 및 상기 단어집합병합부분(32)으로부터 병합된 단어 집합에 정규화된 최종 가중치를 부여하는 가중치정규화부분(34); 을 포함한다.

즉, 텍스트랭크 알고리즘 기반으로 선정된 후보 단어 집합과 word2vec 알고리즘 기반으로 선정된 유사 의미 단어 집합이 각각의 가중치를 갖는다. 이러한 각 단어 집합(군집)은 각각 다른 알고리즘에 의해 선정된 단어 집합이고 가중치가 정규화 되어 있지 않다. 때문에 최종 키워드를 추출하기 위해서는 두 단어 집합을 병합하고 가중치를 정규화 시키는 과정이 필요하다. 두 단어 집합을 병합하기 위해서는 각 단어 집합에 대해 앙상블 알고리즘을 적용한 후, 이 결과에 정규화된 가중치가 적용되어 최종 키워드가 추출되게 되는 것이다.

앙상블 알고리즘으로 각 단어 집합을 병합하는 수식은 다음과 같다.

[수식 8]

수식8	설명
	문서내의 키워드 T를 갖는 집합 K
	불용어를 제외한 텍스트랭크의 후보 단어
	후보 단어의 유사 의미 단어 는 정규화 요소

먼저 텍스트랭크 알고리즘에서는 불용어를 제외한 자질들에 대해서 링크를 걸고 각 자질들에 가중치를 계산(제1가중치)함으로써 후보 단어를 선정하지만, 각 문서 내의 링크로는 각 후보 단어가 어떠한 군집을 이루고 있는지, 어떤 유사 의미를 가지고 있는지 알 수 없다. 따라서 각 후보 단어의 유사 의미 단어

를 통해 유사 단어의 가중치(제2가중치)를 계산하고 정규화 요소

를 곱해줌에 따라 텍스트랭크에서 보완하지 못했던 키워드의 품질을 보완할 수 있게 된다. 두 알고리즘을 앙상블 알고리즘으로 병합하는 과정에서 정규화 요소

를 어느 정도로 하느냐에 따라 후보 단어의 영향을 받게 된다. 정규화 요소는 다음과 같이 계산한다

[수식 9]

텍스트랭크와 word2vec 및 TF-ISF는 하나의 단어가 높은 가중치를 갖게 되면 다른 단어의 가중치는 상대적으로 낮아지게 되므로 가중치 기반으로 경계선을 그으면 다른 단어가 키워드의 후보에서 탈락될 가능성이 높다. 때문에 후보 단어를 병합하는 과정에서는 후보 단어

와

의 가중치의 격차를 줄이는 방향으로 정규화 요소의 값을 정한다.

앙상블 기법을 통하면 각각의 알고리즘으로 키워드를 추출한 결과가 가지고 있는 문제점과 이로 인해 키워드 추출의 품질이 떨어지는 부분을 보완할 수 있다.

단계에서는 불용어 제거한 자질들 간의 텍스트랭크를 통해 후보 단어를 선정하는 과정을 통해 품질을 향상 시키고,

단계에서는 후보 단어의 유사 단어에 대해 문서 내에 쓰임에 따라 가중치를 계산해주기 때문에 분석한 유사 단어에 대한 가중치를 계산할 수 있다. 이렇게 선정된 모든 후보 단어들은 앙상블 알고리즘에서 정규화 요소

를 거치게 되면 향상된 품질의 최종 키워드들로 추출되는 것이다.

2. 문서 내 핵심 키워드 추출 방법에 대한 구체적인 설명

도 2 는 본 발명에 따른 문서 내 핵심 키워드 추출 방법의 전체적인 흐름도이며, 도 3 은 본 발명에 따른 문서 내 핵심 키워드 추출 방법의 세부 과정이 표현된 흐름도이다.

도 2 내지 도 3 을 참조하면, 본 발명에 따른 문서 내 핵심 키워드 추출 방법은, 복수의 비정형 텍스트 문서 내의 키워드를 분석하여 후보 단어를 선정하는 제1단계(S10); 상기 복수의 비정형 텍스트 문서에서 단어 임베딩을 통해 단어를 군집하고, 상기 제1단계(S10)를 통해 선정된 단어들의 의미를 분석하여 단어들 간의 유사 의미 단어를 선정하는 제2단계(S20); 및 상기 제1단계(S10)를 통한 후보 단어와 상기 제2단계(S20)를 통한 유사 의미 단어에 적용되는 가중치를 정규화하여 최종 키워드들을 추출하는 제3단계(S30); 로 이루어진다.

여기서, 상기 제1단계(S10)와 제2단계(S20)는 개별적 또는 동시에 이루어질 수 있으며, 바람직하게는 후술할 불용어가 제거(S12)되고, 제1가중치가 적용(S14)되어 선정된 후보 단어가 제2단계(S20)로 전달되어 후보 단어에 대한 유사 의미 분석 단계가 이루어질 수 있다.

여기서, 상기 제1단계(S10)는, 상기 비정형 텍스트 문서에 포함된 키워드들 중 불용어를 제거하는 제1-1단계(S12); 및 상기 제1-1단계(S12)를 통해 불용어가 제거된 키워드들 간의 링크를 연결하여 각 키워드들의 제1가중치를 계산하는 제1-2단계(S14); 를 포함한다.

또한, 상기 제2단계(S20)는, 상기 복수의 비정형 덱스트 문서 내에 등장하는 단어를 자질 벡터(Feature Vector)로 가공하여 신경망 모델을 통해 학습시켜 유사 의미 단어 후보를 선정하는 제2-1단계(S22); 및 상기 제2-1단계(S22)를 통해 선정된 유사 의미 단어 후보들에 제2가중치를 부여하는 제2-2단계(S24); 를 포함한다.

또한, 상기 제3단계(S30)는, 상기 제1단계(S10)를 통해 선정된 후보 단어 집합과 상기 제2단계(S20)를 통해 선정된 유사 의미 단어 집합을 병합시키는 제3-1단계(S32); 상기 제3-1단계(S32)를 통해 병합된 단어 집합에 정규화된 최종 가중치를 부여하는 제3-2단계(S34); 를 포함한다.

여기서, 상기 제1단계(S10)는 텍스트랭크 알고리즘 기반으로 수행되며, 제2단계(S20)는 word2vec 및 TF-ISF 알고리즘을 기반으로 수행되며, 제3단계(S30)는 앙상블 알고리즘 기반으로 수행된다. 이에 대한 구체적 과정에 대한 상세한 설명은 앞선 문서 내 핵심 키워드 추출 시스템(100)에 대한 설명과 동일함으로 생략하였음을 밝혀둔다.

전술한 바와 같이, 본 발명에 따른 문서 내 핵심 키워드 추출 시스템 및 방법은, 서로 상이한 키워드 선정 알고리즘을 이용하여 얻어진 단어 집합에 대하여 정규화된 가중치를 이용하여 키워드 추출을 수행함으로써 추출 품질을 향상시킬 수 있다.

이상, 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명의 기술적 사상은 이러한 것에 한정되지 않으며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해, 본 발명의 기술적 사상과 하기 될 특허청구범위의 균등범위 내에서 다양한 수정 및 변형 실시가 가능할 것이다.

다양한 종류의 문서 검색에 광범위하게 사용될 수 있다.

Claims

복수의 비정형 텍스트 문서 내의 키워드를 분석하여 후보 단어를 선정하는 후보단어선정부;

상기 복수의 비정형 텍스트 문서에서 단어 임베딩을 통해 단어를 군집하고, 상기 후보단어선정부에서 선정된 단어들의 의미를 분석하여 단어들 간의 유사 의미 단어를 선정하는 유사의미단어선정부; 및

상기 후보 단어와 상기 유사 의미 단어에 적용되는 가중치를 정규화하여 최종 키워드들을 추출하는 키워드추출부; 를 포함하는 것을 특징으로 하는

문서 내 핵심 키워드 추출 시스템.
제1항에 있어서,

상기 후보단어선정부는,

상기 비정형 텍스트 문서에 포함된 키워드들 중 불용어를 제거하는 전처리부분; 및

상기 전처리부분을 통해 불용어가 제거된 키워드들 간의 링크를 연결하여 각 키워드들의 제1가중치를 계산하는 제1가중치계산부분; 을 포함하는 것을 특징으로 하는

문서 내 핵심 키워드 추출 시스템.
제2항에 있어서,

상기 전처리부분은 RIDF(Residual Inverse Document Frequency) 알고리즘을 이용하여 불용어를 제거하도록 마련되며, 상기 RIDF 알고리즘은 IDF(Inverse Document Frequency)와 푸아송 분포(Poisson distribution)를 이용하여 구현되며, 상기 전처리부분을 통해 불용어가 제거된 키워드는 상기 제1가중치계산부분의 자질로 이용되는 것을 특징으로 하는

문서 내 핵심 키워드 추출 시스템.
제1항에 있어서,

상기 유사의미단어선정부는,

상기 복수의 비정형 덱스트 문서 내에 등장하는 단어를 자질 벡터(Feature Vector)로 가공하여 신경망 모델을 통해 학습시켜 유사 의미 단어 후보를 선정하는 임베딩부분; 및

상기 임베딩부분을 통해 선정된 유사 의미 단어 후보들에 제2가중치를 부여하는 제2가중치계산부분; 을 포함하는 것을 특징으로 하는

문서 내 핵심 키워드 추출 시스템.
제4항에 있어서,

상기 제2가중치는 유사 의미 단어의 자질 벡터 간의 거리가 가까울수록 또는 문장 내에서 출현 빈도가 많을수록 높게 산출되는 것을 특징으로 하는

문서 내 핵심 키워드 추출 시스템.
제1항에 있어서,

상기 키워드추출부는,

상기 후보단어선정부에서 선정된 후보 단어 집합과 상기 유사의미단어선정부에서 선정된 유사 의미 단어 집합을 병합시키는 단어집합병합부분; 및

상기 단어집합병합부분으로부터 병합된 단어 집합에 정규화된 최종 가중치를 부여하는 가중치정규화부분; 을 포함하는 것을 특징으로 하는

문서 내 핵심 키워드 추출 시스템.
복수의 비정형 텍스트 문서 내의 키워드를 분석하여 후보 단어를 선정하는 제1단계;

상기 복수의 비정형 텍스트 문서에서 단어 임베딩을 통해 단어를 군집하고, 상기 제1단계를 통해 선정된 단어들의 의미를 분석하여 단어들 간의 유사 의미 단어를 선정하는 제2단계; 및

상기 제1단계를 통한 후보 단어와 상기 제2단계를 통한 유사 의미 단어에 적용되는 가중치를 정규화하여 최종 키워드들을 추출하는 제3단계; 로 이루어지는 것을 특징으로 하는

문서 내 핵심 키워드 추출 방법.
제7항에 있어서,

상기 제1단계는,

상기 비정형 텍스트 문서에 포함된 키워드들 중 불용어를 제거하는 제1-1단계; 및

상기 제1-1단계를 통해 불용어가 제거된 키워드들 간의 링크를 연결하여 각 키워드들의 제1가중치를 계산하는 제1-2단계; 를 포함하는 것을 특징으로 하는

문서 내 핵심 키워드 추출 방법.
제7항에 있어서,

상기 제2단계는,

상기 복수의 비정형 덱스트 문서 내에 등장하는 단어를 자질 벡터(Feature Vector)로 가공하여 신경망 모델을 통해 학습시켜 유사 의미 단어 후보를 선정하는 제2-1단계; 및

상기 제2-1단계를 통해 선정된 유사 의미 단어 후보들에 제2가중치를 부여하는 제2-2단계; 를 포함하는 것을 특징으로 하는

문서 내 핵심 키워드 추출 방법.
제7항에 있어서,

상기 제3단계는,

상기 제1단계를 통해 선정된 후보 단어 집합과 상기 제2단계를 통해 선정된 유사 의미 단어 집합을 병합시키는 제3-1단계;

상기 제3-1단계를 통해 병합된 단어 집합에 정규화된 최종 가중치를 부여하는 제3-2단계; 를 포함하는 것을 특징으로 하는

문서 내 핵심 키워드 추출 방법.