KR102498294B1

KR102498294B1 - 키워드 공동출현 네트워크를 기반으로 핵심 키워드를 추출하는 방법 및 장치

Info

Publication number: KR102498294B1
Application number: KR1020200039380A
Authority: KR
Inventors: 유택호; 윤지성; 정우성; 권오현
Original assignee: 포항공과대학교 산학협력단
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2023-02-08
Also published as: KR20210121921A

Abstract

키워드 공동출현 네트워크를 기반으로 핵심 키워드를 추출하는 방법 및 장치가 개시된다. 키워드 공동출현 네트워크를 기반으로 핵심 키워드를 추출하는 방법은, 사용자로부터 입력된 주제 키워드를 획득하는 단계; 상기 주제 키워드를 기초로 전체 문서 집합에서 키워드들을 추출하는 단계; 상기 키워드들 사이의 공동출현 여부를 기초로 키워드 공동출현 네트워크를 생성하는 단계; 상기 키워드 공동출현 네트워크를 구성하는 키워드들을 복수의 클러스터들로 분류하는 단계; 및 상기 클러스터들마다 적어도 하나의 핵심 키워드를 추출하는 단계를 포함한다. 따라서, 빠르고 정확하게 핵심 키워드를 추출할 수 있다.

Description

키워드 공동출현 네트워크를 기반으로 핵심 키워드를 추출하는 방법 및 장치{METHOD AND DEVICE FOR EXTRACTING KEY KEYWORDS BASED ON KEYWORD JOINT APPEARANCE NETWORK}

본 발명은 키워드 공동출현 네트워크를 기반으로 핵심 키워드를 추출하는 방법 및 장치에 관한 것으로, 더욱 상세하게는 다수의 연구 문서들을 대상으로 키워드 공동출현 네트워크를 구성함으로써 세부 연구 분야의 핵심 키워드를 추출하는 방법 및 장치에 관한 것이다.

최근 정보 통신 기술의 발달에 따라 많은 수의 연구 문서들이 발간되고 외부로 공개되어 연구자들이 쉽게 방대한 양의 연구 문서들을 활용할 수 있다.

그러나, 이러한 방대한 양의 연구 문서들을 활용하기 위해서는 많은 노동력이 필요하다. 예를 들어, 특정 사용자가 방대한 양의 문서들을 대상으로 연구 주제를 분석하는 것에는 현실적인 시간, 노력, 정확성의 한계가 있다.

이러한 한계를 극복하기 위해 각종 논문에서는 초록(abstract)과 키워드들을 제공하고 있으나, 이러한 초록과 키워드들만으로는 해당 연구 문서가 담고 있는 학술적 내용을 정확하게 추론해내기에는 어려운 측면이 있고, 초록과 키워드들을 제공하지 않는 문서들도 많다.

따라서, 상술한 문제를 극복하기 위하여 방대한 양의 문서들을 대상으로 빠르고 정확하게 핵심 키워드들을 추출하여 연구 분야와 발전 동향을 파악할 수 있는 방안이 필요한 실정이다.

상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, 키워드 공동출현 네트워크를 기반으로 핵심 키워드를 추출하는 방법을 제공하는 데 있다.

상기와 같은 문제점을 해결하기 위한 본 발명의 다른 목적은, 키워드 공동출현 네트워크를 기반으로 핵심 키워드를 추출하는 장치를 제공하는 데 있다.

상기 목적을 달성하기 위한 본 발명의 일 측면은, 키워드 공동출현 네트워크를 기반으로 핵심 키워드를 추출하는 방법을 제공한다.

키워드 공동출현 네트워크를 기반으로 핵심 키워드를 추출하는 방법은, 사용자로부터 입력된 주제 키워드를 획득하는 단계; 상기 주제 키워드를 기초로 전체 문서 집합에서 키워드들을 추출하는 단계; 상기 키워드들 사이의 공동출현 여부를 기초로 키워드 공동출현 네트워크를 생성하는 단계; 상기 키워드 공동출현 네트워크를 구성하는 키워드들을 복수의 클러스터들로 분류하는 단계; 및 상기 클러스터들마다 적어도 하나의 핵심 키워드를 추출하는 단계를 포함할 수 있다.

상기 적어도 하나의 핵심 키워드를 추출하는 단계는, 각 클러스터를 구성하는 상기 키워드들의 중심성(centrality)과 출현 빈도를 기초로 상기 키워드들 각각에 대한 중요도를 산출하고, 상기 중요도에 따라 상기 적어도 하나의 핵심 키워드를 추출할 수 있다.

상기 키워드들을 추출하는 단계는, 상기 주제 키워드를 기초로 상기 전체 문서 집합으로부터 제1 문서 집합을 생성하는 단계; 상기 제1 문서 집합에서 적어도 하나의 기준 키워드를 추출하는 단계; 상기 적어도 하나의 기준 기워드를 기초로, 상기 전체 문서 집합으로부터 제2 문서 집합을 생성하는 단계; 및 상기 제2 문서 집합에서 상기 키워드들을 추출하는 단계를 포함할 수 있다.

상기 키워드 공동출현 네트워크는, 상기 키워드들 각각을 노드(node)로 갖고, 하나의 문서에 공통적으로 출현한 키워드들을 서로 연결하는 링크(link)를 가지며, 상기 링크로 연결된 2개의 키워드가 공통적으로 출현한 문서들의 수를 상기 링크에 대한 연결 강도로 가질 수 있다.

상기 키워드 공동출현 네트워크는, 연결 강도가 미리 설정된 임계값 이상인 링크로 연결된 키워드들만으로 재구성될 수 있다.

상기 키워드들을 복수의 클러스터들로 분류하는 단계는, 상기 클러스터들로 분류된 키워드 공동출현 네트워크의 모듈성을 평가하고, 상기 모듈성이 최대화되는 방향으로 상기 키워드들을 반복하여 다시 분류함으로써 상기 클러스터들을 최적화할 수 있다.

상기 적어도 하나의 핵심 키워드를 추출하는 단계는, 하기 수학식에 기초하여 상기 중요도를 산출하되,

KR(i)는 상기 키워드들 중 i(i는 자연수)번째 키워드에 대한 중요도이고, CR(i)는 상기 i번째 키워드에 대한 상기 중심성이고, N(i)는 상기 i번째 키워드가 상기 제2 문서 집합에서 출현하는 상기 출현 빈도이며, d는 상기 중심성과 상기 출현 빈도 사이의 비중을 설정하도록 상기 사용자로부터 입력받는 평가 상수일 수 있다.

상기 i번째 키워드에 대한 상기 중심성은, 도수 중심성(degree centrality), 매개 중심성(betweenness centrality), 및 근접 중심성(closeness centrality) 중 하나일 수 있다.

상기 매개 중심성은, 상기 i번째 키워드에 대응하는 노드를 제외한 2개의 노드 사이의 최단 경로들의 개수 대비 상기 i번째 키워드에 대응하는 노드를 지나는 상기 2개의 노드 사이의 최단 경로들의 개수로 정의될 수 있다.

상기 최단 경로는, 상기 연결 강도에 대한 역수를 거리로하여 상기 거리가 최소가 되는 경로일 수 있다.

상기 근접 중심성은, 상기 i번째 키워드에 대응하는 노드에서 나머지 노드들까지의 최단 경로에 따른 거리의 평균값을 산출하고, 산출된 평균값에 대한 역수로 정의될 수 있다.

상기 목적을 달성하기 위한 본 발명의 다른 측면은, 키워드 공동출현 네트워크를 기반으로 핵심 키워드를 추출하는 장치를 제공한다.

키워드 공동출현 네트워크를 기반으로 핵심 키워드를 추출하는 장치는, 적어도 하나의 프로세서(processor); 및 적어도 하나의 프로세서가 적어도 하나의 단계를 수행하도록 지시하는 명령어들(instructions)을 저장하는 메모리(memory, 120)를 포함할 수 있다.

적어도 하나의 단계는, 사용자로부터 입력된 주제 키워드를 획득하는 단계; 상기 주제 키워드를 기초로 전체 문서 집합에서 키워드들을 추출하는 단계; 상기 키워드들 사이의 공동출현 여부를 기초로 키워드 공동출현 네트워크를 생성하는 단계; 상기 키워드 공동출현 네트워크를 구성하는 키워드들을 복수의 클러스터들로 분류하는 단계; 및 상기 클러스터들마다 적어도 하나의 핵심 키워드를 추출하는 단계를 포함할 수 있다.

상기와 같은 본 발명에 따른 키워드 공동출현 네트워크를 기반으로 핵심 키워드를 추출하는 방법 및 장치를 이용할 경우에는 주제 키워드를 입력하는 것 만으로도 누구나 쉽게 주제 키워드와 관련된 분야의 핵심 키워드를 확인할 수 있는 장점이 있다.

또한, 세부 연구분야를 지시하는 클러스터별로 핵심 키워드를 확인할 수 있어 세부 연구분야까지 구별할 수 있는 장점이 있다.

또한, 핵심 키워드가 해당 분야를 나타내는 단어로 제한되지 않고, 재료나 성질 등과 같이 다양한 종류의 단어일 수 있기 때문에, 사용자가 다양한 각도에서 주제 키워드와 관련된 분야를 이해할 수 있게 도울 수 있다.

도 1은 본 발명의 일 실시예에 따른 키워드 공동출현 네트워크가 도출되는 대상을 설명하기 위한 개념도이다.
도 2는 본 발명의 일 실시예에 따른 키워드 공동출현 네트워크를 예시적으로 나타낸 도면이다.
도 3은 도 2에 따른 키워드 공동출현 네트워크를 구성하는 키워드들을 분류한 클러스터들을 나타낸 도면이다.
도 4a 내지 도 4b는 키워드 공동출현 네트워크를 기반으로 핵심 키워드를 추출하는 방법을 이용하여 도출한 핵심 키워드를 도시한 예시도이다.
도 5는 본 발명의 일 실시예에 따른 키워드 공동출현 네트워크를 기반으로 핵심 키워드를 추출하는 방법에 대한 대표 흐름도이다.
도 6은 본 발명의 일 실시예에 따른 키워드 공동출현 네트워크를 기반으로 핵심 키워드를 추출하는 장치에 대한 구성도이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

도 1은 본 발명의 일 실시예에 따른 키워드 공동출현 네트워크가 도출되는 대상을 설명하기 위한 개념도이다.

일 실시예에서 키워드 공동출현 네트워크는, 전체 문서 집합에서 추출된 키워드들을 대상으로 하나의 문서에 공통적으로 출현하는 키워드들을 서로 연결하여 생성되는 네트워크로 정의될 수 있다.

본 명세서에서 전체 문서 집합은 미리 수집되어 저장된 문서들의 집합으로 정의된다. 여기서 전체 문서 집합은, 사용자로부터 미리 입력받거나 다양한 방식의 크롤링(crawing) 알고리즘을 이용하여 유무선 네트워크를 통해 수집될 수 있다.

전체 문서 집합을 대상으로 키워드 공동출현 네트워크를 구성할 경우 지나치게 많은 연산 부하가 요구될 수 있고, 관련성이 상당히 낮은 문서까지 분석 대상에 포함되는 문제가 있다. 따라서, 전체 문서 집합에서 주제 키워드와 관련성이 있는 제1 문서 집합이 생성될 수 있다. 예를 들어, 전체 문서 집합에서 주제 키워드(및 주제 키워드의 동의어)가 포함되어 있는 문서들을 모아 제1 문서 집합이 생성될 수 있다.

다음으로, 제1 문서 집합에서 적어도 하나의 기준 키워드가 추출될 수 있다. 여기서 기준 키워드는, 제1 문서 집합에서 추출된 키워드들 중에서 출현 빈도가 기준값 이상인 키워드일 수 있다. 또한, 제1 문서 집합에서 키워드들을 추출하는 데에는 형태소 분석 기반의 다양한 시맨틱 네트워크 분석(semantic network anyysis) 모듈이 활용될 수 있다.

여기서, 적어도 하나의 기준 키워드는 제1 문서 집합에서 추출된 키워드들 중에서 주제 키워드(및 주제 키워드의 동의어) 및 불필요한 키워드를 제외한 나머지 키워드들에 속할 수 있다. 여기서 불필요한 키워드는 의미가 일반적인 개념에 속하는 단어(예를 들어, become, get 등의 동사, parameter, percent 등의 명사)일 수 있다.

적어도 하나의 기준 키워드가 추출되면, 전체 문서 집합에서 적어도 하나의 기준 키워드가 포함된 문서들을 모아 제2 문서 집합이 생성될 수 있다.

제2 문서 집합은 전체 문서 집합에서 적어도 하나의 기준 키워드 뿐만 아니라, 기준 키워드의 약어와 동의어, 유의어(또는 유사 단어)를 포함하는 문서들을 모아 생성될 수 있다.

다음으로, 제2 문서 집합에서 키워드들을 추출하고, 추출된 키워드들을 대상으로 하나의 문서에 공통적으로 출현하는 키워드들끼리 서로 연결함으로써 키워드 공동출현 네트워크가 생성될 수 있다.

상술한 기준 키워드는 주제 키워드와 함께 출현하는 빈도가 높은 키워드이기 때문에, 주제 키워드를 세부적으로 설명하거나 주제 키워드와 관련도가 높은 키워드에 해당할 수 있다. 따라서, 기준 키워드를 이용하여 제2 문서 집합을 생성하고, 제2 문서 집합에서 추출된 키워드들을 이용하여 키워드 공동출현 네트워크를 구성하면 주제 키워드가 사용빈도가 낮은 키워드거나 부수적인 키워드에 해당하더라도 핵심 키워드를 추출하는 데 유리할 수 있다.

도 2는 본 발명의 일 실시예에 따른 키워드 공동출현 네트워크를 예시적으로 나타낸 도면이다.

도 2를 참조하면, 제2 문서 집합에서 추출된 키워드들(A, B, C, ..., H, I)을 대상으로 생성된 키워드 공동출현 네트워크(KJAN)가 도시된다.

키워드 공동출현 네트워크(KJAN)는 키워드들(A, B, C, ..., H, I) 각각을 네트워크의 노드(node)로 가질 수 있고, 하나의 문서에 공통적으로 출현한 키워드들을 서로 연결하는 링크(link)를 가질 수 있다. 도 2에서 링크(link)는 각 키워드들을 연결하는 직선(또는 엣지(edge))으로 도시하였다. 이하에서, 노드는 키워드와 혼용하여 지칭될 수 있고, 노드와 키워드는 키워드 공동출현 네트워크(KJAN)에서 1:1 대응관계를 가진다.

또한, 키워드 공동출현 네트워크(KJAN)는 링크로 연결된 2개의 키워드가 공통적으로 출현한 문서들의 수를 링크에 대한 연결 강도로 가질 수 있다. 예를 들어, 제2 문서 집합에서 키워드 C와 키워드 H가 공통적으로 출현한 문서들의 수가 키워드 C와 키워드 H를 연결하는 링크에 대한 연결 강도(CS[C,H])일 수 있다.

한편, 하나의 문서에 공통적으로 출현한 키워드들이 링크로 연결될 경우, 하나의 문서 단위로 키워드들을 연결하기 때문에 관련성이 떨어지는 키워드들이 서로 연결되는 문제가 있다. 이러한 문제를 방지하기 위해 하나의 문서에 공통적으로 출현한 키워드들 사이의 단어 간격, 문장 간격, 단락 간격 중 적어도 하나가 임계값 이하인 키워드들이 링크로 연결될 수 있다. 예를 들어, 키워드 C와 키워드 H가 2개의 단어를 사이에 두고 하나의 문서에 공통적으로 출현하는 경우 키워드 C와 키워드 H 사이의 단어 간격은 2 일 수 있다. 마찬가지로, 키워드 C와 키워드 H가 2개의 문장을 사이에 두고 하나의 문서에 공통적으로 출현하는 경우 키워드 C와 키워드 H 사이의 문장 간격은 2 일 수 있다.

임계값은 사용자에 의해 미리 입력받을 수 있다. 임계값이 크게 설정되면, 2개의 키워드가 하나의 문서에 공통적으로 출현하는 것만으로 하나의 링크로 연결될 수 있고, 임계값이 작게 설정되면, 2개의 키워드가 하나의 문서 내에서 서로 인접한 위치에 등장해야 하기 때문에 하나의 링크로 연결되지 않을 가능성이 높다. 따라서, 임계값은 시스템 부하율, 추출하고자 하는 핵심 키워드의 범위와 개수 등에 기초하여 결정될 수 있다.

한편, 키워드 공동출현 네트워크(KJAN)에서 키워드들은 연결 강도가 작은 다수의 링크들 및 연결 강도가 큰 소수의 링크들로 연결되어 있을 수 있다. 그런데, 제2 문서 집합에서 추출되는 키워드들은 특정 논문에서만 사용되거나 스스로 정의한 용어들이 포함되기 때문에 연결 강도가 작은 다수의 링크와 연결된 키워드들은 연구분야를 분류하는데 부적절할 수 있다.

따라서, 일 실시예에서 키워드 공동출현 네트워크(KJAN)는 연결 강도가 미리 설정된 임계값 이상인 링크로 연결된 키워드들만으로 재구성될 수도 있다. 연결 강도가 미리 설정된 임계값 이상인 링크로 연결된 키워드들로 키워드 공동출현 네트워크를 재구성함으로써, 관련성이 낮거나 사용 빈도가 적은 키워드를 제거하여 더욱 정확한 핵심 키워드를 추출할 수가 있다.

도 3은 도 2에 따른 키워드 공동출현 네트워크를 구성하는 키워드들을 분류한 클러스터들을 나타낸 도면이다.

도 3을 참조하면, 키워드 공동출현 네트워크(KJAN)를 구성하는 키워드들(A, B, C, D, ..., H, I)은 복수의 클러스터들(CLT1, CLT2, CLT3, CLT4)로 분류될 수 있다. 예를 들어, 키워드 A는 제1 클러스터(CLT1)으로 분류될 수 있고, 키워드 B, 키워드 C, 키워드 D는 제2 클러스터(CLT2)로 분류될 수 있다.

여기서, 키워드들은 CNM(Clauset-Newman-Moore) 알고리즘(A. Clauset, M. E. J. Newman, and C. Moore, "Finding Community Structure in Very Large Networks," Physical review E, Vol. 70, 066111, 2004.), Louvain 알고리즘(V. D. Blondel, J. Guilaume, R. Lambiotte, and E.Lefebvre, "Fast Unfolding of Communities in Large Networks," Journal of Statistical Mechanics, Vol. 10, P10008, 2008.) 등을 이용하여 클러스터들로 분류될 수 있다.

일 실시예에서, 클러스터들로 분류된 키워드 공동출현 네트워크(KJAN)의 모듈성이 평가되고, 모듈성(modularity)이 최대화되는 방향으로 키워드들을 반복하여(literatively) 다시 분류함으로써, 클러스터들이 최적화될 수 있다. 여기서 모듈성(Q)은 다음의 수학식 1과 같이 정의될 수 있다.

상기 수학식 1을 참조하면, A_vw는 임의의 2개의 노드 v와 w사이에 링크 여부를 나타내는 값으로 노드 v와 w가 링크로 연결되어 있으면 1, 아니면 0을 의미할 수도 있다. Cv와 Cw는 각각 노드 v와 노드 w가 속하는 클러스터일 수 있다. 함수

는, 노드 v가 속한 클러스터(Cv)와 노드 w가 속한 클러스터(Cw)가 같으면 1이고, 다르면 0인 함수일 수 있다. 또한, 수학식 1에서 m은 전체 링크들의 수일 수 있다. Cv와 Cw는 각각 노드 v와 노드 w가 속하는 클러스터일 수 있다.

수학식 1에서 k_v와 k_w는 각각 노드 v와 노드 w에 대한 도수(degree)로서, 여기서 노드 v에 대한 도수(k_v)는 다음의 수학식 2과 같이 정의될 수 있다.

상기 수학식 2를 참조하면, 노드 v에 대한 도수(k_v)는 노드 v와 임의의 노드 z 사이의 링크 여부(A_vz)를 모두 더한 값으로서, 노드 v에 직접 연결된 링크들의 수일 수 있다. 노드 w에 대한 도수(k_w)는 수학식 2와 마찬가지 형태로 정의될 수 있다.

수학식 1에 따른 모듈성(Q)은 동일한 클러스터 내에 속하는 노드들 사이에 연결되는 링크들이 많고, 서로 다른 클러스터에 속하는 노드들 사이에 연결되는 링크들이 적을 수록 큰 값이 도출된다. 따라서, 클러스터들로 분류된 키워드 공동출현 네트워크(KJAN)의 모듈성을 반복해서 평가하면, 각 클러스터가 세부 연구분야를 대표하는 키워드들로 구성될 수 있다.

상술한 방법 이외에도 네트워크 분석 분야의 다양한 커뮤니티 발견법을 이용하여 키워드 공동출현 네트워크(KJAN)를 구성하는 키워드들을 복수의 클러스터들로 분류할 수 있다.

일 실시예에서 클러스터들(CLT1, CLT2, CLT3, CLT4)마다 적어도 하나의 핵심 키워드가 추출될 수 있다. 예를 들어, 제2 클러스터(CLT2)에 속하는 키워드들(B, C, D) 중에서 적어도 하나의 핵심 키워드가 추출될 수 있다.

여기서, 각 클러스터는 세부 연구분야를 나타낼 수 있으므로, 각 클러스터에서 추출되는 적어도 하나의 핵심 키워드는 특정 세부 연구분야를 대표하는 키워드일 수 있다.

일 실시예에서 핵심 키워드를 추출하기 위하여 각 클러스터를 구성하는 키워드들의 중심성과 출현 빈도가 산출될 수 있다. 예를 들어, 제2 클러스터(CLT2)에 속하는 키워드 B, C, D 각각에 대하여 중심성과 출현 빈도가 산출될 수 있다.

여기서, 중심성은 도수 중심성(degree centrality), 매개 중심성(betweenness centrality), 및 근접 중심성(closeness centrality) 중 하나일 수 있다.

도수 중심성은 해당 키워드에 직접 연결된 모든 링크들의 개수일 수 있다. 예를 들어, 키워드 B에 대한 도수 중심성은 키워드 B에 직접 연결된 링크들의 수인 3일 수 있다. 이때, 도수 중심성은 해당 키워드에 직접 연결된 모든 링크들의 개수를 해당 키워드를 제외한 나머지 키워드들의 개수로 나눔으로써 정규화될 수도 있다.

매개 중심성은, 해당 키워드가 다른 키워드와 적어도 하나의 링크로 연결되는 데 경유될 수 있는지를 나타내는 지표일 수 있다. 구체적으로, 매개 중심성은 해당 키워드를 제외한 2개의 키워드들 사이의 최단 경로들의 개수에서 해당 키워드를 경유하는 2개의 키워드들 사이의 최단 경로들이 차지하는 비율을 의미할 수 있다.

예를 들어, 연결 강도가 모두 동일하다고 가정할 경우, 키워드 B와 키워드 H 사이의 최단 경로는 B-C-H밖에 없다. 따라서, 키워드 C를 경유하지 않는 최단 경로가 존재하지 않으므로, 키워드 B와 키워드 H 사이를 매개하는 키워드 C의 매개 중심성은 1로 정의될 수 있다. 키워드 B와 키워드 G 사이의 최단 경로들은 B-C-F-G, B-C-H-G, B-E-F-G가 존재할 수 있다. 3개의 최단 경로들 중에서 키워드 C를 경유하는 최단 경로는 2개 이므로, 키워드 B와 키워드 G 사이를 매개하는 키워드 C의 매개 중심성은 2/3 일 수 있다. 같은 방식으로 키워드 C를 제외한 모든 2개의 키워드들 사이의 최단 경로들에 대해서 키워드 C의 매개 중심성을 산출하여 모두 더할 경우, 키워드 C에 대한 매개 중심성을 도출할 수 있다.

근접 중심성은, 해당 키워드에서 임의의 다른 키워드까지의 최단 경로들에 따른 거리의 평균값을 산출하고, 산출된 평균값의 역수로 정의될 수 있다. 즉, 근접 중심성은 해당 키워드에서 다른 키워드까지의 거리가 짧을수록 큰 값으로 정의될 수 있다.

한편, 상술한 매개 중심성과 근접 중심성은 모두 최단 경로를 전제로 한다. 도 2에서 설명한 것 처럼 각 링크는 연결 강도를 가지므로, 최단 경로는 링크가 갖는 연결 강도의 역수를 해당 링크에 대한 거리로 하고, 그 거리가 최소가 되는 경로로 정의될 수 있다.

각 클러스터를 구성하는 키워드들의 중심성과 출현 빈도가 산출되면, 중요도는 다음의 수학식 3과 같이 산출될 수 있다.

상기 수학식 3을 참조하면, KR(i)는 키워드들 중 i(i는 키워드들의 개수 이하인 자연수)번째 키워드에 대한 중요도이고, CR(i)는 i번째 키워드에 대한 중심성이고, N(i)는 i번째 키워드가 제2 문서 집합에서 출현하는 출현 빈도이며, d는 사용자에게 입력받는 평가 상수일 수 있다. 여기서 평가 상수 d는 중심성과 출현 빈도를 평가하는 비중을 정의하는 지표로서, 0 이상이고 1이하의 상수일 수 있다. 출현 빈도가 중심성보다 중요도에서 상대적으로 높은 비중을 차지할수록 큰 값으로 설정될 수 있다. 사용자는 평가 상수 d를 1과 가깝게 입력함으로써, 출현 빈도의 비중을 높게 설정할 수 있고, 평가 상수 d를 0과 가깝게 입력함으로써, 중심성의 비중을 높게 설정할 수도 있다. 더 극단적으로 사용자가 평가 상수 d를 1로 입력하면, 중심성 대신에 출현 빈도만을 이용하여 중요도를 평가하도록 할 수도 있고, 사용자가 평가 상수 d를 0으로 입력하면, 출현 빈도 대신에 중심성만을 이용하여 중요도를 평가하도록 할 수도 있다.

수학식 3에 따라 중요도가 각 키워드마다 산출되면, 각 클러스터마다 중요도가 높은 키워드 순서로 정렬하여 각 클러스터에서 적어도 하나의 핵심 키워드를 추출할 수 있다.

도 4a 내지 도 4b는 키워드 공동출현 네트워크를 기반으로 핵심 키워드를 추출하는 방법을 이용하여 도출한 핵심 키워드를 도시한 예시도이다.

도 4a를 참조하면, 블록 체인 분야에 관한 주제 키워드를 입력받아 키워드 공동출현 네트워크를 구축하고, 키워드 공동출현 네트워크에 구성된 키워드들을 서로 다른 색상의 클러스터들로 분류하고, 각 클러스터별로 핵심 키워드를 도출한 예시도가 도시된다.

도 4b를 참조하면, 물리학 복잡계 분야에 관한 주제 키워드를 입력받아 키워드 공동출현 네트워크를 구축하고, 키워드 공동출현 네트워크에 구성된 키워드들을 서로 다른 색상의 클러스터들로 분류하고, 각 클러스터별로 핵심 키워드를 도출한 예시도가 도시된다.

도 4a 및 도 4b를 참조하면, 중요도에 따라 추출된 핵심 키워드가 각 클러스터별로 시각화되어 도시된 것을 확인할 수 있다. 따라서, 사용자로서는 주제 키워드로부터 세부 연구분야의 핵심 키워드들을 시각적으로 한눈에 파악할 수 있기 때문에 현재 진행되고 있는 세부 연구분야의 연결관계 및 방향을 쉽게 이해할 수 있는 장점이 있다.

도 5는 본 발명의 일 실시예에 따른 키워드 공동출현 네트워크를 기반으로 핵심 키워드를 추출하는 방법에 대한 대표 흐름도이다.

도 5를 참조하면, 키워드 공동출현 네트워크를 기반으로 핵심 키워드를 추출하는 방법은, 사용자로부터 입력된 주제 키워드를 획득하는 단계(S100); 상기 주제 키워드를 기초로 전체 문서 집합에서 키워드들을 추출하는 단계(S110); 상기 키워드들 사이의 공동출현 여부를 기초로 키워드 공동출현 네트워크를 생성하는 단계(S120); 상기 키워드 공동출현 네트워크를 구성하는 키워드들을 복수의 클러스터들로 분류하는 단계(S130); 및 상기 클러스터들마다 적어도 하나의 핵심 키워드를 추출하는 단계(S140)를 포함할 수 있다.

키워드 공동출현 네트워크를 기반으로 핵심 키워드를 추출하는 방법은, 후술하는 핵심 키워드를 추출하는 장치(100)에 의해 수행될 수 있다.

상기 적어도 하나의 핵심 키워드를 추출하는 단계(S140)는, 각 클러스터를 구성하는 상기 키워드들의 중심성(centrality)과 출현 빈도를 기초로 상기 키워드들 각각에 대한 중요도를 산출하고, 상기 중요도에 따라 상기 적어도 하나의 핵심 키워드를 추출할 수 있다.

상기 키워드들을 추출하는 단계(S110)는, 상기 주제 키워드를 기초로 상기 전체 문서 집합으로부터 제1 문서 집합을 생성하는 단계; 상기 제1 문서 집합에서 적어도 하나의 기준 키워드를 추출하는 단계; 상기 적어도 하나의 기준 기워드를 기초로, 상기 전체 문서 집합으로부터 제2 문서 집합을 생성하는 단계; 및 상기 제2 문서 집합에서 상기 키워드들을 추출하는 단계를 포함할 수 있다.

상기 키워드들을 복수의 클러스터들로 분류하는 단계(S130)는, 상기 클러스터들로 분류된 키워드 공동출현 네트워크의 모듈성을 평가하고, 상기 모듈성이 최대화되는 방향으로 상기 키워드들을 반복하여 다시 분류함으로써 상기 클러스터들을 최적화할 수 있다.

상기 적어도 하나의 핵심 키워드를 추출하는 단계(S140)는, 하기 수학식에 기초하여 상기 중요도를 산출하되,

도 6은 본 발명의 일 실시예에 따른 키워드 공동출현 네트워크를 기반으로 핵심 키워드를 추출하는 장치에 대한 구성도이다.

도 6을 참조하면, 키워드 공동출현 네트워크를 기반으로 핵심 키워드를 추출하는 장치(100)는, 적어도 하나의 프로세서(processor, 110); 및 적어도 하나의 프로세서(110)가 적어도 하나의 단계를 수행하도록 지시하는 명령어들(instructions)을 저장하는 메모리(memory, 120)를 포함할 수 있다.

여기서 적어도 하나의 프로세서(110)는 중앙 처리 장치(central processing unit, CPU), 그래픽 처리 장치(graphics processing unit, GPU), 또는 본 발명의 실시예들에 따른 방법들이 수행되는 전용의 프로세서를 의미할 수 있다. 메모리(120) 및 저장 장치(160) 각각은 휘발성 저장 매체 및 비휘발성 저장 매체 중에서 적어도 하나로 구성될 수 있다. 예를 들어, 메모리(120)는 읽기 전용 메모리(read only memory, ROM) 및 랜덤 액세스 메모리(random access memory, RAM) 중에서 적어도 하나로 구성될 수 있다.

또한, 키워드 공동출현 네트워크를 기반으로 핵심 키워드를 추출하는 장치(100)는, 무선 네트워크를 통해 통신을 수행하는 송수신 장치(transceiver)(130)를 포함할 수 있다. 또한, 키워드 공동출현 네트워크를 기반으로 핵심 키워드를 추출하는 장치(100)는 입력 인터페이스 장치(140), 출력 인터페이스 장치(150), 저장 장치(160) 등을 더 포함할 수 있다. 키워드 공동출현 네트워크를 기반으로 핵심 키워드를 추출하는 장치(100)에 포함된 각각의 구성 요소들은 버스(bus)(170)에 의해 연결되어 서로 통신을 수행할 수 있다.

키워드 공동출현 네트워크를 기반으로 핵심 키워드를 추출하는 장치(100)의 예를 들면, 통신 가능한 데스크탑 컴퓨터(desktop computer), 랩탑 컴퓨터(laptop computer), 노트북(notebook), 스마트폰(smart phone), 태블릿 PC(tablet PC), 모바일폰(mobile phone), 스마트 워치(smart watch), 스마트 글래스(smart glass), e-book 리더기, PMP(portable multimedia player), 휴대용 게임기, 네비게이션(navigation) 장치, 디지털 카메라(digital camera), DMB(digital multimedia broadcasting) 재생기, 디지털 음성 녹음기(digital audio recorder), 디지털 음성 재생기(digital audio player), 디지털 동영상 녹화기(digital video recorder), 디지털 동영상 재생기(digital video player), PDA(Personal Digital Assistant) 등일 수 있다.

본 발명에 따른 방법들은 다양한 컴퓨터 수단을 통해 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 컴퓨터 판독 가능 매체에 기록되는 프로그램 명령은 본 발명을 위해 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.

컴퓨터 판독 가능 매체의 예에는 롬(ROM), 램(RAM), 플래시 메모리(flash memory) 등과 같이 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함될 수 있다. 프로그램 명령의 예에는 컴파일러(compiler)에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터(interpreter) 등을 사용해서 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 적어도 하나의 소프트웨어 모듈로 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

또한, 상술한 방법 또는 장치는 그 구성이나 기능의 전부 또는 일부가 결합되어 구현되거나, 분리되어 구현될 수 있다.

상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

100: 키워드 공동출현 네트워크를 기반으로 핵심 키워드를 추출하는 장치
110: 프로세서 120: 메모리
130: 송수신 장치 140: 입력 인터페이스 장치
150: 출력 인터페이스 장치 160: 저장 장치
KJAN: 키워드 공동출현 네트워크
CLT1, CLT2, CLT3, CLT4: 클러스터

Claims

핵심 키워드를 추출하는 장치에서 수행되는, 키워드 공동출현 네트워크를 기반으로 핵심 키워드를 추출하는 방법으로,
사용자로부터 입력된 주제 키워드를 획득하는 단계;
상기 주제 키워드를 기초로 전체 문서 집합에서 키워드들을 추출하는 단계;
상기 키워드들 사이의 공동출현 여부를 기초로 키워드 공동출현 네트워크를 생성하는 단계;
상기 키워드 공동출현 네트워크를 구성하는 키워드들을 복수의 클러스터들로 분류하는 단계; 및
상기 클러스터들마다 적어도 하나의 핵심 키워드를 추출하는 단계를 포함하되,
상기 적어도 하나의 핵심 키워드를 추출하는 단계는,
각 클러스터를 구성하는 상기 키워드들의 중심성(centrality)과 출현 빈도를 기초로 상기 키워드들 각각에 대한 중요도를 산출하고, 상기 중요도에 따라 상기 적어도 하나의 핵심 키워드를 추출하고,
상기 키워드 공동출현 네트워크는,
상기 키워드들 각각을 노드(node)로 갖고, 하나의 문서에 공통적으로 출현한 키워드들을 서로 연결하는 링크(link)를 가지며, 상기 링크로 연결된 2개의 키워드가 공통적으로 출현한 문서들의 수를 상기 링크에 대한 연결 강도로 갖고, 그리고,
상기 링크는 상기 하나의 문서에 공통적으로 출현한 키워드들 사이의 단어 간격, 문장 간격 또는 단락 간격 중 적어도 하나가 제1 임계값 이하인 경우, 상기 하나의 문서에 공통적으로 출현한 키워드들을 서로 연결하는, 핵심 키워드를 추출하는 방법.
청구항 1에서,
상기 키워드들을 추출하는 단계는,
상기 주제 키워드를 기초로 상기 전체 문서 집합으로부터 제1 문서 집합을 생성하는 단계;
상기 제1 문서 집합에서 적어도 하나의 기준 키워드를 추출하는 단계;
상기 적어도 하나의 기준 기워드를 기초로, 상기 전체 문서 집합으로부터 제2 문서 집합을 생성하는 단계; 및
상기 제2 문서 집합에서 상기 키워드들을 추출하는 단계를 포함하는, 핵심 키워드를 추출하는 방법.
삭제
청구항 1에서,
상기 키워드 공동출현 네트워크는,
연결 강도가 미리 설정된 제2 임계값 이상인 링크로 연결된 키워드들만으로 재구성되는, 핵심 키워드를 추출하는 방법.
청구항 1에서,
상기 키워드들을 복수의 클러스터들로 분류하는 단계는,
상기 클러스터들로 분류된 키워드 공동출현 네트워크의 모듈성을 평가하고, 상기 모듈성이 최대화되는 방향으로 상기 키워드들을 반복하여 다시 분류함으로써 상기 클러스터들을 최적화하는, 핵심 키워드를 추출하는 방법.
청구항 2에서,
상기 적어도 하나의 핵심 키워드를 추출하는 단계는,
하기 수학식에 기초하여 상기 중요도를 산출하되,

KR(i)는 상기 키워드들 중 i(i는 자연수)번째 키워드에 대한 중요도이고, CR(i)는 상기 i번째 키워드에 대한 상기 중심성이고, N(i)는 상기 i번째 키워드가 상기 제2 문서 집합에서 출현하는 상기 출현 빈도이며, d는 상기 중심성과 상기 출현 빈도 사이의 비중을 설정하도록 상기 사용자로부터 입력받는 평가 상수인, 핵심 키워드를 추출하는 방법.
청구항 6에서,
상기 i번째 키워드에 대한 상기 중심성은,
도수 중심성(degree centrality), 매개 중심성(betweenness centrality), 및 근접 중심성(closeness centrality) 중 하나인, 핵심 키워드를 추출하는 방법.
청구항 7에서,
상기 매개 중심성은,
상기 i번째 키워드에 대응하는 노드를 제외한 2개의 노드 사이의 최단 경로들의 개수 대비 상기 i번째 키워드에 대응하는 노드를 지나는 상기 2개의 노드 사이의 최단 경로들의 개수로 정의되는, 핵심 키워드를 추출하는 방법.
청구항 8에서,
상기 최단 경로는,
상기 연결 강도에 대한 역수를 거리로하여 상기 거리가 최소가 되는 경로인, 핵심 키워드를 추출하는 방법.
청구항 7에서,
상기 근접 중심성은,
상기 i번째 키워드에 대응하는 노드에서 나머지 노드들까지의 최단 경로에 따른 거리의 평균값을 산출하고, 산출된 평균값에 대한 역수로 정의되는, 핵심 키워드를 추출하는 방법.
적어도 하나의 프로세서(processor); 및
상기 적어도 하나의 프로세서가 적어도 하나의 단계를 수행하도록 지시하는 명령어들(instructions)을 저장하는 메모리(memory)를 포함하는, 키워드 공동출현 네트워크를 기반으로 핵심 키워드를 추출하는 장치로,
상기 적어도 하나의 단계는,
사용자로부터 입력된 주제 키워드를 획득하는 단계;
상기 주제 키워드를 기초로 전체 문서 집합에서 키워드들을 추출하는 단계;
상기 키워드들 사이의 공동출현 여부를 기초로 키워드 공동출현 네트워크를 생성하는 단계;
상기 키워드 공동출현 네트워크를 구성하는 키워드들을 복수의 클러스터들로 분류하는 단계; 및
상기 클러스터들마다 적어도 하나의 핵심 키워드를 추출하는 단계를 포함하되,
상기 적어도 하나의 핵심 키워드를 추출하는 단계는,
각 클러스터를 구성하는 상기 키워드들의 중심성(centrality)과 출현 빈도를 기초로 상기 키워드들 각각에 대한 중요도를 산출하고, 상기 중요도에 따라 상기 적어도 하나의 핵심 키워드를 추출하고,
상기 키워드 공동출현 네트워크는,
상기 키워드들 각각을 노드(node)로 갖고, 하나의 문서에 공통적으로 출현한 키워드들을 서로 연결하는 링크(link)를 가지며, 상기 링크로 연결된 2개의 키워드가 공통적으로 출현한 문서들의 수를 상기 링크에 대한 연결 강도로 갖고, 그리고,
상기 링크는 상기 하나의 문서에 공통적으로 출현한 키워드들 사이의 단어 간격, 문장 간격 또는 단락 간격 중 적어도 하나가 제1 임계값 이하인 경우, 상기 하나의 문서에 공통적으로 출현한 키워드들을 서로 연결하는, 핵심 키워드를 추출하는 장치.
청구항 11에서,
상기 키워드들을 추출하는 단계는,
상기 주제 키워드를 기초로 상기 전체 문서 집합으로부터 제1 문서 집합을 생성하는 단계;
상기 제1 문서 집합에서 적어도 하나의 기준 키워드를 추출하는 단계;
상기 적어도 하나의 기준 기워드를 기초로, 상기 전체 문서 집합으로부터 제2 문서 집합을 생성하는 단계; 및
상기 제2 문서 집합에서 상기 키워드들을 추출하는 단계를 포함하는, 핵심 키워드를 추출하는 장치.
삭제
청구항 11에서,
상기 키워드 공동출현 네트워크는,
연결 강도가 미리 설정된 제2 임계값 이상인 링크로 연결된 키워드들만으로 재구성되는, 핵심 키워드를 추출하는 장치.
청구항 11에서,
상기 키워드들을 복수의 클러스터들로 분류하는 단계는,
상기 클러스터들로 분류된 키워드 공동출현 네트워크의 모듈성을 평가하고, 상기 모듈성이 최대화되는 방향으로 상기 키워드들을 반복하여 다시 분류함으로써 상기 클러스터들을 최적화하는, 핵심 키워드를 추출하는 장치.
청구항 12에서,
상기 적어도 하나의 핵심 키워드를 추출하는 단계는,
하기 수학식에 기초하여 상기 중요도를 산출하되,

KR(i)는 상기 키워드들 중 i(i는 자연수)번째 키워드에 대한 중요도이고, CR(i)는 상기 i번째 키워드에 대한 상기 중심성이고, N(i)는 상기 i번째 키워드가 상기 제2 문서 집합에서 출현하는 상기 출현 빈도이며, d는 상기 중심성과 상기 출현 빈도 사이의 비중을 설정하도록 상기 사용자로부터 입력받는 평가 상수인, 핵심 키워드를 추출하는 장치.
청구항 16에서,
상기 i번째 키워드에 대한 상기 중심성은,
도수 중심성(degree centrality), 매개 중심성(betweenness centrality), 및 근접 중심성(closeness centrality) 중 하나인, 핵심 키워드를 추출하는 장치.
청구항 17에서,
상기 매개 중심성은,
상기 i번째 키워드에 대응하는 노드를 제외한 2개의 노드 사이의 최단 경로들의 개수 대비 상기 i번째 키워드에 대응하는 노드를 지나는 상기 2개의 노드 사이의 최단 경로들의 개수로 정의되는, 핵심 키워드를 추출하는 장치.
청구항 18에서,
상기 최단 경로는,
상기 연결 강도에 대한 역수를 거리로하여 상기 거리가 최소가 되는 경로인, 핵심 키워드를 추출하는 장치.
청구항 17에서,
상기 근접 중심성은,
상기 i번째 키워드에 대응하는 노드에서 나머지 노드들까지의 최단 경로에 따른 거리의 평균값을 산출하고, 산출된 평균값에 대한 역수로 정의되는, 핵심 키워드를 추출하는 장치.