KR101576376B1

KR101576376B1 - 핵심어 추출방법 및 이를 이용한 핵심어 관심지수 산출방법

Info

Publication number: KR101576376B1
Application number: KR1020140080812A
Authority: KR
Inventors: 전채남; 손기준
Original assignee: (주) 더아이엠씨
Priority date: 2014-06-30
Filing date: 2014-06-30
Publication date: 2015-12-10

Abstract

본 발명에 따른 핵심어 추출방법은, 온라인 서비스를 대상으로 비정형 텍스트 데이터를 수집하는 (a)단계, 상기 비정형 텍스트 데이터에서, 선정된 주제에 대한 복수의 관련단어를 추출하는 (b)단계 및 상기 복수의 관련단어로부터 핵심어를 추출하는 (c)단계를 포함한다.
그리고 이를 이용한 핵심어 관심지수 산출방법은, 온라인 서비스를 대상으로 비정형 텍스트 데이터를 수집하는 (a)단계, 상기 비정형 텍스트 데이터에서 선정된 주제에 대한 복수의 관련단어를 추출하는 (b)단계, 상기 복수의 관련단어로부터 핵심어를 추출하는 (c)단계, 상기 추출된 핵심어로 핵심어사전을 구축하는 (d)단계 및 상기 핵심어사전에 포함된 핵심어 중 선택된 대상핵심어의 관심지수를 산출하는 (e)단계를 포함한다.

Description

핵심어 추출방법 및 이를 이용한 핵심어 관심지수 산출방법{Keyword Extraction Method and Keyword Interest Index Calculation Method Using the Same}

본 발명은 핵심어 추출방법 및 이를 이용한 핵심어 관심지수 산출방법에 관한 것으로서, 보다 상세하게는 중심성지수를 이용한 핵심어 추출방법 및 이를 이용한 핵심어 관심지수 산출방법에 관한 것이다.

최근에는 인터넷이 활발하게 사용되고 있으며, 스마트폰 등의 등장으로 각종 온라인 서비스가 제공되고 있다. 또한 이에 발맞추어 사용자에게 제공하기 위한 다양한 관련 서비스가 연구 및 개발되고 있다.

그리고 갈수록 다양해지는 사용자의 욕구에 따라 서비스 제공자는 사용자의 수요 및 요구를 정확하게 판단해야 할 필요가 있으며, 이를 위해 보다 정확한 사용자의 수요 및 요구를 판단하기 위한 알고리즘이 연구되고 있다.

이중 대표적으로 이용되는 기술은 온라인 서비스 상에서 핵심어를 추출하는 방법에 관한 것이다. 핵심어의 추출 품질에 따라 서비스의 흥망이 결정되기도 하므로, 이는 매우 중요한 요소로서 인지되고 있다.

다만, 종래의 핵심어 추출방법의 경우, 매우 단편적으로 소정 단어의 출현 빈도 수에 따라 이루어지는 경우가 대부분이었다. 이와 같은 방법으로 추출된 핵심어는 실제 사용자의 수요 및 요구를 정확하게 반영하고 있지 않아, 실질적으로 활용 시 그 효용성이 떨어지는 문제가 있다.

따라서 상기와 같은 문제점을 해결하기 위한 방법이 요구되고 있는 상황이다.

한국공개특허 제10-2009-0083747호

본 발명에 따른 핵심어 추출방법 및 이를 이용한 핵심어 관심지수 산출방법은, 사용자의 수요 및 요구를 보다 정확하게 판단할 수 있는 핵심어를 추출하고, 이에 대한 관심 정도를 파악하기 위한 목적을 가진다.

본 발명의 해결과제는 이상에서 언급된 것들에 한정되지 않으며, 언급되지 아니한 다른 해결과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

본 발명에 따른 핵심어 추출방법은, 온라인 서비스를 대상으로 비정형 텍스트 데이터를 수집하는 (a)단계, 상기 비정형 텍스트 데이터에서, 선정된 주제에 대한 복수의 관련단어를 추출하는 (b)단계 및 상기 복수의 관련단어로부터 핵심어를 추출하는 (c)단계를 포함한다.

그리고 상기 (c) 단계는, 상기 추출된 복수의 관련단어 중에 선택된 대상단어의 중심성지수를 산출하는 (c-1)단계, 상기 중심성지수와 기 설정된 기준을 비교하는 (c-2)단계 및 상기 중심성지수가 기 설정된 기준 이상일 경우, 해당 대상단어를 핵심어로 선정하는 (c-3)단계를 포함할 수 있다.

또한 상기 (c-1)단계는, 상기 추출된 복수의 관련단어를 이용하여 관련단어트리를 구성하는 (c-1-1)단계, 상기 관련단어트리로부터, 상기 대상단어가 위치된 노드를 제외한 다른 임의의 노드 한 쌍 사이의 최단경로 개수를 산출하는 (c-1-2)단계, 상기 산출된 임의의 노드 한 쌍 사이의 최단경로 중 상기 대상단어를 경유하는 최단경로 개수를 산출하는 (c-1-3)단계 및 상기 임의의 노드 한 쌍 사이의 최단경로 개수를, 상기 대상단어를 경유하는 최단경로 개수로 나누어 개별중심성을 산출하는 (c-1-4)단계를 포함할 수 있다.

그리고 상기 (c-1)단계는, 상기 (c-1-1) 단계 내지 상기 (c-1-4)단계를 반복하는 (c-1-5)단계 및 상기 각 (c-1-4)단계에서 산출된 복수의 개별중심성을 합산하여 중심성지수를 산출하는 (c-1-6)단계를 더 포함할 수 있다.

또한 상기 (c)단계 이후에는, 상기 추출된 핵심어로 핵심어사전을 구축하는 (d)단계가 더 포함될 수 있다.

그리고 이를 이용한 핵심어 관심지수 산출방법은, 온라인 서비스를 대상으로 비정형 텍스트 데이터를 수집하는 (a)단계, 상기 비정형 텍스트 데이터에서 선정된 주제에 대한 복수의 관련단어를 추출하는 (b)단계, 상기 복수의 관련단어로부터 핵심어를 추출하는 (c)단계, 상기 추출된 핵심어로 핵심어사전을 구축하는 (d)단계 및 상기 핵심어사전에 포함된 핵심어 중 선택된 대상핵심어의 관심지수를 산출하는 (e)단계를 포함한다.

또한 상기 (e)단계는, 상기 대상핵심어의 단어 빈도수를 산출하는 (e-1)단계, 상기 대상핵심어가 나타난 문서 수의 역수를 산출하는 (e-2)단계, 상기 단어 빈도수와 상기 문서 수의 역수를 곱연산하는 (e-3)단계, 상기 핵심어사전 내에서, 상기 대상핵심어의 핵심어중심성지수를 산출하는 (e-4)단계 및 상기 (e-3)단계의 곱연산 결과와, 상기 (e-4)단계의 핵심어중심성지수를 곱연산하여 상기 대상핵심어의 관심지수를 산출하는 (e-5)단계를 포함할 수 있다.

그리고 상기 (e-4)단계는, 상기 핵심어사전에 포함된 복수의 핵심어를 이용하여 핵심어트리를 구성하는 (e-4-1)단계, 상기 핵심어트리로부터, 상기 대상핵심어가 위치된 노드를 제외한 다른 임의의 노드 한 쌍 사이의 최단경로 개수를 산출하는 (e-4-2)단계, 상기 산출된 임의의 노드 한 쌍 사이의 최단경로 중 상기 대상핵심어를 경유하는 최단경로 개수를 산출하는 (e-4-3)단계 및 상기 임의의 노드 한 쌍 사이의 최단경로 개수를, 상기 대상핵심어를 경유하는 최단경로 개수로 나누어 개별중심성을 산출하는 (e-4-4)단계를 포함할 수 있다.

또한 상기 (e-4)단계는, 상기 (e-4-1) 단계 내지 상기 (e-4-4)단계를 반복하는 (e-4-5)단계 및 상기 각 (e-4-4)단계에서 산출된 복수의 개별중심성을 합산하여 핵심어중심성지수를 산출하는 (e-4-6)단계를 더 포함할 수 있다.

본 발명에 따른 핵심어 추출방법 및 이를 이용한 핵심어 관심지수 산출방법은 다음과 같은 효과가 있다.

첫째, 합리적이고 현실적으로 사용자의 수요 및 요구를 보다 정확하게 판단할 수 있는 장점이 있다.

둘째, 추출된 핵심어를 이용하여 사용자에게 보다 진보되고 품질 높은 서비스를 제공할 수 있는 장점이 있다.

셋째, 추출된 핵심어로 핵심어사전을 구축하여 다양한 분야에 활용이 가능하다는 장점이 있다.

본 발명의 효과는 이상에서 언급된 것들에 한정되지 않으며, 언급되지 아니한 다른 효과들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 일 실시예에 따른 핵심어 추출방법의 전체 과정을 나타낸 흐름도이다.
도 2는 본 발명의 일 실시예에 따른 핵심어 추출방법에 있어서, 핵심어 추출단계의 세부 과정을 나타낸 흐름도이다.
도 3은 본 발명의 일 실시예에 따른 핵심어 추출방법에 있어서, 중심성지수 산출단계의 세부 과정을 나타낸 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 핵심어 추출방법에 있어서, 관련단어트리의 모습을 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따른 핵심어 관심지수 산출방법에 있어서, 대상핵심어의 관심지수 산출단계의 세부 과정을 나타낸 흐름도이다.
도 6은 본 발명의 일 실시예에 따른 핵심어 관심지수 산출방법에 있어서, 핵심어중심성지수 산출단계의 세부 과정을 나타낸 흐름도이다.

이하 본 발명의 목적이 구체적으로 실현될 수 있는 본 발명의 바람직한 실시예를 첨부된 도면을 참조하여 설명한다. 본 실시예를 설명함에 있어서, 동일 구성에 대해서는 동일 명칭 및 동일 부호가 사용되며 이에 따른 부가적인 설명은 생략하기로 한다.

도 1은 본 발명의 일 실시예에 따른 핵심어 추출방법의 전체 과정을 나타낸 흐름도이다.

도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 핵심어 추출방법은, 온라인 서비스를 대상으로 비정형 텍스트 데이터를 수집하는 (a)단계와, 상기 비정형 텍스트 데이터에서, 선정된 주제에 대한 복수의 관련단어를 추출하는 (b)단계와, 상기 복수의 관련단어로부터 핵심어를 추출하는 (c)단계와, 상기 추출된 핵심어로 핵심어사전을 구축하는 (d)단계를 포함한다.

먼저 상기 (a)단계의 경우, 다양한 온라인 서비스로부터 비정형 텍스트 데이터를 추출하고, 수집하는 단계이다.

여기서 상기 온라인 서비스라 함은 웹, SNS 등 통신망을 이용한 다양한 온라인 서비스 매체일 수 있으며, 어느 하나의 온라인 서비스에 제한되지 않는다. 그리고 상기 비정형 텍스트 데이터의 경우, 문서 형태의 데이터로서 그 구조가 복잡해 정형화되지 않은 데이터를 말한다.

즉 본 단계에서는 다양한 온라인 서비스를 대상으로 문서 형태의 데이터를 추출하게 되며, 이후 (b)단계가 수행된다.

상기 (b)단계는 상기 비정형 텍스트 데이터에서, 선정된 주제에 대한 복수의 관련단어를 추출하게 된다. 즉 핵심어 추출을 위한 소정의 주제가 결정된 경우, 해당 주제에 대한 관련단어를 상기 (a)단계에서 추출된 비정형 텍스트 데이터로부터 선정할 수 있다.

이때 상기 관련단어로는, 특별히 개수의 제한을 두지 않고 가능한 모든 관련단어를 선정할 수 있으며, 상황에 따라 개수의 제한을 설정할 수도 있음은 물론이다.

상기 (c)단계는, 상기 (b)단계에서 선정된 복수의 관련단어로부터 보다 관련도가 높은 핵심어를 추출하는 단계로서, 본 실시예의 경우 핵심어 추출을 위해 대상단어의 중심성 지수를 이용하게 된다.

상기 (d)단계는, 상기 추출된 핵심어로 핵심어사전을 구축하는 단계로서, 전체 핵심어를 취합하여 저장하고, 핵심어사전을 구축하게 된다.

이하에서는 상기 (c)단계에 대해 보다 자세히 설명하도록 한다.

도 2는 본 발명의 일 실시예에 따른 핵심어 추출방법에 있어서, 핵심어 추출단계의 세부 과정을 나타낸 흐름도이다.

도 2에 도시된 바와 같이, 전술한 (c)단계는, 상기 추출된 복수의 관련단어 중에 선택된 대상단어의 중심성지수를 산출하는 (c-1)단계와, 상기 중심성지수와 기 설정된 기준을 비교하는 (c-2)단계와, 상기 중심성지수가 기 설정된 기준 이상일 경우, 해당 대상단어를 핵심어로 선정하는 (c-3)단계를 포함한다.

상기 (c-1)단계는, 전술한 (b)단계에서 추출된 복수의 관련단어들 중, 어느 하나의 대상단어를 선택하고, 이에 대한 중심성지수를 산출하는 단계이다. 즉 본 단계에서는 추출된 관련단어 각각에 대한 중심성지수를 산출하게 되며, 이에 따라 각 관련단어는 중심성지수를 부여받게 된다. 이와 같이 중심성지수를 산출하는 방법에 대해서는 후술하도록 한다.

상기 (c-2)단계는, 각 관련단어의 중심성지수와, 기 설정된 기준을 서로 대비하는 단계이다. 상기 설정 기준은 선택된 관련단어가 핵심어로서 선정되기 위한 최소의 기준을 의미하며, 전술한 (c-1)단계에서 산출된 각 관련단어의 중심성지수가 상기 설정 기준을 충족하는지 비교하게 된다.

상기 (c-3)단계는, 상기 (c-2)단계의 비교 결과 선택된 관련단어의 중심성지수가 기 설정된 기준 이상일 경우, 해당 대상단어를 핵심어로 선정하는 단계이다. 즉 관련단어의 중심성지수가 기 설정된 기준과 같거나 이를 초과하는 경우에는, 핵심어의 요건을 만족하는 것으로 판단하여, 이를 핵심어로 선정하게 된다.

본 실시예에서는 상기와 같은 방법으로 정해진 주제에 대한 핵심어를 추출할 수 있게 되며, 이하에서는 상기 (c-1)단계의 중심성지수 산출 과정에 대해 자세히 설명하도록 한다.

도 3은 본 발명의 일 실시예에 따른 핵심어 추출방법에 있어서, 중심성지수 산출단계의 세부 과정을 나타낸 흐름도이며, 도 4는 본 발명의 일 실시예에 따른 핵심어 추출방법에 있어서, 관련단어트리의 모습을 나타낸 도면이다.

도 3에 도시된 바와 같이, 전술한 (c-1)단계는, 상기 추출된 복수의 관련단어를 이용하여 관련단어트리를 구성하는 (c-1-1)단계와, 상기 관련단어트리로부터, 상기 대상단어가 위치된 노드를 제외한 다른 임의의 노드 한 쌍 사이의 최단경로 개수를 산출하는 (c-1-2)단계와, 상기 산출된 임의의 노드 한 쌍 사이의 최단경로 중 상기 대상단어를 경유하는 최단경로 개수를 산출하는 (c-1-3)단계와, 상기 임의의 노드 한 쌍 사이의 최단경로 개수를, 상기 대상단어를 경유하는 최단경로 개수로 나누어 개별중심성을 산출하는 (c-1-4)단계와, 상기 (c-1-1) 단계 내지 상기 (c-1-4)단계를 반복하는 (c-1-5)단계와, 상기 각 (c-1-4)단계에서 산출된 복수의 개별중심성을 합산하여 중심성지수를 산출하는 (c-1-6)단계를 포함한다.

상기 (c-1-1)단계의 경우, 전술한 (b)단계에서 추출된 복수의 관련단어들을 이용하여 관련단어트리를 구성하게 된다. 본 과정에서는 각 관련단어 간의 연관성 등 다양한 요소를 고려하여 전체 관련단어의 연결망을 구성하게 되며, 도 4에는 이와 같은 관련단어트리의 예시가 도시된다. 도 4에 도시된 바와 같이, 각 관련단어(W1~W8)는 하나의 노드를 형성하고, 서로 그물 형태로 연결된 연결망을 형성한다.

상기 (c-1-2)단계의 경우, 상기 관련단어트리로부터, 선택된 어느 하나의 대상단어가 위치된 노드를 제외한 다른 임의의 노드 한 쌍 사이의 최단경로 개수를 산출하게 된다.

예를 들어 도 4를 기준으로, 선택된 대상단어가 W2라고 할 경우, W2를 제외한 다른 모든 노드 중 임의의 한 쌍 사이의 최단경로 개수를 산출한다. 여기서 임의로 선택된 한 쌍의 노드를 W1과 W6이라 할 경우, W1과 W6을 연결하는 경로 중 최단거리를 가지는 경우는, W1-W2-W4-W6, W1-W2-W7-W6, W1-W3-W5-W6, W1-W2-W5-W6로서 총 4가지 경로를 찾을 수 있다.

상기 (c-1-3)단계의 경우, 상기 산출된 임의의 노드 한 쌍 사이의 최단경로 중 상기 대상단어를 경유하는 최단경로 개수를 산출하게 된다.

예를 들어 도 4를 기준으로, 전술한 (c-1-2)단계에서 산출된 4가지의 최단경로 중 선택된 대상단어인 W2가 포함된 최단경로는, W1-W2-W4-W6, W1-W2-W7-W6, W1-W2-W5-W6로서 총 3가지 경로를 찾을 수 있다.

상기 (c-1-4)단계의 경우, 상기 임의의 노드 한 쌍 사이의 최단경로 개수를, 상기 대상단어를 경유하는 최단경로 개수로 나누어 개별중심성을 산출하게 된다. 즉 도 4의 예시에서 전체 최단경로는 4개, 이중 대상단어인 W2를 포함하는 최단경로는 3개이므로, W2의 개별중심성은 3/4가 될 것이다.

상기 (c-1-5)단계는, 전술한 상기 (c-1-1) 단계 내지 상기 (c-1-4)단계를 반복하게 된다. 즉 도 4의 예시 중 (c-1-2)단계에서 W1과 W6 간의 최단경로를 산출하였으므로, 본 단계에서는 W2를 제외한 W1 내지 W8 중 한 쌍의 노드의 선택을 달리 하여 모든 경우의 수에 대해 경상기 (c-1-1) 단계 내지 상기 (c-1-4)단계를 수행하게 된다.

상기 (c-1-6)단계는, 상기 (c-1-5)단계에 의해 상기 각 (c-1-4)단계에서 산출된 복수의 개별중심성을 합산하여 중심성지수를 산출하는 단계이다. 즉 본 단계에서는 모든 경우의 수에 대해 산출한 개별중심성을 전부 합산하게 되며, 이는 최종 중심성지수가 된다.

따라서 이후 전술한 (c-2)단계에서 해당 대상단어의 최종 중심성지수와, 기 설정된 기준을 비교하게 되며, 기 설정된 기준 이상인 경우 (c-3)단계에서 해당 대상단어를 핵심어로 선정하게 된다.

이상으로 본 실시예에 따른 핵심어 추출방법에 대해 설명하였다. 이하에서는 이와 같이 추출된 핵심어들의 관심지수를 산출하는 방법에 대해 설명하도록 한다.

본 발명의 일 실시예에 따른 핵심어 관심지수 산출방법은, 온라인 서비스를 대상으로 비정형 텍스트 데이터를 수집하는 (a)단계와, 상기 비정형 텍스트 데이터에서 선정된 주제에 대한 복수의 관련단어를 추출하는 (b)단계와, 상기 복수의 관련단어로부터 핵심어를 추출하는 (c)단계와, 상기 추출된 핵심어로 핵심어사전을 구축하는 (d)단계와, 상기 핵심어사전에 포함된 핵심어 중 선택된 대상핵심어의 관심지수를 산출하는 (e)단계를 포함한다.

여기서 상기 (a)단계 내지 (d)단계의 경우, 전술한 핵심어 추출방법과 동일하게 이루어지는 것으로, 이에 대한 설명은 생략하도록 한다. 이하에서는, 상기 (e)단계에 대해 자세히 설명하도록 한다.

도 5는 본 발명의 일 실시예에 따른 핵심어 관심지수 산출방법에 있어서, 대상핵심어의 관심지수 산출단계의 세부 과정을 나타낸 흐름도이다.

도 5에 도시된 바와 같이, 상기 (e)단계는, 상기 대상핵심어의 단어 빈도수를 산출하는 (e-1)단계와, 상기 대상핵심어가 나타난 문서 수의 역수를 산출하는 (e-2)단계와, 상기 단어 빈도수와 상기 문서 수의 역수를 곱연산하는 (e-3)단계와, 상기 핵심어사전 내에서, 상기 대상핵심어의 핵심어중심성지수를 산출하는 (e-4)단계와, 상기 (e-3)단계의 곱연산 결과와, 상기 (e-4)단계의 핵심어중심성지수를 곱연산하여 상기 대상핵심어의 관심지수를 산출하는 (e-5)단계를 포함한다.

상기 (e-1)단계의 경우, 핵심어사전으로부터 선정된 어느 하나의 대상핵심어가 온라인 서비스 상에 사용된 빈도수를 산출하게 되며, 상기 (e-2)단계에서는 온라인 서비스 상에서 사용된 상기 대상핵심어가 나타난 문서 수의 역수를 산출하게 된다. 그리고 상기 (e-3)단계에서는, 이들을 서로 곱연산한 값을 산출한다.

또한 상기 (e-4)단계에서는 상기 핵심어사전 내를 범위로 하여, 상기 대상핵심어의 핵심어중심성지수를 산출하게 되며, 상기 (e-5)단계에서는 상기 핵심어중심성지수와 상기 (e-3)단계의 곱연산 값을 다시 곱연산하여 선택된 대상핵심어의 최종 관심지수를 산출하게 된다.

이하에서는, 상기 (e-4)단계의 핵심어중심성지수 산출방법에 대해 설명하도록 한다.

도 6은 본 발명의 일 실시예에 따른 핵심어 관심지수 산출방법에 있어서, 핵심어중심성지수 산출단계의 세부 과정을 나타낸 흐름도이다.

도 6에 도시된 바와 같이, 상기 (e-4)단계는, 상기 핵심어사전에 포함된 복수의 핵심어를 이용하여 핵심어트리를 구성하는 (e-4-1)단계와, 상기 핵심어트리로부터, 상기 대상핵심어가 위치된 노드를 제외한 다른 임의의 노드 한 쌍 사이의 최단경로 개수를 산출하는 (e-4-2)단계와, 상기 산출된 임의의 노드 한 쌍 사이의 최단경로 중 상기 대상핵심어를 경유하는 최단경로 개수를 산출하는 (e-4-3)단계와, 상기 임의의 노드 한 쌍 사이의 최단경로 개수를, 상기 대상핵심어를 경유하는 최단경로 개수로 나누어 개별중심성을 산출하는 (e-4-4)단계와, 상기 (e-4-1) 단계 내지 상기 (e-4-4)단계를 반복하는 (e-4-5)단계와, 상기 각 (e-4-4)단계에서 산출된 복수의 개별중심성을 합산하여 핵심어중심성지수를 산출하는 (e-4-6)단계를 포함한다.

상기 (e-4-1)단계 내지 상기 (e-4-6)단계의 경우, 전술한 핵심어 추출방법의 (c-1-1)단계 내지 (c-1-6)단계와 동일하게 수행된다. 다만, 전술한 핵심어 추출방법에서는 온라인 서비스 상에서 선정된 전체 관련단어가 관련단어트리의 구성 대상이었으나, 본 핵심어 관심지수 산출방법에서는 상기 핵심어트리의 구성 대상이 상기 핵심어사전에 포함된 핵심어들이라는 것이 다르다. 따라서 이에 대한 자세한 설명은 생략하도록 한다.

이에 따라 산출된 핵심어중심성지수는, 전술한 바와 같이 (e-5)단계에서 대상핵심어의 관심지수를 산출하기 위한 데이터로 사용될 수 있으며, 이와 같은 과정을 모든 핵심어를 대상으로 수행하여 각 핵심어마다 관심지수를 부여할 수 있게 된다.

이와 같이 추출된 핵심어와 그 관심지수를 활용할 경우, 사용자에게 보다 진보되고 품질 높은 서비스를 제공할 수 있으며, 이를 다양한 분야에 활용이 가능하게 되는 장점이 있다.

본 명세서에서 설명되는 실시예와 첨부된 도면은 본 발명에 포함되는 기술적 사상의 일부를 예시적으로 설명하는 것에 불과하다. 따라서, 본 명세서에 개시된 실시예들은 본 발명의 기술적 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이므로, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아님은 자명하다. 본 발명의 명세서 및 도면에 포함된 기술적 사상의 범위 내에서 당업자가 용이하게 유추할 수 있는 변형 예와 구체적인 실시 예는 모두 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

온라인 서비스를 대상으로 비정형 텍스트 데이터를 수집하는 (a)단계;
상기 비정형 텍스트 데이터에서, 선정된 주제에 대한 복수의 관련단어를 추출하는 (b)단계; 및
상기 복수의 관련단어로부터 핵심어를 추출하는 (c)단계;
를 포함하며,
상기 (c) 단계는,
상기 추출된 복수의 관련단어 중에 선택된 대상단어의 중심성지수를 산출하는 (c-1)단계;
상기 중심성지수와 기 설정된 기준을 비교하는 (c-2)단계; 및
상기 중심성지수가 기 설정된 기준 이상일 경우, 해당 대상단어를 핵심어로 선정하는 (c-3)단계;
를 포함하고,
상기 (c-1)단계는,
상기 추출된 복수의 관련단어를 이용하여 관련단어트리를 구성하는 (c-1-1)단계;
상기 관련단어트리로부터, 상기 대상단어가 위치된 노드를 제외한 다른 임의의 노드 한 쌍 사이의 최단경로 개수를 산출하는 (c-1-2)단계;
상기 산출된 임의의 노드 한 쌍 사이의 최단경로 중 상기 대상단어를 경유하는 최단경로 개수를 산출하는 (c-1-3)단계; 및
상기 임의의 노드 한 쌍 사이의 최단경로 개수를, 상기 대상단어를 경유하는 최단경로 개수로 나누어 개별중심성을 산출하는 (c-1-4)단계;
를 포함하는 핵심어 추출방법.
삭제
삭제
제1항에 있어서,
상기 (c-1)단계는,
상기 (c-1-1) 단계 내지 상기 (c-1-4)단계를 반복하는 (c-1-5)단계; 및
상기 (c-1-4)단계에서 산출된 복수의 개별중심성을 합산하여 중심성지수를 산출하는 (c-1-6)단계;
를 더 포함하는 핵심어 추출방법.
제1항에 있어서,
상기 (c)단계 이후에는,
상기 추출된 핵심어로 핵심어사전을 구축하는 (d)단계가 더 포함되는 핵심어 추출방법.
온라인 서비스를 대상으로 비정형 텍스트 데이터를 수집하는 (a)단계;
상기 비정형 텍스트 데이터에서 선정된 주제에 대한 복수의 관련단어를 추출하는 (b)단계;
상기 복수의 관련단어로부터 핵심어를 추출하는 (c)단계;
상기 추출된 핵심어로 핵심어사전을 구축하는 (d)단계; 및
상기 핵심어사전에 포함된 핵심어 중 선택된 대상핵심어의 관심지수를 산출하는 (e)단계;
를 포함하며,
상기 (e)단계는,
상기 대상핵심어의 단어 빈도수를 산출하는 (e-1)단계;
상기 대상핵심어가 나타난 문서 수의 역수를 산출하는 (e-2)단계;
상기 단어 빈도수와 상기 문서 수의 역수를 곱연산하는 (e-3)단계;
상기 핵심어사전 내에서, 상기 대상핵심어의 핵심어중심성지수를 산출하는 (e-4)단계; 및
상기 (e-3)단계의 곱연산 결과와, 상기 (e-4)단계의 핵심어중심성지수를 곱연산하여 상기 대상핵심어의 관심지수를 산출하는 (e-5)단계;
를 포함하는 핵심어 관심지수 산출방법.
삭제
제6항에 있어서,
상기 (e-4)단계는,
상기 핵심어사전에 포함된 복수의 핵심어를 이용하여 핵심어트리를 구성하는 (e-4-1)단계;
상기 핵심어트리로부터, 상기 대상핵심어가 위치된 노드를 제외한 다른 임의의 노드 한 쌍 사이의 최단경로 개수를 산출하는 (e-4-2)단계;
상기 산출된 임의의 노드 한 쌍 사이의 최단경로 중 상기 대상핵심어를 경유하는 최단경로 개수를 산출하는 (e-4-3)단계; 및
상기 임의의 노드 한 쌍 사이의 최단경로 개수를, 상기 대상핵심어를 경유하는 최단경로 개수로 나누어 개별중심성을 산출하는 (e-4-4)단계;
를 포함하는 핵심어 관심지수 산출방법.
제8항에 있어서,
상기 (e-4)단계는,
상기 (e-4-1) 단계 내지 상기 (e-4-4)단계를 반복하는 (e-4-5)단계; 및
상기 (e-4-4)단계에서 산출된 복수의 개별중심성을 합산하여 핵심어중심성지수를 산출하는 (e-4-6)단계;
를 더 포함하는 핵심어 관심지수 산출방법.