KR101638739B1

KR101638739B1 - 비정형 텍스트 데이터 처리방법

Info

Publication number: KR101638739B1
Application number: KR1020150057626A
Authority: KR
Inventors: 전채남; 손기준; 성영주
Original assignee: (주) 더아이엠씨
Priority date: 2015-04-24
Filing date: 2015-04-24
Publication date: 2016-07-11

Abstract

본 발명에 따른 비정형 텍스트 데이터 처리방법은, 온라인 서비스를 대상으로 비정형 텍스트 데이터를 수집하는 (a)단계, 수집된 상기 비정형 텍스트 데이터에 대해, 복수의 관련단어를 추출하는 (b)단계, 추출된 상기 관련단어에 대해, 출현빈도 및 분포 중 적어도 어느 하나를 고려하여 1차 가중치를 부여하고 매트릭스화하는 (c)단계, 매트릭스화된 상기 관련단어에 2차 가중치를 부여하는 (d)단계 및 가중치가 부여된 매트릭스를 시각화하는 (e)단계를 포함한다.

Description

비정형 텍스트 데이터 처리방법{Atypical Text Data Processing Method}

본 발명은 비정형 텍스트 데이터 처리방법에 관한 것으로서, 보다 상세하게는 빅데이터를 사용자가 원하는 목적에 맞게 분석 및 처리하도록 할 수 있는 비정형 텍스트 데이터 처리방법에 관한 것이다.

최근에는 온라인상 데이터의 지속적인 증가가 이루어지고 있으며, 소셜미디어와 스마트폰의 영향력이 점차 증가하게 됨에 따라 커뮤니케이션의 속도가 증가되어 온라인상 대중의 태도 및 의견과 트렌드에 대한 효율적 파악 수단의 필요성이 대두되고 있다.

그리고 갈수록 다양해지는 사용자의 욕구에 따라 서비스 제공자는 사용자의 수요 및 요구를 정확하게 판단해야 할 필요가 있으며, 이를 위해 보다 정확한 사용자의 수요 및 요구를 판단하기 위한 알고리즘이 연구되고 있다.

하지만, 기존의 데이터 수집, 분석 방식으로는 비정형의 빅데이터를 처리하기가 어렵다는 문제가 있었다.

따라서 상기와 같은 문제점들을 해결하기 위한 방법이 요구되고 있는 상황이다.

한국공개특허 제10-2009-0083747호

본 발명에 따른 비정형 텍스트 데이터 처리방법은 기존의 시스템으로 분석이 불가능했던 비정형 텍스트 데이터를 수집 및 정제, 분석할 수 있도록 하기 위한 목적을 가진다.

본 발명의 해결과제는 이상에서 언급된 것들에 한정되지 않으며, 언급되지 아니한 다른 해결과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

본 발명에 따른 비정형 텍스트 데이터 처리방법은, 온라인 서비스를 대상으로 비정형 텍스트 데이터를 수집하는 (a)단계, 수집된 상기 비정형 텍스트 데이터에 대해, 복수의 관련단어를 추출하는 (b)단계, 추출된 상기 관련단어에 대해, 출현빈도 및 분포 중 적어도 어느 하나를 고려하여 1차 가중치를 부여하고 매트릭스화하는 (c)단계, 매트릭스화된 상기 관련단어에 2차 가중치를 부여하는 (d)단계 및 가중치가 부여된 매트릭스를 시각화하는 (e)단계를 포함하며, 상기 (d)단계는, 한 쌍의 관련단어를 선정하는 (d-1)단계, 선정된 한 쌍의 관련단어 간의 거리값을 산출하는 (d-2)단계 및 상기 거리값을 이용하여 선정된 한 쌍의 관련단어에 2차 가중치를 부여하는 (d-3)단계를 포함한다.

그리고 상기 (c)단계는, 상기 관련단어의 출현빈도 순위를 산출하는 (c-1-1)단계 및

(n: 전체 단어의 수, k: 관련단어의 출현빈도 순위, s: 분포의 특성을 나타내는 지수값)

의 식을 이용하여 상기 관련단어의 1차 가중치를 부여하는 (c-1-2)단계를 포함할 수 있다.

또한 상기 (c)단계는, 하나의 비정형 텍스트 데이터에서 어느 하나의 관련단어와 동시 출현하는 비교단어를 더 추출하는 (c-2-1)단계 및 상기 관련단어가 출현한 비정형 텍스트 데이터의 수를, 상기 관련단어가 출현한 비정형 텍스트 데이터의 수와 상기 비교단어가 출현한 비정형 텍스트 데이터의 수의 평균값으로 나누어 산출된 가중값을 고려하여 상기 관련단어의 1차 가중치를 부여하는 (c-2-2)단계를 포함할 수 있다.

삭제

또한 상기 (d-3)단계는, 상기 거리값을 0과 1사이의 값으로 치환하여 선정된 한 쌍의 관련단어에 2차 가중치를 부여하는 것으로 할 수 있다.

그리고 상기 복수의 관련단어로부터 핵심어를 추출하는 (f)단계를 더 포함할 수 있다.

또한 상기 (f) 단계는, 상기 추출된 복수의 관련단어 중에 선택된 대상단어의 중심성지수를 산출하는 (f-1)단계, 상기 중심성지수와 기 설정된 기준을 비교하는 (f-2)단계 및 상기 중심성지수가 기 설정된 기준 이상일 경우, 해당 대상단어를 핵심어로 선정하는 (f-3)단계를 포함할 수 있다.

그리고 상기 (f-1)단계는, 상기 추출된 복수의 관련단어를 이용하여 관련단어트리를 구성하는 (f-1-1)단계, 상기 관련단어트리로부터, 상기 대상단어가 위치된 노드를 제외한 다른 임의의 노드 한 쌍 사이의 최단경로 개수를 산출하는 (f-1-2)단계, 상기 산출된 임의의 노드 한 쌍 사이의 최단경로 중 상기 대상단어를 경유하는 최단경로 개수를 산출하는 (f-1-3)단계 및 상기 임의의 노드 한 쌍 사이의 최단경로 개수를, 상기 대상단어를 경유하는 최단경로 개수로 나누어 개별중심성을 산출하는 (f-1-4)단계를 포함할 수 있다.

또한 상기 (f-1)단계는, 상기 (f-1-1) 단계 내지 상기 (f-1-4)단계를 반복하는 (f-1-5)단계 및 상기 각 (f-1-4)단계에서 산출된 복수의 개별중심성을 합산하여 중심성지수를 산출하는 (f-1-6)단계를 더 포함할 수 있다.

그리고 상기 (f)단계 이후에는, 상기 추출된 핵심어로 핵심어사전을 구축하는 (g)단계가 더 포함될 수 있다.

본 발명에 따른 비정형 텍스트 데이터 처리방법은 다음과 같은 효과가 있다.

첫째, 빅데이터를 사용자가 원하는 목적에 맞게 분석 및 처리가 가능하다는 장점이 있다.

둘째, 한국어 기반의 빠르고 정확한 형태소 분석 및 자연어 처리 기법을 적용하고, 수집데이터뿐만 아니라 보유데이터도 처리하는 2-way 정제/분석방법을 제공한다는 장점이 있다.

셋째, 합리적이고 현실적으로 사용자의 수요 및 요구를 보다 정확하게 판단할 수 있는 장점이 있다.

본 발명의 효과는 이상에서 언급된 것들에 한정되지 않으며, 언급되지 아니한 다른 효과들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 일 실시예에 따른 비정형 텍스트 데이터 처리방법의 전체 프로세스를 나타낸 흐름도이다.
도 2는 본 발명의 일 실시예에 따른 비정형 텍스트 데이터 처리방법에 있어서, 매트릭스화 단계의 세부 과정을 나타낸 흐름도이다.
도 3은 본 발명의 일 실시예에 따른 비정형 텍스트 데이터 처리방법에 있어서, 매트릭스화 단계의 또 다른 세부 과정을 나타낸 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 비정형 텍스트 데이터 처리방법에 있어서, 2차 가중치 부여 단계의 세부 과정을 나타낸 흐름도이다.
도 5는 본 발명의 일 실시예에 따른 비정형 텍스트 데이터 처리방법에 있어서, 핵심어 추출단계의 세부 과정을 나타낸 흐름도이다.
도 6은 본 발명의 일 실시예에 따른 비정형 텍스트 데이터 처리방법에 있어서, 중심성지수 산출단계의 세부 과정을 나타낸 흐름도이다.
도 7은 본 발명의 일 실시예에 따른 비정형 텍스트 데이터 처리방법에 있어서, 관련단어트리의 모습을 나타낸 도면이다.

이하 본 발명의 목적이 구체적으로 실현될 수 있는 본 발명의 바람직한 실시예를 첨부된 도면을 참조하여 설명한다. 본 실시예를 설명함에 있어서, 동일 구성에 대해서는 동일 명칭 및 동일 부호가 사용되며 이에 따른 부가적인 설명은 생략하기로 한다.

도 1은 본 발명의 일 실시예에 따른 비정형 텍스트 데이터 처리방법의 전체 프로세스를 나타낸 흐름도이다.

도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 비정형 텍스트 데이터 처리방법은, 온라인 서비스를 대상으로 비정형 텍스트 데이터를 수집하는 (a)단계와, 수집된 상기 비정형 텍스트 데이터에 대해, 복수의 관련단어를 추출하는 (b)단계와, 추출된 상기 관련단어에 대해, 출현빈도 및 분포 중 적어도 어느 하나를 고려하여 1차 가중치를 부여하고 매트릭스화하는 (c)단계와, 매트릭스화된 상기 관련단어에 2차 가중치를 부여하는 (d)단계 및 가중치가 부여된 매트릭스를 시각화하는 (e)단계를 포함한다.

먼저 상기 (a)단계의 경우, 다양한 온라인 서비스로부터 비정형 텍스트 데이터를 추출하고, 수집하는 단계이다.

여기서 상기 온라인 서비스라 함은 웹, SNS 등 통신망을 이용한 다양한 온라인 서비스 매체일 수 있으며, 어느 하나의 온라인 서비스에 제한되지 않는다. 또한 향후 등장할 미래의 온라인 서비스를 포함할 수 있음은 물론이다.

그리고 상기 비정형 텍스트 데이터의 경우, 문서 형태의 데이터로서 그 구조가 복잡해 정형화되지 않은 데이터를 말한다. 즉 본 단계에서는 다양한 온라인 서비스를 대상으로 문서 형태의 데이터를 추출하게 되며, 이후 (b)단계가 수행된다.

상기 (b)단계는 수집된 상기 비정형 텍스트 데이터에 대해, 복수의 관련단어를 추출하는 과정이 수행되며, 온라인 서비스의 각종 문서로부터 분석의 대상이 되는 관련단어를 선정하게 된다.

이후 (c)단계가 수행되며, 상기 (c)단계는 추출된 관련단어를 이용하여 매트릭스를 생성하는 과정이 수행된다. 이를 위해 추출된 상기 관련단어에 대해, 출현빈도 및 분포 중 적어도 어느 하나를 고려하여 1차 가중치를 부여하게 된다.

본 단계는 다양한 방법에 의해 구현될 수 있으며, 도 2 및 도 3에는 본 단계의 구체적인 방법이 도시된다.

먼저 도 2를 참조하면, 상기 (c)단계는 상기 관련단어의 출현빈도 순위를 산출하는 (c-1-1)단계와, 이하 식을 이용하여 상기 관련단어의 1차 가중치를 부여하는 (c-1-2)단계를 포함할 수 있다.

즉 이는 단어의 분포를 고려한 가중치 부여방법으로서, n개의 관련단어들 가운데 출현빈도 순위가 k번째인 관련단어의 사용빈도를 1차 가중치로서 적용한 것이다. 이때 각 관련단어들의 발생 횟수는 독립적인 것으로 가정한다.

다음으로 도 3을 참조하면, 상기 (c)단계는 하나의 비정형 텍스트 데이터에서 어느 하나의 관련단어와 동시 출현하는 비교단어를 더 추출하는 (c-2-1)단계와, 상기 관련단어가 출현한 비정형 텍스트 데이터의 수를, 상기 관련단어가 출현한 비정형 텍스트 데이터의 수와 상기 비교단어가 출현한 비정형 텍스트 데이터의 수의 평균값으로 나누어 산출된 가중값을 고려하여 상기 관련단어의 1차 가중치를 부여하는 (c-2-2)단계에 의해 이루어질 수 있다.

이를 자세히 설명하면, 매트릭스를 생성하기 위하여 먼저 어느 하나의 관련단어와, 이와 동시에 출현하는 비교단어를 추출하고, 이들의 빈도 정보를 추출하여 단어와 가중치의 쌍을 만든다. 이때 각 단어의 선택은 문서의 제목과 본문을 대상으로 할 수 있다.

그리고 상기 관련단어와 상기 비교단어가 공출현하는 문서의 개수를 추출하고, 상기 관련단어와 상기 비교단어 간의 연결 강도를 산출한다. 여기서 상기 관련단어와 상기 비교단어 사이의 연결 강도는 단어 쌍이 나타나는 문서의 개수로 결정될 수 있다. 특히 상기 관련단어와 상기 비교단어가 한 문장에서 동시에 출현할 경우 빈도 수의 합을 가중치로 사용하고, 단락에서 동시에 출현할 경우 빈도에 대한 곱을 사용할 수 있다.

즉 이상과 같은 동시출현 단어의 상대적 강도를 기반으로 단어 사이의 근접관계를 가중값으로 하여 1차 가중치를 부여할 수 있다. 상기 가중값은 전술한 바와 같이 상기 관련단어가 출현한 비정형 텍스트 데이터의 수를, 상기 관련단어가 출현한 비정형 텍스트 데이터의 수와 상기 비교단어가 출현한 비정형 텍스트 데이터의 수의 평균값으로 나누어 산출할 수 있다.

이상과 같은 과정을 거쳐, 1차 가중치가 반영된 관련단어들을 이용하여 매트릭스화가 이루어지며, 이때 데이터의 성격에 따라 1-Mode 매트릭스 또는 2-Mode 매트릭스 중 어느 하나를 선택할 수 있다.

여기서 상기 1-Mode 매트릭스는 행과 열에 동일한 개체가 배열되는 매트릭스를 말하며, 2-Mode 매트릭스는 행과 열에 서로 다른 개체가 배열되는 매트릭스를 말한다.

이와 같이 매트릭스가 생성된 이후, 매트릭스화된 관련단어에 2차 가중치를 부여하는 (d)단계가 수행된다. 상기 (d)단계는 도 4에 도시된 바와 같이, 세부적으로 한 쌍의 관련단어를 선정하는 (d-1)단계와, 선정된 한 쌍의 관련단어 간의 거리값을 산출하는 (d-2)단계와, 상기 거리값을 이용하여 선정된 한 쌍의 관련단어에 2차 가중치를 부여하는 (d-3)단계를 포함할 수 있다.

구체적으로 상기 (d-1)단계 및 (d-2)단계에서는 매트릭스의 열과 행 상에 배열된 한 쌍의 관련단어를 선정하고, 이들의 상관관계를 분석하기 위해 거리값을 산출하게 된다. 이때 거리값은 다양한 방법에 의해 구현될 수 있다.

거리값을 산출하는 첫 번째 방법으로, 이하의 식을 이용할 수 있다.

(pi: 제1관련단어의 i번째 행의 데이터값, qi: 제2관련단어의 i번째 행의 데이터값)

즉 예를 들어, 매트릭스가 이하와 같이 배열되었다고 하면,

A1과 A2 사이의 거리값은 다음과 같이 계산될 수 있다.

따라서 (d-3)단계에서는 이와 같은 거리값을 2차 가중치로 부여할 수 있으다. 한편 상기 (d-3)단계는, 상기 거리값을 0과 1사이의 값으로 치환하여 선정된 한 쌍의 관련단어에 2차 가중치를 부여하는 것으로 할 수도 있다. 이와 같은 과정은 1/(1+거리값)의 공식을 통해 이루어질 수 있다.

다음으로 거리값을 산출하는 두 번째 방법으로, 각 행의 값을 각각 제곱한 후, 이들을 모두 더한 값의 제곱근을 구하고, 산출된 값을 해당 행 내의 값으로 나누어 정규화를 수행한 뒤, 정규화된 값을 가지는 제1관련단어와 제2관련단어의 대응되는 행의 값을 곱한 뒤 합산하는 방법을 사용할 수 있다.

예를 들어, 매트릭스가 이하와 같이 배열되었다고 할 때 B1을 예로 들어 계산하면,

B1의 각 행 값을 제곱 후 더한 값을 제곱근할 경우, sqrt(3² + 2² + 1²) = 3.74가 산출된다.

따라서 모든 관련단어들에 이와 같은 값들을 산출하고, 이를 해당 행 내의 값으로 나누면 다음과 같이 표현된다.

다음으로 이와 같은 값을 토대로 B1과 B2의 거리값을 산출하면, (0.8018*0.7428)+(0.5345*0.3714)+(0.2673*0.557)=0.943이 도출된다. 이를 모든 셀에 적용하면, 다음과 같다.

따라서 이와 같은 값을 거리값으로 하여 2차 가중치를 부여할 수 있다.

다음으로 거리값을 산출하는 세 번째 방법으로, 제1관련단어와 제2관련단어의 각 행 데이터 중 교집합의 개수를 합집합의 개수로 나누어 유사도 매트릭스를 구성하고, 이를 원래의 매트릭스와 행렬곱하는 방법을 사용할 수 있다.

예를 들어, 매트릭스가 이하와 같이 배열되었다고 할 때,

A1과 A2의 유사도는 2/3=0.67이 되며, 이와 같은 방식으로 구현한 전체 유사도 매트릭스는 다음과 같다.

따라서 이와 같은 유사도 매트릭스와 원 매트릭스를 행렬곱하면,

이 만들어지며, 이와 같은 값을 가중값으로 사용할 수 있다.

이상과 같은 방법에 의한 2차 가중치 부여 후, 가중치가 부여된 매트릭스를 시각화하는 (e)단계가 수행된다. 본 과정에서는 매트릭스 데이터를 motion chart, ucinet과 같은 시각화 툴을 이용하여 결과에 대한 시각화를 진행하며, 사용자에게 모션차트, 네트워크 등의 형태로 도식화된 정보를 제공할 수 있다.

이상으로 (a)단계 내지 (e)단계에 대해 설명하였다. 한편 본 발명은 상기 복수의 관련단어로부터 핵심어를 추출하는 (f)단계와, 상기 추출된 핵심어로 핵심어사전을 구축하는 (g)단계를 더 포함할 수 있다. 이하에서는 이에 대해 설명하도록 한다.

도 5는 본 발명의 일 실시예에 따른 비정형 텍스트 처리방법에 있어서, 핵심어 추출단계의 세부 과정을 나타낸 흐름도이다.

도 5에 도시된 바와 같이, (f)단계는, 복수의 관련단어 중에 선택된 대상단어의 중심성지수를 산출하는 (f-1)단계와, 상기 중심성지수와 기 설정된 기준을 비교하는 (f-2)단계와, 상기 중심성지수가 기 설정된 기준 이상일 경우, 해당 대상단어를 핵심어로 선정하는 (f-3)단계를 포함한다.

상기 (f-1)단계는, 전술한 (b)단계에서 추출된 복수의 관련단어들 중, 어느 하나의 대상단어를 선택하고, 이에 대한 중심성지수를 산출하는 단계이다. 즉 본 단계에서는 추출된 관련단어 각각에 대한 중심성지수를 산출하게 되며, 이에 따라 각 관련단어는 중심성지수를 부여받게 된다. 이와 같이 중심성지수를 산출하는 방법에 대해서는 후술하도록 한다.

상기 (f-2)단계는, 각 관련단어의 중심성지수와, 기 설정된 기준을 서로 대비하는 단계이다. 상기 설정 기준은 선택된 관련단어가 핵심어로서 선정되기 위한 최소의 기준을 의미하며, 전술한 (f-1)단계에서 산출된 각 관련단어의 중심성지수가 상기 설정 기준을 충족하는지 비교하게 된다.

상기 (f-3)단계는, 상기 (f-2)단계의 비교 결과 선택된 관련단어의 중심성지수가 기 설정된 기준 이상일 경우, 해당 대상단어를 핵심어로 선정하는 단계이다. 즉 관련단어의 중심성지수가 기 설정된 기준과 같거나 이를 초과하는 경우에는, 핵심어의 요건을 만족하는 것으로 판단하여, 이를 핵심어로 선정하게 된다.

본 실시예에서는 상기와 같은 방법으로 정해진 주제에 대한 핵심어를 추출할 수 있게 되며, 이하에서는 상기 (f-1)단계의 중심성지수 산출 과정에 대해 자세히 설명하도록 한다.

도 6은 본 발명의 일 실시예에 따른 비정형 텍스트 처리방법에 있어서, 중심성지수 산출단계의 세부 과정을 나타낸 흐름도이며, 도 7은 본 발명의 일 실시예에 따른 비정형 텍스트 처리방법에 있어서, 관련단어트리의 모습을 나타낸 도면이다.

도 6에 도시된 바와 같이, 전술한 (f-1)단계는, 상기 추출된 복수의 관련단어를 이용하여 관련단어트리를 구성하는 (f-1-1)단계와, 상기 관련단어트리로부터, 상기 대상단어가 위치된 노드를 제외한 다른 임의의 노드 한 쌍 사이의 최단경로 개수를 산출하는 (f-1-2)단계와, 상기 산출된 임의의 노드 한 쌍 사이의 최단경로 중 상기 대상단어를 경유하는 최단경로 개수를 산출하는 (f-1-3)단계와, 상기 임의의 노드 한 쌍 사이의 최단경로 개수를, 상기 대상단어를 경유하는 최단경로 개수로 나누어 개별중심성을 산출하는 (f-1-4)단계와, 상기 (f-1-1) 단계 내지 상기 (f-1-4)단계를 반복하는 (f-1-5)단계와, 상기 각 (f-1-4)단계에서 산출된 복수의 개별중심성을 합산하여 중심성지수를 산출하는 (f-1-6)단계를 포함한다.

상기 (f-1-1)단계의 경우, 전술한 (b)단계에서 추출된 복수의 관련단어들을 이용하여 관련단어트리를 구성하게 된다. 본 과정에서는 각 관련단어 간의 연관성 등 다양한 요소를 고려하여 전체 관련단어의 연결망을 구성하게 되며, 도 7에는 이와 같은 관련단어트리의 예시가 도시된다. 도 7에 도시된 바와 같이, 각 관련단어(W1~W8)는 하나의 노드를 형성하고, 서로 그물 형태로 연결된 연결망을 형성한다.

상기 (f-1-2)단계의 경우, 상기 관련단어트리로부터, 선택된 어느 하나의 대상단어가 위치된 노드를 제외한 다른 임의의 노드 한 쌍 사이의 최단경로 개수를 산출하게 된다.

예를 들어 도 7을 기준으로, 선택된 대상단어가 W2라고 할 경우, W2를 제외한 다른 모든 노드 중 임의의 한 쌍 사이의 최단경로 개수를 산출한다. 여기서 임의로 선택된 한 쌍의 노드를 W1과 W6이라 할 경우, W1과 W6을 연결하는 경로 중 최단거리를 가지는 경우는, W1-W2-W4-W6, W1-W2-W7-W6, W1-W3-W5-W6, W1-W2-W5-W6로서 총 4가지 경로를 찾을 수 있다.

상기 (f-1-3)단계의 경우, 상기 산출된 임의의 노드 한 쌍 사이의 최단경로 중 상기 대상단어를 경유하는 최단경로 개수를 산출하게 된다.

예를 들어 도 7를 기준으로, 전술한 (f-1-2)단계에서 산출된 4가지의 최단경로 중 선택된 대상단어인 W2가 포함된 최단경로는, W1-W2-W4-W6, W1-W2-W7-W6, W1-W2-W5-W6로서 총 3가지 경로를 찾을 수 있다.

상기 (f-1-4)단계의 경우, 상기 임의의 노드 한 쌍 사이의 최단경로 개수를, 상기 대상단어를 경유하는 최단경로 개수로 나누어 개별중심성을 산출하게 된다. 즉 도 4의 예시에서 전체 최단경로는 4개, 이중 대상단어인 W2를 포함하는 최단경로는 3개이므로, W2의 개별중심성은 3/4가 될 것이다.

상기 (f-1-5)단계는, 전술한 상기 (f-1-1) 단계 내지 상기 (f-1-4)단계를 반복하게 된다. 즉 도 4의 예시 중 (f-1-2)단계에서 W1과 W6 간의 최단경로를 산출하였으므로, 본 단계에서는 W2를 제외한 W1 내지 W8 중 한 쌍의 노드의 선택을 달리 하여 모든 경우의 수에 대해 상기 (f-1-1) 단계 내지 상기 (f-1-4)단계를 수행하게 된다.

상기 (f-1-6)단계는, 상기 (f-1-5)단계에 의해 상기 각 (f-1-4)단계에서 산출된 복수의 개별중심성을 합산하여 중심성지수를 산출하는 단계이다. 즉 본 단계에서는 모든 경우의 수에 대해 산출한 개별중심성을 전부 합산하게 되며, 이는 최종 중심성지수가 된다.

따라서 이후 전술한 (f-2)단계에서 해당 대상단어의 최종 중심성지수와, 기 설정된 기준을 비교하게 되며, 기 설정된 기준 이상인 경우 (f-3)단계에서 해당 대상단어를 핵심어로 선정하게 된다. 그리고 이를 토대로 핵심어사전을 구축할 수 있다.

이와 같이 추출된 핵심어를 활용할 경우, 사용자에게 보다 진보되고 품질 높은 서비스를 제공할 수 있으며, 이를 다양한 분야에 활용이 가능하게 되는 장점이 있다.

본 명세서에서 설명되는 실시예와 첨부된 도면은 본 발명에 포함되는 기술적 사상의 일부를 예시적으로 설명하는 것에 불과하다. 따라서, 본 명세서에 개시된 실시예들은 본 발명의 기술적 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이므로, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아님은 자명하다. 본 발명의 명세서 및 도면에 포함된 기술적 사상의 범위 내에서 당업자가 용이하게 유추할 수 있는 변형 예와 구체적인 실시 예는 모두 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

온라인 서비스를 대상으로 비정형 텍스트 데이터를 수집하는 (a)단계;
수집된 상기 비정형 텍스트 데이터에 대해, 복수의 관련단어를 추출하는 (b)단계;
추출된 상기 관련단어에 대해, 출현빈도 및 분포 중 적어도 어느 하나를 고려하여 1차 가중치를 부여하고 매트릭스화하는 (c)단계;
매트릭스화된 상기 관련단어에 2차 가중치를 부여하는 (d)단계; 및
가중치가 부여된 매트릭스를 시각화하는 (e)단계;
를 포함하며,
상기 (d)단계는,
한 쌍의 관련단어를 선정하는 (d-1)단계;
선정된 한 쌍의 관련단어 간의 거리값을 산출하는 (d-2)단계; 및
상기 거리값을 이용하여 선정된 한 쌍의 관련단어에 2차 가중치를 부여하는 (d-3)단계;
를 포함하는 비정형 텍스트 데이터 처리방법.
제1항에 있어서,
상기 (c)단계는,
상기 관련단어의 출현빈도 순위를 산출하는 (c-1-1)단계; 및

(n: 전체 단어의 수, k: 관련단어의 출현빈도 순위, s: 분포의 특성을 나타내는 지수값)
의 식을 이용하여 상기 관련단어의 1차 가중치를 부여하는 (c-1-2)단계;
를 포함하는 비정형 텍스트 데이터 처리방법.
제1항에 있어서,
상기 (c)단계는,
하나의 비정형 텍스트 데이터에서 어느 하나의 관련단어와 동시 출현하는 비교단어를 더 추출하는 (c-2-1)단계; 및
상기 관련단어가 출현한 비정형 텍스트 데이터의 수를, 상기 관련단어가 출현한 비정형 텍스트 데이터의 수와 상기 비교단어가 출현한 비정형 텍스트 데이터의 수의 평균값으로 나누어 산출된 가중값을 고려하여 상기 관련단어의 1차 가중치를 부여하는 (c-2-2)단계;
를 포함하는 비정형 텍스트 데이터 처리방법.
삭제
제1항에 있어서,
상기 (d-3)단계는,
상기 거리값을 0과 1사이의 값으로 치환하여 선정된 한 쌍의 관련단어에 2차 가중치를 부여하는 것으로 하는 비정형 텍스트 데이터 처리방법.
제1항에 있어서,
상기 복수의 관련단어로부터 핵심어를 추출하는 (f)단계를 더 포함하는 비정형 텍스트 데이터 처리방법.
제6항에 있어서,
상기 (f) 단계는,
상기 추출된 복수의 관련단어 중에 선택된 대상단어의 중심성지수를 산출하는 (f-1)단계;
상기 중심성지수와 기 설정된 기준을 비교하는 (f-2)단계; 및
상기 중심성지수가 기 설정된 기준 이상일 경우, 해당 대상단어를 핵심어로 선정하는 (f-3)단계;
를 포함하는 비정형 텍스트 데이터 처리방법.
제7항에 있어서,
상기 (f-1)단계는,
상기 추출된 복수의 관련단어를 이용하여 관련단어트리를 구성하는 (f-1-1)단계;
상기 관련단어트리로부터, 상기 대상단어가 위치된 노드를 제외한 다른 임의의 노드 한 쌍 사이의 최단경로 개수를 산출하는 (f-1-2)단계;
상기 산출된 임의의 노드 한 쌍 사이의 최단경로 중 상기 대상단어를 경유하는 최단경로 개수를 산출하는 (f-1-3)단계; 및
상기 임의의 노드 한 쌍 사이의 최단경로 개수를, 상기 대상단어를 경유하는 최단경로 개수로 나누어 개별중심성을 산출하는 (f-1-4)단계;
를 포함하는 비정형 텍스트 데이터 처리방법.
제8항에 있어서,
상기 (f-1)단계는,
상기 (f-1-1) 단계 내지 상기 (f-1-4)단계를 반복하는 (f-1-5)단계; 및
상기 각 (f-1-4)단계에서 산출된 복수의 개별중심성을 합산하여 중심성지수를 산출하는 (f-1-6)단계;
를 더 포함하는 비정형 텍스트 데이터 처리방법.
제6항에 있어서,
상기 (f)단계 이후에는,
상기 추출된 핵심어로 핵심어사전을 구축하는 (g)단계가 더 포함되는 비정형 텍스트 데이터 처리방법.