KR100844073B1

KR100844073B1 - 웨이티드 그래프 분석을 이용한 게시물 토픽 추출 방법 및그 시스템

Info

Publication number: KR100844073B1
Application number: KR1020070047365A
Authority: KR
Inventors: 백석철; 강석원; 이상봉; 전상현
Original assignee: 엔에이치엔(주)
Priority date: 2007-05-16
Filing date: 2007-05-16
Publication date: 2008-07-04

Abstract

본 발명은 낮은 계산 복잡도를 제공하면서도, 정밀한 토픽 추출이 가능한 자동 토픽 추출 방법 및 시스템에 관한 것이다.

본 발명에 따른 토픽 추출 방법은, 게시물의 타이틀로부터 타이틀 명사 벡터를 생성하는 단계; 상기 타이틀 명사 벡터로부터 타이틀 간 내적을 산출하는 단계; 상기 산출된 타이틀 간 내적을 에지(edge) 가중치로서 이용하여, 상기 타이틀을 노드로 하는 웨이티드 그래프(weighted graph)를 구축하는 단계; 상기 노드들 중 자이언트 컴포넌트를 추출하여 분석 범위를 결정하는 단계; 및 상기 결정된 분석 범위에 대해 웨이티드 그래프 분석을 수행하여 토픽을 추출하는 단계를 포함한다. 본 발명은, 상기 타이틀간 내적 산출 및 웨이티드 그래프 분석에 있어 기존의 분석방법에 비해 낮은 계산 복잡도를 가짐으로써 빠른 계산 속도를 제공하고, 해상도 매개변수의 조절을 통해 더 세밀하고 정밀한 토픽 추출을 가능하게 한다.

웨이티드 그래프, 커뮤니티, 토픽, 노드, 에지, 자동토픽추출

Description

웨이티드 그래프 분석을 이용한 게시물 토픽 추출 방법 및 그 시스템{method for extracting topic in posts using weighted graph analysis and system thereof}

도 1은 커뮤니티를 포함한 네트워크 구성을 도시한 도면이다.

도 2는 본 발명의 일 실시예에 따른 토픽 추출 방법을 도시한 흐름도이다

도 3는 본 발명의 일 실시예에 따른 타이틀 명사 벡터 생성 단계를 설명한 흐름도이다.

도 4는 본 발명의 일 실시예에 따라서, 타이틀간 가중치를 산출하는 단계를 도시한 흐름도이다.

도 5는 본 발명의 일 실시예에 따라 웨이티드 그래프를 구축하고 분석 범위를 결정하는 단계를 도시한 흐름도이다.

도 6a 내지 도6c는 각각 α값이 0,2,3일 때 커뮤니티 크기와 커뮤니티들의 내부 에지 수 비율(Homogeneity)을 도시한 그래프 도이다.

도 7은 본 발명의 일 실시예에 따른 웨이티드 그래프 분석 단계를 도시한 도면이다.

도 8은 모듈성 Q와 수목도(dendrogram)와의 관계를 도시한 도면이다

도 9는 본 발명의 일 실시예에 따른 토픽 추출 단계를 도시한 흐름도이다.

도 10은 본 발명의 일 실시예에 따른 토픽 추출 시스템을 도시한 블록도이다.

도 11은 본 발명의 일 실시예의 구성 요소 또는 동작을 실시하기 위하여 사용될 수 있는 컴퓨터 시스템 아키텍쳐를 도시한 도면이다.

본 발명은 블로그와 같은 온라인 공간에 게시된 게시물들의 토픽을 자동으로 추출하는 방법 및 시스템에 관한 것이다. 더욱 구체적으로 본 발명은, 게시물들의 타이틀을 노드로 하고 이들 간의 유사도를 이용해 그래프를 생성한 뒤, 커뮤니티 분석을 함으로써 개수가 미리 정해지지 않은 토픽을 자동으로 추출할 수 있는 시스템에 관한 것이다. 또한 많은 수의 노드에 관한 커뮤니티 분석을 짧은 시간 내에 수행함으로써, 효율적으로 게시물의 토픽을 추출하여 상기 토픽을 활용할 수 있는 방법 및 시스템에 관한 것이다.

1998년 이후 사회 네트워크 연구가 활발히 진행되고 있는 상황이며, 특히 복잡한 네트워크(complex network)로부터 커뮤니티(클러스터)를 추출하는 문제가 집중적으로 연구되고 있다. 초반에는 노드 사이의 에지에 가중치를 부여하지 않는 언웨이티드(un-weighted) 그래프 분석이 주로 이뤄졌으나, 이후 Mark Newman이 에 지-비트위니스(edge-betweeness)를 이용한 웨이티드(weighted) 그래프 분석을 제시하였다.

도 1은 커뮤니티를 포함한 네트워크 구성을 도시하고 있다.

도 1의 네트워크는 외관적으로 세 개의 커뮤니티를 존재하는 것처럼 도시되어 있다. 즉, 각각의 커뮤니티는 노드(A,B,C,D), 노드(E,F,G,H) 및 노드(I,J,K,M,L)로 이루어져 있는 것처럼 보일 것이다. 이하, 그래프 분석 방법을 이용하여 어떻게 커뮤니티를 추출할 수 있는지 설명하도록 한다.

언웨이티드 그래프 커뮤니티 분석을 위하여, 우선 주어진 네트워크 내에서 임의의 두 노드를 선택한다. 여기서 하나의 노드로부터 다른 하나의 노드로의 최단 패스가 n 개인 경우에는, 이들 패스에 참여하는 모든 에지에 1/n 값을 부여한다.

상기 작업을 모든 한 쌍의 노드들에 대해 반복 계산한 후, 이 과정에서 각 에지에 부여된 값들을 모두 합산해, 각각의 에지들의 에지-비트위니스 값이 결정한다.

도 1에 도시된 네트워크에서 높은 에지-비트위니스 값을 가지는 에지(예를 들어, 노드 D-E 사이의 에지, 노드 D-I사이의 에지, 노드 K-G 사이의 에지)들은 네트워크 상에서 존재할 수 있는 트래픽들의 병목이 된다. 상기 가장 높은 에지-비트위니스 값을 갖는 에지들을 네트워크로부터 제거하는 방법을 이용하면, 전술한 바와 같이, 노드(A,B,C,D), 노드(E,F,G,H) 및 노드(I,J,K,M,L)로 이루어진 세 개의 커뮤니티를 추출할 수 있게 된다.

여기서, 에지수를 m이라고 하고, 노드 수를 n이라고 하면, 모든 에지의 에지-비트위니스를 계산하는 계산 복잡도는 O(mn)이 된다. 상기 함수 O( ) 계산 복잡도를 가리키는 함수이다. 가장 높은 에지-비트위니스 값을 갖는 에지를 네트워크에서 모두 제거하는 경우에는 계산 복잡도는 O(m²n)이 된다.

한편, 각각의 노드는 서로 균등한 관계로 연결되어 있지는 않다. 즉, 노드 사이의 에지에는 가중치가 존재하게 된다. 상기 에지의 가중치를 고려하는 것이 웨이티드 그래프 분석 방법이다.

언웨이티드 그래프 분석 방법을 웨이티드 그래프 분석 방법으로 확장하는 경우에는, 언웨이티드 그래프에서와 동일하게 계산된 에지-비트위니스 값을 상기 에지 가중치 값으로 나눈다. 그 후 상기 연산값이 가장 높은 갖는 에지를 제거하게 된다.

그러나, 전술한 바와 같이 종래의 기술의 그래프 분석의 계산 복잡도는 O(m²n)이므로, 1만 노드 이하의 규모의 네트워크에서나 사용 가능하다. 따라서, 많은 수의 블로그를 운영하는 블로그 서비스 시스템에서 상기 블로그에 올라오는 하루 100만 건에 육박하는 타이틀로부터 토픽을 추출하는데 종래 기술을 이용하는 것은 거의 불가능하다는 문제점이 존재한다.

더불어, 게시물로부터 토픽 추출에 있어서는 노드 간의 가중치가 충분히 반영되어야 더욱 정확하고 세밀한 토픽 추출이 가능하므로, 상기 가중치의 산출의 연산 부하도 충분히 감소시킬 필요가 존재한다.

따라서, 블로그 등을 통해 대량으로 포스팅되는 게시물로부터 토픽을 추출함에 있어, 낮은 계산 복잡도를 가지며, 효율적인 에지 가중치 산출이 가능한 새로운 토픽 추출 방법의 요구가 절실하다.

전술한 문제점을 해결하기 위하여, 본 발명의 일부 실시예는, 낮은 계산 복잡도를 갖는 짧은 시간에 대량의 타이틀부터 토픽을 추출할 수 있는 토픽 추출 방법 및 시스템을 제공한다.

또한, 본 발명의 일부 실시에는, 에지 가중치를 그래프 분석에 반영하면서도, 상기 에지 가중치의 계산 복잡도가 낮은 토픽 추출 방법 및 시스템을 제공한다.

또한, 본 발명의 일부 실시예는, 해상도(resolution)의 조절을 통해 더 세밀한 토픽의 추출이 가능한 토픽 추출 방법 및 시스템을 제공한다.

전술한 본 발명의 기술적 과제를 달성하기 위하여, 본 발명의 제 1 측면에 따른, 토픽 추출 방법은, a) 게시물 타이틀로부터 타이틀 명사 벡터를 생성하는 단계; b) 상기 타이틀 명사 벡터로부터 타이틀 간 내적을 산출하는 단계; c) 상기 산출된 타이틀 간 내적을 에지(edge) 가중치로서 이용하여, 상기 타이틀을 노드로 하 는 웨이티드 그래프(weighted graph)를 구축하는 단계; d) 상기 노드들 중 자이언트 컴포넌트를 추출하여 분석 범위를 결정하는 단계; 및 e) 상기 결정된 분석 범위에 대해 웨이티드 그래프 분석을 수행하여 토픽을 추출하는 단계를 포함한다.

여기서, 단계 b)는, 각각의 명사와 타이틀이 중복되지 않는 쌍이 되도록 매칭시키고, 상기 명사를 기준으로 정렬한 데이터 구조에서 각각의 타이틀이 공유하는 동일 명사의 가중치의 곱을 합산하여 이뤄질 수 있다.

또한, 상기 단계 e)는, 상기 산출된 에지 가중치를 반영한 웨이티드 그래프에서의 모듈성(modularity) 값(Q)이 최대가 되는 타이틀의 커뮤니티를 등록시키는 단계를 포함할 수 있다.

또한 본 발명의 제 2 측면에 따른 토픽 추출 시스템은, 게시물의 타이틀을 파일로서 저장하고, 상기 타이틀의 명사 분석을 통해 명사 리스트를 생성하여, 상기 명사 리스트와 명사의 가중치를 기초하여 타이틀 명사 벡터를 생성하는 타이틀 명사 벡터 생성부; 상기 타이틀 명사 벡터를 이용하여, 멀티 맵(multi map) 형식의 자료 구조를 형성하여, 상기 명사를 기준으로 정렬한 후, 동일 명사를 공유하는 타이틀간의 내적을 계산함으로써 타이틀간 가중치를 산출하는 타이틀 간 가중치 산출부; 타이틀의 노드의 연결 컴포넌트 중에서 분석이 되는 자이언트 컴포넌트를 결정하여, 분석 범위를 결정하는 분석 범위 결정부; 상기 분석 범위에 대해 상기 타이틀간 가중치를 이용하여 웨이티드 그래프 분석을 수행함으로써 커뮤니티를 추출하는 웨이티드 그래프 분석부; 및 웨이티드 그래프 분석부로부터 추출된 커뮤니티로 부터 토픽을 추출하는 토픽 추출부를 포함한다.

여기서, 상기 웨이티드 그래프 분석부는 모듈성 Q 값을 이용한 웨이티드 그래프 분석을 통해 상기 커뮤니티를 추출할 수 있다.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

도 2는 본 발명의 일 실시예에 따른 토픽 추출 방법을 도시한 흐름도이다.

단계(S100)에서는 게시물 타이틀로부터 타이틀 명사 벡터를 생성한다. 상기 게시물은 블로그에 게시된 게시물일 수 있으며, 상기 타이틀 명사 벡터는 상기 타이틀에 포함된 명사의 벡터이다. 상기 타이틀 명사 벡터는 타이틀의 형태소 중에서 명사를 추출하여, 명사의 리스트들로 이루어진 벡터에서 해당하는 명사가 있으면, 그 순서에 대응하여 1 및 0을 배열하여 “기본 타이틀 명사 벡터”를 형성한다. 또한, 본 발명의 실시예에서는 명사 리스트 중에 대응하는 명사에 대해 그 명사가 가진 명사의 가중치를 부여함으로써 타이틀 명사 벡터를 생성한다.

단계(S200)에서는,상기 타이틀 명사 벡터를 이용하여, 멀티 맵(multi map) 형식의 자료 구조를 형성하여, 상기 명사를 기준으로 배열한 후, 타이틀간의 가중치를 산출한다. 상기 타이틀간의 가중치는 타이틀간 내적(cosine similarity)를 계산함으로써 산출될 수 있다. 따라서, 상기 타이틀간의 가중치는 타이틀내의 명사 배열이 얼마나 유사한 가를 나타내는 척도가 되며, 이후 웨이티드 그래프 분석에 있어서, 에지 가중치로서 활용될 수 있다.

단계(S300)에서는, 상기 타이틀을 노드로 하는 웨이티드 그래프를 구축하고, 분석 범위를 결정한다. 분석 범위는 그래프의 노드중 분석 대상이 되는 자이언트 컴포넌트(giant component)이다. 상기 자이언트 컴포넌트는 네트워크 이론에서 사용되는 용어로서, 전체 그래프의 노드 중 대다수를 포함하는 연결된 서브 그래프를 의미한다. 상기 분석 범위를 결정함으로써, 토픽 추출에 무관하거나 도움이 되지 않는 군소 컴포넌트가 배제된다.

단계(S400)에서는, 결정된 분석범위에 대해 웨이티드 그래프 분석을 수행한다. 본 발명의 실시예에서는, 계산 복잡도를 낮추고 에지 가중치를 반영한 신뢰성있는 분석을 위하여, 모듈성(modularity) 값(Q)을 이용한 웨이티드 그래프 분석을 수행한다.

단계(S500)에서는, 웨이티드 그래프 분석을 통해 추출된 타이틀의 커뮤니티로부터 토픽을 추출한다.

이상, 본 발명의 실시예에 따른 토픽 추출 방법의 구성을 전체적으로 설명하였으며, 이하 각각의 단계(S100~S500)에 있어서의 구체적인 구성에 대해 상세히 설명한다.

도 3는 본 발명의 실시예에 따른 타이틀 명사 벡터 생성 단계를 설명한 흐름도이다.

단계(S110)에서는, 게시물로부터 타이틀을 추출한다. 예를 들어, 게시물의 타이틀이 저장된 타이틀 데이터베이스로부터 타이틀을 추출하여 파일로서 저장한다.

단계(S120)에서는 명사 분석기를 이용하여 상기 타이틀별로 명사를 추출한다. 예를 들어, 단계(S110)에서 저장된 파일에서 각각의 타이틀을 읽은 뒤 명사분석기를 통해 타이틀을 구성하는 명사를 추출한다.

단계(S130)에서는, 상기 추출된 명사의 리스트를 생성한다. 지나치게 많은 타이틀에 등장하는 명사들은 대부분 보통 명사이거나 대명사이므로 토픽으로서의 가치가 적기 때문에 리스트에서 제거된다. 또는, 본 발명의 실시예에서 여러 타이틀에 등장하는 명사에 대해서는 낮은 가중치를 부여할 수도 있다. 명사의 리스트가 생성된 후 타이틀(t)에 대한 기본 타이틀 명사 벡터는 수학식 1과 같다

단계(S140)에서는 각각의 명사에 대한 가중치를 산출하기에 앞서 해상도를 결정한다. 전술한 바와 같이, 우선 여러 번 등장하는 명사는 수학식 2와 같이 가중치의 요소를 결정할 수 있다. 수학식 2에서 로그를 사용한 이유는 빈도수에 너무 민감하게 가중치가 변하지 않게 하기 위해서이다. 여기서 w(i)는 명사 n_i에 해당하는 가중치, f(i)는 명사 n_i가 등장하는 타이틀 개수이다.

이후, 해상도를 선택하여 또 다른 가중치의 요소를 결정한다. 타이틀 내 존재하는 명사들은 위치에 따라 중요도가 다르다. 즉, 앞에 위치한 명사는 뒤에 있는 것보다 일반적으로 더 중요한 의미를 갖는다. 이러한 면을 고려하여 한 타이틀 내 명사의 위치에 따라 가중치를 부여하는 것은 의미가 있다. 왜냐하면 한 타이틀 내 뒤 부분에 있는 명사가 앞에 있는 명사의 가중치와 동일하다고 하면 이 명사를 앞에 갖고 있는 다른 타이틀과 강한 연결을 맺게 되어 같은 커뮤니티 내에 존재할 가능성이 높아지는데, 사실상 이 두 타이틀은 별반 공통점을 갖고 있지 않는 경우가 많기 때문이다. 이를 위해서 타이틀에서 명사가 j번째 순서로 나타난 경우 적정한 매개변수 α(≥0)를 선택하여 1/ j^α (j^α 는 해상도 함수)만큼의 가중치를 추가하여 최종적으로 타이틀 t에 j번째 순서에 n_i 명사가 나타났을 때 가중치는 수학식 3과 같이 표현된다.

도 6a 내지 도6c는 각각 α값이 0,2,3일 때 커뮤니티 크기와 커뮤니티들의 내부 에지 수 비율(Homogeneity)을 도시한 그래프 도이다

도 6a 내지 도 6c의 그래프에서 확인할 수 있듯이 점의 개수(= 토픽 수)는 α값이 증가할 수록 자이언트 컴포넌트(giant component) 내에 존재하는 커뮤니티들의 내부 에지수 비율(Homogeneity)가 증가한다. 여기서, 자이언트 컴포넌트란 그래프의 여러 개의 연결 컴포넌트 중에서 가장 많은 노드를 포함하는 연결 컴포넌트를 지칭하는 용어이다. 도 6a 내지 도 6c에 도시된 바와 같이, α값이 증가할 수록 토픽들의 주제가 날카롭게 포커싱된다. 따라서, 상기 α값을 이용하여 토픽 해상도를 조절할 수 있는 것이 이해될 것이다.

전술한 바와 같이, 해상도 선택이 이루어지면 수학식 3과 같이 명사 가중치를 산출한다(S150).

단계(S160)에서는 상기 기본 타이틀 명사 벡터와 명사 가중치를 이용하여 타 이틀 명사 벡터를 생성한다. 수학식 3과 같은 가중치를 고려하여 벡터를 정규화하면, 타이틀 명사 벡터는 수학식 4와 같이 표현될 수 있다.

전술한 바와 같이, 생성된 타이틀 명사 벡터는 타이틀, 명사, 명사 가중치의 순서로 이하의 표 1과 같은 멀티 맵에 저장된다(S210).

여기서, 서로 다른 한 쌍의 타이틀 간 내적은 수학식 5와 같은 계산 방법에 의해 계산 될 수 있으며, 상기 내적값은 두 노드 간 에지 가중치로 활용될 수 있다.

총 n 개의 타이틀이 있고 전체 타이틀들이 서로 다른 m 개의 명사들로 이루어졌다고 가정할 때, 이 작업의 계산복잡도는 O(mn²) 이다. 그러나 한 타이틀 내 명사의 개수가 m 에 비해 매우 작기 때문에 실제 계산 복잡도는 대략 O(n²) 이 된다.

예를 들어, 타이틀 "캐리비안의 해적 블랙펄의 저주"의 벡터(u)와 "캐리비안의 해적 망자의 함"의 벡터(v)는 각각 이하와 같이 정의될 수 있다.

캐리비안	해적	블랙펄	저주	망자	함
1	1	1	1	0	0

캐리비안	해적	블랙펄	저주	망자	함
1	1	0	0	1	1

수학식 5에 따라서 상기 두 벡터의 내적을 구하면 1/2이 계산될 것이다. 여기서 눈에 띄는 것은 두 벡터의 내적을 구함에 있어 1·0과 같은 계산을 여러 번 하게 된다는 것이다. 사실 각 타이틀들이 서로 같은 명사를 소유하는 경우는 많지 않으므로 블로그 토픽 추출을 수행하기 위한 작업에서 이러한 계산이 많아지며 이것이 작업 속도를 느리게 할 수 있다.

따라서, 본 발명의 실시예에서는 상기 멀티맵의 구조를 변환하는 단계를 포 함한다(S220).

예를 들어, 표 1과 같은 데이터 구조를 Key2(명사)로 정렬하여 표 2와 같은 구조로 변형시킨다.

한 문서에 들어있는 명사 수가 전체 타이틀 수 n 에 비하여 상당히 작으므로 상기 작업의 계산 복잡도 대략 O(nlogn) 이다. 표 2와 같은 데이터 구조를 활용하면 타이틀 간 내적 계산이 간편해진다.

즉, 같은 명사를 갖고 있는 타이틀 간에 중복되지 않는 쌍들을 만들고 각 타이틀 쌍이 공유하는 해당 명사 가중치 값들을 서로 곱한 후에 같은 타이틀 쌍을 기록하는 메모리에서 모두 합하는 것으로 타이틀간 내적 계산이 완료된다(S230).

표 3은 표 2에서와 같이 타이틀1과 2가 명사 1 만을 공유하는 경우 타이틀 1과 타이틀 2의 내적 값을 도시한 것이다.

한 명사를 공유하는 타이틀의 개수가 총 타이틀 개수 n 에 비하여 상당히 적으면 본 발명의 실시예에 따른 내적 계산 방법은 복잡도가 최대 O(m)으로 대폭 감소될 수 있다. 실제로 약 5만개의 블로그 타이틀 간의 내적 계산에서 기존 방법은 70여 초가 소요되었으나, 본 발명의 실시예에 따른 방법으로는 1초 내에 계산이 완료되었다. 이와 같이 1·0과 같은 불필요한 계산을 하지 않음으로써 계산 시간을 대폭 단축할 수 있음을 확인할 수 있다.

전술한 단계(S210) 및 단계(S220)는 종래의 타이틀 간 내적 방법과의 비교를 위하여 각각의 단계로 구분되어 기재되어 있으나, 최초 멀티 맵 작성시에 표 2와 같은 방식으로 작성하여도 본 발명의 범위에 속한다는 것은 충분히 이해될 것이다.

단계(S310)에서 저장된 타이틀을 노드로 하여 웨이티드 그래프를 구축한다. 웨이티드 그래프는 전술한 바와 같이, 타이틀 간 내적 값이 0 이 아닌 노드를 서로 에지로 연결하고, 상기 에지에 상기 타이틀 간 내적 값을 가중치로서 부여함으로써 구축될 수 있다.

단계(S320)에서는 상기 그래프를 이용하여 자이언트 컴포넌트를 추출한다. 구체적으로, 상기 구축된 그래프를 Boost Graph Library( http://www.boost.org/libs/graph/doc/index.html)의 연결 컴포넌트(Connected Component) 추출 알고리즘으로 분석하여 여러 개의 연결 컴포넌트를 추출한다. 이들 컴포넌트 중에서 가장 많은 노드를 포함하는 자이언트 컴포넌트로서 추출한다.

단계(S330)에서 상기 추출된 자이언트 컴포넌트를 분석 범위로서 결정 한다.

종래 기술에서는 커뮤니티(클러스터)를 미리 결정하고 토픽을 추출하였으나, 이러한 종래 기술의 방법에 의해서는 정확한 토픽 추출이 어렵다. 그러나, 본원 발명의 실시예는 자이언트 컴포넌트 추출과 그래프 분석을 통해 더욱 정확한 토픽 추출을 가능하게 한다.

전술한 단계에서, 웨이티드 그래프 및 분석 대상 범위가 결정되면 웨이티드 그래프 분석 방법을 이용하여 분석을 수행한다.

단계(S410)에서는 가중치를 반영한 커뮤니티 추출 알고리즘을 자이언트 컴포넌트에 적용한다. 구체적으로, 상기 자이언트 컴포넌트에 적용될 커뮤니티 추출 알고리즘에 상기 에지 가중치를 반영한다. 여기서, 커뮤니티 추출 알고리즘은 에지-비트위니스(Edge-Betweenness)가 아닌 모듈성 값 Q를 이용하여 네트워크에서 커뮤니티를 검색한다.

본 발명의 일 실시예에서 사용되는 그래프 분석 방법을 설명하기에 앞서, 우선, Clauset-Newman 방식의 언웨이티드 그래프 커뮤니티 분석 알고리즘을 설명한다.

모듈성 값 Q는 커뮤니티들 내에 존재하는 에지 비율(커뮤니티 내 전체 에지 수를 네트워크 총 에지 수(m)로 나눈 값)을, 커뮤니티 내 모든 노드들의 에지를 무작위로 연결할 경우 커뮤니티 내에 존재하게 될 에지 비율로 뺀 값이다 따라서, Q 값이 크다는 것은 커뮤니티 내부의 에지(intra community edge)가 많고 커뮤니티들 사이의 에지(inter community edge)는 적다는 뜻이 되어 주어진 커뮤니티 설정의 적정성을 표현할 수 있다.

원래 Q 값은 Girvan-Newman 알고리즘의 계산 결과인 수목도(dendrogram)로부터 최적의 커뮤니티 추출을 위한 판단 지표로 사용되었으나 Mark Newman 의 후속 연구에서 에지-비트위니스를 사용하지 않고, 상기 Q 값을 활용한 Fast 알고리즘이 제안하면서 최근의 커뮤니티 추출 연구에서 핵심 역할을 하고 있다.

모듈성 Q값의 정의는 수학식 6과 정의될 수 있다.

언웨이티드 그래프 분석에 있어서, 수학식 6에서의 A_ij는 노드 i 와 j 사이에 에지가 있을 때 1, 없을 때 0이 된다. c_i 는 i 노드가 속한 커뮤니티를 나타낸다. k_i 는 i 노드의 총 에지 수를 의미하고 m 은 네트워크의 총 에지 수를 뜻한다. 수학식 6에서 ΔQ는 두 노드 i 와 j 가 한 커뮤니티가 되었을 때, Q 값의 변화를 표시한다.

이하 언웨이티드 그래프로부터 커뮤니티들을 추출하기 위한 알고리즘에 대해 순차적으로 설명한다.

1. 모든 노드들이 처음에는 자신들의 고유 커뮤니티 내 존재하게 한다. 즉, 네트워크 상의 총 노드 개수를 n 이라고 하면 커뮤니티의 수도 n 이 된다.

2. 모든 경우의 커뮤니티 쌍에 대해 ΔQ를 계산하여 서로 비교한 후, 가장 큰 값을 갖는 한 쌍의 커뮤니티를 새로운 단일 커뮤니티로 등록한다.

3.모든 노드들이 하나의 커뮤니티로 통합될 때까지 작업(2)을 반복 수행한다.

도 8은 모듈성 Q와 수목도(dendrogram)와의 관계를 도시한 도면이다.

전술한 작업 1, 2, 3에 의해 만들어진 수목도에서 Q 값이 최고가 되는 점선 부분에서 절단했을 때, 남는 클러스터들이 최적의 커뮤니티가 된다.

다시 도 7의 실시예로 돌아와서 설명하면, 단계(S410)에서 에지 가중치를 전술한 언웨이티드 그래프 분석 방법에 적용함으로써, 본 발명의 실시예를 위한 웨이티드 그래프 분석을 가능하게 한다.

상기 웨이티드 그래프 분석 방법은 앞서 설명한 언웨이티드 그래프 분석 방법과 같은 순서를 따르지만 A_ij는 노드 i 와 j 사이에 에지가 있을 때, 단지 1이 아니라 에지의 가중치 값을 갖게 되며, 없을 때는 0가 된다. 따라서 k_i 값은 i 노드가 갖고 있는 총 에지의 가중치 값을 더한 것이 될 것이다. 또한, m 은 네트워크 내 모든 에지 가중치의 총합이 된다.

전술한 웨이티드 그래프 분석 방법에 의해 단계(S420)에서는 Q 값을 산출하게 되고, 단계(S430)에서는 Q 값을 최대로 만드는 커뮤니티를 등록한다.

이상의 본 발명의 실시예에 따른 웨이티드 그래프 분석 방법에 의하면, Pentium-4 PC에서도 100만 노드의 웨이티드 그래프를 하루 정도 시간에 충분히 분 석할 수 있는 것이 확인되었다.

도 9는 본 발명의 실시예에 따른 토픽 추출 단계를 도시한 흐름도이다.

단계(S510)에서는 커뮤니티로 나눠진 타이틀들을 커뮤니티 내부에 연결된 가중치가 높은 순으로 타이틀을 정렬한다. 이렇게 내부 에지 가중치(inner edge weight)가 높은 순으로 타이틀을 정렬함으로써 커뮤니티에서 중심이 되는 타이틀을 한눈에 볼 수 있는 장점이 있다.

단계(S520)에서는 커뮤니티 내 타이틀 들의 명사 벡터들을 합산한다. 이와 같이 커뮤니티 내 모든 타이틀들의 명사 벡터를 합산함으로써 커뮤니티를 구성하는 주요 키워드(명사)가 무엇인지 확인할 수 있다.

단계(S530)에서는 내부 에지 가중치가 높은 상위 타이틀과 합산한 명사 벡터에서 가중치가 높은 상위 키워드(명사)를 선택함으로써 커뮤니티의 특징을 보다 쉽게 알아 볼 수 있는 주요 타이틀과 키워드를 추출한다. 예를 들어, 등록된 커뮤니티 내에서 "캐러비안의 해적"에 관한 타이틀만이 남은 경우(예를 들어, 캐러비안의 해적 이벤트, 캐러비안의 해적 망자의 함, 캐러비안 해적 블랙펄의 저주, 캐러비안 해적 동영상, 캐러비안 해적 인터뷰 등등), 명사의 순번에 따라 상기 정렬된 타이틀 내의 명사로부터 "캐러비안의 해적"이라는 토픽이 추출될 수 있다.

전술한 본 발명의 구성에 따라, 100만 노드 미만의 네트워크 분석이 Pentium-4 PC 한대로 24시간 내에 분석이 가능하였다. 또한, 기존의 타이틀간 내적보다 70배 정도의 빠른 계산을 제공하였고, 해상도 조절을 통해 한 타이틀 내 명 사들의 가중치를 조정함으로써 더욱 정교하고 세밀한 토픽이 추출될 수 있음이 확인 되었다.

이하의 표 4는 본 발명의 실시예에 따른 작업을 수행한 환경을 표시한 것이다

본 발명의 토픽 추출 시스템(100)은, 타이틀 명사 벡터 생성부(110), 타이틀간 가중치 산출부(120), 분석 범위 결정부(130), 웨이티드 그래프 분석부(140) 및 토픽 추출부(150)를 포함한다.

타이틀 명사 벡터 생성부(110)는 게시물 타이틀로부터 타이틀 명사 벡터를 생성한다. 타이틀 명사 벡터 생성부(110)는 게시물의 타이틀을 파일로서 저장하고, 상기 타이틀의 명사 분석을 통해 명사 리스트를 생성하여, 상기 명사 리스트에 기초한 기본 타이틀 명사 벡터를 생성한다. 또한, 상기 명사 출현의 빈도와 순번에 기초하여 각각의 명사에 대한 명사 가중치를 산출한다.

타이틀간 가중치 산출부(120)는 상기 타이틀 명사 벡터를 이용하여, 멀티 맵(multi map)의 형식의 자료 구조를 형성하여, 상기 명사를 기준으로 배열한 후, 타이틀간의 가중치를 산출한다. 상기 타이틀간의 가중치는 타이틀간 내적(cosine similarity)를 계산함으로써 산출될 수 있다.

분석 범위 결정부(130)는 연결 컴포넌트 중에서 분석의 대상이 되는 자이언트 컴포넌트를 결정한다.

웨이티드 그래프 분석부(140)는 타이틀을 노드로 한 네트워크로부터 웨이티드 그래프를 구축하고, 모듈성 Q 값을 이용하여 웨이티드 그래프 분석을 수행한다. 여기서, 에지 가중치는 타이틀간 가중치 산출부(120)가 산출한 타이틀간 가중치이다. 웨이티드 그래프 분석부(140)에 의한 분석에 의해 타이틀의 커뮤니티가 추출되고 등록된다.

토픽 추출부(150)는 상기 등록된 커뮤니티의 타이틀로부터 토픽을 추출한다. 더욱 구체적으로, 상기 등록된 커뮤니티의 타이틀을 명사 가중치에 따라 내림 차순으로 배열하고, 상기 명사의 일정 개수를 토픽으로서 추출한다.

이상 본 발명의 실시예에 따른 토픽 추출 시스템에 대해 설명하였으며, 각각의 구성요소가 수행하는 구체적인 동작은 도 2 내지 도 9에 관련된 실시예에서 이미 충분히 구체적으로 설명하였으므로, 반복적인 기재는 생략한다.

표 4에서 확인할 수 있듯이, 본 발명은 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.

본 발명의 방법 및 시스템은 특정 실시예와 관련하여 설명되었지만, 그것들의 구성 요소 또는 동작의 일부 또는 전부는 범용 하드웨어 아키텍쳐를 갖는 컴퓨터 시스템을 사용하여 구현될 수 있다.

일 실시예에서, 하드웨어 시스템(800)은 프로세서(810), 캐쉬(815), 메모리(815) 및 상술한 기능에 관련된 하나 이상의 소프트웨어 어플리케이션 및 드라이버를 포함한다.

추가적으로, 하드웨어 시스템(800)은 고성능 입/출력(I/O) 버스(840) 및 표준 I/O 버스(870)를 포함한다. 호스트 브릿지(820)는 프로세서(810)를 고성능 I/O 버스(840)에 결합시키고, I/O 버스 브릿지(850)는 두 개의 버스(840 및 870)를 상호 결합시킨다. 시스템 메모리(860) 및 네트워크/통신 인터페이스(830)는 고성능 I/O 버스(840)에 결합된다. 하드웨어 시스템(800)은 비디오 메모리(도시 생략) 및 그 비디오 메모리에 결합된 디스플레이 장치를 더 포함할 수 있다. 대용량 기억장치(830) 및 I/O 포트(890)는 표준 I/O 버스(870)에 결합된다. 하드웨어 시스템(800)은 키보드 및 포인팅 디바이스(pointing device), 그리고 표준 I/O 버스(870)에 결합된 디스플레이 장치(도시 생략)를 선택적으로 포함할 수 있다. 총괄적으로, 이러한 요소들은 넓은 범위의 컴퓨터 하드웨어 시스템을 표현하도록 의도되며, 캘리포니아주 산타 클라라의 인텔사에 의해 제조된 Pentium 프로세서뿐만 아니라 다른 적절한 프로세서에 기반하는 범용 컴퓨터 시스템을 포함하나 이에 제한되지는 않는다.

하드웨어 시스템(800)의 구성 요소들은 아래에서 더 상세하게 설명된다. 보다 구체적으로, 네트워크 인터페이스(830)는 하드웨어 시스템과 이더넷(예를 들어, IEEE 802.3) 네트워크 등과 같은 임의의 넓은 범위의 네트워크 사이의 통신을 제공한다. 본 발명의 토픽 추출 시스템의 경우, 네트워크 인터페이스(830)는 하드웨어 시스템(800)과 네트워크 사이를 접속하여 하드웨어 시스템(800)이 그것들의 데이터베이스들을 관리하도록 한다. 대용량 기억장치(830)는 데이터와 프로그래밍 명령을 위한 영구 기억장치를 제공하여 본 발명의 토픽 추출 시스템에서 구현되는 상술한 기능을 수행하고, 시스템 메모리(860)(예를 들어, DRAM)는 프로세서(810)에 의하여 수행될 때 데이터 및 프로그래밍 명령을 위한 임시 기억장치를 제공한다. I/O 포트(890)는 하드웨어 시스템(800)에 결합될 수 있는 추가적인 주변 장치 간의 통신을 제공하는 하나 이상의 직렬 및/또는 병렬 통신 포트이다.

하드웨어 시스템(800)은 다양한 종류의 시스템 아키텍쳐를 포함할 수 있고, 하드웨어 시스템(800)의 다양한 구성요소가 재배치될 수 있다. 예를 들어, 캐쉬(815)는 프로세서(810)에 내장될 수 있다. 선택적으로, 캐쉬(815) 및 프로세서(810)는 “프로세서 모듈”로써 함께 묶여질 수 있고, 이 때 프로세서(810)는 “프로세서 코어”로서 지칭될 수 있다. 또한, 본 발명의 특정한 실시예는 상술한 구성 요소의 전부를 요구하거나 포함하지 않을 수 있다. 예를 들어, 표준 I/O 버스(870)에 결합되는 것으로 도시된 주변 장치들은 고성능 I/O 버스(840)에 결합할 수 있다. 추가적으로, 임의의 실시예에서 단지 하나의 버스만 존재할 수 있고, 하드웨어 시스템(800)의 구성 요소들은 그 하나의 버스에 결합될 수 있다. 더욱이, 하드웨어 시스템(800)은 추가적인 프로세서, 기억 장치 또는 메모리와 같은 추가적인 구성요소를 포함할 수 있다. 이하에서 논의되는 것처럼, 일 실시예에서, 본 발명의 토픽 추출 시스템의 동작은 하드웨어 시스템(800)에 의해 구동되는 일련의 소프트웨어 루틴으로서 실시될 수 있다. 이러한 소프트웨어 루틴들은 프로세서(810)와 같은 하드웨어 시스템에서 프로세서에 의하여 실행될 수 있는 복수의 또는 일련의 명령들을 포함한다. 우선, 일련의 명령들은 대용량 기억 장치(830)와 같은 기억 장치에 저장된다. 그러나 일련의 명령들은 디스켓, CD-ROM, ROM, EEPROM 등과 같은 임의의 적절한 기억 매체에 저장될 수 있다. 더욱이, 일련의 명령들은 국소적으로 저장될 필요가 없고, 네트워크/통신 인터페이스(830)를 통하여 네트워크 상의 서버 등과 같은 원격 기억 장치로부터 수신될 수 있다. 그 명령들은 대용량 기억 장치(830)와 같은 기억 장치로부터 시스템 메모리(860)로 복사되고, 프로세서(810)에 의하여 액세스되고 실행된다.

운영 시스템은, 소프트웨어 어플리케이션(도시 생략)과의 데이터 입/출력을 포함하는 하드웨어 시스템(800)의 동작을 관리하고 제어한다. 운영 시스템은 시스템 상에서 실행되는 소프트웨어 어플리케이션과 시스템의 하드웨어 구성 요소 사이의 인터페이스를 제공한다. 본 발명의 일 실시예에 따른 운영 시스템은 마이크로소프트사의 Windows 95/98/NT/XP/VISTA 운영 시스템이다. 그러나, 본 발명은 애플 컴퓨터사의 애플 맥킨토시 운영 시스템, 유닉스(UNIX) 운영 시스템, 리눅스(LINUX) 운영 시스템 등과 같은 다른 적절한 운영 시스템에서도 사용될 수 있다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

전술한 본 발명의 일부 실시예의 구성에 의하면, 대량의 타이틀로부터 토픽을 추출함에 있어, 낮은 계산 복잡도와 빠른 처리 시간을 제공할 수 있는 효과가 있다.

또한, 본 발명의 일부 실시예는, 에지 가중치를 그래프 분석에 반영하여 정확도 높은 토픽을 추출하면서도, 상기 에지 가중치의 계산을 기존의 가중치 계산보다 훨씬 빠르게 수행할 수 있다.

또한, 본 발명의 일부 실시예는, 해상도의 조절을 통해 오퍼레이터에게 더 세밀한 토픽의 추출이 가능한 토픽 추출 방법 및 시스템을 제공할 수 있는 효과를 구비한다.

Claims

게시물 타이틀로부터 토픽을 추출하는 방법에 있어서:

a) 게시물 타이틀로부터 명사 가중치가 포함된 타이틀 명사 벡터를 생성하는 단계;

b) 상기 타이틀 명사 벡터를 이용하여, 멀티맵(multi map)의 형식의 자료 구조를 형성하고, 상기 명사를 기준으로 상기 타이틀과 명사 가중치를 정렬한 후, 동일 명사를 공유하는 타이틀 간 내적을 산출하는 단계;

c) 상기 산출된 타이틀 간 내적을 에지(edge) 가중치로서 이용하여, 상기 타이틀을 노드로 하는 웨이티드 그래프(weighted graph)를 구축하는 단계;

d) 상기 노드들 중 자이언트 컴포넌트를 추출하여 분석 범위를 결정하는 단계; 및

e) 상기 결정된 분석 범위에 대해 웨이티드 그래프 분석을 수행하여 커뮤니티를 등록하는 단계;

f) 상기 등록된 커뮤니티로부터 토픽을 추출하는 단계

를 포함하는 토픽 추출 방법.
제1항에 있어서,

상기 단계 b)는, 각각의 명사와 타이틀을 중복되지 않는 쌍이 되도록 매칭시키고, 상기 명사를 기준으로 정렬한 데이터 구조에서 각각의 타이틀이 공유하는 동일 명사의 가중치의 곱을 합산하는 것인 토픽 추출 방법.
제2항에 있어서,

상기 명사 가중치는, 하나의 타이틀 내에서 상기 명사가 등장하는 순번에 기초하여 결정되는 것인 토픽 추출 방법.
제3항에 있어서,

상기 단계 a)는,

타이틀 데이터베이스로부터 타이틀을 추출하여 파일에 저장하는 단계;

명사 분석기를 이용하여 타이틀로부터 명사를 추출하는 단계;

미리 정해진 횟수 이하로 등장하는 명사들로써 명사 리스트를 생성하는 단계;

타이틀 내 명사의 등장 순번과 관련된 해상도를 선택하는 단계; 및

상기 선택된 해상도를 기초로 하여 명사 가중치를 생성하는 단계를 포함하는 것인 토픽 추출 방법.
제1항에 있어서,

상기 단계 e)는, 상기 산출된 에지 가중치를 반영한 웨이티드 그래프에서의 모듈성(modularity) 값(Q)을 최대로 만드는 타이틀의 커뮤니티를 등록시키는 단계를 포함하는 토픽 추출 방법..
제5항에 있어서,

상기 단계 f)는,

커뮤니티 내 타이틀들을 내부 에지 가중치가 크기에 기초하여 순차적으로 정렬하는 단계;

커뮤니티 내 타이틀들의 명사 벡터들을 합산하는 단계;

상기 내부 에지 가중치가 미리 정해진 값 이상인 타이틀과 합산된 명사 벡터에서 가중치가 미리 정해진 값 이상인 명사들을 기초로 하여 토픽을 추출하는 단계를 포함하는 토픽 추출 방법.
제5항에 있어서,

상기 웨이티드 그래프 분석은, 노드로서 타이틀을 이용하고, 에지 가중치로서 타이틀 간 내적을 이용하는 것인 토픽 추출 방법.
게시물로부터 토픽을 자동적으로 추출하는 프로그램이 기록된 컴퓨터가 읽기 가능한 기록 매체에 있어서, 제1항 내지 제7항 중 어느 하나의 항에 기재된 단계를 수행하는 프로그램이 기록된 컴퓨터가 읽기 가능한 기록 매체.
게시물로부터 토픽을 추출하는 시스템에 있어서,

게시물의 타이틀을 파일로서 저장하고, 상기 타이틀의 명사 분석을 통해 명사 리스트를 생성하여, 상기 명사 리스트와 명사의 가중치를 기초하여 타이틀 명사 벡터를 생성하는 타이틀 명사 벡터 생성부;

상기 타이틀 명사 벡터를 이용하여, 멀티 맵(multi map)의 형식의 자료 구조를 형성하여, 상기 명사를 기준으로 상기 타이틀과 명사 가중치를 정렬한 후, 동일 명사를 공유하는 타이틀간의 내적을 계산함으로써 타이틀간 가중치를 산출하는 타이틀 간 가중치 산출부;

타이틀의 노드의 연결 컴포넌트 중에서 분석이 되는 자이언트 컴포넌트를 결정하여, 분석 범위를 결정하는 분석 범위 결정부;

상기 분석 범위에 대해 상기 타이틀간 가중치를 이용하여 웨이티드 그래프 분석을 수행함으로써 커뮤니티를 추출하는 웨이티드 그래프 분석부; 및

웨이티드 그래프 분석부로부터 추출된 커뮤니티로부터 토픽을 추출하는 토픽 추출부

를 포함하는 토픽 추출 시스템.
제9항에 있어서,

웨이티드 그래프 분석부는 모듈성 Q 값을 이용한 웨이티드 그래프 분석을 통해 상기 커뮤니티를 추출하는 것인 토픽 추출시스템.