KR20110035001A

KR20110035001A - 키워드 시각화 장치 및 그 방법

Info

Publication number: KR20110035001A
Application number: KR1020090092530A
Authority: KR
Inventors: 장인하
Original assignee: 장인하
Priority date: 2009-09-29
Filing date: 2009-09-29
Publication date: 2011-04-06

Abstract

본 발명은 키워드 시각화 장치 및 그 방법에 관한 것으로, 인터넷을 통해 획득한 데이터로부터 키워드를 추출하는 키워드 추출부; 키워드가 추출될 때마다 해당 키워드의 발생빈도 값을 상향시키는 빈도 분석부; 단일 데이터 내에서 다수의 키워드가 추출되면 추출된 각 키워드들간의 연관도 값을 상향시키는 연관도 분석부; 추출된 키워드들을 저장하되, 각 키워드들에 대한 발생빈도 값 및 각 키워드들간 연관도 값을 저장하는 정보 저장부; 및 상기 다수의 키워드, 키워드들의 발생빈도 값 및 키워드들간 연관도 값을 이용하여 다수의 노드 및 에지를 갖는 그래프가 화면상에 표시되도록 처리하되, 상기 그래프의 각 노드에는 키워드가 표시되며, 키워드의 발생빈도 값이 높은 노드의 크기가 크게 표시되고, 키워드의 발생빈도 값이 낮은 노드의 크기가 작게 표시되되, 에지에 의해 연결된 두 노드의 키워드들간 연관도 값이 높으면 상기 에지가 두껍게 표시되고, 연관도 값이 낮으면 상기 에지가 얇게 표시되도록 처리하는 시각화 처리부;를 구비하는 것을 특징으로 하며, 이러한 본 발명에 의하면 키워드의 발생빈도와 키워드들간 연관도의 변화추이를 직관적으로 이해할 수 있다는 효과가 있다.

키워드, 그래프, 노드, 에지

Description

키워드 시각화 장치 및 그 방법{APPARATUS AND METHOD OF VISUALIZING KEY-WORD}

본 발명은 웹 문서를 분석하여 키워드의 발생추이와 연관도를 분석하여 이를 시각적으로 표시하는 키워드 시각화 장치 및 그 방법에 관한 것이다.

웹 문서들이 생성되는 속도와 양은 시간이 경과함에 따라 산술급수적이 아닌 기하급수적으로 증가하고 있으며 이에 따라 인터넷이 보급되는 초기와 비교할 때 어떤 주제가 웹 상에서 많은 트래픽을 유발하는 주제인지, 또 어떤 추이로 변화하고 있는지, 그리고 어떤 주제들이 서로 관련성이 높은 주제들인지를 분류하고, 또 이들의 변화추이를 모니터링 하는 것은 매우 어렵고 전문적인 영역에 속하게 되었다.

그러나, 네티즌들은 어떠한 주제들이 인기를 얻고 있는지, 또 특정 주제와 관련하여 또 다른 어떤 주제들이 회자되고 있는지 알고자 하는 욕구가 있으며 이를 반영하여 일부 검색엔진들은 가장 많은 검색이 이루어지는 검색어를 순위를 메겨 웹 사이트 메인 페이지에 표시하는 등의 방식으로 대응하고 있다.

그럼에도 불구하고 이는 단순히 네티즌들이 해당 검색엔진을 통해 검색하는 검색어일 뿐이며, 수많은 웹 문서를 통해 도출되는 네티즌들의 관심사가 무엇인지를 정확하게 표시하지는 못한다.

뿐만 아니라, 웹 문서상에서 빈번하게 등장하는 이러한 키워드들간 어떠한 관련성이 있는지 또한 네티즌들에게 시각적으로 제공해주지 못하고 있다.

이에, 계속하여 생산되는 웹 문서들을 분석하여 어떠한 키워드들이 널리 회자되고 있는지, 여러 키워드들간 얼마나 높은 연관성을 가지는지를 시각적으로 표현하여 네티즌들에게 제공할 필요성이 대두되었다.

상기한 바와 같은 종래의 문제점을 해결하기 위해, 본 발명에서는 사용자가 키워드들의 발생빈도와 연관도를 직관적으로 이해할 수 있도록 하는 키워드 시각화 장치 및 그 방법을 제안하고자 한다.

본 발명의 다른 목적은 시간의 흐름에 따라서 키워드의 발생빈도와 연관도가 어떻게 변화하는지를 시각적으로 인지할 수 있도록 하는 키워드 시각화 장치 및 그 방법의 제공에 있다.

본 발명의 또 다른 목적들은 이하의 실시예에 대한 설명을 통해 이해될 수 있을 것이다.

상기와 같은 목적을 달성하기 위한 본 발명의 키워드 시각화 장치는 인터넷을 통해 획득한 데이터로부터 키워드를 추출하는 키워드 추출부;

키워드가 추출될 때마다 해당 키워드의 발생빈도 값을 상향시키는 빈도 분석부;

단일 데이터 내에서 다수의 키워드가 추출되면 추출된 각 키워드들간의 연관도 값을 상향시키는 연관도 분석부;

추출된 키워드들을 저장하되, 각 키워드들에 대한 발생빈도 값 및 각 키워드들간 연관도 값을 저장하는 정보 저장부; 및

상기 다수의 키워드, 키워드들의 발생빈도 값 및 키워드들간 연관도 값을 이용하여 다수의 노드 및 에지를 갖는 그래프가 화면상에 표시되도록 처리하되, 상기 그래프의 각 노드에는 키워드가 표시되며, 키워드의 발생빈도 값이 높은 노드의 크기가 크게 표시되고, 키워드의 발생빈도 값이 낮은 노드의 크기가 작게 표시되되, 에지에 의해 연결된 두 노드의 키워드들간 연관도 값이 높으면 상기 에지가 두껍게 표시되고, 연관도 값이 낮으면 상기 에지가 얇게 표시되도록 처리하는 시각화 처리부;를 구비하는 것을 특징으로 한다.

한편, 상기와 같은 목적을 달성하기 위한 본 발명의 키워드 시각화 방법은 인터넷상에서 획득된 데이터로부터 키워드를 추출하는 제 110 단계;

키워드가 추출될 때마다 해당 키워드의 발생빈도 값을 상향시키고, 동일 데이터로부터 추출된 다수의 키워드들간의 연관도 값을 상향하는 제 120 단계; 및

상기 추출된 다수의 키워드, 키워드들의 발생빈도 값 및 키워드들간 연관도 값을 이용하여 다수의 노드 및 에지를 갖는 그래프가 화면상에 표시되도록 처리하되, 상기 그래프의 각 노드에는 키워드가 표시되며, 키워드의 발생빈도 값이 높은 노드의 크기가 크게 표시되고, 키워드의 발생빈도 값이 낮은 노드의 크기가 작게 표시되되, 에지에 의해 연결된 두 노드의 키워드들간 연관도 값이 높으면 상기 에지가 두껍게 표시되고, 연관도 값이 낮으면 상기 에지가 얇게 표시되도록 처리하는 제 130 단계;를 포함하는 것을 특징으로 한다.

이러한 본 발명에 의하면 웹 상에서 어떤 키워드가 빈번하게 발생되는지, 어떤 키워드들이 높은 연관성을 가지는지를 시각적으로 이해할 수 있다는 효과가 있다.

뿐만 아니라, 이러한 본 발명에 의하면 키워드의 발생빈도와 연관도를 각각 노드와 에지로 표현하여 그래프의 형태로 화면에 표시함으로써 보다 직관적인 이해가 가능하도록 한다는 효과가 있다.

나아가, 슬라이드 바를 이용해 시간의 변화에 따라서 이러한 키워드 발생빈도 및 연관도가 어떻게 변화하는지를 통시적으로 확인할 수 있다는 효과가 있다.

이하에서는 첨부하는 도면을 참조하여 본 발명에 의한 키워드 시각화 장치의 구성을 상세히 살펴보기로 한다.

도 1은 본 발명에 의한 키워드 시각화 장치가 인터넷에 연결되는 형태를 설명하는 망구성도이며, 도 2는 본 발명에 의한 키워드 시각화 장치의 구성을 나타내는 기능블록도이다.

우선, 도 1에 의할 때 본 발명에 의한 키워드 시각화 장치는 서버(Server : 100)의 형태로 구현될 수 있으며, 서버(100)는 인터넷 망을 통해 웹 서버(Web Server : 300)와 연결되거나, 또는 인터넷 망을 통해 다수의 클라이언트(Client : 200)와 접속할 수 있다.

한편, 서버(100)는 비록 그 명칭을 서버라 표현하였으나, 인터넷(Internet)에 접속되어 후술하는 바와 같은 기능을 수행하는 것으로 족하며 반드시 특정한 제품군에 한정하는 것은 아니다.

웹 서버(300)는 서버(100)로부터 웹 문서(Web Document)를 넘겨받아 이를 웹(Web) 상에서 접속할 수 있도록 호스팅(Hosting)하며, 종래기술에 의한 웹 서버와 상이하지 아니하다.

클라이언트(200)는 인터넷망을 통해 서버(100) 또는 웹 서버(300)로 접속하여 정보를 수신하기 위한 것으로 개인용 컴퓨터, 랩탑(Laptop), UMPC(Ultra Mobile PC), 풀 브라우징(Full Browsing)을 지원하는 이동통신단말기 등의 형태로 구현될 수 있으며, 그 형태에 특별한 제한을 두지 아니한다.

도 2에 의하면, 본 발명에 의한 키워드 시각화 장치는 키워드 추출부(110), 빈도 분석부(120), 연관도 분석부(130), 정보 저장부(140) 및 시각화처리부(150)를 구비함을 알 수 있다.

키워드 추출부(110)는 인터넷을 통해 획득된 데이터 스트림을 분석하여 키워드를 추출한다. 이러한 키워드 추출부(110)가 분석하는 데이터 스트림은 웹 문서나 웹 문서에 포함된 리플, 웹 문서에 포함된 메타 태그(Meta Tag) 기타 인터넷을 통해 수집할 수 있는 다양한 형태의 데이터를 포함하며, 키워드 추출부(110)는 특히 그 가운데 텍스트(Text)를 분석해 키워드를 추출하게 된다.

도 3은 키워드 추출부(110)가 웹 문서로부터 키워드를 추출하는 과정을 예시적으로 도시하고 있는데, 이러한 도 3에 의할 때 키워드 추출부(110)는 웹 문서(1)를 분석하여 "아이팟 터치", "아이폰", "MP3 플레이어", "아이리버", "삼성전자", "옙"의 6개의 키워드를 추출하였다. 웹 문서(1)는 HTML(Hyper Text Markup Language) 규격에 의하여 작성된 문서인데, 도 3에 표시된 바와 같은 텍스트 이외에도 HTML 태그, 스크립트 등 다양한 구성요소를 포함한다.

키워드 추출부(110)는 이같이 웹 브라우저(Web Browser) 화면상에 표시되는 텍스트를 제외한 나머지 요소들은 분석에서 제외하고, 텍스트에 대해서만 분석하여 키워드를 추출하게 된다.

문장 속에서 체언(體言) 또는 명사(名詞)만을 추출하는 알고리즘들이 이미 다양하게 소개된 바 있으며, 한글이 아닌 영어의 경우 어미(語尾)가 결합되지 않으며 동사를 제외하고는 변형되지 않아 어휘가 수록된 사전 데이터와의 단순비교만으로 체언, 또는 명사만을 추출할 수 있다.

키워드 추출부(110)는 이와 같이 이미 알려진 몇가지의 알고리즘을 이용하여 일정한 기준에 의해 텍스트로부터 키워드를 추출할 수 있다. 일정한 기준이란 명사만을 키워드로 한다거나, 단일 문서 또는 단일 파일에 2회 이상 반복적으로 등장하는 단어를 키워드로 하는 등 적절하게 결정될 수 있다.

한편, 빈도 분석부(120)는 이와 같이 키워드 추출부(110)에 의하여 추출된 키워드들의 발생빈도를 분석한다. 빈도 분석부(120)가 분석하는 키워드의 발생빈도 는 동일한 웹 문서 등에 몇 차례나 등장하였는가가 될 수도 있으며, 또는 키워드 추출부(110)에 의하여 몇 번이나 키워드로 추출되었는가가 될 수도 있으나 결과적으로는 키워드가 다수의 웹 문서를 걸쳐 얼마나 높은 빈도로 등장하는가를 분석한다는 점에서 상이하지 아니하다.

예를 들어, 도 3의 예에서 "아이팟 터치"라는 키워드는 2회 등장하였으므로 빈도 분석부(120)는 "아이팟 터치"의 발생빈도인 "2"를 정보 저장부(140)에 저장할 수도 있으며, 또는 키워드 추출부(110)에 의하여 1차례 키워드로 추출되었으므로, 키워드로 추출된 빈도인 "1"을 정보 저장부(140)에 저장할 수도 있다.

이후, 키워드 추출부(110)가 다른 웹 문서 등을 분석하여 "아이팟 터치"가 키워드로 재차 추출되면, 해당 웹 문서에 "아이팟 터치"가 등장한 횟수 또는 키워드로 추출된 횟수(이 경우, "1")을 더하여 정보 저장부(140)에 저장된 키워드 "아이팟 터치"의 발생빈도를 갱신한다.

처음으로 추출된 키워드인 경우 정보 저장부(140)에 키워드 및 해당 키워드의 발생빈도 값이 저장되어 있지 않으므로, 새로 레코드를 추가하여 발생빈도 값을 "1"로 하여 저장할 수 있을 것이다.

한편, 연관도 분석부(130)는 단일 데이터 스트림 즉, 단일한 문서나 단일한 파일 등 인터넷 상에 존재, 배포되는 데이터의 최소단위 속에 키워드들이 얼마나 자주, 동시에 등장하는가를 분석한다.

즉, 도 3의 예에서는 "아이팟 터치, 아이폰, MP3 플레이어, 아이리버, 삼성 전자, 옙"과 같은 6개의 키워드가 추출되었으며, 따라서 이들 각각의 키워드들은 동일 웹 문서에 한차례 동시에 등장한 셈이다. 따라서, 연관도 분석부(130)는 키워드 "아이팟 터치"와 나머지 5개의 키워드인 "아이폰", "MP3 플레이어" 등과의 연관도 값을 "1"로 하여 정보 저장부(140)에 저장한다. 나머지 키워드들간의 연관도 값도 마찬가지이다.

이후, 키워드 추출부(110)가 다른 웹 문서를 분석하여 키워드를 추출한 결과 "아이팟 터치"와 "아이리버"가 동시에 추출되고, 도 3의 예에서 추출된 나머지 4개의 키워드들은 추출되지 않았다고 가정하면, 연관도 분석부(130)는 키워드 "아이팟 터치"와 "아이리버"의 연관도 값에 "1"을 더하여 정보 저장부(140)에 갱신한다.

이에 의하여 나머지 키워드들간의 연관도 값이 그대로인 반면, "아이팟 터치"와 "아이리버"의 연관도 값은 상향(上向)된다.

단일 데이터 스트림 내에서 동시에 둘 이상의 키워드가 발생할 경우 연관도 분석부(130)가 해당 키워드들간의 연관도 값을 "1"만큼 상향하는 것으로 설명하였으나, 도 3의 예에서와 같이 키워드 "아이리버"가 1회 등장할 때, "아이팟 터치"는 2회 등장하였으므로 이 둘을 곱하여 "2"만큼 상향하는 등 연관도 값을 계산하는 구체적인 알고리즘은 적절하게 결정할 수 있다.

정보 저장부(140)는 상기에서 설명한 바와 같이 키워드 추출부(110)에 의하여 추출된 키워드, 빈도 분석부(120)에 의해 계산된 키워드의 발생빈도 값, 연관도 분석부(130)에 의해 계산된 키워드들간의 연관도 값을 저장한다. 이러한 정보 저장 부(140)는 키워드와 발생빈도 값, 연관도 값을 데이터베이스(Data Base)의 형태로 저장할 수도 있겠으나, 데이터 구조의 특성상 그래프(Graph)의 형태로 저장함이 바람직하다.

그래프는 노드(Node)(정점(Vertex)이라고도 함.)와 두 노드를 잇는 에지(Edge)로 이루어지며, 노드의 집합(V)과 에지의 집합(E)의 순서쌍으로 정의(G=(V,E))되며, 수학용어인 동시에 데이터 구조로 표현된다. 에지에 방향성이 있느냐 여부에 따라서 유향 그래프(Directed Graph) 또는 무향 그래프(Undirected Graph)로 나뉜다.

한편, 두 노드 간 둘 이상의 에지가 연결되는 그래프를 다중 그래프(Multi Graph)라고 하는데, 이러한 에지의 다중성은 하나의 에지가 갖는 가중치(Weigh)로 볼 수도 있다.

키워드들간 연관도 값을 에지의 가중치로 갖는 그래프는 아래 표 1과 같이 표현될 수 있다.

[표 1]

표 1에 도시된 그래프는 각 노드마다 가중치를 가지고 있는데, 노드 "아이팟 터치"는 "8"이라는 값을, 노드 "MP3 플레이어"는 "5"라는 값을 가지며 이는 각 키워드들의 발생빈도에 해당한다.

한편, 노드 "아이팟 터치"와 "MP3 플레이어"는 3개의 에지가, 노드 "MP3 플레이어"와 "아이리버"는 2개의 에지가 연결되어 있는데 이는 노드간 연관도 값을 나타낸다.

이와 같은 그래프는 인접행렬(Adjacent Matrix) 또는 인접 다중 리스트(Adjacent Multilist)와 같은 데이터 구조에 의해 표현될 수 있다. (이와 같이 그래프를 표현하는 데이터 구조를 편의상 "그래프 데이터 구조"라 칭한다.)

한편, 시각화 처리부(150)는 상기에서 설명한 바와 같이 추출되고 계산된 키워드, 키워드의 발생빈도 값, 키워드들간 연관도 값을 이용하여 다수의 노드와 에지를 갖는 그래프로 시각화하여 화면상에 표시되도록 처리한다.

"화면상에 표시되도록 처리한다"는 표현은 서버(100)에 연결된 모니터 상 화면에 다수의 노드와 에지로 이루어지는 그래프를 직접 표시하는 이외에, 인터넷을 통해 접속한 클라이언트(200)의 화면상에 표시되도록 하는 것을 포함한다. (즉, 상기 표현에서 "화면"은 서버(100)의 모니터 화면에 국한되지 아니한다.)

이를 위하여 시각화 처리부(150)는 그래프를 웹 상에서 배포가 가능한 형태의 데이터(예를 들어, HTML, XML, WML 포맷의 웹 문서)로 만들어 웹 서버(300)로 하여금 호스팅하도록 함으로써 웹 서버(300)로 접속한 클라이언트(200)의 브라우저 상에 그래프가 표시되도록 처리할 수도 있으며,

또는, 인터넷을 통해 서버(100)로 접속한 클라이언트(200)로 상기 그래프를 화면상에 표시하기 위한 데이터(예를 들어, PDF, JPG나 TIFF 포맷의 이미지 파일 등)를 전송함으로써 이를 수신한 클라이언트(200)가 자신의 모니터에 표시하도록 처리할 수 있다.

서버(100)의 모니터에 직접 그래프를 표시할 경우 서버(100)의 관리자가, 웹 서버(300)에 올리거나 또는 직접 접속한 클라이언트(200)로 시각적으로 표현된 데 이터를 전송할 경우, 클라이언트(200)의 사용자가 시각에 의하여 인지하게 된다.

중요한 것은 시각화 처리부(150)가 키워드, 키워드의 발생빈도 값 및 키워드간 연관도 값을 상기 표 1과 같은 "그래프의 형태"로 표현하되, 키워드의 발생빈도와 연관도를 보다 직관적으로 인식할 수 있도록 각 노드에 "키워드"를 표시하며, 노드의 크기는 키워드의 발생빈도 값에, 에지의 굵기는 연관도 값에 비례하여 크고, 굵게 표시되도록 한다는 점이다.

도 4는 키워드가 그래프의 형태로 화면상에 시각화되어 표시되는 모습을 나타내는 화면예시도인데, 이에 의할 때 발생빈도 값이 큰 키워드인 "아이팟 터치"는 노드가 매우 크게 표시되어 있으며, 반대로 발생빈도 값이 작은 키워드인 "스핀"은 노드가 아주 작게 표시되어 있음을 확인할 수 있다.

또한, 연관도가 높은 "아이팟 터치"와 "MP3 플레이어"를 잇는 에지는 굵게, 반대로 연관도가 낮은 "아이팟 터치"와 "애플"은 가늘게 표시되어 있다.

한편, 도 4의 예에서는 노드를 원 모양으로 표시하되, 노드를 크게 표시하기 위해 원의 크기와 폰트를 크게하였으나, 시각화처리부(150)가 노드를 "크게 표시"하는 방식은 반드시 이에 국한되지는 아니하며 다른 방식으로도 사용자가 크게 인식할 수 있도록 표현할 수 있음은 물론이다.

또한, 도 4의 예에서는 에지를 굵게 표시하기 위하여 단순히 선의 굵기를 굵게 표시하였으나 반드시 이에 국한되지 아니하며 선의 굵기를 굵게 표시하되 색상을 바꾼다거나, 선의 종류를 바꿔 연관도가 높음을 더욱 명확히 인식하도록 할 수 도 있을 것이다.

이러한 시각화 처리부(150)는 키워드에 대한 발생빈도 값 또는 키워드들간 연관도 값이 갱신될 때마다 상기 그래프의 노드의 크기 또는 에지의 두께를 갱신함으로써 키워드 추출부(110), 빈도 분석부(120) 및 연관도 분석부(130)의 분석결과를 실시간으로 시각화하여 반영하게 된다.

실시간으로 반영된 그래프는 상기에서 설명한 바와 같은 과정을 거쳐 서버(100)의 모니터 화면 또는 클라이언트(200)의 모니터 화면상에 표시된다.

한편, 도 5는 슬라이드 바를 이용하여 시간순으로 그래프의 변화추이를 확인하는 모습을 나타내는 화면예시도이다. 이러한 도 5에 의하면 그래프의 변화추이 즉, 노드의 크기 변화와 에지의 굵기가 시간의 흐름에 따라서 어떻게 변화하는지를 확인할 수 있다.

도 5에 도시된 브라우저 화면 하단에는 시간 값을 나타내는 슬라이드 바(Slide Bar)가 표시되어 있는데, 도 5의 상단에 표시된 슬라이드 바에는 "2009년 7월 11일", 하단에 표시된 슬라이드 바에는 "2009년 8월 1일"이라 표시되어 있음을 알 수 있다.

즉, 도 5의 상단에 표시된 브라우저 화면은 2009년 7월 11일자로 갱신된 키워드 발생빈도 값 및 연관도 값을 이용하여 그래프를 표시한 것이며, 도 5의 하단에 표시된 브라우저 화면은 2009년 8월 1일자로 갱신된 키워드 발생빈도 값 및 연 관도 값을 이용하여 그래프를 표시한 것이다.

이와 같이 슬라이드 바를 움직여 시간 값(상기 예에서 "2009년 7월 11일" 또는 "2009년 8월 1일")을 변경함으로써 해당 시간 값에 해당하는 그래프의 모양을 확인할 수 있게 된다.

도 5에 의할 때, 2009년 7월 11일에서 2009년 8월 1일까지 키워드 "아이팟 터치"의 추출횟수가 많았으며, "아이팟 터치"와 "아이폰"의 연관도가 높아졌음을 직관적으로 이해할 수 있다.

이를 위하여 정보 저장부(140)는 다수의 키워드, 각 키워드에 대한 발생빈도 값 및 키워드들간 연관도 값을 시간 값에 따라 저장한다. 즉, 위의 예에서와 같이 2009년 7월 11일, 2009년 8월 1일과 같은 시간 값마다 대응하는 키워드, 각 키워드에 대한 발생빈도 값 및 키워드들간 연관도 값을 저장한다.

그리고, 시각화 처리부(150)는 슬라이드 바의 값이 변경될 때마다 상기 정보 저장부(140)로부터 슬라이드 바의 값에 대응하는 시간 값에 해당하는 키워드, 키워드들에 대한 발생빈도 값 및 키워드들간 연관도 값을 인출하여 이를 이용해 다수의 노드 및 에지를 갖는 그래프가 화면상에 표시되도록 처리한다.

한편, 상기에서는 도 5를 참조하여 좌우의 버튼을 클릭하거나 슬라이드하여 값을 변경할 수 있는 형태의 슬라이드 바를 예를 들어 설명하였으나, "슬라이드 바"는 반드시 HTML 표준 콤포넌트인 슬라이드 바의 형태에 국한되는 것이 아니며, 클릭 또는 슬라이드 방식으로 시간 값을 변경할 수 있는 GUI(Graphical User Interface) 요소라면 그 형태에 제한을 두지 아니한다.

이외에도, 상기 도 5의 예에서는 키워드의 추출 빈도 값과 연관도 값이 시간의 흐름에 따라서 계속 증가하는 것이 아니라 반대로 줄어들기도 함을 알 수 있다.

도 5의 예에서 2009년 7월 11일과 2009년 8월 1일을 비교하면, 키워드 "아이튠즈"가 새로 추가되었으며, 키워드 "앱스토어", "삼성전자"는 제거되었으며,

키워드 "아이팟 터치"와 "애플"의 연관도는 낮아졌음을 직관적으로 알 수 있다.

키워드의 발생빈도 값과 연관도 값은 필연적으로 통시적(通時的)으로 관찰되어야 하며, 일정시간이 경과하는 동안 얼마나 빈출(頻出)되었는가, 일정시간이 경과하는 동안 얼마나 높은 연관도를 보이고 있는가를 나타내도록 함이 바람직하다.

이를 위해 빈도 분석부(120)는 일정 시간의 경과시마다(예를 들어, 매 1주일 마다) 키워드의 발생빈도 값을 하향(下向)시키고, 연관도 분석부(130)는 일정 시간의 경과시마다 키워드들간 발생빈도 값을 하향시킨다.

도 5의 예에서 2009년 8월 1일 갱신된 그래프에 의할 때, 키워드 "앱스토어" 및 "삼성전자"는 일정기간 발생빈도 값이 "0"이 되어 삭제되었으며, 키워드 "아이튠즈"는 새롭게 추가되었음을 알 수 있다.

또한, 동기간 동안 키워드 "아이팟 터치"와 "애플"이 동일 데이터 스트림에서 동시에 발생되는 빈도가 낮아 점차 연관도 값이 낮아졌으며, 따라서 키워드 "아이팟 터치"와 "애플"을 잇는 에지의 굵기가 가늘어졌음을 알 수 있다.

한편, 이하에서는 첨부하는 도면을 참조하여 상기와 같은 구성을 갖는 키워드 시각화 장치에서 키워드가 분석되고, 그래프로 시각화되어 표시되는 과정을 시계열적으로 설명하기로 한다. 단, 상기에서 설명한 사항과 중복되는 내용에 관한 설명은 생략한다.

도 6은 본 발명에 의하여 키워드를 분석하여 시각화하는 과정을 설명하는 플로우차트이다.

우선, 서버(100)에 구현된 키워드 시각화 장치가 인터넷상에서 획득된 데이터로부터 키워드를 추출한다(S110).

이후, 키워드가 추출될 때마다 해당 키워드의 발생빈도 값을 상향시키고, 동일 데이터로부터 다수의 키워드들이 추출되면, 해당 키워드들간 연관도 값을 상향한다(S120). 바람직하게는 일정 기간의 경과시마다 발생빈도 값과 연관도 값을 하향(S121)함으로써 단위 시간마다 발생빈도 및 연관도의 변화추이가 적절하게 표시되도록 할 수 있다.

이후, 추출된 다수의 키워드, 키워드들의 발생빈도 값 및 키워드들간 연관도 값을 이용하여 다수의 노드 및 에지를 갖는 그래프가 화면상에 표시되도록 처리하되,

상기 그래프의 각 노드에는 키워드가 표시되며, 키워드의 발생빈도 값이 높은 노드의 크기가 크게 표시되고, 키워드의 발생빈도 값이 낮은 노드의 크기가 작게 표시되되, 에지에 의해 연결된 두 노드의 키워드들간 연관도 값이 높으면 상기 에지가 두껍게 표시되고, 연관도 값이 낮으면 상기 에지가 얇게 표시되도록 처리한다(S130).

이때, 그래프를 서버(100)의 모니터 화면상에 표시할 수 있음은 물론, HTML, XML 또는 WML 포맷 등의 데이터 포맷으로 저장하여 웹 서버(300)로 전송하여 호스팅하도록 함으로써 웹 서버(300)에 접속한 클라이언트(200)의 브라우저 화면상에 표시되도록 할 수도 있다.

뿐만 아니라, 인터넷 망을 통해 서버(100)에 직접 접속한 클라이언트(200)로 상기 그래프를 이미지 파일 등 화면에 표시가능한 데이터 포맷으로 저장하여 전송함으로써 클라이언트(200)의 모니터 화면에 표시되도록 할 수도 있다.

이에 의하여 서버(100) 또는 클라이언트(200)의 모니터 화면상에 도 4 및 도 5에 도시된 바와 같이 그래프가 표시된다.

이상 몇가지의 실시예를 들어 본 발명을 살펴보았으나 이러한 실시예는 예시의 목적을 위해 개시된 것이고, 본 발명에 대해 통상의 지식을 가진 당업자라면 본 발명의 사상과 범위 안에서 다양한 수정, 변경, 부가가 가능할 것임은 물론, 이는 하기의 특허청구범위를 벗어나지 아니하는 것으로 해석되어야 한다.

도 1은 본 발명에 의한 키워드 시각화 장치가 인터넷에 연결되는 형태를 설명하는 망구성도이며,

도 2는 본 발명에 의한 키워드 시각화 장치의 구성을 나타내는 기능블록도이며,

도 3은 웹 문서로부터 키워드를 추출하는 과정을 개념적으로 설명하는 참고도이며,

도 4는 다수의 노드 및 에지를 갖는 그래프가 화면상에 표시되는 모습을 나타내는 화면예시도이며,

도 5는 슬라이드 바를 이용하여 시간순으로 그래프의 변화추이를 확인하는 모습을 나타내는 화면예시도이며,

<도면의 주요부분에 대한 부호의 설명>

110 : 키워드 추출부 120 : 빈도 분석부

130 : 연관도 분석부 140 : 정보 저장부

150 : 시각화 처리부

Claims

인터넷을 통해 획득한 데이터로부터 키워드를 추출하는 키워드 추출부;

키워드가 추출될 때마다 해당 키워드의 발생빈도 값을 상향시키는 빈도 분석부;

단일 데이터 내에서 다수의 키워드가 추출되면 추출된 각 키워드들간의 연관도 값을 상향시키는 연관도 분석부; 및

추출된 키워드들을 저장하되, 각 키워드들에 대한 발생빈도 값 및 각 키워드들간 연관도 값을 저장하는 정보 저장부;를 구비하는 것을 특징으로 하는 키워드 시각화 장치.
제 1 항에 있어서,

상기 정보 저장부는 다수의 키워드, 키워드들의 발생빈도 값 및 키워드들간 연관도 값을 그래프 데이터 구조로 저장하되, 상기 그래프 데이터 구조의 노드는 키워드 및 상기 키워드에 대한 발생빈도 값을 가지며, 두 노드를 잇는 에지는 상기 두 노드의 키워드들간 연관도 값을 갖도록 저장하는 것을 특징으로 하는 키워드 시각화 장치.
제 1 항 또는 제 2 항에 있어서,

상기 다수의 키워드, 키워드들의 발생빈도 값 및 키워드들간 연관도 값을 이용하여 다수의 노드 및 에지를 갖는 그래프가 화면상에 표시되도록 처리하되,

상기 그래프의 각 노드에는 키워드가 표시되며, 키워드의 발생빈도 값이 높은 노드의 크기가 크게 표시되고, 키워드의 발생빈도 값이 낮은 노드의 크기가 작게 표시되되, 에지에 의해 연결된 두 노드의 키워드들간 연관도 값이 높으면 상기 에지가 두껍게 표시되고, 연관도 값이 낮으면 상기 에지가 얇게 표시되도록 처리하는 시각화 처리부;를 더 구비하는 것을 특징으로 하는 키워드 시각화 장치.
제 3 항에 있어서,

상기 시각화 처리부는 키워드에 대한 발생빈도 값 또는 키워드들간 연관도 값이 갱신될 때마다 상기 그래프의 노드의 크기 또는 에지의 두께를 갱신하는 것을 특징으로 하는 키워드 시각화 장치.
제 3 항에 있어서,

상기 시각화 처리부는 상기 그래프를 HTML, WML 또는 XML 포맷의 파일로 저장하여 웹 서버로 전송하는 것을 특징으로 하는 키워드 시각화 장치.
제 3 항에 있어서,

상기 시각화 처리부는 상기 그래프를 이미지 파일로 저장하여 인터넷을 통해 접속한 클라이언트로 전송하는 것을 특징으로 하는 키워드 시각화 장치.
제 3 항에 있어서,

상기 정보 저장부는 다수의 키워드, 각 키워드에 대한 발생빈도 값 및 키워드들간 연관도 값을 시간순으로 저장하며,

상기 시각화 처리부는 화면상에 슬라이드 바가 표시되도록 하되, 슬라이드 바의 값이 변경되면 상기 정보 저장부로부터 슬라이드 바의 값에 대응하는 시간 값에 해당하는 키워드, 키워드들에 대한 발생빈도 값 및 키워드들간 연관도 값을 인출하여 이를 이용해 다수의 노드 및 에지를 갖는 그래프가 화면상에 표시되도록 처리하는 것을 특징으로 하는 키워드 시각화 장치.
제 1 항에 있어서,

상기 빈도 분석부는 일정 기간의 경과시마다 키워드 발생빈도 값을 하향하고, 상기 연관도 분석부는 일정 기간의 경과시마다 키워드들간 연관도 값을 하향하는 것을 특징으로 하는 키워드 시각화 장치.
제 1 항에 있어서,

상기 데이터는 웹 문서, 웹 문서에 삽입된 리플 또는 웹 문서에 포함된 메타 태그인 것을 특징으로 하는 키워드 시각화 장치.
제 1 항에 있어서,

상기 키워드 추출부는 상기 데이터에 포함된 텍스트를 분석하되, 상기 텍스트에 포함된 체언 또는 명사를 키워드로 추출하는 것을 특징으로 하는 키워드 시각화 장치.
인터넷에 연결된 서버에서 행하여지는 방법에 있어서,

인터넷상에서 획득된 데이터로부터 키워드를 추출하는 제 110 단계; 및

키워드가 추출될 때마다 해당 키워드의 발생빈도 값을 상향시키고, 동일 데이터로부터 추출된 다수의 키워드들간의 연관도 값을 상향하는 제 120 단계;로 이루어지는 것을 특징으로 하는 키워드 시각화 방법.
제 11 항에 있어서,

상기 추출된 다수의 키워드, 키워드들의 발생빈도 값 및 키워드들간 연관도 값을 이용하여 다수의 노드 및 에지를 갖는 그래프가 화면상에 표시되도록 처리하되,

상기 그래프의 각 노드에는 키워드가 표시되며, 키워드의 발생빈도 값이 높은 노드의 크기가 크게 표시되고, 키워드의 발생빈도 값이 낮은 노드의 크기가 작게 표시되되, 에지에 의해 연결된 두 노드의 키워드들간 연관도 값이 높으면 상기 에지가 두껍게 표시되고, 연관도 값이 낮으면 상기 에지가 얇게 표시되도록 처리하는 제 130 단계;를 더 포함하는 것을 특징으로 하는 키워드 시각화 방법.
제 12 항에 있어서,

상기 제 130 단계에서, 상기 그래프를 HTML, WML 또는 XML 포맷의 파일로 저장하여 웹 서버로 전송하는 단계;를 더 포함하는 것을 특징으로 하는 키워드 시각화 방법.
제 12 항에 있어서,

상기 제 130 단계에서, 상기 그래프를 이미지 파일로 저장하여 인터넷을 통해 접속한 클라이언트로 전송하는 단계;를 더 포함하는 것을 특징으로 하는 키워드 시각화 방법.
제 12 항에 있어서,

상기 제 120 단계 이후에 일정 기간의 경과시마다 키워드 발생빈도 값 및 키워드들간 연관도 값을 하향하는 제 121 단계;를 더 포함하는 것을 특징으로 하는 키워드 시각화 방법.