KR101638535B1

KR101638535B1 - 사용자 검색어 연관 이슈패턴 검출 방법, 이를 수행하는 이슈패턴 검출 서버 및 이를 저장하는 기록매체

Info

Publication number: KR101638535B1
Application number: KR1020140170275A
Authority: KR
Inventors: 윤은일; 양흥모; 이강인; 김동규
Original assignee: 세종대학교 산학협력단
Priority date: 2014-12-02
Filing date: 2014-12-02
Publication date: 2016-07-11
Also published as: KR20160066216A

Abstract

본 발명은 사용자 검색어 연관 이슈패턴 검출 방법에 관한 것으로, (a) 웹 문서에 대한 형태소 분석을 통해 키워드 집합을 생성하여 키워드 리스트 및 키워드 패턴 트리를 생성하는 단계, (b) 사용자 검색어가 입력되면 상기 사용자 검색어에 포함된 적어도 하나의 검색 키워드를 기초로 검색어 키워드 집합을 생성하는 단계 및 (c) 상기 키워드 리스트 및 상기 키워드 패턴 트리를 기초로 상기 검색어 키워드 집합에 포함된 검색 키워드와 연관된 키워드 경로를 검출하여 이슈패턴을 제공하는 단계를 포함 한다. 따라서 사용자 검색어 입력시 검색어와 연관된 이슈패턴을 실시간으로 추출하여 제공할 수 있다.

Description

사용자 검색어 연관 이슈패턴 검출 방법, 이를 수행하는 이슈패턴 검출 서버 및 이를 저장하는 기록매체{METHOD OF DETECTING ISSUE PATTEN ASSOCIATED WITH USER SEARCH WORD, SERVER PERFORMING THE SAME AND STORAGE MEDIUM STORING THE SAME}

본 발명은 사용자 검색어 연관 이슈패턴 검출 기술에 관한 것으로, 보다 상세하게는, 사용자 검색어 입력시 검색어와 연관된 이슈패턴을 실시간으로 추출하여 제공할 수 있는 사용자 검색어 연관 이슈패턴 검출 방법, 이를 수행하는 이슈패턴 검출 서버 및 이를 저장하는 기록매체에 관한 것이다.

일반적으로, 웹 페이지 분석 기술은 웹 상에 기재된 웹 페이지들 중에서 사용자가 검출하고자 하는 키워드와 관련성이 높은 연관 키워드를 포함하는 웹 페이지를 검출(즉, 데이터 마이닝)하여 웹 페이지 목록 및 연관 검색어를 사용자에게 제공한다. 즉, 사용자는 자신이 입력한 키워드에 대한 결과를 보고, 검출하고자 하는 특정 웹 페이지가 검출되지 않는 경우에는 제공된 연관 검색어 중 하나를 선택하여 웹 페이지 검색을 다시 수행할 수 있다.

한국등록특허 제10-1060594호는 블로그의 제목, 태그, 본문으로부터 후보 이슈 키워드들을 추출하고 각 후보 키워드에 대하여 빈도수, 발생 태그별 정보 및 가중치를 계산하여 이슈 키워드들을 결정하는 문서 데이터의 키워드 추출 및 연관어 네트워크 구성 장치 및 방법을 개시한다. 이러한 기술은 특정 기간에 수집된 블로그 문서 집합에 대해서 사용자가 모든 문서를 탐색해 보지 않더라도 자주 쓰인 이슈 키워드의 순위와 이와 연관된 키워드를 시각적으로 쉽게 접근할 수 있다.

한국등록특허 제10-1444832호는 인터넷 정보검색 시스템에서 주제별로 서비스를 제공하기 위하여 수집된 웹 페이지를 주제에 맞는 페이지로 분류하는데 연관 규칙 마이닝을 사용하여 정확하고 효율적인 선별하기 위한 연관 규칙 마이닝을 이용한 주제어 기반 인터넷 정보 검색 방법을 개시한다. 이러한 기술은 사용자가 보편적으로 관심 있는 주제를 큰 부류로 나누어 따로 검색 서비스를 제공한다면 사용자가 원하는 부분에 대한 검색 결과를 제공 할 수 있어 많은 페이지들을 탐색하지 않고도 원하는 정보를 쉽게 찾을 수 있다.

한국등록특허 제10-0676045호는 사용자의 관심사에 관련된 이슈 데이터를 추출하여 제공하는 방법을 개시한다. 이러한 기술은 사용자 검색어의 입력 빈도수 그리고 해당 검색어를 포함하는 웹문서 내에서 빈발하게 발생하는 키워드 집합을 기반으로 관심사 리스트를 만들고 그 결과를 제공하여 사용자가 일일이 자신의 개인 정보를 설정하지 않고도 개인의 관심사를 반영한 개인화된 이슈 정보를 제공받을 수 있다.

한국등록특허 제10-1060594호 한국등록특허 제10-1444832호 한국등록특허 제10-0676045호

본 발명의 일 실시예는 사용자 검색어 입력시 검색어와 연관된 이슈패턴을 실시간으로 추출하여 제공할 수 있는 사용자 검색어 연관 이슈패턴 검출 방법을 제공하고자 한다.

본 발명의 일 실시예는 실시간으로 수집된 웹 문서를 패턴 형태로 변환하여 트리 구조에 반영하고 사용자가 입력한 검색어를 패턴 형태로 변환하여 패턴 기반의 이슈정보를 검출할 수 있는 사용자 검색어 연관 이슈패턴 검출 방법을 제공하고자 한다.

본 발명의 일 실시예는 실시간으로 특정 기간 동안의 웹 문서를 수집하여 이슈패턴 검출을 위한 트리 구조를 업데이트할 수 있는 사용자 검색어 연관 이슈패턴 검출 방법을 제공하고자 한다.

실시예들 중에서, 사용자 검색어 연관 이슈패턴 검출 방법은 (a) 웹 문서에 대한 형태소 분석을 통해 키워드 집합을 생성하여 키워드 리스트 및 키워드 패턴 트리를 생성하는 단계, (b) 사용자 검색어가 입력되면 상기 사용자 검색어에 포함된 적어도 하나의 검색 키워드를 기초로 검색어 키워드 집합을 생성하는 단계 및 (c) 상기 키워드 리스트 및 상기 키워드 패턴 트리를 기초로 상기 검색어 키워드 집합에 포함된 검색 키워드와 연관된 키워드 경로를 검출하여 이슈패턴을 제공하는 단계를 포함한다.

일 실시예에서, 상기 (a) 단계는 상기 키워드 집합에 포함된 적어도 하나의 키워드 각각에 대한 키워드 식별자 부여 여부를 체크하는 단계를 포함할 수 있다. 상기 (a) 단계는 상기 키워드 식별자가 부여되지 않았으면 키워드 식별자를 부여하고 상기 적어도 하나의 키워드를 상기 키워드 식별자 기준으로 정렬하여 상기 키워드 패턴 트리에 삽입하는 단계를 포함할 수 있다.

상기 (a) 단계는 상기 키워드 리스트에 포함된 적어도 하나의 키워드 및 상기 키워드 패턴 트리에 포함된 적어도 하나의 키워드를 링크로 연결하는 단계를 포함할 수 있다.

상기 키워드 리스트는 상기 키워드 집합에 포함된 적어도 하나의 키워드 및 링크를 포함할 수 있다. 상기 키워드 패턴 트리는 상기 적어도 하나의 키워드, 키워드 식별자, 빈도수, 부모 노드에 대한 포인터, 자식 노드에 대한 포인터 및 다른 키워드 경로에 있는 노드를 연결하는 노드 링크를 포함할 수 있다.

일 실시예에서, 상기 (b) 단계는 상기 적어도 하나의 검색 키워드 중 키워드 식별자가 부여된 검색 키워드를 키워드 식별자 기준으로 정렬하여 상기 검색어 키워드 집합을 생성하는 단계를 포함할 수 있다.

일 실시예에서, 상기 (c) 단계는 상기 키워드 패턴 트리에서 제1 검색 키워드에 대응하는 노드부터 루트 노드까지를 제1 키워드 경로로 검출하는 단계를 포함할 수 있다. 상기 (c) 단계는 상기 제1 검색 키워드를 제외한 나머지 검색 키워드에 대한 키워드 경로 및 이슈패턴을 결정하여 상기 이슈패턴을 상기 이슈패턴에 대한 빈도수 기준으로 정렬하는 단계를 포함할 수 있다.

상기 (c) 단계는 상기 제1 검색 키워드에 대한 빈도수와 이슈패턴 기준 빈도수를 비교하여 상기 제1 키워드 경로에 대한 유효성을 결정하는 단계를 포함할 수 있다.

상기 (c) 단계는 상기 제1 키워드 경로가 유효한 것으로 결정되면 상기 제1 키워드 경로에 포함된 적어도 하나의 키워드를 제1 이슈패턴으로 저장하는 단계를 포함할 수 있다.

상기 (c) 단계는 상기 적어도 하나의 검색 키워드 각각과 연관된 유효한 키워드 경로가 검출되지 않으면 상기 이슈패턴 기준 빈도수를 감소하여 상기 키워드 경로를 재검출하는 단계를 포함할 수 있다.

실시예들 중에서, 사용자 검색어 연관 이슈패턴 검출 서버는 웹 문서에 대한 형태소 분석을 통해 키워드 집합을 생성하여 키워드 리스트 및 키워드 패턴 트리를 생성하는 웹 문서 변환부, 사용자 검색어가 입력되면 상기 사용자 검색어에 포함된 적어도 하나의 검색 키워드를 기초로 검색어 키워드 집합을 생성하는 검색어 키워드 집합 생성부 및 상기 키워드 리스트 및 상기 키워드 패턴 트리를 기초로 상기 검색어 키워드 집합에 포함된 검색 키워드와 연관된 키워드 경로를 검출하여 이슈패턴을 제공하는 이슈패턴 제공부를 포함한다.

실시예들 중에서, 사용자 검색어 연관 이슈패턴 검출 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체는 웹 문서에 대한 형태소 분석을 통해 키워드 집합을 생성하여 키워드 리스트 및 키워드 패턴 트리를 생성하는 기능, 사용자 검색어가 입력되면 상기 사용자 검색어에 포함된 적어도 하나의 검색 키워드를 기초로 검색어 키워드 집합을 생성하는 기능 및 상기 키워드 리스트 및 상기 키워드 패턴 트리를 기초로 상기 검색어 키워드 집합에 포함된 검색 키워드와 연관된 키워드 경로를 검출하여 이슈패턴을 제공하는 기능을 포함한다.

본 발명의 일 실시예에 따른 사용자 검색어 연관 이슈패턴 검출 방법은 사용자 검색어 입력시 검색어와 연관된 이슈패턴을 실시간으로 추출하여 제공할 수 있다.

본 발명의 일 실시예에 따른 사용자 검색어 연관 이슈패턴 검출 방법은 실시간으로 수집된 웹 문서를 패턴 형태로 변환하여 트리 구조에 반영하고 사용자가 입력한 검색어를 패턴 형태로 변환하여 패턴 기반의 이슈정보를 검출할 수 있다.

본 발명의 일 실시예에 따른 사용자 검색어 연관 이슈패턴 검출 방법은 실시간으로 특정 기간 동안의 웹 문서를 수집하여 이슈패턴 검출을 위한 트리 구조를 업데이트할 수 있다.

도 1은 본 발명의 일 실시예에 따른 사용자 검색어 연관 이슈패턴 검출 시스템을 설명하는 블록도이다.
도 2는 도 1에 있는 사용자 검색어 연관 이슈패턴 검출 서버를 설명하는 블록도이다.
도 3은 도 1에 있는 사용자 검색어 연관 이슈패턴 검출 서버에서 수행되는 사용자 검색어 연관 이슈패턴 검출 과정을 설명하는 순서도이다.
도 4는 도 1에 있는 사용자 검색어 연관 이슈패턴 검출 서버에서 생성하는 키워드 리스트 및 키워드 패턴 트리를 예시하는 도면이다.
도 5는 도 1에 있는 사용자 검색어 연관 이슈패턴 검출 서버에서 수행되는 웹 문서를 수집하여 키워드 패턴 트리에 키워드를 삽입하는 과정을 설명하는 순서도이다.
도 6은 도 1에 있는 사용자 검색어 연관 이슈패턴 검출 서버에서 수행되는 사용자 검색어를 수신하여 검색어 키워드 집합을 생성하는 과정을 설명하는 순서도이다.
도 7은 도 1에 있는 사용자 검색어 연관 이슈패턴 검출 서버에서 수행되는 검색어 키워드와 연관된 이슈패턴을 추출하는 과정을 설명하는 순서도이다.

본 발명에 관한 설명은 구조적 내지 기능적 설명을 위한 실시예에 불과하므로, 본 발명의 권리범위는 본문에 설명된 실시예에 의하여 제한되는 것으로 해석되어서는 아니 된다. 즉, 실시예는 다양한 변경이 가능하고 여러 가지 형태를 가질 수 있으므로 본 발명의 권리범위는 기술적 사상을 실현할 수 있는 균등물들을 포함하는 것으로 이해되어야 한다. 또한, 본 발명에서 제시된 목적 또는 효과는 특정 실시예가 이를 전부 포함하여야 한다거나 그러한 효과만을 포함하여야 한다는 의미는 아니므로, 본 발명의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.

한편, 본 출원에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.

"제1", "제2" 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위한 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어"있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결될 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어"있다고 언급된 때에는 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 한편, 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함하다"또는 "가지다" 등의 용어는 실시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

각 단계들에 있어 식별부호(예를 들어, a, b, c 등)는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 단계들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.

본 발명은 컴퓨터가 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수 있고, 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있으며, 또한, 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

여기서 사용되는 모든 용어들은 다르게 정의되지 않는 한, 본 발명이 속하는 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한 이상적이거나 과도하게 형식적인 의미를 지니는 것으로 해석될 수 없다.

도 1은 본 발명의 일 실시예에 따른 사용자 검색어 연관 이슈패턴 검출 시스템을 설명하는 블록도이다.

도 1을 참조하면, 사용자 검색어 연관 이슈패턴 검출 시스템(100)은 사용자 단말(110) 및 사용자 검색어 연관 이슈패턴 검출 서버(120)를 포함한다.

사용자 단말(110)은 사용자 검색어 연관 이슈패턴 검출 서버(120)와 연결되어 사용자 검색어 연관 이슈패턴 검출 과정을 수행하기 위한 사용자 검색어를 입력할 수 있는 컴퓨팅 장치에 해당할 수 있다. 사용자 단말(110)은 사용자 검색어 연관 이슈패턴 검출 서버(120)로부터 사용자 검색어에 대응하는 이슈패턴을 수신할 수 있다. 예를 들어, 사용자 단말(110)은 데스크톱(Desktop), 노트북(Laptop), 스마트 폰(Smart phone) 또는 태블릿 PC(Tablet Personal Computer)에 해당할 수 있다.

사용자 검색어 연관 이슈패턴 검출 서버(120)는 사용자 단말(110)과 연결되어 특정 작업을 실행할 수 있는 소프트웨어에 해당할 수 있다. 사용자 검색어 연관 이슈패턴 검출 서버(120)는 실시간으로 웹 문서를 수집하여 특정 패턴 형태로 변환한 후 트리 구조에 적용하고 사용자 검색어에 포함된 검색 키워드와 연관된 이슈패턴을 트리 구조로부터 검출하여 사용자 단말(110)에 제공할 수 있다. 일 실시예에서, 사용자 검색어 연관 이슈패턴 검출 서버(120)는 특정 기간 동안 수집된 웹 문서를 저장하는 데이터베이스와 연결될 수 있다. 이하, 사용자 검색어 연관 이슈패턴 검출 서버(120)에 대한 상세한 설명은 도 2에서 설명한다.

도 2는 도 1에 있는 사용자 검색어 연관 이슈패턴 검출 서버를 설명하는 블록도이다.

도 2를 참조하면, 사용자 검색어 연관 이슈패턴 검출 서버(120)는 웹 문서 변환부(210), 검색어 키워드 집합 생성부(220), 이슈패턴 제공부(230) 및 제어부(240)를 포함한다.

웹 문서 변환부(210)는 웹 문서에 대한 형태소 분석을 통해 키워드 집합을 생성하여 키워드 리스트 및 키워드 패턴 트리를 생성한다. 웹 문서는 웹 로봇을 통해 특정 기간 동안 웹을 탐색하여 검출한 문서에 해당한다. 형태소는 의미를 가지는 가장 작은 말의 단위로서, 형태소 분석은 주어진 언어 문장에서 구조를 파악하고 문장 분할, 분석, 추출 또는 원형 복원을 거쳐 의미를 가지는 최소 단위인 형태소를 추출하는 것을 의미한다. 키워드 집합은 형태소 분석을 통해 추출된 적어도 하나의 키워드를 포함하는 집합에 해당하고 키워드와 키워드 식별자를 하나의 쌍으로 포함한다. 웹 문서 변환부(210)는 키워드 리스트에 포함된 적어도 하나의 키워드 및 키워드 패턴 트리에 포함된 적어도 하나의 키워드를 키워드 리스트에 있는 링크로 연결할 수 있다. 이하, 키워드 리스트 및 키워드 패턴 트리는 도 4에서 상세하게 설명한다.

웹 문서 변환부(210)는 키워드 집합에 포함된 적어도 하나의 키워드 각각에 대한 키워드 식별자 부여 여부를 체크할 수 있다. 키워드 식별자는 적어도 하나의 키워드 각각을 식별할 수 있는 아이디에 해당한다. 웹 문서 변환부(210)는 적어도 하나의 키워드 중 일부에 키워드 식별자가 부여되지 않았으면 일부 키워드 각각에 키워드 식별자를 부여할 수 있다. 웹 문서 변환부(210)는 키워드 집합에 포함된 적어도 하나의 키워드 모두 키워드 식별자가 부여되면 적어도 하나의 키워드를 키워드 식별자 기준으로 정렬하여 키워드 패턴 트리에 순차적으로 삽입할 수 있다. 적어도 하나의 키워드는 키워드 식별자 기준 오름차순으로 정렬될 수 있다. 예를 들어, 적어도 하나의 키워드는 {'Alpha'}의 키워드 식별자가 1, {'Bravo'}의 키워드 식별자가 2, {'Charlie'}의 키워드 식별자가 3, {'Delta'}의 키워드 식별자가 4, {'Echo'}의 키워드 식별자가 5에 해당하면, {'Alpha', 'Bravo', 'Charlie', 'Delta', 'Echo'}로 정렬될 수 있다.

검색어 키워드 집합 생성부(220)는 사용자 검색어가 입력되면 사용자 검색어에 포함된 적어도 하나의 검색 키워드를 기초로 검색어 키워드 집합을 생성한다. 사용자 검색어는 사용자 단말(110)을 통해 사용자가 입력하는 적어도 하나의 형태소의 조합에 해당한다. 검색어 키워드 집합 생성부(220)는 형태소 분석을 통해 적어도 하나의 검색 키워드를 추출할 수 있다. 검색어 키워드 집합은 형태소 분석을 통해 추출된 적어도 하나의 검색 키워드를 포함하는 집합에 해당하고 검색 키워드와 키워드 식별자를 하나의 쌍으로 포함한다.

검색어 키워드 집합 생성부(220)는 적어도 하나의 검색 키워드 중 키워드 식별자가 부여되지 않은 검색 키워드를 삭제하고 키워드 식별자가 부여된 검색 키워드를 키워드 식별자 기준으로 정렬하여 검색어 키워드 집합을 생성할 수 있다. 적어도 하나의 검색 키워드는 키워드 식별자 기준 오름차순으로 정렬될 수 있다.

이슈패턴 제공부(230)는 키워드 리스트 및 키워드 패턴 트리를 기초로 검색어 키워드 집합에 포함된 검색 키워드와 연관된 키워드 경로를 검출하여 이슈패턴을 제공한다. 키워드 경로는 키워드 패턴 트리 상에 있는 제1 노드에서부터 제2 노드까지의 노드들을 포함할 수 있다. 이슈패턴은 실시간으로 수집된 웹 문서에서 자주 기재된 적어도 하나의 키워드를 포함하는 키워드 집합에 해당한다. 예를 들어, 이슈패턴은 검색 키워드 집합 {'축구', '월드컵', 'FIFA'}이 실시간으로 수집된 웹 문서에서 자주 기재되면 {'축구', '월드컵', 'FIFA'}을 포함할 수 있다. 또한, 이슈패턴은 검색 키워드 집합의 검색 키워드 {'축구'}와 함께 자주 기재된 키워드 집합으로서 {'월드컵', 'FIFA'}을 포함할 수 있다.

이슈패턴 제공부(230)는 키워드 패턴 트리에서 검색 키워드 집합에 있는 제1 검색 키워드에 대응하는 노드부터 루트 노드까지를 제1 키워드 경로로 검출할 수 있다. 이슈패턴 제공부(230)는 제1 검색 키워드를 제외한 나머지 검색 키워드 각각에 대응하는 노드부터 루트 노드까지를 포함하는 키워드 경로를 검출할 수 있다. 일 실시예에서, 키워드 경로에 포함된 적어도 하나의 노드들에 대한 빈도수는 검색 키워드와 연관된 노드(즉, 처음으로 검출된 노드)의 빈도수와 동일하게 적용될 수 있다.

이슈패턴 제공부(230)는 키워드 패턴 트리에서 검색 키워드 집합에 있는 모든 검색 키워드에 대한 키워드 경로를 검출하면 각각의 검색 키워드에 대한 빈도수와 이슈패턴 기준 빈도수(1 이상의 자연수에 해당함)를 비교하여 해당 키워드 경로에 대한 유효성을 결정할 수 있다. 예를 들어, 이슈패턴 제공부(230)는 제1 검색 키워드에 대한 빈도수와 이슈패턴 기준 빈도수를 비교하여 제1 키워드 경로에 대한 유효성을 결정할 수 있다. 이슈패턴 기준 빈도수는 이슈패턴과 연관율이 높은 키워드 경로를 결정할 수 있는 적절한 기준 수치를 결정하기 위한 별도의 테스팅 작업을 통해 사용자에 의해 결정될 수 있다.

이슈패턴 제공부(230)는 키워드 경로가 유효한 것으로 결정되면 키워드 경로에 포함된 적어도 하나의 키워드를 이슈패턴으로 저장할 수 있다. 예를 들어, 이슈패턴 제공부(230)는 제1 키워드 경로가 유효한 것으로 결정되면 제1 키워드 경로에 포함된 적어도 하나의 키워드를 제1 이슈패턴으로 저장할 수 있다. 이슈패턴 제공부(230)는 키워드 경로가 유효하지 않은 것으로 결정되면 키워드 경로를 삭제하고 다음 키워드 경로에 대한 유효성을 체크할 수 있다.

일 실시예에서, 이슈패턴 제공부(230)는 적어도 하나의 검색 키워드 각각과 연관된 유효한 키워드 경로가 검출되지 않으면 이슈패턴 기준 빈도수를 감소하여 키워드 경로를 재검출할 수 있다. 예를 들어, 이슈패턴 기준 빈도수는 1씩 감소될 수 있다.

이슈패턴 제공부(230)는 검색 키워드 집합에 있는 적어도 하나의 검색 키워드에 대한 이슈패턴을 결정하여 이슈패턴을 이슈패턴에 대한 빈도수 기준으로 정렬하고 사용자에게 제공할 수 있다.

제어부(240)는 사용자 검색어 연관 이슈패턴 검출 서버(120)의 전체적인 동작을 제어하고, 웹 문서 변환부(210), 검색어 키워드 집합 생성부(220) 및 이슈패턴 제공부(230) 간의 동작 및 데이터 흐름을 제어할 수 있다.

도 3은 도 1에 있는 사용자 검색어 연관 이슈패턴 검출 서버에서 수행되는 사용자 검색어 연관 이슈패턴 검출 과정을 설명하는 순서도이다.

도 3을 참조하면, 웹 문서 변환부(210)는 웹 문서에 대한 형태소 분석을 통해 키워드 집합을 생성하여 키워드 리스트 및 키워드 패턴 트리를 생성한다(단계 S301).

웹 문서 변환부(210)는 키워드 집합에 포함된 적어도 하나의 키워드 각각에 대한 키워드 식별자 부여 여부를 체크할 수 있다. 웹 문서 변환부(210)는 적어도 하나의 키워드 중 일부에 키워드 식별자가 부여되지 않았으면 일부 키워드 각각에 키워드 식별자를 부여할 수 있다.

검색어 키워드 집합 생성부(220)는 사용자 검색어가 입력되면 사용자 검색어에 포함된 적어도 하나의 검색 키워드를 기초로 검색어 키워드 집합을 생성한다(단계 S302).

검색어 키워드 집합 생성부(220)는 적어도 하나의 검색 키워드 중 키워드 식별자가 부여되지 않은 검색 키워드를 삭제하고 키워드 식별자가 부여된 검색 키워드를 키워드 식별자 기준으로 정렬하여 검색어 키워드 집합을 생성할 수 있다.

이슈패턴 제공부(230)는 키워드 리스트 및 키워드 패턴 트리를 기초로 검색어 키워드 집합에 포함된 검색 키워드와 연관된 키워드 경로를 검출하여 이슈패턴을 제공한다(단계 S303).

이슈패턴 제공부(230)는 키워드 패턴 트리에서 검색 키워드 집합에 있는 제1 검색 키워드에 대응하는 노드부터 루트 노드까지를 제1 키워드 경로로 검출할 수 있다. 이슈패턴 제공부(230)는 제1 검색 키워드를 제외한 나머지 검색 키워드 각각에 대응하는 노드부터 루트 노드까지를 포함하는 키워드 경로를 검출할 수 있다.

이슈패턴 제공부(230)는 키워드 패턴 트리에서 검색 키워드 집합에 있는 모든 검색 키워드에 대한 키워드 경로를 검출하면 각각의 검색 키워드에 대한 빈도수와 이슈패턴 기준 빈도수(1 이상의 자연수에 해당함)를 비교하여 해당 키워드 경로에 대한 유효성을 결정할 수 있다.

이슈패턴 제공부(230)는 키워드 경로가 유효한 것으로 결정되면 키워드 경로에 포함된 적어도 하나의 키워드를 이슈패턴으로 저장할 수 있다. 이슈패턴 제공부(230)는 검색 키워드 집합에 있는 적어도 하나의 검색 키워드에 대한 이슈패턴을 결정하여 이슈패턴을 이슈패턴에 대한 빈도수 기준으로 정렬하고 사용자에게 제공할 수 있다.

도 4는 도 1에 있는 사용자 검색어 연관 이슈패턴 검출 서버에서 생성하는 키워드 리스트 및 키워드 패턴 트리를 예시하는 도면이다.

도 4를 참조하면, 키워드 리스트(410)는 적어도 하나의 키워드(411) 및 적어도 하나의 키워드(411) 각각에 대응하는 링크(412)를 포함할 수 있다. 링크(412)는 키워드 패턴 트리(420)에 있는 적어도 하나의 키워드(411)와 해당 키워드와 연관된 노드를 연결할 수 있다.

키워드 패턴 트리(420)는 적어도 하나의 키워드(421), 키워드 식별자(422), 빈도수(423), 부모 노드에 대한 포인터(424), 자식 노드에 대한 포인터(425) 및 다른 키워드 경로에 있는 동일한 키워드를 가지는 노드를 연결하는 노드 링크(426)를 포함할 수 있다. 노드 링크(426)는 바로 직전에 생성된 동일한 키워드를 가지는 노드를 연결하여 키워드 리스트(410)의 링크(412)를 시작으로 키워드 패턴 트리(420) 상의 동일한 키워드에 대한 모든 노드를 탐색하도록 할 수 있다.

도 5는 도 1에 있는 사용자 검색어 연관 이슈패턴 검출 서버에서 수행되는 웹 문서를 수집하여 키워드 패턴 트리에 키워드를 삽입하는 과정을 설명하는 순서도이다.

도 5를 참조하면, 웹 문서 변환부(210)는 실시간으로 웹 로봇을 통해 웹을 탐색하여 웹 문서를 수집한다(단계 S501).

웹 문서 변환부(210)는 형태소 분석을 통해 웹 문서에서 적어도 하나의 키워드를 추출한다(단계 S502).

웹 문서 변환부(210)는 추출된 키워드가 새로운 키워드(즉, 데이터베이스에 저장되지 않은 키워드)에 해당하면 추출된 키워드에 새로운 키워드 식별자를 부여한다(단계 S503 및 S504).

웹 문서 변환부(210)는 추출된 키워드가 새로운 키워드(즉, 데이터베이스에 저장되지 않은 키워드)에 해당하지 않으면 추출된 키워드에 대응하는 기존 키워드 식별자를 부여한다(단계 S503 및 S505).

웹 문서 변환부(210)는 키워드 식별자가 부여된 적어도 하나의 키워드를 키워드 식별자 기준으로 정렬한다(단계 S506).

웹 문서 변환부(210)는 키워드 식별자 기준으로 정렬된 적어도 하나의 키워드를 키워드 패턴 트리에 순차적으로 삽입한다(단계 S507).

도 6은 도 1에 있는 사용자 검색어 연관 이슈패턴 검출 서버에서 수행되는 사용자 검색어를 수신하여 검색어 키워드 집합을 생성하는 과정을 설명하는 순서도이다.

도 6을 참조하면, 검색어 키워드 집합 생성부(220)는 사용자 단말(110)로부터 사용자 검색어를 수신한다(단계 S601).

검색어 키워드 집합 생성부(220)는 형태소 분석을 통해 사용자 검색어에 포함된 적어도 하나의 검색 키워드를 추출한다(단계 S602).

검색어 키워드 집합 생성부(220)는 추출된 적어도 하나의 검색 키워드에 키워드 식별자가 부여되었는지 체크하고 그렇다면 키워드 식별자 기준으로 적어도 하나의 검색 키워드를 정렬한다(단계 S603 및 S605).

검색어 키워드 집합 생성부(220)는 추출된 적어도 하나의 검색 키워드에 키워드 식별자가 부여되었는지 체크하고 그렇지 않다면 해당 검색 키워드를 삭제한다(단계 S604).

검색어 키워드 집합 생성부(220)는 정렬된 적어도 하나의 검색 키워드를 포함하는 검색어 키워드 집합을 생성한다(단계 S606).

도 7은 도 1에 있는 사용자 검색어 연관 이슈패턴 검출 서버에서 수행되는 검색어 키워드와 연관된 이슈패턴을 추출하는 과정을 설명하는 순서도이다.

도 7을 참조하면, 이슈패턴 제공부(230)는 검색어 키워드 집합에 포함된 검색 키워드 중 하나를 선택한다(단계 S701).

이슈패턴 제공부(230)는 선택된 검색어 키워드를 기초로 키워드 리스트에 접근한다(단계 S702).

이슈패턴 제공부(230)는 키워드 리스트에 있는 링크를 통해 키워드 패턴 트리에서 검색어 키워드와 연관된 노드를 탐색한다(단계 S703).

이슈패턴 제공부(230)는 선택된 검색 키워드와 연관된 노드부터 루트 노드까지를 키워드 경로로 검출한다(단계 S704).

이슈패턴 제공부(230)는 검출된 키워드 경로에 있는 검색 키워드에 대한 빈도수와 이슈패턴 기준 빈도수(1 이상의 자연수에 해당함)를 비교하고 검출된 키워드 경로에 있는 검색 키워드에 대한 빈도수가 크거나 동일하면 검출된 키워드 경로에 포함된 적어도 하나의 키워드를 이슈패턴으로 저장한다(단계 S705 및 S706).

이슈패턴 제공부(230)는 검출된 키워드 경로에 있는 검색 키워드에 대한 빈도수와 이슈패턴 기준 빈도수(1 이상의 자연수에 해당함)를 비교하고 검출된 키워드 경로에 있는 검색 키워드에 대한 빈도수가 작으면 검출된 키워드 경로를 삭제하고 선택된 검색 키워드와 연관된 다음 키워드 경로로 이동한다(단계 S705, S707 및 S708).

상기에서는 본 출원의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 출원을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

100: 사용자 검색어 연관 이슈패턴 검출 시스템
110: 사용자 단말
120: 사용자 검색어 연관 이슈패턴 검출 서버
210: 웹 문서 변환부
220: 검색어 키워드 집합 생성부
230: 이슈패턴 제공부
240: 제어부

Claims

(a) 웹 문서에 대한 형태소 분석을 통해 키워드 집합을 생성하고 상기 키워드 집합에 포함된 적어도 하나의 키워드 각각에 대한 키워드 식별자 부여 여부를 체크하여 키워드 리스트 및 키워드 패턴 트리를 생성하는 단계;
(b) 사용자 검색어가 입력되면 상기 사용자 검색어에 포함된 적어도 하나의 검색 키워드를 기초로 검색어 키워드 집합을 생성하는 단계; 및
(c) 상기 키워드 리스트 및 상기 키워드 패턴 트리를 기초로 상기 검색어 키워드 집합에 포함된 검색 키워드와 연관된 키워드 경로를 검출하여 이슈패턴을 제공하는 단계를 포함하는 사용자 검색어 연관 이슈패턴 검출 방법.
삭제
제1항에 있어서, 상기 (a) 단계는
상기 키워드 식별자가 부여되지 않았으면 키워드 식별자를 부여하고 상기 적어도 하나의 키워드를 상기 키워드 식별자 기준으로 정렬하여 상기 키워드 패턴 트리에 삽입하는 단계를 포함하는 것을 특징으로 하는 사용자 검색어 연관 이슈패턴 검출 방법.
제1항에 있어서, 상기 (a) 단계는
상기 키워드 리스트에 포함된 적어도 하나의 키워드 및 상기 키워드 패턴 트리에 포함된 적어도 하나의 키워드를 링크로 연결하는 단계를 포함하는 것을 특징으로 하는 사용자 검색어 연관 이슈패턴 검출 방법.
제1항에 있어서, 상기 키워드 리스트는
상기 키워드 집합에 포함된 적어도 하나의 키워드 및 링크를 포함하는 것을 특징으로 하는 사용자 검색어 연관 이슈패턴 검출 방법.
제1항에 있어서, 상기 키워드 패턴 트리는
상기 적어도 하나의 키워드, 키워드 식별자, 빈도수, 부모 노드에 대한 포인터, 자식 노드에 대한 포인터 및 다른 키워드 경로에 있는 노드를 연결하는 노드 링크를 포함하는 것을 특징으로 하는 사용자 검색어 연관 이슈패턴 검출 방법.
제1항에 있어서, 상기 (b) 단계는
상기 적어도 하나의 검색 키워드 중 키워드 식별자가 부여된 검색 키워드를 키워드 식별자 기준으로 정렬하여 상기 검색어 키워드 집합을 생성하는 단계를 포함하는 것을 특징으로 하는 사용자 검색어 연관 이슈패턴 검출 방법.
제1항에 있어서, 상기 (c) 단계는
상기 키워드 패턴 트리에서 제1 검색 키워드에 대응하는 노드부터 루트 노드까지를 제1 키워드 경로로 검출하는 단계를 포함하는 것을 특징으로 하는 사용자 검색어 연관 이슈패턴 검출 방법.
제8항에 있어서, 상기 (c) 단계는
상기 제1 검색 키워드를 제외한 나머지 검색 키워드에 대한 키워드 경로 및 이슈패턴을 결정하여 상기 이슈패턴을 상기 이슈패턴에 대한 빈도수 기준으로 정렬하는 단계를 포함하는 것을 특징으로 하는 사용자 검색어 연관 이슈패턴 검출 방법.
제8항에 있어서, 상기 (c) 단계는
상기 제1 검색 키워드에 대한 빈도수와 이슈패턴 기준 빈도수를 비교하여 상기 제1 키워드 경로에 대한 유효성을 결정하는 단계를 포함하는 것을 특징으로 하는 사용자 검색어 연관 이슈패턴 검출 방법.
제10항에 있어서, 상기 (c) 단계는
상기 제1 키워드 경로가 유효한 것으로 결정되면 상기 제1 키워드 경로에 포함된 적어도 하나의 키워드를 제1 이슈패턴으로 저장하는 단계를 포함하는 것을 특징으로 하는 사용자 검색어 연관 이슈패턴 검출 방법.
제10항에 있어서, 상기 (c) 단계는
상기 적어도 하나의 검색 키워드 각각과 연관된 유효한 키워드 경로가 검출되지 않으면 상기 이슈패턴 기준 빈도수를 감소하여 상기 키워드 경로를 재검출하는 단계를 포함하는 것을 특징으로 하는 사용자 검색어 연관 이슈패턴 검출 방법.
웹 문서에 대한 형태소 분석을 통해 키워드 집합을 생성하고 상기 키워드 집합에 포함된 적어도 하나의 키워드 각각에 대한 키워드 식별자 부여 여부를 체크하여 키워드 리스트 및 키워드 패턴 트리를 생성하는 웹 문서 변환부;
사용자 검색어가 입력되면 상기 사용자 검색어에 포함된 적어도 하나의 검색 키워드를 기초로 검색어 키워드 집합을 생성하는 검색어 키워드 집합 생성부; 및
상기 키워드 리스트 및 상기 키워드 패턴 트리를 기초로 상기 검색어 키워드 집합에 포함된 검색 키워드와 연관된 키워드 경로를 검출하여 이슈패턴을 제공하는 이슈패턴 제공부를 포함하는 사용자 검색어 연관 이슈패턴 검출 서버.
웹 문서에 대한 형태소 분석을 통해 키워드 집합을 생성하고 상기 키워드 집합에 포함된 적어도 하나의 키워드 각각에 대한 키워드 식별자 부여 여부를 체크하여 키워드 리스트 및 키워드 패턴 트리를 생성하는 기능;
사용자 검색어가 입력되면 상기 사용자 검색어에 포함된 적어도 하나의 검색 키워드를 기초로 검색어 키워드 집합을 생성하는 기능; 및
상기 키워드 리스트 및 상기 키워드 패턴 트리를 기초로 상기 검색어 키워드 집합에 포함된 검색 키워드와 연관된 키워드 경로를 검출하여 이슈패턴을 제공하는 기능을 포함하는 사용자 검색어 연관 이슈패턴 검출 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체.