KR101048540B1

KR101048540B1 - 연관 키워드에 따른 클러스터를 이용하여 검색 키워드를 분류하는 장치 및 방법

Info

Publication number: KR101048540B1
Application number: KR1020090024817A
Authority: KR
Inventors: 정윤영; 최재걸; 김재은
Original assignee: 엔에이치엔(주)
Priority date: 2009-03-24
Filing date: 2009-03-24
Publication date: 2011-07-11
Also published as: KR20100106718A

Abstract

연관 키워드에 따른 클러스터를 이용하여 검색 키워드를 분류하는 장치 및 방법이 개시된다. 검색 키워드 분류 장치는 사용자가 입력한 검색 키워드에 대해 연관 키워드를 추출하는 연관 키워드 추출부, 상기 추출된 연관 키워드를 이용하여 검색 키워드 클러스터를 생성하는 클러스터 생성부 및 사용자 검색 의도를 고려하여 상기 검색 키워드 클러스터를 주제에 따라 분류하는 클러스터 분류부를 포함할 수 있다.

검색 키워드, 클러스터, 연관 키워드, 주제, 시드

Description

연관 키워드에 따른 클러스터를 이용하여 검색 키워드를 분류하는 장치 및 방법{APPARATUS AND METHOD FOR CLASSIFYING SEARCH KEYWORD USING CLUSTER FOR RELATED KEYWORD}

본 발명의 일실시예들은 검색 키워드를 분류하는 방법에 관한 것으로, 보다 자세하게는, 검색 키워드의 연관 키워드를 통해 검색 키워드 클러스터를 생성하여 검색 키워드를 분류하는 장치 및 방법에 관한 것이다.

인터넷 검색 엔진에 사용자로부터 수많은 검색 키워드가 입력된다. 검색 키워드는 사용자가 특별한 검색 의도를 가지고 입력한 키워드이다. 즉, 검색 키워드는 사용자의 관심이나 선호 사항을 반영할 수 있다. 결국, 인터넷 검색 엔진의 관리자는 검색 키워드를 이용하여 사용자들의 정보에 대한 니즈를 분석함으로써 사용자 맞춤형 서비스를 제공하기를 원한다. 또한, 검색 광고주들은 검색 키워드를 이용하여 사용자 맞춤형 광고를 제공함으로써 광고 효과를 증대시키기를 원한다.

그러나, 종래에 사용자가 입력한 검색 키워드를 통해 사용자의 검색 의도를 파악하는 기술이 일부 존재하였지만 사용자의 검색 의도에 대한 정확도는 낮았는 바, 사용자의 검색 의도에 대한 정확도를 향상시킬 수 있는 기술이 요구되고 있다.

본 발명의 일실시예는 사용자가 입력한 검색 키워드에 대한 연관 키워드를 이용하여 검색 키워드 클러스터를 생성하고, 검색 키워드 클러스터를 주제별로 분류함으로써 사용자의 검색 의도를 좀더 정확하게 파악할 수 있는 검색 키워드 분류 장치 및 방법을 제공할 수 있다.

본 발명의 일실시예는 연관 키워드에 따른 검색 키워드의 연결 관계를 이용하여 검색 키워드 간 연결 강도에 따라 검색 키워드 클러스터를 생성함으로써 사용자의 검색 의도를 좀더 정확하게 파악할 수 있는 검색 키워드 분류 장치 및 방법을 제공할 수 있다.

본 발명의 일실시예는 주제, 검색 키워드 클러스터 및 검색 키워드에 대한 데이터 계층도를 제공함으로써 사용자 검색 의도를 파악할 수 있는 검색 키워드에 대한 정보를 시각적/정량적으로 제공하는 검색 키워드 분류 장치 및 방법을 제공할 수 있다.

본 발명의 일실시예는 일별로 검색 키워드에 대한 검색 키워드 클러스터를 생성함으로써, 시간에 따른 사용자 검색 트렌드를 용이하게 파악할 수 있는 검색 키워드 분류 장치 및 방법을 제공할 수 있다.

본 발명의 일실시예에 따른 검색 키워드 분류 장치는 사용자가 입력한 검색 키워드에 대해 연관 키워드를 추출하는 연관 키워드 추출부, 상기 추출된 연관 키워드를 이용하여 검색 키워드 클러스터를 생성하는 클러스터 생성부 및 사용자 검색 의도를 고려하여 상기 검색 키워드 클러스터를 주제에 따라 분류하여 사용자 검색 의도를 반영하는 클러스터 분류부를 포함할 수 있다.

본 발명의 일실시예에 따른 검색 키워드 분류 장치는 상기 주제를 포함하는 제1 계층, 상기 주제로 분류된 검색 키워드 클러스터를 포함하는 제2 계층 및 상기 검색 키워드 클러스터에 대한 검색 키워드를 포함하는 제3 계층으로 구성된 데이터 계층도를 생성하는 데이터 계층도 생성부를 더 포함할 수 있다.

본 발명의 일실시예에 따른 검색 키워드 분류 방법은 사용자가 입력한 검색 키워드에 대해 연관 키워드를 추출하는 단계, 상기 추출된 연관 키워드를 이용하여 검색 키워드 클러스터를 생성하는 단계 및 상기 검색 키워드 클러스터로부터 사용자 검색 의도를 추출하여 상기 검색 키워드 클러스터를 주제에 따라 분류하여 사용자 검색 의도를 반영하는 단계를 포함할 수 있다.

본 발명의 일실시예에 따른 검색 키워드 분류 방법은 상기 주제를 포함하는 제1 계층, 상기 주제로 분류된 검색 키워드 클러스터를 포함하는 제2 계층 및 상기 검색 키워드 클러스터에 대한 검색 키워드를 포함하는 제3 계층으로 구성된 데이터 계층도를 생성하는 단계를 더 포함할 수 있다.

본 발명의 일실시예에 따르면, 사용자가 입력한 검색 키워드에 대한 연관 키워드를 이용하여 검색 키워드 클러스터를 생성하고, 검색 키워드 클러스터를 주제별로 분류함으로써 사용자의 검색 의도를 좀더 정확하게 파악할 수 있는 검색 키워드 분류 장치 및 방법이 제공된다.

본 발명의 일실시예에 따르면, 연관 키워드에 따른 검색 키워드의 연결 관계를 이용하여 검색 키워드 간 연결 강도에 따라 검색 키워드 클러스터를 생성함으로써 사용자의 검색 의도를 좀더 정확하게 파악할 수 있는 검색 키워드 분류 장치 및 방법이 제공된다.

본 발명의 일실시예에 따르면, 주제, 검색 키워드 클러스터 및 검색 키워드에 대한 데이터 계층도를 제공함으로써 사용자 검색 의도를 파악할 수 있는 검색 키워드에 대한 정보를 시각적/정량적으로 제공하는 검색 키워드 분류 장치 및 방법이 제공된다.

본 발명의 일실시예에 따르면, 일별로 검색 키워드에 대한 검색 키워드 클러스터를 생성함으로써, 시간에 따른 사용자 검색 트렌드를 용이하게 파악할 수 있는 검색 키워드 분류 장치 및 방법이 제공된다.

이하, 첨부된 도면들에 기재된 내용들을 참조하여 본 발명에 따른 실시예를 상세하게 설명한다. 다만, 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다. 본 발명의 일실시예에 따른 검색 키워드 분류 방법은 검색 키워드 분류 장치에 의해 수행될 수 있다.

도 1은 본 발명의 일실시예에 따른 검색 키워드 분류 장치의 전체 구성을 도시한 블록 다이어그램이다.

도 1을 참고하면, 검색 키워드 분류 장치(100)는 연관 키워드 추출부(101), 클러스터 생성부(102), 클러스터 분류부(103)를 포함할 수 있다. 추가적으로, 검색 키워드 분류 장치(100)는 데이터 계층도 생성부(104)를 포함할 수 있다.

연관 키워드 추출부(101)는 사용자가 입력한 검색 키워드에 대해 연관 키워드를 추출할 수 있다. 연관 키워드는 사용자가 입력한 검색 키워드 이후에 특정 시간 이내에 입력되어 검색되는 비율이 높은 키워드를 의미할 수 있다. 즉, 연관 키워드는 사용자들이 자신의 검색 의도에 부합하는 검색 결과를 도출할 수 있도록 함께 검색하는 경향이 높은 키워드들을 의미할 수 있다. 다시 말해서, 검색 키워드에 대한 연관 키워드는 사용자의 검색 의도를 파악할 수 있는 하나의 수단이 될 수 있다.

일례로, 연관 키워드 추출부(101)는 일정 기간 동안 검색 횟수가 미리 설정한 검색 횟수 이상인 검색 키워드에 대해 연관 키워드를 추출할 수 있다. 예를 들면, 최근 일주일 검색 횟수(Query Count: QC)가 300 이상인 검색 키워드에 대해 연관 키워드를 추출할 수 있다. 이 때, 연관 키워드 추출부(101)는 하나의 키워드에 대해 하나 이상의 연관 키워드를 추출할 수 있다. 즉, 일정 수 이상의 검색 횟수를 나타내는 검색 키워드에 대해 연관 키워드를 추출함으로써, 검색 키워드를 입력한 사용자의 검색 의도를 좀더 정확하게 파악할 수 있다.

일례로, 연관 키워드 추출부(101)는 키워드의 검색 횟수에 따른 연관 규칙, 사용자의 IP 주소에 따른 연관 규칙 또는 사용자 식별 정보에 따른 연관 규칙 중 어느 하나의 연관 규칙에 기초하여 검색 키워드에 대한 연관 키워드를 추출할 수 있다.

클러스터 생성부(102)는 추출된 연관 키워드를 이용하여 검색 키워드 클러스터를 생성할 수 있다. 일례로, 클러스터 생성부(102)는 연관 키워드를 매개로 하여 검색 키워드의 연결 관계를 생성하고, 검색 키워드의 연결 관계로부터 검색 키워드 클러스터를 생성할 수 있다. 이 때, 클러스터 생성부(102)는 둘 이상의 검색 키워드들을 공통적인 연관 키워드를 중심으로 연결함으로써 검색 키워드의 연결 관계를 생성할 수 있다.

클러스터 생성부(102)는 검색 키워드 사이에 연결 강도에 기초하여 검색 키워드 클러스터를 생성할 수 있다. 이 때, 연결 강도는 검색 키워드 사이에 공통된 연관 키워드가 많을수록 증가할 수 있다. 예를 들어, 클러스터 생성부(102)는 검색 키워드의 연결 관계에 범주형 클러스터링 기법을 적용하여 검색 키워드 클러스터를 생성할 수 있다. 즉, 클러스터 생성부(102)는 범주형 클러스터링 기법에 따라 주어진 검색 키워드에 대한 연결 관계에서 공통된 연관 키워드를 통해 검색 키워드 간 유사도를 판단하고, 유사도가 높은 검색 키워드들을 그룹화하여 클러스터를 생성할 수 있다.

클러스터 분류부(103)는 검색 키워드 클러스터를 주제에 따라 분류하여 사용자 검색 의도를 반영할 수 있다. 검색 키워드 클러스터는 공통적인 연관 키워드를 기초로 연결된 검색 키워드들을 포함하고 있으므로, 유사한 사용자의 검색 의도를 나타내는 검색 키워드들로 구성될 수 있다. 따라서, 클러스터 분류부(103)는 검색 키워드 클러스터를 주제에 따라 분류할 수 있으며, 결국 주제가 분류된 검색 키워드 클러스터는 사용자 검색 의도를 반영할 수 있다.

이 때, 하나의 주제에 적어도 하나의 클러스터가 포함될 수 있다. 이 경우, 클러스터 분류부(103)는 검색 키워드 클러스터 간에 연관성을 고려하여 검색 키워드 클러스터를 주제별로 자동으로 분류할 수 있다.

일례로, 클러스터 분류부(103)는 최초로 생성된 검색 키워드 클러스터에 대해 주제별로 분류하여 시드 클러스터를 생성하고, 시드 클러스터를 기초로 미리 설정한 주기별로 생성된 검색 키워드 클러스터를 주제별로 분류할 수 있다.

결국, 본 발명의 일실시예에 따르면, 연관 키워드는 사용자의 검색이 발생하는 모든 관심 분야에서 추출될 수 있기 때문에, 검색 키워드 클러스터를 통해 다양한 주제의 키워드 세그먼트를 획득할 수 있다.

데이터 계층도 생성부(104)는 주제를 포함하는 제1 계층, 주제로 분류된 검색 키워드 클러스터를 포함하는 제2 계층 및 검색 키워드 클러스터에 대한 검색 키워드를 포함하는 제3 계층으로 구성된 데이터 계층도를 생성할 수 있다.

즉, 본 발명의 일실시예에 따른 검색 키워드 분류 장치(100)는 연관 키워드를 이용하여 검색 키워드->검색 키워드 클러스터->주제 단위로 계층을 형성할 수 있으며, 형성된 계층에 기초하여 데이터 계층도를 통해 시각적인 데이터 계층도를 생성할 수 있다.

일례로, 데이터 계층도 생성부(104)는 주제에 포함된 검색 키워드의 검색 횟수에 따라 제1 계층에 대한 주제별 사이즈를 결정할 수 있다. 그리고, 데이터 계층도 생성부(104)는 검색 키워드 클러스터에 포함된 검색 키워드의 검색 횟수에 따라 제2 계층에 대한 검색 키워드 클러스터별 사이즈를 결정할 수 있다. 또한, 데이터 계층도 생성부(104)는 검색 키워드의 검색 횟수에 따라 제3 계층에 대한 검색 키워드별 사이즈를 결정할 수 있다.

도 2는 본 발명의 일실시예에 따라 검색 키워드에 대한 복수의 연관 키워드의 일례를 도시한 도면이다.

검색 키워드 분류 장치(100)는 사용자가 입력한 검색 키워드에 대해 연관 키워드를 추출할 수 있다. 도 2를 참고하면, 검색 키워드 각각에 하나 이상의 연관 키워드가 추출된 결과가 도시되어 있다. 이 때, 검색 키워드는 일정 기간 동안 검색 횟수가 미리 설정한 검색 횟수 이상인 키워드를 의미할 수 있다.

일례로, 검색 키워드 분류 장치(100)는 키워드의 검색 횟수에 따른 연관 규칙에 기초하여 검색 키워드에 대한 연관 키워드를 추출할 수 있다. 예를 들면, 사용자가 A라는 키워드를 입력하여 검색한 후 보다 상세한 검색 결과를 얻기 위해 연속하여 B라는 키워드를 입력한 경우, 키워드 A가 검색된 후 키워드 B가 입력되는 조건이 미리 설정한 임계치 이상이라면 키워드 B는 키워드 A에 대한 연관 키워드로 정의될 수 있다.

일례로, 검색 키워드 분류 장치(100)는 키워드의 검색 횟수에 따른 연관 규칙을 이용하여 검색 키워드에 대해 연관 키워드를 추출할 수 있다. 구체적으로, 검색 키워드 분류 장치(100)는 키워드 A의 검색 횟수, 키워드 B의 검색 횟수 및 키워드 A가 검색된 이후 특정 시간 이내 키워드 B의 검색 횟수를 통해 조건부 확률(A가 검색된 후 B가 이어서 검색될 확률) 및 키워드 간 상관 관계를 결정하고, 조건부 확률 및 상관 관계에 기초하여 키워드 A와 키워드 B가 연관 관계에 있는 지 판단할 수 있다. 이 때, 검색 키워드 분류 장치(100)는 키워드 A와 키워드 B가 연관 관계에 있는 지 판단하기 위해 검색 횟수, 조건부 확률 및 상관 관계 정도에 임계치를 설정할 수 있다.

다른 일례로, 검색 키워드 분류 장치(100)는 키워드를 입력한 사용자의 IP 주소에 따른 연관 규칙을 이용하여 검색 키워드에 대해 연관 키워드를 추출할 수 있다. 구체적으로, 검색 키워드 분류 장치(100)는 키워드 A를 입력한 사용자의 IP 주소 정보, 키워드 B를 입력한 사용자의 IP 주소 정보 및 키워드 A가 입력된 후 키워드 B가 입력된 경우 키워드 B를 입력한 사용자의 IP 주소 정보를 통해 조건부 확률을 결정하고, 조건부 확률에 기초하여 키워드 A와 키워드 B가 연관 관계에 있는 지 여부를 판단할 수 있다. 이 때, 검색 키워드 분류 장치(100)는 키워드 A와 키워드 B가 연관 관계에 있는 지 판단하기 위해 IP 주소 수, 조건부 확률에 임계치를 설정할 수 있다.

또 다른 일례로, 검색 키워드 분류 장치(100)는 키워드를 입력한 사용자의 사용자 식별 정보(UID)에 따른 연관 규칙을 이용하여 검색 키워드에 대해 연관 키워드를 추출할 수 있다. 사용자 식별 정보에 따른 연관 규칙은 사용자의 IP 주소에 따른 연관 규칙을 이용한 방법에 동일한 형태로 적용할 수 있다.

이러한 과정을 통해 검색 키워드에 대한 연관 키워드가 추출되면, 검색 키워드 분류 장치(100)는 연관 키워드를 매개로 검색 키워드의 연결 관계를 생성할 수 있다. 도 2를 참고하면, 만약 연관 키워드 b₃와 연관 키워드 c₃가 동일한 경우, 검색 키워드 분류 장치(100)는 연관 키워드 b₃(또는 연관 키워드 c₃)를 매개로 하여검색 키워드 B와 검색 키워드 C를 연결할 수 있다.

마찬가지로, 연관 키워드 b₅, 연관 키워드 c₅ 및 연관 키워드 d₅가 동일한 경우, 검색 키워드 분류 장치(100)는 연관 키워드 b₅(또는 연관 키워드 c₅, 연관 키워드 d₅)를 매개로 하여 검색 키워드 B, 검색 키워드 C 및 검색 키워드 D를 연결할 수 있다. 이러한 과정을 통해 검색 키워드 분류 장치(100)는 검색 키워드의 연결 관계를 생성할 수 있다.

도 3은 본 발명의 일실시예에 따라 연관 키워드를 통해 검색 키워드 간의 연결 관계에 대한 일례를 도시한 도면이다.

도 3을 참고하면, 연관 키워드를 매개로 연결된 검색 키워드 A 내지 검색 키워드 J(301~310)가 도시되어 있다.

검색 키워드 분류 장치(100)는 연관 키워드를 매개로 하여 검색 키워드의 연결 관계를 생성할 수 있다. 이 때, 검색 키워드 사이에 공통된 연관 키워드가 많을수록 연결 강도는 증가할 수 있다.

도 3을 살펴보면, 검색 키워드 B(302)와 검색 키워드 C(303)는 4개의 공통된 연관 키워드를 매개로 연결되어 있고, 검색 키워드 B(302)와 검색 키워드 A(301)는 2개의 공통된 연관 키워드를 매개로 연결되어 있으므로, 검색 키워드 B(302)와 검색 키워드 C(303) 간의 연결 강도가 검색 키워드 B(302)와 검색 키워드 A(301) 간의 연결 강도보다 더 크다고 할 수 있다.

도 4는 본 발명의 일실시예에 따라 검색 키워드 간의 연결 관계로부터 검색 키워드 클러스터를 생성하는 과정을 설명하기 위한 도면이다.

검색 키워드 분류 장치(100)는 검색 키워드의 연결 관계로부터 검색 키워드 클러스터를 생성할 수 있다. 이 때, 검색 키워드 분류 장치(100)는 검색 키워드 사이에 연결 강도에 기초하여 검색 키워드 클러스터를 생성할 수 있다.

도 4에 나타난 검색 키워드들(401~410) 사이에 연결된 선은 연결 강도를 나타낸다. 도 4를 참고하면, 검색 키워드 A(401), 검색 키워드 B(402), 검색 키워드 C(403) 및 검색 키워드 D(404)간에 연결 강도는 미리 설정한 기준을 초과한다고 가정한다. 마찬가지로, 검색 키워드 E(405), 검색 키워드 F(406), 검색 키워드 G(407), 검색 키워드 H(408), 검색 키워드 I(409) 및 검색 키워드 J(410) 간에 연결 강도는 미리 설정한 기준을 초과한다고 가정한다. 다만, 검색 키워드 D(404)와 검색 키워드 E(405)의 연결 강도와 검색 키워드 D(404)와 검색 키워드 F(406)의 연결 강도는 미리 설정한 기준을 초과하지 않는다고 가정한다.

그러면, 검색 키워드 분류 장치(100)는 검색 키워드 A(401), 검색 키워드 B(402), 검색 키워드 C(403) 및 검색 키워드 D(404)를 하나의 검색 키워드 클러스터 X(411)로 정의할 수 있다. 마찬가지로, 검색 키워드 E(405), 검색 키워드 F(406), 검색 키워드 G(407), 검색 키워드 H(408), 검색 키워드 I(409) 및 검색 키워드 J(410)를 하나의 검색 키워드 클러스터 Y(412)로 정의할 수 있다. 그러나, 검색 키워드 D(404)와 검색 키워드 E(405) 및 검색 키워드 D(404)와 검색 키워드 F(406)는 서로 연결되어 있지만, 연결 강도가 미리 설정한 기준을 만족하지 못하므로 하나의 검색 키워드 클러스터에 포함될 수 없다.

이러한 과정을 통해 검색 키워드 분류 장치(100)는 검색 키워드 간의 연결 관계에서 특정 범주에 존재하는 복수의 검색 키워드를 포함하는 검색 키워드 클러스터를 생성할 수 있다.

도 5는 본 발명의 일실시예에 따라 검색 키워드 클러스터를 주제별로 분류하여 일별로 클러스터링을 수행하는 과정을 설명하기 위한 도면이다.

일례로, 검색 키워드 분류 장치(100)는 최초로 생성된 검색 키워드 클러스터에 대해 주제별로 분류하여 시드 클러스터를 생성하고, 시드 클러스터를 기초로 미리 설정한 주기별로 생성된 검색 키워드 클러스터를 주제별로 분류할 수 있다.

도 5를 참고하면, 2008년 7월 17일부터 2008년 10월 30일까지 일별 검색 키워드 클러스터를 생성하여 검색 키워드 클러스터를 분류하는 과정이 도시되어 있다.

먼저, 2008년 7월 17일에 최초로 검색 키워드 클러스터(501)(cluster 40214, cluster 27584, cluster 73920, cluster 58134, cluster 21276, cluster 15865)가 생성되면, 검색 키워드 분류 장치(100)는 검색 키워드 클러스터(501)를 복수의 주제(501) 각각으로 분류할 수 있다. 도 5에서 볼 수 있듯이, cluster 40214, cluster 27584는 "대중음악"으로 분류되고, cluster 73920는 "게임"으로 분류될 수 있다. 마찬가지로, cluster 58134는 "의류/잡화"로 분류되고, cluster 21276, cluster 15865는 "여행"으로 분류될 수 있다. 이렇게 주제별로 분류된 검색 키워드 클러스터(501)가 시드 클러스터가 될 수 있다.

그러면, 다음날 2008년 7월 18일에 생성된 검색 키워드 클러스터는 복수의 시드 클러스터 각각이 속한 주제로 분류될 수 있으며, 이러한 과정은 2008년 10월 30일까지 매일 반복될 수 있다.

일별로 생성된 검색 키워드 클러스터는 시드 클러스터가 속한 주제로 분류될 수 있으며, 최종적으로, 검색 키워드가 복수의 주제 각각으로 분류될 수 있다. 주제는 사용자의 검색 의도와 대응될 수 있으므로, 동일한 주제에 포함된 검색 키워드 클러스터는 동일한 사용자의 검색 의도를 나타내는 것을 의미할 수 있다. 이 때, 주제는 미리 설정한 개수만큼 설정될 수 있다.

본 발명의 일실시예에 따르면, 검색 키워드 분류 장치(100)는 주제별로 검색 키워드 및 검색 키워드 클러스터에 대한 정보를 제공할 수 있다. 그리고, 검색 키워드 분류 장치(100)는 주제별로 검색 키워드를 입력한 사용자 분포에 대한 정보, 사용자의 검색 패턴 등의 정보를 제공할 수 있다.

도 6은 본 발명의 일실시예에 따라 주제, 검색 키워드 클러스터 및 검색 키워드 간의 계층 관계를 나타내는 일례를 도시한 도면이다.

본 발명의 일실시예에 따른 검색 키워드 분류 장치(100)는 검색 키워드->검색 키워드 클러스터->주제의 3단계의 계층을 도출할 수 있다. 이 때, 검색 키워드 분류 장치(100)는 주제를 포함하는 제1 계층(601), 상기 주제로 분류된 검색 키워드 클러스터를 포함하는 제2 계층(602) 및 상기 검색 키워드 클러스터에 대한 검색 키워드를 포함하는 제3 계층(603)으로 구성된 데이터 계층도를 생성할 수 있다.

일례로, 검색 키워드 분류 장치(100)는 주제에 포함된 검색 키워드의 검색 횟수에 따라 제1 계층(601)에 대한 주제별 사이즈를 결정할 수 있다. 그리고, 검색 키워드 분류 장치(100)는 검색 키워드 클러스터에 포함된 검색 키워드의 검색 횟수에 따라 제2 계층(602)에 대한 검색 키워드 클러스터별 사이즈를 결정할 수 있다. 또한, 검색 키워드 분류 장치(100)는 검색 키워드의 검색 횟수에 따라 제3 계층(603)에 대한 검색 키워드별 사이즈를 결정할 수 있다.

제1 계층(601)에 포함된 사각형의 넓이는 주제별 사이즈를 의미하며, 사각형의 넓이가 넓을수록 해당 사각형에 대응하는 주제에 포함된 검색 키워드의 검색 횟수가 많은 것을 의미할 수 있다. 그리고, 제2 계층(602)에 포함된 사각형의 넓이는 검색 키워드 클러스터별 사이즈를 의미하며, 사각형의 넓이가 넓을수록 해당 사각형에 대응하는 검색 키워드 클러스터에 포함된 검색 키워드의 검색 횟수가 많은 것을 의미할 수 있다. 또한, 제3 계층(603)에 포함된 사각형의 넓이는 검색 키워드별 사이즈를 의미하며, 사각형의 넓이가 넓을수록 해당 사각형에 대응하는 검색 키워드의 검색 횟수가 많은 것을 의미할 수 있다.

검색 키워드 분류 장치(100)는 제1 계층(601), 제2 계층(602) 및 제3 계층(603)을 시각적/정량적으로 제공할 수 있다. 만약, 제1 계층(601)에서 주제 X(604)가 선택되면, 검색 키워드 분류 장치(100)는 주제 X(604)로 분류된 검색 키워드 클러스터에 대한 제2 계층(602)을 표시할 수 있다. 그리고, 제2 계층(602)에서 검색 키워드 클러스터 Y(605)가 선택되면, 검색 키워드 분류 장치(100)는 검색 키워드 클러스터 Y(605)에 포함된 검색 키워드에 대한 제3 계층(603)을 표시할 수 있다. 도 6에 표시된 데이터 계층도는 일례에 불과하고, 장치의 구성에 따라 다른 형태로 표시될 수 있다.

도 7은 본 발명의 일실시예에 따른 검색 키워드 분류 방법의 전체 구성을 도시한 도면이다.

단계(S701)에서, 검색 키워드 분류 장치(100)는 사용자가 입력한 검색 키워드에 대해 연관 키워드를 추출할 수 있다. 이 때, 연관 키워드는 사용자들이 자신의 검색 의도에 부합하는 검색 결과를 도출할 수 있도록 함께 검색하는 경향이 높은 키워드들을 의미할 수 있다. 다시 말해서, 검색 키워드에 대한 연관 키워드는 사용자의 검색 의도를 파악할 수 있는 하나의 수단이 될 수 있다.

일례로, 검색 키워드 분류 장치(100)는 일정 기간 동안 검색 횟수가 미리 설정한 검색 횟수 이상인 검색 키워드에 대해 연관 키워드를 추출할 수 있다. 이 때, 검색 키워드 분류 장치(100)는 키워드의 검색 횟수에 따른 연관 규칙, 사용자의 IP 주소에 따른 연관 규칙 또는 사용자 식별 정보에 따른 연관 규칙 중 어느 하나의 연관 규칙에 기초하여 검색 키워드에 대한 연관 키워드를 추출할 수 있다.

단계(S702)에서, 검색 키워드 분류 장치(100)는 추출된 연관 키워드를 이용하여 검색 키워드 클러스터를 생성할 수 있다. 검색 키워드 분류 장치(100)는 연관 키워드를 매개로 하여 검색 키워드의 연결 관계를 생성하고, 검색 키워드의 연결 관계로부터 검색 키워드 클러스터를 생성할 수 있다.

이 때, 검색 키워드 분류 장치(100)는 검색 키워드 사이에 연결 강도에 기초하여 검색 키워드 클러스터를 생성할 수 있다. 여기서, 연결 강도는 검색 키워드 사이에 공통된 연관 키워드가 많을수록 증가할 수 있다. 예를 들어, 검색 키워드 분류 장치(100)는 검색 키워드의 연결 관계에 범주형 클러스터링 기법을 적용하여 검색 키워드 클러스터를 생성할 수 있다.

즉, 검색 키워드 분류 장치(100)는 범주형 클러스터링 기법에 따라 주어진 검색 키워드에 대한 연결 관계에서 공통된 연관 키워드를 통해 검색 키워드 간 유사도를 판단하고, 유사도가 높은 검색 키워드들을 그룹화하여 클러스터를 생성할 수 있다.

단계(S703)에서, 검색 키워드 분류 장치(100)는 검색 키워드 클러스터를 주제에 따라 분류하여 사용자 검색 의도를 반영할 수 있다. 이 때, 검색 키워드 분류 장치(100)는 검색 키워드 클러스터 간에 연관성을 고려하여 검색 키워드 클러스터를 주제별로 분류할 수 있다. 단계(S703)은 최초로 생성된 검색 키워드 클러스터에 대해 주제별로 분류하여 시드 클러스터를 생성하는 과정 및 시드 클러스터를 기초로 미리 설정한 주기별로 생성된 검색 키워드 클러스터를 주제별로 분류하는 과정을 포함할 수 있다.

검색 키워드 분류 장치(100)는 검색 키워드 클러스터를 주제에 따라 분류할 수 있으며, 결국 주제에 따라 분류된 검색 키워드 클러스터는 사용자 검색 의도를 반영할 수 있다.

단계(S704)에서, 검색 키워드 분류 장치(100)는 주제를 포함하는 제1 계층, 주제로 분류된 검색 키워드 클러스터를 포함하는 제2 계층 및 검색 키워드 클러스터에 대한 검색 키워드를 포함하는 제3 계층으로 구성된 데이터 계층도를 생성할 수 있다. 이 때, 단계(S704)는 검색 키워드 분류 장치(100)는 주제에 포함된 검색 키워드의 검색 횟수에 따라 제1 계층에 대한 주제별 사이즈를 결정하는 단계, 검색 키워드 클러스터에 포함된 검색 키워드의 검색 횟수에 따라 제2 계층에 대한 검색 키워드 클러스터별 사이즈를 결정하는 단계 및 검색 키워드의 검색 횟수에 따라 제3 계층에 대한 검색 키워드별 사이즈를 결정하는 단계를 포함할 수 있다.

이 때, 검색 키워드 분류 장치(100)는 데이터 계층도를 통해 주제에 대한 제1 계층, 검색 키워드 클러스터에 대한 제2 계층(602) 및 검색 키워드에 대한 제3 계층(603)을 시각적/정량적으로 제공할 수 있다.

도 7에서 설명되지 않은 구체적인 부분은 도 1 내지 도 6의 설명을 참고할 수 있다.

또한 본 발명의 일실시예에 따른 검색 키워드 분류 방법은 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터 판독 가능 매체를 포함한다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명 사상은 아래에 기재된 특허청구범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명 사상의 범주에 속한다고 할 것이다.

<도면의 주요 부분에 대한 부호의 설명>

100: 검색 키워드 분류 장치

101: 연관 키워드 추출부

102: 클러스터 생성부

103: 클러스터 분류부

104: 데이터 계층도 생성부

Claims

사용자가 입력한 검색 키워드에 대해 연관 키워드를 추출하는 연관 키워드 추출부;

상기 추출된 연관 키워드를 이용하여 검색 키워드 클러스터를 생성하는 클러스터 생성부; 및

상기 검색 키워드 클러스터를 주제에 따라 분류하여 사용자 검색 의도를 반영하는 클러스터 분류부

를 포함하는 검색 키워드 분류 장치.
제1항에 있어서,

상기 연관 키워드 추출부는,

일정 기간 동안 검색 횟수가 미리 설정한 검색 횟수 이상인 검색 키워드에 대해 연관 키워드를 추출하는 것을 특징으로 하는 검색 키워드 분류 장치.
제1항에 있어서,

상기 연관 키워드 추출부는,

키워드의 검색 횟수에 따른 연관 규칙, 사용자의 IP 주소에 따른 연관 규칙 또는 사용자 식별 정보에 따른 연관 규칙 중 어느 하나의 연관 규칙에 기초하여 상기 검색 키워드에 대한 연관 키워드를 추출하는 것을 특징으로 하는 검색 키워드 분류 장치.
제1항에 있어서,

상기 클러스터 생성부는,

상기 연관 키워드를 매개로 하여 상기 검색 키워드의 연결 관계를 생성하고, 상기 검색 키워드의 연결 관계로부터 상기 검색 키워드 클러스터를 생성하는 것을 특징으로 하는 검색 키워드 분류 장치.
제4항에 있어서,

상기 클러스터 생성부는,

상기 검색 키워드 사이에 연결 강도에 기초하여 상기 검색 키워드 클러스터를 생성하고,

상기 연결 강도는,

상기 검색 키워드 사이에 공통된 연관 키워드가 많을수록 증가하는 것을 특징으로 하는 검색 키워드 분류 장치.
제5항에 있어서,

상기 클러스터 생성부는,

상기 검색 키워드의 연결 관계에 범주형 클러스터링 기법을 적용하여 상기 검색 키워드 클러스터를 생성하는 것을 특징으로 하는 검색 키워드 분류 장치.
제1항에 있어서,

상기 클러스터 분류부는,

상기 검색 키워드 클러스터 간에 연관성을 고려하여 상기 검색 키워드 클러스터를 주제별로 분류하는 것을 특징으로 하는 검색 키워드 분류 장치.
제1항에 있어서,

상기 클러스터 분류부는,

최초로 생성된 검색 키워드 클러스터에 대해 주제별로 분류하여 시드 클러스터를 생성하고, 상기 생성된 시드 클러스터를 기초로 미리 설정한 주기별로 생성된 검색 키워드 클러스터를 주제별로 분류하는 것을 특징으로 하는 검색 키워드 분류 장치.
제1항에 있어서,

상기 주제를 포함하는 제1 계층, 상기 주제로 분류된 검색 키워드 클러스터를 포함하는 제2 계층 및 상기 검색 키워드 클러스터에 대한 검색 키워드를 포함하는 제3 계층으로 구성된 데이터 계층도를 생성하는 데이터 계층도 생성부

를 더 포함하는 검색 키워드 분류 장치.
제9항에 있어서,

상기 데이터 계층도 생성부는,

상기 주제에 포함된 검색 키워드의 검색 횟수에 따라 상기 제1 계층에 대한 상기 주제별 사이즈를 결정하고,

상기 검색 키워드 클러스터에 포함된 검색 키워드의 검색 횟수에 따라 상기 제2 계층에 대한 상기 검색 키워드 클러스터별 사이즈를 결정하고,

상기 검색 키워드의 검색 횟수에 따라 상기 제3 계층에 대한 상기 검색 키워드별 사이즈를 결정하는 것을 특징으로 하는 검색 키워드 분류 장치.
검색 키워드 분류 장치가 수행하는 검색 키워드 분류 방법에 있어서,

상기 검색 키워드 분류 장치의 연관 키워드 추출부가 사용자가 입력한 검색 키워드에 대해 연관 키워드를 추출하는 단계;

상기 검색 키워드 분류 장치의 클러스터 생성부가 상기 추출된 연관 키워드를 이용하여 검색 키워드 클러스터를 생성하는 단계; 및

상기 검색 키워드 분류 장치의 클러스터 분류부가 상기 검색 키워드 클러스터를 주제에 따라 분류하여 사용자 검색 의도를 반영하는 단계

를 포함하는 검색 키워드 분류 방법.
제11항에 있어서,

상기 연관 키워드를 추출하는 단계는,

일정 기간 동안 검색 횟수가 미리 설정한 검색 횟수 이상인 검색 키워드에 대해 연관 키워드를 추출하는 것을 특징으로 하는 검색 키워드 분류 방법.
제11항에 있어서,

상기 연관 키워드를 추출하는 단계는,

키워드의 검색 횟수에 따른 연관 규칙, 사용자의 IP 주소에 따른 연관 규칙 또는 사용자 식별 정보에 따른 연관 규칙 중 어느 하나의 연관 규칙에 기초하여 상기 검색 키워드에 대한 연관 키워드를 추출하는 것을 특징으로 하는 검색 키워드 분류 방법.
제11항에 있어서,

상기 검색 키워드 클러스터를 생성하는 단계는,

상기 검색 키워드 분류 장치의 클러스터 생성부가 상기 연관 키워드를 매개로 하여 상기 검색 키워드의 연결 관계를 생성하는 단계; 및

상기 검색 키워드 분류 장치의 클러스터 생성부가 상기 검색 키워드의 연결 관계로부터 상기 검색 키워드 클러스터를 생성하는 단계

를 포함하는 검색 키워드 분류 방법.
제14항에 있어서,

상기 검색 키워드 클러스터를 생성하는 단계는,

상기 검색 키워드 사이에 연결 강도에 기초하여 상기 검색 키워드 클러스터를 생성하고,

상기 연결 강도는,

상기 검색 키워드 사이에 공통된 연관 키워드가 많을수록 증가하는 것을 특징으로 하는 검색 키워드 분류 방법.
제15항에 있어서,

상기 검색 키워드 클러스터를 생성하는 단계는,

상기 검색 키워드의 연결 관계에 범주형 클러스터링 기법을 적용하여 상기 검색 키워드 클러스터를 생성하는 것을 특징으로 하는 검색 키워드 분류 방법.
제11항에 있어서,

상기 검색 키워드 클러스터를 주제에 따라 분류하여 사용자 검색 의도를 반영하는 단계는,

상기 검색 키워드 클러스터 간에 연관성을 고려하여 상기 검색 키워드 클러스터를 주제별로 분류하는 것을 특징으로 하는 검색 키워드 분류 방법.
제11항에 있어서,

상기 검색 키워드 클러스터를 주제에 따라 분류하여 사용자 검색 의도를 반영하는 단계는,

상기 검색 키워드 분류 장치의 클러스터 분류부가 최초로 생성된 검색 키워드 클러스터에 대해 주제별로 분류하여 시드 클러스터를 생성하는 단계; 및

상기 검색 키워드 분류 장치의 클러스터 분류부가 상기 생성된 시드 클러스터를 기초로 미리 설정한 주기별로 생성된 검색 키워드 클러스터를 주제별로 할당하는 단계

를 포함하는 검색 키워드 분류 방법.
제11항에 있어서,

상기 검색 키워드 분류 장치의 데이터 계층도 생성부가 상기 주제를 포함하는 제1 계층, 상기 주제로 분류된 검색 키워드 클러스터를 포함하는 제2 계층 및 상기 검색 키워드 클러스터에 대한 검색 키워드를 포함하는 제3 계층으로 구성된 데이터 계층도를 생성하는 단계

를 더 포함하는 검색 키워드 분류 방법.
제19항에 있어서,

상기 데이터 계층도를 생성하는 단계는,

상기 검색 키워드 분류 장치의 데이터 계층도 생성부가 상기 주제에 포함된 검색 키워드의 검색 횟수에 따라 상기 제1 계층에 대한 상기 주제별 사이즈를 결정하는 단계;

상기 검색 키워드 분류 장치의 데이터 계층도 생성부가 상기 검색 키워드 클러스터에 포함된 검색 키워드의 검색 횟수에 따라 상기 제2 계층에 대한 상기 검색 키워드 클러스터별 사이즈를 결정하는 단계; 및

상기 검색 키워드 분류 장치의 데이터 계층도 생성부가 상기 검색 키워드의 검색 횟수에 따라 상기 제3 계층에 대한 상기 검색 키워드별 사이즈를 결정하는 단계

를 포함하는 검색 키워드 분류 방법.
제11항 내지 제20항 중 어느 한 항의 방법을 실행하기 위한 프로그램이 기록된 컴퓨터에서 판독 가능한 기록 매체.