KR100493688B1

KR100493688B1 - 키워드확장장치 및 방법과 키워드확장장치를 이용한검색시스템

Info

Publication number: KR100493688B1
Application number: KR20030001134A
Authority: KR
Inventors: 문병로
Original assignee: 주식회사 옵투스
Priority date: 2003-01-08
Filing date: 2003-01-08
Publication date: 2005-06-03
Also published as: KR20040063641A

Abstract

본 발명은 키워드확장장치 및 방법과 키워드확장장치를 이용한 검색시스템에 관한 것으로, 본 발명은 검색 대상 문서들에 출현하는 키워드들을 노드로 지정하고 노드간의 연결을 키워드간의 연관관계로 지정한 후 각 키워드간의 연관관계에 따른 연관정도를 연관강도값으로 표현하는 커넥션 네트워크를 이용하여 사용자가 문서검색을 위해 입력한 검색키워드에 연관되는 키워드들인 연관키워드들을 추출하고, 추출된 연관키워드들 중 검색키워드와의 연관성이 높은 연관키워드들의 각 문서에서의 비중을 고려하여 검색키워드에 의해 검색된 문서들의 순위를 조정하는 키워드확장장치 및 방법과, 사용자가 문서검색을 위해 입력한 검색키워드에 의거하여 문서들을 검색하고 검색된 문서들의 순위를 키워드확장장치를 통해 조정한 후, 그 조정된 순위에 준하여 문서들을 제공하는 키워드확장장치를 이용한 검색시스템을 제공하는 것을 특징으로 한다. 본 발명에 의하면, 사용자의 검색의도에 보다 근접한 문서들을 우선적으로 제공할 수 있다는 장점이 있다.

Description

키워드확장장치 및 방법과 키워드확장장치를 이용한 검색시스템{Apparatus and method for expanding keyword and search system using keyword expansion apparatus}

본 발명은 키워드확장장치 및 방법과 키워드확장장치를 이용한 검색시스템에 관한 것으로서, 보다 상세하게는 검색 대상인 문서들에 출현하는 키워드들을 노드로 지정하고 노드간의 연결을 키워드간의 연관관계로 지정한 후 각 키워드간의 연관관계에 대한 연관정도를 연관강도값으로 표현하는 커넥션 네트워크(connection network)를 이용하여 사용자가 문서검색을 위해 입력한 검색키워드에 연관되는 키워드들인 연관키워드들을 추출한 후, 추출된 연관키워드들 중 해당 검색키워드와의 높은 연관성을 갖는 연관키워드들을 참조하여 검색키워드에 의해 검색된 문서들의 순위를 조정하는 키워드확장장치 및 방법과, 사용자가 문서검색을 위해 입력한 검색키워드를 바탕으로 문서들을 검색하여 검색된 문서들의 순위를 키워드확장장치를 통해 조정한 후 그 조정된 순위에 준하여 문서들을 제공함으로써 사용자의 검색의도에 근접한 문서들을 우선적으로 제공하는 키워드확장장치를 이용한 검색시스템에 관한 것이다.

최근 들어, 인터넷이 널리 보급됨으로써, 대부분의 문서를 컴퓨터로 작성하고 이들 문서를 인터넷을 통해 배포하고 획득하는 것이 일반화되고 있다. 따라서, 전문가뿐만 아니라 일반인들도 통신망(예컨대, 인터넷)에 접속하여 관심있는 분야에 대한 정보를 제공하거나 획득하는 경우가 많다. 이처럼 통신망을 통해 관심있는 분야에 대한 정보를 불특정 다수의 일반인들이 공유할 수 있도록 하기 위해서는 인터넷 상에서 동작하는 검색시스템(또는 검색엔진이라고도 함)들이 이용되고 있다. 특히, 유용하게 사용되고 있는 검색시스템으로는 알타비스타(altavista), 야후(yahoo), 인포시크(infoseek), 라이코스(lycos), 엠파스(empas) 등이 있다.

이러한 검색시스템들은, 로봇이라 불리는 일종의 자동순회프로그램(예컨대, robots, wanderers, spiders, worm 등)에 의해 인터넷을 이용하여 제공되는 모든 문서들에 대한 색인 정보(또는 키워드정보라 함) 및 기본 정보들을 데이터베이스 형태로 저장한다. 이때, 문서들에 대한 기본정보라 함은 해당 문서의 제목(title), 크기(size), 날짜(date), 그 문서가 저장된 웹사이트의 주소, 요약문 등을 포함하고, 문서들에 대한 키워드정보라 함은 해당 문서에 출현하는 키워드들, 키워드별 출현빈도 등을 포함한다. 그리고, 검색시스템은 외부에서 문서를 검색하기 위한 검색키(이하, 검색키워드라 함)를 입력하면, 그 검색키워드에 의해 데이터베이스를 검색하여 검색리스트를 해당 사용자에게 제공한다.

즉, 검색시스템들은 사용자들이 입력한 검색키워드에 의해 문서들을 검색하고, 검색된 문서들의 순위를 상기 검색키워드의 출현빈도 등에 의거하여 결정한 후 그 순위에 준하는 검색리스트를 생성하여 사용자에게 제공하고, 사용자가 해당 검색리스트를 참조하여 선택한 문서의 내용을 사용자에게 제공하는 것을 기본 기능으로 한다.

상술한 바와 같이, 기존의 검색시스템들은 사용자가 입력한 검색키워드에 의해 문서들을 검색한 후 검색된 문서들의 순위를 단순히 검색키워드의 정보(예컨대, 출현빈도)에 의해서만 결정한다. 그 결과, 사용자가 우선적으로 제공받고자 하는 문서가 아닌 다른 문서를 1순위로 하여 제공하는 경향이 있다.

예를 들어, 사용자가 '여행'이라는 검색키워드를 입력한 경우, 기존의 검색시스템들은 단순히 '여행'이라는 검색키워드가 출현하는 문서들을 검색하여 검색된 문서들의 순위를 '여행'의 출현빈도에 의해 결정한 후 그 결정된 순위로 검색된 문서들을 사용자에게 제공한다. 이러한 경우, 사용자는 '여행'이라는 검색키워드를 입력함으로써 여행지정보, 각 여행지를 방문하기 위한 교통수단정보 및 교통수단이용요금정보, 숙박정보 등을 함께 알고 싶어할 수도 있다.

그러나, 기존의 검색시스템은 단순히 '여행'이라는 검색키워드에만 의존하여 문서를 검색하여 제공함으로써 사용자의 검색의도와는 다소 무관한 검색결과를 제공하는 경향이 있었다.

한편, 사용자가 '파리 여행'이라는 키워드 집합으로 이루어진 검색키워드를 입력한 경우에 대하여 기존 검색시스템의 동작을 설명하면 다음과 같다. 먼저, '파리'라는 단어가 나타나는 문서들은 대체적으로 프랑스 파리와 곤충으로서의 파리를 다루고 있을 것이다. 만일, '파리'를 기준으로 하여 검색된 문서들 중 임의의 문서에 '여행'이라는 단어가 명시적으로 나타나지는 않지만 파리의 호텔숙박정보나 여행사정보 또는 예약정보 등이 나타난다면 해당 문서는 매력적인 문서가 될 수 있다. 한편, 검색키워드에 '여행'이라는 단어가 있음으로써 곤충으로서의 파리를 다루는 문서는 매력이 없어진다.

결과적으로, 기존의 검색시스템은 명시적 검색키워드에 국한한 검색동작을 수행하므로, 곤충으로서의 파리를 다루는 문서들과 여행을 다루는 문서를 같은 매력을 가진 문서로 취급할 수밖에 없는 실정이다.

따라서, 본 발명은 상기한 바와 같은 종래의 제반 문제점을 해결하기 위하여, 검색 대상인 문서들에 출현하는 키워드들을 노드로 지정하고 노드간의 연결을 키워드간의 연관관계로 지정한 후 각 키워드간의 연관관계에 따른 연관정도를 연관강도값으로 표현하는 커넥션 네트워크를 이용하여 사용자가 문서검색을 위해 입력한 검색키워드에 연관되는 키워드들인 연관키워드들을 추출한 후, 추출된 연관키워드들 중 해당 검색키워드와의 높은 연관성을 갖는 연관키워드들을 참조하여 검색키워드에 의해 검색된 문서들의 순위를 조정할 수 있도록 하는 키워드확장장치 및 방법을 제공하는데 그 목적이 있다.

본 발명의 다른 목적은 사용자가 문서검색을 위해 입력한 검색키워드를 바탕으로 문서들을 검색하여 검색된 문서들의 순위를 키워드확장장치를 통해 조정한 후 그 조정된 순위에 준하여 문서들을 제공함으로써 사용자의 검색의도에 근접한 문서들을 우선적으로 제공할 수 있도록 한 키워드확장장치를 이용한 검색시스템을 제공하는데 있다.

상기 목적을 달성하기 위한 본 발명에 따른 키워드확장장치는 검색 대상 문서들에 출현하는 키워드들을 노드로 지정하고 노드간의 연결을 키워드간의 연관관계로 지정한 후 각 키워드간의 연관관계에 따른 연관정도를 연관강도값으로 표현하는 커넥션 네트워크를 이용하여, 사용자가 문서검색을 위해 입력한 검색키워드에 연관되는 키워드들인 연관키워드들을 추출하는 연관키워드추출부; 상기 입력된 모든 검색키워드와 상기 추출된 각 연관키워드들간의 연관강도값을 가중 합산함으로써 산출되는 결과값이 기 설정된 기준치 이상인 경우에 한하여 해당 결과값에 매칭되는 연관키워드를 확장키워드로 설정하는 확장키워드설정부; 및 상기 설정된 확장키워드의 상세정보와 입력된 모든 검색키워드의 상세정보를 참조하여 상기 검색키워드에 의해 검색된 문서들의 순위를 조정한 후 그 순위에 준하는 문서리스트를 생성하는 문서순위결정부를 포함하여 구성되는데 그 특징이 있다.

한편, 상기 목적을 달성하기 위한 본 발명에 따른 키워드확장방법은 (a) 검색 대상 문서들에 출현하는 키워드들을 노드로 지정하고 노드간의 연결을 키워드간의 연관관계로 지정하고 각 키워드간의 연관관계에 따른 연관정도를 연관강도값으로 표현하는 커넥션 네트워크를 이용하여 사용자가 문서검색을 위해 입력한 검색키워드에 연관되는 키워드들인 연관키워드들을 추출하는 단계; (b) 상기 추출된 각 연관키워드와 상기 입력된 검색키워드간의 연관강도값을 가중 합산함으로써 산출되는 결과값이 기 설정된 기준치 이상인 경우에 한하여 해당 결과값에 매칭되는 연관키워드를 확장키워드로 설정하는 단계; 및 (c) (b)단계에서 설정된 각 확장키워드의 상세정보와 입력된 검색키워드의 상세정보를 참조하여 상기 검색키워드에 의해 검색된 문서들의 순위를 조정한 후 그 순위에 준하는 문서리스트를 생성하는 단계를 포함하여 이루어지는데 그 특징이 있다.

또한, 상기 다른 목적을 달성하기 위한 본 발명에 따른 키워드확장장치를 이용한 검색시스템은 검색 대상 문서들에 대한 기본정보 및 그 검색 대상 문서들에 출현하는 키워드들에 대한 상세정보를 데이터베이스로 구축하여 관리하고, 사용자가 문서검색을 위한 검색키워드를 입력하면 상기 데이터베이스를 참조하여 상기 검색키워드에 대한 문서들을 검색하는 문서관리부; 상기 검색 대상 문서들에 출현하는 키워드들을 노드로 지정하고 노드간의 연결을 키워드간의 연관관계로 지정한 후 각 키워드간의 연관관계에 따른 연관정도를 연관강도값으로 표현하는 커넥션 네트워크를 키워드연관데이터베이스로 구축하여 관리하는 키워드연관관리부; 사용자가 문서검색을 위한 검색키워드를 입력하면, 키워드연관데이터베이스를 참조하여 상기 검색키워드에 연관되는 연관키워드들을 추출하고, 추출된 각 연관키워드와 입력된 모든 검색키워드간의 연관강도값을 가중 합산함으로써 산출되는 결과값에 의거하여 소정 연관키워드를 확장키워드로 설정하고, 설정된 확장키워드의 상세정보와 상기 검색키워드의 상세정보를 참조하여 문서관리부로부터 검색된 문서들의 순위를 조정한 후 그 조정된 순위에 준하는 문서리스트를 생성하는 키워드확장장치; 및 상기 생성된 문서리스트를 사용자에게 제공한 후, 그 문서리스트를 참조하여 사용자가 선택한 문서의 내용을 해당 사용자에게 제공하는 문서제공부를 포함하여 구성되는데 그 특징이 있다.

이하, 본 발명에 따른 키워드확장장치 및 방법과 키워드확장장치를 이용한 검색시스템에 대한 바람직한 실시예를 첨부된 도면에 의거하여 상세하게 설명한다.

도 1은 본 발명의 실시예에 따른 키워드확장장치에 대한 개략적인 구성도이다. 도 1을 참조하면, 본 발명에 따른 키워드확장장치(10)는 연관키워드추출부(11), 확장키워드설정부(12) 및 문서순위결정부(13)를 포함하여 구성된다.

이때, 본 발명에 따른 키워드확장장치(10)는 기 구비된 키워드연관DB(20)를 이용한다. 여기서, 키워드연관DB(20)는 검색 대상인 문서들에 출현하는 키워드들을 노드로 지정하고 노드간의 연결을 키워드간의 연관관계로 지정한 후 각 키워드간의 연관관계에 따른 연관정도를 연관강도값으로 표현하는 커넥션 네트워크(connection network)에 대하여, 그 커넥션 네트워크를 형성하기 위한 데이터를 저장하는 데이터베이스이다.

여기서, 본 발명에 따른 키워드확장장치(10)를 설명하기에 앞서, 상기 키워드연관DB(20)에 저장되는 데이터의 테이블 구조에 대한 예를 설명하면, 아래에 제시된 표 1과 같다.

키워드	연관키워드들	연관강도값
파리	프랑스	0.023
	곤충	0.021
	유럽	0.020
	음악	0.015
	모기	0.013
	관광	0.008
	호텔	0.007
여행	관광	0.024
	호텔	0.023
	여행사	0.019
	예약	0.013
	여가	0.012
	프랑스	0.008
	비디오	0.010

표 1에 제시된 바와 같이, 파리, 여행, 프랑스, 곤충,..,비디오 등을 키워드라 할 경우, 해당 키워드들을 바탕으로 한 커넥션 네트워크가 형성될 것이다. 이때, 키워드연관DB(20)에는 임의의 한 키워드(예컨대, 파리)를 노드로 하여 그 노드에 연결되는 노드들 즉, 타 키워드들(예컨대, 프랑스, 곤충,..,호텔)(이하, 임의의 한 키워드에 대하여 그 키워드에 연관되는 키워드들을 연관키워드들이라 함)과, 노드간의 연결에 의해 지정된 키워드간의 연관관계에 따른 연관정도를 나타내는 연관강도값이 저장된다.

여기서, 커넥션 네트워크를 이루고 있는 각 키워드간의 연관강도값은 아래의 수학식 1에 정의된 연관강도산출함수[f(x,y)]에 의해 산출된다.

x, y는 서로 다른 두 키워드이고, n(x)는 x가 출현하는 문서의 수이고, n(y)는 y가 출현하는 문서의 수이고, n(x,y)는 x, y가 동시에 출현하는 문서의 수이고, c₁ 및 c₂는 상수이다. 이때, n(x), n(y) 및 n(x,y)는 사용자가 문서검색을 위해 접속한 검색시스템에서 이미 관리되고 있는 데이터를 이용하여 획득할 수 있는 값들이다.

검색시스템은 검색 대상인 문서들에 대한 기본정보와, 해당 문서들에 대하여 출현하는 키워드들에 대한 상세정보를 데이터베이스로 구축하여 관리하고 있다. 이때, 문서들에 대한 기본정보에는 문서의 제목, 크기(또는 길이라 함), 그 문서를 제공하는 웹사이트 주소 및 그 문서의 생성날짜 등이 포함된다. 한편, 키워드들에 대한 상세정보에는 검색 대상인 문서들에 대하여 출현하는 각 키워드별로 그 키워드가 출현하는 문서에 대한 문서정보(예컨대, 문서ID, 문서 길이)와, 각 문서별 키워드들의 출현빈도 및 역출현빈도(IDF : Inverse Document Frequency) 등이 포함된다. 그리고, 검색 대상인 문서들이란 통신망(예컨대, 인터넷)을 통해 제공되는 모든 문서들을 나타낸다.

여기서, 각 문서별 키워드들의 출현빈도 및 역출현빈도에 대한 산출방법은 문서검색분야에서 이미 광범위하게 사용되고 있는 기술이므로 본 명세서에서는 그 구체적인 언급을 생략한다.

결과적으로, 검색시스템은 상기 데이터베이스로 구축된 키워드별 상세정보(엄밀히 말하면, 키워드별 상세정보 중 키워드가 출현하는 문서ID들을 통해 산출되는 문서의 수를 이용함)를 연관강도산출함수[f(x,y)]에 이용하여 각 키워드간의 연관강도값을 산출한 후, 각 키워드와 그 키워드에 연관되는 연관키워드들 및 연관키워드별 연관강도값을 키워드연관DB(20)에 저장함으로써 커넥션 네트워크를 데이터베이스 형태로 구축할 수 있을 것이다. 한편, 검색시스템은 지속적인 문서수집으로 획득된 키워드별 상세정보에 의거하여 키워드연관DB(20)를 갱신함으로써 커넥션 네트워크를 계속해서 보강할 수 있음은 당연하다.

이와 같은 과정으로 형성된 커넥션 네트워크는 유사어나 반의어 목록을 제공하는 기존의 유의어사전(시소러스, thesaurus)에 비해 실제 문서들에 출현하는 키워드간의 연관관계를 반영하므로, 키워드에 대한 유의어목록 제공범위를 벗어나 키워드간의 실제적 연관관계를 제공할 수 있다.

이하, 본 발명에 따른 키워드확장장치(10)를 설명하면, 키워드확장장치(10)의 연관키워드추출부(11)는 검색시스템(도시생략)에 접속한 후 문서검색을 위한 키워드(이하, 검색키워드라 함)를 입력하면, 키워드연관DB(20)를 검색하여 상기 검색키워드에 연관되는 키워드들(이하, 연관키워드들이라 함)을 추출한다. 예컨대, 검색키워드가 '파리' 및 '여행'일 경우, '파리'에 연관되는 연관키워드들인 '프랑스', '곤충',..'호텔' 등을 추출하고, '여행'에 연관되는 연관키워드들인 '관광', '호텔',..,'비디오' 등을 추출한다.

확장키워드설정부(12)는 연관키워드추출부(11)로부터 추출된 각 연관키워드들과 현재 입력된 검색키워드간의 연관강도값을 키워드연관DB(20)로부터 추출한다. 예컨대, 검색키워드가 '파리', '여행'일 경우, 검색키워드인 '파리'에 연관되는 연관키워드들인 '프랑스', '곤충',..,'호텔' 각각과 '파리'와의 연관강도값인 '0.023', '0.021',..,'0.007'을 추출하고, 마찬가지로, 검색키워드인 '여행'에 대하여도 연관강도값을 추출한다. 그리고, 상기 검색키워드(예컨대, 파리, 여행)와 연관키워드들간의 연관강도값을 키워드확장함수[s(y)]의 입력값으로 이용하여 결과값을 산출한다.

여기서, 키워드확장함수[s(y)]는 아래의 수학식 2에 정의된 바와 같다.

x_i는 검색키워드이고, y는 커넥션 네트워크 상에서 검색키워드(x_i)와 연관되는 연관키워드이고, k는 검색키워드(x_i)의 개수이고, w_r는 연관키워드(y)가 복수 개(r)의 검색키워드에 동시 연관됨에 따라 부여되는 가중치이고, N(x_i)는 커넥션 네트워크 상에서 검색키워드(x_i)에 연관되는 연관키워드들의 집합이다.

예를 들어, 검색키워드가 '파리' 및 '여행'일 경우, '파리' 및 '여행'에 동시 연관되는 연관키워드들은 표 1에 의거하여, '프랑스, 관광, 호텔'임을 알 수 있다. 이때, 연관키워드인 '프랑스'에 대한 결과값은 키워드확장함수[s(y)]를 통해 's(프랑스)={f(파리, 프랑스)+f(여행, 프랑스)}×1.5=(0.023+0.008)×1.5=0.056'으로 산출된다. 여기서, 가중치(w_r)는 이미 정해져 있는 값으로서, 가중치(w_r)는 연관키워드가 동시 연관되는 검색키워드의 수에 따라 다르게 설정된다. 한편, 가중치(w_r)가 모두 '1'이면 동시 연관에 대한 우대가 없는 것으로, 이 것은 조정할 수 있는 값이다. 마찬가지로, 검색키워드인 '파리' 및 '여행'에 동시 연관되는 연관키워드인 '관광'에 대한 결과값은 '0.048'로 산출되고, '호텔'에 대한 결과값은 '0.045'로 산출된다.

이후, 확장키워드설정부(12)는 키워드확장함수[s(y)]를 통해 산출된 각 연관키워드별 결과값 중 기 설정된 기준치 이상인 결과값에 한하여 그 결과값에 매칭되는 연관키워드를 확장키워드로 설정한다. 여기서, 기준치는 임의로 설정된 고정된 값이거나 또는 검색키워드와 그 검색키워드에 연관되는 연관키워드들간의 각 연관강도값을 평균한 평균값(M)과 표준편차(σ)를 이용하여 산출되는 값(예컨대, M+2σ)으로 설정될 수 있다.

문서순위결정부(13)는 확장키워드설정부(12)로부터 설정된 확장키워드의 상세정보와 검색키워드의 상세정보를 참조하여, 해당 검색키워드에 의해 검색된 문서들의 점수를 산정한 후 그 산정된 점수에 의거하여 문서들의 순위를 조정한다. 이때, 확장키워드의 상세정보에는 검색키워드에 의해 검색된 문서들에 대하여 각 문서별 확장키워드의 출현빈도 및 역출현빈도와 결과값 등이 포함된다. 그리고, 검색키워드의 상세정보에는 해당 검색키워드에 의해 검색된 문서들에 대하여 각 문서별 검색키워드의 출현빈도 및 역출현빈도 등이 포함된다.

여기서, 문서순위결정부(13)는 검색된 문서들과, 그 검색된 문서들에 대한 확장키워드들의 출현빈도 및 역출현빈도와, 그 검색된 문서들에 대한 검색키워드의 출현빈도 및 역출현빈도는 검색시스템으로부터 입력받는다.

이하, 아래에 제시된 표 2를 예로 들어, 문서순위결정부(13)가 검색된 문서들의 순위를 조정하는 과정을 설명하면 다음과 같다.

검색문서ID	검색키워드 상세정보			확장키워드 상세정보				문서길이(⑥)	문서점수
검색문서ID	검색키워드	출현빈도(①)	역출현빈도(②)	확장키워드	출현빈도(③)	역출현빈도(④)	결과값(⑤)	문서길이(⑥)	문서점수
문서1	파리	4	0.904	프랑스	3	0.867	0.056	858	5.588
				관광	2	0.544	0.048
	여행	2	0.486	호텔	2	0.618	0.045
문서2	파리	5	0.904	프랑스	1	0.867	0.056	548	2.213
				관광	2	0.544	0.048
	여행	1	0.486	호텔	0	0.618	0.045
문서3	파리	3	0.904	프랑스	1	0.867	0.056	370	1.702
				관광	0	0.544	0.048
	여행	3	0.486	호텔	0	0.618	0.045

표 2는 사용자가 문서검색을 위해 입력한 검색키워드를 '파리' 및 '여행'이라 할 경우, 그 검색키워드에 의해 산출되는 데이터를 제시한 일 예이다.

표 2에 제시된 각 검색된 문서들(즉, 검색문서들)에 대한 점수는 아래에 제시된 수학식 3에 의해 산출된다.

여기서, a1,..,a4 및 x1,..,x4는 가변적으로 선택할 수 있는 계수 및 지수로서 유전 알고리즘과 같은 기법으로 최적화할 수 있다. 수학식 3을 이용하여 검색된 문서들 중 '문서1'에 대한 점수를 산정하면 다음과 같다. 예를 들어, a1, a2, a3 및 a4가 각각 0.04, 0.17, 3.7, 0.05로 설정되고, x1, x2, x3 및 x4가 각각 1.2, 1.5, 1.4, 0.35로 설정되었다고 가정한 경우, '문서1'은 '5.588'의 점수로 산정된다. 마찬가지로, 수학식 3을 통해 '문서2'는 '2.213'의 점수로 산정되고, '문서3'은 '1.072'의 점수로 산정된다.

이때, 각 문서별로 산정된 문서점수를 살펴보면, '문서1'에 '파리 여행'이 특별히 더 많이 출현하는 것은 아니지만 확장키워드인 '프랑스, 관광, 호텔'이 해당 '문서1'에 출현하므로 인해 '문서1'이 높은 점수를 받게 됨을 알 수 있다.

결과적으로, 문서순위결정부(13)는 검색된 문서들(즉, 검색문서들)의 점수를 수학식 3에 의거하여 산정한 후 그 점수에 의거하여 각 문서들의 순위를 조정하고 그 조정된 순위에 준하는 문서리스트를 생성한다.

도 2는 본 발명의 실시예에 따른 키워드확장방법에 대한 처리 흐름도이다. 도 2를 참조하면, 먼저, 본 발명에 따른 키워드확장장치는 사용자가 문서검색서비스를 제공하는 검색시스템에 접속한 후 문서검색을 위한 검색키워드를 입력하는지 여부를 판단한다(s10).

상기 판단결과(s10), 검색키워드가 입력되면, 키워드연관DB(20)를 검색하여 상기 검색키워드에 연관되는 연관키워드들을 추출한다(s20). 이때, s20단계의 설명은 연관키워드추출부(11)의 동작 설명시 언급되었으므로 생략한다.

이어서, s20단계에서 추출된 각 연관키워드들과 검색키워드간의 연관강도값을 인지하고(s30), 키워드확장함수[s(y)]를 이용하여 상기 검색키워드에 연관되는 각 연관키워드별 결과값을 산출한다(s40). 이때, 키워드확장함수[s(y)]를 이용하여 각 연관키워드별 결과값을 산출하는 단계(s40)의 설명은 확장키워드설정부(12)의 동작 설명시 언급되었으므로 생략한다.

그리고, s40단계에서 산출된 각 연관키워드별 결과값 중 기 설정된 기준치 이상인 결과값에 한하여 그 결과값에 매칭되는 연관키워드를 확장키워드로 설정한다(s50, s60).

마지막으로, s60단계에서 설정된 확장키워드의 상세정보와 검색키워드의 상세정보를 참조하여 해당 검색키워드에 의해 검색된 문서들의 순위를 조정한 후 그 조정된 순위에 준하는 문서리스트를 생성한다(s70, s80). 이때, s70단계 및 s80단계의 설명은 문서순위결정부(13)의 동작 설명시 언급되었으므로 생략한다.

도 3은 본 발명의 실시예에 따른 키워드확장장치를 이용하는 검색시스템에 대한 운영방법을 개략적으로 나타난 구성도이다.

도 3을 참조하면, 본 발명에 따른 키워드확장장치를 이용한 검색시스템(이하, 본 발명에 따른 검색시스템이라 함)(100)은 사용자가 자신의 단말기(200)를 이용하여 통신망(예컨대, 인터넷)(300)을 통해 검색시스템(100)에 접속한 후 문서검색을 위한 키워드(이하, 검색키워드라 함)를 입력하면, 그 검색키워드에 의거한 문서들을 검색한다. 그리고, 커넥션 네트워크를 이용하여 상기 검색키워드에 연관되는 키워드들(즉, 연관키워드들)을 추출한 후 키워드확장함수[s(y)]를 이용하여 상기 추출된 연관키워드들 중 임의의 연관키워드를 확장키워드로 설정하고, 설정된 확장키워드의 상세정보와 검색키워드의 상세정보에 의거하여 상기 검색된 문서들의 순위를 조정한 후 그 순위에 준하는 문서리스트를 생성하여 사용자에게 제공한다. 이후, 사용자가 문서리스트를 보고 원하는 문서를 선택하면, 인터넷(300)을 통해 그 문서의 기본정보에 포함된 주소에 의해 웹서버(400)로 접속하여 해당 문서의 내용을 추출한 후 사용자에게 제공하는 일련의 과정을 수행한다.

이하, 본 발명에 따른 검색시스템(100)의 동작을 도 4를 참조하여 상세히 설명하기로 한다.

도 4는 본 발명의 실시예에 따른 키워드확장장치를 이용한 검색시스템에 대한 개략적인 구성도이다. 도 4를 참조하면, 본 발명에 따른 검색시스템(100)은 문서관리부(110), 키워드연관관리부(120), 연관키워드추출부(131)와 확장키워드설정부(132) 및 문서순위결정부(133)로 이루어진 키워드확장장치(130), 검색이력관리부(140), 문서제공부(150), 문서DB(160), 키워드DB(170), 키워드연관DB(180) 및 사용자별 검색이력DB(190)를 포함하여 구성된다.

문서DB(160)는 검색 대상인 문서들에 대한 기본정보를 저장한다. 이때, 각 문서들에 대한 기본정보에는 해당 문서의 제목, 크기(또는 길이라 함), 날짜, 그 문서가 저장된 웹사이트의 주소 및 요약문 등이 포함된다. 그리고, 문서DB(150)에 저장되는 기본정보들은 인터넷을 순회하는 로봇들에 의해 얻어진다.

키워드DB(170)는 검색 대상인 문서들에 출현하는 키워드들에 대한 상세정보를 각 키워드별로 저장한다. 이때, 키워드에 대한 상세정보에는 검색 대상인 문서들에 대하여 출현하는 각 키워드별로 해당 키워드가 출현하는 문서에 대한 문서정보(예컨대, 문서ID, 문서 길이)와, 각 문서별 키워드들의 출현빈도 및 역출현빈도 등이 포함된다.

키워드연관DB(180)는 커넥션 네트워크를 형성하는 데이터가 저장된다. 여기서, 상기 키워드연관DB(180)에 대한 설명은 도 1에 도시된 키워드연관DB(20)의 설명시 이미 언급되었으므로 생략한다.

사용자별 검색이력DB(190)는 본 발명에 따른 검색시스템(100)을 이용하여 원하는 문서를 검색한 사용자들에 대하여 각 사용자들의 문서검색에 따른 검색이력정보를 저장한다. 이때, 검색이력정보에는 사용자가 검색시스템(100)을 이용하여 문서검색을 위해 이전에 입력하였던 검색키워드들(이하, 이전 검색키워드들이라 함)과, 각 이전 검색키워드별 검색빈도 및 최근검색날짜와, 각 이전 검색키워드에 의해 검색된 문서들 중 사용자가 실제 접근한(또는 실제로 읽어본) 문서에 대한 접근문서정보 등이 포함된다.

문서관리부(110)는 사용자가 인터넷(300)을 통해 검색시스템(100)에 접속한 후 문서검색을 위한 검색키워드를 입력하면, 그 검색키워드를 가지고 키워드DB(170)를 검색하여 해당되는 문서정보(예컨대, 문서ID)를 도출한 후, 그 도출된 문서정보에 의해 문서DB(160)를 검색하여 사용자가 원하는 문서들을 추출한 후 그 추출된 문서들에 의거한 제1문서리스트를 생성한다. 여기서, 제1문서리스트에는 검색된 문서들뿐만 아니라 검색키워드, 검색된 문서별로 각 검색키워드의 출현빈도 및 역출현빈도 등이 더 포함될 수 있다.

한편, 키워드연관관리부(120)는 키워드DB(170)에 저장된 모든 키워드들에 대하여 각 키워드들을 노드로 지정하고 노드간의 연결을 키워드간의 연관관계로 지정한 후 각 키워드간의 연관관계에 따른 연관정도를 연관강도값으로 표현하는 커넥션 네트워크를 키워드연관DB(180)로 구축한다. 여기서, 키워드연관DB(180)에 저장되는 데이터(엄밀히 말하면, 커넥션 네트워크를 형성하는 데이터인 키워드들 및 각 키워드간의 연관정도를 나타내는 연관강도값을 의미함)의 테이블 구조에 대한 설명은 이미 언급되었으므로 생략한다.

키워드확장장치(130)의 연관키워드추출부(131)는 사용자에 의해 입력된 검색키워드를 가지고 키워드연관DB(180)를 검색하여 해당 검색키워드에 연관되는 연관키워드들을 추출한다. 여기서, 상기 연관키워드추출부(131)의 동작은 도 1에 도시된 연관키워드추출부(11)의 동작과 유사하므로 중복되는 설명은 생략하기로 한다.

키워드확장장치(130)의 확장키워드설정부(132)는 연관키워드추출부(131)로부터 추출된 연관키워드들을 입력받아, 입력된 각 연관키워드를 가지고 키워드연관DB(180)를 검색하여 각 연관키워드와 검색키워드간의 연관강도값을 추출한 후 추출된 각 연관키워드별 연관강도값을 키워드확장함수[s(y)]의 입력값으로 이용하여 결과값을 산출한다. 이후, 상기 산출된 각 연관키워드별 결과값 중 기 설정된 기준치 이상인 결과값에 한하여 그 결과값에 매칭되는 연관키워드를 확장키워드로 설정한다.

키워드확장장치(130)의 문서순위결정부(133)는 확장키워드설정부(132)로부터 확장키워드들 및 각 확장키워드별 결과값을 입력받고, 문서관리부(110)로부터 제1문서리스트와 상기 확장키워드별 출현빈도 및 역출현빈도를 입력받아, 입력된 제1문서리스트에 위치한 문서들의 순위를 조정하여 그 순위에 준하는 제2문서리스트를 생성한다. 여기서, 상기 문서순위결정부(133)에 대한 상세한 설명은 도 1에 도시된 문서순위결정부(13)의 동작 설명시 상세히 언급되었으므로 생략한다. 또한, 검색이력관리부(140)로부터 검색시스템(100)을 통해 현재 문서를 검색하고 있는 사용자의 검색이력정보가 전송되면, 그 검색이력정보를 참조하여 상기 제2문서리스트에 위치한 문서들의 순위를 재조정한 후 그 순위에 준하는 제3문서리스트를 생성한다.

한편, 검색이력관리부(140)는 본 발명에 따른 검색시스템(100)을 이용하여 문서를 검색하는 사용자들에 대한 검색이력정보를 사용자별 검색이력DB(190)에 저장하여 관리하고, 현재 소정의 사용자가 검색시스템(100)에 접속한 후 문서검색작업을 수행하면, 사용자별 검색이력DB(190)로부터 상기 사용자의 검색이력정보를 읽어들여 키워드확장장치(130)의 문서순위결정부(133)로 전송한다.

마지막으로, 문서제공부(150)는 키워드확장장치(130)의 문서순위결정부(133)로부터 제3문서리스트를 입력받아 해당 사용자에게 제공한다. 그리고, 사용자가 제3문서리스트를 보고 원하는 문서를 선택하면, 인터넷(300)을 통해 그 문서의 기본정보에 포함된 주소에 의해 웹서버(400)로 접속하여 해당 문서를 추출한 후 사용자에게 제공한다.

이제까지 본 발명에 대하여 그 바람직한 실시예를 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예는 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

본 발명에 의하면, 검색 대상인 문서들에 출현하는 키워드들을 바탕으로 형성되는 커넥션 네트워크를 이용하여 사용자가 문서검색을 위해 입력한 검색키워드에 연관되는 연관키워드들을 추출하고, 추출된 연관키워드들 중 해당 검색키워드와의 높은 연관성을 갖는 연관키워드들을 참조하여 검색키워드에 의해 검색된 문서들의 순위를 조정한 후, 그 순위에 준하여 검색된 문서들을 사용자에게 제공함으로써 사용자의 검색의도에 보다 근접한 문서들을 우선적으로 제공할 수 있다는 효과가 있다.

또한, 사용자의 검색의도에 보다 근접한 문서들을 우선적으로 제공함으로써 사용자의 문서 검색시간을 보다 단축시켜 줄 수 있다는 효과가 있다.

한편, 사용자가 입력한 검색키워드에 의해 검색된 문서들의 순위를 그 검색키워드와의 연관성이 높은 연관키워드들에 의거하여 조정한 후, 해당 사용자의 검색이력정보에 의해 다시 한번 조정하여 그 결과를 사용자에게 제공함으로써 해당 사용자의 관심분야에 있는 문서들을 우선적으로 제공할 수 있다는 효과가 있다.

도 1은 본 발명의 실시예에 따른 키워드확장장치에 대한 개략적인 구성도,

도 2는 본 발명의 실시예에 따른 키워드확장방법에 대한 처리 흐름도,

도 3은 본 발명의 실시예에 따른 키워드확장장치를 이용하는 검색시스템에 대한 운영방법을 개략적으로 나타난 구성도,

도 4는 본 발명의 실시예에 따른 키워드확장장치를 이용한 검색시스템에 대한 개략적인 구성도이다.

*도면의 주요부분에 대한 부호의 설명*

10 : 키워드확장장치 11 : 연관키워드추출부

12 : 확장키워드설정부 13 : 문서순위결정부

20 : 키워드연결DB

Claims

검색 대상 문서들에 출현하는 키워드들을 노드로 지정하고 노드간의 연결을 키워드간의 연관관계로 지정한 후 각 키워드간의 연관관계에 따른 연관정도를 연관강도값으로 표현하는 커넥션 네트워크를 이용하여, 문서검색을 위해 사용자에 의해 입력된 검색키워드에 연관되는 키워드들인 연관키워드들을 추출하는 연관키워드추출부;

상기 입력된 모든 검색키워드와 상기 추출된 각 연관키워드들간의 연관강도값을 가중 합산함으로써 산출되는 결과값이 기 설정된 기준치 이상인 경우에 한하여 해당 결과값에 매칭되는 연관키워드를 확장키워드로 설정하는 확장키워드설정부; 및

상기 설정된 확장키워드의 상세정보와 입력된 모든 검색키워드의 상세정보를 참조하여 상기 검색키워드에 의해 검색된 문서들의 순위를 조정한 후 그 순위에 준하는 문서리스트를 생성하는 문서순위결정부를 포함하여 구성되는 것을 특징으로 하는 키워드확장장치.
제1항에 있어서,

상기 각 키워드간의 연관강도값은 연관강도산출함수에 의해 산출되고,

상기 연관강도산출함수는

x, y는 서로 다른 두 키워드이고, n(x)는 x라는 키워드가 출현하는 문서의 수이고, n(y)는 y라는 키워드가 출현하는 문서의 수이고, n(x,y)는 x 및 y가 동시에 출현하는 문서의 수이고, c₁ 및 c₂는 상수인 것을 특징으로 하는 키워드확장장치.
제2항에 있어서, 상기 확장키워드설정부는

상기 입력된 모든 검색키워드와 상기 추출된 각 연관키워드들간의 연관강도값을 키워드확장함수의 입력값으로 이용하여 그 키워드확장함수를 통해 결과값을 산출하고, 산출된 연관키워드별 결과값 중 기 설정된 기준치 이상인 결과값에 한하여 그 결과값에 매칭되는 연관키워드를 확장키워드로 설정하는 것을 특징으로 하는 키워드확장장치.
제3항에 있어서,

상기 키워드확장함수는

x_i는 검색키워드이고, y는 커넥션 네트워크 상에서 검색키워드(x_i)와 연관되는 연관키워드이고, k는 검색키워드(x_i)의 개수이고, w_r는 연관키워드(y)가 복수 개(r)의 검색키워드에 동시 연관됨에 따라 부여되는 가중치이고, N(x_i)는 커넥션 네트워크 상에서 검색키워드(x_i)에 연관되는 연관키워드들의 집합인 것을 특징으로 하는 키워드확장장치.
제3항에 있어서, 상기 문서순위결정부는

검색키워드에 의해 검색된 문서들에 대하여 각 문서별 확장키워드의 출현빈도, 역출현빈도 및 결과값으로 이루어진 각 확장키워드의 상세정보와,

상기 검색된 문서들에 대하여 각 문서별 검색키워드의 출현빈도 및 역출현빈도로 이루어진 각 검색키워드의 상세정보를 참조하여 검색된 문서들의 점수를 산정하고, 산정된 각 문서별 점수에 의거하여 문서들의 순위를 조정하는 것을 특징으로 하는 키워드확장장치.
제5항에 있어서, 상기 문서순위결정부는

외부로부터 사용자의 이전 문서검색에 따른 검색이력정보가 입력되면, 이미 순위 결정된 문서들의 순위를 상기 검색이력정보에 포함된 이전 검색키워드들을 참조하여 재조정한 후 그 재조정된 순위에 준하는 문서리스트를 생성하는 것을 특징으로 하는 키워드확장장치.
제6항에 있어서, 상기 검색이력정보에는

사용자가 이전에 문서 검색시 입력하였던 검색키워드들과, 각 검색키워드별 검색빈도 및 최근검색날짜와, 각 검색키워드에 의해 검색된 문서들 중 사용자가 실제 접근한 문서에 대한 접근문서정보가 포함되는 것을 특징으로 하는 키워드확장장치.
(a) 연관키워드추출부가 검색 대상 문서들에 출현하는 키워드들을 노드로 지정하고 노드간의 연결을 키워드간의 연관관계로 지정하고 각 키워드간의 연관관계에 따른 연관정도를 연관강도값으로 표현하는 커넥션 네트워크를 이용하여 문서검색을 위해 사용자에 의해 입력된 검색키워드에 연관되는 키워드들인 연관키워드들을 추출하는 단계;

(b) 확장키워드설정부가 상기 추출된 각 연관키워드와 상기 입력된 검색키워드간의 연관강도값을 가중 합산함으로써 산출되는 결과값이 기 설정된 기준치 이상인 경우에 한하여 해당 결과값에 매칭되는 연관키워드를 확장키워드로 설정하는 단계; 및

(c) 문서순위결정부가 (b)단계에서 설정된 각 확장키워드의 상세정보와 입력된 검색키워드의 상세정보를 참조하여 상기 검색키워드에 의해 검색된 문서들의 순위를 조정한 후 그 순위에 준하는 문서리스트를 생성하는 단계를 포함하여 이루어지는 것을 특징으로 하는 키워드확장방법.
제8항에 있어서, 상기 (b)단계는

(b1) 확장키워드설정부가 커넥션 네트워크를 참조하여 입력된 검색키워드와 그 검색키워드에 연관되는 각 연관키워드간의 연관강도값을 각 연관키워드별로 추출하는 단계와,

(b2) 확장키워드설정부가 (b1)단계에서 추출된 각 연관키워드별 연광강도값을 키워드확장함수의 입력값으로 이용하여 그 키워드확장함수를 통해 각 연관키워드별 결과값을 산출하는 단계와,

(b3) 확장키워드설정부가 (b2)단계에서 산출된 각 연관키워드별 결과값 중 기 설정된 기준치 이상인 결과값에 한하여 그 결과값에 매칭되는 연관키워드를 확장키워드로 설정하는 단계로 이루어지는 것을 특징으로 하는 키워드확장방법.
검색 대상 문서들에 대한 기본정보 및 그 검색 대상 문서들에 출현하는 키워드들에 대한 상세정보를 데이터베이스로 구축하여 관리하고, 사용자가 문서검색을 위한 검색키워드를 입력하면 상기 데이터베이스를 참조하여 상기 검색키워드에 대한 문서들을 검색하는 문서관리부;

상기 검색 대상 문서들에 출현하는 키워드들을 노드로 지정하고 노드간의 연결을 키워드간의 연관관계로 지정한 후 각 키워드간의 연관관계에 따른 연관정도를 연관강도값으로 표현하는 커넥션 네트워크를 키워드연관데이터베이스로 구축하여 관리하는 키워드연관관리부;

사용자가 문서검색을 위한 검색키워드를 입력하면, 키워드연관데이터베이스를 참조하여 상기 검색키워드에 연관되는 연관키워드들을 추출하고, 추출된 각 연관키워드와 입력된 모든 검색키워드간의 연관강도값을 가중 합산함으로써 산출되는 결과값에 의거하여 소정 연관키워드를 확장키워드로 설정하고, 설정된 확장키워드의 상세정보와 상기 검색키워드의 상세정보를 참조하여 문서관리부로부터 검색된 문서들의 순위를 조정한 후 그 순위에 준하는 문서리스트를 생성하는 키워드확장장치; 및

상기 생성된 문서리스트를 사용자에게 제공한 후, 그 문서리스트를 참조하여 사용자가 선택한 문서의 내용을 해당 사용자에게 제공하는 문서제공부를 포함하여 구성되는 것을 특징으로 하는 키워드확장장치를 이용한 검색시스템.
제10항에 있어서, 상기 문서관리부는

검색 대상 문서들의 제목, 크기, 해당 문서를 제공하는 웹사이트 주소 및 그 문서의 생성날짜를 포함하는 각 문서들에 대한 기본정보를 문서데이터베이스로 구축하고,

상기 검색 대상 문서들에 출현하는 각 키워드별로 그 키워드가 출현하는 문서들에 대한 문서정보와, 각 문서별 키워드들의 출현빈도 및 역출현빈도를 포함하는 각 키워드들에 대한 상세정보를 키워드데이터베이스로 구축하는 것을 특징으로 하는 키워드확장장치를 이용한 검색시스템.
제10항에 있어서,

검색시스템을 통해 문서를 검색하는 사용자들에 대한 검색이력정보를 사용자별 검색이력데이터베이스로 구축하여, 각 사용자들의 검색이력정보를 관리하는 검색이력관리부를 더 포함하여 구성되는 것을 특징으로 하는 키워드확장장치를 이용한 검색시스템.