KR20100069118A

KR20100069118A - 질의어 색인 데이터베이스 구축 방법과 그 질의어 색인 데이터베이스를 이용한 질의어 추천 방법

Info

Publication number: KR20100069118A
Application number: KR1020080127708A
Authority: KR
Inventors: 허정; 황이규; 이충희; 오효정; 장명길; 임수종; 김현기; 윤여찬; 최미란; 이창기
Original assignee: 한국전자통신연구원
Priority date: 2008-12-16
Filing date: 2008-12-16
Publication date: 2010-06-24

Abstract

본 발명은 질의어 색인 데이터베이스 구축 방법과 그 질의어 색인 데이터베이스를 이용한 질의어 추천 방법에 관한 것으로서, 대용량 사용자 질의 로그 및 클릭 로그를 활용하여 한번의 질의어 입력만으로 사용자가 원하는 추가 질의를 쉽게 도와줌으로써 사용자의 질의어 입력 및 마우스 클릭을 최소화하고, 기억나지 않는 복잡한 질의어를 사전에 준비함으로써 사용자의 검색 만족도를 향상시킬 수 있으며, 입력 오탈자에 대해서도 강건한 방법을 제공함으로써 사용자 편의성을 극대화할 수 있는 이점이 있다.

관련어 추천, 질의어 로그, 클릭 로그, 문서 분류

Description

질의어 색인 데이터베이스 구축 방법과 그 질의어 색인 데이터베이스를 이용한 질의어 추천 방법{METHOD FOR CONSTRUCTING QUERY INDEX DATABASE, METHOD FOR RECOMMENDING QUERY BY USING THE QUERY INDEX DATABASE}

본 발명은 질의어 색인 데이터베이스의 구축과 이를 이용한 질의어 추천 방법에 관한 것으로서, 더욱 상세하게는 사용자 질의 로그 및 클릭 로그 정보를 이용해 클릭한 문서를 분류하여 해당 질의어를 관심 주제별로 분류 및 색인하는 데이터베이스를 구축하는 방법과 이렇게 구축한 데이터베이스를 이용하여 입력 검색 질의어를 바탕으로 이를 포함하는 질의어 후보를 사용자 로그의 빈도 및 문서 출현 빈도에 따라 정렬 및 필터링하여 관련 질의어를 추천하는 방법에 관한 것이다.

본 발명은 지식경제부 및 정보통신진흥연구원의 IT성장동력기술개발 사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호 : 2008-S-020-01, 과제명 : 웹 QA 기술개발].

일반적으로 웹 검색 시스템을 사용하는 사용자는 한 단어 또는 두 개의 단어로 이루어진 질의어를 입력하고, 웹 검색 시스템은 해당 질의어를 포함하는 검색결 과를 순위화하여 제시한다.

종래 기술에 따른 웹 검색 시스템에서 사용자의 편의성을 증대하기 위해 제공되는 웹 검색 방법을 살펴보면, 관련어 검색 방법과 키워드 자동 완성 검색 방법이 대표적이라 할 수 있다. 이러한 검색 방법들은 사용자가 검색을 위해 비교적 짧은 키워드를 입력하며, 적합한 질의어에 대한 사전 지식이 충분하지 못하기 때문에 이를 보조하기 위한 수단으로 널리 이용되고 있다.

종래의 관련어 검색 방법은, 전문가들이 수동으로 주요한 용어에 대한 관련어집을 구축하며, 이 관련어집에는 용어의 상위어(hypernym), 하위어(hyponym), 동의어(synonym), 관계어 등이 포함되어 있다. 관련어집을 구축하는 경우, 전문가들이 수작업으로 생성하기 때문에 시간과 비용이 많이 요구된다. 이러한 문제를 해결하기 위해, 통계적 방법을 적용하여 관련이 있는 용어들 간의 동시 발생 확률(공기 정보; co-occurrence)을 이용하거나 문서 분류 후에 각 분류 분야에서 두드러지는 용어들을 관련어로 정의하여 이를 사용하여 왔다.

종래의 키워드 자동 완성 검색 방법은, 사용자가 짧은 단어를 입력할 경우에 미리 다음 질의어를 제시해 주는 것이다. 이 경우에는 입력한 질의어가 반드시 앞에 나타나는 사용자 로그를 일반적으로 보여주게 된다. 일부 시스템의 경우, 사용자가 입력한 질의어를 뒷 부분에 포함하는 결과를 보여주기도 한다. 예를 들어, "저그"라는 입력에 대해서 키워드 자동 완성을 통한 일반적인 결과는 "저그빌드, 저글링, 저금통, 저글링4마리, 저그빌드오더, 저그전략, 스타2저그, 스타크래프트 저그, 스타크래프트2저그, 스타저그, …"와 같이 나타난다.

종래의 통계적 방법을 적용한 관련어 검색 방법은, 실제 사용자들의 질의 습관이나 질의어에 포함된 어휘와 실제 문서에서 나타나는 어휘들 사이의 불일치 등이 발생할 수 있는 문제점이 있다.

또한, 짧은 키워드 입력에서 발행하는 어휘 의미 중의성에 의해 문제점을 드러낸다. 예를 들어, "사과"라는 입력에 대해, 과일(fruit)의 의미와 감정표현(apology)에 관련된 키워드들이 혼합되어 제시되는 경우가 많다. 실제 "사과"라는 입력에 대해서 가능한 관련 질의어는 "사과나무, 사과문, 황금사과, 박X경 막말 사과, 이X희 사과, 소X시대 사과문, 사과꽃, 사과식초, 청송사과, …"와 같다.

종래의 키워드 자동 완성 검색 방법은, 입력한 질의어의 종성에 올 수 있는 모든 가능한 후보를 생성해 내기 때문에 사용자의 검색 의도와 차이가 있는 후보도 많이 생성해 내는 문제점이 있다. 예컨대, 앞서 기재한 예시의 경우에는 "저그"를 포함하여 "그"의 종성에 올 수 있는 모든 가능한 후보를 생성해 내기 때문에 사용자의 검색 의도와 차이가 있는 "저글링", "저금통", "저글링4마리" 등의 후보가 생성된다.

또한, 키워드 자동 완성 기능의 특성상, 많은 사용자 질의 로그에 나타나는 입력 키워드가 중간에 포함된 "스타2 저그 공개"나 "스타2저그유닛", "스타저그공략"과 같은 관련 질의어를 제시하지 못한다. 만일 키워드 자동 완성 기능이 이를 수용한다면, 예컨대 "토비스레저그룹"과 같은 오류를 포함할 수도 있다. 또한, 예 컨대 "리니지아이템가격"과 같이 키워드 자동 완성 기능이 대부분 질의어 사이의 공백을 제거함으로써 고품질의 언어분석을 통해 정답을 제시하는 질의응답(question answering) 시스템과 같은 차세대 검색 엔진에서는 언어분석 성능의 저하를 가져오는 문제점이 있다.

본 발명은 이와 같은 종래 기술의 문제점을 해결하기 위해 제안한 것으로서, 사용자 질의 로그 및 클릭 로그 정보를 이용해 클릭한 문서를 분류하여 해당 질의어를 관심 주제별로 분류 및 색인하는 데이터베이스를 구축하는 방법을 제공한다.

본 발명은 질의어 색인 데이터베이스를 이용하여 좀 더 사용자의 검색 욕구에 가까운 질의어를 추천하며, 대용량 사용자 로그를 이용함에 따라 발생할 수 있는 위와 같은 여러 가지 문제점을 극복한 관련 질의어 추천 방법을 제공한다.

본 발명은 사용자가 원하는 정보의 탐색을 위해 질의어를 입력하면, 사용자가 다음에 입력할 질의어를 질의 통계 및 의미적 적합도, 문서 출현빈도, 분야별 질의어 그룹화 등에 기반하여 미리 준비하여 제시한다.

본 발명은 대용량 질의 로그 및 클릭 로그를 분석하여 사용함으로써, 사용자 입력 질의어와 가장 관련이 있으며, 많은 사용자가 검색 엔진에 질의한 단어를 다음 질의어로 추천함으로써, 사용자의 질의 입력을 최소화하면서 원하는 정보를 획득하도록 보조한다.

본 발명은 사용자의 오타 및 띄어쓰기를 감안하여 관련 질의어를 추천함으로써, 언어분석 등에 견고한 관련 질의어 추천이 가능하도록 한다.

본 발명은 로그 빈도 및 실제 웹 문서 출현 정보에 따라 상위 추천어에 속한 관련 질의어를 제시할 뿐만 아니라, 추천하는 관련어들을 의미 있는 분류에 따라 그룹화 하여 추천함으로써, 짧은 입력 질의어가 가지게 되는 의미 중의성을 부분적으로 해결하여 검색 성능에 도움을 준다.

본 발명의 제 1 관점으로서 질의어 색인 데이터베이스 구축 방법은, 질의어 로그 데이터를 정규화하여 대표 질의어 및 이형태 질의어를 선정하는 단계와, 클릭 로그 데이터에 대응하는 클릭 문서 및 상기 질의어 로그 데이터를 관심주제별로 분류하는 단계와, 상기 대표 질의어 및 이형태 질의어를 상기 관심주제에 대한 정보와 함께 색인하여 저장하는 단계를 포함한다.

여기서, 상기 선정하는 단계는, 띄어쓰기의 공백 제거, 편집거리 오타 계산, 영/한타 변환 중에서 적어도 어느 하나의 조건을 이용하여 상기 정규화를 수행하며, 동일한 URL을 가지는 상기 질의어 로그 데이터 중에서 빈도수가 가장 높은 질의어를 상기 대표 질의어로 선정하고, 상기 질의어 로그 데이터 중에서 상기 대표 질의어와 비교할 때에 상기 조건을 만족하지 않은 질의어에 대해 상기 정규화에서 제외한다.

상기 분류하는 단계는, 단순 베이지안 모델(naive bayesian model), 서포트 벡터 머신(Support Vector Machine, SVM), 뉴럴 네트워크(neural network) 중에서 어느 하나의 기계학습 기반 분류를 사용한다.

상기 저장하는 단계는, 상기 동일한 URL을 가지는 질의어 로그 데이터의 빈 도수를 합하여 상기 대표 질의어의 빈도수로 저장하며, 상기 질의어 로그 데이터를 이용한 문서 검색에 의한 공기 빈도의 분석 결과에 따라 공기 빈도수를 함께 저장하고, 상기 질의어 로그 데이터에 포함된 질의어가 한 어절로 이루어져 있으면 해당 질의어가 문서 중 어떠한 빈도로 출현하는지 조사하며, 상기 질의어 로그 데이터에 포함된 질의어가 두 어절 이상인 경우에는 한 문장에 모두 출현한 빈도를 조사하여 상기 공기 빈도를 분석하고, 상기 공기 빈도의 분석에 의거한 필터링을 통해 일부의 상기 질의어 로그 데이터를 상기 색인 및 저장 대상에서 제외한다.

본 발명의 제 2 관점으로서 질의어 색인 데이터베이스를 이용한 질의어 추천 방법은, 질의어 로그 데이터 및 클릭 로그 데이터를 이용하여 구축한 질의어 색인 데이터베이스에서 입력 질의어를 포함하는 질의어 후보를 고빈도 순으로 탐색하는 단계와, 탐색한 상기 질의어 후보의 문자열 중에서 상기 입력 질의어를 기준으로 한 좌측 문자열 또는 우측 문자열에 대한 상기 질의어 색인 데이터베이스의 탐색 결과에 따라 일부의 상기 질의어 후보를 필터링하여 제외하는 단계와, 상기 필터링에 의해 제외되지 않은 상기 질의어 후보를 관심 주제별로 군집화하여 추천 질의어 리스트를 생성하는 단계와, 상기 추천 질의어 리스트에 포함된 추천 질의어를 이용한 문서 검색 결과 및 상기 추천 질의어 리스트를 제공하는 단계를 포함한다.

여기서, 상기 탐색하는 단계는, 상기 질의어 색인 데이터베이스로부터 탐색한 상기 질의어 후보를 상기 질의어 색인 데이터베이스에 저장된 로그 빈도 및 공기 빈도에 따라 정렬한다.

상기 필터링하여 제외하는 단계는, 상기 좌측 문자열이 한 음절로 이루어져 있거나 상기 질의어 로그 데이터에 포함되어 있지 않으면 제외하며, 상기 좌측 문자열이 어절로 분리된 단어를 포함하고 있다면 해당 어절이 상기 질의어 로그 데이터에 포함되어 있지 않으면 제외하고, 상기 우측 문자열이 상기 입력 질의어와 한 어절로 이루어진 경우는 상기 입력 질의어와 상기 우측 문자열을 결합하여 상기 클릭 로그 데이터에 포함되어 있지 않으면 제외하며, 상기 우측 문자열이 상기 입력 질의어와 어절로 분리된 경우는 분리된 어절이 상기 클릭 로그 데이터에 포함되어 있지 않으면 제외하고, 상기 좌측 문자열과 상기 우측 문자열이 모두 나타났을 때에 상기 좌측 문자열에 대한 필터링 결과를 우선하여 적용한다.

상기 추천 질의어 리스트를 생성하는 단계는, 단순 베이지안 모델, 서포트 벡터 머신, 뉴럴 네트워크 중에서 어느 하나의 기계학습 기반 분류를 사용하여 상기 질의어 후보를 관심 주제별로 분류한다.

상기 문서 검색 결과를 제공하는 단계는, 상기 문서 검색 결과에 따라 상기 관심 주제별로 상위 n개(단, n은 자연수)의 검색 결과를 상기 추천 질의어 리스트와 함께 제공한다.

본 발명에 의하면 대용량 사용자 질의 로그 및 클릭 로그를 활용하여 한번의 질의어 입력만으로 사용자가 원하는 추가 질의를 쉽게 도와줌으로써, 사용자의 질의어 입력 및 마우스 클릭을 최소화하고, 기억나지 않는 복잡한 질의어를 사전에 준비함으로써 사용자의 검색 만족도를 향상시킬 수 있다. 또한 입력 오탈자에 대해 서도 강건한 방법을 제공함으로써, 사용자 편의성을 극대화할 수 있는 효과가 있다.

이하, 본 발명의 일부 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 아울러 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.

본 발명에서는 대용량 웹 질의 및 클릭 로그, 웹 콘텐츠 분류 기법을 이용하여 웹 검색 시스템에서 사용자의 입력 질의에 대해 관련 질의어를 자동으로 생성하여 추천함으로써, 사용자가 키보드 입력을 최소화하면서 원하는 정보를 쉽게 검색할 수 있도록 한다. 이를 위해 본 발명은 대용량 사용자 질의어 및 해당 질의어를 통해 얻어진 검색 결과를 이용한 사용자의 클릭 로그를 이용하여 관련 질의어를 추천한다.

도 1은 본 발명에서 관련 질의어 추천을 위하여, 웹 사용자 로그, 클릭 로그 정보, 문서 출현 빈도 정보 등을 이용하여 질의어 색인 데이터베이스(DB)를 구축하는 장치의 구성도이며, 도 2는 질의어 색인 데이터베이스를 구축하는 과정을 설명하기 위한 흐름도이다.

이에 나타낸 바와 같이 본 발명의 실시예에 따른 질의어 색인 데이터베이스의 구축 장치는, 대표 질의어 선정부(110), 관심 주제 분류부(120), 색인 저장 부(130) 등을 포함한다.

대표 질의어 선정부(110)는 로그 데이터베이스(10)로부터 입력되는 질의어 로그 데이터를 정규화하여 대표 질의어 및 이형태 질의어를 선정한다. 이때, 띄어쓰기의 공백 제거, 편집거리 오타 계산, 영/한타 변환 중에서 적어도 어느 하나의 조건을 이용하여 정규화를 수행하며, 동일한 URL(Uniform Resource Locator)을 가지는 질의어 로그 데이터 중에서 빈도수가 가장 높은 질의어를 대표 질의어로 선정하고, 질의어 로그 데이터 중에서 대표 질의어와 비교할 때에 정규화에 적용한 조건을 만족하지 않은 질의어에 대해서는 정규화에서 제외한다.

관심 주제 분류부(120)는 로그 데이터베이스(10)로부터 입력되는 클릭 로그 데이터에 대응하는 클릭 문서 및 질의어 로그 데이터를 관심주제별로 분류한다. 이때, 단순 베이지안 모델, 서포트 벡터 머신, 뉴럴 네트워크 중에서 어느 하나의 기계학습 기반 분류를 사용한다.

색인 저장부(130)는 대표 질의어 및 이형태 질의어를 관심주제에 대한 정보와 함께 색인하여 저장함으로써 질의어 색인 데이터베이스(140)를 구축한다. 이때, 동일한 URL을 가지는 질의어 로그 데이터의 빈도수를 합하여 대표 질의어의 빈도수로 저장하며, 질의어 로그 데이터를 이용한 문서 검색에 의한 공기 빈도의 분석 결과에 따라 공기 빈도수를 함께 저장하고, 질의어 로그 데이터에 포함된 질의어가 한 어절로 이루어져 있으면 해당 질의어가 문서 중 어떠한 빈도로 출현하는지 조사하며, 질의어 로그 데이터에 포함된 질의어가 두 어절 이상인 경우에는 한 문장에 모두 출현한 빈도를 조사하여 공기 빈도를 분석하고, 공기 빈도의 분석에 의거한 필터링을 통해 일부의 질의어 로그 데이터를 색인 및 저장 대상에서 제외한다.

이와 같이 구성된 질의어 색인 데이터베이스의 구축 장치에 의해 질의어 색인 데이터베이스가 구축되는 과정을 살펴보면 다음과 같다.

로그 데이터베이스(10)에 저장된 대용량 질의어는 {"질의어", URL, 빈도수}의 트리플로 구성된다.

대표 질의어 선정부(110)는 대용량 로그 데이터 중의 띄어쓰기 및 철자 오류에 대해 강건한 작용을 위해 정규화를 진행한다(S201). 예를 들어, 아래의 로그는 모두 같은 의미를 가지는 로그로 간주한다.

{"던파", df.hangame.com, 1500}

{"ejsvk", df.hangame.com, 350}

{"던전 앤 파이터", df.hangame.com, 2400}

{"ejswjs dos vkdlxj", df.hangame.com, 232}

{"던전앤 파이터", df.hangame.com, 1405}

{"던전앤파이터", df.hangame.com, 1840}

{"던젼앤파이터", df.hangame.com, 234}

{"던전엔 파이터", df.hangame.com, 35}

{"한컴 게임", df.hangame.com, 123}

…

위의 예는, 동일한 URL을 가지며, 대표 질의어는 가장 클릭 빈도가 높은 질의어를 선택한다. 동일한 URL을 클릭한 질의어 중에서 공백을 제거한 질의어를 비 교 대상으로 하며, 일부는 해당 질의어와 관계가 없는 경우가 발생하는데 이는 일반적으로 널리 알려진 편집거리(edit distance)라는 오타 계산 방법을 이용하며, 영어 자판 환경에서 한글을 입력한 경우에는 이를 한글로 변환한 편집거리 등을 활용하여 정규화 한다. 위의 예에서 "한컴 게임"의 경우에 다른 질의어와 같은 URL을 클릭하지만 같은 URL을 클릭한 가장 빈도가 많은 질의어와 편집거리, 공백 제거, 영/한타 변환 등의 조건을 만족하지 못하므로 대표 질의어의 정규화 계산에서 제외한다.

정규화되어 대표로 선택되는 질의어에 수정된 빈도를 부여한다. 예를 들어 위의 예에서는 "던전 앤 파이터"가 해당 질의어들을 대표하는 질의어가 되며, 빈도수는 위에서 언급된 모든 예제의 빈도수를 합하여 계산한다(S203).

다음으로, 관심주제 분류부(120)는 로그 데이터베이스(10)로부터 입력되는 클릭 로그 데이터에 대응하는 클릭 문서 및 질의어 로그 데이터를 관심주제별로 분류한다(S205).

클릭 문서의 URL은 앞 단계에서 언급한 형태뿐만 아니라 실제 문서의 경로를 모두 포함한다. URL의 예는 아래와 같다.

kudonet.korserve.net/simpleindex.html

tv.sbs.co.kr/smile/

blog.paran.com/cognos57/24170651

media.paran.com/snews/newsview.php?dirnews=202966&year=2008

www.gmdaewoo.co.kr

www.ssu.ac.kr/main.jsp

funlin.net/bbs/board.php?bo_table=f_pds&wr_id=70&sca=%BE%C6%C0%CC%C5%DB%C8%AE%B4%EB

blog.paran.com/lineage111/23526993

www.playforum.net/lineage2/board.comm?action=read&iid=10032009&articleNum=82648&idx=0

…

사용자 질의어 및 클릭된 URL의 문서는 기계학습 기반 문서 분류를 통해 관심 주제별로 분류된다. 예컨대, 관심 주제는 "정치", "경제", "사회", "문화"와 같이 통상적으로 알려진 주제뿐만 아니라 "자동차", "재테크", "게임", "맛집", "취업"과 같이 실생활에서 실제 사용자가 관심을 가지는 모든 주제를 포함한다.

문서 분류는 단순 베이지안 모델, 서포트 벡터 머신, 뉴럴 네트워크 등 다양한 기계학습 기반 방법을 사용할 수 있으며, 이는 널리 알려진 방법으로 상술하지 않는다. 이 단계를 통해 본 발명에서는 사용자가 입력한 질의어가 어떠한 관심주제와 연결되는지를 분석하여 색인한다.

아울러, 색인 저장부(130)는 사용자의 입력 질의어가 웹 문서에서 출현하는지를 조사한다. 질의어가 한 어절로 이루어져 있으면 해당 질의어가 다양한 웹 문서 중 어떠한 빈도로 출현하는지 조사하며, 질의어가 두 어절 이상인 경우에는 한 문장에 두 어절 모두 출현한 빈도를 조사한다. 사용자가 입력한 질의어의 문서 출현 빈도가 현저히 낮거나 발생하지 않으면 이는 일반적으로 사용자의 입력오타나 실수일 가능성이 높다. 질의어 공기 분석을 통해 대표 질의어 선정에 문제가 있는지를 확인하여 필터링하며, 불필요한 질의어는 색인 대상에서 제외하게 된다. 이는 실제 문서에서 발생할 가능성이 매우 낮으므로 계산에서 제외된다(S207).

끝으로, 색인 저장부(130)는 대표 키워드 및 이의 이형태 질의어를 질의어 색인 데이터베이스(140)에 저장하며, 이때 도 5에 나타낸 바와 같이 로그 빈도, 관심주제, 문서 공기빈도를 함께 저장한다(S209).

도 3은 본 발명의 실시예에 따라 질의어 색인 데이터베이스를 이용하여 사용자의 입력에 대해 관련 질의어를 추천하는 질의어 추천 장치의 구성도이며, 도 4는 질의어를 추천하는 과정을 설명하기 위한 흐름도이다.

이에 나타낸 바와 같이 본 발명의 실시예에 따른 질의어 추천 장치는, 질의어 후보 탐색부(310), 질의어 후보 필터링부(320), 추천 질의어 리스트 생성부(330), 문서 검색부(340) 등을 포함한다.

질의어 후보 탐색부(310)는 질의어 로그 데이터 및 클릭 로그 데이터를 이용하여 구축한 질의어 색인 데이터베이스(140)에서 입력 질의어를 포함하는 질의어 후보를 고빈도 순으로 탐색한다. 이때, 질의어 색인 데이터베이스(140)로부터 탐색한 질의어 후보를 질의어 색인 데이터베이스(140)에 저장된 로그 빈도 및 공기 빈도에 따라 정렬한다.

질의어 후보 필터링부(320)는 탐색한 질의어 후보의 문자열 중에서 입력 질의어를 기준으로 한 좌측 문자열 또는 우측 문자열에 대한 질의어 색인 데이터베이스(140)의 탐색 결과에 따라 일부의 질의어 후보를 필터링하여 제외한다. 이때, 좌 측 문자열이 한 음절로 이루어져 있거나 질의어 로그 데이터에 포함되어 있지 않으면 제외하며, 좌측 문자열이 어절로 분리된 단어를 포함하고 있다면 해당 어절이 질의어 로그 데이터에 포함되어 있지 않으면 제외하고, 우측 문자열이 입력 질의어와 한 어절로 이루어진 경우는 입력 질의어와 우측 문자열을 결합하여 클릭 로그 데이터에 포함되어 있지 않으면 제외하며, 우측 문자열이 입력 질의어와 어절로 분리된 경우는 분리된 어절이 클릭 로그 데이터에 포함되어 있지 않으면 제외하고, 좌측 문자열과 우측 문자열이 모두 나타났을 때에 좌측 문자열에 대한 필터링 결과를 우선하여 적용한다.

추천 질의어 리스트 생성부(330)는 필터링에 의해 제외되지 않은 질의어 후보를 관심 주제별로 군집화하여 추천 질의어 리스트를 생성한다. 이때, 단순 베이지안 모델, 서포트 벡터 머신, 뉴럴 네트워크 중에서 어느 하나의 기계학습 기반 분류를 사용하여 질의어 후보를 관심 주제별로 분류한다.

문서 검색부(340)는 추천 질의어 리스트에 포함된 추천 질의어를 이용한 문서 검색 결과 및 추천 질의어 리스트를 제공한다. 이때, 문서 검색 결과에 따라 관심 주제별로 상위 n개(단, n은 자연수)의 검색 결과를 추천 질의어 리스트와 함께 제공한다.

이와 같이 구성된 질의어 추천 장치에 의해 질의어 색인 데이터베이스를 이용하여 질의어를 추천하는 과정을 살펴보면 다음과 같다.

질의어 후보 탐색부(310)는 사용자의 입력 질의어를 포함하는 질의어 후보를 고빈도 순으로 질의어 색인 데이터베이스(140)로부터 탐색한다(S401). 예를 들어, "로마"라는 입력 질의어에 대해 가능한 후보는 아로마, 로마토탈워, 브로마이드, 로마의 부흥, 제로마켓, 박X성 로마전, 농협하나로마트, 맨유 AS로마, 아로마오일, 로마켓, 파로마가구, 토니로마스, 로마네스크, 제로마진클럽, … 등이 있다.

후보들은 내부적으로 가중치에 따라 정렬되는데, 이때 사용되는 정보로는 대용량 질의어 클릭 로그에서 나타나는 클릭 빈도수, 공기 분석에 따른 실제 문서의 출현 빈도 및 한 어절 이상인 경우는 한 문장 내에서의 발생 빈도 등을 고려하여 정렬된다.

위의 후보는 질의어 색인 데이터베이스(140)에 있더라도 오류를 포함한 경우는 배제된 후보이다. 예를 들어, "부로마이드"나 "로마내스크"와 같은 오류들은 대표 질의어 선정이나 공기 분석 과정에서 대표 질의어와 결합되어 제거된다. 또한, 사용자가 입력한 질의어가 오탈자를 포함하는 경우에 질의어 색인 데이터베이스(140)를 탐색하여 대표 질의어를 선택하고, 이를 이용하여 관련 질의어 후보를 탐색하는 과정을 거친다. 예를 들어, 사용자가 "베이지안 네트워크"를 입력하고자 하였으나 정확한 철자를 모르고 "배지안 넷??"으로 입력할 경우에 이는 "베이지안 네트워크"로 변환되고 이를 바탕으로 관련 질의어 후보를 탐색하게 된다. 질의어가 하나 이상의 어절로 이루어 진 경우에 각 어절을 포함하는 관련 질의어가 후보로 탐색되어 "베이지안"을 포함하는 관련 질의어 및 "네트워크"를 포함하는 관련어로 확장되어 탐색된다.

질의어 후보 필터링부(320)는 질의어 후보 탐색 과정에서 선택된 후보들 중에서 실제 사용자가 원하지 않을 것 같은 불필요한 후보들을 제거한다(S403). 위의 "로마"입력의 예에서 실제로 추천되는 관련어 리스트는 로마토탈워, 로마의 부흥, 박X성 로마전, 맨유 AS로마, 로마켓, 로마네스크, … 등이다.

필터링 과정에서 적용되는 규칙은 다음과 같다. 첫째, 사용자 입력 키워드를 중심으로 좌측 및 우측 문자열로 분리한다. 예컨대, "브로마이드"의 경우에 좌측 문자열로 "브", 우측 문자열로 "이드"가 분리된다. 둘째, 좌측 문자열의 경우에 좌측 문자열만으로 기존 사용자 로그에 출현해야 한다. 단 문자열이 한 음절이면 후보에서 제거한다. 예를 들어, "아로마"나 "브로마이드"에서 "아"나 "브"와 같이 한 음절로 이루어진 관련어 후보는 제거한다. 또한, "농협하나로마트"에서의 좌측 문자열인 "농협하나"가 기존 사용자 로그에서 발견되지 않아 이를 배제한다. 만일 "박X성 로마전"과 같이 좌측 문자열이 어절로 분리된 단어를 포함하고 있다면 이 어절만으로 기존 사용자 로그에 포함이 되어 있는지 조사한다. 셋째, 우측 문자열의 경우에 사용자 입력 질의어와 한 어절로 이루어진 경우는 사용자 입력 질의어와 우측 문자열을 결합하여 실제 클릭 문서에서 출현하였는지를 조사하며, 우측 문자열이 사용자 입력 질의어와 어절로 분리된 경우에 분리된 어절이 실제 클릭 문서에서 출현하였는지를 조사한다. 예를 들어, 입력 질의어가 "로마"일 때, "로마토탈워"는 문자열 전체에 대해 클릭 문서 출현빈도를 질의어 색인 데이터베이스(140)에서 조사하며, "로마의 부흥"의 경우에 "로마의"와 "부흥"이 단일한 문장으로 클릭 문서에 출현하였는지 질의어 색인 데이터베이스(140)를 조사한다. 입력 질의어를 중심으로 좌측 문자열과 우측 문자열이 모두 나타났을 때는 좌측 문자열의 판단 기준을 우선하여 필터링한다. 즉, 좌측 문자열 필터링 테스트를 통과하지 못하면 우측 문 자열 필터링 테스트 없이 관련 질의어 후보 리스트에서 제거한다.

추천 질의어 리스트 생성부(330)는 질의어 후보 필터링 과정을 통과한 후보에 대해서, 관심 분야별 주제어로 후보를 군집화(clustering)(S405)하여 추천 질의어 리스트를 생성한다(S407). 위에서 언급한 "사과" 입력의 경우에 도 6과 같이 "동식물" 및 "인물" 분야로 나누어 관련어가 추천된다. 이때 관심분야는 클릭 문서 분류 과정을 통해 질의어와 해당 클릭 문서의 내용을 이용하여 사전에 주요한 질의어에 대한 관심 주제 분류 정보가 색인되어 있다. 관심분야 분류의 주제는 서비스 유형에 따라 적절히 나눌 수 있으며, 이를 분류하는 기술은 통상적으로 널리 알려진 다양한 기계학습 방법을 사용한다.

문서 검색부(340)는 추천 질의어 리스트를 이용하여 백그라운드(background)로 각 관련 추천 리스트에 대해 문서 검색을 진행하고, 검색 결과를 준비한다. 각 관심주제별로 상위 n개의 검색 결과를 관련 질의어 추천 리스트의 하단에 표시함으로써, 추가적인 입력 클릭을 최소화하면서 사용자의 검색 만족도를 증대시킨다(S409).

본 발명에 의한 질의어 색인 데이터베이스 구축 방법과 그 질의어 색인 데이터베이스를 이용한 질의어 추천 방법은 컴퓨터 프로그램으로 작성 가능하다. 이 컴퓨터 프로그램을 구성하는 코드들 및 코드 세그먼트들은 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. 또한, 해당 컴퓨터 프로그램은 컴퓨터가 읽을 수 있는 정보저장매체(computer readable media)에 저장되고, 컴퓨터에 의하여 읽혀지고 실행됨으로써 질의어 색인 데이터베이스 구축 방법과 그 질의어 색 인 데이터베이스를 이용한 질의어 추천 방법을 구현한다. 정보저장매체는 자기 기록매체, 광 기록매체 및 캐리어 웨이브 매체를 포함한다.

지금까지 본 발명에 대하여 그 일부 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

도 1은 본 발명의 실시예에 따라 질의어 색인 데이터베이스를 구축하는 장치의 구성도,

도 2는 본 발명의 실시예에 따라 질의어 색인 데이터베이스를 구축하는 과정을 설명하기 위한 흐름도,

도 3은 본 발명의 실시예에 따라 질의어 색인 데이터베이스를 이용하여 질의어를 추천하는 장치의 구성도,

도 4는 본 발명의 실시예에 따라 질의어 색인 데이터베이스를 이용하여 질의어를 추천하는 과정을 설명하기 위한 흐름도,

도 5는 본 발명의 실시예에 따라 구축한 질의어 색인 데이터베이스의 구조도,

도 6은 본 발명의 실시예에 따라 제공하는 추천 질의어 리스트 및 검색 결과의 예시도.

<도면의 주요 부분에 대한 부호의 설명>

110 : 대표 질의어 선정부 120 : 관심 주제 분류부

130 : 색인 저장부 140 : 질의어 색인 데이터베이스

310 : 질의어 후보 탐색부 320 : 질의어 후보 필터링부

330 : 추천 질의어 리스트 생성부 340 : 문서 검색부

Claims

질의어 로그 데이터를 정규화하여 대표 질의어 및 이형태 질의어를 선정하는 단계와,

클릭 로그 데이터에 대응하는 클릭 문서 및 상기 질의어 로그 데이터를 관심주제별로 분류하는 단계와,

상기 대표 질의어 및 이형태 질의어를 상기 관심주제에 대한 정보와 함께 색인하여 저장하는 단계

를 포함하는 질의어 색인 데이터베이스 구축 방법.
제 1 항에 있어서,

상기 선정하는 단계는, 띄어쓰기의 공백 제거, 편집거리 오타 계산, 영/한타 변환 중에서 적어도 어느 하나의 조건을 이용하여 상기 정규화를 수행하는 단계

를 포함하는 질의어 색인 데이터베이스 구축 방법.
제 2 항에 있어서,

상기 선정하는 단계는, 동일한 URL을 가지는 상기 질의어 로그 데이터 중에서 빈도수가 가장 높은 질의어를 상기 대표 질의어로 선정하는 단계

를 포함하는 질의어 색인 데이터베이스 구축 방법.
제 3 항에 있어서,

상기 선정하는 단계는, 상기 질의어 로그 데이터 중에서 상기 대표 질의어와 비교할 때에 상기 조건을 만족하지 않은 질의어에 대해 상기 정규화에서 제외하는 단계

를 포함하는 질의어 색인 데이터베이스 구축 방법.
제 1 항에 있어서,

상기 분류하는 단계는, 단순 베이지안 모델(naive bayesian model), 서포트 벡터 머신(Support Vector Machine, SVM), 뉴럴 네트워크(neural network) 중에서 어느 하나의 기계학습 기반 분류를 사용하는 단계

를 포함하는 질의어 색인 데이터베이스 구축 방법.
제 3 항에 있어서,

상기 저장하는 단계는, 상기 동일한 URL을 가지는 질의어 로그 데이터의 빈도수를 합하여 상기 대표 질의어의 빈도수로 저장하는 단계

를 포함하는 질의어 색인 데이터베이스 구축 방법.
제 6 항에 있어서,

상기 저장하는 단계는, 상기 질의어 로그 데이터를 이용한 문서 검색에 의한 공기 빈도의 분석 결과에 따라 공기 빈도수를 함께 저장하는 단계

를 포함하는 질의어 색인 데이터베이스 구축 방법.
제 7 항에 있어서,

상기 저장하는 단계는, 상기 질의어 로그 데이터에 포함된 질의어가 한 어절로 이루어져 있으면 해당 질의어가 문서 중 어떠한 빈도로 출현하는지 조사하며, 상기 질의어 로그 데이터에 포함된 질의어가 두 어절 이상인 경우에는 한 문장에 모두 출현한 빈도를 조사하여 상기 공기 빈도를 분석하는 단계

를 포함하는 질의어 색인 데이터베이스 구축 방법.
제 7 항에 있어서,

상기 저장하는 단계는, 상기 공기 빈도의 분석에 의거한 필터링을 통해 일부의 상기 질의어 로그 데이터를 상기 색인 및 저장 대상에서 제외하는 단계

를 포함하는 질의어 색인 데이터베이스 구축 방법.
질의어 로그 데이터 및 클릭 로그 데이터를 이용하여 구축한 질의어 색인 데이터베이스에서 입력 질의어를 포함하는 질의어 후보를 고빈도 순으로 탐색하는 단계와,

탐색한 상기 질의어 후보의 문자열 중에서 상기 입력 질의어를 기준으로 한 좌측 문자열 또는 우측 문자열에 대한 상기 질의어 색인 데이터베이스의 탐색 결과에 따라 일부의 상기 질의어 후보를 필터링하여 제외하는 단계와,

상기 필터링에 의해 제외되지 않은 상기 질의어 후보를 관심 주제별로 군집화하여 추천 질의어 리스트를 생성하는 단계와,

상기 추천 질의어 리스트에 포함된 추천 질의어를 이용한 문서 검색 결과 및 상기 추천 질의어 리스트를 제공하는 단계

를 포함하는 질의어 색인 데이터베이스를 이용한 질의어 추천 방법.
제 10 항에 있어서,

상기 탐색하는 단계는, 상기 질의어 색인 데이터베이스로부터 탐색한 상기 질의어 후보를 상기 질의어 색인 데이터베이스에 저장된 로그 빈도 및 공기 빈도에 따라 정렬하는 단계

를 포함하는 질의어 색인 데이터베이스를 이용한 질의어 추천 방법.
제 10 항에 있어서,

상기 필터링하여 제외하는 단계는, 상기 좌측 문자열이 한 음절로 이루어져 있거나 상기 질의어 로그 데이터에 포함되어 있지 않으면 제외하는 단계

를 포함하는 질의어 색인 데이터베이스를 이용한 질의어 추천 방법.
제 10 항에 있어서,

상기 필터링하여 제외하는 단계는, 상기 좌측 문자열이 어절로 분리된 단어를 포함하고 있다면 해당 어절이 상기 질의어 로그 데이터에 포함되어 있지 않으면 제외하는 단계

를 포함하는 질의어 색인 데이터베이스를 이용한 질의어 추천 방법.
제 10 항에 있어서,

상기 필터링하여 제외하는 단계는, 상기 우측 문자열이 상기 입력 질의어와 한 어절로 이루어진 경우는 상기 입력 질의어와 상기 우측 문자열을 결합하여 상기 클릭 로그 데이터에 포함되어 있지 않으면 제외하는 단계

를 포함하는 질의어 색인 데이터베이스를 이용한 질의어 추천 방법.
제 10 항에 있어서,

상기 필터링하여 제외하는 단계는, 상기 우측 문자열이 상기 입력 질의어와 어절로 분리된 경우는 분리된 어절이 상기 클릭 로그 데이터에 포함되어 있지 않으면 제외하는 단계

를 포함하는 질의어 색인 데이터베이스를 이용한 질의어 추천 방법.
제 10 항에 있어서,

상기 필터링하여 제외하는 단계는, 상기 좌측 문자열과 상기 우측 문자열이 모두 나타났을 때에 상기 좌측 문자열에 대한 필터링 결과를 우선하여 적용하는 단계

를 포함하는 질의어 색인 데이터베이스를 이용한 질의어 추천 방법.
제 10 항에 있어서,

상기 추천 질의어 리스트를 생성하는 단계는, 단순 베이지안 모델(naive bayesian model), 서포트 벡터 머신(Support Vector Machine, SVM), 뉴럴 네트워 크(neural network) 중에서 어느 하나의 기계학습 기반 분류를 사용하여 상기 질의어 후보를 관심 주제별로 분류하는 단계

를 포함하는 질의어 색인 데이터베이스를 이용한 질의어 추천 방법.
제 10 항에 있어서,

상기 문서 검색 결과 및 상기 추천 질의어 리스트를 제공하는 단계는,

상기 문서 검색 결과에 따라 상기 관심 주제별로 상위 n개(단, n은 자연수)의 검색 결과를 상기 추천 질의어 리스트와 함께 제공하는 단계

를 포함하는 질의어 색인 데이터베이스를 이용한 질의어 추천 방법.