KR20130119030A - 유사검색어 추출 시스템 및 방법 - Google Patents

유사검색어 추출 시스템 및 방법 Download PDF

Info

Publication number
KR20130119030A
KR20130119030A KR1020120041848A KR20120041848A KR20130119030A KR 20130119030 A KR20130119030 A KR 20130119030A KR 1020120041848 A KR1020120041848 A KR 1020120041848A KR 20120041848 A KR20120041848 A KR 20120041848A KR 20130119030 A KR20130119030 A KR 20130119030A
Authority
KR
South Korea
Prior art keywords
query
search
user
specific
similar
Prior art date
Application number
KR1020120041848A
Other languages
English (en)
Other versions
KR101341816B1 (ko
Inventor
손근영
Original Assignee
(주)이스트소프트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)이스트소프트 filed Critical (주)이스트소프트
Priority to KR1020120041848A priority Critical patent/KR101341816B1/ko
Priority to US13/868,066 priority patent/US9305054B2/en
Publication of KR20130119030A publication Critical patent/KR20130119030A/ko
Application granted granted Critical
Publication of KR101341816B1 publication Critical patent/KR101341816B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

유사검색어 추출 시스템이 개시된다. 본 시스템은, 사용자 단말기 식별자, 사용자 단말기로부터 입력된 검색쿼리 및 사용자가 검색을 요청한 시간정보를 포함하는 검색로그 DB로부터 복수의 사용자들이 입력한 검색쿼리들을 판독하여 사용자별 검색쿼리 DB를 생성하는 검색쿼리 추출모듈; 상기 사용자별 검색쿼리 DB로부터 특정 사용자가 입력한 복수의 검색쿼리들 중에서 서로 다른 2개의 검색쿼리들로 이루어진 순열을 추출하여 사용자별 쿼리쌍 DB를 생성하는 쿼리쌍 추출모듈; 및 상기 사용자별 쿼리쌍 DB로부터 특정 쿼리를 포함하는 복수의 사용자들에 대해 저장된 쿼리쌍들을 판독하여 상기 특정 쿼리와 쌍을 이루는 다른 쿼리들을 추출하여 유사검색어를 생성하는 유사검색어군 추출모듈;을 포함하고, 사용자 단말기의 특정 쿼리에 대한 검색 요청에 따라 상기 유사검색어군 추출모듈에 의해 생성된 유사검색어를 제공한다.

Description

유사검색어 추출 시스템 및 방법{SYSTEM AND METHOD FOR EXTRACTING ANALOGOUS QUERIES}
본 발명은 인터넷 등의 통신망을 이용한 검색 서비스에 관한 기술로서, 더 자세하게는 사용자 단말기의 로그 정보를 이용하여 상호 연관된 유사한 검색쿼리(Query)를 사용자에게 제공할 수 있는 유사검색어 추출 시스템 및 방법에 관한 것이다.
일반적으로 인터넷 등의 통신망을 이용한 검색 서비스 시스템은 사용자로부터 검색쿼리가 입력되면 해당 검색쿼리에 대응하는 결과, 예컨대 해당 검색쿼리를 포함하는 웹사이트, 기사, 문서, 혹은 해당 검색쿼리를 파일명으로 포함하는 이미지 등의 멀티미디어 자료 등을 포함하는 검색 결과를 사용자에게 제공한다.
최근들어 이러한 검색 서비스는 사용자가 원하는 정보를 더 빠르고 정확하게 찾을 수 있도록 사용자로부터 입력받은 검색쿼리와 관련이 있는 검색쿼리들을 추출하여 사용자에게 제공하는 연관 검색어 서비스를 제공하고 있다. 즉, 검색 서비스가 제공하는 검색 결과는, 사용자가 입력한 검색쿼리에 따라 상이한 결과를 나타내는데, 예컨대 사용자가 "자동차"를 입력하여 얻는 결과는 "승용차"를 입력하여 얻는 결과와 서로 상이하다. 따라서, 사용자는 자신이 원하는 정보를 얻기 위하여 더 관련성이 높은 검색쿼리를 입력하고자 하지만, 사용자가 스스로 이러한 검색쿼리를 생각해 내기가 어려운 경우가 많다. 따라서, 최근의 검색 서비스 시스템은 사용자가 입력한 검색쿼리와 관련이 있는 다른 검색쿼리들을 사용자에게 제공함으로써, 사용자가 다른 검색쿼리를 이용하여 검색할 수 있도록 돕는 서비스를 추가로 제공하고 있다.
한편, 종래의 연관 검색어 서비스는, 서비스 운영자가 하나의 검색쿼리와 연관성이 있는 다른 검색쿼리들을 일일이 분류하여 저장해 두는 방식으로 운영되고 있는데, 이 때문에 시간적, 경제적으로 많은 부담이 되고 있다. 특히, 종래의 연관검색어는 특정한 검색쿼리에 대하여 해당 쿼리를 입력한 사용자 집단이 그 다음으로 입력한 검색쿼리를 수집하는 방식으로 진행되므로, 짧은 시간 구간 동안에 여러번 입력한 쿼리를 수집하여 해당 쿼리를 사용자와 상관없이 수집한 후 연관성을 찾는 방식으로 제공된다.
또한, 이러한 방식은 사용자가 이미 어떤 대상을 검색하려고 하는지 인지하고 있는 상태임을 전제로 한 것이며, 사용자의 검색쿼리에 대하여 단순히 확장된 연관 검색어를 제공하는데 그친다. 예컨대, 종래의 연관 검색어 서비스에 의하면 사용자가 입력한 특정 검색쿼리 또는 그에 대한 동의어를 포함하는 다른 검색쿼리들을 연관 검색어로 수집하여 사용자에게 제공한다. 따라서, 사용자는 자신이 입력한 검색쿼리를 포함하는 다른 검색쿼리를 연관 검색어로서 제공받을 수 있다.
따라서, 종래의 연관 검색어 서비스는, 사용자가 자신이 찾는 대상에 적합한 검색쿼리를 잘 모르는 경우, 혹은 사용자가 자신이 생각한 검색쿼리 뿐만 아니라 동일한 문구를 포함하지는 않더라도 성격이 유사한 다른 검색쿼리에 대해서는 연관 검색어를 제공할 수 없었다. 이에 사용자로부터 입력 받은 검색쿼리에 관한 데이터를 효과적으로 수집하고, 수집된 데이터를 기초로 검색쿼리간 연관성을 더 정확하게 판단하여 사용자가 입력한 검색쿼리와 성격이 유사한 검색쿼리들을 제공할 수 있는 검색어군 추출 방법이 요청된다.
본 발명은 상술한 종래의 연관 검색어 서비스에 관한 문제점을 해결하기 위한 것으로서, 사용자가 입력한 검색쿼리와 성격이 유사한 유사검색어를 제공할 수 있는 유사검색어 추출 시스템 및 방법을 제공하는 것을 목적으로 한다. 특히, 본 발명은, 사용자 단말기에 대한 검색로그 정보를 이용하여 사용자가 입력한 검색쿼리에 해당하는 문구를 포함하고 있지 않더라도 해당 검색쿼리와 성격이 유사한 연관 검색어를 유사검색어로서 제공할 수 있는 유사검색어 추출 시스템 및 방법을 제공하고자 한다.
본 발명에 따른 유사검색어 추출 시스템은, 사용자 단말기 식별자, 사용자 단말기로부터 입력된 검색쿼리 및 사용자가 검색을 요청한 시간정보를 포함하는 검색로그 DB로부터 복수의 사용자들이 입력한 검색쿼리들을 판독하여 사용자별 검색쿼리 DB를 생성하는 검색쿼리 추출모듈; 상기 사용자별 검색쿼리 DB로부터 특정 사용자가 입력한 복수의 검색쿼리들 중에서 서로 다른 2개의 검색쿼리들로 이루어진 순열을 추출하여 사용자별 쿼리쌍 DB를 생성하는 쿼리쌍 추출모듈; 및 상기 사용자별 쿼리쌍 DB로부터 특정 쿼리를 포함하는 복수의 사용자들에 대해 저장된 쿼리쌍들을 판독하여 상기 특정 쿼리와 쌍을 이루는 다른 쿼리들을 추출하여 유사검색어를 생성하는 유사검색어군 추출모듈;을 포함하고, 사용자 단말기의 특정 쿼리에 대한 검색 요청에 따라 상기 유사검색어군 추출모듈에 의해 생성된 유사검색어를 제공한다.
여기서, 상기 사용자별 쿼리쌍 DB로부터 복수의 사용자들에 대해 저장된 상기 특정 쿼리를 포함하는 쿼리쌍들을 판독하여 각 쿼리쌍들에 대한 상기 특정 쿼리의 조건부확률을 계산하는 유사도 판단모듈을 더 포함할 수 있다.
나아가, 본 발명에 따른 유사검색어 추출 시스템은 인터넷을 이용한 검색 시스템에 통합되어 제공될 수 있다.
또한, 본 발명에 따른 유사검색어 추출 방법은, 사용자 단말기 식별자, 사용자 단말기로부터 입력된 검색쿼리 및 사용자가 검색을 요청한 시간정보를 포함하는 검색로그 DB로부터 복수의 사용자들이 입력한 검색쿼리들을 판독하여 사용자별 검색쿼리 DB를 생성하는 단계와, 상기 사용자별 검색쿼리 DB로부터 특정 사용자가 입력한 복수의 검색쿼리들 중에서 서로 다른 2개의 검색쿼리들로 이루어진 순열을 추출하여 사용자별 쿼리쌍 DB를 생성하는 단계와, 상기 사용자별 쿼리쌍 DB로부터 특정 쿼리를 포함하는 복수의 사용자들에 대해 저장된 쿼리쌍들을 판독하여 상기 특정 쿼리와 쌍을 이루는 다른 쿼리들을 추출하여 유사검색어를 생성하는 단계와, 사용자 단말기의 특정 쿼리에 대한 검색 요청에 따라 상기 유사검색어군 추출모듈에 의해 생성된 유사검색어를 제공하는 단계를 포함할 수 있다.
여기서, 사용자 단말기의 특정 쿼리에 대한 검색 요청에 따라 상기 유사검색어군 추출모듈에 의해 생성된 유사검색어를 제공할 때, 상기 사용자별 쿼리쌍 DB로부터 복수의 사용자들에 대해 저장된 상기 특정 쿼리를 포함하는 쿼리쌍들을 판독하여 각 쿼리쌍들에 대한 상기 특정 쿼리의 조건부확률을 계산하고, 일정 기준값 이상의 조건부확률을 가진 쿼리쌍들을 기초로 상기 특정 쿼리와 쌍을 이루는 다른 쿼리들을 유사검색어로 제공할 수 있다.
상술한 본 발명에 따른 유사검색어 추출 방법을 실행시키기 위한 프로그램을 수록한 컴퓨터 판독 가능한 기록 매체로 제공될 수 있다.
종래의 검색 서비스에서 제공하는 연관 검색어 서비스는 사용자가 이미 알고 있는 검색어에 대하여 더 자세히 찾고 싶을 때 도움이 될 수는 있으나, 본 발명에 따른 유사검색어 추출 시스템 및 방법은 사용자가 자신이 찾고 있는 대상에 해당하는 적절한 검색어를 생각하기 어려운 경우에도 사용자가 관심이 있을 것으로 예측되는 검색쿼리들을 제시할 수 있으므로, 검색을 행하는 사용자의 편의와 효율을 증대시킬 수 있다.
도 1은 본 발명의 일실시예에 따른 유사검색어 추출 시스템의 네트워크 연결을 도시한 개요도이다.
도 2는 본 발명의 일실시예에 따른 유사검색어 추출 시스템의 시스템 구성도이다.
도 3은 본 발명의 일실시예에 따른 사용자별 검색쿼리 DB의 일례를 도시한 도면으로서, 사용자 단말기 식별자 및 해당 사용자가 입력한 검색쿼리들 중 일정 기준에 따라 추출된 검색쿼리가 기록된 데이터베이스 레코드의 일례를 도시한다.
도 4는 본 발명의 일실시예에 따른 사용자별 쿼리쌍 DB의 일례를 도시한 도면으로서, 사용자 단말기 식별자 및 해당 사용자에 대해 추출된 검색쿼리들이 순열로 구성된 쿼리쌍들이 기록된 데이터베이스 레코드의 일례를 도시한다.
이하, 첨부한 도면들을 참조하여 본 발명에 따른 유사검색어 추출 시스템 및 방법에 대한 바람직한 실시예를 상세히 설명한다.
먼저, 도 1은 본 발명의 일실시예에 따른 유사검색어 추출 시스템의 네트워크 구성을 도시한 개요도이다. 사용자들은 사용자 단말기(110a, 110b)를 이용하여 유무선 통신망(120a, 120b)을 통해 유사검색어 추출 시스템(100)이 탑재된 검색 서버(100a)에 접속하여 검색을 수행한다. 즉, 사용자들은 사용자 단말기(110a, 110b)를 통해 자신들이 찾고자 하는 정보 혹은 자료에 대한 키워드로서 특정 검색쿼리를 입력하여 검색 서버(100a)에 전송하며, 검색 서버(100a)에 전송된 검색쿼리에 기초하여 유사검색어 추출 시스템(100)이 생성한 유사검색어들이 검색 서버(100a)가 수행한 검색 결과와 함께 혹은 별도로 사용자 단말기(110a, 110b)에 제공된다. 이와 같이 유사검색어 추출 시스템(100)은, 인터넷 검색 서비스를 제공하는 검색 서버에 통합되어 운영될 수도 있고, 물리적으로 이격된 별도의 시스템으로 구축되어 검색 서버(100a)와 소정의 통신망을 통해 통신하는 방식으로 운영될 수도 있다.
도 2는 본 발명에 따른 유사검색어 추출 시스템의 시스템 구성도이다. 도 2에서 보듯이, 본 발명에 따른 유사검색어 추출 시스템(100)은, 검색쿼리 추출모듈(12), 쿼리쌍 추출모듈(14) 및 유사검색어군 추출모듈(16)을 포함할 수 있고, 나아가 유사도 판단모듈(18)을 추가로 더 포함할 수도 있다. 아울러, 검색쿼리 추출모듈(12), 쿼리쌍 추출모듈(14), 유사검색어군 추출모듈(16) 및 유사도 판단모듈(18)은 모듈 제어부(10)에 의해 제어된다. 특히, 본 유사검색어 추출 시스템(100)을 검색 서버(100a)에 통합되어 운영되는 경우, 모듈 제어부(10)는 검색 서버(100a)에 지시에 의해 각각의 모듈들(12, 14, 16, 18)을 적절히 제어할 수 있다. 또한, 도 2에는 도시하지 않았으나, 본 유사검색어 추출 시스템(100)이 검색 서버(100a)와 물리적으로 이격된 장소에 구축된 경우, 검색 서버(100a)와 통신할 수 있는 소정의 통신 모듈을 추가로 더 포함할 수도 있다.
또한, 본 발명에 따른 유사검색어 추출 시스템(100)은, 데이터베이스 관리수단(20)에 의해 제어되는 검색로그 DB(22), 사용자별 검색쿼리 DB(24), 사용자별 쿼리쌍 DB(26) 및 유사검색어군 DB(28)를 포함할 수 있다.
여기서, 검색로그 DB(12)는 사용자가 사용자 단말기(110a, 110b)를 이용하여 검색 서버(100a)를 통해 검색을 수행할 때, 사용자 단말기(110a, 110b)를 식별하는 숫자 또는 문자 등의 식별자에 대한 정보와, 사용자가 입력한 검색쿼리 그리고 사용자가 검색을 요청한 시간정보를 포함하는 검색로그 정보가 검색 서버(100a)에 전송된다. 이렇게 수집된 검색로그 정보는 데이터베이스화되어 검색로그 DB(22)에 저장된다. 여기서, 본 유사검색어 추출 시스템(100)이 검색 서버(100a)와 통합되어 운영되는 경우 검색로그 DB(22)는 검색 서버(100a)와 공통으로 사용될 수도 있고, 별도의 시스템으로 운영되는 경우 검색 서버(100a)로부터 검색로그 정보를 전송받아 검색로그 DB(22)로 데이터베이스화할 수도 있다. 또한, 검색로그 DB(22)에는 적어도 사용자가 입력한 검색쿼리 및 검색시각에 대한 정보가 사용자 단말기 식별자(UID)와 함께 기록된다. 이때, 서비스 운영자는 특정 사용자 집단 즉, 특정 사용자 단말기 식별자들에 대한 검색로그 정보만을 선별하여 검색로그 DB(22)에 저장할 수 있으며, 또한 사용자들이 검색한 검색쿼리를 시간 정보에 따라 소팅(sorting)할 수 있다.
다음으로, 검색쿼리 추출모듈(12)은 이렇게 검색로그 DB(22)에 수록된 복수의 사용자들이 입력한 검색쿼리들을 판독하여 개개의 사용자에 대한 사용자별 검색쿼리 DB(24)를 생성한다. 예컨대, 검색로그 DB(22)에 기록된 사용자 단말기 식별자 및 검색시각 정보를 기초로 특정 사용자가 일정한 시간 구간(예컨대, 주, 개월) 내에 일정 회수 이상 반복되어 꾸준히 검색되는 검색쿼리들을 추출하여 각 사용자별로 검색쿼리 DB(24)를 생성할 수 있다. 즉, 도 3에서 보듯이, 사용자별 검색쿼리 DB(24)에는 일정 시간 구간내에 복수회 반복되어 검색된 검색쿼리들을 추출하여 데이터베이스화될 수 있으며, 예컨대 사용자 식별자 UID X로부터 일정 시간 구간 내에 반복 검색된 검색쿼리들로서 A 내지 Z의 개별 검색쿼리들이 레코드에 저장될 수 있다. 이때, 서비스 운영자는 검색로그 DB(22)에 수록된 검색시간을 기초로 사용자별 검색쿼리 DB(24)로 데이터베이스화할 시간 구간을 미리 설정할 수 있으며, 또한 일정 시간 구간 동안에 반복되어 검색된 검색쿼리들의 검색 회수를 미리 설정하여 기준 회수에 미달하는 검색쿼리들을 제외시킬 수도 있다.
다음으로, 쿼리쌍 추출모듈(14)는 사용자별 검색쿼리 DB(24)로부터 특정 사용자가 입력한 복수의 검색쿼리들 중에서 서로 다른 2개의 검색쿼리들로 이루어진 순열을 추출하여 사용자별 쿼리쌍 DB(26)를 생성한다. 여기서, 특정 사용자에 대하여 추출된 사용자별 검색쿼리 DB(24)에 복수의 검색쿼리가 있는 경우 "서로 다른 2개의 검색쿼리들로 이루어진 순열"이 하나의 쿼리쌍으로서 생성된다. 예컨대, 도 4에서 보듯이, 사용자 식별자 UID X의 경우 A 내지 Z의 검색쿼리들로 이루어진 쿼리쌍들이 생성되어 사용자별 쿼리쌍 DB(26)에 데이터베이스화될 수 있다. 이렇게 생성되어 저장된 각각의 사용자별 쿼리쌍들은 순열 형태로 인덱싱되어 있으므로 후술하는 단계에서 쿼리쌍의 판독 및 추출을 위한 처리속도가 향상될 수 있다.
한편, 본 발명에 따른 유사검색어 추출 시스템 및 방법은, 검색 서비스를 이용하는 사용자가 자신이 관심이 있는 검색쿼리를 주기적으로 검색할 것이고, 또한 사용자의 관심을 두는 검색쿼리는 1개 이상일 것이며 서로 높은 확률로서 연관성을 보일 것이라는 전제에서 개발되었다. 따라서, 만약 모든 사용자들이 관심을 두고 입력한 검색쿼리들 중에서 서로 연관성이 높은 검색쿼리를 찾을 수 있다면 사용자들이 검색하는 시간과 무관하게 동일한 성격을 갖는 쿼리들이 쿼리쌍으로서 묶일 것이다.
이러한 전제를 기초로, 일정한 시간 구간 내에 사용자들에 의해 빈번하게 검색된 검색쿼리들을 사용자별 검색쿼리 DB(24)로 추출 및 데이터베이스화한 다음, 각 사용자별로 추출된 2개의 서로 다른 검색쿼리들로 이루어진 순열을 쿼리쌍으로 추출한다. 이렇게 추출된 각 사용자별 쿼리쌍들을 비교하면, 예컨대 만약 도 4에서 예시한 사용자 식별자 UID 1에 대한 쿼리쌍들 중 만약 "참새"와 "비둘기"가 실질적으로 시간에 관계없이 유사한 성질을 갖는 검색쿼리라고 한다면 다른 사용자들에 대한 쿼리쌍들에서도 (참새, 비둘기)를 동일한 쿼리쌍으로서 가지고 있을 확률이 높을 것이다.
그러므로, 유사검색어군 추출모듈(16)은 사용자별 쿼리쌍 DB(26)로부터 특정 쿼리를 포함하는 복수의 사용자들에 대해 저장된 쿼리쌍들을 판독하여 동일한 쿼리쌍의 개수(즉, 사용자 식별자 개수)를 계산한다. 그리고, 이렇게 계산된 동일한 쿼리상의 개수를 비교하여 기준 횟수(서비스 운영자에 의해 미리 설정될 수 있다) 이상을 나타내는 쿼리쌍들을 기초로 특정 쿼리와 쌍을 이루는 다른 쿼리들을 추출하여 유사검색어로서 생성 및 저장한다. 예컨대, 전체 사용자들의 쿼리쌍 DB에서 (A, B), (A, C) 및 (A, D)의 쿼리쌍이 각각 50번, 35번, 5번으로 계산된 경우에 기준 회수(10회)에 미달하는 (A, D) 쿼리쌍을 제외한 (A, B), (A, C) 쿼리쌍을 기초로 특정 쿼리 "A"와 쌍을 이루는 다른 쿼리들(즉, B 및 C)을 유사검색어로서 추출한다. 이러한 방식으로 특정 쿼리 "A"에 대한 유사검색어로 추출된 다른 쿼리들 "B" 및 "C"는 유사검색어군 DB(28)에 "A"에 대한 유사검색어로서 저장되며, 사용자 단말기로부터 특정 쿼리 "A"에 대한 검색 요청이 있는 경우, 유사검색어군 추출모듈(16)에 의해 생성된 다른 쿼리 "B" 및 "C"가 유사검색어로서 사용자에게 제공될 수 있다.
한편, 유사검색어군 추출모듈(16)은, 예컨대 (A, B) 쿼리쌍과 동일한 쿼리쌍의 개수를 계산할 때 (B, A) 쿼리쌍을 동일한 쿼리쌍으로 인식하여 카운팅할 수 있다. 사용자별 쿼리쌍 DB(26)에 저장된 각각의 사용자별 쿼리쌍들은 순열 형태로 인덱싱되어 있는데, 이는 (A, B) 쿼리쌍의 개수를 카운팅하거나 (B, A) 쿼리쌍 개수를 카운팅할 때 그 처리 속도를 향상시키는 효과가 있다.
또한, 본 발명에 따른 유사검색어 추출 시스템은, 사용자별 쿼리쌍 DB(26)로부터 복수의 사용자들에 대해 저장된 상기 특정 쿼리를 포함하는 쿼리쌍들을 판독하여 각 쿼리쌍들에 대한 상기 특정 쿼리의 조건부확률을 계산하는 유사도 판단모듈(18)을 더 포함할 수 있다. 예를 들어, 특정 쿼리 "A"에 대한 유사검색어로서 "B"의 조건부확률 D는 다음과 같이 정의될 수 있다.
[수식 1]
D = P(A∩B)/P(A)
여기서, P(A)는 검색쿼리 "A"를 가진 사용자 식별자 수를 나타내고, P(A∩B)는 검색쿼리 "A"와 "B"를 모두 가진 사용자 식별자 수를 나타낸다. 따라서, 특정 쿼리 "A"에 대한 유사검색어 "B"의 조건부확률 D는 검색쿼리 "A"를 가진 사용자로부터 검색쿼리 "B"로 입력될 확률을 의미한다.
사용자 단말기(110a, 110b)의 특정 쿼리에 대한 검색 요청에 따라 유사검색어군 추출모듈(16)에 의해 생성된 유사검색어를 제공할 때, 유사도 판단모듈(18)은 사용자별 쿼리쌍 DB(26)로부터 복수의 사용자들에 대해 저장된 상기 특정 쿼리를 포함하는 쿼리쌍들을 판독하여 각 쿼리쌍들에 대한 상기 특정 쿼리의 조건부확률을 계산하고, 일정 기준값 이상의 조건부확률을 가진 쿼리쌍들을 기초로 상기 특정 쿼리와 쌍을 이루는 다른 쿼리들을 유사검색어로 제공할 수 있다.
본 실시예에서는, 유사도 판단모듈(18)이 특정 쿼리에 대한 유사검색어를 조건부확률에 기초하여 유사도를 판단하는 예를 설명하였으나, 이외에도 서비스 운영자는 다양한 함수를 이용하여 특정 쿼리에 대한 유사도를 판단하여 유사검색어를 제공하는 것도 가능하다.
본 발명에 따른 유사검색어 추출 시스템은, 상술한 일련의 과정을 통하여, 사용자 단말기에 대한 검색로그 정보를 이용하여 사용자가 입력한 검색쿼리에 해당하는 문구를 포함하고 있지 않더라도 해당 검색쿼리와 성격이 유사한 연관 검색어를 유사검색어로서 제공할 수 있다. 예컨대, 표 1에는 "돼지고기"라는 사용자의 검색쿼리에 대하여 본 발명에 따른 유사검색어 추출 시스템에 의해 제공되는 유사검색어 리스트와, 종래의 연관 검색어 서비스에 의해 제공되는 연관 검색어 리스트를 비교하여 나타내었다. 표 1에서 보듯이, 종래의 연관 검색어 서비스에 의하면 사용자가 요청한 검색쿼리인 "돼지고기"를 포함하거나 혹은 그와 동의어인 문구를 포함하는 검색쿼리를 연관 검색어로 제시하는데 그치고 있지만, 본 발명에 따른 유사검색어 추출 시스템 및 방법에 의하는 경우 사용자의 검색쿼리 "돼지고기"를 포함하고 있지 않더라도 그와 성격이 유사한 검색쿼리들을 유사검색어로서 제시할 수 있다.
본 발명에 따라 제시된 유사검색어 리스트 종래기술에 따른 연관검색어 리스트
쇠고기, 닭고기, 축산, 소고기, 농산물, 한우, 돼지, 족발, 삽겹살, 쌀 돼지고기쇼핑몰, 돼지고기 가격, 돼지고기 효능, 돼지고기 요리, 돼지고기 부위, 삽겹살, 수입돼지고기, 돼지고기 도매, 돈육, 돼지, 선진포크, 돼지고기 등심, pork, 돼지고기두루치기, 돼지고기고추장볶음, 양돈
본 발명에 따른 유사검색어 추출 방법은, 사용자 단말기 식별자, 사용자 단말기로부터 입력된 검색쿼리 및 사용자가 검색을 요청한 시간정보를 포함하는 검색로그 DB로부터 복수의 사용자들이 입력한 검색쿼리들을 판독하여 사용자별 검색쿼리 DB를 생성하는 단계와, 상기 사용자별 검색쿼리 DB로부터 특정 사용자가 입력한 복수의 검색쿼리들 중에서 서로 다른 2개의 검색쿼리들로 이루어진 순열을 추출하여 사용자별 쿼리쌍 DB를 생성하는 단계와, 상기 사용자별 쿼리쌍 DB로부터 특정 쿼리를 포함하는 복수의 사용자들에 대해 저장된 쿼리쌍들을 판독하여 상기 특정 쿼리와 쌍을 이루는 다른 쿼리들을 추출하여 유사검색어를 생성하는 단계와, 사용자 단말기의 특정 쿼리에 대한 검색 요청에 따라 상기 유사검색어군 추출모듈에 의해 생성된 유사검색어를 제공하는 단계를 포함할 수 있다. 나아가, 사용자 단말기의 특정 쿼리에 대한 검색 요청에 따라 상기 유사검색어군 추출모듈에 의해 생성된 유사검색어를 제공할 때, 상기 사용자별 쿼리쌍 DB로부터 복수의 사용자들에 대해 저장된 상기 특정 쿼리를 포함하는 쿼리쌍들을 판독하여 각 쿼리쌍들에 대한 상기 특정 쿼리의 조건부확률을 계산하고, 일정 기준값 이상의 조건부확률을 가진 쿼리쌍들을 기초로 상기 특정 쿼리와 쌍을 이루는 다른 쿼리들을 유사검색어로 제공할 수 있다.
상술한 유사검색어 추출 방법은 법용 컴퓨터 장치에 의해 수행될 수 있다. 예컨대, 컴퓨터 장치는, 램(RAM; Random Access Memory)와 롬(ROM; Read Only Memory)를 포함하는 주기억장치와 연결되는 하나 이상의 프로세서 혹은 중앙처리장치(CPU)를 포함할 수 있다. 본 기술분야에서 널리 알려져 있는 바와 같이, 롬은 데이터와 명령을 단방향성으로 CPU에 전송하는 역할을 하며, 램은 통상적으로 데이터와 명령을 양방향성으로 전송하는 데에 사용된다. 램 및 롬은 컴퓨터 판독 가능 매체의 어떠한 적절한 형태를 포함할 수 있다. 대용량 기억 장치는 양방향성으로 프로세서와 연결되어 추가적인 데이터 저장 능력을 제공하며, 컴퓨터로 판독 가능한 기록 매체 중 어떠한 것일 수 있다. 대용량 기억장치는 프로그램, 데이터 등을 저장하는데 사용되며, 통상적으로 주기억장치보다 속도가 느린 하드 디스크 혹은 CD 또는 DVD와 같은 보조기억장치일 수 있다. 그리고 프로세서는 네트워크 인터페이스를 통하여 유선 도는 무선 통신 네트워크에 연결될 수 있다. 이러한 네트워크 연결을 통하여 상기한 방법의 절차를 수행할 수 있다. 또한, 본 발명에 따른 유사검색어 추출 방법은 하나 이상의 소프트웨어 프로그램으로서 구성되어 이를 실행할 수 있는 컴퓨터 판독 가능한 기록 매체로 제공될 수 있다.
지금까지 본 발명의 바람직한 실시예에 대해 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명의 본질적인 특성을 벗어나지 않는 범위 내에서 변형된 형태로 구현할 수 있을 것이다. 그러므로 여기서 설명한 본 발명의 실시예는 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 하고, 본 발명의 범위는 상술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함되는 것으로 해석되어야 한다.

Claims (6)

  1. 사용자 단말기 식별자, 사용자 단말기로부터 입력된 검색쿼리 및 사용자가 검색을 요청한 시간정보를 포함하는 검색로그 DB로부터 복수의 사용자들이 입력한 검색쿼리들을 판독하여 사용자별 검색쿼리 DB를 생성하는 검색쿼리 추출모듈;
    상기 사용자별 검색쿼리 DB로부터 특정 사용자가 입력한 복수의 검색쿼리들 중에서 서로 다른 2개의 검색쿼리들로 이루어진 순열을 추출하여 사용자별 쿼리쌍 DB를 생성하는 쿼리쌍 추출모듈; 및
    상기 사용자별 쿼리쌍 DB로부터 특정 쿼리를 포함하는 복수의 사용자들에 대해 저장된 쿼리쌍들을 판독하여 상기 특정 쿼리와 쌍을 이루는 다른 쿼리들을 추출하여 유사검색어를 생성하는 유사검색어군 추출모듈;을 포함하고,
    사용자 단말기의 특정 쿼리에 대한 검색 요청에 따라 상기 유사검색어군 추출모듈에 의해 생성된 유사검색어를 제공하는 유사검색어 추출 시스템.
  2. 제 1 항에 있어서,
    상기 사용자별 쿼리쌍 DB로부터 복수의 사용자들에 대해 저장된 상기 특정 쿼리를 포함하는 쿼리쌍들을 판독하여 각 쿼리쌍들에 대한 상기 특정 쿼리의 조건부확률을 계산하는 유사도 판단모듈을 더 포함하는 유사검색어 추출 시스템.
  3. 제 1 항 또는 제 2 항 중 어느 한 항에 따른 유사검색어 추출 시스템을 포함하는 검색 시스템.
  4. 사용자 단말기 식별자, 사용자 단말기로부터 입력된 검색쿼리 및 사용자가 검색을 요청한 시간정보를 포함하는 검색로그 DB로부터 복수의 사용자들이 입력한 검색쿼리들을 판독하여 사용자별 검색쿼리 DB를 생성하는 단계와,
    상기 사용자별 검색쿼리 DB로부터 특정 사용자가 입력한 복수의 검색쿼리들 중에서 서로 다른 2개의 검색쿼리들로 이루어진 순열을 추출하여 사용자별 쿼리쌍 DB를 생성하는 단계와,
    상기 사용자별 쿼리쌍 DB로부터 특정 쿼리를 포함하는 복수의 사용자들에 대해 저장된 쿼리쌍들을 판독하여 상기 특정 쿼리와 쌍을 이루는 다른 쿼리들을 추출하여 유사검색어를 생성하는 단계와,
    사용자 단말기의 특정 쿼리에 대한 검색 요청에 따라 상기 유사검색어군 추출모듈에 의해 생성된 유사검색어를 제공하는 단계를 포함하는 유사검색어 추출 방법.
  5. 제 4 항에 있어서,
    사용자 단말기의 특정 쿼리에 대한 검색 요청에 따라 상기 유사검색어군 추출모듈에 의해 생성된 유사검색어를 제공할 때, 상기 사용자별 쿼리쌍 DB로부터 복수의 사용자들에 대해 저장된 상기 특정 쿼리를 포함하는 쿼리쌍들을 판독하여 각 쿼리쌍들에 대한 상기 특정 쿼리의 조건부확률을 계산하고, 일정 기준값 이상의 조건부확률을 가진 쿼리쌍들을 기초로 상기 특정 쿼리와 쌍을 이루는 다른 쿼리들을 유사검색어로 제공하는 유사검색어 추출 방법.
  6. 제 4 항 또는 제 5 항 중 어느 한 항에 따른 유사검색어 추출 방법을 실행시키기 위한 프로그램을 수록한 컴퓨터 판독 가능한 기록 매체.




KR1020120041848A 2012-04-23 2012-04-23 유사검색어 추출 시스템 및 방법 KR101341816B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020120041848A KR101341816B1 (ko) 2012-04-23 2012-04-23 유사검색어 추출 시스템 및 방법
US13/868,066 US9305054B2 (en) 2012-04-23 2013-04-22 System and method for extracting analogous queries

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120041848A KR101341816B1 (ko) 2012-04-23 2012-04-23 유사검색어 추출 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20130119030A true KR20130119030A (ko) 2013-10-31
KR101341816B1 KR101341816B1 (ko) 2013-12-16

Family

ID=49381122

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120041848A KR101341816B1 (ko) 2012-04-23 2012-04-23 유사검색어 추출 시스템 및 방법

Country Status (2)

Country Link
US (1) US9305054B2 (ko)
KR (1) KR101341816B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200038352A (ko) * 2018-10-02 2020-04-13 주식회사 에이치스퀘어어낼러틱스 Gui를 이용한 의무기록 데이터의 쿼리 생성 시스템 및 방법

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105159938B (zh) 2015-08-03 2018-11-30 百度在线网络技术(北京)有限公司 检索方法和装置
US10380192B2 (en) * 2015-12-08 2019-08-13 Oath Inc. Method and system for providing context based query suggestions
US10146815B2 (en) * 2015-12-30 2018-12-04 Oath Inc. Query-goal-mission structures
US11386105B2 (en) * 2016-04-29 2022-07-12 Microsoft Technology Licensing, Llc Automatic identification and contextual reformulation of implicit device-related queries
JP7099031B2 (ja) * 2018-04-27 2022-07-12 日本電信電話株式会社 回答選択装置、モデル学習装置、回答選択方法、モデル学習方法、プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101096285B1 (ko) 2004-04-22 2011-12-20 엔에이치엔(주) 연관 검색 쿼리 추출 방법 및 시스템
KR101453382B1 (ko) 2008-09-08 2014-10-21 에스케이커뮤니케이션즈 주식회사 사용자별 검색어 추천 시스템과 방법 및 이를 구현할 수 있는 컴퓨터로 읽을 수 있는 기록 매체
US8244749B1 (en) * 2009-06-05 2012-08-14 Google Inc. Generating sibling query refinements

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200038352A (ko) * 2018-10-02 2020-04-13 주식회사 에이치스퀘어어낼러틱스 Gui를 이용한 의무기록 데이터의 쿼리 생성 시스템 및 방법

Also Published As

Publication number Publication date
US9305054B2 (en) 2016-04-05
KR101341816B1 (ko) 2013-12-16
US20130282754A1 (en) 2013-10-24

Similar Documents

Publication Publication Date Title
US11580168B2 (en) Method and system for providing context based query suggestions
US9818142B2 (en) Ranking product search results
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
KR101341816B1 (ko) 유사검색어 추출 시스템 및 방법
CN107862022B (zh) 文化资源推荐系统
US10909427B2 (en) Method and device for classifying webpages
US20130282709A1 (en) Method and system for query suggestion
US20150242497A1 (en) User interest recommending method and apparatus
US9767198B2 (en) Method and system for presenting content summary of search results
US20110264651A1 (en) Large scale entity-specific resource classification
US9311372B2 (en) Product record normalization system with efficient and scalable methods for discovering, validating, and using schema mappings
WO2007001128A1 (en) Method and system for determining relation between search terms in the internet search system
US20180225384A1 (en) Contextual based search suggestion
WO2016082094A1 (en) Method and system for providing a user agent string database
US10146872B2 (en) Method and system for predicting search results quality in vertical ranking
KR101577376B1 (ko) 텍스트 기준점 기반의 저작권 침해 판단 시스템 및 그 방법
US9619558B2 (en) Method and system for entity recognition in a query
CN110569419A (zh) 问答系统优化方法、装置、计算机设备及存储介质
US10394838B2 (en) App store searching
US20160034589A1 (en) Method and system for search term whitelist expansion
RU2595523C2 (ru) Способ обработки изображения, способ создания индекса изображения, способ обнаружения соответствия изображению из хранилища изображений и сервер (варианты)
KR101370831B1 (ko) 축약된 이슈문장 추출 시스템 및 방법
CN107807964B (zh) 数字内容排序方法、装置和计算机可读存储介质
CN110442614B (zh) 元数据的搜索方法及装置、电子设备、存储介质
CN111859042A (zh) 一种检索方法、装置及电子设备

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20161025

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20191210

Year of fee payment: 9