KR20140068520A - 자동완성 질의어 제공 시스템 및 방법 - Google Patents

자동완성 질의어 제공 시스템 및 방법 Download PDF

Info

Publication number
KR20140068520A
KR20140068520A KR1020120136112A KR20120136112A KR20140068520A KR 20140068520 A KR20140068520 A KR 20140068520A KR 1020120136112 A KR1020120136112 A KR 1020120136112A KR 20120136112 A KR20120136112 A KR 20120136112A KR 20140068520 A KR20140068520 A KR 20140068520A
Authority
KR
South Korea
Prior art keywords
query term
query
term
user
search
Prior art date
Application number
KR1020120136112A
Other languages
English (en)
Other versions
KR101446468B1 (ko
Inventor
손근영
Original Assignee
(주)이스트소프트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)이스트소프트 filed Critical (주)이스트소프트
Priority to KR1020120136112A priority Critical patent/KR101446468B1/ko
Priority to US14/077,145 priority patent/US20140149375A1/en
Priority to JP2013245861A priority patent/JP5722415B2/ja
Priority to DE102013224331.6A priority patent/DE102013224331A1/de
Publication of KR20140068520A publication Critical patent/KR20140068520A/ko
Application granted granted Critical
Publication of KR101446468B1 publication Critical patent/KR101446468B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24534Query rewriting; Transformation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

사용자가 임의의 질의어를 입력하는 중에 그와 연관된 검색어를 자동으로 완성시켜 제시할 수 있으며, 동시에 사용자가 오탈자를 입력하더라도 정타 질의어에 대하여 자동완성된 질의어를 제공할 수 있는 자동완성 질의어 제공 시스템 및 그 방법을 제공한다.

Description

자동완성 질의어 제공 시스템 및 방법{SYSTEM AND METHOD FOR PRIVIDING AUTOMATICALLY COMPLETED QUERY}
본 발명은 사용자의 검색 키워드의 입력 상황에 맞추어 자동완성 질의어를 제공하는 검색 시스템 및 방법에 관한 것이다.
인터넷의 발달 및 보급의 증가로 인해 인터넷을 이용한 다양한 서비스가 제공되고 있는데, 그 중 대표적인 예가 검색 서비스라 할 수 있다. 이러한 검색 서비스는 사용자가 검색하고자 하는 단어 또는 단어의 조합을 질의어로 입력하면, 검색 엔진이 입력된 질의어에 상응하는 검색결과 문서(예컨대, 사용자로부터 입력된 검색 질의어를 포함하는 웹 사이트, 기사, 또는 해당 검색 질의어를 포함하는 파일명을 갖는 이미지 등)를 사용자에게 제공하는 서비스를 의미한다.
검색 서비스는 점차 사용자의 편의를 극대화하는 방향으로 개선되고 있는데, 사용자가 적합한 질의어를 입력한 경우 그에 만족할만한 검색결과를 제시하는 것은 물론이고, 사용자가 부적합한 질의어를 입력한 경우에도 사용자를 만족시킬 수 있는 적절한 검색결과를 제공할 수 있도록 개발되고 있다. 특히, 검색 서비스의 이용자층이 확대되면서 적절한 질의어에 대한 충분한 배경 지식이 없는 사용자가 늘어남에 따라 사용자에게 적절한 쿼리를 안내할 수 있는 다양한 검색 서비스가 개발되고 있다.
최근의 검색 웹사이트는, 예컨대 "갤럭시"를 찾고자 하는 경우, 도 1에서 보듯이, 사용자가 검색 사이트가 제공하는 검색 화면(10)의 질의어 입력창(12)에 키워드를 입력하는 중에 "갤럭"이라고만 입력하여도, 검색 엔진이 "갤럭시", "갤럭시 에이스 플러스", "갤럭시노트2", "갤럭시노트" 등과 같은 다양한 검색 쿼리를 제시함으로써, 사용자가 제시된 검색 쿼리 중 어느 하나를 선택하여 검색할 수 있도록 유도한다. 따라서 사용자는 자동완성 질의어 제시창(16)에 제시된 다양한 검색 쿼리 중 하나를 선택한 후 검색 버튼(14)을 클릭함으로써 간편하게 검색을 진행할 수 있다.
한편, 사용자들이 자주 틀리는 오탈자를 질의어로 입력한 경우, 검색 시스템은 실제로 입력된 오탈자 질의어를 기반으로 검색을 수행하고, 그 결과를 사용자에게 제공하기 때문에, 사용자는 자신이 원했던 검색 결과를 획득하지 못하게 된다. 예컨대, 도 2에서 보듯이, 사용자가 원래 정자인 "갤럭시" 대신에 오탈자인 "겔럭"이라고 잘못 입력하는 경우, 검색 엔진은 오탈자를 구분하지 못하므로, 사용자가 입력한 "겔럭"이라는 질의어와 공통된 문자열을 가진 "겔럭시노트2", "겔럭시s3", "겔럭시", "겔럭시탭" 등과 같이 오탈자가 그대로 반영된 검색 쿼리만을 제시하게 된다. 따라서, 사용자가 검색 엔진이 잘못 제시한 검색 쿼리들 중 하나를 선택하여 검색을 진행하는 경우, 만족할만한 결과를 얻기 어렵고 결국 검색 질의어를 다시 입력할 수밖에 없어서 검색서비스를 이용하는 사용자의 불편을 초래하게 되고, 이는 결국 검색 서비스의 만족도 및 신뢰도의 저하로 이어지는 문제점이 있다.
이와 같이, 사용자가 검색 서비스를 이용할 때 자신이 원하는 검색 결과에 상응하는 질의어에 대한 정자를 선택하는 것이 쉽지 않기 때문에, 사용자들은 자신이 획득하고자 했던 검색 결과에 상응하는 질의어가 아닌 오탈자의 질의어를 입력하는 경우가 종종 발생한다. 이러한 경우, 검색 엔진은 실제로 입력된 오탈자인 질의어만을 기반으로 검색을 수행하기 때문에, 사용자들은 자신이 원했던 검색 결과를 얻지 못하게 된다는 문제점이 있다.
이러한 문제를 해결하기 위하여, 종래의 검색 사이트들 중에는 사용자가 입력한 질의어에 대하여 오타교정엔진을 통해 오탈자를 교정하는 서비스를 제공하기도 한다. 종래의 오타교정엔진은 미리 구축된 사전 데이터베이스를 통해, 사용자가 입력을 마친후 검색을 요청한 질의어에 대하여 사전 데이터베이스와 비교하여 정타 질의어를 제시하는 방식으로 제공된다. 따라서, 종래의 오타교정엔진을 포함하는 검색 사이트는, 예컨대 사용자가 "겔럭시"라고 입력을 마친 경우 도 1과 같은 검색 쿼리를 제공하는 한편, 예들 들어 "혹시 찾고 싶은 것이 '갤럭시'인가요?"라는 문구를 표시하여 사용자에게 정타 질의어를 제안하기도 한다.
그러나, 종래의 오타교정엔진은 미리 구축된 사전 데이터베이스를 기초로 하므로 정타 질의어가 제시되는 검색 쿼리는 매우 제한적이며, 더구나 시시각각 요청되는 다양한 사용자 질의어를 충실히 반영하지 못할 뿐더러, 오타교정엔진이 제시하는 정타 질의어가 반드시 사전적인 의미에서 정타 질의어일 확률도 매우 낮다. 나아가, 사용자가 입력한 임의의 질의어에 대하여 실시간으로 오타 교정을 행하는 경우에는 서버 부하가 가중된다. 또한, 오타교정엔진을 통해 사용자가 정타 질의어를 다시 검색하는 경우에는, 도 2와 같은 다양한 자동완성 검색어를 제시하지 못하므로, 부득이 사용자가 정타 질의어를 다시 입력해야 하는 번거로움이 따른다. 즉, 종래의 검색 사이트는 사용자가 입력한 오탈자를 그대로 반영한 추천어만을 제공하게 되며, 따라서 사용자는 입력하고 있는 질의어가 완성된 쿼리가 아니기 때문에 오탈자인지 여부를 알 수 없다.
본 발명은 상술한 종래의 검색 시스템의 문제점을 해결하기 위한 것으로서, 사용자가 임의의 질의어를 입력하는 중에 그와 연관된 검색어를 자동으로 완성시켜 제시할 수 있으며, 동시에 사용자가 오탈자를 입력하더라도 정타 질의어에 대하여 자동완성된 질의어를 제공할 수 있는 자동완성 질의어 제공 시스템 및 그 방법을 제공하는 것을 목적으로 한다.
본 발명은, 적어도 사용자가 입력한 질의어에 대해 오타 교정을 수행하여 정타 후보어를 제시하는 오타교정엔진을 포함하는 검색 시스템에 자동완성 질의어를 제공하는 자동완성 질의어 제공 시스템으로서, 적어도 사용자가 검색을 요청한 사용자 입력 질의어가 저장되는 검색로그 DB; 상기 검색로그 DB로부터 상기 자동완성 질의어로 제공할 적어도 하나 이상의 키워드를 포함하는 추천어 리스트를 생성하는 자동완성 추천어 리스트 생성부; 사용자가 상기 오타교정엔진을 통해 제시된 정타 후보어를 선택한 경우, 사용자가 입력한 오타 질의어 및 사용자가 선택한 상기 정타 후보어가 저장되는 오타교정로그 DB; 상기 오타교정로그 DB를 판독하여, 상기 추천어 리스트에 포함된 특정 키워드가 상기 오타 질의어로 입력된 회수 및 상기 특정 키워드가 상기 정타 후보어로 선택된 회수를 비교함으로써 상기 특정 키워드의 정타 확률값을 계산하는 정타 확률 계산부; 상기 정타 확률값에 따라 상기 특정 키워드를 정타 질의어로 선정한 후 상기 오타교정로그 DB를 판독하여 상기 특정 키워드에 대응하는 오타 질의어를 추출함으로써 상기 특정 키워드에 대한 오타 질의어 리스트를 생성하는 오타 질의어 리스트 생성부; 상기 자동완성 추천어 리스트 및 상기 오타 질의어 리스트를 기초로, 상기 특정 키워드에 대한 상기 정타 질의어의 색인 정보 및 상기 오타 질의어의 색인 정보를 생성하여 질의어 색인 DB에 기록하는 질의어 색인부; 상기 질의어 색인 DB를 조회하여 상기 검색 시스템에 입력된 질의어와 연관된 적어도 하나 이상의 자동완성 질의어를 생성하는 자동완성 질의어 생성부;를 포함하는 것을 특징으로 한다.
여기서, 상기 질의어 색인 DB에 기록된 상기 특정 키워드에 대한 상기 정타 질의어 색인 정보 및 상기 오타 질의어 색인 정보는, 상기 정타 질의어 및 상기 오타 질의어 각각에 대하여 자소단위, 음절단위 또는 서픽스에 따라 색인된 문자 순열 데이터일 수 있다.
또한, 본 발명은 상술한 자동완성 질의어 제공 시스템을 포함하는 검색 시스템일 수 있다.
본 발명은, 적어도 사용자가 입력한 질의어에 대해 오타 교정을 수행하여 정타 후보어를 제시하는 오타교정엔진을 포함하는 검색 시스템에 자동완성 질의어를 제공하는 자동완성 질의어 제공방법으로서, 적어도 사용자가 검색을 요청한 사용자 입력 질의어를 검색로그 DB에 기록하고, 아울러 사용자가 상기 오타교정엔진을 통해 제시된 정타 후보어를 선택한 경우 사용자가 입력한 오타 질의어 및 사용자가 선택한 상기 정타 후보어를 오타교정로그 DB에 기록하는 단계와, 상기 검색로그 DB로부터 상기 자동완성 질의어로 제공할 적어도 하나 이상의 키워드를 포함하는 추천어 리스트를 생성하는 단계와, 상기 오타교정로그 DB를 판독하여, 상기 추천어 리스트에 포함된 특정 키워드가 상기 오타 질의어로 입력된 회수 및 상기 특정 키워드가 상기 정타 후보어로 선택된 회수를 비교함으로써 상기 특정 키워드의 정타 확률값을 계산하는 단계와, 상기 정타 확률값에 따라 상기 특정 키워드를 정타 질의어로 선정한 후 상기 오타교정로그 DB를 판독하여 상기 특정 키워드에 대응하는 오타 질의어를 추출함으로써 상기 특정 키워드에 대한 오타 질의어 리스트를 생성하는 단계와, 상기 자동완성 추천어 리스트 및 상기 오타 질의어 리스트를 기초로, 상기 특정 키워드에 대한 상기 정타 질의어의 색인 정보 및 상기 오타 질의어의 색인 정보를 생성하여 질의어 색인 DB에 기록하는 단계와, 사용자가 상기 검색 시스템에 임의의 질의어를 입력하는 경우, 상기 질의어 색인 DB를 조회하여 상기 질의어와 연관된 적어도 하나 이상의 자동완성 질의어를 생성하여 제공하는 단계를 포함하여 구현될 수 있다.
여기서, 상기 질의어 색인 DB에 기록된 상기 특정 키워드에 대한 상기 정타 질의어 색인 정보 및 상기 오타 질의어 색인 정보는, 상기 정타 질의어 및 상기 오타 질의어 각각에 대하여 자소단위, 음절단위 또는 서픽스에 따라 색인된 문자 순열 데이터일 수 있다.
나아가, 본 발명은 상술한 자동완성 질의어 제공방법을 실행시키기 위한 프로그램을 수록한 컴퓨터로 판독가능한 기록매체로 제공될 수 있다.
본 발명에 따르면, 사용자가 임의의 질의어를 입력하는 중에 그와 연관된 질의어를 자동으로 완성시켜 제공할 수 있다. 특히, 본 발명에 따르면, 사용자가 오탈자 질의어를 입력하는 중에도 질의어의 정답 확률이 미리 계산된 색인 정보를 이용하여 정타 질의어로 이루어진 자동완성 질의어를 제공할 수 있다. 아울러, 본 발명에 따른 자동완성 질의어 제공 시스템 및 방법을 이용하면, 검색 서비스 제공자 입장에서는 자주 요청되는 오탈자에 대한 색인 정보를 미리 정타 질의어와 연관시켜 데이터베이스화하여 정타 질의어에 대한 자동완성 질의어를 제공할 수 있으므로, 검색을 수행하는 중에 사용자가 입력한 질의어에 대해 실시간으로 오타 교정을 수행할 필요가 없으므로 서버 부하가 감소될 수 있다.
도 1은 및 도 2는 종래 기술에 따른 검색 시스템의 검색 화면에 검색 쿼리가 노출되는 상태를 예시한 도면이다.
도 3은 본 발명에 따른 자동완성 질의어 제공 시스템의 구성을 도시한 블록도이다.
도 4는 본 발명에 따른 자동완성 질의어 제공방법을 설명하는 흐름도이다.
도 5는 본 발명에 따라 특정 키워드에 대한 정타 확률값을 계산하는 방식을 설명하기 위한 예시도로서, 오타교정로그 DB에 사용자가 잘못 입력한 오타 질의어 및 오타교정엔진이 제시한 정타 후보어가 쿼리쌍으로 기록된 상태를 도시한다.
도 6은 본 발명에 따라 질의어 색인 DB에 기록된 특정 키워드에 대한 정타 질의어 및 오타 질의어 각각의 색인정보의 예시도이다.
이하 첨부된 도면을 참조하여 본 발명의 실시예에 대해 상세히 설명하기로 한다.
도 3은 본 발명의 일 실시예에 따른 자동완성 질의어 제공 시스템의 구성을 보여주는 블럭도이다. 여기서, 본 발명에 따른 자동완성 질의어 제공 시스템(200)은, 적어도 사용자가 입력한 질의어에 대해 오타 교정을 수행하여 정타 후보어를 제시하는 오타교정엔진(120)을 포함하는 검색 시스템(100)에 자동완성 질의어를 제공하는 자동완성 질의어 제공 시스템으로서, 인터넷 검색 서비스를 제공하는 검색 시스템(100)에 통합되어 구성될 수도 있고, 물리적으로 이격된 별도의 시스템으로 구축되어 검색 시스템(100)과 소정의 통신망을 통해 통신하는 방식으로 구성될 수도 있다. 특히, 오타교정엔진(120)은, 예컨대 국어사전, 영어사전, 백과사전 등의 사전 데이터베이스를 포함할 수 있으며, 사용자는 자신이 입력한 질의어에 대해 오타교정엔진이 정타 질의어를 제시한 경우 이를 선택하여 검색을 진행할 수 있다. 오타교정엔진은 종래의 검색 시스템에서 제공하는 다양한 방식으로 구성될 수 있으며, 이에 대해서는 자세한 설명을 생략하기로 한다.
도 3에 도시한 본 발명에 따른 자동완성 질의어 제공 시스템의 세부 구성에 대하여, 도 4에 도시한 자동완성 질의어 제공 방법에 대한 흐름도를 참조하여 더 자세히 설명하면 다음과 같다.
먼저, 검색로그 DB(260)는 검색 시스템(100)을 이용하여 사용자가 검색을 요청한 사용자 입력 질의어가 저장된다. 즉, 검색로그 DB(260)에는, 사용자의 검색 요청에 대한 정보가 저장되는데, 예컨대 사용자 식별자, 사용자가 입력한 질의어, 검색 시간 등에 대한 검색 로그 정보가 기록된다. 검색로그 DB(260)에는 모든 검색 행위에 대한 로그 정보가 기록될 수 있다.
또한, 검색 시스템(100)에 구비된 오타교정엔진(120)은, 사용자가 입력한 질의어가 오탈자인 것으로 판단하여 그에 대한 정타 후보어를 제시할 수 있는데, 만약 사용자가 자신이 검색하고자 하는 질의어에 대한 정타가 오타교정엔진(120)이 제시한 정타 후보어인 것으로 판단하여 그 정타 후보어로 검색을 요청한 경우에, 최초 사용자가 입력한 오타 질의어 및 사용자가 선택한 정타 후보어가 쿼리쌍으로 결합되어 오타교정로그 DB(270)에 기록된다.
본 자동완성 질의어 제공 시스템(200)은 다양한 사용자에 대하여 상당 기간 축적된 검색로그 DB(260) 및 오타교정로그 DB(270)를 미리 구축함(S101)으로써 양질의 검색 서비스를 제공하게 된다.
다음으로, 자동완성 추천어 리스트 생성부(210)는, 미리 구축된 검색로그 DB(260)로부터 자동완성 질의어로서 제공할 적어도 하나 이상의 키워드를 포함하는 추천어 리스트를 생성한다(S102). 예컨대, 자동완성 추천어 리스트 생성부(210)는 검색로그 DB(260)에 기록된 사용자 입력 질의어 중에서 검색 빈도수, 검색결과 클릭율 등의 일정한 기준에 따라 키워드를 선정하여 추천어 리스트를 생성할 수 있다.
이와 같이 추천어 리스트가 생성되면, 그에 포함된 각각의 키워드에 대하여 정타 확률값을 계산한다(S103). 즉, 정타확률 계산부(220)는, 오타교정로그 DB(270)를 판독하여, 추천어 리스트에 포함된 각각의 키워드에 대해 해당 키워드가 오타교정로그 DB(270)에 수록된 쿼리쌍에서 오타 질의어로 입력된 회수 및 정타 후보어로 선택된 회수를 비교함으로써 해당 키워드의 정타 확률값을 계산한다. 이에 대하여 더 자세히 설명하면, 도 5에서와 같이, 오타교정로그 DB(270)에 오타교정 쿼리쌍이 기록되어 있다고 가정하자. 여기서, '오타 질의어'는 사용자가 검색을 수행할 때 최초 입력한 오탈자 질의어를 의미하고, '정타 후보어'는 오타교정엔진(120)이 정타로 제시한 후보어를 사용자가 선택하여 검색을 행한 질의어를 의미하며, '쿼리쌍 개수'는 동일한 오타 질의어 및 정타 후보어를 가진 쿼리쌍의 개수로서 동일한 오타 교정을 받은 사용자 수를 의미한다. 즉, 개수가 큰 쿼리쌍은 사용자들이 자주 틀리는 오탈자 및 사용자들이 자주 선택한 정타를 의미한다.
만약, 추천어 리스트에 "이스트소프트"가 포함되어 있는 경우, 도 5를 참조할 때, "이스트소프트"라는 키워드는 정타 후보어에서 33번 출현하고, 오타 질의어에서는 2번 출현한다. 따라서, "이스트소프트"라는 질의어가 정타일 확률값 P는 아래 [식 1]에 기초할 때 "P=Min{1, 33/2}"로 계산되어 "1"이라는 값을 갖는다.
[식 1] P(키워드) = Min{1, C(키워드)/W(키워드)}
여기서, P(질의어)는 특정 키워드의 정타 확률값을 의미하고, 함수 Min{1,A}는 숫자 "1" 및 "A" 중에서 최소값을 결과값으로 가지며, C(키워드)는 특정 키워드가 정타 후보어로 출현한 회수를 의미하고, W(키워드)는 특정 키워드가 오타 질의어로 출현한 회수를 의미한다.
다시 말해서, 해당 키워드가 오타 질의어에서 더 많이 출현한다면 P값이 "0"에 수렴할 것이나, 반면에 해당 키워드가 정타 후보어에서 더 많이 출현한다면 P값이 "1"에 근접하게 된다. 검색 서비스 제공자는 특정 키워드에 대한 P값이 기준값(예컨대, 0.5) 미만인 경우 오타로 판별하고, 기준값 이상인 경우 정타인 것으로 판별할 수 있다.
이렇게 추천어 리스트로 선정된 개개의 키워드에 대해 각각 정타 확률값을 계산한 후에는, 계산된 정타 확률값에 기초하여 특정 키워드를 정타 질의어로 선정함과 동시에 오타교정로그 DB(270)에 수록된 쿼리쌍에서 해당 키워드가 정타 후보어로 기록된 쿼리쌍들로부터 복수의 오타 질의어를 추출한다. 즉, 오타 질의어 리스트 생성부(230)는, 정타 질의어로 선정된 특정 키워드에 대하여 동일한 키워드를 정타 후보어로 포함하는 쿼리쌍에 수록된 오타 질의어들을 기초로 오타 질의어 리스트를 생성한다(S104). 예컨대, 도 5를 참조하면, "이스트소프트"의 P값이 "1"이므로 이를 정타 질의어로 선정하고, 오타교정로그 DB(270)에서 "이스트소프트"를 정타 후보어로 포함하는 쿼리쌍에서 오타 질의어로 포함된 "이스타소프트" 및 "이수트소프트"를 추출하여 오타 질의어 리스트로 생성한다.
다음으로, 질의어 색인부(240)는 생성된 자동완성 추천어 리스트 및 오타 질의어 리스트를 기초로, 특정 키워드에 대한 정타 질의어의 색인 정보 및 오타 질의어의 색인 정보를 생성한다(S105). 여기서, 정타 질의어 및 오타 질의어의 색인 정보는, 정타 질의어 및 상기 오타 질의어 각각에 대하여 자소단위, 음절단위 또는 서픽스에 따라 색인된 문자 순열 데이터일 수 있다.
예컨대, "당나귀"라는 질의어에 대하여, "ㄷ", "다", "당", "당ㄴ", "당나", "당낙", "당나구", "당나귀"와 같이 자소단위로 색인될 수도 있고, "당", "당나", "당나귀"와 같이 음절단위로 색인될 수도 있고, "귀", "나귀", "당나귀"와 같이 서픽스(Suffix)로 색인될 수도 있다.
이와 같이 자소단위, 음절단위, 서픽스 또는 이들 모두를 포함하는 방식으로 색인된 문자 순열 데이터로 구성된 색인 정보는 하나의 키워드를 자동완성 질의어 매칭되어 질의어 색인 DB(280)에 기록된다.
참고로, 도 6에는 "이스트소프트"에 대한 정타 질의어 및 오타 질의어 각각에 대해 자소 단위로 문자열이 색인된 색인정보가 자동완성 질의어 "이스트소프트"로 동일하게 매칭된 예를 도시하였다.
상술한 방식으로 질의어 색인 DB(280)가 구축된 경우, 사용자가 임의의 질의어를 입력하면, 자동완성 질의어 생성부(250)는 사용자가 질의어를 입력하는 중에 그 질의어에 대한 색인정보(예컨대, 자소단위의 문자 순열 데이터)와 일치하는 색인정보를 가진 자동완성 질의어를 생성하여 검색 시스템(100)에 제공한다. 예컨대, 사용자가 "이스타"라고 입력하는 경우, "이스타"는 "이스탄불"의 일부일 수도 있고, 동시에 "이스트소프트"의 오타 질의어인 "이스타소프트"의 일부일 수도 있다. 따라서, 자동완성 질의어 생성부(250)는 질의어 색인 DB(280)에서 사용자가 입력한 "이스타"의 색인정보인 "ㅇlㅅㅡㅌㅏ"와 동일한 색인정보를 가진 "이스탄불" 및 "이스트소프트"를 자동완성 질의어로 제공하게 된다.
이와 같은 결과는, 종래의 검색 시스템에서 제공하는 자동완성 추천어 제공 방식과 비교하면 다음과 같은 차이가 있다. 예를 들어, 사용자가 정타인 "갤럭시"에 대해 잘못하여 "겔럭"이라고 입력하는 경우, 종래의 검색 시스템에서는 "겔럭"이라는 질의어의 색인정보와 일치하는 자동완성 추천어만을 제공한다(즉, 도 2 참조). 그러나, 본 발명에 따른 자동완성 질의어 제공 시스템 및 방법에 의하면, 사용자가 "겔럭"이라고 잘못 입력한 경우에도, "겔럭시"라는 키워드가 "갤럭시"에 대한 오타 질의어인 것으로 미리 판별되어 질의어 색인 DB에 그 색인정보가 기록될 수 있으며, 따라서 자동완성 질의어로서 정타인 "갤럭시"에 대한 다양한 정타 질의어를 직접 제공하게 된다. 따라서, 사용자는 자신이 입력한 오탈자에 대한 정타 질의어를 곧 바로 제공받을 수 있으며, 이를 선택하여 더 정확한 검색결과를 얻게 된다.
상술한 자동완성 질의어 제공 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터로 판독 가능한 기록 매체에 기록될 수 있다. 이때, 컴퓨터로 판독 가능한 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 한편, 기록매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.
컴퓨터로 판독 가능한 기록매체에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM, DVD와 같은 광기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광매체(Magneto-Optical Media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함될 수 있다. 한편, 이러한 기록매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다.
또한, 프로그램 명령에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상술한 하드웨어 장치는 본 발명의 동작을수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
지금까지 본 발명의 바람직한 실시예에 대해 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명의 본질적인 특성을 벗어나지 않는 범위 내에서 변형된 형태로 구현할 수 있을 것이다. 그러므로 여기서 설명한 본 발명의 실시예는 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 하고, 본 발명의 범위는 상술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함되는 것으로 해석되어야 한다.

Claims (6)

  1. 적어도 사용자가 입력한 질의어에 대해 오타 교정을 수행하여 정타 후보어를 제시하는 오타교정엔진을 포함하는 검색 시스템에 자동완성 질의어를 제공하는 자동완성 질의어 제공 시스템으로서,
    적어도 사용자가 검색을 요청한 사용자 입력 질의어가 저장되는 검색로그 DB;
    상기 검색로그 DB로부터 상기 자동완성 질의어로 제공할 적어도 하나 이상의 키워드를 포함하는 추천어 리스트를 생성하는 자동완성 추천어 리스트 생성부;
    사용자가 상기 오타교정엔진을 통해 제시된 정타 후보어를 선택한 경우, 사용자가 입력한 오타 질의어 및 사용자가 선택한 상기 정타 후보어가 저장되는 오타교정로그 DB;
    상기 오타교정로그 DB를 판독하여, 상기 추천어 리스트에 포함된 특정 키워드가 상기 오타 질의어로 입력된 회수 및 상기 특정 키워드가 상기 정타 후보어로 선택된 회수를 비교함으로써 상기 특정 키워드의 정타 확률값을 계산하는 정타 확률 계산부;
    상기 정타 확률값에 따라 상기 특정 키워드를 정타 질의어로 선정한 후 상기 오타교정로그 DB를 판독하여 상기 특정 키워드에 대응하는 오타 질의어를 추출함으로써 상기 특정 키워드에 대한 오타 질의어 리스트를 생성하는 오타 질의어 리스트 생성부;
    상기 자동완성 추천어 리스트 및 상기 오타 질의어 리스트를 기초로, 상기 특정 키워드에 대한 상기 정타 질의어의 색인 정보 및 상기 오타 질의어의 색인 정보를 생성하여 질의어 색인 DB에 기록하는 질의어 색인부;
    상기 질의어 색인 DB를 조회하여 상기 검색 시스템에 입력된 질의어와 연관된 적어도 하나 이상의 자동완성 질의어를 생성하는 자동완성 질의어 생성부;를 포함하는 자동완성 질의어 제공 시스템.
  2. 제 1 항에 있어서,
    상기 질의어 색인 DB에 기록된 상기 특정 키워드에 대한 상기 정타 질의어 색인 정보 및 상기 오타 질의어 색인 정보는, 상기 정타 질의어 및 상기 오타 질의어 각각에 대하여 자소단위, 음절단위 또는 서픽스에 따라 색인된 문자 순열 데이터인 것을 특징으로 하는 자동완성 질의어 제공 시스템.
  3. 제 1 항 또는 제 2 항 중 어느 한 항에 따른 자동완성 질의어 제공 시스템을 포함하는 검색 시스템.
  4. 적어도 사용자가 입력한 질의어에 대해 오타 교정을 수행하여 정타 후보어를 제시하는 오타교정엔진을 포함하는 검색 시스템에 자동완성 질의어를 제공하는 자동완성 질의어 제공방법으로서,
    적어도 사용자가 검색을 요청한 사용자 입력 질의어를 검색로그 DB에 기록하고, 아울러 사용자가 상기 오타교정엔진을 통해 제시된 정타 후보어를 선택한 경우 사용자가 입력한 오타 질의어 및 사용자가 선택한 상기 정타 후보어를 오타교정로그 DB에 기록하는 단계와,
    상기 검색로그 DB로부터 상기 자동완성 질의어로 제공할 적어도 하나 이상의 키워드를 포함하는 추천어 리스트를 생성하는 단계와,
    상기 오타교정로그 DB를 판독하여, 상기 추천어 리스트에 포함된 특정 키워드가 상기 오타 질의어로 입력된 회수 및 상기 특정 키워드가 상기 정타 후보어로 선택된 회수를 비교함으로써 상기 특정 키워드의 정타 확률값을 계산하는 단계와,
    상기 정타 확률값에 따라 상기 특정 키워드를 정타 질의어로 선정한 후 상기 오타교정로그 DB를 판독하여 상기 특정 키워드에 대응하는 오타 질의어를 추출함으로써 상기 특정 키워드에 대한 오타 질의어 리스트를 생성하는 단계와,
    상기 자동완성 추천어 리스트 및 상기 오타 질의어 리스트를 기초로, 상기 특정 키워드에 대한 상기 정타 질의어의 색인 정보 및 상기 오타 질의어의 색인 정보를 생성하여 질의어 색인 DB에 기록하는 단계와,
    사용자가 상기 검색 시스템에 임의의 질의어를 입력하는 경우, 상기 질의어 색인 DB를 조회하여 상기 질의어와 연관된 적어도 하나 이상의 자동완성 질의어를 생성하여 제공하는 단계를 포함하는 자동완성 질의어 제공방법.
  5. 제 4 항에 있어서,
    상기 질의어 색인 DB에 기록된 상기 특정 키워드에 대한 상기 정타 질의어 색인 정보 및 상기 오타 질의어 색인 정보는, 상기 정타 질의어 및 상기 오타 질의어 각각에 대하여 자소단위, 음절단위 또는 서픽스에 따라 색인된 문자 순열 데이터인 것을 특징으로 하는 자동완성 질의어 제공방법.
  6. 제 4 항 또는 제 5 항 중 어느 한 항에 따른 자동완성 질의어 제공방법을 실행시키기 위한 프로그램을 수록한 컴퓨터로 판독가능한 기록매체.
KR1020120136112A 2012-11-28 2012-11-28 자동완성 질의어 제공 시스템 및 방법 KR101446468B1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020120136112A KR101446468B1 (ko) 2012-11-28 2012-11-28 자동완성 질의어 제공 시스템 및 방법
US14/077,145 US20140149375A1 (en) 2012-11-28 2013-11-11 System and method for providing predictive queries
JP2013245861A JP5722415B2 (ja) 2012-11-28 2013-11-28 自動完成質疑語提供システム、検索システム、自動完成質疑語提供方法並びに記録媒体
DE102013224331.6A DE102013224331A1 (de) 2012-11-28 2013-11-28 System und Verfahren zur Bereitstellung prädiktiver Anfragen

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120136112A KR101446468B1 (ko) 2012-11-28 2012-11-28 자동완성 질의어 제공 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20140068520A true KR20140068520A (ko) 2014-06-09
KR101446468B1 KR101446468B1 (ko) 2014-10-06

Family

ID=50679217

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120136112A KR101446468B1 (ko) 2012-11-28 2012-11-28 자동완성 질의어 제공 시스템 및 방법

Country Status (4)

Country Link
US (1) US20140149375A1 (ko)
JP (1) JP5722415B2 (ko)
KR (1) KR101446468B1 (ko)
DE (1) DE102013224331A1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150113796A (ko) * 2014-03-31 2015-10-08 삼성전자주식회사 컴퓨팅 시스템, 컴퓨팅 시스템의 구동 방법 및 컴퓨터 판독가능 기록매체
KR101593145B1 (ko) 2014-09-25 2016-02-11 주식회사 포워드벤처스 연관 질의어 제공 시스템 및 방법
KR101638821B1 (ko) * 2015-04-16 2016-07-12 네이버 주식회사 도메인 속성을 이용한 질의어 추천 방법과 시스템 및 기록매체

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104036004B (zh) * 2014-06-17 2018-06-19 百度在线网络技术(北京)有限公司 搜索纠错方法和搜索纠错装置
KR102078627B1 (ko) * 2017-11-14 2020-02-19 네이버 주식회사 사용자-입력 컨텐츠와 연관된 실시간 피드백 정보 제공 방법 및 시스템
KR102418953B1 (ko) * 2020-05-11 2022-07-11 네이버 주식회사 쇼핑 검색 결과 확장 방법 및 시스템
KR102453373B1 (ko) 2021-10-08 2022-10-07 한국전자기술연구원 심층 학습 기반의 자동 오타 교정 장치 및 방법

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5883986A (en) * 1995-06-02 1999-03-16 Xerox Corporation Method and system for automatic transcription correction
US7254774B2 (en) * 2004-03-16 2007-08-07 Microsoft Corporation Systems and methods for improved spell checking
US7487145B1 (en) * 2004-06-22 2009-02-03 Google Inc. Method and system for autocompletion using ranked results
US7321892B2 (en) * 2005-08-11 2008-01-22 Amazon Technologies, Inc. Identifying alternative spellings of search strings by analyzing self-corrective searching behaviors of users
US7747639B2 (en) * 2005-08-24 2010-06-29 Yahoo! Inc. Alternative search query prediction
KR100806936B1 (ko) * 2006-03-31 2008-02-22 엔에이치엔(주) 자동완성 추천어를 정정하여 노출하는 자동완성 추천어제공 방법 및 시스템
KR101083455B1 (ko) * 2009-07-17 2011-11-16 엔에이치엔(주) 통계 데이터에 기초한 사용자 질의 교정 시스템 및 방법
JP5165719B2 (ja) * 2010-03-30 2013-03-21 ヤフー株式会社 情報処理装置、データ抽出方法及びプログラム
US20110295897A1 (en) * 2010-06-01 2011-12-01 Microsoft Corporation Query correction probability based on query-correction pairs
JP5590610B2 (ja) * 2010-11-18 2014-09-17 株式会社Nttドコモ 同義語判定装置、同義語判定方法およびプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150113796A (ko) * 2014-03-31 2015-10-08 삼성전자주식회사 컴퓨팅 시스템, 컴퓨팅 시스템의 구동 방법 및 컴퓨터 판독가능 기록매체
KR101593145B1 (ko) 2014-09-25 2016-02-11 주식회사 포워드벤처스 연관 질의어 제공 시스템 및 방법
KR101638821B1 (ko) * 2015-04-16 2016-07-12 네이버 주식회사 도메인 속성을 이용한 질의어 추천 방법과 시스템 및 기록매체

Also Published As

Publication number Publication date
DE102013224331A1 (de) 2014-05-28
JP2014106982A (ja) 2014-06-09
US20140149375A1 (en) 2014-05-29
JP5722415B2 (ja) 2015-05-20
KR101446468B1 (ko) 2014-10-06

Similar Documents

Publication Publication Date Title
KR101446468B1 (ko) 자동완성 질의어 제공 시스템 및 방법
US8229732B2 (en) Automatic correction of user input based on dictionary
KR100806936B1 (ko) 자동완성 추천어를 정정하여 노출하는 자동완성 추천어제공 방법 및 시스템
US9524291B2 (en) Visual display of semantic information
US20130061139A1 (en) Server-based spell checking on a user device
US9047268B2 (en) Character and word level language models for out-of-vocabulary text input
EP2713255B1 (en) Method and electronic device for prompting character input
US8976118B2 (en) Method for character correction
US10332511B2 (en) Processing speech to text queries by optimizing conversion of speech queries to text
US20090249198A1 (en) Techniques for input recogniton and completion
US20140040741A1 (en) Smart Auto-Completion
US20130060560A1 (en) Server-based spell checking
US20090083255A1 (en) Query spelling correction
CN103370705A (zh) 用于便利文本输入的方法和系统
CN109791761A (zh) 使用校正的术语的声学模型训练
US8219905B2 (en) Automatically detecting keyboard layout in order to improve the quality of spelling suggestions
EP2673687A2 (en) Visual display of semantic information
CN112905620A (zh) 数据查询方法及装置、电子设备、存储介质
CN110795617A (zh) 一种搜索词的纠错方法及相关装置
JP2022511139A (ja) 情報処理方法、装置および記憶媒体
KR20090071710A (ko) 오타 판단 방법 및 시스템
US10222978B2 (en) Redefinition of a virtual keyboard layout with additional keyboard components based on received input
JP5544003B2 (ja) 情報検索装置、情報検索システム、及び情報検索方法
WO2023119573A1 (ja) 情報処理装置、情報処理システム、情報処理方法、およびプログラム
WO2016136208A1 (ja) 音声対話装置、音声対話システム、および、音声対話装置の制御方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170710

Year of fee payment: 6