KR20090074464A - System and method for determining associative query - Google Patents
System and method for determining associative query Download PDFInfo
- Publication number
- KR20090074464A KR20090074464A KR1020080000259A KR20080000259A KR20090074464A KR 20090074464 A KR20090074464 A KR 20090074464A KR 1020080000259 A KR1020080000259 A KR 1020080000259A KR 20080000259 A KR20080000259 A KR 20080000259A KR 20090074464 A KR20090074464 A KR 20090074464A
- Authority
- KR
- South Korea
- Prior art keywords
- search
- probability value
- input
- value
- search term
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Algebra (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
본 발명은 연관 검색어 판단 방법 및 시스템에 관한 것으로서 보다 상세하게는 대표 키워드를 위해 제공되는 연관 검색어의 수가 감소하는 현상을 방지할 수 있는 연관 검색어 판단 방법 및 시스템에 관한 것이다.The present invention relates to a method and system for determining related search terms, and more particularly, to a method and system for determining related search terms that can prevent a phenomenon in which the number of related search terms provided for a representative keyword is reduced.
일반적으로 검색 서비스를 제공하는 검색 서비스 시스템은 사용자로부터 검색어가 입력되면 상기 검색어에 대응하는 검색 결과 문서(예컨대, 사용자로부터 입력된 검색어를 포함하는 웹 사이트, 기사, 또는 해당 검색어를 포함하는 파일명을 갖는 이미지 등)를 사용자에게 제공한다. 그러나, 사용자가 검색 서비스를 이용함에 있어서, 검색하고자 하는 내용에 대한 검색어를 정확히 선택하여 입력하는 것은 쉽지 않다. 따라서, 검색 과정에서 사용자는 자신이 의도한 검색 결과를 얻을 때까지 검색어를 변경해 가면서 재검색을 수행하는 것이 일반적이다.In general, a search service system that provides a search service has a search result document corresponding to the search word when a user inputs a search word (for example, a web site, an article containing a search word input from the user, an article, or a file name including the search word). Image, etc.) to the user. However, when a user uses a search service, it is not easy to accurately select and input a search word for content to be searched. Therefore, in the search process, the user generally performs the re-search while changing the search word until the search result intended by the user is obtained.
그러나 검색 서비스에 익숙지 않은 사용자의 경우 원하는 검색 결과를 얻는데 상당한 시간이 소요된다는 문제점이 있었고, 최근 검색 서비스 제공 시스템은 사용자가 원하는 검색 결과를 보다 빠르고 정확하게 찾을 수 있도록 하기 위해 사 용자로부터 입력받은 검색어와 연관되는 검색어를 사용자에게 제공하는 연관 검색어 제공 서비스를 제공하고 있다.However, users who are not familiar with the search service have a problem that it takes a long time to get the desired search results. Recently, the search service providing system has been able to find the desired search results faster and more accurately. A related search term providing service for providing a related search term to a user is provided.
일반적으로 사용자가 입력한 사용자 검색어에 대해 연관 검색어로 제공될 가능성이 있는 후보 검색어가 연관 검색어인지 판단하는 방법은, 특정 시간 동안 사용자들의 검색 서비스 이용으로 생성된 검색 세션들에 있어서, 상기 사용자 검색어가 입력된 검색 세션의 수와 상기 사용자 검색어 및 후보 검색어가 모두 입력된 검색 세션의 수를 파악하여, 신뢰도(Confidence)를 계산하는 것이다. 그리고, 상기 계산된 신뢰도가 특정 값 이상이면 상기 후보 검색어를 연관 검색어로 판단하는 것이다.In general, a method for determining whether a candidate search term that is likely to be provided as a related search word for a user search word input by the user is related search word in the search sessions generated by the users using the search service for a specific time. The number of search sessions input and the number of search sessions in which both the user search word and the candidate search word are input are calculated to calculate a confidence. If the calculated reliability is equal to or greater than a specific value, the candidate search term is determined as a related search term.
여기서, 신뢰도는 사용자 검색어가 검색 세션에 입력되는 경우, 후보 검색어도 동일 검색 세션에 입력될 조건부 확률이다.Here, the reliability is a conditional probability that a candidate search term is also input to the same search session when the user search term is input to the search session.
그런데, 상기 사용자 검색어가 "네이버"와 같은 검색 횟수가 많은 대표 키워드일 경우, 사용자 검색어가 입력되는 검색 세션의 수가 크고 사용자 검색어가 검색 세션에 입력될 확률도 클 것이므로, 사용자 검색어가 검색 세션에 입력될 확률의 영향으로 후보 검색어의 신뢰도가 낮아져 실제로 대표 키워드를 위해 제공되는 연관 검색어의 수가 작은 문제점이 있었다.However, if the user search word is a representative keyword with a large number of searches, such as "Naver", since the number of search sessions in which the user search word is input is large and the user search term is also likely to be entered in the search session, the user search word is input in the search session. Due to the effect of the probability of the candidate being lowered, the reliability of the candidate search word was lowered, and the number of related search terms provided for the representative keyword was small.
또한, 사용자가 검색어 입력 후 검색 서비스 시스템으로부터 제공되는 연관 검색어를 통해 다음 검색을 행한다는 점을 악용하여, 부당하게 경제적 또는 사회적으로 이익을 얻을 목적으로 특정 검색어와 자신의 영업 또는 사회적 목적과 관련된 검색어를 반복적으로 입력하는 경우, 이를 연관 검색 서비스에 대한 어뷰 징(Abusing)으로 판단하고 필터링(Filtering)할 수 있는 방법이 명확하지 않다는 문제점이 있었다.In addition, by exploiting the fact that a user performs the next search through related search terms provided from the search service system after inputting a search term, a search term related to a specific search term and his or her business or social purpose for the purpose of unfairly gaining economic or social benefits. If repeatedly inputted, there is a problem that it is not clear how to determine and filter this as Abusing of the associated search service.
본 발명은 상술한 문제점을 해결하기 위한 것으로서, 대표 키워드를 위해 제공되는 연관 검색어의 수가 감소하는 현상을 방지할 수 있는 연관 검색어 판단 방법 및 시스템을 제공하는 것을 그 기술적 과제로 한다.SUMMARY OF THE INVENTION The present invention has been made in view of the above-described problem, and it is an object of the present invention to provide a method and system for determining related search terms that can prevent a phenomenon in which the number of related search terms provided for a representative keyword is reduced.
또한, 본 발명은 연관 검색 서비스에 대한 어뷰징을 판단하고 필터링 할 수 있는 연관 검색어 판단 방법 및 시스템을 제공하는 것을 그 기술적 과제로 한다.Another object of the present invention is to provide a method and system for determining a related search word that can determine and filter an abusing of a related search service.
상술한 목적을 달성하기 위한 본 발명의 일 측면에 따른 연관 검색어 판단 방법은 제1 검색어 및 제2 검색어가 하나의 검색 세션에 입력될 제1 확률값을 획득하는 단계; 상기 제1 검색어가 검색 세션에 입력될 제2 확률값에 입력의 변화율이 출력의 변화율에 비해 작아지게 하는 제1 가중치를 부여하는 단계; 상기 제1 확률값 및 상기 제1 가중치가 부여된 제2 확률값을 사용하여 제1 연관도를 산출하는 단계; 및 상기 제1 연관도가 기준치 이상이면, 상기 제2 검색어를 상기 제1 검색어의 연관 검색어로 판단하는 단계를 포함하는 것을 특징으로 한다.According to an aspect of the present invention, there is provided a method for determining a related search word, including: obtaining a first probability value in which a first search word and a second search word are input in one search session; Assigning a first weight value such that a rate of change of the input is smaller than a rate of change of an output to a second probability value for the first search term to be input to a search session; Calculating a first correlation using the first probability value and the first weighted second probability value; And determining the second search word as a related search word of the first search word if the first degree of association is equal to or greater than a reference value.
상술한 목적을 달성하기 위한 본 발명의 일 측면에 따른 연관 검색어 판단 시스템은 제1 검색어 및 제2 검색어가 동일한 검색 세션에 입력될 제1 확률값을 획득하고, 상기 제1 검색어가 검색 세션에 입력될 제2 확률값에 입력의 변화율에 비해 출력의 변화율이 작아지게 하는 제1 가중치를 부여하고, 상기 제1 확률값 및 상기 제1 가중치가 부여된 제2 확률값을 사용하여 제1 연관도를 산출하는 제1 연관도 산출부; 및 상기 제1 연관도가 기준치 이상이면, 상기 제2 검색어를 상기 제1 검색어의 연관 검색어로 판단하는 연관 검색어 판단부를 포함하는 것을 특징으로 한다.In accordance with an aspect of the present invention, an associated search term determination system obtains a first probability value in which a first search term and a second search term are input in the same search session, and the first search term is input in the search session. A first weight is assigned to a second probability value so that the rate of change of the output is smaller than the rate of change of the input, and the first correlation is calculated by using the first probability value and the second probability value to which the first weight is assigned. An association calculation unit; And a related search word determining unit determining the second search word as a related search word of the first search word when the first degree of association is equal to or greater than a reference value.
상술한 바와 같이 본 발명에 따르면, 대표 키워드들이 검색어로 입력되는 경우, 연관 검색어로 제공될 가능성이 있는 후보 검색어의 연관도가 크게 감소되는 현상을 방지할 수 있으므로 대표 키워드를 위해 제공되는 연관 검색어의 수가 감소하는 현상을 방지할 수 있는 효과가 있다.As described above, according to the present invention, when the representative keywords are input as the search word, the relevance of the candidate search word that may be provided as the related search word can be prevented from being greatly reduced. There is an effect that can prevent the phenomenon that the number decreases.
또한, 본 발명에 따르면, 연관 검색어 제공 서비스를 악용한 어뷰징 행위에 대해 연관 검색어를 판단하는 과정에서 신뢰도를 사용하여 필터링 할 수 있는 다른 효과가 있다.In addition, according to the present invention, there is another effect that can be filtered using the reliability in the process of determining the related search word for the abusing behavior of the related search word providing service.
본 발명의 실시예에 대한 상세한 설명을 하기 이전에 본 발명에서 사용된 검색 세션이란 용어에 대해 간략히 설명한다.Before describing the embodiments of the present invention, the term search session used in the present invention will be briefly described.
검색 세션이란 하나의 검색 의도를 해결하기 위한 일련의 검색 행위가 수행되는 과정을 의미하는 것으로서, 일 실시예에 있어서 검색 세션은 소정 인터페이스를 통해 사용자 단말기로 제공된 검색 창을 통해 검색어가 최초로 입력되는 시점에서 시작하여 소정 시간 동안 사용자 단말기로부터 데이터 전송이 없는 시점에서 종료하게 된다.A search session refers to a process in which a series of search actions are performed to solve a search intention. In one embodiment, a search session is a time point when a search term is first input through a search window provided to a user terminal through a predetermined interface. It starts at and ends when there is no data transmission from the user terminal for a predetermined time.
예컨대, 소정 시간이 5분으로 설정되는 경우, 사용자가 사용자 단말기를 통하여 검색 창에 최초 검색어를 입력하는 시점에서 검색 세션이 시작되어 사용자가 검색어를 입력하거나 검색어에 대한 검색 결과를 선택하는 등의 검색 행위를 수행한 최종시각으로부터 5분 동안 검색 행위를 수행하지 않고 대기하는 경우 해당 검색 세션이 종료하게 되는 것이다. 따라서, 해당 검색 세션이 종료된 이후 사용자 단말기로부터 입력되는 검색어는 새로운 검색 세션에 포함되게 된다.For example, if the predetermined time is set to 5 minutes, the search session is started when the user enters the first search term in the search window through the user terminal, and the user enters a search term or selects a search result for the search term. If the user waits for 5 minutes without performing the search action from the last time the action is performed, the search session is terminated. Therefore, the search word input from the user terminal after the corresponding search session ends is included in the new search session.
대표 키워드란 각 분야의 세부적인 키워드들을 대표할 수 있고 사용자의 검색 횟수가 많은 검색어를 말한다. 또한, 각 분야에서 검색 서비스 사용자에게 검색 의도 해결을 위해 바로 연상되는 특정 검색어를 말한다. 일 예로서, 검색 분야에서 사용자에게 검색 목적을 달성하기 위해 곧바로 연상되는 "네이버", 또는 게임 분야에서 사용자에게 곧바로 연상되는 "한게임"과 같은 사이트 명칭을 들 수 있다.The representative keyword is a keyword that can represent detailed keywords of each field and has a large number of searches by the user. In addition, it refers to a specific search word immediately associated with a search service user in each field to solve a search intention. As an example, there may be a site name such as "Naver" immediately associated with a user in the field of search, or "Hangame" immediately associated with a user in the field of games.
대표 키워드에 대한 사용자의 검색 횟수가 많으므로, 특정 시간 동안 여러 사용자들의 검색 서비스 이용에 의해 생성된 검색 세션들에 있어서, 대표 키워드가 입력된 검색 세션의 수가 다른 검색어가 입력된 검색 세션의 수보다 크다. 따라서, 대표 키워드는 검색 세션에 입력될 확률이 다른 검색어에 비해 높은 특징이 있다.Since the number of user searches for the representative keyword is high, the number of search sessions in which the representative keyword is input is higher than the number of search sessions in which the representative keyword is input, in the search sessions generated by the use of the search service of various users for a specific time. Big. Therefore, the representative keyword has a higher characteristic than other search terms having a high probability of being input into a search session.
이하 첨부된 도면을 참조하여 본 발명의 실시예에 대해 상세히 설명한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.
도 1은 본 발명의 일 실시예에 따른 연관 검색어 판단 시스템의 개략적인 블록도이다.1 is a schematic block diagram of a system for determining a related keyword according to an embodiment of the present invention.
도시된 바와 같이, 연관 검색어 판단 시스템(100)은 데이터베이스(102), 제1 연관도 산출부(104), 연관 검색어 판단부(106), 필터링부(108), 제2 연관도 산출부(110), 및 순위 판단부(112)를 포함하며, 사용자(114)와 소정의 네트워크(116)를 통해 연결된다.As illustrated, the related search
이하, 사용자(114)에 의해 입력되어 연관 검색어 판단 시스템(100)이 그에 대한 연관 검색어를 제공하고자 하는 검색어를 사용자 검색어라 하고, 상기 사용자 검색어의 연관 검색어로서 제공될 가능성이 있는 검색어를 후보 검색어라 하겠다.Hereinafter, a search term input by the
또한, 사용자 검색어, 후보 검색어, 및 사용자와 후보 검색어가 입력된 검색 세션의 수는 후보 검색어의 연관도 산출을 위한 자료로서 특정 시간 동안 연관 검색어 판단 시스템(100)에 의해 수집된다. 여기서, 사용자 검색어와 후보 검색어는 동일 검색 세션에서 입력될 수 있고, 한 검색 세션에서 어느 하나만 입력될 수도 있다.In addition, the user search word, the candidate search word, and the number of search sessions in which the user and the candidate search word are input are collected by the related search
데이터베이스(102)에는 특정 시간 동안 사용자(114)들의 검색 행위로 발생한 검색 세션에 있어서, 사용자 검색어가 입력되는 검색 세션의 수, 후보 검색어가 입력되는 검색 세션의 수, 및 사용자 검색어와 후보 검색어가 입력되는 검색 세션의 수가 누적되어 저장된다.The
또한, 데이터베이스(102)에는 순위 판단부(112)에서 생성된 연관 검색어의 순위 정보를 통해 사용자 검색어, 연관 검색어, 연관 검색어의 제공 순위가 저장된다. In addition, the
데이터베이스(102)에 저장된 상기 연관 검색어는 상기 제공 순위에 따라, 연관 검색어 판단 시스템(100)에 의해 사용자(114)의 사용자 검색어 입력 시 제공되게 된다.The related search words stored in the
상술한 실시예에서, 데이터베이스(102)는 연관 검색어 판단 시스템(100)에 포함된 것으로 설명하였으나, 변형된 실시예에서는 연관 검색어 판단 시스템(100) 과 분리된 구성 요소일 수 있다.In the above-described embodiment, the
제1 연관도 산출부(104)는 데이터베이스(102)에 저장된 정보를 통해 사용자 검색어에 대한 후보 검색어의 제1 연관도를 산출한다. 여기서, 제1 연관도는 후보 검색어와 사용자 검색어의 연관성을 의미하는 지수로서 후보 검색어가 연관 검색어인지 판단하기 위해 필요한 지수이다.The
제1 연관도 산출부(104)는 먼저 사용자 검색어 및 후보 검색어가 동일한 검색 세션에 입력될 제1 확률값인 P(사용자 검색어∩후보 검색어)를 획득한다. 여기서, 상기 제1 확률값은 특정 시간 동안 사용자 검색어 및 후보 검색어가 입력된 검색 세션의 수에서 상기 특정 시간 동안 생성된 모든 검색 세션의 수를 나누어 산출한 값이다.The first
그리고, 제1 연관도 산출부(104)는 입력의 증가 비율에 비해 출력의 증가 비율이 작은 제1 함수에 있어서, 상기 사용자 검색어가 검색 세션에 입력될 제2 확률값을 입력으로 하는 상기 제1 함수의 결과값을 획득한다. 여기서, 상기 제2 확률값인 P(사용자 검색어)는 특정 시간 동안 사용자 검색어가 입력된 검색 세션의 수에서 상기 특정 시간 동안 생성된 모든 검색 세션의 수를 나누어 산출한 값이다.In addition, the
일 실시예에 있어서, 상기 제1 함수는 상기 P(사용자 검색어)을 입력으로 하는 제1 지수함수일 수 있다. 여기서, 제1 지수함수의 지수값은 0보다 크고 1보다 작은 값일 수 있다.In one embodiment, the first function may be a first exponential function that takes the input of P (user search term). Here, the exponent value of the first exponential function may be a value larger than zero and smaller than one.
일 실시예에 있어서, 상기 제1 연관도 산출부(104)는 특정 시간 동안 사용자 검색어가 입력된 검색 세션의 수, 후보 검색어가 입력된 검색 세션의 수, 또는 사 용자 검색어 및 후보 검색어가 입력된 검색 세션의 수를 참조하여, 연관 검색어 판단 시스템(100)이 제공할 연관 검색어의 수가 소정 값 이상이 되도록 상기 제1 함수의 지수값을 결정할 수 있다.According to an embodiment, the
이하, 상기 제1 함수는 P(사용자 검색어)x 로 표현되는 제1 지수함수라 가정하고 설명하겠다. 여기서, x는 0보다 크고 1보다 작은 값이다.Hereinafter, assuming that the first function is a first exponential function expressed by P (user search term) x . Where x is a value greater than 0 and less than 1.
제1 연관도 산출부(104)는 상기 제1 확률값을 상기 제1 지수함수의 결과값으로 나누어 제1 연관도를 산출한다. 결국 제1 연관도는 하기 <수학식 1>로 나타낼 수 있다.The first
상술한 제1 연관도 산출 방법은 상기 사용자 검색어가 검색 세션에 입력될 확률값에 입력의 변화율에 비해 출력의 변화율이 작아지게 하는 가중치를 부여하여, 상기 사용자 검색어가 입력된 검색 세션의 수가 큰 경우, 상기 사용자 검색어가 입력된 검색 세션의 수가 작은 경우보다 상기 <수학식 1>의 분모가 제1 연관도에 미치는 영향력이 작게 되고, 다른 한편으로는 제1 연관도를 크게 할 수 있다.The first relevance calculation method described above gives a weight value such that the rate of change of the output is smaller than the rate of change of the input to a probability value that the user search term is input to the search session, so that the number of search sessions to which the user search term is input is large. Influence of the denominator of Equation 1 on the first degree of association is smaller than when the number of search sessions in which the user search word is input is smaller, and on the other hand, the first degree of association may be increased.
일반적인 연관 검색어 판단 방법에서 사용하는 신뢰도는 사용자 검색어가 대표 키워드일 경우, 사용자 검색어가 검색 세션에 입력될 확률인 P(사용자 검색어)도 클 것이므로, 분모인 P(사용자 검색어)에 의해 후보 검색어의 신뢰도가 낮아져 실제로 대표 키워드를 위해 제공되는 연관 검색어의 수가 작은 문제가 있다.In general, the reliability of the related search term determination method is that if the user search term is a representative keyword, P (user search term), which is a probability that the user search term is entered in the search session, will also be large. There is a problem in that the number of related search terms provided for the representative keyword is actually low.
그러나, 본 발명의 일 실시예에 따른 연관 검색어 판단 방법에서는 상기 입력의 증가 비율에 비해 출력의 증가 비율이 작은 제1 지수함수를 사용함으로써, P(사용자 검색어)에 의해 제1 연관도가 작아지게 되는 영향을 감소 시켰다.However, in the related search word determining method according to an embodiment of the present invention, by using a first exponential function in which the increase rate of the output is smaller than the increase rate of the input, the first association degree is reduced by P (user search word). To reduce the effect.
즉, P(사용자 검색어)가 작은 사용자 검색어에 대한 제1 연관도에 비해, P(사용자 검색어)가 큰 대표 키워드에 대한 제1 연관도가 감소하지 않기 때문에, 제공 되는 연관 검색어의 수도 감소하지 않는다.That is, since the first degree of relevance for the representative keyword with a large P (user search term) does not decrease compared to the first degree of relevance for a user search term with a small P (user search term), the number of related search terms provided is not reduced. .
따라서, 일반적인 신뢰도 계산법에 의한 결과와는 다르게 대표 키워드를 위해 제공되는 연관 검색어의 개수가 감소하는 현상을 방지할 수 있다.Therefore, unlike the result of the general reliability calculation method, it is possible to prevent the phenomenon in which the number of related search terms provided for the representative keyword decreases.
도 2는 본 발명의 일 실시예에 따른 제1 지수함수의 지수값이 제1 연관도에 미치는 영향을 설명하기 위한 도면이다.2 is a view for explaining the effect of the index value of the first index function according to an embodiment of the present invention on the first correlation.
도시된 바와 같이, 제1 지수함수는 입력의 증가 비율에 비해 출력의 증가 비율이 작고, 상기 지수값은 0보다 크고 1보다 작은 값일 수 있다.As shown, the first exponential function has a smaller increase rate of the output compared to the increase rate of the input, and the exponent value may be a value greater than zero and less than one.
일반적인 연관 검색어 판단 방법의 경우 P(사용자 검색어)가 0.001, 0.01, 0.1의 순으로 10배씩 증가하면, 신뢰도의 분모의 증가 비율(202)은 10이 되므로 P(사용자 검색어)의 신뢰도에 대한 영향력이 크다.In the general method of determining related search terms, if P (user search term) increases by 10 times in the order of 0.001, 0.01, 0.1, the increase rate 202 of the denominator of confidence becomes 10, so the influence of P (user search term) on the reliability Big.
그러나, 제1 연관도 산출부(104)에 의한 판단 방법의 경우 지수값이 0.1일 때, 제1 연관도의 분모의 증가 비율(204)은 약 1.25이므로, P(사용자 검색어)의 제1 연관도에 대한 영향력은 크지 않다.However, in the case of the determination method by the first degree of
또한. 제1 연관도 산출부(104)에 의한 판단 방법의 경우 지수값이 0.5일 때, 제1 연관도의 분모의 증가 비율(206)은 약 3.16이므로, P(사용자 검색어)의 제1 연관도에 대한 영향력이 지수값이 0.1일 때 보다 크다.Also. In the case of the determination method by the first degree of
상술한 바와 같이, 상기 지수값을 통해 P(사용자 검색어)가 제1 연관도에 미치는 영향력을 조절하여, 대표 키워드에 제공되는 연관 검색어의 수를 조절할 수 있게 된다. 즉, 제1 연관도 산출부(104)는 제1 지수함수의 지수값을 결정하여 제1 연관도를 조절할 수 있게 된다.As described above, the number of related search terms provided to the representative keyword may be adjusted by adjusting the influence of P (user search term) on the first degree of association through the index value. That is, the
다시 도1을 참조하면, 연관 검색어 판단부(106)는 제1 연관도 산출부(104)에서 생성한 제1 연관도를 이용하여, 상기 제1 연관도가 기준치 이상이면, 해당 후보 검색어를 사용자 검색어의 연관 검색어로 판단한다.Referring back to FIG. 1, the related
도 3은 본 발명의 일 실시예에 따라 연관 검색어 판단부(106)가 제1 연관도를 이용하여 연관 검색어를 판단하는 과정을 설명하기 위한 도면이다.3 is a diagram for describing a process of determining, by a related search word, the related
도 3은 P(사용자 검색어∩후보 검색어)가 증가하는 경우, P(사용자 검색어)가 어느 값 이상이어야 해당 후보 검색어가 연관 검색어로 선택되는지 나타낸다.3 illustrates that when P (user search term ∩ candidate search term) increases, a value equal to or greater than P (user search term) is selected as the related search term.
여기서, 기준치가 "0.000003"이라면, (사용자 검색어∩후보 검색어)=P(사용자 검색어)×0.002이고, P(사용자 검색어)가 "0.01"인 경우(302) 제1 연관도가 "0.00000317"이므로 해당 후보 검색어가 연관 검색어로 선택되며, "0.001"인 경우(304)는 해당 후보 검색어가 연관 검색어로 선택되지 않는다.Here, if the reference value is "0.000003", if (user search term candidate query) = P (user search term) x 0.002, and P (user search term) is "0.01" (302), since the first association degree is "0.00000317" If the candidate search term is selected as the related search term, and in case of "0.001" (304), the candidate search term is not selected as the related search term.
그리고, P(사용자 검색어∩후보 검색어)=P(사용자 검색어)×0.0002인 경우, P(사용자 검색어)가 "0.01"(306) 또는 "0.001"(308)이면, 해당 후보 검색어가 연관 검색어로 선택된다.If P (user query ∩ candidate search term) = P (user search term) x 0.0002, if P (user search term) is "0.01" (306) or "0.001" (308), the corresponding candidate search term is selected as a related search term. do.
일반적인 판단 방법에 의할 경우 P(사용자 검색어)가 "0.001"인 경우(308)에 비해서 "0.01"인 경우(306)에 신뢰도가 변하지 않지만, 본 발명에 따른 일 실시예에 의하면, "0.01"인 경우(306)에 제1 연관도가 더 크다. 이는, P(사용자 검색어)가 큰 대표 키워드에 대해 <수학식 1>을 통해 가중치를 주었다는 것을 의미하며, 따라서, 대표 키워드의 경우 연관 검색어가 감소하는 현상을 방지할 수 있다.According to the general determination method, the reliability does not change when the P (user search term) is "0.01" (306) compared to the case where "0.001" (308), but according to an embodiment of the present invention, "0.01" If 306, the first association is greater. This means that P (user search term) is weighted with respect to a large representative keyword through Equation (1), and thus, the related keyword may be prevented from decreasing in the case of the representative keyword.
다시 도 1을 참조하면, 필터링부(108)는 사용자 검색어에 대한 후보 검색어의 신뢰도가 임계치 이상이면, 상기 연관 검색어를 어뷰징 키워드(Abusing Keyword)로 판단하고 필터링 함으로써, 사용자(114)에게 제공될 연관 검색어 대상에서 제거한다.Referring back to FIG. 1, if the reliability of the candidate search word for the user search term is greater than or equal to a threshold, the
연관 검색어 제공 서비스를 악용하여, 부당하게 경제적 또는 사회적으로 이익을 얻을 목적으로 특정 검색어와 자신의 영업 또는 사회적 목적과 관련된 검색어를 반복적으로 입력하는 경우, 이를 연관 검색 서비스에 대한 어뷰징으로 판단하고 필터링 해야 한다.If you repeatedly exploit a related search service offering and use a search term that is relevant to your business or social purpose unfairly for the purpose of unfairly benefiting you economically or socially, you should consider this as an abusing of the related search service and filter it. do.
일 예로, 필터링부(108)는 하기 <수학식 2>를 통한 신뢰도를 산출하여, 신뢰도가 기준치 이상이면, 연관 검색어 판단부(106)에 의해 선택된 연관 검색어를 어뷰징 키워드로 판단하고 필터링한다. 따라서, 신뢰도가 임계치보다 높은 연관 검색어는 어뷰징 키워드로 판단하고 사용자(114)에게 제공하지 않게 된다.For example, the
제2 연관도 산출부(110)는 필터링부(108)에서 제거되지 않은 연관 검색어의 제공 순위를 결정하기 위해 필요한 제2 연관도를 산출한다. 여기서, 제2 연관도는 후보 검색어와 사용자 검색어의 연관성을 의미하는 지수이다.The
제2 연관도 산출부(110)는 먼저 입력의 증가 비율에 비해 출력의 증가 비율이 작은 제2 함수에 있어서, 상기 후보 검색어가 검색 세션에 입력될 확률인 P(후보 검색어)를 입력으로 하는 상기 제2 함수의 결과값을 획득한다. 여기서, P(후보 검색어)는 특정 시간 동안 후보 검색어가 입력된 검색 세션의 수에서 상기 특정 시간 동안 생성된 모든 검색 세션의 수를 나누어 산출한 값이다.The second
일 실시예에 있어서, 상기 제2 함수는 상기 P(후보 검색어)를 입력으로 하는 제2 지수함수일 수 있다. 여기서, 제2 지수함수의 지수값은 0보다 크고 1보다 작은 값일 수 있다.In one embodiment, the second function may be a second exponential function that takes the input of P (candidate search term). Here, the exponent value of the second exponential function may be a value larger than zero and smaller than one.
일 실시예에 있어서, 상기 제2 연관도 산출부(110)는 특정 시간 동안 사용자 검색어가 입력된 검색 세션의 수, 후보 검색어가 입력된 검색 세션의 수, 또는 사용자 검색어 및 후보 검색어가 입력된 검색 세션의 수를 참조하여, 상기 제2 함수의 지수값을 결정할 수 있다.According to an embodiment, the
이하, 상기 제2 함수는 P(후보 검색어)y 로 표현되는 제2 지수함수라 가정하고 설명하겠다. 여기서, y는 0보다 크고 1보다 작은 값이다.Hereinafter, it is assumed that the second function is a second exponential function expressed by P (candidate search term) y . Where y is a value greater than 0 and less than 1.
제2 연관도 산출부(110)는 제1 연관도를 상기 제2 지수함수의 결과값으로 나누어 제2 연관도를 산출한다. 결국 제2 연관도는 하기 <수학식 3>으로 나타낼 수 있다.The second degree of
제2 연관도를 산출하는 이유는 입력된 검색 세션의 수가 많은 후보 검색어가 입력된 검색 세션의 수가 적은 후보 검색어에 비해 큰 제1 연관도를 갖는 경향 때문에 선 순위로 제공되므로, 입력된 검색 세션의 수가 적은 후보 검색어의 순위를 올려 주기 위함이다. 이는 입력된 검색 세션의 수가 적음에도 연관성이 인정되어 연관 검색어로 선택된 후보 검색어에게 가중치를 부여한 것으로 볼 수 있다.The reason for calculating the second relevance is that the candidate search terms with a large number of input search sessions are provided in a priority order because of the tendency of the first search term having a large first relevance compared to the candidate search terms with a small number of input search sessions. This is to raise the rank of a small number of candidate search terms. This may be regarded as the weighting of the candidate search word selected as the related search word because the association is recognized even though the number of input search sessions is small.
이때, 제1 연관도를 단지 P(후보 검색어)로 나누어 제2 연관도를 산출하지 않는 이유는, 전술한 신뢰도 산출 시 나타나는 문제점을 똑같이 갖게 되기 때문이다. 즉, 후보 검색어가 대표성 키워드일 경우 순위가 감소하는 것을 막기 위함이다.In this case, the reason why the second degree of association is not calculated by dividing the first degree of association by only P (candidate search term) is that the above-described problems appear when calculating reliability. In other words, if the candidate search word is a representative keyword, the ranking is prevented from decreasing.
본 발명의 일 실시예에서, 제2 연관도를 계산하기 위한 <수학식 3>의 분모는 제2 지수함수의 형태를 가진다. 따라서, 후보 검색어가 대표성 키워드일 경우, 제1 연관도를 단순히 P(후보 검색어)로 나누어 제2 연관도를 산출할 때보다 연관 검색어 제공 순위가 감소하는 것을 방지할 수 있다.In one embodiment of the present invention, the denominator of <Equation 3> for calculating the second correlation has the form of a second exponential function. Therefore, when the candidate search word is a representative keyword, it is possible to prevent the ranking of providing the related search word from decreasing than simply dividing the first degree of association by P (candidate search word) to calculate the second degree of association.
이하, <수학식 3>의 분모가 제2 지수함수의 형태를 가짐으로 발생하는 효과 및 상기 제2 지수함수의 지수값이 미치는 효과는 전술한 <수학식 1> 또는 도 2에서 설명한 내용과 중복되므로 생략한다.Hereinafter, the effect that the denominator of <Equation 3> has the form of the second exponential function and the effect of the exponent value of the second exponential function overlap with the above-described <Equation 1> or the content described in FIG. Omit them.
다시 도 1을 참조하면, 순위 판단부(112)는 제2 연관도 산출부(110)에서 산출된 제2 연관도를 통해, 제2 연관도가 높은 연관 검색어를 선 순위로 하는 순위 정보를 생성한다. 그리고, 생성한 순위 정보를 데이터베이스(102)에 저장한다.Referring back to FIG. 1, the
상술한 연관 검색어 판단 시스템(100)을 이용하여 연관 검색어를 판단하는 방법을 도 4를 참조하여 구체적으로 설명한다.A method of determining a related search word using the related search
도 4는 본 발명의 일 실시예에 따른 연관 검색어 판단 방법을 나타내는 순서도이다.4 is a flowchart illustrating a method of determining a related search word according to an embodiment of the present invention.
먼저, 특정 시간 동안 사용자 검색어가 입력되는 검색 세션의 수, 후보 검색어가 입력되는 검색 세션의 수, 및 사용자 검색어와 후보 검색어가 입력되는 검색 세션의 수를 누적하여 데이터베이스에 저장한다(S402).First, the number of search sessions in which a user search term is input, the number of search sessions in which a candidate search term is input, and the number of search sessions in which a user search term and a candidate search term are input are accumulated and stored in a database (S402).
다음으로, 상기 데이터베이스를 참조하여, 사용자 검색어 및 후보 검색어가 동일한 검색 세션에 입력될 제1 확률값을 획득하고, 입력의 증가 비율에 비해 출력의 증가 비율이 작은 제1 함수에 있어서, 상기 사용자 검색어가 검색 세션에 입력될 제2 확률값을 입력으로 하는 제1 함수의 결과값을 획득하고, 상기 제1 확률값을 상기 결과값으로 나누어 제1 연관도를 산출한다(S404).Next, referring to the database, in the first function of obtaining a first probability value in which a user search word and a candidate search word are input to the same search session, and having a small increase rate of output compared to an increase rate of input, the user search word is A result value of the first function having a second probability value input to the search session as an input is obtained, and a first correlation is calculated by dividing the first probability value by the result value (S404).
일 실시예에 있어서, 상기 제1 확률값은 특정 시간 동안 상기 사용자 검색어 및 후보 검색어가 입력된 검색 세션의 수에서 상기 특정 시간 동안 생성된 모든 검색 세션의 수를 나누어 산출될 수 있다.In example embodiments, the first probability value may be calculated by dividing the number of all search sessions generated during the specific time from the number of search sessions in which the user search word and the candidate search term have been input for the specific time.
다음으로, 상기 산출 결과, 상기 제1 연관도가 기준치 이상인지 판단한다(S406). 이때, 기준치 이상이면, 상기 후보 검색어를 사용자 검색어의 연관 검색 어로 판단한다(S408). 그러나, 기준치 미만이면, 해당 후보 검색어를 연관 검색어에서 제외한다(S416).Next, as a result of the calculation, it is determined whether the first degree of association is equal to or greater than a reference value (S406). In this case, if the reference value is greater than or equal to, the candidate search term is determined as a related search word of the user search word (S408). However, if less than the reference value, the candidate search term is excluded from the related search word (S416).
일 실시예에 있어서, 제1 함수는 제1 지수함수이고, 제1 지수함수의 지수값은 0보다 크고 1보다 작은 값일 수 있다.In one embodiment, the first function is a first exponential function, the exponent value of the first exponential function may be a value greater than zero and less than one.
다음으로, 제1 연관도가 기준치 이상이면, 사용자 검색어에 대한 상기 연관 검색어의 신뢰도가 임계치 이상인지 판단한다(S410). 이때, 임계치 이상이면, 상기 연관 검색어를 어뷰징 키워드로 판단하고 필터링하여, 해당 연관 검색어를 사용자에게 제공될 연관 검색어 대상에서 제외한다(S416).Next, if the first degree of association is equal to or greater than the reference value, it is determined whether the reliability of the related search word for the user search word is equal to or greater than a threshold value (S410). At this time, if the threshold value or more, the related search term is determined as an abusing keyword and filtered, and the related search term is excluded from the target related search term to be provided to the user (S416).
만약, 상기 신뢰도가 임계치 미만이면, 입력의 증가 비율에 비해 출력의 증가 비율이 작은 제2 함수에 있어서, 상기 연관 검색어가 검색 세션에 입력될 확률을 입력으로 하여 상기 제2 함수의 결과값을 획득하고, 상기 제1 연관도를 상기 제2 함수의 결과값으로 나누어 제2 연관도를 산출한다(S412).If the reliability is less than the threshold value, in a second function in which the increase rate of the output is smaller than the increase rate of the input, the result value of the second function is obtained by inputting the probability that the related search word is input to the search session. In operation S412, a second degree of association is calculated by dividing the first degree of association by a result value of the second function.
일 실시예에 있어서, 제2 함수는 제2 지수함수이고, 제2 지수함수의 지수값은 0보다 크고 1보다 작은 값일 수 있다.In one embodiment, the second function is a second exponential function, the exponent value of the second exponential function may be a value greater than zero and less than one.
다음으로, 제2 연관도에 따라 상기 연관 검색어의 제공 순위를 판단한다(S414). 여기서, 제2 연관도가 높은 순으로 제공 순위가 정해 질 수 있다.Next, the ranking of providing the related search word is determined according to a second degree of association (S414). Here, the order of providing may be determined in ascending order of second association.
상술한 연관 검색어 판단 방법은 다양한 컴퓨터 수단을 이용하여 수행될 수 있는 프로그램 형태로도 구현될 수 있는데, 이때 연관 검색어 판단 방법을 수행하기 위한 프로그램은 하드 디스크, CD-ROM, DVD, 롬(ROM), 램, 또는 플래시 메모리와 같은 컴퓨터로 판독할 수 있는 기록 매체에 저장된다.The above-described related search term determination method may also be implemented in the form of a program that can be performed using various computer means. In this case, a program for performing the related search term determination method may be a hard disk, a CD-ROM, a DVD, or a ROM. Data is stored in a computer-readable recording medium, such as, RAM, or flash memory.
본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다.Those skilled in the art to which the present invention pertains will understand that the present invention can be implemented in other specific forms without changing the technical spirit or essential features.
그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.Therefore, it is to be understood that the embodiments described above are exemplary in all respects and not restrictive. The scope of the present invention is shown by the following claims rather than the detailed description, and all changes or modifications derived from the meaning and scope of the claims and their equivalent concepts should be construed as being included in the scope of the present invention. do.
도 1은 본 발명의 일 실시예에 따른 연관 검색어 판단 시스템의 개략적인 블록도.1 is a schematic block diagram of a system for determining a related keyword according to an embodiment of the present invention.
도 2는 본 발명의 일 실시예에 따른 제1 지수함수의 지수값이 제1 연관도에 미치는 영향을 설명하기 위한 도면.2 is a view for explaining the effect of the index value of the first index function according to an embodiment of the present invention on the first correlation.
도 3은 본 발명의 일 실시예에 따라 연관 검색어 판단부가 제1 연관도를 이용하여 연관 검색어를 판단하는 과정을 설명하기 위한 도면.3 is a diagram for describing a process of determining, by a related keyword, a related keyword using a first degree of association according to an embodiment of the present invention.
도 4는 본 발명의 일 실시예에 따른 연관 검색어 판단 방법을 나타내는 순서도.4 is a flowchart illustrating a method of determining a related search word according to an embodiment of the present invention.
<도면의 주요부분에 대한 부호의 설명><Description of the symbols for the main parts of the drawings>
100: 연관 검색어 판단 시스템 102: 데이터베이스100: related search term judgment system 102: database
104: 제1 연관도 산출부 106: 연관 검색어 판단부104: first association degree calculator 106: association keyword determination unit
108: 필터링부 110: 제2 연관도 산출부108: filtering unit 110: second association degree calculation unit
112: 순위 판단부 114: 사용자112: ranking determination unit 114: user
116: 네트워크116: network
Claims (24)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020080000259A KR100910515B1 (en) | 2008-01-02 | 2008-01-02 | System and Method for Determining Associative Query |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020080000259A KR100910515B1 (en) | 2008-01-02 | 2008-01-02 | System and Method for Determining Associative Query |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20090074464A true KR20090074464A (en) | 2009-07-07 |
KR100910515B1 KR100910515B1 (en) | 2009-07-31 |
Family
ID=41331746
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020080000259A KR100910515B1 (en) | 2008-01-02 | 2008-01-02 | System and Method for Determining Associative Query |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100910515B1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20130045054A (en) * | 2011-10-25 | 2013-05-03 | 주식회사 케이티 | Keyword extracting and refining system, and method thereof |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101618965B1 (en) | 2014-07-15 | 2016-05-09 | 네이버 주식회사 | Method for offering result of search and system for executing the method |
KR101787248B1 (en) | 2016-04-14 | 2017-10-18 | 라인 가부시키가이샤 | Method and system for keyword search using messaging service |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100493688B1 (en) * | 2003-01-08 | 2005-06-03 | 주식회사 옵투스 | Apparatus and method for expanding keyword and search system using keyword expansion apparatus |
KR100544514B1 (en) | 2005-06-27 | 2006-01-24 | 엔에이치엔(주) | Method and system for determining relation between search terms in the internet search system |
-
2008
- 2008-01-02 KR KR1020080000259A patent/KR100910515B1/en active IP Right Grant
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20130045054A (en) * | 2011-10-25 | 2013-05-03 | 주식회사 케이티 | Keyword extracting and refining system, and method thereof |
Also Published As
Publication number | Publication date |
---|---|
KR100910515B1 (en) | 2009-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1643385B1 (en) | System and method for ranking search results using click distance | |
US8793265B2 (en) | Method and system for selecting personalized search engines for accessing information | |
CN107180093B (en) | Information searching method and device and timeliness query word identification method and device | |
US20060200460A1 (en) | System and method for ranking search results using file types | |
RU2505858C2 (en) | Method of estimating age of user from mass data and corresponding system | |
EP2774061A1 (en) | Method and apparatus of ranking search results, and search method and apparatus | |
US20110307469A1 (en) | System and method for query suggestion based on real-time content stream | |
JP2014515514A (en) | Method and apparatus for providing suggested words | |
CN103383702A (en) | Method and system for recommending personalized news based on ranking of votes of users | |
US20160292299A1 (en) | Determining and inferring user attributes | |
CN105930400B (en) | A kind of session searching method based on markov decision process model | |
CN110598126B (en) | Cross-social network user identity recognition method based on behavior habits | |
KR100910515B1 (en) | System and Method for Determining Associative Query | |
CN106095941B (en) | Big data knowledge base-based solution recommendation method and system | |
KR101169170B1 (en) | Method for recommending content based on user preference with time flow | |
JP5579140B2 (en) | Document search apparatus, method, and program | |
JP2011221872A (en) | Knowledge quantity estimation apparatus and program | |
JP2012518221A (en) | Document ranking determination system and method based on contribution score | |
KR101708440B1 (en) | Adaptive item recommender method combined latent dirichlet allocation and active learning in distributed environment | |
CN103646035A (en) | Information search method based on heuristic method | |
RU2660636C2 (en) | Method and device of hierarchical document filtering | |
JP6193428B1 (en) | Feature selection device, feature selection method, and program | |
KR102388952B1 (en) | Method for recommending similar user in social internet of things, and recording medium thereof | |
KR101323535B1 (en) | Method for estimating trust level of e-commerce | |
CN109213937B (en) | Intelligent search method and device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20120629 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20130626 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20150701 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20160701 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20170704 Year of fee payment: 9 |
|
FPAY | Annual fee payment |
Payment date: 20190701 Year of fee payment: 11 |