KR20090074464A - System and method for determining associative query - Google Patents

System and method for determining associative query Download PDF

Info

Publication number
KR20090074464A
KR20090074464A KR1020080000259A KR20080000259A KR20090074464A KR 20090074464 A KR20090074464 A KR 20090074464A KR 1020080000259 A KR1020080000259 A KR 1020080000259A KR 20080000259 A KR20080000259 A KR 20080000259A KR 20090074464 A KR20090074464 A KR 20090074464A
Authority
KR
South Korea
Prior art keywords
search
probability value
input
value
search term
Prior art date
Application number
KR1020080000259A
Other languages
Korean (ko)
Other versions
KR100910515B1 (en
Inventor
정윤영
최재걸
Original Assignee
엔에이치엔(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엔에이치엔(주) filed Critical 엔에이치엔(주)
Priority to KR1020080000259A priority Critical patent/KR100910515B1/en
Publication of KR20090074464A publication Critical patent/KR20090074464A/en
Application granted granted Critical
Publication of KR100910515B1 publication Critical patent/KR100910515B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

An associative search determining method and a system thereof for filtering the abuse about an associative search service are provided to prevent the reduction of the number of associative search word supplied for a representative keyword. A first probability value in which a first search word and a second search word are inputted to one search session is obtained. A first weighted value which is smaller than change rate of the output is applied to a second probability value which a first search word is inputted to a search session. A first relation degree is calculated by using a second probability value which the first weighted value and the first probability value are applied(S404). If the first relation degree is greater than reference value, the second search word is determined as the related search word of the first search word.

Description

연관 검색어 판단 방법 및 시스템{System and Method for Determining Associative Query}System and Method for Determining Associative Query

본 발명은 연관 검색어 판단 방법 및 시스템에 관한 것으로서 보다 상세하게는 대표 키워드를 위해 제공되는 연관 검색어의 수가 감소하는 현상을 방지할 수 있는 연관 검색어 판단 방법 및 시스템에 관한 것이다.The present invention relates to a method and system for determining related search terms, and more particularly, to a method and system for determining related search terms that can prevent a phenomenon in which the number of related search terms provided for a representative keyword is reduced.

일반적으로 검색 서비스를 제공하는 검색 서비스 시스템은 사용자로부터 검색어가 입력되면 상기 검색어에 대응하는 검색 결과 문서(예컨대, 사용자로부터 입력된 검색어를 포함하는 웹 사이트, 기사, 또는 해당 검색어를 포함하는 파일명을 갖는 이미지 등)를 사용자에게 제공한다. 그러나, 사용자가 검색 서비스를 이용함에 있어서, 검색하고자 하는 내용에 대한 검색어를 정확히 선택하여 입력하는 것은 쉽지 않다. 따라서, 검색 과정에서 사용자는 자신이 의도한 검색 결과를 얻을 때까지 검색어를 변경해 가면서 재검색을 수행하는 것이 일반적이다.In general, a search service system that provides a search service has a search result document corresponding to the search word when a user inputs a search word (for example, a web site, an article containing a search word input from the user, an article, or a file name including the search word). Image, etc.) to the user. However, when a user uses a search service, it is not easy to accurately select and input a search word for content to be searched. Therefore, in the search process, the user generally performs the re-search while changing the search word until the search result intended by the user is obtained.

그러나 검색 서비스에 익숙지 않은 사용자의 경우 원하는 검색 결과를 얻는데 상당한 시간이 소요된다는 문제점이 있었고, 최근 검색 서비스 제공 시스템은 사용자가 원하는 검색 결과를 보다 빠르고 정확하게 찾을 수 있도록 하기 위해 사 용자로부터 입력받은 검색어와 연관되는 검색어를 사용자에게 제공하는 연관 검색어 제공 서비스를 제공하고 있다.However, users who are not familiar with the search service have a problem that it takes a long time to get the desired search results. Recently, the search service providing system has been able to find the desired search results faster and more accurately. A related search term providing service for providing a related search term to a user is provided.

일반적으로 사용자가 입력한 사용자 검색어에 대해 연관 검색어로 제공될 가능성이 있는 후보 검색어가 연관 검색어인지 판단하는 방법은, 특정 시간 동안 사용자들의 검색 서비스 이용으로 생성된 검색 세션들에 있어서, 상기 사용자 검색어가 입력된 검색 세션의 수와 상기 사용자 검색어 및 후보 검색어가 모두 입력된 검색 세션의 수를 파악하여, 신뢰도(Confidence)를 계산하는 것이다. 그리고, 상기 계산된 신뢰도가 특정 값 이상이면 상기 후보 검색어를 연관 검색어로 판단하는 것이다.In general, a method for determining whether a candidate search term that is likely to be provided as a related search word for a user search word input by the user is related search word in the search sessions generated by the users using the search service for a specific time. The number of search sessions input and the number of search sessions in which both the user search word and the candidate search word are input are calculated to calculate a confidence. If the calculated reliability is equal to or greater than a specific value, the candidate search term is determined as a related search term.

여기서, 신뢰도는 사용자 검색어가 검색 세션에 입력되는 경우, 후보 검색어도 동일 검색 세션에 입력될 조건부 확률이다.Here, the reliability is a conditional probability that a candidate search term is also input to the same search session when the user search term is input to the search session.

그런데, 상기 사용자 검색어가 "네이버"와 같은 검색 횟수가 많은 대표 키워드일 경우, 사용자 검색어가 입력되는 검색 세션의 수가 크고 사용자 검색어가 검색 세션에 입력될 확률도 클 것이므로, 사용자 검색어가 검색 세션에 입력될 확률의 영향으로 후보 검색어의 신뢰도가 낮아져 실제로 대표 키워드를 위해 제공되는 연관 검색어의 수가 작은 문제점이 있었다.However, if the user search word is a representative keyword with a large number of searches, such as "Naver", since the number of search sessions in which the user search word is input is large and the user search term is also likely to be entered in the search session, the user search word is input in the search session. Due to the effect of the probability of the candidate being lowered, the reliability of the candidate search word was lowered, and the number of related search terms provided for the representative keyword was small.

또한, 사용자가 검색어 입력 후 검색 서비스 시스템으로부터 제공되는 연관 검색어를 통해 다음 검색을 행한다는 점을 악용하여, 부당하게 경제적 또는 사회적으로 이익을 얻을 목적으로 특정 검색어와 자신의 영업 또는 사회적 목적과 관련된 검색어를 반복적으로 입력하는 경우, 이를 연관 검색 서비스에 대한 어뷰 징(Abusing)으로 판단하고 필터링(Filtering)할 수 있는 방법이 명확하지 않다는 문제점이 있었다.In addition, by exploiting the fact that a user performs the next search through related search terms provided from the search service system after inputting a search term, a search term related to a specific search term and his or her business or social purpose for the purpose of unfairly gaining economic or social benefits. If repeatedly inputted, there is a problem that it is not clear how to determine and filter this as Abusing of the associated search service.

본 발명은 상술한 문제점을 해결하기 위한 것으로서, 대표 키워드를 위해 제공되는 연관 검색어의 수가 감소하는 현상을 방지할 수 있는 연관 검색어 판단 방법 및 시스템을 제공하는 것을 그 기술적 과제로 한다.SUMMARY OF THE INVENTION The present invention has been made in view of the above-described problem, and it is an object of the present invention to provide a method and system for determining related search terms that can prevent a phenomenon in which the number of related search terms provided for a representative keyword is reduced.

또한, 본 발명은 연관 검색 서비스에 대한 어뷰징을 판단하고 필터링 할 수 있는 연관 검색어 판단 방법 및 시스템을 제공하는 것을 그 기술적 과제로 한다.Another object of the present invention is to provide a method and system for determining a related search word that can determine and filter an abusing of a related search service.

상술한 목적을 달성하기 위한 본 발명의 일 측면에 따른 연관 검색어 판단 방법은 제1 검색어 및 제2 검색어가 하나의 검색 세션에 입력될 제1 확률값을 획득하는 단계; 상기 제1 검색어가 검색 세션에 입력될 제2 확률값에 입력의 변화율이 출력의 변화율에 비해 작아지게 하는 제1 가중치를 부여하는 단계; 상기 제1 확률값 및 상기 제1 가중치가 부여된 제2 확률값을 사용하여 제1 연관도를 산출하는 단계; 및 상기 제1 연관도가 기준치 이상이면, 상기 제2 검색어를 상기 제1 검색어의 연관 검색어로 판단하는 단계를 포함하는 것을 특징으로 한다.According to an aspect of the present invention, there is provided a method for determining a related search word, including: obtaining a first probability value in which a first search word and a second search word are input in one search session; Assigning a first weight value such that a rate of change of the input is smaller than a rate of change of an output to a second probability value for the first search term to be input to a search session; Calculating a first correlation using the first probability value and the first weighted second probability value; And determining the second search word as a related search word of the first search word if the first degree of association is equal to or greater than a reference value.

상술한 목적을 달성하기 위한 본 발명의 일 측면에 따른 연관 검색어 판단 시스템은 제1 검색어 및 제2 검색어가 동일한 검색 세션에 입력될 제1 확률값을 획득하고, 상기 제1 검색어가 검색 세션에 입력될 제2 확률값에 입력의 변화율에 비해 출력의 변화율이 작아지게 하는 제1 가중치를 부여하고, 상기 제1 확률값 및 상기 제1 가중치가 부여된 제2 확률값을 사용하여 제1 연관도를 산출하는 제1 연관도 산출부; 및 상기 제1 연관도가 기준치 이상이면, 상기 제2 검색어를 상기 제1 검색어의 연관 검색어로 판단하는 연관 검색어 판단부를 포함하는 것을 특징으로 한다.In accordance with an aspect of the present invention, an associated search term determination system obtains a first probability value in which a first search term and a second search term are input in the same search session, and the first search term is input in the search session. A first weight is assigned to a second probability value so that the rate of change of the output is smaller than the rate of change of the input, and the first correlation is calculated by using the first probability value and the second probability value to which the first weight is assigned. An association calculation unit; And a related search word determining unit determining the second search word as a related search word of the first search word when the first degree of association is equal to or greater than a reference value.

상술한 바와 같이 본 발명에 따르면, 대표 키워드들이 검색어로 입력되는 경우, 연관 검색어로 제공될 가능성이 있는 후보 검색어의 연관도가 크게 감소되는 현상을 방지할 수 있으므로 대표 키워드를 위해 제공되는 연관 검색어의 수가 감소하는 현상을 방지할 수 있는 효과가 있다.As described above, according to the present invention, when the representative keywords are input as the search word, the relevance of the candidate search word that may be provided as the related search word can be prevented from being greatly reduced. There is an effect that can prevent the phenomenon that the number decreases.

또한, 본 발명에 따르면, 연관 검색어 제공 서비스를 악용한 어뷰징 행위에 대해 연관 검색어를 판단하는 과정에서 신뢰도를 사용하여 필터링 할 수 있는 다른 효과가 있다.In addition, according to the present invention, there is another effect that can be filtered using the reliability in the process of determining the related search word for the abusing behavior of the related search word providing service.

본 발명의 실시예에 대한 상세한 설명을 하기 이전에 본 발명에서 사용된 검색 세션이란 용어에 대해 간략히 설명한다.Before describing the embodiments of the present invention, the term search session used in the present invention will be briefly described.

검색 세션이란 하나의 검색 의도를 해결하기 위한 일련의 검색 행위가 수행되는 과정을 의미하는 것으로서, 일 실시예에 있어서 검색 세션은 소정 인터페이스를 통해 사용자 단말기로 제공된 검색 창을 통해 검색어가 최초로 입력되는 시점에서 시작하여 소정 시간 동안 사용자 단말기로부터 데이터 전송이 없는 시점에서 종료하게 된다.A search session refers to a process in which a series of search actions are performed to solve a search intention. In one embodiment, a search session is a time point when a search term is first input through a search window provided to a user terminal through a predetermined interface. It starts at and ends when there is no data transmission from the user terminal for a predetermined time.

예컨대, 소정 시간이 5분으로 설정되는 경우, 사용자가 사용자 단말기를 통하여 검색 창에 최초 검색어를 입력하는 시점에서 검색 세션이 시작되어 사용자가 검색어를 입력하거나 검색어에 대한 검색 결과를 선택하는 등의 검색 행위를 수행한 최종시각으로부터 5분 동안 검색 행위를 수행하지 않고 대기하는 경우 해당 검색 세션이 종료하게 되는 것이다. 따라서, 해당 검색 세션이 종료된 이후 사용자 단말기로부터 입력되는 검색어는 새로운 검색 세션에 포함되게 된다.For example, if the predetermined time is set to 5 minutes, the search session is started when the user enters the first search term in the search window through the user terminal, and the user enters a search term or selects a search result for the search term. If the user waits for 5 minutes without performing the search action from the last time the action is performed, the search session is terminated. Therefore, the search word input from the user terminal after the corresponding search session ends is included in the new search session.

대표 키워드란 각 분야의 세부적인 키워드들을 대표할 수 있고 사용자의 검색 횟수가 많은 검색어를 말한다. 또한, 각 분야에서 검색 서비스 사용자에게 검색 의도 해결을 위해 바로 연상되는 특정 검색어를 말한다. 일 예로서, 검색 분야에서 사용자에게 검색 목적을 달성하기 위해 곧바로 연상되는 "네이버", 또는 게임 분야에서 사용자에게 곧바로 연상되는 "한게임"과 같은 사이트 명칭을 들 수 있다.The representative keyword is a keyword that can represent detailed keywords of each field and has a large number of searches by the user. In addition, it refers to a specific search word immediately associated with a search service user in each field to solve a search intention. As an example, there may be a site name such as "Naver" immediately associated with a user in the field of search, or "Hangame" immediately associated with a user in the field of games.

대표 키워드에 대한 사용자의 검색 횟수가 많으므로, 특정 시간 동안 여러 사용자들의 검색 서비스 이용에 의해 생성된 검색 세션들에 있어서, 대표 키워드가 입력된 검색 세션의 수가 다른 검색어가 입력된 검색 세션의 수보다 크다. 따라서, 대표 키워드는 검색 세션에 입력될 확률이 다른 검색어에 비해 높은 특징이 있다.Since the number of user searches for the representative keyword is high, the number of search sessions in which the representative keyword is input is higher than the number of search sessions in which the representative keyword is input, in the search sessions generated by the use of the search service of various users for a specific time. Big. Therefore, the representative keyword has a higher characteristic than other search terms having a high probability of being input into a search session.

이하 첨부된 도면을 참조하여 본 발명의 실시예에 대해 상세히 설명한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 일 실시예에 따른 연관 검색어 판단 시스템의 개략적인 블록도이다.1 is a schematic block diagram of a system for determining a related keyword according to an embodiment of the present invention.

도시된 바와 같이, 연관 검색어 판단 시스템(100)은 데이터베이스(102), 제1 연관도 산출부(104), 연관 검색어 판단부(106), 필터링부(108), 제2 연관도 산출부(110), 및 순위 판단부(112)를 포함하며, 사용자(114)와 소정의 네트워크(116)를 통해 연결된다.As illustrated, the related search term determination system 100 may include a database 102, a first degree of relevance calculator 104, a related search term determiner 106, a filtering unit 108, and a second degree of relevance calculator 110. And a rank determining unit 112, and is connected to the user 114 through a predetermined network 116.

이하, 사용자(114)에 의해 입력되어 연관 검색어 판단 시스템(100)이 그에 대한 연관 검색어를 제공하고자 하는 검색어를 사용자 검색어라 하고, 상기 사용자 검색어의 연관 검색어로서 제공될 가능성이 있는 검색어를 후보 검색어라 하겠다.Hereinafter, a search term input by the user 114 and to be provided by the related search term determination system 100 to provide a related search term therein is called a user search term, and a search term that may be provided as a related search term of the user search term is a candidate search term. would.

또한, 사용자 검색어, 후보 검색어, 및 사용자와 후보 검색어가 입력된 검색 세션의 수는 후보 검색어의 연관도 산출을 위한 자료로서 특정 시간 동안 연관 검색어 판단 시스템(100)에 의해 수집된다. 여기서, 사용자 검색어와 후보 검색어는 동일 검색 세션에서 입력될 수 있고, 한 검색 세션에서 어느 하나만 입력될 수도 있다.In addition, the user search word, the candidate search word, and the number of search sessions in which the user and the candidate search word are input are collected by the related search word determination system 100 for a specific time as data for calculating the relevance of the candidate search word. Here, the user search word and the candidate search word may be input in the same search session, or only one of the search terms may be input in one search session.

데이터베이스(102)에는 특정 시간 동안 사용자(114)들의 검색 행위로 발생한 검색 세션에 있어서, 사용자 검색어가 입력되는 검색 세션의 수, 후보 검색어가 입력되는 검색 세션의 수, 및 사용자 검색어와 후보 검색어가 입력되는 검색 세션의 수가 누적되어 저장된다.The database 102 inputs the number of search sessions in which user search terms are input, the number of search sessions in which candidate search terms are input, and the user search terms and candidate search terms in a search session generated by a search behavior of users 114 for a specific time. The number of search sessions to be accumulated is stored.

또한, 데이터베이스(102)에는 순위 판단부(112)에서 생성된 연관 검색어의 순위 정보를 통해 사용자 검색어, 연관 검색어, 연관 검색어의 제공 순위가 저장된다. In addition, the database 102 stores a user search word, a related search word, and a ranking of providing the related search word through the ranking information of the related search word generated by the ranking determiner 112.

데이터베이스(102)에 저장된 상기 연관 검색어는 상기 제공 순위에 따라, 연관 검색어 판단 시스템(100)에 의해 사용자(114)의 사용자 검색어 입력 시 제공되게 된다.The related search words stored in the database 102 are provided when the user 114 inputs a user search word by the related search word determination system 100 according to the ranking of the offer.

상술한 실시예에서, 데이터베이스(102)는 연관 검색어 판단 시스템(100)에 포함된 것으로 설명하였으나, 변형된 실시예에서는 연관 검색어 판단 시스템(100) 과 분리된 구성 요소일 수 있다.In the above-described embodiment, the database 102 has been described as being included in the related search term determination system 100, but in a modified embodiment, the database 102 may be a component separate from the related search term determination system 100.

제1 연관도 산출부(104)는 데이터베이스(102)에 저장된 정보를 통해 사용자 검색어에 대한 후보 검색어의 제1 연관도를 산출한다. 여기서, 제1 연관도는 후보 검색어와 사용자 검색어의 연관성을 의미하는 지수로서 후보 검색어가 연관 검색어인지 판단하기 위해 필요한 지수이다.The first relevance calculator 104 calculates a first relevance of the candidate search word for the user search word through the information stored in the database 102. Here, the first degree of association is an index indicating the correlation between the candidate search word and the user search word and is an index required to determine whether the candidate search word is a related search word.

제1 연관도 산출부(104)는 먼저 사용자 검색어 및 후보 검색어가 동일한 검색 세션에 입력될 제1 확률값인 P(사용자 검색어∩후보 검색어)를 획득한다. 여기서, 상기 제1 확률값은 특정 시간 동안 사용자 검색어 및 후보 검색어가 입력된 검색 세션의 수에서 상기 특정 시간 동안 생성된 모든 검색 세션의 수를 나누어 산출한 값이다.The first relevance calculation unit 104 first obtains P (user search term-candidate search term), which is a first probability value in which the user search term and the candidate search term are input in the same search session. Here, the first probability value is a value calculated by dividing the number of all search sessions generated during the specific time from the number of search sessions in which the user search word and the candidate search term have been input for the specific time.

그리고, 제1 연관도 산출부(104)는 입력의 증가 비율에 비해 출력의 증가 비율이 작은 제1 함수에 있어서, 상기 사용자 검색어가 검색 세션에 입력될 제2 확률값을 입력으로 하는 상기 제1 함수의 결과값을 획득한다. 여기서, 상기 제2 확률값인 P(사용자 검색어)는 특정 시간 동안 사용자 검색어가 입력된 검색 세션의 수에서 상기 특정 시간 동안 생성된 모든 검색 세션의 수를 나누어 산출한 값이다.In addition, the first relevance calculator 104 is a first function in which the increase rate of the output is smaller than the increase rate of the input, wherein the first function inputs a second probability value to be input to the search session. Obtain the result of. The second probability value P (user search term) is a value calculated by dividing the number of search sessions generated during the specific time from the number of search sessions in which the user search term has been input for a specific time.

일 실시예에 있어서, 상기 제1 함수는 상기 P(사용자 검색어)을 입력으로 하는 제1 지수함수일 수 있다. 여기서, 제1 지수함수의 지수값은 0보다 크고 1보다 작은 값일 수 있다.In one embodiment, the first function may be a first exponential function that takes the input of P (user search term). Here, the exponent value of the first exponential function may be a value larger than zero and smaller than one.

일 실시예에 있어서, 상기 제1 연관도 산출부(104)는 특정 시간 동안 사용자 검색어가 입력된 검색 세션의 수, 후보 검색어가 입력된 검색 세션의 수, 또는 사 용자 검색어 및 후보 검색어가 입력된 검색 세션의 수를 참조하여, 연관 검색어 판단 시스템(100)이 제공할 연관 검색어의 수가 소정 값 이상이 되도록 상기 제1 함수의 지수값을 결정할 수 있다.According to an embodiment, the first relevance calculator 104 may include a number of search sessions in which a user search term has been input, a number of search sessions in which a candidate search term is input, or a user search term and a candidate search term are input during a specific time period. With reference to the number of search sessions, the index value of the first function may be determined such that the number of related search terms to be provided by the related search term determination system 100 is greater than or equal to a predetermined value.

이하, 상기 제1 함수는 P(사용자 검색어)x 로 표현되는 제1 지수함수라 가정하고 설명하겠다. 여기서, x는 0보다 크고 1보다 작은 값이다.Hereinafter, assuming that the first function is a first exponential function expressed by P (user search term) x . Where x is a value greater than 0 and less than 1.

제1 연관도 산출부(104)는 상기 제1 확률값을 상기 제1 지수함수의 결과값으로 나누어 제1 연관도를 산출한다. 결국 제1 연관도는 하기 <수학식 1>로 나타낼 수 있다.The first association degree calculator 104 calculates a first association degree by dividing the first probability value by a result value of the first exponential function. As a result, the first correlation may be represented by Equation 1 below.

Figure 112008000219082-PAT00001
Figure 112008000219082-PAT00001

상술한 제1 연관도 산출 방법은 상기 사용자 검색어가 검색 세션에 입력될 확률값에 입력의 변화율에 비해 출력의 변화율이 작아지게 하는 가중치를 부여하여, 상기 사용자 검색어가 입력된 검색 세션의 수가 큰 경우, 상기 사용자 검색어가 입력된 검색 세션의 수가 작은 경우보다 상기 <수학식 1>의 분모가 제1 연관도에 미치는 영향력이 작게 되고, 다른 한편으로는 제1 연관도를 크게 할 수 있다.The first relevance calculation method described above gives a weight value such that the rate of change of the output is smaller than the rate of change of the input to a probability value that the user search term is input to the search session, so that the number of search sessions to which the user search term is input is large. Influence of the denominator of Equation 1 on the first degree of association is smaller than when the number of search sessions in which the user search word is input is smaller, and on the other hand, the first degree of association may be increased.

일반적인 연관 검색어 판단 방법에서 사용하는 신뢰도는 사용자 검색어가 대표 키워드일 경우, 사용자 검색어가 검색 세션에 입력될 확률인 P(사용자 검색어)도 클 것이므로, 분모인 P(사용자 검색어)에 의해 후보 검색어의 신뢰도가 낮아져 실제로 대표 키워드를 위해 제공되는 연관 검색어의 수가 작은 문제가 있다.In general, the reliability of the related search term determination method is that if the user search term is a representative keyword, P (user search term), which is a probability that the user search term is entered in the search session, will also be large. There is a problem in that the number of related search terms provided for the representative keyword is actually low.

그러나, 본 발명의 일 실시예에 따른 연관 검색어 판단 방법에서는 상기 입력의 증가 비율에 비해 출력의 증가 비율이 작은 제1 지수함수를 사용함으로써, P(사용자 검색어)에 의해 제1 연관도가 작아지게 되는 영향을 감소 시켰다.However, in the related search word determining method according to an embodiment of the present invention, by using a first exponential function in which the increase rate of the output is smaller than the increase rate of the input, the first association degree is reduced by P (user search word). To reduce the effect.

즉, P(사용자 검색어)가 작은 사용자 검색어에 대한 제1 연관도에 비해, P(사용자 검색어)가 큰 대표 키워드에 대한 제1 연관도가 감소하지 않기 때문에, 제공 되는 연관 검색어의 수도 감소하지 않는다.That is, since the first degree of relevance for the representative keyword with a large P (user search term) does not decrease compared to the first degree of relevance for a user search term with a small P (user search term), the number of related search terms provided is not reduced. .

따라서, 일반적인 신뢰도 계산법에 의한 결과와는 다르게 대표 키워드를 위해 제공되는 연관 검색어의 개수가 감소하는 현상을 방지할 수 있다.Therefore, unlike the result of the general reliability calculation method, it is possible to prevent the phenomenon in which the number of related search terms provided for the representative keyword decreases.

도 2는 본 발명의 일 실시예에 따른 제1 지수함수의 지수값이 제1 연관도에 미치는 영향을 설명하기 위한 도면이다.2 is a view for explaining the effect of the index value of the first index function according to an embodiment of the present invention on the first correlation.

도시된 바와 같이, 제1 지수함수는 입력의 증가 비율에 비해 출력의 증가 비율이 작고, 상기 지수값은 0보다 크고 1보다 작은 값일 수 있다.As shown, the first exponential function has a smaller increase rate of the output compared to the increase rate of the input, and the exponent value may be a value greater than zero and less than one.

일반적인 연관 검색어 판단 방법의 경우 P(사용자 검색어)가 0.001, 0.01, 0.1의 순으로 10배씩 증가하면, 신뢰도의 분모의 증가 비율(202)은 10이 되므로 P(사용자 검색어)의 신뢰도에 대한 영향력이 크다.In the general method of determining related search terms, if P (user search term) increases by 10 times in the order of 0.001, 0.01, 0.1, the increase rate 202 of the denominator of confidence becomes 10, so the influence of P (user search term) on the reliability Big.

그러나, 제1 연관도 산출부(104)에 의한 판단 방법의 경우 지수값이 0.1일 때, 제1 연관도의 분모의 증가 비율(204)은 약 1.25이므로, P(사용자 검색어)의 제1 연관도에 대한 영향력은 크지 않다.However, in the case of the determination method by the first degree of association calculation unit 104, when the index value is 0.1, the increase rate 204 of the denominator of the first degree of association is about 1.25, so that the first association of P (user search term) is performed. The influence on the road is not great.

또한. 제1 연관도 산출부(104)에 의한 판단 방법의 경우 지수값이 0.5일 때, 제1 연관도의 분모의 증가 비율(206)은 약 3.16이므로, P(사용자 검색어)의 제1 연관도에 대한 영향력이 지수값이 0.1일 때 보다 크다.Also. In the case of the determination method by the first degree of association calculation unit 104, when the index value is 0.5, the increase rate 206 of the denominator of the first degree of association is about 3.16, so that it is determined by the first degree of association of P (user search word). The impact is greater when the index value is 0.1.

상술한 바와 같이, 상기 지수값을 통해 P(사용자 검색어)가 제1 연관도에 미치는 영향력을 조절하여, 대표 키워드에 제공되는 연관 검색어의 수를 조절할 수 있게 된다. 즉, 제1 연관도 산출부(104)는 제1 지수함수의 지수값을 결정하여 제1 연관도를 조절할 수 있게 된다.As described above, the number of related search terms provided to the representative keyword may be adjusted by adjusting the influence of P (user search term) on the first degree of association through the index value. That is, the first correlation calculator 104 may adjust the first correlation by determining the index value of the first index function.

다시 도1을 참조하면, 연관 검색어 판단부(106)는 제1 연관도 산출부(104)에서 생성한 제1 연관도를 이용하여, 상기 제1 연관도가 기준치 이상이면, 해당 후보 검색어를 사용자 검색어의 연관 검색어로 판단한다.Referring back to FIG. 1, the related search term determiner 106 uses the first degree of association generated by the first degree of relevance calculator 104, and if the first degree of association is equal to or greater than a reference value, the corresponding candidate search term is used. It is determined as a related search word of the search word.

도 3은 본 발명의 일 실시예에 따라 연관 검색어 판단부(106)가 제1 연관도를 이용하여 연관 검색어를 판단하는 과정을 설명하기 위한 도면이다.3 is a diagram for describing a process of determining, by a related search word, the related search word determiner 106 using a first degree of association according to an embodiment of the present invention.

도 3은 P(사용자 검색어∩후보 검색어)가 증가하는 경우, P(사용자 검색어)가 어느 값 이상이어야 해당 후보 검색어가 연관 검색어로 선택되는지 나타낸다.3 illustrates that when P (user search term ∩ candidate search term) increases, a value equal to or greater than P (user search term) is selected as the related search term.

여기서, 기준치가 "0.000003"이라면, (사용자 검색어∩후보 검색어)=P(사용자 검색어)×0.002이고, P(사용자 검색어)가 "0.01"인 경우(302) 제1 연관도가 "0.00000317"이므로 해당 후보 검색어가 연관 검색어로 선택되며, "0.001"인 경우(304)는 해당 후보 검색어가 연관 검색어로 선택되지 않는다.Here, if the reference value is "0.000003", if (user search term candidate query) = P (user search term) x 0.002, and P (user search term) is "0.01" (302), since the first association degree is "0.00000317" If the candidate search term is selected as the related search term, and in case of "0.001" (304), the candidate search term is not selected as the related search term.

그리고, P(사용자 검색어∩후보 검색어)=P(사용자 검색어)×0.0002인 경우, P(사용자 검색어)가 "0.01"(306) 또는 "0.001"(308)이면, 해당 후보 검색어가 연관 검색어로 선택된다.If P (user query ∩ candidate search term) = P (user search term) x 0.0002, if P (user search term) is "0.01" (306) or "0.001" (308), the corresponding candidate search term is selected as a related search term. do.

일반적인 판단 방법에 의할 경우 P(사용자 검색어)가 "0.001"인 경우(308)에 비해서 "0.01"인 경우(306)에 신뢰도가 변하지 않지만, 본 발명에 따른 일 실시예에 의하면, "0.01"인 경우(306)에 제1 연관도가 더 크다. 이는, P(사용자 검색어)가 큰 대표 키워드에 대해 <수학식 1>을 통해 가중치를 주었다는 것을 의미하며, 따라서, 대표 키워드의 경우 연관 검색어가 감소하는 현상을 방지할 수 있다.According to the general determination method, the reliability does not change when the P (user search term) is "0.01" (306) compared to the case where "0.001" (308), but according to an embodiment of the present invention, "0.01" If 306, the first association is greater. This means that P (user search term) is weighted with respect to a large representative keyword through Equation (1), and thus, the related keyword may be prevented from decreasing in the case of the representative keyword.

다시 도 1을 참조하면, 필터링부(108)는 사용자 검색어에 대한 후보 검색어의 신뢰도가 임계치 이상이면, 상기 연관 검색어를 어뷰징 키워드(Abusing Keyword)로 판단하고 필터링 함으로써, 사용자(114)에게 제공될 연관 검색어 대상에서 제거한다.Referring back to FIG. 1, if the reliability of the candidate search word for the user search term is greater than or equal to a threshold, the filtering unit 108 determines the related search term as an Abusing Keyword and filters the related search term to provide the user 114 with an association. Remove from query target.

연관 검색어 제공 서비스를 악용하여, 부당하게 경제적 또는 사회적으로 이익을 얻을 목적으로 특정 검색어와 자신의 영업 또는 사회적 목적과 관련된 검색어를 반복적으로 입력하는 경우, 이를 연관 검색 서비스에 대한 어뷰징으로 판단하고 필터링 해야 한다.If you repeatedly exploit a related search service offering and use a search term that is relevant to your business or social purpose unfairly for the purpose of unfairly benefiting you economically or socially, you should consider this as an abusing of the related search service and filter it. do.

일 예로, 필터링부(108)는 하기 <수학식 2>를 통한 신뢰도를 산출하여, 신뢰도가 기준치 이상이면, 연관 검색어 판단부(106)에 의해 선택된 연관 검색어를 어뷰징 키워드로 판단하고 필터링한다. 따라서, 신뢰도가 임계치보다 높은 연관 검색어는 어뷰징 키워드로 판단하고 사용자(114)에게 제공하지 않게 된다.For example, the filtering unit 108 calculates the reliability through Equation 2 below, and when the reliability is equal to or greater than the reference value, the filtering unit 108 determines and filters the related search word selected by the related search word determining unit 106 as an abusing keyword. Therefore, the related search word whose reliability is higher than the threshold is determined as the abusing keyword and is not provided to the user 114.

Figure 112008000219082-PAT00002
Figure 112008000219082-PAT00002

제2 연관도 산출부(110)는 필터링부(108)에서 제거되지 않은 연관 검색어의 제공 순위를 결정하기 위해 필요한 제2 연관도를 산출한다. 여기서, 제2 연관도는 후보 검색어와 사용자 검색어의 연관성을 의미하는 지수이다.The second relevance calculator 110 calculates a second relevance required to determine a ranking of providing the related search word that is not removed by the filtering unit 108. Here, the second degree of association is an index indicating the correlation between the candidate search word and the user search word.

제2 연관도 산출부(110)는 먼저 입력의 증가 비율에 비해 출력의 증가 비율이 작은 제2 함수에 있어서, 상기 후보 검색어가 검색 세션에 입력될 확률인 P(후보 검색어)를 입력으로 하는 상기 제2 함수의 결과값을 획득한다. 여기서, P(후보 검색어)는 특정 시간 동안 후보 검색어가 입력된 검색 세션의 수에서 상기 특정 시간 동안 생성된 모든 검색 세션의 수를 나누어 산출한 값이다.The second relevance calculation unit 110 first inputs P (candidate search term), which is a probability that the candidate search term is input to a search session, in a second function in which an increase rate of output is smaller than an increase rate of input. Obtain the result of the second function. Here, P (candidate search term) is a value calculated by dividing the number of all search sessions generated during the specific time from the number of search sessions in which the candidate search term has been input for a specific time.

일 실시예에 있어서, 상기 제2 함수는 상기 P(후보 검색어)를 입력으로 하는 제2 지수함수일 수 있다. 여기서, 제2 지수함수의 지수값은 0보다 크고 1보다 작은 값일 수 있다.In one embodiment, the second function may be a second exponential function that takes the input of P (candidate search term). Here, the exponent value of the second exponential function may be a value larger than zero and smaller than one.

일 실시예에 있어서, 상기 제2 연관도 산출부(110)는 특정 시간 동안 사용자 검색어가 입력된 검색 세션의 수, 후보 검색어가 입력된 검색 세션의 수, 또는 사용자 검색어 및 후보 검색어가 입력된 검색 세션의 수를 참조하여, 상기 제2 함수의 지수값을 결정할 수 있다.According to an embodiment, the second relevance calculator 110 may include a number of search sessions in which a user search term has been input, a number of search sessions in which a candidate search term has been input, or a search in which a user search term and a candidate search term have been input; The exponent value of the second function may be determined by referring to the number of sessions.

이하, 상기 제2 함수는 P(후보 검색어)y 로 표현되는 제2 지수함수라 가정하고 설명하겠다. 여기서, y는 0보다 크고 1보다 작은 값이다.Hereinafter, it is assumed that the second function is a second exponential function expressed by P (candidate search term) y . Where y is a value greater than 0 and less than 1.

제2 연관도 산출부(110)는 제1 연관도를 상기 제2 지수함수의 결과값으로 나누어 제2 연관도를 산출한다. 결국 제2 연관도는 하기 <수학식 3>으로 나타낼 수 있다.The second degree of association calculator 110 calculates a second degree of association by dividing the first degree of association by the result of the second exponential function. As a result, the second degree of association may be represented by Equation 3 below.

Figure 112008000219082-PAT00003
Figure 112008000219082-PAT00003

제2 연관도를 산출하는 이유는 입력된 검색 세션의 수가 많은 후보 검색어가 입력된 검색 세션의 수가 적은 후보 검색어에 비해 큰 제1 연관도를 갖는 경향 때문에 선 순위로 제공되므로, 입력된 검색 세션의 수가 적은 후보 검색어의 순위를 올려 주기 위함이다. 이는 입력된 검색 세션의 수가 적음에도 연관성이 인정되어 연관 검색어로 선택된 후보 검색어에게 가중치를 부여한 것으로 볼 수 있다.The reason for calculating the second relevance is that the candidate search terms with a large number of input search sessions are provided in a priority order because of the tendency of the first search term having a large first relevance compared to the candidate search terms with a small number of input search sessions. This is to raise the rank of a small number of candidate search terms. This may be regarded as the weighting of the candidate search word selected as the related search word because the association is recognized even though the number of input search sessions is small.

이때, 제1 연관도를 단지 P(후보 검색어)로 나누어 제2 연관도를 산출하지 않는 이유는, 전술한 신뢰도 산출 시 나타나는 문제점을 똑같이 갖게 되기 때문이다. 즉, 후보 검색어가 대표성 키워드일 경우 순위가 감소하는 것을 막기 위함이다.In this case, the reason why the second degree of association is not calculated by dividing the first degree of association by only P (candidate search term) is that the above-described problems appear when calculating reliability. In other words, if the candidate search word is a representative keyword, the ranking is prevented from decreasing.

본 발명의 일 실시예에서, 제2 연관도를 계산하기 위한 <수학식 3>의 분모는 제2 지수함수의 형태를 가진다. 따라서, 후보 검색어가 대표성 키워드일 경우, 제1 연관도를 단순히 P(후보 검색어)로 나누어 제2 연관도를 산출할 때보다 연관 검색어 제공 순위가 감소하는 것을 방지할 수 있다.In one embodiment of the present invention, the denominator of <Equation 3> for calculating the second correlation has the form of a second exponential function. Therefore, when the candidate search word is a representative keyword, it is possible to prevent the ranking of providing the related search word from decreasing than simply dividing the first degree of association by P (candidate search word) to calculate the second degree of association.

이하, <수학식 3>의 분모가 제2 지수함수의 형태를 가짐으로 발생하는 효과 및 상기 제2 지수함수의 지수값이 미치는 효과는 전술한 <수학식 1> 또는 도 2에서 설명한 내용과 중복되므로 생략한다.Hereinafter, the effect that the denominator of <Equation 3> has the form of the second exponential function and the effect of the exponent value of the second exponential function overlap with the above-described <Equation 1> or the content described in FIG. Omit them.

다시 도 1을 참조하면, 순위 판단부(112)는 제2 연관도 산출부(110)에서 산출된 제2 연관도를 통해, 제2 연관도가 높은 연관 검색어를 선 순위로 하는 순위 정보를 생성한다. 그리고, 생성한 순위 정보를 데이터베이스(102)에 저장한다.Referring back to FIG. 1, the ranking determiner 112 generates ranking information using a related keyword having a high second degree of relevance as a line priority through the second degree of association calculated by the second degree of relevance calculator 110. do. The generated ranking information is stored in the database 102.

상술한 연관 검색어 판단 시스템(100)을 이용하여 연관 검색어를 판단하는 방법을 도 4를 참조하여 구체적으로 설명한다.A method of determining a related search word using the related search word determination system 100 described above will be described in detail with reference to FIG. 4.

도 4는 본 발명의 일 실시예에 따른 연관 검색어 판단 방법을 나타내는 순서도이다.4 is a flowchart illustrating a method of determining a related search word according to an embodiment of the present invention.

먼저, 특정 시간 동안 사용자 검색어가 입력되는 검색 세션의 수, 후보 검색어가 입력되는 검색 세션의 수, 및 사용자 검색어와 후보 검색어가 입력되는 검색 세션의 수를 누적하여 데이터베이스에 저장한다(S402).First, the number of search sessions in which a user search term is input, the number of search sessions in which a candidate search term is input, and the number of search sessions in which a user search term and a candidate search term are input are accumulated and stored in a database (S402).

다음으로, 상기 데이터베이스를 참조하여, 사용자 검색어 및 후보 검색어가 동일한 검색 세션에 입력될 제1 확률값을 획득하고, 입력의 증가 비율에 비해 출력의 증가 비율이 작은 제1 함수에 있어서, 상기 사용자 검색어가 검색 세션에 입력될 제2 확률값을 입력으로 하는 제1 함수의 결과값을 획득하고, 상기 제1 확률값을 상기 결과값으로 나누어 제1 연관도를 산출한다(S404).Next, referring to the database, in the first function of obtaining a first probability value in which a user search word and a candidate search word are input to the same search session, and having a small increase rate of output compared to an increase rate of input, the user search word is A result value of the first function having a second probability value input to the search session as an input is obtained, and a first correlation is calculated by dividing the first probability value by the result value (S404).

일 실시예에 있어서, 상기 제1 확률값은 특정 시간 동안 상기 사용자 검색어 및 후보 검색어가 입력된 검색 세션의 수에서 상기 특정 시간 동안 생성된 모든 검색 세션의 수를 나누어 산출될 수 있다.In example embodiments, the first probability value may be calculated by dividing the number of all search sessions generated during the specific time from the number of search sessions in which the user search word and the candidate search term have been input for the specific time.

다음으로, 상기 산출 결과, 상기 제1 연관도가 기준치 이상인지 판단한다(S406). 이때, 기준치 이상이면, 상기 후보 검색어를 사용자 검색어의 연관 검색 어로 판단한다(S408). 그러나, 기준치 미만이면, 해당 후보 검색어를 연관 검색어에서 제외한다(S416).Next, as a result of the calculation, it is determined whether the first degree of association is equal to or greater than a reference value (S406). In this case, if the reference value is greater than or equal to, the candidate search term is determined as a related search word of the user search word (S408). However, if less than the reference value, the candidate search term is excluded from the related search word (S416).

일 실시예에 있어서, 제1 함수는 제1 지수함수이고, 제1 지수함수의 지수값은 0보다 크고 1보다 작은 값일 수 있다.In one embodiment, the first function is a first exponential function, the exponent value of the first exponential function may be a value greater than zero and less than one.

다음으로, 제1 연관도가 기준치 이상이면, 사용자 검색어에 대한 상기 연관 검색어의 신뢰도가 임계치 이상인지 판단한다(S410). 이때, 임계치 이상이면, 상기 연관 검색어를 어뷰징 키워드로 판단하고 필터링하여, 해당 연관 검색어를 사용자에게 제공될 연관 검색어 대상에서 제외한다(S416).Next, if the first degree of association is equal to or greater than the reference value, it is determined whether the reliability of the related search word for the user search word is equal to or greater than a threshold value (S410). At this time, if the threshold value or more, the related search term is determined as an abusing keyword and filtered, and the related search term is excluded from the target related search term to be provided to the user (S416).

만약, 상기 신뢰도가 임계치 미만이면, 입력의 증가 비율에 비해 출력의 증가 비율이 작은 제2 함수에 있어서, 상기 연관 검색어가 검색 세션에 입력될 확률을 입력으로 하여 상기 제2 함수의 결과값을 획득하고, 상기 제1 연관도를 상기 제2 함수의 결과값으로 나누어 제2 연관도를 산출한다(S412).If the reliability is less than the threshold value, in a second function in which the increase rate of the output is smaller than the increase rate of the input, the result value of the second function is obtained by inputting the probability that the related search word is input to the search session. In operation S412, a second degree of association is calculated by dividing the first degree of association by a result value of the second function.

일 실시예에 있어서, 제2 함수는 제2 지수함수이고, 제2 지수함수의 지수값은 0보다 크고 1보다 작은 값일 수 있다.In one embodiment, the second function is a second exponential function, the exponent value of the second exponential function may be a value greater than zero and less than one.

다음으로, 제2 연관도에 따라 상기 연관 검색어의 제공 순위를 판단한다(S414). 여기서, 제2 연관도가 높은 순으로 제공 순위가 정해 질 수 있다.Next, the ranking of providing the related search word is determined according to a second degree of association (S414). Here, the order of providing may be determined in ascending order of second association.

상술한 연관 검색어 판단 방법은 다양한 컴퓨터 수단을 이용하여 수행될 수 있는 프로그램 형태로도 구현될 수 있는데, 이때 연관 검색어 판단 방법을 수행하기 위한 프로그램은 하드 디스크, CD-ROM, DVD, 롬(ROM), 램, 또는 플래시 메모리와 같은 컴퓨터로 판독할 수 있는 기록 매체에 저장된다.The above-described related search term determination method may also be implemented in the form of a program that can be performed using various computer means. In this case, a program for performing the related search term determination method may be a hard disk, a CD-ROM, a DVD, or a ROM. Data is stored in a computer-readable recording medium, such as, RAM, or flash memory.

본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다.Those skilled in the art to which the present invention pertains will understand that the present invention can be implemented in other specific forms without changing the technical spirit or essential features.

그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.Therefore, it is to be understood that the embodiments described above are exemplary in all respects and not restrictive. The scope of the present invention is shown by the following claims rather than the detailed description, and all changes or modifications derived from the meaning and scope of the claims and their equivalent concepts should be construed as being included in the scope of the present invention. do.

도 1은 본 발명의 일 실시예에 따른 연관 검색어 판단 시스템의 개략적인 블록도.1 is a schematic block diagram of a system for determining a related keyword according to an embodiment of the present invention.

도 2는 본 발명의 일 실시예에 따른 제1 지수함수의 지수값이 제1 연관도에 미치는 영향을 설명하기 위한 도면.2 is a view for explaining the effect of the index value of the first index function according to an embodiment of the present invention on the first correlation.

도 3은 본 발명의 일 실시예에 따라 연관 검색어 판단부가 제1 연관도를 이용하여 연관 검색어를 판단하는 과정을 설명하기 위한 도면.3 is a diagram for describing a process of determining, by a related keyword, a related keyword using a first degree of association according to an embodiment of the present invention.

도 4는 본 발명의 일 실시예에 따른 연관 검색어 판단 방법을 나타내는 순서도.4 is a flowchart illustrating a method of determining a related search word according to an embodiment of the present invention.

<도면의 주요부분에 대한 부호의 설명><Description of the symbols for the main parts of the drawings>

100: 연관 검색어 판단 시스템 102: 데이터베이스100: related search term judgment system 102: database

104: 제1 연관도 산출부 106: 연관 검색어 판단부104: first association degree calculator 106: association keyword determination unit

108: 필터링부 110: 제2 연관도 산출부108: filtering unit 110: second association degree calculation unit

112: 순위 판단부 114: 사용자112: ranking determination unit 114: user

116: 네트워크116: network

Claims (24)

제1 검색어 및 제2 검색어가 하나의 검색 세션에 입력될 제1 확률값을 획득하는 단계;Obtaining a first probability value in which the first search word and the second search word are input in one search session; 상기 제1 검색어가 검색 세션에 입력될 제2 확률값에 입력의 변화율이 출력의 변화율에 비해 작아지게 하는 제1 가중치를 부여하는 단계; Assigning a first weight value such that a rate of change of the input is smaller than a rate of change of an output to a second probability value for the first search term to be input to a search session; 상기 제1 확률값 및 상기 제1 가중치가 부여된 제2 확률값을 사용하여 제1 연관도를 산출하는 단계; 및Calculating a first correlation using the first probability value and the first weighted second probability value; And 상기 제1 연관도가 기준치 이상이면, 상기 제2 검색어를 상기 제1 검색어의 연관 검색어로 판단하는 단계;Determining the second search term as a related search term of the first search term if the first degree of association is greater than or equal to a reference value; 를 포함하는 것을 특징으로 하는 연관 검색어 판단 방법.Related search term determination method comprising a. 제1항에 있어서,The method of claim 1, 상기 제1 가중치가 부여된 상기 제2 확률값은, 상기 제2 확률값을 입력으로 하고 상기 제1 가중치를 상기 제2 확률값의 지수로 하는 지수함수의 출력인 것을 특징으로 하는 연관 검색어 판단 방법.And the second probability value to which the first weight is assigned is an output of an exponential function using the second probability value as an input and the first weight as an index of the second probability value. 제2항에 있어서,The method of claim 2, 상기 지수함수의 지수는 0보다 크고 1보다 작은 값인 것을 특징으로 하는 연관 검색어 판단 방법.The index of the exponential function is an associated search term determination method, characterized in that greater than 0 and less than 1. 제1항에 있어서,The method of claim 1, 상기 기준치는 상기 제1 가중치에 따라 결정하는 것을 특징으로 하는 연관 검색어 판단 방법.And the reference value is determined according to the first weight. 제1항에 있어서,The method of claim 1, 상기 제1 연관도는 상기 제1 확률값을 상기 제1 가중치가 부여된 제2 확률값으로 나눔으로써 산출되는 것을 특징으로 하는 연관 검색어 판단 방법.The first association degree is calculated by dividing the first probability value by the first weighted second probability value. 제1항에 있어서,The method of claim 1, 상기 제2 검색어가 검색 세션에 입력될 제3 확률값에 입력의 변화율에 비해 출력의 변화율이 작아지게 하는 제2 가중치를 부여하는 단계;Giving a second weight value such that a rate of change of an output is smaller than a rate of change of an input to a third probability value at which the second search word is input to a search session; 상기 제1 연관도 및 상기 제2 가중치가 부여된 제3 확률값을 사용하여 제2 연관도를 산출하는 단계; 및Calculating a second degree of association using the first degree of association and the second weighted third probability value; And 상기 제2 연관도에 따라 상기 연관 검색어의 제공 순위를 판단하는 단계;Determining a ranking of providing the related search word according to the second degree of association; 를 더 포함하는 것을 특징으로 하는 연관 검색어 판단 방법.Related search term determination method further comprising. 제6항에 있어서,The method of claim 6, 상기 제2 가중치가 부여된 상기 제3 확률값은, 상기 제3 확률값을 입력으로 하고 상기 제2 가중치를 상기 제3 확률값의 지수로 하는 지수함수의 출력인 것을 특징으로 하는 연관 검색어 판단 방법.And the third probability value to which the second weight is assigned is an output of an exponential function using the third probability value as an input and the second weight value as an index of the third probability value. 제7항에 있어서,The method of claim 7, wherein 상기 제3 확률값에 대한 지수함수의 지수는 0보다 크고 1보다 작은 값인 것을 특징으로 하는 연관 검색어 판단 방법.An index of the exponential function with respect to the third probability value is a value of greater than zero and less than one. 제6항에 있어서,The method of claim 6, 상기 제2 연관도는 상기 제1 연관도를 상기 제2 가중치가 부여된 제3 확률값으로 나눔으로써 산출되는 것을 특징으로 하는 연관 검색어 판단 방법.The second association degree is calculated by dividing the first association degree by the second weighted third probability value. 제1항에 있어서,The method of claim 1, 상기 제1 검색어에 대한 상기 연관 검색어의 신뢰도(confidence)가 임계치 이상이면, 상기 연관 검색어를 어뷰징 키워드로 판단하고 필터링(Filtering)하는 단계를 더 포함하는 것을 특징으로 하는 연관 검색어 판단 방법.And if the confidence level of the related search word for the first search word is equal to or greater than a threshold, determining the related search word as an abusing keyword and filtering the related search word. 제1항에서,In claim 1, 상기 제1 확률값은 특정 시간 동안 상기 제1 검색어 및 제2 검색어가 입력된 검색 세션의 수에서 상기 특정 시간 동안 생성된 모든 검색 세션의 수를 나누어 산출되는 것을 특징으로 하는 연관 검색어 판단 방법.And the first probability value is calculated by dividing the number of all search sessions generated during the specific time from the number of search sessions in which the first and second search terms are input for a specific time. 제1항에 있어서,The method of claim 1, 특정 시간 동안 상기 제1 검색어가 입력되는 검색 세션의 수와 상기 제1 검색어 및 제2 검색어가 입력되는 검색 세션의 수를 누적하여 데이터베이스에 저장하는 단계를 더 포함하되, 상기 모든 확률값은 상기 데이터베이스를 참조하여 계산되는 것을 특징으로 하는 연관 검색어 판단 방법.Accumulating the number of search sessions in which the first search term is input and the number of search sessions in which the first search term and the second search term are input for a specific time, and storing the accumulated number of search sessions in a database. Related search term determination method characterized in that it is calculated by reference. 제1항 내지 제12항 중 어느 하나의 항에 기재된 방법을 수행하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록매체.A computer-readable recording medium having recorded thereon a program for performing the method according to any one of claims 1 to 12. 제1 검색어 및 제2 검색어가 동일한 검색 세션에 입력될 제1 확률값을 획득하고, 상기 제1 검색어가 검색 세션에 입력될 제2 확률값에 입력의 변화율에 비해 출력의 변화율이 작아지게 하는 제1 가중치를 부여하고, 상기 제1 확률값 및 상기 제1 가중치가 부여된 제2 확률값을 사용하여 제1 연관도를 산출하는 제1 연관도 산출부; 및A first weight value that obtains a first probability value in which the first search term and the second search term are input in the same search session, and makes the rate of change of the output smaller than the rate of change of the input in the second probability value in which the first search term is input in the search session; A first association degree calculator configured to calculate and calculate a first degree of association using the first probability value and the second probability value to which the first weighted value is assigned; And 상기 제1 연관도가 기준치 이상이면, 상기 제2 검색어를 상기 제1 검색어의 연관 검색어로 판단하는 연관 검색어 판단부;A related search word determining unit that determines the second search word as a related search word of the first search word if the first degree of association is equal to or greater than a reference value; 를 포함하는 것을 특징으로 하는 연관 검색어 판단 시스템.Related search term determination system comprising a. 제14항에 있어서,The method of claim 14, 상기 제1 가중치가 부여된 상기 제2 확률값은, 상기 제2 확률값을 입력으로 하고 상기 제1 가중치를 상기 제2 확률값의 지수로 하는 지수함수의 출력인 것을 특징으로 하는 연관 검색어 판단 시스템.And the second probability value to which the first weight is assigned is an output of an exponential function using the second probability value as an input and the first weight as an index of the second probability value. 제15항에 있어서,The method of claim 15, 상기 지수함수의 지수는 0보다 크고 1보다 작은 값인 것을 특징으로 하는 연관 검색어 판단 시스템.The index of the exponential function is an associated search word determination system, characterized in that greater than 0 and less than 1. 제14항에 있어서,The method of claim 14, 상기 연관 검색어 판단부는 상기 제1 가중치에 따라 상기 기준치를 결정하는 것을 특징으로 하는 연관 검색어 판단 시스템.The related search word determining unit determines the reference value according to the first weight. 제14항에 있어서,The method of claim 14, 상기 제1 연관도 산출부는 상기 제1 확률값을 상기 제1 가중치가 부여된 제2 확률값으로 나눔으로써 상기 제1 연관도를 산출하는 것을 특징으로 하는 연관 검색어 판단 시스템.And the first association degree calculator calculates the first association degree by dividing the first probability value by the first probability valued second probability value. 제14항에 있어서,The method of claim 14, 상기 제2 검색어가 검색 세션에 입력될 제3 확률값에 입력의 변화율에 비해 출력의 변화율이 작은 제2 가중치를 획득하고, 상기 제1 연관도를 상기 제2 가중치가 부여된 제3 확률값으로 나눔으로써 제2 연관도를 산출하는 제2 연관도 산출부 및;Obtaining a second weight having a change rate of output smaller than a change rate of an input to a third probability value at which the second search term is to be input to a search session, and dividing the first association by the second probability valued third probability value; A second association degree calculator configured to calculate a second association degree; 상기 제2 연관도에 따라 상기 연관 검색어의 제공 순위를 판단하는 순위 판단부를 더 포함하는 것을 특징으로 하는 연관 검색어 판단 시스템.And a ranking determiner configured to determine a ranking of providing the related search word based on the second degree of association. 제19항에 있어서,The method of claim 19, 상기 제2 가중치가 부여된 상기 제3 확률값은, 상기 제3 확률값을 입력으로 하고 상기 제2 가중치를 상기 제3 확률값의 지수로 하는 지수함수의 출력인 것을 특징으로 하는 연관 검색어 판단 시스템.And the third probability value to which the second weight is assigned is an output of an exponential function using the third probability value as an input and the second weight value as an index of the third probability value. 제20항에 있어서,The method of claim 20, 상기 제3 확률값에 대한 지수함수의 지수는 0보다 크고 1보다 작은 값인 것을 특징으로 하는 연관 검색어 판단 시스템.The index of the exponential function for the third probability value is an associated search word determination system, characterized in that greater than 0 and less than 1. 제14항에 있어서,The method of claim 14, 상기 제1 검색어에 대한 상기 연관 검색어의 신뢰도가 임계치 이상이면, 상기 연관 검색어를 어뷰징 키워드로 판단하고 필터링하는 필터링부를 더 포함하는 것을 특징으로 하는 연관 검색어 판단 시스템.And a filtering unit for determining and filtering the related search word as an abusing keyword when the reliability of the related search word with respect to the first search word is equal to or greater than a threshold. 제14항에서,The method of claim 14, 제1 연관도 산출부는 상기 제1 확률값을 특정 시간 동안 상기 제1 검색어 및 제2 검색어가 입력된 검색 세션의 수에서 상기 특정 시간 동안 생성된 모든 검색 세션의 수를 나누어 산출하는 것을 특징으로 하는 연관 검색어 판단 시스템.The first relevance calculation unit may calculate the first probability value by dividing the number of all search sessions generated during the specific time from the number of search sessions in which the first search word and the second search term have been input for a specific time. Query Judgment System. 제14항에 있어서,The method of claim 14, 특정 시간 동안 상기 제1 검색어가 입력되는 검색 세션의 수와 상기 제1 검색어 및 제2 검색어가 입력되는 검색 세션의 수가 누적되어 저장되는 데이터베이스를 더 포함하되, 상기 제1 연관도 산출부는 상기 모든 확률값을 상기 데이터베이스를 참조하여 계산하는 것을 특징으로 하는 연관 검색어 판단 시스템.The database may further include a database in which the number of search sessions in which the first search term is input and the number of search sessions in which the first search term and the second search term are input are stored for a specific time. Related search term determination system, characterized in that for calculating with reference to the database.
KR1020080000259A 2008-01-02 2008-01-02 System and Method for Determining Associative Query KR100910515B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080000259A KR100910515B1 (en) 2008-01-02 2008-01-02 System and Method for Determining Associative Query

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080000259A KR100910515B1 (en) 2008-01-02 2008-01-02 System and Method for Determining Associative Query

Publications (2)

Publication Number Publication Date
KR20090074464A true KR20090074464A (en) 2009-07-07
KR100910515B1 KR100910515B1 (en) 2009-07-31

Family

ID=41331746

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080000259A KR100910515B1 (en) 2008-01-02 2008-01-02 System and Method for Determining Associative Query

Country Status (1)

Country Link
KR (1) KR100910515B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130045054A (en) * 2011-10-25 2013-05-03 주식회사 케이티 Keyword extracting and refining system, and method thereof

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101618965B1 (en) 2014-07-15 2016-05-09 네이버 주식회사 Method for offering result of search and system for executing the method
KR101787248B1 (en) 2016-04-14 2017-10-18 라인 가부시키가이샤 Method and system for keyword search using messaging service

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100493688B1 (en) * 2003-01-08 2005-06-03 주식회사 옵투스 Apparatus and method for expanding keyword and search system using keyword expansion apparatus
KR100544514B1 (en) 2005-06-27 2006-01-24 엔에이치엔(주) Method and system for determining relation between search terms in the internet search system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130045054A (en) * 2011-10-25 2013-05-03 주식회사 케이티 Keyword extracting and refining system, and method thereof

Also Published As

Publication number Publication date
KR100910515B1 (en) 2009-07-31

Similar Documents

Publication Publication Date Title
EP1643385B1 (en) System and method for ranking search results using click distance
US8793265B2 (en) Method and system for selecting personalized search engines for accessing information
CN107180093B (en) Information searching method and device and timeliness query word identification method and device
US20060200460A1 (en) System and method for ranking search results using file types
RU2505858C2 (en) Method of estimating age of user from mass data and corresponding system
EP2774061A1 (en) Method and apparatus of ranking search results, and search method and apparatus
US20110307469A1 (en) System and method for query suggestion based on real-time content stream
JP2014515514A (en) Method and apparatus for providing suggested words
CN103383702A (en) Method and system for recommending personalized news based on ranking of votes of users
US20160292299A1 (en) Determining and inferring user attributes
CN105930400B (en) A kind of session searching method based on markov decision process model
CN110598126B (en) Cross-social network user identity recognition method based on behavior habits
KR100910515B1 (en) System and Method for Determining Associative Query
CN106095941B (en) Big data knowledge base-based solution recommendation method and system
KR101169170B1 (en) Method for recommending content based on user preference with time flow
JP5579140B2 (en) Document search apparatus, method, and program
JP2011221872A (en) Knowledge quantity estimation apparatus and program
JP2012518221A (en) Document ranking determination system and method based on contribution score
KR101708440B1 (en) Adaptive item recommender method combined latent dirichlet allocation and active learning in distributed environment
CN103646035A (en) Information search method based on heuristic method
RU2660636C2 (en) Method and device of hierarchical document filtering
JP6193428B1 (en) Feature selection device, feature selection method, and program
KR102388952B1 (en) Method for recommending similar user in social internet of things, and recording medium thereof
KR101323535B1 (en) Method for estimating trust level of e-commerce
CN109213937B (en) Intelligent search method and device

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120629

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20130626

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20150701

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20160701

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20170704

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20190701

Year of fee payment: 11