KR20100013358A - Method and system for providing search service using synonym filtering - Google Patents
Method and system for providing search service using synonym filtering Download PDFInfo
- Publication number
- KR20100013358A KR20100013358A KR1020080074842A KR20080074842A KR20100013358A KR 20100013358 A KR20100013358 A KR 20100013358A KR 1020080074842 A KR1020080074842 A KR 1020080074842A KR 20080074842 A KR20080074842 A KR 20080074842A KR 20100013358 A KR20100013358 A KR 20100013358A
- Authority
- KR
- South Korea
- Prior art keywords
- query
- synonym
- filtering
- search
- salmon information
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
본 발명은 인터넷 검색에 관한 것으로서 보다 상세하게는 동의어 필터링을 이용하여 검색 서비스를 제공하는 방법에 관한 것이다.The present invention relates to Internet search, and more particularly, to a method of providing a search service using synonym filtering.
인터넷의 발달 및 보급의 증가로 인해 인터넷을 이용한 다양한 서비스가 제공되고 있는데, 그 중 대표적인 예가 검색 서비스라 할 수 있다. 이러한 검색 서비스는 사용자가 검색하고자 하는 단어 또는 단어의 조합을 질의어로 입력하면, 검색 엔진이 입력된 질의어에 상응하는 검색결과 문서(예컨대, 사용자로부터 입력된 검색 질의어를 포함하는 웹 사이트, 기사, 또는 해당 검색 질의어를 포함하는 파일명을 갖는 이미지 등)를 사용자에게 제공하는 서비스를 의미한다.Due to the development and spread of the Internet, various services using the Internet are provided, and a representative example thereof is a search service. When the search service inputs a word or a combination of words to be searched by a user as a query, the search engine corresponds to a search result document corresponding to the input query (for example, a web site, an article, or a search query including a search query input from the user). An image having a file name including the corresponding search query).
이러한, 검색 서비스를 이용함에 있어서, 자신이 원하는 검색 결과에 상응하는 적절한 질의어를 선택하는 것이 쉽지 않기 때문에, 사용자들은 자신이 획득하고자 했던 검색 결과에 상응하는 질의어가 아닌 다른 질의어를 입력하는 경우가 종종 발생한다. 이러한 경우, 검색 시스템은 실제로 입력된 질의어만을 기반으로 검색을 수행하기 때문에, 사용자들이 자신이 원했던 검색 결과를 얻지 못하게 되는 문제점 이 있다.In using such a search service, since it is not easy to select an appropriate query word corresponding to a desired search result, users often input a query word other than the query word corresponding to the search result that they want to obtain. Occurs. In this case, since the search system performs a search based only on the actually entered query, there is a problem that users do not get the search results they want.
이를 해결하기 위하여 검색 시스템은 실제로 입력된 질의어와 동의어 관계에 있는 질의어에 대한 검색 결과도 함께 제공하는 경우도 있다. 그러나, 동의어 관계에 있는 질의어에 대한 검색 결과가 제공됨에 있어서, 실제로 입력된 질의어와 연관도가 낮음에도 동의어 관계에 있는 질의어로 추천됨으로 인해 불필요한 검색 결과가 제공되게 된다.In order to solve this problem, the search system may also provide a search result for a query that is synonymous with the actually input query. However, when a search result for a synonym query is provided, an unnecessary search result is provided because it is recommended as a query word in a synonym relationship even though the association with the actually entered query word is low.
따라서, 이러한 경우 사용자는 원하는 검색 결과를 얻기 위해서 검색 질의어를 다시 입력할 수 밖에 없어 검색 서비스를 이용하는 사용자의 불편을 초래하게 되고, 이는 결국 검색 서비스의 만족도 및 신뢰도의 저하로 이어질 수 있다는 문제점이 있다.Therefore, in this case, the user has to re-enter the search query in order to obtain a desired search result, which causes inconvenience to the user using the search service, which may lead to a decrease in satisfaction and reliability of the search service. .
본 발명은 상술한 문제점을 해결하기 위한 것으로서, 동의어들의 연어 정보를 이용하여 동의어를 필터링할 수 있는 동의어 필터링을 이용한 검색 서비스 제공 방법 및 시스템을 제공하는 것을 기술적 과제로 한다.An object of the present invention is to provide a search service providing method and system using synonym filtering that can filter synonyms using salmon information of synonyms.
또한, 본 발명은 필터링된 동의어를 이용하여 검색 서비스를 제공할 수 있는 동의어 필터링을 이용한 검색 서비스 제공 방법 및 시스템을 제공하는 것을 다른 기술적 과제로 한다. Another object of the present invention is to provide a method and system for providing a search service using synonym filtering that can provide a search service using the filtered synonym.
상술한 목적을 달성하기 위한 본 발명의 일 측면에 따른 동의어 필터링을 이용한 검색 서비스 제공 방법은 동의어 그룹에 속한 질의어들의 연어 정보를 추출하는 단계; 상기 추출된 연어 정보를 이용하여 상기 동의어 그룹에 속한 질의어들의 연관도를 판별하는 단계; 및 상기 판별된 연관도에 따라 상기 동의어 그룹에 속한 질의어들을 필터링하는 단계를 포함한다.Search service providing method using synonym filtering according to an aspect of the present invention for achieving the above object comprises the steps of extracting the salmon information of the query words belonging to the synonym group; Determining an association degree of query words belonging to the synonym group using the extracted salmon information; And filtering query terms belonging to the synonym group according to the determined association degree.
일 실시예에 있어서, 상기 동의어 그룹에 속한 질의어들은 이형태, 오탈자, 도치, 음차어, 줄임말 관계 중 적어도 하나의 관계에 있는 질의어들인 것을 특징으로 한다.In an embodiment, the query words belonging to the synonym group may be query words in at least one of a heterogeneous form, a typo, invert, a tuning letter, and an abbreviation.
이 때, 상기 연어 정보를 추출하는 단계는 검색창에 입력되는 단어들로부터 상기 연어 정보를 추출하거나, 또는 웹 문서로부터 상기 연어 정보를 추출하는 것을 특징으로 한다.In this case, the extracting the salmon information may include extracting the salmon information from words input into a search box or extracting the salmon information from a web document.
일 실시예에 있어서, 상기 연관도를 판별하는 단계는 상기 질의어들의 연어 정보 일치율을 이용하여 상기 연관도를 판별하는 것을 특징으로 한다. 일 실시예에 있어서, 상기 동의어 그룹에 속한 질의어들 중에서 질의어 입력 횟수(Query Count)가 가장 높은 질의어를 대표 질의어로 선정하는 것을 특징으로 한다.The determining of the correlation may include determining the correlation using the salmon information matching ratio of the query words. According to an embodiment, the query word having the highest query count among query words belonging to the synonym group may be selected as the representative query word.
일 실시예에 있어서, 상기 질의어들을 필터링하는 단계는 상기 동의어 그룹에 속한 질의어들 중 대표 질의어와 상기 연어 정보 일치율이 기준치 이하인 질의어들을 필터링하는 것을 특징으로 한다.In an exemplary embodiment, the filtering of the query terms may include filtering a query word having a matching ratio of the representative query word and the salmon information among the query words belonging to the synonym group below a reference value.
한편, 다른 실시예에 있어서, 상기 질의어들을 필터링하는 단계는 상기 동의어 그룹에 속한 질의어들 중 대표 질의어와 상기 연어 정보 중 특정 연어 정보의 일치율이 기준치 이하인 질의어들을 필터링하는 것을 특징으로 한다.In another embodiment, the filtering of the query words may include filtering the query words having a matching ratio of a representative query word among the query words belonging to the synonym group and specific salmon information among the salmon information to be lower than a reference value.
이 때, 상기 필터링 단계 이후에, 상기 필터링된 질의어들을 동의어로 매칭하여 동의어 데이터베이스에 저장하는 단계를 더 포함하는 것을 특징으로 한다.In this case, after the filtering step, the method may further include matching the filtered query terms with synonyms and storing the synonyms in a synonym database.
여기서, 상기 동의어 필터링을 이용한 검색 서비스 제공 방법은 사용자로부터 검색 질의어를 수신하는 단계; 상기 수신된 검색 질의어의 동의어가 존재하는지를 판단하는 단계; 및 상기 수신된 검색 질의어의 동의어가 존재하는 경우, 상기 수신된 검색 질의어에 대한 검색 결과에 상기 동의어에 대한 검색 결과를 포함시켜 제공하는 단계를 더 포함하는 것을 특징으로 한다.The search service providing method using the synonym filtering may include: receiving a search query word from a user; Determining whether a synonym of the received search query word exists; And providing a search result for the synonym in the search result for the received search query if the synonym of the received search query word exists.
상술한 목적을 달성하기 위한 본 발명의 다른 측면에 따른 동의어 필터링을 이용한 검색 서비스 제공 시스템은 동의어 그룹에 속한 질의어들의 연어 정보를 추출하는 연어 정보 추출부; 및 상기 추출된 연어 정보를 이용하여 상기 동의어 그룹 에 속한 질의어들의 연관도를 판별하여, 상기 판별된 연관도에 따라 상기 동의어 그룹에 속한 질의어들을 필터링하는 필터링부를 포함한다.Search service providing system using synonym filtering according to another aspect of the present invention for achieving the above object is a salmon information extraction unit for extracting the salmon information of the query words belonging to the synonym group; And a filtering unit for determining an association degree of the query words belonging to the synonym group by using the extracted salmon information and filtering the query words belonging to the synonym group according to the determined association degree.
상술한 바와 같이 본 발명에 따르면, 동의어로 결정된 질의어들의 연어 정보를 이용하여 보다 정확하고 용이하게 동의어를 필터링할 수 있다는 효과가 있다.As described above, according to the present invention, synonyms can be filtered more accurately and easily by using salmon information of query words determined as synonyms.
또한, 본 발명에 따르면, 사용자로부터 검색 질의어가 입력되는 경우 입력된 검색 질의어에 대한 검색 결과에 입력된 검색 질의어의 동의어로 결정된 질의어들 중 필터링된 질의어에 대한 검색 결과를 포함시켜 제공함으로써 사용자의 편의성을 증대시킴은 물론, 이로 인해 검색 서비스의 만족도 및 신뢰도를 향상시킬 수 있다는 효과가 있다.In addition, according to the present invention, when a search query is input from the user, the user's convenience is provided by including the search result for the filtered query among the queries determined as synonyms of the search query input in the search result for the input search query. As well as increase, this has the effect of improving the satisfaction and reliability of the search service.
이하 첨부된 도면을 참조하여 본 발명의 실시예에 대해 상세히 설명하기로 한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.
도 1은 본 발명의 일 실시예에 따른 동의어 필터링부의 구성을 보여주는 블럭도이다. 도 1에 도시된 동의어 필터링부는 동의어 그룹에 속한 질의어들을 해당 질의어의 연어 정보를 이용하여 필터링하는 것으로서, 동의어 필터링부는 후술할 동의어 필터링을 이용한 검색 서비스 제공 시스템에 직접 포함되거나, 동의어 필터링을 이용한 검색 서비스 제공 시스템과는 독립적으로 구성될 수 있다.1 is a block diagram illustrating a synonym filtering unit according to an embodiment of the present invention. The synonym filtering unit illustrated in FIG. 1 filters query terms belonging to a synonym group using salmon information of a corresponding query term. The synonym filtering unit is directly included in a search service providing system using synonym filtering, which will be described later, or a search service using synonym filtering. It may be configured independently of the providing system.
도시된 바와 같이, 이러한 동의어 필터링부(100)는 연어 정보 추출부(120) 및 필터링부(140)을 포함한다.As shown, the
연어 정보 추출부(120)는 동의어 그룹에 속한 질의어들의 연어 정보를 추출하는 것으로서, 제1연어 정보 추출부(122) 및 제2연어 정보 추출부(124)를 포함한다. 여기서, 연어 정보라 함은 기본적으로 한 문장 내에서 일정한 거리를 두고 어울려 쓰이는 단어에 관한 정보를 의미한다. 이는, 동의어 그룹에 속한 질의어들이라면 각각의 연어 정보 중에서 다수의 공통 연어 정보 집합이 형성될 것이기 때문이다.The salmon
일 실시예에 있어서, 동의어 그룹에 속한 질의어들은 이형태, 오탈자, 도치, 음차어, 줄임말 관계 중 적어도 하나의 관계에 있는 질의어들일 수 있다. 이는, 동의어 결정부(미도시)에 의해 사용자로부터 입력되는 질의어들 중에서 이형태, 오탈자, 도치, 음차어, 줄임말 관계 중 적어도 하나의 관계에 있는 질의어들이 동의어 그룹을 형성하기 때문이다. 여기서, 동의어 결정부(미도시)는 동의어 필터링부(100)와 마찬가지로 후술할 동의어 필터링을 이용한 검색 서비스 제공 시스템에 직접 포함되거나, 동의어 필터링을 이용한 검색 서비스 제공 시스템과는 독립적으로 구성될 수 있다.In an embodiment, the query words belonging to the synonym group may be query words in at least one of the following forms: typos, typos, inverts, tuning words, and abbreviations. This is because, among the query words input from the user by the synonym determination unit (not shown), the query words having at least one relation among this form, typo, invert, tuning fork, and abbreviation form a synonym group. Here, the synonym determination unit (not shown) may be directly included in the search service providing system using synonym filtering, which will be described later, like the
여기서. 이형태 관계에 있는 질의어들이란 같은 대상을 지칭하는 어휘가, 사용자에 따라 다르게 표기되는 형태의 질의어들을 의미한다. 또한, 오탈자 관계에 있는 질의어들이란 "ㅅ싸이월드"와 같이 원래의 정확한 표기의 단어인 "싸이월드"에 한 음절을 이룰 수 없는 자소가 포함된 경우 또는 "당ㅡㅁ"과 같이 자소 단위로 풀어 쓴 경우 원 표기인"다음"과 자소 단위로 일치하는 경우와 같이 사용자가 잘 못 입력하게 되는 형태의 질의어들의 의미한다. 그리고, 도치 관계에 있는 질의어 들이란 예를 들어, "강남교보"와 "교보강남"과 같이 형태소 단위로 위치가 서로 빠뀐 질의어들을 의미한다. 또한, 음차어 관계에 있는 질의어들이란 "싸이월드"와 "Cyworld"와 같이 외국어의 원어 발음에 가까운 한글 표기와 외국어의 관계에 있는 질의어들을 의미한다. 마지막으로, 줄임말 관계에 있는 질의어들이란 "슈퍼주니어"와 "슈주"와 같이 원래의 단어와 줄여서 표기한 단어의 관계에 있는 질의어들을 의미한다.here. Queries in a heterogeneous relationship mean a query word in which a vocabulary indicating the same object is expressed differently according to a user. In addition, the query words in the typo-related relationship are "cyworld," such as "cyworld," and in the case of "cyworld," which contains a phoneme that cannot form a syllable, or in a phoneme unit, such as "dang." In case of unscrup- ing, it means the query forms that the user inputs incorrectly, such as the case of the original notation "next" and the phoneme unit. In addition, the query words in the inverted relation mean, for example, query terms whose positions differ from each other in morphological units such as "Gangnam Kyobo" and "Kyobo Gangnam". In addition, query words in a tuning-fork relationship mean query words in a relationship between a Korean notation close to the original pronunciation of a foreign language such as "cyworld" and "Cyworld". Finally, the query terms in the abbreviation relationship refer to query terms in the relationship between the original word and the abbreviated word such as "Super Junior" and "Shuju".
연어 정보 추출부(120)에 의해 추출된 연어 정보의 예가 도 2에 도시되어 있다. 도 2의 (a)에 도시된 바와 같이, 질의어 "아르바이트", "알르바이트", "아르바트" 별로 각각 추출된 연어 정보를 알 수 있다. 또한, 도 2의 (b)에 도시된 바와 같이, 질의어 "텔레비전", "텔레비젼", "텔레비존" 별로 각각 추출된 연어 정보를 알 수 있다.An example of salmon information extracted by the salmon
다시 도 1을 참조하면, 제1연어 정보 추출부(122)는 검색창에 입력되는 단어들로부터 연어 정보를 추출한다. 다시 말해, 사용자에 의해 검색창에 입력되는 단어들인 질의어들 내에서 일정한 거리를 두고 어울려 쓰이는 단어들의 정보를 추출하는 것이다. 예를 들어, 사용자에 의해 "아르바이트 이력서 시급 사이트"와 같은 질의어가 입력된 경우, 질의어 "아르바이트"의 연어 정보는 "이력서", "시급", "사이트"등이 될 수 있다.Referring back to FIG. 1, the first salmon
제2연어 정보 추출부(124)는 웹 문서로부터 연어 정보를 추출한다. 즉, 일 반적인 웹 문서에서 일정한 거리를 두고 함께 쓰이는 단어들의 정보를 추출하는 것이다. 예를 들어, 웹 문서에서 "텔레비전 편성표를 보고 시청할 채널을 선택할 수 있다."라는 문장이 있는 경우, 질의어 "텔레비전"의 연어 정보는 "편성표", "시청", "채널"등이 될 수 있다.The second salmon
필터링부(140)는 연어 정보 추출부(120)에 의해 추출된 연어 정보를 이용하여 동의어 그룹에 속한 질의어들의 연관도를 판별하여, 판별된 연관도에 따라 동의어 그룹에 속한 질의어들을 필터링하는 것으로서, 제1필터링부(142) 및 제2필터링부(144)를 포함한다.The
일 실시예에 있어서, 필터링부(140)는 동의어 그룹에 속한 질의어들에 해당하는 연어 정보의 일치율을 이용하여 동의어 그룹에 속한 질의어들의 연관도를 판별할 수 있다.In an embodiment, the
필터링부(140)에 의해 연어 정보의 일치율을 이용하여 동의어 그룹에 속한 질의어들의 연관도가 판별되는 예가 도 3에 도시되어 있다. 도 3의 (a)에 도시된 바와 같이, 질의어 "아르바이트"와 "알르바이트"의 경우 "천국", "사이트"와 같이 일치하는 연어 정보가 다수 존재하여 연관도가 높은 반면, 질의어 "아르바트"의 경우 질의어 "아르바이트", "알르바이트"와 일치하는 연어 정보가 거의 없어 연관도가 낮은 것을 알 수 있다. 또한, 도 3의 (b)에 도시된 바와 같이, 질의어 "텔레비전"과 "텔레비젼"의 경우 "편성표", "화면", "프로그램", "시청"과 같이 일치하는 연어 정보가 다수 존재하여 연관도가 높은 반면, 질의어 "텔레비존"의 경우 질의어 "텔레비전", "텔레비젼"과 일치하는 연어 정보가 거의 없어 연관도가 낮은 것을 알 수 있다.An example in which the degree of association of the query words belonging to the synonym group is determined by the
일 실시예에 있어서, 필터링부(140)는 동의어 그룹에 속한 질의어들 중에서 질의어 입력 횟수(Query Count)가 가장 높은 질의어를 대표 질의어로 선정할 수 있다. 다시 말해, 동의어로 결정된 질의어 그룹에 속한 질의어가 "아르바이트", "알르바이트", "아르바트"인 경우, "아르바이트"의 질의어 입력 횟수가 가장 높다면 "아르바이트"를 대표 질의어로 선정할 수 있는 것이다.In an embodiment, the
제1필터링부(142)는 동의어 그룹에 속한 질의어들 중 대표 질의어와 연어 정보의 일치율이 기준치 이하인 질의어들을 필터링한다. 다시 말해, 제1필터링부는 대표 질의어와 다른 질의어들의 전체 연어 정보의 일치율을 산출하여, 대표 질의어와 연어 정보의 일치율이 기준치 이하인 질의어를 동의어 그룹에서 제외하는 것이다.The
제2필터링부(144)는 동의어 그룹에 속한 질의어들 중 대표 질의어와 연어 정보 중 특정 연어 정보의 일치율이 기준치 이하인 질의어들을 필터링한다. 다시 말해, 제2필터링부는 대표 질의어와 다른 질의어들의 연어 정보 중에서 연관도 판별에 중요한 특정 연어 정보의 일치율을 산출하여, 대표 질의어와 특정 연어 정보의 일치율이 기준치 이하인 질의어를 동의어 그룹에서 제외하는 것이다.The
상술한 바와 같이, 본 발명의 실시예에 따른 동의어 필터링부는 보다 정확한 검색 결과를 제공하기 위해 동의어 그룹에 속한 질의어들을 정제하는 역할을 수행한다.As described above, the synonym filtering unit according to an embodiment of the present invention serves to refine the query words belonging to the synonym group in order to provide more accurate search results.
이하에서는, 상술한 동의어 필터링부에 의해 필터링된 동의어를 이용하여 검색 서비스를 제공하는 본 발명의 일 실시예에 따른 동의어 필터링을 이용한 검색 서비스 제공 시스템을 도 4을 참조하여 설명하기로 한다.Hereinafter, a search service providing system using synonym filtering according to an embodiment of the present invention for providing a search service using the synonyms filtered by the synonym filtering unit will be described with reference to FIG. 4.
도시된 바와 같이, 동의어 필터링을 이용한 검색 서비스 제공 시스템(600)은 동의어 필터링부(100), 동의어 데이터베이스(200), 검색 질의어 수신부(300), 동의어 판단부(400) 및 검색 결과 제공부(500)를 포함한다.As illustrated, the search
동의어 필터링부(100)는 보다 정확한 검색 결과를 제공하기 위해 동의어 그룹에 속한 질의어들의 연어 정보를 이용하여 필터링하며, 동의어 데이터베이스(200)는 동의어 그룹에 속한 질의어들 중에서 동의어 필터링부(100)에 의해 필터링된 질의어들이 저장된다.The
검색 질의어 수신부(300)는 사용자로부터 검색 질의어를 수신하고, 동의어 판단부(400)는 검색 질의어 수신부(300)를 통해 수신된 검색 질의어의 동의어가 동의어 데이터베이스(200)에 존재하는지를 판단한다. 다시 말해, 동의어 판단부는 사용자가 입력한 검색 질의어와 이형태, 오탈자, 도치어, 음차어, 줄임말 관계 중 어느 하나의 관계에 있는 질의어가 동의어 데이터베이스(400)에 저장되어 있는지를 판단하는 것이다.The
검색 결과 제공부(500)는 동의어 데이터베이스(200)에 수신된 검색 질의어의 동의어가 존재하는 경우, 수신된 검색 질의어에 대한 검색 결과에 수신된 검색 질의어의 동의어에 대한 검색 결과를 함께 포함시켜 제공한다. 따라서, 검색 결과 제공부(500)는 사용자가 입력한 검색 질의어에 대한 검색 결과뿐만 아니라 입력한 검색 질의어와 동의어 관계에 있는 검색 결과도 함께 제공할 수 있어 보다 정확한 검색 결과를 제공할 수 있다.The search
본 실시예에 있어서는 동의어 필터링부(100)가 검색 서비스 제공 시스 템(600)에 포함되는 것으로 기재하였지만, 위에서 언급한 바와 같이, 동의어 필터링부(100)는 검색 서비스 제공 시스템(600)에 포함되지 않을 수도 있을 것이다. 이러한 경우, 검색 서비스 제공 시스템(600)은 동의어 필터링부(100)에 의해 동의어 그룹에 속한 질의어들 중에서 필터링된 질의어들이 저장된 동의어 데이터베이스(400)를 이용하여 검색 서비스를 제공하게 된다.Although the
이하에서는 도 5를 참조하여 본 발명의 일 실시예에 따른 동의어 필터링 방법을 설명하기로 한다.Hereinafter, a synonym filtering method according to an embodiment of the present invention will be described with reference to FIG. 5.
먼저, 동의어 그룹을 생성한다(S710). 다시 말해, 질의어들 중에서 이형태, 오탈자, 도치, 음차어, 줄임말 관계 중 어느 하나의 관계에 있는 질의어들을 동의어로 결정하여 그룹을 생성하는 것이다. 따라서, 동의어 그룹에 속한 질의어들은 이형태, 오탈자, 도치, 음차어, 줄임말 관계 중 적어도 하나의 관계에 있는 질의어일 수 있다.First, a synonym group is created (S710). In other words, a group is created by determining the query words which are in one of the form, typo, invert, tuning fork, and abbreviation among the query words as synonyms. Accordingly, the query words belonging to the synonym group may be query words in at least one of the following forms: typos, typos, inverts, tuning words, and abbreviations.
다음으로, 동의어 그룹에 속한 질의어들의 연어 정보를 추출한다(S720). 일 실시예에 있어서, 검색창에 입력되는 단어들로부터 동의어 그룹에 속한 질의어들의 연어 정보를 추출하거나, 또는 웹 문서로부터 동의어 그룹에 속한 질의어들의 연어 정보를 추출할 수 있다. Next, salmon information of query words belonging to the synonym group is extracted (S720). According to an embodiment, salmon information of query words belonging to a synonym group may be extracted from words input into a search box, or salmon information of query words belonging to a synonym group may be extracted from a web document.
여기서, 연어 정보라 함은 기본적으로 한 문장 내에서 일정한 거리를 두고 어울려 쓰이는 단어에 관한 정보를 의미한다. 다시 말해, 동의어 그룹에 속한 질의어들이라면 각각의 연어 정보 중에서 다수의 공통 연어 정보 집합이 형성될 것이기 때문에 동의어 그룹에 속한 질의어들의 연어 정보를 추출하는 것이다.Here, the salmon information basically means information about a word that is used with a certain distance in a sentence. In other words, since the query words belonging to the synonym group will form a plurality of common salmon information sets among the salmon information, the salmon information of the query words belonging to the synonym group is extracted.
추출 결과, 추출된 연어 정보를 이용하여 동의어 그룹에 속한 질의어들의 연관도를 판별한다(S730). 일 실시예에 있어서, 연관도를 판별하는 방법은 동의어 그룹에 속한 질의어들의 연어 정보 일치율을 이용하여 연관도를 판별할 수 있다. 다시 말해, 동의어 그룹에 속한 질의어들의 연어 정보 중 다수의 공통된 연어 정보가 존재하는 경우 연관도가 높다고 볼 수 있으나, 공통된 연어 정보가 거의 없는 경우에는 연관도가 낮다고 볼 수 있는 것이다.As a result of the extraction, the degree of association between the query words belonging to the synonym group is determined using the extracted salmon information (S730). In one embodiment, the method of determining the degree of association may determine the degree of association using the salmon information matching rate of the query words belonging to the synonym group. In other words, when there is a lot of common salmon information among the salmon information of the query words belonging to the synonym group, it can be said that the correlation is high, but when there is almost no common salmon information, it can be said that the correlation is low.
또한, 동의어 그룹에 속한 질의어들 중에서 질의어 입력 횟수(Query Count)가 가장 높은 질의어를 대표 질의어로 선정할 수 있다. 예컨대, 동의어로 결정된 질의어 그룹에 속한 질의어가 "아르바이트", "알르바이트", "아르바트"인 경우, "아르바이트"의 질의어 입력 횟수가 가장 높다면 "아르바이트"를 대표 질의어로 선정할 수 있는 것이다.In addition, among the queries belonging to the synonym group, the query having the highest query count number may be selected as the representative query. For example, when the query word belonging to the query group determined as a synonym is "part-time", "part-time", "arbat", the "part-time" may be selected as the representative query word if the number of query inputs of the "part-time" is the highest.
판별 결과, 판별된 연관도에 따라 동의어로 결정된 질의어 그룹에 속한 질의어들을 필터링한다(S740). 일 실시예에 있어서, 질의어들을 필터링하는 방법은 동의어 그룹에 속한 질의어들 중 대표 질의어와 연어 정보 일치율이 기준치 이하인 질의어들을 필터링할 수 있다. 즉, 대표 질의어와 다른 질의어들의 전체 연어 정보의 일치율을 산출하여, 대표 질의어와 연어 정보의 일치율이 기준치 이하인 질의어를 동의어 그룹에서 필터링하는 것이다.As a result of the determination, the query words belonging to the query group determined as synonyms according to the determined degree of association are filtered (S740). According to an embodiment, the method of filtering query terms may filter query terms having a representative query term and a salmon information matching rate below a reference value among query terms belonging to a synonym group. That is, the matching rate of the entire query information of the representative query and the other query terms is calculated, and the query terms whose match rate of the representative query information and the salmon information are less than the reference value are filtered out from the synonym group.
다른 실시예에 있어서, 질의어들을 필터링하는 방법은 동의어 그룹에 속한 질의어들 중 대표 질의어어와 연어 정보 중 특정 연어 정보의 일치율이 기준치 이하인 질의어들을 필터링할 수 있다. 다시 말해, 대표 질의어와 다른 질의어들의 연 어 정보 중에서 연관도 판별에 중요한 특정 연어 정보의 일치율을 산출하여, 대표 질의어와 특정 연어 정보의 일치율이 기준치 이하인 질의어를 동의어 그룹에서 필터링하는 것이다.In another embodiment, the method of filtering the query words may filter query words having a matching ratio of the representative query word among the query words belonging to the synonym group and the specific salmon information among the salmon information less than the reference value. In other words, the coincidence rate of specific salmon information, which is important for determining correlation among the representative query word and other query words, is calculated, and the query word whose match rate of the representative query word and the specific salmon information is lower than the reference value is filtered in the synonym group.
마지막으로, 동의어로 결정된 질의어 그룹에 속한 질의어들 중 필터링된 질의어들을 동의어 데이터베이스에 저장함으로써 동의어 데이터베이스를 구축한다(S750). 즉, 사용자가 입력한 질의어들 중에서 동의어 결정되어 동의어 그룹에 속한 질의어들의 연어 정보에 의하여 필터링된 질의어들이 동의어 데이터베이스에 저장되는 것이다.Finally, a synonym database is constructed by storing the filtered query words among the query words belonging to the query group determined as the synonyms in the synonym database (S750). That is, the synonyms are determined among the query words input by the user, and the query words filtered by the salmon information of the query words belonging to the synonym group are stored in the synonym database.
이하에서는 상술한 동의어 필터링 방법을 이용하여 필터링된 동의어를 이용하여 검색 서비스를 제공하는 방법을 도 6을 참조하여 설명한다.Hereinafter, a method of providing a search service using a synonym filtered using the synonym filtering method described above will be described with reference to FIG. 6.
먼저, 사용자로부터 검색 질의어를 수신하고(S810), 수신된 검색 질의어의 동의어가 동의어 데이터베이스에 존재하는지를 판단한다(S820). 다시 말해, 사용자가 입력한 질의어와 이형태, 오탈자, 도치어, 음차어, 줄임말 관계 중 어느 하나의 관계에 있는 질의어가 동의어 데이터베이스에 저장되어 있는지를 판단하는 것이다.First, a search query is received from a user (S810), and it is determined whether a synonym of the received search query exists in the synonym database (S820). In other words, it is determined whether the query word entered by the user and the query word in one of the relational form, typos, vertebrae, tuning fork, and abbreviation relation are stored in the synonym database.
다음으로, 수신된 검색 질의어의 동의어가 존재하는 경우, 수신된 검색 질의어에 대한 검색 결과를 제공함에 있어서, 수신된 검색 질의어에 대한 검색 결과에 수신된 검색 질의어의 동의어에 대한 검색 결과를 포함시켜 제공한다(S830). 따라서, 사용자가 입력한 검색 질의어에 대한 검색 결과뿐만 아니라 입력한 검색 질의어의 동의어에 대한 검색 결과도 함께 제공할 수 있어 보다 정확한 검색 결과를 제공할 수 있다.Next, when there is a synonym of the received search query, in providing a search result for the received search query, the search result for the received search query is included in the search result for the received search query. (S830). Therefore, not only the search result for the search query input by the user but also the search result for the synonym of the input search query can be provided together, thereby providing a more accurate search result.
한편, 상술한 동의어 필터링을 이용한 검색 서비스 제공 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터로 판독 가능한 기록 매체에 기록될 수 있다. 이때, 컴퓨터로 판독 가능한 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 한편, 기록매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.Meanwhile, the search service providing method using the synonym filtering described above may be implemented in the form of program instructions that can be executed by various computer means and recorded in a computer-readable recording medium. In this case, the computer-readable recording medium may include program instructions, data files, data structures, and the like, alone or in combination. Meanwhile, the program instructions recorded on the recording medium may be those specially designed and configured for the present invention, or may be known and available to those skilled in computer software.
컴퓨터로 판독 가능한 기록매체에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM, DVD와 같은 광기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 한편, 이러한 기록매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다.Computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tape, optical media such as CD-ROMs, DVDs, and magnetic disks such as floppy disks. Magnetic-Optical Media, and hardware devices specifically configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like. The recording medium may be a transmission medium such as an optical or metal wire, a waveguide, or the like including a carrier wave for transmitting a signal specifying a program command, a data structure, or the like.
또한, 프로그램 명령에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.In addition, program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like. The hardware device described above may be configured to operate as one or more software modules to perform the operations of the present invention, and vice versa.
한편, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다.On the other hand, those skilled in the art will appreciate that the present invention can be implemented in other specific forms without changing the technical spirit or essential features.
그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.Therefore, it is to be understood that the embodiments described above are exemplary in all respects and not restrictive. The scope of the present invention is shown by the following claims rather than the detailed description, and all changes or modifications derived from the meaning and scope of the claims and their equivalent concepts should be construed as being included in the scope of the present invention. do.
도 1은 본 발명의 일 실시예에 따른 동의어 필터링부의 구성을 보여주는 블럭도이다.1 is a block diagram illustrating a synonym filtering unit according to an embodiment of the present invention.
도 2는 추출된 연어 정보의 예를 보여주는 도면이다.2 is a diagram illustrating an example of extracted salmon information.
도 3은 동의어 그룹에 속한 질의어들의 연관도가 판별되는 예를 보여주는 도면이다.3 is a diagram illustrating an example in which an association degree of query words belonging to a synonym group is determined.
도 4는 도 1에 도시된 동의어 필터링부를 포함하는 본 발명의 일 실시예에 따른 동의어 필터링을 이용한 검색 서비스 제공 시스템의 개략적인 블럭도이다.4 is a schematic block diagram of a search service providing system using synonym filtering according to an embodiment of the present invention including the synonym filtering unit illustrated in FIG. 1.
도 5는 본 발명의 일 실시예에 따른 동의어 필터링 방법을 보여주는 플로우차트이다.5 is a flowchart showing a synonym filtering method according to an embodiment of the present invention.
도 6은 본 발명에 의한 일 실시예에 따른 동의어 필터링을 이용한 검색 서비스 제공 방법을 보여주는 플로우차트이다.6 is a flowchart illustrating a search service providing method using synonym filtering according to an embodiment of the present invention.
<도면의 주요 부분에 대한 부호의 설명><Explanation of symbols for the main parts of the drawings>
100 : 동의어 필터링부 120 : 연어 정보 추출부100: synonym filtering unit 120: salmon information extraction unit
122 : 제1연어 정보 추출부 124 : 제2연어 정보 추출부122: first salmon information extracting unit 124: second salmon information extracting unit
140 : 필터링부 142 : 제1필터링부140: filtering unit 142: first filtering unit
144 : 제2필터링부144: second filtering unit
Claims (21)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020080074842A KR100955186B1 (en) | 2008-07-31 | 2008-07-31 | Method and System for Providing Search Service Using Synonym Filtering |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020080074842A KR100955186B1 (en) | 2008-07-31 | 2008-07-31 | Method and System for Providing Search Service Using Synonym Filtering |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20100013358A true KR20100013358A (en) | 2010-02-10 |
KR100955186B1 KR100955186B1 (en) | 2010-04-29 |
Family
ID=42087348
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020080074842A KR100955186B1 (en) | 2008-07-31 | 2008-07-31 | Method and System for Providing Search Service Using Synonym Filtering |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100955186B1 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101231438B1 (en) * | 2011-05-25 | 2013-02-07 | 엔에이치엔(주) | Search reasult providing system and method for providing loan word pronunciation search service |
KR102030742B1 (en) * | 2018-07-18 | 2019-10-10 | 홍진용 | Idea selection support system and method |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100372078B1 (en) * | 2000-04-11 | 2003-02-17 | 이은미 | method for related terms searching |
KR100396826B1 (en) * | 2000-05-31 | 2003-09-02 | 주식회사 지식정보 | Term-based cluster management system and method for query processing in information retrieval |
-
2008
- 2008-07-31 KR KR1020080074842A patent/KR100955186B1/en active IP Right Grant
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101231438B1 (en) * | 2011-05-25 | 2013-02-07 | 엔에이치엔(주) | Search reasult providing system and method for providing loan word pronunciation search service |
US8751485B2 (en) | 2011-05-25 | 2014-06-10 | Nhn Corporation | System and method for providing loan word search service |
KR102030742B1 (en) * | 2018-07-18 | 2019-10-10 | 홍진용 | Idea selection support system and method |
Also Published As
Publication number | Publication date |
---|---|
KR100955186B1 (en) | 2010-04-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8346794B2 (en) | Method and apparatus for querying target databases using reference database records by applying a set of reference-based mapping rules for matching input data queries from one of the plurality of sources | |
JP5462361B2 (en) | Query parsing for map search | |
EP2518642A1 (en) | Method and terminal device for updating word stock | |
US20040181391A1 (en) | Speech recognition dictionary creation apparatus and information search apparatus | |
US20130061139A1 (en) | Server-based spell checking on a user device | |
US8832135B2 (en) | Method and system for database query term suggestion | |
CN103384290A (en) | Mobile terminal with positioning and navigation functions and fast positioning and navigation method of mobile terminal | |
US20130060560A1 (en) | Server-based spell checking | |
CN116483973A (en) | Text processing method and device and related equipment | |
Misu et al. | A bootstrapping approach for developing language model of new spoken dialogue systems by selecting web texts | |
US9165058B2 (en) | Apparatus and method for searching for personalized content based on user's comment | |
US20100179953A1 (en) | Information presentation system, information presentation method, and program for information presentation | |
US11573989B2 (en) | Corpus specific generative query completion assistant | |
WO2020248378A1 (en) | Service query method and apparatus, and storage medium and computer device | |
JP2022069790A (en) | Information processor, information processing method, and program | |
KR20140068520A (en) | System and method for prividing automatically completed query | |
KR100955186B1 (en) | Method and System for Providing Search Service Using Synonym Filtering | |
JP4601306B2 (en) | Information search apparatus, information search method, and program | |
CN109891500B (en) | Location-based voice query recognition | |
US20140372455A1 (en) | Smart tags for content retrieval | |
JP4848397B2 (en) | Related query derivation device, related query derivation method and program | |
KR100795930B1 (en) | Method and system for recommending query based search index | |
CN105630837A (en) | Media record searching method and device | |
US10915565B2 (en) | Retrieval result providing device and retrieval result providing method | |
KR100955763B1 (en) | Method and System for Providing Search Service Using Synonym |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20130329 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20160329 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20170328 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20190401 Year of fee payment: 10 |