KR101331946B1 - Search method using wildcard matching - Google Patents

Search method using wildcard matching Download PDF

Info

Publication number
KR101331946B1
KR101331946B1 KR1020110101097A KR20110101097A KR101331946B1 KR 101331946 B1 KR101331946 B1 KR 101331946B1 KR 1020110101097 A KR1020110101097 A KR 1020110101097A KR 20110101097 A KR20110101097 A KR 20110101097A KR 101331946 B1 KR101331946 B1 KR 101331946B1
Authority
KR
South Korea
Prior art keywords
search
wildcard
index
search query
query
Prior art date
Application number
KR1020110101097A
Other languages
Korean (ko)
Other versions
KR20130036886A (en
Inventor
권영현
박희근
박호진
장정훈
양희민
Original Assignee
주식회사 와이즈넛
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 와이즈넛 filed Critical 주식회사 와이즈넛
Priority to KR1020110101097A priority Critical patent/KR101331946B1/en
Publication of KR20130036886A publication Critical patent/KR20130036886A/en
Application granted granted Critical
Publication of KR101331946B1 publication Critical patent/KR101331946B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 와일드카드 매칭을 이용한 검색 방법에 관한 것이다. 본 발명의 방법은, 데이터베이스에 대해서 사용자 단말에 의해 와일드카드 검색 질의어가 입력되는 경우 검색엔진이 다음의 소프트웨어 알고리즘에 의한 색인어 여과 과정을 미리 거친 색인파일을 이용하여 상기 와일드카드 검색 질의어에 대응하는 검색결과를 추출하는 것을 특징으로 한다.
(a) 상기 데이터베이스 내에 있는 문서집합에서 색인어 데이터를 추출하는 단계;
(b) 추출된 색인어 데이터에서 n번째 글자(n은 0보다 큰 정수)가 같은 색인어끼리 범주화하여 범주 집합을 생성하는 단계; 및
(c) 상기 범주 집합을 범주화된 색인어의 위치정보로 미리 저장하는 단계.
이와 같은 구성을 통해서 본 발명은 다양한 와일드카드 검색 질의어, 예컨대 전방 절단 검색 질의어, 후방 절단 검색 질의어, 중앙 절단 검색 질의어, 양방향 절단 검색 질의어에 대한 검색에 있어서 보다 신속하고 경제적으로 검색 결과를 추출할 수 있다.
The present invention relates to a search method using wildcard matching. According to the method of the present invention, when a wildcard search query is input to a database by a user terminal, a search engine corresponds to the wildcard search query using an index file which has undergone an index filtering process by the following software algorithm. It is characterized by extracting the result.
(a) extracting index word data from a set of documents in the database;
(b) categorizing index words having the same nth character (n is an integer greater than 0) in the extracted index word data to generate a category set; And
(c) pre-storing the set of categories as location information of categorized index words;
Through such a configuration, the present invention can extract search results more quickly and economically in searching for various wildcard search queries, such as a forward truncation search query, a backward truncation search query, a central truncation search query and a bidirectional truncation search query. have.

Description

와일드카드 매칭을 이용한 검색 방법{SEARCH METHOD USING WILDCARD MATCHING}Search method using wildcard matching {SEARCH METHOD USING WILDCARD MATCHING}

본 발명은 광범위한 컴퓨터 네트워크에 산재한 정보를 검색하는 검색 방법에 관한 것으로서, 특히 전후방 절단 검색을 위한 와일드카드를 포함하는 질의 단어에 대한 탐색이 용이한 검색방법에 관한 것이다.
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a retrieval method for retrieving information scattered over a wide range of computer networks. In particular, the present invention relates to a retrieval method for easily searching a query word including a wildcard for forward and backward truncation search.

인터넷 서비스 중 검색 엔진은 인터넷을 사용하는 데 있어 필수 불가결한 기능으로 자리 잡은 지 오래되었고, 국내외 유수의 포털 서비스뿐만 아니라 자체 자료를 확보하고 있는 기업체, 단체 및 기관들도 양질의 서비스와 효율적인 업무 수행을 위해 자체적인 검색 기능을 제공하고 있다. Search engines have long been an indispensable function for using the Internet.In addition to the leading portal services at home and abroad, companies, organizations and organizations that have their own data also offer high quality services and efficient work. It provides its own search function.

일반적으로 이런 검색은 대용량의 문서 집합을 대상으로 이루어지기 때문에 단순한 검색 방법으로는 많은 시간과 비용을 요한다. 따라서 검색 준비 단계에서 사용자의 정보 요구(Information Need)를 표현하는 데 사용될 것이라고 예상되는 단어들을 검색 대상이 되는 문서 집합에서 추출하여, 색인을 역방향으로 구성하게 된다. 이 때 색인을 구성하는 단어들을 "색인어"라고 한다.Generally, such a search is performed on a large set of documents, so a simple search method requires a lot of time and money. Therefore, in the search preparation phase, the words that are expected to be used to express the information needs of the user are extracted from the document set to be searched, and the index is constructed in the reverse direction. The words that make up the index are called "indexes."

일반적으로 사용자의 정보 요구는 일반 명사나 고유 명사의 형태로 형상화되기 때문에, 문서 집합에서 일반 명사나 고유 명사만 선별적으로 고르는 과정을 필요로 한다. 이렇게 문법에 맞게 문장의 품사 구조를 분석하는 과정을 "형태소 분석"이라고 한다. 상용 검색 서비스는 대부분 형태소 분석기를 자체적으로 보유하고 있다.In general, since a user's information request is formed in the form of general nouns or proper nouns, it is necessary to selectively select only general nouns or proper nouns from the document set. The process of analyzing the parts of speech structure of sentences according to the grammar is called "morphological analysis." Most commercial search services have their own stemmers.

1차적으로 분석된 품사 정보 중 검색 서비스의 목적에 맞게 색인어를 분석하고 선별하는 과정을 색인어 추출 과정이라고 한다. 보통 명사나 고유 명사 등을 사용하는 경우도 있고, 외래어나 수사 및 효용성이 높다고 판단되는 동사, 형용사 등을 부가적으로 추출하는 경우도 있다.The process of analyzing and selecting index words according to the purpose of the search service among the parts of speech information analyzed primarily is called index word extraction process. Ordinary nouns or proper nouns may be used, and verbs, adjectives, etc., which are considered to be high in foreign words, rhetoric, and utility, may be additionally extracted.

도 1을 보자, 검색대상이 되는 문서들의 데이터베이스(D)에 각각 "정보검색론", "최신정보검색이론", "정보통신기사" 등의 제목을 가진 3개의 문서가 있다고 가정하자. "정보검색론"이라는 제목의 문서 1에는 "이 책은 정보 검색의 기본 이론에 대해 다루고 …"라는 문장이 있으며, "최신정보검색이론"이라는 제목의 문서 2에는 "산업계에서 널리 쓰이는 최신의 정보 검색 시스템 …"이라는 문장이 있고, "정보통신기사"라는 제목을 가진 문서 3에는 "기본적인 정보통신 관리 능력 자격증을 산업공단…"라는 문장이 있다고 하자. 이들 문서를 형태소 분석기와 색인어 추출기(10)에 의해 형태소 분석 과정에 의해 분해하면, 1a, 1b, 1c의 추출된 색인 단어 리스트에서 보는 바와 같이, "정보", "검색", "이론", "최신", "통신" 등의 단어들로 구성되어 있다는 사실을 알 수 있다. 이 중 사용자들의 정보 요구를 기술하는 데 사용될 수 있다고 판단되는 단어들을 다시, 어느 문서에서 출현하였는지 정보를 따로 기록해서, 색인구조(20)를 구축할 수 있다. Referring to FIG. 1, assume that there are three documents in a database D of documents to be searched, each having a title of "Information Search Theory", "Latest Information Search Theory", "Information Communication Article", and the like. Document 1 titled "Retrieval theory" contains the sentence "This book covers the basic theory of information retrieval…", and Document 2 titled "Modern Information Retrieval Theory" contains "the latest information widely used in industry." Suppose that there is a search system… ”, and document 3, titled“ Information and Communication Engineer, ”contains the sentence“ Information and Communications Management Capability Certificate ”. When these documents are decomposed by the morphological analyzer and the index extractor 10 by the morphological analysis process, as shown in the extracted index word list of 1a, 1b, 1c, the information, search, theory, theory, It can be seen that it consists of words such as "latest" and "communication". Among these, words that are determined to be used to describe the information request of the users may be separately recorded in which document the information appeared in the document, and the index structure 20 may be constructed.

검색 대상이 되는 모든 문서에 대해 위와 같은 과정을 적용하여, 문서 집합에서 나타나는 모든 색인어에 대한 출현 문서 정보를 완전하게 추출해내는 전체 과정을 색인 구축이라 한다. By applying the above process to all documents to be searched, the whole process of extracting the appearance document information for all index words appearing in the document set is called index construction.

그리고 이렇게 구축된 색인을 이용하여 사용자 검색이 수행될 수 있다. 이제 색인 구축을 이용한 종래의 키워드 검색 방법을 알아보자. 도 2에서와 같이 웹 사이트 입력창(50)을 통해 “기본적인 검색”이라는 검색 질의어를 입력한다고 가정하자. 마찬가지로 형태소 분석에 의해 유의미한 질의어가 "기본"과 "검색"이라는 색인어라는 사실을 알아내게 되고, "기본" 색인어의 문서 출현 정보와 "검색" 색인어의 문서 출현 정보를 상기 색인구조(20)를 통해 융합하여 공통적으로 나타난 출현 정보를 웹 페이지(100) 화면 상에 최종 결과로 사용자에게 반환한다.The user search may be performed using the index thus constructed. Now, let's look at the conventional keyword search method using index building. Suppose that a search query of “basic search” is input through the web site input window 50 as shown in FIG. 2. Similarly, morphological analysis reveals that meaningful query terms are index terms of "primary" and "search", and document appearance information of "primary" index word and document occurrence information of "search" index word are searched through the index structure 20. The appearance information that is commonly displayed by fusion is returned to the user as a final result on the screen of the web page 100.

색인을 구축할 때, 이와 같은 분해 작업은 모든 문서에 대해서 일괄적으로 적용되기 때문에 많은 시간이 소요되지만, 일단 색인이 한 번 구축된 이후에는 검색 작업은 매우 빠르게 수행될 수 있는 장점이 있다. 일반적으로 색인은 검색 서비스 주기 동안 1회 구축하여, 검색 서비스 주기가 종료할 때까지 계속 재사용하므로, 검색을 이용하는 사용자 입장에서 본다면 색인 없이 순차적으로 탐색하는 방법에 비해 검색 속도가 매우 빠르다. When building an index, this decomposition takes a lot of time because it is applied to all documents in batches, but once the index is built, the search can be performed very quickly. In general, since the index is built once during the search service cycle and reused until the end of the search service cycle, the search speed is much faster than the sequential search without the index from the point of view of the user using the search.

많은 정보들을 인터넷이라는 매개체를 통해 쉽게 접할 수 있게 되었고, 검색 작업의 품질 역시 오랜 연구를 통해 많이 향상되었다. 그런데 이와 같은 종래의 검색기법이 기술 전문가뿐만 아니라 일반 비전문적 사용자들에게까지 향유되면서, 새로운 문제점이 대두되기 시작하였다. 그것은 바로 사용자가 정확히 자신이 원하는 정보를 기술하기 어렵다는 문제점이다.A lot of information can be easily accessed through the medium of the Internet, and the quality of search work has been greatly improved through long research. However, as the conventional search technique is enjoyed not only for technical experts but also for general non-professional users, new problems have begun to emerge. It is a problem that it is difficult for a user to describe exactly the information he wants.

사용자의 정보 요구는 사용자가 검색을 통해 알아내고 싶은 정보를 문장 또는 단어의 형태로 표현하고, 검색은 사용자의 의도를 파악하여 "사용자가 제시하는 질의어를 구성하는 키워드들이 포함된 문서들을 중요한 순서대로 나열할 것"이 된다. 즉 검색 질의어는 위에서 구축한 역색인에서 색인 단어에 해당하고, 그 단어가 포함된 문서 부분 집합을 적절한 순서로 보여주는 일련의 작업이 검색 서비스의 골자를 이룬다. 예를 들어, 사용자가 “세종대왕이 태어난 년도는?”이라는 질의어를 입력한다면, 검색은 그 질의어가 포함되어 있는 문서 중 가장 적합한 순서대로 결과를 제시하는 것이다.The information request of the user expresses the information that the user wants to find out through the search in the form of sentences or words, and the search grasps the intention of the user and the "documents containing the keywords constituting the query presented by the user in order of importance. Will be listed. " In other words, the search query corresponds to the index word in the inverted index constructed above, and a series of operations that show the document subset including the word in the proper order form the core of the search service. For example, if a user enters the query "Year of King Sejong was born?", The search is to present the results in the most appropriate order among the documents containing the query.

통계적으로 사용자의 정보 요구는 1.6개의 검색 질의 단어를 사용해서 표현된다고 알려져 있다. 대부분 1개의 단어를 사용하여 검색을 시도하고, 만일 1개의 단어만으로 정보 요구가 명확히 표현되기 어려운 경우에는 2개 이상의 검색 질의 단어를 조합하여 검색을 시도한다는 의미이다.Statistically, the user's information request is known to be represented using 1.6 search query words. In most cases, one word is used to search, and if only one word is difficult to express an information request, it means that two or more search query words are combined to search.

그런데 이런 과정에 대한 사전 지식도 부족하고 자신이 검색하려는 대상 분야에 대해서도 문외한인 사용자들이 인터넷 검색을 빈번하게 사용하면서, 이런 검색 질의어를 정교하게 선별하는 것이 점점 어려운 작업이 되었다. 사용자가 입력하는 질의어도 정형화되지 못하고, 개개인의 사용자들이 입력하는 질의어가 체계적으로 관리된다고 생각하기도 어렵다.However, as there is a lack of prior knowledge of this process and foreign users frequently use Internet search in the field of their search, it has become increasingly difficult to select these search queries. It is also difficult to think that the query input by the user is not formalized and that the query input by individual users is systematically managed.

이와 유사하게, 자신이 검색하고자 하는 내용을 정확히 나타내줄 수 있는 검색 질의 단어를 찾지 못하는 경우에는, 단어가 완전하고 명료한 형태를 갖추지 못하고 부분 음절만으로 구성되는 경우가 있다. 예를 들어, 정보검색과 관련 있는 도서를 검색하려고 할 때 단순히 "정보검색"이란 단어만을 검색 질의 단어로 사용하는 것이 아니라 "*정보검색*"과 같은 특수 문자를 사용하여 질의 단어를 구성할 수 있다. 이 때, "*" 문자 자리에는 어떤 음절이 0개 이상 대응될 수 있음을 의미한다. 이런 특수 문자를 일반적으로 "와일드카드"라고 부른다. 만일 검색 엔진이 보유하고 있는 색인 단어 중에 "최신정보검색론"이라는 책 제목이 포함되어 있다면 위 표현에 대응되어 해당하는 서적 정보를 사용자에게 출력해주게 된다.Similarly, when a search query word that can accurately represent the content that the user wants to find is not found, the word may not have a complete and clear form and may consist of only partial syllables. For example, if you want to search for books related to IR, you may want to construct a query word using special characters such as "* IR *" rather than simply using the word "IT" as your search query word. have. In this case, it means that a certain syllable may correspond to zero or more characters in place of the "*" character. These special characters are commonly called "wildcards". If a book title of "latest information retrieval theory" is included among the index words possessed by the search engine, the corresponding book information is output to the user corresponding to the above expression.

이와 같이 와일드카드가 삽입된 질의어를 이용한 검색을 통상 "절단 검색"이라고 한다.Such a search using a wildcard-inserted query is commonly referred to as a "cutting search".

절단 검색은 와일드카드의 위치에 따라서 다시 세부적으로 나뉠 수 있는데, "OOO*"와 같이 와일드카드 기호가 질의어의 뒤에 있는 경우를 "후방 절단 검색"이라고 하며, "*OOO"와 같이 와일드카드 기호가 질의어 앞에 있는 경우는 "전방 절단 검색", "OO*OO"와 같이 앞뒤에 질의어 문자가 감싸고 있는 경우를 "중앙 절단 검색"이라고 한다.Truncation search can be further subdivided according to the position of the wildcard. If a wildcard symbol follows the query, such as "OOO *", it is called "rear truncation search" and a wildcard symbol such as "* OOO" In the case of the query term, the case of "front truncation search" and "OO * OO" such that the query character is wrapped before and after is called "central truncation search".

하나의 문자열과 와일드카드를 포함한 문자열을 서로 비교하여 대응하는지 판별하는 문제를 "1대1 패턴 탐색"이라 한다. 이미 종래의 연구를 통해, 단일 문자열이 위와 같이 와일드카드를 포함한 문자열과 서로 대응하는지 판별하는 알고리즘은 많은 연구를 통해 제안되었다.The problem of comparing one string and a string including wildcards with each other and determining whether they correspond is called "one-to-one pattern search". Already through conventional research, algorithms for determining whether a single string corresponds to a string including a wildcard as described above have been proposed through many studies.

그런데, 종래의 검색 서비스는 매우 많은 수의 색인 단어들을 가지고 있으며, 상기한 방법을 이용하여, 순차적으로 와일드카드를 포함하는 질의 단어와 대응하는지 여부를 확인하는 과정은 매우 오랜 시간을 필요로 한다. 그래서 개선된 검색 서비스는 엔진 내부에 특별한 자료 배치 구조를 사용하여 빠른 시간 내에 필요한 색인 단어들을 찾을 수 있게 하며, 이러한 탐색을 "1대 다(多) 패턴 탐색"이라 한다.However, the conventional search service has a very large number of index words, and using the above-described method, a process of checking whether or not it corresponds to a query word including a wildcard sequentially takes a very long time. Thus, an improved search service uses a special data layout structure inside the engine to quickly find the index words needed, and this search is called "one-to-many pattern search".

기존의 나무(tree) 형태나 트라이(trie) 형태는 와일드카드를 포함하지 않는 질의 단어를 탐색하는데 용이한 반면에, 와일드카드를 포함하는 질의 단어를 탐색하기 위해서 추가적인 탐색 비용이 많이 소모되었다. 그래서 접미어 나무(suffix tree)나 양방향 트라이(bidirectional trie)와 같은 새로운 자료 배치 구조가 연구되었다. 그러나 이런 자료 구조들은 추가적인 저장 공간을 필요로 하였고, 또한 복잡한 처리 과정을 거쳐서 사용하기 때문에, 유지보수 및 관리 부담을 가중시키는 문제를 낳았다.While the conventional tree or trie forms are easy to search for query words that do not include wildcards, additional search costs are consumed to search for query words that include wildcards. So new data layout structures, such as suffix trees and bidirectional tries, were studied. However, these data structures require additional storage space and are used through complex processing, which creates a problem of increasing maintenance and management burden.

본 발명의 발명가들은 이러한 문제점을 해결하기 위하여 연구 노력한 끝에 본 발명을 완성하기에 이르렀다.
The inventors of the present invention have completed the present invention after research efforts to solve these problems.

본 발명은 전후방 절단 검색을 위한 와일드카드를 포함하는 질의 단어에 대한 탐색이 용이한 알고리즘에 대한 발명에 관한 것으로, 특히 복잡하고 유지 보수 비용이 높은 자료 구조를 대신하여 간단하고 효과적인 탐색을 수행하는 데 그 목적이 있다.The present invention relates to an easy algorithm to search for query words including wildcards for forward and backward truncation search. The purpose is.

한편, 본 발명의 명시되지 않은 또 다른 목적들은 하기의 상세한 설명 및 그 효과로부터 용이하게 추론할 수 있는 범위 내에서 추가적으로 고려될 것이다.
On the other hand, other unspecified purposes of the present invention will be further considered within the scope of the following detailed description and easily deduced from the effects thereof.

위와 같은 목적을 달성하기 위하여, 본 발명은, 데이터베이스에 대해서 사용자 단말에 의해 와일드카드 검색 질의어가 입력되는 경우 검색엔진이 다음의 소프트웨어 알고리즘에 의한 색인어 여과 과정을 미리 거친 색인파일을 이용하여 상기 와일드카드 검색 질의어에 대응하는 검색결과를 추출하는 것을 특징으로 하는 와일드카드 매칭을 이용한 검색 방법.In order to achieve the above object, in the present invention, when the wildcard search query word is input to the database by the user terminal, the wildcard using the index file that the search engine has undergone the index filtering process by the following software algorithm A search method using wildcard matching, which extracts a search result corresponding to a search query.

(a) 상기 데이터베이스 내에 있는 문서집합에서 색인어 데이터를 추출하는 단계;(a) extracting index word data from a set of documents in the database;

(b) 추출된 색인어 데이터에서 n번째 글자(n은 0보다 큰 정수)가 같은 색인어끼리 범주화하여 범주 집합을 생성하는 단계; 및(b) categorizing index words having the same nth character (n is an integer greater than 0) in the extracted index word data to generate a category set; And

(c) 상기 범주 집합을 범주화된 색인어의 위치정보로 미리 저장하는 단계.(c) pre-storing the set of categories as location information of categorized index words;

또한, 본 발명의 바람직한 일 실시예에 따른 와일드카드 매칭을 이용한 검색 방법에 있어서, 상기 와일드카드 검색 질의어가 후방 절단검색어인 경우에는,In the search method using wildcard matching according to an embodiment of the present invention, when the wildcard search query is a backward truncated search word,

상기 와일드카드 검색 질의어의 첫 글자부터 와일드카드 기호가 나오기 전까지의 음절에 대응하는 범주 집합들의 교집합을 생성하여 검색결과로 출력할 수 있다.An intersection of category sets corresponding to syllables from the first letter of the wildcard search query to the wildcard symbol may be generated and output as a search result.

또한, 본 발명의 바람직한 일 실시예에 따른 와일드카드 매칭을 이용한 검색 방법에 있어서, 상기 와일드카드 검색 질의어가 전방 절단검색어인 경우에는,Further, in the search method using wildcard matching according to an embodiment of the present invention, when the wildcard search query is a forward truncated search word,

상기 와일드카드 검색 질의어의 와일드카드 기호 다음 음절부터 마지막 음절에 대응하는 범주 집합들의 교집합을 색인어의 최대길이까지 모든 후보군에 대해서 생성하고, 이렇게 생성된 각각의 교집합을 다시 합집합하여 검색결과로 출력할 수 있다.The intersection of category sets corresponding to the last syllable after the wildcard symbol of the wildcard search query word may be generated for all candidate groups up to the maximum length of the index word, and the union of the generated intersections may be combined again and output as a search result. have.

또한, 본 발명의 바람직한 일 실시예에 따른 와일드카드 매칭을 이용한 검색 방법에 있어서, 상기 와일드카드 검색 질의어가 중앙 절단검색어인 경우에는,In the search method using wildcard matching according to an embodiment of the present invention, when the wildcard search query is a central truncated search word,

와일드카드 기호를 중심으로, 제 1 검색 질의어와 제 2 검색 질의어로 분할하고,Based on the wildcard symbol, split into a first search query query and a second search query query,

상기 제 1 검색 질의어에 대한 검색 결과는, 제 1 검색 질의어의 첫 글자부터 와일드카드 기호가 나오기 전까지의 음절에 대응하는 범주 집합들의 교집합하여 얻고,The search result for the first search query is obtained by intersecting the set of categories corresponding to the syllables from the first letter of the first search query until the wildcard symbol appears.

상기 제 2 검색 질의어에 대한 검색 결과는, 상기 와일드카드 기호 다음 음절부터 마지막 음절에 대응하는 범주 집합들의 교집합을 색인어의 최대길이까지 모든 후보군에 대해서 생성하고, 이렇게 생성된 각각의 교집합을 다시 합집합하여 얻은 다음에,The search result for the second search query word generates a set of categories of categories corresponding to the last syllable after the wildcard symbol for all candidate groups up to the maximum length of the index word, and combines the generated sets again. After getting

상기 제 1 검색 질의어에 대한 검색 결과와 상기 제 2 검색 질의어에 대한 검색 결과를 교집합한 결과를 상기 중앙 절단 검색어에 대한 최종 검색결과로 출력할 수 있다.The result of the intersection of the search result for the first search query term and the search result for the second search query term may be output as a final search result for the central truncated search term.

또한, 본 발명의 바람직한 일 실시예에 따른 와일드카드 매칭을 이용한 검색 방법에 있어서, 상기 와일드카드 검색 질의어가 양방향 절단검색어인 경우에는, Further, in the search method using wildcard matching according to an embodiment of the present invention, when the wildcard search query is a bidirectional truncated search word,

전방 와일드카드 기호 및 검색 질의어 쌍과 검색 질의어 및 후방 와일드카드 기호 쌍으로 분할하고,Split into a front wildcard symbol and search query pair and a search query and rear wildcard symbol pair,

상기 전방 와일드카드 기호 및 검색 질의어 쌍에 대한 검색 결과는, 상기 전방 와일드카드 기호 다음 음절부터 마지막 음절에 대응하는 범주 집합들의 교집합을 색인어의 최대길이까지 모든 후보군에 대해서 생성하고, 이렇게 생성된 각각의 교집합을 다시 합집합하여 얻고,The search result of the forward wildcard symbol and the search query pair is generated for all candidate groups from the syllables following the front wildcard symbol to the maximum syllable length of the set of categories corresponding to the last syllable. Get the intersection again,

상기 검색 질의어 및 후방 와일드카드 기호 쌍에 대한 검색 결과는, 상기 후방 와일드카드 기호가 나오기 전까지의 음절에 대응하는 범주 집합들의 교집합하여 얻은 다음에,The search results for the search query and backward wildcard symbol pairs are obtained by intersecting sets of categories corresponding to syllables before the trailing wildcard symbol.

상기 전방 와일드카드 기호 및 검색 질의어 쌍에 대한 검색 결과와 상기 검색 질의어 및 후방 와일드카드 기호 쌍에 대한 검색결과를 교집합한 결과를 상기 양방향 절단검색어에 대한 최종 검색결과로 출력할 수 있다.The result of intersection of the search result for the front wildcard symbol and the search query pair and the search result for the search query word and the rear wildcard symbol pair may be output as a final search result for the bidirectional truncated search word.

또한, 본 발명의 다른 국면에서는 상기한 와일드카드 매칭을 이용한 검색 방법 알고리즘을 실행하는 컴퓨터 프로그램이 수록된 컴퓨터 판독가능한 기록매체를 특징으로 한다.
Another aspect of the invention is characterized by a computer-readable recording medium containing a computer program for executing the above search method algorithm using wildcard matching.

위와 같은 과제해결수단을 통해서, 본 발명은, 우선 검색을 시도하려는 사용자가 자신이 가지고 있는 정보 요구를 정확히 파악하지 못한다 해도 불완전한 검색 질의어를 사용할 수 있게 됨으로써 검색의 효용성을 높이는 효과를 거울 수 있다.Through the above-described problem solving means, the present invention, even if the user who tries to search first can not accurately grasp the information request that can have an incomplete search query can be used to mirror the effect of improving the effectiveness of the search.

또한, 본 발명의 검색 방법에 따르면, 여러 종류의 검색 질의어를 짧은 시간에 입력하는 것과 같은 효과를 발휘할 수 있어서, 검색에 소요되는 시간을 절약할 수 있고, 짧은 시간에 많은 자료를 검토할 수 있는 단초를 제공할 수 있다.In addition, according to the search method of the present invention, the same effect as inputting various kinds of search query words in a short time can save the time required for searching, and can review a lot of data in a short time It can provide an edge.

본 발명의 명세서에서 구체적으로 언급되지 않은 효과라 하더라도, 본 발명의 기술적 특징에 의해 기대되는 잠정적인 효과는 본 발명의 명세서에 기재된 것과 같이 취급됨을 첨언한다.
Even if effects not specifically mentioned in the specification of the present invention are incorporated, the provisional effects expected by the technical features of the present invention are treated as described in the specification of the present invention.

도 1 및 도 2는 종래의 검색 방법에 따른 색인 구조를 나타내는 도면이다.
도 3은 본 발명에 따른 검색 전의 색인어 여과 과정을 개념적으로 나타내는 도면이다.
도 4는 본 발명의 일 실시예에 따른 범주화된 색인구조를 나타내는 도면이다.
도 5는 도 4의 색인구조를 이용하여 후방 절단 와일드카드 검색어가 사용된 경우의 검색결과 추출방법을 나타내는 도면이다.
도 6은 도 4의 색인구조를 이용하여 전방 절단 와일드카드 검색어가 사용된 경우의 검색결과 추출방법을 나타내는 도면이다.
도 7은 도 4의 색인구조를 이용하여 중앙 절단 와일드카드 검색어가 사용된 경우의 검색결과 추출방법을 나타내는 도면이다.
※ 첨부된 도면은 본 발명의 기술사상에 대한 이해를 위하여 참조로서 예시된 것임을 밝히며, 그것에 의해 본 발명의 권리범위가 제한되지는 아니한다.
1 and 2 are diagrams illustrating an index structure according to a conventional search method.
3 is a diagram conceptually illustrating an index word filtering process before a search according to the present invention.
4 is a diagram illustrating a categorized index structure according to an embodiment of the present invention.
FIG. 5 is a diagram illustrating a search result extraction method when a backward truncation wildcard search term is used using the index structure of FIG. 4.
FIG. 6 is a diagram illustrating a search result extraction method when a forward truncation wildcard search term is used by using the index structure of FIG. 4.
FIG. 7 is a diagram illustrating a search result extraction method when a central truncated wildcard search term is used using the index structure of FIG. 4.
* The accompanying drawings illustrate examples of the present invention in order to facilitate understanding of the technical idea of the present invention, and thus the scope of the present invention is not limited thereto.

이하, 첨부된 도면을 참조하여 본 발명의 실시를 위한 구체적인 내용을 설명한다. 그리고 본 발명을 설명함에 있어서 관련된 공지기능에 대하여 이 분야의 기술자에게 자명한 사항으로서 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.
Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings. In the following description of the present invention, a detailed description of known functions and configurations incorporated herein will be omitted when it may obscure the subject matter of the present invention.

도 3은 본 발명에 따른 색인어 여과 과정을 거치는 색인 파일 형성 과정을 개념적으로 나타낸다. 이 과정은 소프트웨어 알고리즘에 의해 이루어진다. 컴퓨팅 네트워크에 존재하는 데이터베이스 내에 있는 문서 집합(D)에서 형태소 분석기 및 색인어 추출기에 의해 색인어를 추출하고(S10), 범주화 모듈이 추출된 색인어에서 n번째 글자(n은 0보다 큰 정수, 이하 같다)가 같은 색인어끼리 범주화하는 과정을 수행하며(S20), 각각 범주화된 색인어의 위치정보를 각각 별도로 저장하고(S30), 이런 과정을 거쳐 최종 색인파일(F)을 형성하게 된다. 색인파일(F)로 형성된 색인어는 범주화 과정을 통해 색인어를 여과한 결과이며, 이는 새로운 검색 질의어 기록 구조를 생성하게 된다.
3 conceptually illustrates an index file forming process through an index word filtering process according to the present invention. This process is done by software algorithms. The index word is extracted by the stemmer and the index word extractor from the document set (D) in the database existing in the computing network (S10), and the nth letter from the index word from which the categorization module is extracted (n is an integer greater than 0, is less than or equal to) The same index words are categorized (S20), the location information of each categorized index word is stored separately (S30), and through this process, the final index file (F) is formed. The index word formed into the index file F is the result of filtering the index word through the categorization process, which creates a new search query record structure.

<문서 집합><Document set>

상용화된 검색 엔진들은 일반적으로 가지고 있는 개념적인 색인 단어 보관 형태의 구축 단계를 전제로 하고 있다. Commercially available search engines are premised on the construction phase of the conceptual index word archiving that they have.

검색 대상이 되는 문서 집합(D)은 각각 식별자(검색 결과 연산를 빠르게 하기 위한 문서에 대한 고유한 번호)를 부여 받은 문서로 구성이 되며, 향후 이 식별자를 통해 문서를 구분할 수 있다. 경우에 따라서 여러 개의 문서 집합으로 구성되는 경우도 있으며, 이 때 각 문서 집합도 식별자를 가짐으로써 하나의 문서를 유일하게 구분할 수 있다.
The document set D to be searched is composed of documents each assigned an identifier (a unique number for a document for speeding up a search result operation), and the document can be distinguished through this identifier in the future. In some cases, it may consist of several document sets. At this time, each document set also has an identifier so that only one document can be distinguished.

<색인어의 위치정보><Location information of index>

각 문서는 색인 구축 단계에서 형태소 분석과 키워드 선정이라는 과정을 거쳐, 검색에 사용되는 중요 단어들을 추출해내게 된다. 이 단어들을 선정하는 기준은 자료의 유형과 검색의 목적에 따라 조금씩 상이할 수 있다. Each document goes through the process of stemming and keyword selection at indexing stage, and extracts important words used for search. The criteria for selecting these words may differ slightly depending on the type of material and the purpose of the search.

이렇게 추출된 단어는 색인 구조에 등록된다. 본 발명에서는 단어 자신이 출현한 문서에 대한 식별자와 위치 정보를 꼬리표처럼 연결하여 기록한다. 만일 한 가지 단어가 여러 문서에서 나타났다면, 그 단어의 꼬리표로 여러 문서의 식별자가 연결되어 보관되어 있다. 예를 들어, 도 1을 참조해서 설명하자면, “정보”이라는 단어는 문서 식별자 1, 2, 3번에서 나타난 것을 알 수 있다. 이 과정은 검색 대상 문서 집합 내 모든 문서에 대해 이루어지며 색인이 구축되게 된다. The words thus extracted are registered in the index structure. In the present invention, the identifier and location information of the document in which the word itself appears are connected and recorded like a tag. If a word occurs in multiple documents, the identifier of the document is linked and stored as a tag for that word. For example, referring to FIG. 1, it can be seen that the word “information” appears at document identifiers 1, 2, and 3. This process is performed for all documents in the document set to be searched and indexed.

그러나 본 발명은 종래의 도 2와 같은 트리 형태나 트라이 형태의 색인 구조를 이용하지 않는다. 도 4에 도시된 바와 같은 범주화된 색인어의 위치정보(131)가 문서 색인 단계에서 색인 데이터베이스에 미리 저장된다. 즉, 본 발명에서는 미리 저장된 범주화된 색인어의 위치정보(131)를 갖는 색인 파일이 형성되며, 이 색인 파일을 이용해서 검색엔진이 키워드에 대응하는 검색을 수행하게 된다.
However, the present invention does not use the tree-shaped or tri-shaped index structure as shown in FIG. 2. The location information 131 of the categorized index word as shown in FIG. 4 is stored in advance in the index database in the document indexing step. That is, in the present invention, an index file having position information 131 of categorized index words stored in advance is formed, and a search engine performs a search corresponding to a keyword by using the index file.

<색인어 여과 방법><Index filtration method>

도 4를 통해서 위와 같은 본 발명에 따른 색인어 여과 방법을 설명해 보자. 문서 집합(D)으로부터 추출된 색인어로 색인을 구축할 수 있다. 도 4에 도시된 바와 같이, 본 발명은 색인 내 사용되고 있는 색인어를 범주화 과정을 거친다. 즉, 문서 집합(D)을 형태소 분석기 및 색인어 추출기(100)에 의해 형태소 분석 과정에 의해 분해하여 색인 단어 리스트(120)를 생성한 다음에 범주화 과정을 거치게 된다.Let us explain the index word filtration method according to the present invention as shown above. An index can be built with an index extracted from the document set (D). As shown in Figure 4, the present invention undergoes a categorization process of the index words being used in the index. That is, the document set D is decomposed by the morphological analyzer and the index word extractor 100 by the morphological analysis process to generate the index word list 120, and then subjected to the categorization process.

본 발명에 따른 범주화 방법은, 도 4의 색인어 여과 집합(130)에 나타난 바와 같이, n(n은 0보다 큰 정수)번째 글자가 같은 색인어끼리 범주화한다. 예를 들어, 신발과 신정동은 첫 글자가 같은 "신"자이므로 함께 범주화시킬 수 있고, 문정동과 신정동 역시 두 번째 글자가 같은 "정"자로 같은 범주에 속하게 된다. 전술한 바와 같이, 각 범주마다 고유한 위치정보를 갖게 된다. 이를 정리하면 다음 표 1과 같다. 위치정보를 나타내는 표지는 편의상 도면부호로 표시하였다.
In the categorization method according to the present invention, as shown in the index word filtration set 130 of FIG. 4, the index words of n (n is an integer greater than 0) are categorized. For example, shoes and Sinjeong-dong can be categorized together because the first letter is the same "god". Munjeong-dong and Sinjeong-dong also belong to the same category as the "jeong". As described above, each category has unique location information. This is summarized in Table 1 below. The sign indicating the location information is indicated by a reference numeral for convenience.

위치정보Location information 범주에 속한 색인어Index words belonging to the category 범주규칙Category Rules 131a131a 경보, 정보Alarm, information 두 번째 음절이 "보"인 색인단어Index word with second syllable "Bo" 131b131b 고급정보, 우래정, 최신정보, 통신정책Advanced Information, Woo Rae Jung, Latest Information, Communication Policy 세 번째 음절이 "정"인 색인단어Index word with third syllable "positive" 113c113c 문정동, 신정동Munjeong-dong, Sinjeong-dong 두 번째 음절이 "정"인 색인단어Index word with second syllable "positive" 131d131d 배신, 정신, 최신기술, 최신정보, 최신정치학, 통신정책Betrayal, Spirit, Latest Technology, Latest Information, Latest Politics, Communication Policy 두 번째 음절이 "신"인 색인단어Index word with second syllable "God" 131e131e 시세보Shisebo 세 번째 음절이 "보"인 색인단어Index word with third syllable "bo" 131f131f 신발, 신정동Shoes, Sinjeong-dong 첫 번째 음절이 "신"인 색인단어Index word with first syllable "God" 131g131 g 정보, 정신Intelligence 첫 번째 음절이 "정"인 색인단어Index word with first syllable "positive" 131h131h 고급정보, 조선일보, 최신정보Advanced Information, Chosun Daily, Latest Information 네 번째 음절이 "보"인 색인단어Index word with fourth syllable "Bo" 131i131i 최근, 최신기술, 최신정보, 최신정치학Recent, Latest Technology, Latest Information, Latest Politics 첫 번째 음절이 "최"인 색인단어Index word with first syllable "Last"

이와 같이 범주화 과정을 수행하게 되면, 1개의 단어가 여러 개의 위치정보를 가질 수도 있다.
When the categorization process is performed as described above, one word may have multiple location information.

<와일드카드 검색어가 사용된 경우의 검색결과 추출방법><How to extract search results when wildcard search terms are used>

이제, 본 발명에 따라 위와 같이 범주화된 색인어 여과 집합(130)을 통해서 절단 검색들을 수행하는 방법을 알아보자. 와일드카드가 포함된 검색어에 대한 검색결과 추출방법이다. Now, let's look at a method for performing truncation searches through the categorized index filter set 130 as described above. Extraction of search results for wildcards.

먼저, 후방 절단의 경우에는 검색 질의어의 첫 글자부터 와일드카드 기호가 나오기 전까지의 음절에 대응되는 범주 집합들의 교집합이 탐색 결과가 된다. First, in the case of backward truncation, the search result is the intersection of the set of categories corresponding to the syllables from the first letter of the search query to the wildcard symbol.

예컨대, 검색 질의어가 "최신*" 인 실시예에서는, 질의어 분석을 통해 첫 글자가 "최"인 범주와 둘째 글자가 "O신"인 범주에 속한 색인어 여과 집합을 비교하며, 그 교집합에 해당하는 색인어 원소를 탐색 결과로 출력한다. 다음과 같은 범주 후보를 생성해낸다.For example, in an embodiment where the search query is "latest *", query analysis compares the index filter set belonging to the category with the first letter "latest" and the category with the second letter "O shin" and corresponding to the intersection. Output index word elements as search results. Generates the following category candidates:

후보 1) 최, O신Candidate 1) Choi, O Shin

도 5에 도시된 바와 같이, 상기한 범주 후보 내 색인어 집합은 각각, As shown in FIG. 5, the set of index words in the above category candidates are respectively:

후보 "최" = {최근, 최신기술, 최신정보, 최신정치학}, Candidate "latest" = {latest, latest technology, latest information, latest political science},

후보 "O신" = {배신, 정신, 최신기술, 최신정보, 최신정치학, 통신정책}가 된다. Candidate "O God" = {Betrayal, Spirit, Latest Technology, Latest Information, Latest Politics, Communication Policy}.

이제 각 범주에 속한 색인어들의 교집합을 구하게 되고, 그 검색 결과는 "최신기술", "최신정보", "최신정치학"이 되며, 이 결과가 "최신*" 후방 절단 검색의 결과가 된다.
The intersection of index terms in each category is now obtained, and the search results are "latest technology", "latest information", "latest politics", and the result is "latest *" backward truncation search.

다음으로 전방 절단 검색의 경우를 살펴보자. 와일드카드에 매칭되는 길이를 미리 예측할 수 없기 때문에 대응될 수 있는 가능성을 모두 타진해보아야 한다. 즉 와일드카드 기호 다음 음절부터 마지막 음절에 대응하는 범주 집합들의 교집합을, 색인어의 최대 길이까지 모든 후보군에 대해서 생성하고, 이렇게 생성된 모든 후보군에 대한 교집합들을 다시 합집합하여 최종 색인어를 생성하게 된다. 그래서, 범주 후보들을 이 색인이 가지고 있는 가장 짧은 형태부터 가장 긴 형태까지 생성해내게 된다.Next, let's look at the case of forward truncation search. Since we can't predict the length of a wildcard match, we have to figure out all the possible matches. That is, the intersection of the set of categories corresponding to the last syllable after the wildcard symbol is generated for all candidate groups up to the maximum length of the index word, and the final index word is generated by re-joining the intersection sets of all the candidate groups thus generated. Thus, category candidates are generated from the shortest to the longest form of this index.

도 6에서와 같이 실시예에 있어서, 검색 질의어가 "*정보" 인 경우, 문자열 뒤에서 두 번째 글자는 "정"이고 마지막 글자는 "보"라는 정보를 알 수 있으므로 아래와 같이 범주 후보들을 생성해낸다.In the embodiment as shown in Figure 6, when the search query is "* information", since the second letter after the string is "jeong" and the last letter is "bo" information can be known as the category candidates are generated as follows.

후보 1) 정, O보Candidate 1) Chung, O

후보 2) O정, OO보Candidate 2) O-cho, OO report

후보 3) OO정, OOO보Candidate 3) OO Chung, OOO Bo

도 6의 실시예에서는 가장 긴 후보군이 "OO정, OOO보"이므로 후보 3까지 생성할 수 있다. 이제 각 후보 범주에 속한 색인어 여과 집합을 비교하며, 그 교집합에 해당하는 색인어 집합을 색인어 후보군으로 생성한다. 본 실시예에서 각 결과는 아래와 같이 연산된다. In the example of FIG. 6, since the longest candidate group is "OO tablets, OOO beams", up to candidate 3 may be generated. Now, we compare the index word filtering sets belonging to each candidate category, and generate the index word candidate group corresponding to the intersection. In this embodiment, each result is calculated as follows.

후보군 1) "정" ∩ "O보" = {정보}Candidate 1) "Jeong" ∩ "Obo" = {Informational}

후보군 2)"O정" ∩ "OO보" = { }Candidate 2) "O-jeong" ∩ "OO-Bo" = {}

후보군 3) "OO정" ∩ "OOO보" = {고급정보, 최신정보}Candidates 3) "OO-cho" ∩ "OOO-Bo" = {Advanced Information, Latest Information}

이제 각 색인어 후보군의 합집합을 구하면, 전방 절단 탐색에 대한 결과가 된다. 본 실시예에서는 {정보, 고급정보, 최신정보}가 주어진 전방 절단 검색 질의어 "*정보"에 대한 결과가 된다.
Now, when the union of each index word candidate group is found, the result is a forward truncation search. In the present embodiment, {information, advanced information, latest information} is the result for the given forward truncation search query "* information".

다음으로 중앙 절단 검색 질의어에 관련한 실시예에 있어서는, 예컨대 "OO*XX"와 같은 형태를 띄게 되는데, 와일드카드를 중심으로 "OO*"와 "*XX"의 두 검색 질의어, 즉 제 1 검색 질의어와 제 2 검색 질의어로 분할하여, 상기한 바와 같은 방법의 제 1 검색 질의어에 대해서는 후방 절단 검색하는 방법과 같은 프로세스를 수행하고, 제 2 검색 질의어에 대해서는 상기한 전방 절단 검색을 각각 적용한 결과들을 교집합하여 얻은 결과가 이 중앙 절단 검색의 결과가 된다.Next, in the embodiment related to the central truncated search query, for example, it may have a form such as "OO * XX", and two search queries, "OO *" and "* XX", that is, a first search query centered on wildcards. And performing the same process as the method of backward truncation searching for the first search query in the above-described method, and intersecting the results of applying the forward truncation search for the second search query. The result obtained is the result of this central truncation search.

만일 "최신*정보"를 위 실시예에 대해서 중앙 절단 검색을 시도한다면 "최신*"이라는 후방 절단 검색과 "*정보"라는 전방 절단 검색을 각각 시도하여 얻은 결과를 교집합한 결과가 최종 중앙 절단 검색 결과가 되며, 도 7에서 보는 바와 같이, "최신정보"라는 결과를 얻을 수 있다.
If you attempt to perform a central truncation search for the "latest * information" for the above example, the result of intersecting the results obtained by each of the "latest truncation" search of "latest *" and the forward truncation search of "* information" is the final center truncation search. As a result, as shown in FIG. 7, a result of "latest information" can be obtained.

또한, 양방향 절단 검색 질의어에 관한 실시예는 상기 중앙 절단 검색 질의어와 같은 규칙에 의해 수행될 수 있다. 예컨대 "*정보*"의 경우에, "*정보"에 대해서는 전방 절단 검색을 수행하고, "정보*"에 대해서는 후방 절단 검색을 수행하여, 이들의 교집합한 결과를 최종 검색 결과로 출력할 수 있다.Also, an embodiment of a bidirectional truncated search query may be performed by the same rules as the central truncated search query. For example, in the case of "* information *", a forward truncation search may be performed for "* information", and a back truncation search may be performed for "information *", and the result of intersection of these may be output as a final search result. .

즉, 전방 와일드카드 기호 및 검색 질의어 쌍인 "*정보"에 대해서는 전방 절단 검색을 하게 되는데, 전방 와일드카드 기호 및 검색 질의어 쌍에 대한 검색 결과는, 전방 와일드카드 기호 다음 음절부터 마지막 음절에 대응하는 범주 집합들의 교집합을 색인어의 최대길이까지 모든 후보군에 대해서 생성하고, 이렇게 생성된 각각의 교집합을 다시 합집합하여 얻는다. 또한, 검색 질의어 및 후방 와일드카드 기호 쌍인 "정보*"에 대한 검색 결과는, 후방 와일드카드 기호가 나오기 전까지의 음절에 대응하는 범주 집합들의 교집합하여 얻게 된다. 그리고 각각에서 얻은 검색결과를 다시 교집합하여 최종 검색결과로 출력할 수 있다.
In other words, a forward truncation search is performed for the forward wildcard symbol and the search query pair "* information". The search result for the forward wildcard symbol and the search query pair is a category corresponding to the last syllable from the syllable after the forward wildcard symbol. An intersection of sets is generated for all candidate groups up to the maximum length of the index word, and each intersection is generated again by combining. In addition, the search result for the search query and the "wildcard" information pair "information *" is obtained by the intersection of the category sets corresponding to the syllables before the trailing wildcard symbol. Then, the search results obtained from each can be alternated again and output as the final search result.

본 발명에서는 와일드카드 기호를 "*"에 대해서 주로 설명하였다. 그러나 "?"기호(어떤 음절이 1개만 대응)와 같은 와일드카드 기호로 본 발명을 확장할 수 있다. 와일드카드 기호 "?"를 사용한 와일드카드 질의어가 "정?보"인 경우에는 "정OO" 후보군과 "OO보" 후보군을 교집합하여 절단검색을 수행할 수 있다.In the present invention, the wildcard symbol is mainly described with respect to "*". However, the present invention can be extended to wildcard symbols such as the "?" Symbol (any syllable corresponds only to one). When the wildcard query word using the wildcard symbol "?" Is "information", the truncation search may be performed by intersecting the "OO" candidate group and the "OO bo" candidate group.

한편, 본 발명의 보호범위가 이상에서 명시적으로 설명한 실시예에 의해 제한되는 것은 아니다. 또한, 본 발명이 속하는 기술분야에서 자명한 변경이나 치환으로 말미암아 본 발명의 보호범위가 제한될 수도 없음을 첨언한다.
On the other hand, the scope of protection of the present invention is not limited by the embodiments explicitly described above. Further, it should be noted that the protection scope of the present invention may not be limited due to obvious changes or substitutions in the technical field to which the present invention belongs.

Claims (6)

데이터베이스에 대해서 사용자 단말에 의해 와일드카드 검색 질의어가 입력되는 경우 검색엔진이 다음의 소프트웨어 알고리즘에 의한 색인어 여과 과정을 미리 거친 색인파일을 이용하여 상기 와일드카드 검색 질의어에 대응하는 검색결과를 추출하는 것을 특징으로 하는 와일드카드 매칭을 이용한 검색 방법.
(a) 상기 데이터베이스 내에 있는 문서집합에서 색인어 데이터를 추출하는 단계;
(b) 추출된 색인어 데이터에서 n번째 글자(n은 0보다 큰 정수)가 같은 색인어끼리 범주화하여 범주 집합을 생성하는 단계; 및
(c) 상기 범주 집합에 속하는 색인어들의 위치정보를 범주마다 고유하게 부여하고, 이러한 색인어들의 고유 위치정보를 색인어 데이터베이스에 저장함으로써 색인파일을 만드는 단계.
When a wildcard search query is input to a database by a user terminal, a search engine extracts a search result corresponding to the wildcard search query by using an index file that has undergone the index filtering process by the following software algorithm. Search method using wildcard matching.
(a) extracting index word data from a set of documents in the database;
(b) categorizing index words having the same nth character (n is an integer greater than 0) in the extracted index word data to generate a category set; And
(c) creating an index file by uniquely assigning location information of index words belonging to the category set to each category and storing the unique location information of the index words in an index word database.
제1항에 있어서,
상기 와일드카드 검색 질의어가 후방 절단검색어인 경우에,
상기 와일드카드 검색 질의어의 첫 글자부터 와일드카드 기호가 나오기 전까지의 음절에 대응하는 범주 집합들의 교집합을 생성하여 검색결과로 출력하는 것을 특징으로 하는 와일드카드 매칭을 이용한 검색 방법.
The method of claim 1,
If the wildcard search query is a backward truncated query,
And generating an intersection result of a set of categories corresponding to a syllable from a first letter of the wildcard search query to a wildcard symbol and outputting the result as a search result.
제1항에 있어서,
상기 와일드카드 검색 질의어가 전방 절단검색어인 경우에,
상기 와일드카드 검색 질의어의 와일드카드 기호 다음 음절부터 마지막 음절에 대응하는 범주 집합들의 교집합을 색인어의 최대길이까지 모든 후보군에 대해서 생성하고, 이렇게 생성된 각각의 교집합을 다시 합집합하여 검색결과로 출력하는 것을 특징으로 하는 와일드카드 매칭을 이용한 검색 방법.
The method of claim 1,
If the wildcard search query is a forward truncated search term,
Generating a set of category sets corresponding to the last syllable from the next syllable and the last syllable of the wildcard search query for all candidate groups up to the maximum length of the index word, and combining each generated set again and outputting the result as a search result. A search method using wildcard matching.
제1항에 있어서,
상기 와일드카드 검색 질의어가 중앙 절단검색어인 경우에,
와일드카드 기호를 중심으로, 제 1 검색 질의어와 제 2 검색 질의어로 분할하고,
상기 제 1 검색 질의어에 대한 검색 결과는, 제 1 검색 질의어의 첫 글자부터 와일드카드 기호가 나오기 전까지의 음절에 대응하는 범주 집합들의 교집합하여 얻고,
상기 제 2 검색 질의어에 대한 검색 결과는, 상기 와일드카드 기호 다음 음절부터 마지막 음절에 대응하는 범주 집합들의 교집합을 색인어의 최대길이까지 모든 후보군에 대해서 생성하고, 이렇게 생성된 각각의 교집합을 다시 합집합하여 얻은 다음에,
상기 제 1 검색 질의어에 대한 검색 결과와 상기 제 2 검색 질의어에 대한 검색 결과를 교집합한 결과를 상기 중앙 절단 검색어에 대한 최종 검색결과로 출력하는 것을 특징으로 하는 와일드카드 매칭을 이용한 검색 방법.
The method of claim 1,
If the wildcard search query is a central truncation query,
Based on the wildcard symbol, split into a first search query query and a second search query query,
The search result for the first search query is obtained by intersecting the set of categories corresponding to the syllables from the first letter of the first search query until the wildcard symbol appears.
The search result for the second search query word generates a set of categories of categories corresponding to the last syllable after the wildcard symbol for all candidate groups up to the maximum length of the index word, and combines the generated sets again. After getting
And a result of intersecting the search result of the first search query term and the search result of the second search query term as a final search result for the central truncated search term.
제1항에 있어서,
상기 와일드카드 검색 질의어가 양방향 절단검색어인 경우에,
전방 와일드카드 기호 및 검색 질의어 쌍과 검색 질의어 및 후방 와일드카드 기호 쌍으로 분할하고,
상기 전방 와일드카드 기호 및 검색 질의어 쌍에 대한 검색 결과는, 상기 전방 와일드카드 기호 다음 음절부터 마지막 음절에 대응하는 범주 집합들의 교집합을 색인어의 최대길이까지 모든 후보군에 대해서 생성하고, 이렇게 생성된 각각의 교집합을 다시 합집합하여 얻고,
상기 검색 질의어 및 후방 와일드카드 기호 쌍에 대한 검색 결과는, 상기 후방 와일드카드 기호가 나오기 전까지의 음절에 대응하는 범주 집합들의 교집합하여 얻은 다음에,
상기 전방 와일드카드 기호 및 검색 질의어 쌍에 대한 검색 결과와 상기 검색 질의어 및 후방 와일드카드 기호 쌍에 대한 검색결과를 교집합한 결과를 상기 양방향 절단검색어에 대한 최종 검색결과로 출력하는 것을 특징으로 하는 와일드카드 매칭을 이용한 검색 방법.
The method of claim 1,
If the wildcard search query is a bidirectional truncated query,
Split into a front wildcard symbol and search query pair and a search query and rear wildcard symbol pair,
The search result of the forward wildcard symbol and the search query pair is generated for all candidate groups from the syllables following the front wildcard symbol to the maximum syllable length of the set of categories corresponding to the last syllable. Get the intersection again,
The search results for the search query and backward wildcard symbol pairs are obtained by intersecting sets of categories corresponding to syllables before the trailing wildcard symbol.
Wildcard, characterized in that the result of intersecting the search result for the front wildcard symbol and the search query pair and the search result for the search query word and the rear wildcard symbol pair is output as the final search result for the bidirectional truncated search word. Search method using matching.
제1항 내지 제5항 중 어느 한 항의 와일드카드 매칭을 이용한 검색 방법 알고리즘을 실행하는 컴퓨터 프로그램이 수록된 컴퓨터 판독가능한 기록매체.
A computer-readable recording medium containing a computer program for executing a search method algorithm using wildcard matching according to any one of claims 1 to 5.
KR1020110101097A 2011-10-05 2011-10-05 Search method using wildcard matching KR101331946B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020110101097A KR101331946B1 (en) 2011-10-05 2011-10-05 Search method using wildcard matching

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110101097A KR101331946B1 (en) 2011-10-05 2011-10-05 Search method using wildcard matching

Publications (2)

Publication Number Publication Date
KR20130036886A KR20130036886A (en) 2013-04-15
KR101331946B1 true KR101331946B1 (en) 2013-11-21

Family

ID=48438047

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110101097A KR101331946B1 (en) 2011-10-05 2011-10-05 Search method using wildcard matching

Country Status (1)

Country Link
KR (1) KR101331946B1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102466055B1 (en) * 2020-11-26 2022-11-11 (주)에스에이치 알엔디 Relationship-based address book management method

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06124304A (en) * 1991-02-05 1994-05-06 Agency Of Ind Science & Technol Retrieving method using overlap code for extended item
KR20010031743A (en) * 1997-11-03 2001-04-16 추후제출 Information retrieval from hierarchical compound documents
JP2005215716A (en) 2004-01-27 2005-08-11 Hitachi Ltd Method for retrieving text
KR20060095565A (en) * 2003-10-21 2006-08-31 가부시키가이샤 아이.피.비. Document characteristic analysis device for document to be surveyed

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06124304A (en) * 1991-02-05 1994-05-06 Agency Of Ind Science & Technol Retrieving method using overlap code for extended item
KR20010031743A (en) * 1997-11-03 2001-04-16 추후제출 Information retrieval from hierarchical compound documents
KR20060095565A (en) * 2003-10-21 2006-08-31 가부시키가이샤 아이.피.비. Document characteristic analysis device for document to be surveyed
JP2005215716A (en) 2004-01-27 2005-08-11 Hitachi Ltd Method for retrieving text

Also Published As

Publication number Publication date
KR20130036886A (en) 2013-04-15

Similar Documents

Publication Publication Date Title
CN106649260B (en) Product characteristic structure tree construction method based on comment text mining
AU2009234120B2 (en) Search results ranking using editing distance and document information
CN104281702B (en) Data retrieval method and device based on electric power critical word participle
CN105447080B (en) A kind of inquiry complementing method in community&#39;s question and answer search
US20100023509A1 (en) Protecting information in search queries
US9665561B2 (en) System and method for performing analysis on information, such as social media
CN104572978B (en) Electric power scheduling automatization system user behavior statistical method based on daily record
CN106227788A (en) Database query method based on Lucene
Lu et al. A dataset search engine for the research document corpus
CN115757689A (en) Information query system, method and equipment
KR20110133909A (en) Semantic dictionary manager, semantic text editor, semantic term annotator, semantic search engine and semantic information system builder based on the method defining semantic term instantly to identify the exact meanings of each word
CN107870935A (en) A kind of searching method and device
KR101331946B1 (en) Search method using wildcard matching
Cortez et al. A flexible approach for extracting metadata from bibliographic citations
KR102025813B1 (en) Device and method for chronological big data curation system
Marx et al. Large-scale RDF dataset slicing
CN114706962A (en) Information retrieval method and device and knowledge graph construction method and device
JP5944867B2 (en) Search intention dictionary creation device, search intention dictionary creation method, and search intention dictionary creation program
Baziz et al. Evaluating a conceptual indexing method by utilizing wordnet
KR100964207B1 (en) Method and apparatus for indexing and retrieving documents based on hashing
KR20100086860A (en) Method for deriving thesaurus database from statistics
CN107885798A (en) A kind of Chinese full text search method based on database
Chen Building a web‐snippet clustering system based on a mixed clustering method
Ascione et al. Presenting Terrorizer: an algorithm for consolidating company names in patent assignees
Sterzi et al. Presenting Terrorizer: an algorithm for consolidating company names in patent assignees

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20181115

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20191114

Year of fee payment: 7