KR101275391B1 - Data indexing method and system for serch servise supporting unicode - Google Patents

Data indexing method and system for serch servise supporting unicode Download PDF

Info

Publication number
KR101275391B1
KR101275391B1 KR1020120036060A KR20120036060A KR101275391B1 KR 101275391 B1 KR101275391 B1 KR 101275391B1 KR 1020120036060 A KR1020120036060 A KR 1020120036060A KR 20120036060 A KR20120036060 A KR 20120036060A KR 101275391 B1 KR101275391 B1 KR 101275391B1
Authority
KR
South Korea
Prior art keywords
data
code
hangul
query
conversion
Prior art date
Application number
KR1020120036060A
Other languages
Korean (ko)
Inventor
이승준
김태일
Original Assignee
엔에이치엔(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엔에이치엔(주) filed Critical 엔에이치엔(주)
Priority to KR1020120036060A priority Critical patent/KR101275391B1/en
Application granted granted Critical
Publication of KR101275391B1 publication Critical patent/KR101275391B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding

Abstract

PURPOSE: A data indexing method for a search service supporting a unicode and a system thereof are provided to reduce the size of a storage space requiring data indexing by converting Korean data into a code for reducing the size of the data. CONSTITUTION: A data converting unit(612) inserts a division code for dividing Korean data into a starting part and an end part of the Korean data and converts the data into a conversion code for reducing the size of the Korean data. An indexing unit(614) indexes the converted Korean data. The division code is a Korean code maintaining a shape during the conversion of the division code. The division code codes the Korean data to reduce the size of the Korean data. [Reference numerals] (610) Indexing system; (612) Data converting unit; (614) Indexing unit; (620) Index database; (630) Search system; (632) Query input unit; (634) Query converting unit; (636) Search unit

Description

유니코드를 지원하는 검색 서비스를 위한 데이터 색인 방법 및 시스템{DATA INDEXING METHOD AND SYSTEM FOR SERCH SERVISE SUPPORTING UNICODE}DATA INDEXING METHOD AND SYSTEM FOR SERCH SERVISE SUPPORTING UNICODE}

본 발명의 실시예들은 유니코드를 지원하는 검색 서비스를 제공하기 위하여 데이터를 색인하고 탐색하는 방법 및 시스템에 관한 것이다.Embodiments of the present invention relate to a method and system for indexing and searching data to provide a search service that supports Unicode.

최근 초고속 인터넷의 보급과 초고속 인터넷 이용자의 급격한 증가로 인해 신규 서비스의 개발 및 서비스 아이템의 다양화가 진행되고 있다. 이러한 인터넷을 이용한 서비스 중 가장 대표적인 서비스로 검색 서비스가 있다.Recently, due to the spread of high speed internet and the rapid increase of high speed internet users, development of new services and diversification of service items are in progress. Among the services using the Internet, a representative service is a search service.

검색 서비스란 사용자로부터 질의어가 입력되면 입력된 질의어에 해당하는 검색 결과(예를 들어, 입력된 질의어를 포함하는 웹 사이트, 입력된 질의어를 포함하는 기사, 입력된 질의어를 포함하는 파일명을 갖는 이미지 등)를 사용자에게 제공하는 서비스를 말한다.The search service means that when a query is input from a user, a search result corresponding to the input query (for example, a web site including the input query, an article including the input query, an image having a file name including the input query) ) Is a service that provides the user.

이러한 검색 서비스를 제공하는 검색 시스템은 사용자의 편의를 위하여 자동완성 질의어를 제공할 수 있다. 자동완성 질의어란 사용자가 질의어를 구성하는 일부 자소 또는 음절을 입력할 때 입력된 자소 또는 음절을 포함하는 질의어를 자동으로 완성하여 완성된 형태의 질의어들을 사용자에게 추천하는 것이다.A search system providing such a search service may provide an autocomplete query for the user's convenience. When the user inputs some phonemes or syllables constituting the query, the autocomplete query word automatically completes a query including the input phonemes or syllables and recommends the completed query to the user.

한편, 검색 시스템은 사용자에게 검색 결과, 자동완성 질의어 등을 제공하기 위하여 데이터베이스에 다양한 데이터를 색인하여 저장한다. 이때, 검색 시스템은 사용자의 편의를 극대화하기 위하여 사용자가 한글의 초성만을 질의어로서 입력하는 경우에도 이에 해당하는 검색 결과 또는 자동완성 질의어를 제공할 수 있도록 한글을 자소 단위로 분리하여 색인할 필요성이 있는데, 한글의 경우 각각의 자소 마다 3 바이트의 저장 공간이 필요하다. 따라서, 한글을 자소 단위로 분리하여 색인하는 것은 일반적인 색인 방식으로 색인하는 것보다 많은 저장 공간이 요구된다.Meanwhile, the search system indexes and stores various data in a database in order to provide a search result, an autocomplete query, etc. to a user. In this case, in order to maximize the convenience of the user, even if the user inputs only the first consonant of the Hangul as a query, the search system needs to separate and index the Hangul in alphabetical units so that a search result or an autocomplete query can be provided. In the case of Korean, 3 bytes of storage space are required for each phoneme. Therefore, indexing the Korean alphabet by phoneme requires more storage space than indexing using a general indexing method.

그러나, 이 경우 한글 데이터의 사이즈를 감소시키기 위한 변환 코드를 사용하여 한글 자소를 보다 적은 바이트로 변형한 후 변형된 한글 자소를 색인하면, 한글을 자소 단위로 색인하면서도 데이터 색인에 필요한 저장 공간을 감소시킬 수 있다.However, in this case, if the Hangul phoneme is transformed into fewer bytes using the conversion code to reduce the size of the Hangul data and then the transformed Hangul phoneme is indexed, the Hangul is indexed in the phoneme unit and the storage space required for data indexing is reduced. You can.

한편, 검색 시스템은 한글 이외에 한자, 일본어 등과 같은 각국의 언어에 대한 검색 서비스를 제공하기 위하여 유니코드(Unicode)를 지원한다. 그러나, 이와 같은 유니코드를 지원하는 환경에 상기 한글 데이터의 사이즈를 감소시키기 위한 변환 코드를 적용하면 한글 조합이 한자와 같은 글자로 변형되어 정상적인 검색 서비스를 제공하기 어렵다는 문제가 발생하게 된다.Meanwhile, the search system supports Unicode in order to provide a search service for languages of each country such as Chinese, Japanese, etc. in addition to Korean. However, if a conversion code for reducing the size of the Hangul data is applied to an environment that supports Unicode, the Hangul combination is transformed into a character such as Hanja, which makes it difficult to provide a normal search service.

다양한 언어를 제공하는 유니코드를 지원하는 환경에서 데이터 색인에 필요한 저장 공간의 사이즈를 줄일 수 있으며 정상적인 검색 서비스를 제공할 수 있는 유니코드를 지원하는 검색 서비스를 위한 데이터 색인 방법 및 장치가 제공된다.Provided are a data indexing method and apparatus for a search service that supports Unicode, which can reduce the size of storage space required for data indexing in an environment supporting Unicode that provides various languages, and can provide a normal search service.

유니코드를 지원하는 환경에서 데이터를 색인하는 방법은 한글 데이터의 시작 부분과 끝 부분에 상기 한글 데이터가 한글임을 구분하기 위한 구분 코드를 삽입하고 상기 구분 코드가 삽입된 한글 데이터의 사이즈를 감소시키기 위한 변환 코드로 변환하는 단계 및 상기 변환된 한글 데이터를 색인하는 단계를 포함할 수 있다.The method of indexing data in an environment supporting Unicode includes inserting a division code for distinguishing that the Hangul data is Hangul at the beginning and end of the Hangul data and reducing the size of the Hangul data in which the division code is inserted. Converting to a conversion code and indexing the converted Korean data.

일측에 따르면, 상기 구분 코드는 상기 변환 코드로의 변환시 형태가 고정적으로 유지되는 것일 수 있다.According to one side, the classification code may be to maintain a fixed form upon conversion to the conversion code.

다른 측면에 따르면, 상기 구분 코드는 한글 코드일 수 있다.According to another aspect, the identification code may be a Hangul code.

또 다른 측면에 따르면, 상기 변환 코드는 자소 단위로 상기 한글 데이터를 코드화함으로써 상기 한글 데이터의 사이즈를 감소시키는 코드일 수 있다.According to another aspect, the conversion code may be a code for reducing the size of the Hangul data by encoding the Hangul data in a phoneme unit.

유니코드를 지원하는 환경에서 데이터를 탐색하는 방법은 질의어를 입력받는 단계, 상기 질의어가 한글 질의어인 경우 상기 질의어의 시작 부분과 끝 부분에 상기 질의어가 한글임을 구분하기 위한 구분 코드를 삽입하고 상기 구분 코드가 삽입된 질의어를 한글 데이터의 사이즈를 감소시키기 위한 변환 코드로 변환하는 단계 및 상기 변환된 질의어에 해당하는 데이터를 탐색하는 단계를 포함할 수 있다.The method of searching for data in an environment supporting Unicode includes receiving a query, and inserting a division code for distinguishing that the query is Korean from the beginning and end of the query when the query is a Korean query. The method may include converting the query word into which the code is inserted into a conversion code for reducing the size of Korean data and searching for data corresponding to the converted query word.

유니코드를 지원하는 환경에서 데이터를 색인하는 시스템은 한글 데이터의 시작 부분과 끝 부분에 상기 한글 데이터가 한글임을 구분하기 위한 구분 코드를 삽입하고 상기 구분 코드가 삽입된 한글 데이터의 사이즈를 감소시키기 위한 변환 코드로 변환하는 데이터 변환부 및 상기 변환된 한글 데이터를 색인하는 색인부를 포함할 수 있다.The system for indexing data in an environment supporting Unicode inserts a division code for distinguishing that the Hangul data is Hangul at the beginning and the end of the Hangul data and reduces the size of the Hangul data into which the division code is inserted. It may include a data conversion unit for converting the conversion code and the index unit for indexing the converted Hangul data.

유니코드를 지원하는 환경에서 한글 데이터를 탐색하는 시스템은 질의어를 입력받는 질의어 입력부, 상기 질의어가 한글 질의어인 경우 상기 질의어의 시작 부분과 끝 부분에 상기 질의어가 한글임을 구분하기 위한 구분코드를 삽입하고 상기 구분 코드가 삽입된 질의어를 한글 데이터의 사이즈를 감소시키기 위한 변환 코드로 변환하는 질의어 변환부 및 상기 변환된 질의어에 해당하는 데이터를 탐색하는 탐색부를 포함할 수 있다.The system for searching Korean data in an environment supporting Unicode inserts a query input unit for receiving a query, and if the query is a Korean query, inserts a division code for distinguishing that the query is Korean at the beginning and end of the query. It may include a query word converter for converting the query word inserted with the classification code into a conversion code for reducing the size of the Hangul data and a searcher for searching data corresponding to the converted query word.

다양한 언어를 제공하는 유니코드를 지원하는 환경에서 한글 데이터를 색인 시 한글 데이터의 시작 부분과 끝 부분에 데이터가 한글임을 구분하기 위한 코드를 삽입하고 상기 한글 데이터를 한글 데이터의 사이즈를 감소시키기 위한 코드로 변환함으로써 충돌을 방지하여 데이터 색인에 필요한 저장 공간의 사이즈를 줄일 수 있으며 정상적인 검색 서비스를 제공할 수 있다.When indexing Hangul data in an environment supporting Unicode that provides various languages, insert a code for distinguishing that the data is Hangul at the beginning and end of the Hangul data and reduce the size of the Hangul data. By reducing the size of the storage space required for data indexing by avoiding collisions, a normal search service can be provided.

도 1은 본 발명의 일실시예에 있어서, 유니코드를 지원하는 환경에서 데이터를 색인하는 방법을 나타내는 흐름도이다.
도 2는 본 발명의 일실시예에 있어서, 유니코드를 지원하는 환경에서 데이터를 탐색하는 방법을 나타내는 흐름도이다.
도 3 내지 도 5는 기존의 색인 방법에 따른 검색 결과와 본 발명에 따른 색인 방법에 따른 검색 결과의 차이를 설명하기 위한 예시도이다.
도 6은 본 발명의 일실시예에 있어서, 데이터 색인 시스템과 데이터 탐색 시스템을 나타내는 블록도이다.
도 7은 본 발명의 일실시예에 있어서, 데이터를 색인하는 과정과 탐색하는 과정을 설명하기 위한 도면이다.
1 is a flowchart illustrating a method of indexing data in an environment supporting Unicode according to an embodiment of the present invention.
2 is a flowchart illustrating a method for searching data in an environment supporting Unicode according to an embodiment of the present invention.
3 to 5 are exemplary diagrams for explaining a difference between a search result according to an existing index method and a search result according to an index method according to the present invention.
6 is a block diagram illustrating a data indexing system and a data searching system according to an embodiment of the present invention.
7 is a diagram for explaining a process of indexing and searching data according to an embodiment of the present invention.

이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 일실시예에 있어서, 유니코드를 지원하는 환경에서 데이터를 색인하는 방법을 나타내는 흐름도이다.1 is a flowchart illustrating a method of indexing data in an environment supporting Unicode according to an embodiment of the present invention.

도면을 참조하면, 본 발명에 따른 데이터 색인 시스템은 유니코드를 지원하는 환경에서 검색 서비스를 위한 데이터를 색인한다. 이를 위하여 데이터 색인 시스템은 먼저 색인하고자 하는 데이터가 한글 데이터인지 판별한다. 데이터가 한글 데이터인 경우에는 한글 데이터의 시작 부분과 끝 부분에 상기 데이터가 한글임을 구분하기 위한 구분 코드를 삽입한다(S110). 그리고, 구분 코드가 삽입된 한글 데이터를 한글 데이터의 사이즈를 감소시키기 위한 변환 코드로 변환하고(S120), 변환된 한글 데이터를 색인한다(S130).Referring to the drawings, the data indexing system according to the present invention indexes data for a search service in an environment supporting Unicode. To this end, the data indexing system first determines whether the data to be indexed is Korean data. If the data is Hangul data, a division code for distinguishing that the data is Hangul is inserted at the beginning and the end of the Hangul data (S110). Then, the Hangul data with the division code inserted is converted into a conversion code for reducing the size of the Hangul data (S120), and the converted Hangul data is indexed (S130).

여기서, 구분 코드는 한글 데이터를 상기 한글 데이터의 사이즈를 감소시키기 위한 상기 변환 코드로의 변환시 형태가 고정적으로 유지되는 코드로서, 일 예로 한글 코드일 수 있다.Here, the classification code is a code in which a shape is fixedly maintained when converting Hangul data into the conversion code for reducing the size of the Hangul data, and may be, for example, a Hangul code.

예를 들어, 데이터 색인 시스템은 한글 데이터를 변환 코드로 변환 시 상기 한글 데이터의 시작 부분에 "한"이라는 한글 코드를 삽입하고 끝 부분에는 "글"이라는 한글 코드를 인위적으로 삽입함으로써 상기 한글 코드 사이에 위치하는 데이터가 한글 데이터인 것으로 표시할 수 있다.For example, the data indexing system inserts a Hangul code of "Han" at the beginning of the Hangul data and artificially inserts a Hangul code of "Wang" at the end when converting the Hangul data into the conversion code. The data located at can be displayed as Korean data.

한편, 상기 한글 데이터의 사이즈를 감소시키기 위한 변환 코드는 UTF(UCS Transformation Format) 파일과 비 UTF 파일을 혼합하면서 데이터의 사이즈를 줄이기 위한 약속된 정합성이 있는 코드일 수 있다. 이러한 코드의 일 예로 "이성진 코드"가 있는데, 이는 자소 단위로 한글 데이터를 코드화함으로써 한글 데이터의 사이즈를 감소시키는 코드이다.Meanwhile, the transform code for reducing the size of the Hangul data may be a promised consistent code for reducing the size of the data while mixing a UTF (UCS Transformation Format) file and a non-UTF file. An example of such a code is “Lee Sung-Jin Code,” which is a code that reduces the size of Korean data by encoding Korean data in a phoneme unit.

따라서, 본 발명에 다른 데이터 색인 시스템은 다양한 언어를 제공하는 유니코드를 지원하는 환경에서 한글 데이터를 색인 시 한글 데이터의 시작 부분과 끝 부분에 한글 데이터가 한글임을 구분하기 위한 코드를 삽입하고 상기 한글 데이터를 한글 데이터의 사이즈를 감소시키기 위한 코드로 변환한다. 이처럼 한글이 한자와 같은 단어로 인식되는 것을 방지함으로써 데이터 색인 시 저장 공간의 사이즈를 줄일 수 있으며 충돌이 발생하지 않는 정상적인 검색 서비스를 제공할 수 있다.Accordingly, the data indexing system according to the present invention inserts a code for distinguishing that the Hangul data is Hangul at the beginning and end of the Hangul data when indexing the Hangul data in an environment supporting Unicode that provides various languages. Convert the data into code to reduce the size of Korean data. As such, by preventing Korean characters from being recognized as words such as Chinese characters, the size of storage space can be reduced when indexing data, and a normal retrieval service without collisions can be provided.

도 2는 본 발명의 일실시예에 있어서, 유니코드를 지원하는 환경에서 데이터를 탐색하는 방법을 나타내는 흐름도이다.2 is a flowchart illustrating a method for searching data in an environment supporting Unicode according to an embodiment of the present invention.

본 발명에 따른 데이터 탐색 시스템은 유니코드를 지원하는 환경에서 데이터를 탐색하기 위하여 먼저 사용자로부터 입력 받은 질의어가 한글 질의어인지 판단한다.The data search system according to the present invention first determines whether a query received from a user is a Korean query in order to search for data in an environment supporting Unicode.

입력 받은 질의어가 한글 질의어인 경우 데이터 탐색 시스템은 입력 받은 질의어의 시작 부분과 끝 부분에 상기 질의어가 한글임을 구분하기 위한 구분 코드를 삽입하고(S210), 구분 코드가 삽입된 질의어를 한글 데이터의 사이즈를 감소시키기 위한 변환 코드로 변환한다(S220).If the input query is a Korean query, the data search system inserts a division code for distinguishing that the query is Hangul into the beginning and end of the input query (S210), and inserts the query with the division code into the size of the Korean data. Convert to a conversion code to reduce (S220).

여기서, 구분 코드는 데이터 색인 시 사용한 구분 코드와 마찬가지로 변환 코드로의 변환시 형태가 고정적으로 유지되는 한글 코드일 수 있고, 변환 코드는 자소 단위로 상기 한글 데이터를 코드화함으로써 한글 데이터의 사이즈를 감소시키는 코드일 수 있다.Here, the division code may be a Hangul code whose shape is fixed when converting to a conversion code, similar to the division code used for data indexing, and the conversion code is a code for reducing the size of the Hangul data by encoding the Hangul data in units of characters. Can be.

사용자로부터 입력 받은 질의어가 변환 코드로 변형되면 데이터 탐색 시스템은 변환된 질의어를 이용하여 기 색인된 데이터에서 변환된 질의어에 해당하는 데이터를 탐색한다(S230). 여기서, 기 색인된 데이터는 상기 입력 받은 질의어와 마찬가지로, 상기 구분 코드가 삽입되고 상기 변환 코드로 변환된 데이터일 수 있다.If the query received from the user is transformed into a conversion code, the data search system searches for data corresponding to the converted query in the pre-indexed data using the converted query (S230). Here, the indexed data may be data that is inserted into the classification code and converted into the conversion code, similar to the input query word.

도 3 내지 도 5는 기존의 색인 방법에 따른 검색 결과와 본 발명에 따른 색인 방법에 따른 검색 결과의 차이를 설명하기 위한 예시도이다.3 to 5 are exemplary diagrams for explaining a difference between a search result according to an existing index method and a search result according to an index method according to the present invention.

먼저 도 3을 참조하여 사용자가 "ㅂ"이라는 질의어를 입력하는 경우, 기존의 색인 방법에 따라 변환 코드만으로 색인한 경우 추천 질의어로서 검색되는 결과와 본 발명에 따라 구분 코드를 삽입하여 색인한 경우 검색되는 결과에 대해서 설명한다.First, referring to FIG. 3, when a user inputs a query of “ㅂ”, the search is performed as a recommendation query when the index is searched only by the conversion code according to the existing indexing method, and when the index is inserted and inserted according to the present invention. The result will be described.

사용자가 "ㅂ"이라는 질의어를 입력하면 기존의 색인 방식은 도 3에 도시된 것과 같이 "ㅂ"이라는 질의어와 코드값이 같은 특수 기호를 자동완성 질의어로서 노출한다. 그러나, 본 발명에 따라 색인한 경우에는 "ㅂ"이 한글로 인식되기 때문에 "ㅂ"과 코드값이 같은 특수 기호 대신 "ㅂ"과 관련된 자동완성 질의어가 노출될 수 있다.When a user inputs a query "ㅂ", the existing indexing method exposes a special symbol having the same code value as the query word "ㅂ" as an autocomplete query as shown in FIG. 3. However, in the case of indexing according to the present invention, since "ㅂ" is recognized as Korean, an autocomplete query related to "ㅂ" may be exposed instead of a special symbol having the same code value as "ㅂ".

한편, 도 4와 같이 사용자가 "ㄱㅇ"이라는 질의어를 입력하면 기존의 색인 방식은 처음에 ㄱㅇ"에 관련된 자동완성 질의어를 노출하기도 하지만, 기존의 색인 방식에 따라 "ㄱㅇ"과 무관한 한자를 노출한다. 그러나, 본 발명에 따라 색인한 경우에는 "ㄱㅇ"을 먼저 검색하여 "ㄱㅇ"에 관련된 질의어를 노출하고 이후 그에 대응하는 알파벳으로 변형한 "rd" 관련 자동완성 질의어를 함께 노출하도록 구현될 수도 있다.On the other hand, when the user enters the query "", "as shown in Figure 4, the existing index method may initially expose the autocomplete query related to" B ", but according to the existing index method, the Chinese characters irrelevant to" B "are exposed. However, in the case of indexing according to the present invention, the search may be performed by first searching for "AB" and exposing the query related to "AB" and then exposing the "rd" related autocomplete query which is transformed into the corresponding alphabet. have.

또한, 도 5와 같이 사용자가 "ㄷㅇ"이라는 질의어를 입력하면 "ㄷㅇ"으로 되는 단어가 없으므로 기존의 색인 방식에 따라 색인한 경우에는 "ㄷㅇ"과 코드값이 같은 한자가 노출되야 하지만 이 코드값에 해당하는 한자는 브라우저 상에 표시되지 않는 한자이기 때문에 "□"이 노출된다. 그러나, 본 발명에 따라 색인한 경우에는 "ㄷㅇ"을 알파벳으로 변형한 "ed" 관련 자동완성 질의어가 노출될 수 있다.In addition, when the user inputs the query word "ㄷㅇ" as shown in FIG. 5, since the word "ㄷㅇ" does not exist, when the index is indexed according to the existing indexing method, the Chinese character having the same code value as "ㄷㅇ" should be exposed. "□" is exposed because the Chinese character corresponding to is a Chinese character not displayed on the browser. However, in the case of indexing according to the present invention, an "ed" related autocompletion query in which "" is converted into an alphabet may be exposed.

도 6은 본 발명의 일실시예에 있어서, 데이터 색인 시스템과 데이터 탐색 시스템을 나타내는 블록도이다.6 is a block diagram illustrating a data indexing system and a data searching system according to an embodiment of the present invention.

도면을 참조하면 데이터 색인 시스템(610)은 데이터 변환부(612) 및 색인부(614)를 포함하고, 데이터 탐색 시스템(630)은 질의어 입력부(632), 질의어 변환부(634) 및 탐색부(636)을 포함한다.Referring to the drawings, the data indexing system 610 includes a data converter 612 and an indexer 614, and the data search system 630 includes a query inputter 632, a query converter 634, and a searcher ( 636).

데이터 변환부(612)는 유니코드를 지원하는 환경에서 보다 적은 저장 공간을 이용하여 데이터를 색인하기 위하여 한글 데이터의 시작 부분과 끝 부분에 상기 한글 데이터가 한글임을 구분하기 위한 구분 코드를 삽입하고 상기 구분 코드가 삽입된 한글 데이터를 사이즈를 감소시키기 위해 변환 코드로 변환한다.The data conversion unit 612 inserts a division code for distinguishing that the Hangul data is Hangul at the beginning and end of the Hangul data in order to index the data using less storage space in a Unicode supporting environment. The Hangul data with the separator code inserted is converted into the conversion code to reduce the size.

여기서 구분 코드는 변환 코드로의 변환시 형태가 고정적으로 유지되는 한글 코드일 수 있고, 변환 코드는 자소 단위로 상기 한글 데이터를 코드화함으로써 상기 한글 데이터의 사이즈를 감소시키는 코드일 수 있다.The division code may be a Hangul code having a fixed shape when converted to a conversion code, and the conversion code may be a code for reducing the size of the Hangul data by encoding the Hangul data in a phoneme unit.

색인부(614)는 데이터 변환부(612)에서 한글 데이터가 변환 코드로 변환되면 변환된 한글 데이터를 색인 데이터베이스(620)에 색인한다.The index unit 614 indexes the converted Korean data into the index database 620 when the Korean data is converted into the conversion code by the data converter 612.

색인 데이터베이스(620)는 자동완성 질의어, 검색 결과 제공을 위한 데이터 등을 저장하는 것으로, 색인 시스템(610) 및 탐색 시스템(620) 중 어느 하나의 시스템에 포함되거나 별도의 장치로 구성될 수 있다.The index database 620 stores an autocomplete query, data for providing a search result, and the like. The index database 620 may be included in any one of the index system 610 and the search system 620 or may be configured as a separate device.

한편, 데이터 탐색 시스템(630)의 질의어 입력부(632)는 사용자로부터 질의어를 입력 받아 이를 질의어 변환부(634)로 전달한다.On the other hand, the query input unit 632 of the data search system 630 receives a query from the user and transfers it to the query converter 634.

질의어 변환부(634)는 질의어 입력부(632)에서 입력 받은 질의어가 한글 질의어인 경우 상기 질의어의 시작 부분과 끝 부분에 상기 질의어가 한글임을 구분하기 위한 구분코드를 삽입하고 상기 구분 코드가 삽입된 질의어를 한글 데이터의 사이즈를 감소시키기 위한 변환 코드로 변환한다.When the query input from the query input unit 632 is a Korean query, the query conversion unit 634 inserts a division code for distinguishing that the query is Korean from the beginning and end of the query and inserts the division code. Is converted into a conversion code for reducing the size of Korean data.

그리고, 탐색부(636)는 질의어 변환부(634)에서 변환 코드로 변환된 질의어를 이용하여 색인 데이터베이스(620)에 상기 변환 코드로 변환되어 색인된 복수개의 데이터 중 상기 변환된 질의어에 해당하는 데이터를 탐색한다.In addition, the search unit 636 may convert data corresponding to the converted query word among a plurality of data converted into the conversion code and indexed to the index database 620 by using the query word converted into the conversion code by the query conversion unit 634. Navigate.

이 때, 탐색부(636)는 질의어 탐색 시 변환 코드로 변환된 질의어를 그에 대응하는 알파벳 질의어로 변형하고 상기 알파벳 질의어를 이용하여 해당하는 데이터(검색 결과, 자동완성 질의어 등)를 탐색할 수도 있다.In this case, the searcher 636 may transform the query word converted into the conversion code into an alphabet query word corresponding to the search code and search for the corresponding data (search results, autocomplete query words, etc.) using the alphabet query word. .

도 7은 본 발명의 일실시예에 있어서, 데이터를 색인하는 과정과 탐색하는 과정을 설명하기 위한 도면이다.7 is a diagram for explaining a process of indexing and searching data according to an embodiment of the present invention.

이하, 도 7을 참조하여 본 발명에 따른 데이터 색인 시스템과 데이터 탐색 시스템이 데이터를 색인하고 탐색하는 과정에 대하여 보다 상세히 설명한다.Hereinafter, a process of indexing and searching data by the data indexing system and the data searching system according to the present invention will be described in more detail with reference to FIG. 7.

먼저, 데이터 색인 시스템은 사용자가 입력하는 질의어에 대한 자동완성 질의어 및 색인 데이터베이스에 색인할 데이터(710)를 한글 데이터의 사이즈를 감소시키기 위한 변환 코드를 이용하여 색인 데이터 베이스에 색인한다(720).First, the data indexing system indexes an autocomplete query for a query input by a user and data 710 to be indexed into an index database in an index database by using a conversion code for reducing the size of Korean data.

이와 같은 색인 과정을 통해 자동완성 질의어와 데이터가 변환 코드로 색인 데이터베이스에 색인되면, 데이터 탐색 시스템은 사용자로부터 질의어를 입력 받아(730) 이를 변환 코드를 이용하여 변환한다(740). 그리고, 변환 코드로 변형된 질의어를 기초로 이에 해당하는 자동완성 질의어 또는 데이터를 색인 데이터 베이스에서 탐색하고(750) 탐색된 결과를 출력한다(760).When the autocomplete query word and data are indexed to the index database through the indexing process, the data search system receives the query word from the user (730) and converts it using the conversion code (740). In operation 750, an autocomplete query word or data corresponding to the query word modified by the conversion code is searched in the index database, and the search result is output in operation 760.

따라서, 본 발명에 따른 유니코드를 지원하는 검색 서비스를 위한 데이터 색인 방법 및 시스템은 색인 과정을 통해 다양한 언어를 제공하는 유니코드를 지원하는 환경에서 한글 데이터를 색인 시 한글 데이터의 시작 부분과 끝 부분에 한글 데이터가 한글임을 구분하기 위한 코드를 삽입하고 상기 한글 데이터를 한글 데이터의 사이즈를 감소시키기 위한 코드로 변환함으로써 데이터 색인에 필요한 저장 공간의 사이즈를 줄일 수 있으며, 탐색 과정을 통해 한글 자소 조합이 한자와 같은 단어로 변형되는 충돌을 방지함으로써 정상적인 검색 서비스를 제공할 수 있다.Therefore, the data indexing method and system for the Unicode-supported search service according to the present invention is the beginning and end of the Hangul data when indexing the Hangul data in the environment supporting Unicode to provide a variety of languages through the indexing process By inserting a code for distinguishing that Hangul data is Hangul into the code and converting the Hangul data into a code for reducing the size of the Hangul data, the size of the storage space required for data indexing can be reduced. By preventing collisions that are transformed into words such as Chinese characters, a normal search service can be provided.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.As described above, the present invention has been described by way of limited embodiments and drawings, but the present invention is not limited to the above embodiments, and those skilled in the art to which the present invention pertains various modifications and variations from such descriptions. This is possible.

그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.Therefore, the scope of the present invention should not be limited to the described embodiments, but should be determined by the equivalents of the claims, as well as the claims.

Claims (17)

유니코드를 지원하는 환경에서 데이터를 색인하는 방법에 있어서,
한글 데이터의 시작 부분과 끝 부분에 상기 한글 데이터가 한글임을 구분하기 위한 구분 코드를 삽입하고 상기 구분 코드가 삽입된 한글 데이터의 사이즈를 감소시키기 위한 변환 코드로 변환하는 단계; 및
상기 변환된 한글 데이터를 색인하는 단계
를 포함하는 한글 데이터 색인 방법.
In a way to index data in an environment that supports Unicode,
Inserting a division code for distinguishing that the Hangul data is Hangul at the beginning and the end of the Hangul data and converting the conversion code into a conversion code for reducing the size of the Hangul data into which the division code is inserted; And
Indexing the converted Hangul data
Korean data indexing method comprising a.
제1항에 있어서,
상기 구분 코드는,
상기 변환 코드로의 변환시 형태가 고정적으로 유지되는 것
을 특징으로 하는 한글 데이터 색인 방법.
The method of claim 1,
The division code is,
The form remains fixed upon conversion to said conversion code
Korean data indexing method characterized in that.
제1항에 있어서,
상기 구분 코드는,
한글 코드인 것을 특징으로 하는 한글 데이터 색인 방법.
The method of claim 1,
The division code is,
Korean data indexing method characterized in that the Hangul code.
제1항에 있어서,
상기 변환 코드는,
자소 단위로 상기 한글 데이터를 코드화함으로써 상기 한글 데이터의 사이즈를 감소시키는 코드인 것을 특징으로 하는 한글 데이터 색인 방법.
The method of claim 1,
The conversion code is,
And a code for reducing the size of the Hangul data by encoding the Hangul data in a phoneme unit.
유니코드를 지원하는 환경에서 데이터를 탐색하는 방법에 있어서,
질의어를 입력받는 단계;
상기 질의어가 한글 질의어인 경우 상기 질의어의 시작 부분과 끝 부분에 상기 질의어가 한글임을 구분하기 위한 구분 코드를 삽입하고 상기 구분 코드가 삽입된 질의어를 한글 데이터의 사이즈를 감소시키기 위한 변환 코드로 변환하는 단계; 및
상기 변환된 질의어에 해당하는 데이터를 탐색하는 단계
를 포함하는 한글 데이터 탐색 방법.
In a way to explore data in an environment that supports Unicode,
Receiving a query;
When the query is a Hangul query, inserting a division code for distinguishing that the query is Hangul at the beginning and end of the query and converting the query with the division code into a conversion code for reducing the size of the Hangul data step; And
Searching for data corresponding to the converted query
Korean data searching method comprising a.
제5항에 있어서,
상기 구분 코드는,
상기 변환 코드로의 변환시 형태가 고정적으로 유지되는 한글 코드인 것을 특징으로 하는 한글 데이터 탐색 방법.
The method of claim 5,
The division code is,
The Hangul data search method, characterized in that the Hangul code is fixedly maintained when the conversion to the conversion code.
제5항에 있어서,
상기 변환 코드는,
자소 단위로 상기 한글 데이터를 코드화함으로써 상기 한글 데이터의 사이즈를 감소시키는 코드인 것을 특징으로 하는 한글 데이터 탐색 방법.
The method of claim 5,
The conversion code is,
And a code for reducing the size of the Hangul data by encoding the Hangul data in a phoneme unit.
제5항에 있어서,
상기 탐색하는 단계는,
상기 변환된 질의어를 이용하여 상기 변환 코드로 변환되어 색인된 복수개의 데이터 중 상기 변환된 질의어에 해당하는 데이터를 탐색하는 단계인 것을 특징으로 하는 한글 데이터 탐색 방법.
The method of claim 5,
The searching step,
And searching for data corresponding to the converted query word among a plurality of data converted and indexed by the conversion code using the converted query word.
제5항에 있어서,
상기 변환된 질의어를 상기 변환된 질의어에 대응하는 알파벳 질의어로 변형하는 단계; 및
상기 알파벳 질의어를 이용하여 해당하는 데이터를 탐색하는 단계를 더 포함하는 것을 특징으로 하는 한글 데이터 탐색 방법.
The method of claim 5,
Converting the converted query to an alphabetic query corresponding to the converted query; And
And searching for corresponding data using the alphabet query.
유니코드를 지원하는 환경에서 데이터를 색인하는 시스템에 있어서,
한글 데이터의 시작 부분과 끝 부분에 상기 한글 데이터가 한글임을 구분하기 위한 구분 코드를 삽입하고 상기 구분 코드가 삽입된 한글 데이터의 사이즈를 감소시키기 위한 변환 코드로 변환하는 데이터 변환부; 및
상기 변환된 한글 데이터를 색인하는 색인부
를 포함하는 한글 데이터 색인 시스템.
In a system that indexes data in an environment that supports Unicode,
A data conversion unit for inserting a division code for distinguishing that the Hangul data is Hangul and converting the conversion code into a conversion code for reducing the size of the Hangul data into which the division code is inserted; And
Index unit for indexing the converted Hangul data
Korean data indexing system comprising a.
제10항에 있어서,
상기 구분 코드는,
상기 변환 코드로의 변환시 형태가 고정적으로 유지되는 한글 코드인 것을 특징으로 하는 한글 데이터 색인 시스템.
The method of claim 10,
The division code is,
A Hangul data index system, characterized in that the Hangul code is fixedly maintained when the conversion to the conversion code.
제10항에 있어서,
상기 변환 코드는,
자소 단위로 상기 한글 데이터를 코드화함으로써 상기 한글 데이터의 사이즈를 감소시키는 코드인 것을 특징으로 하는 한글 데이터 색인 시스템.
The method of claim 10,
The conversion code is,
And a code for reducing the size of the Hangul data by encoding the Hangul data in a phoneme unit.
유니코드를 지원하는 환경에서 한글 데이터를 탐색하는 시스템에 있어서,
질의어를 입력받는 질의어 입력부;
상기 질의어가 한글 질의어인 경우 상기 질의어의 시작 부분과 끝 부분에 상기 질의어가 한글임을 구분하기 위한 구분코드를 삽입하고 상기 구분 코드가 삽입된 질의어를 한글 데이터의 사이즈를 감소시키기 위한 변환 코드로 변환하는 질의어 변환부; 및
상기 변환된 질의어에 해당하는 데이터를 탐색하는 탐색부
를 포함하는 한글 데이터 탐색 시스템.
In a system for searching Korean data in an environment supporting Unicode,
A query input unit for receiving a query;
When the query is a Hangul query, inserting a division code for distinguishing that the query is Hangul at the beginning and end of the query, and converts the query with the division code into a conversion code for reducing the size of the Hangul data A query conversion unit; And
Search unit for searching the data corresponding to the converted query
Korean data navigation system comprising a.
제13항에 있어서,
상기 구분 코드는,
상기 변환 코드로의 변환시 형태가 고정적으로 유지되는 한글 코드인 것을 특징으로 하는 한글 데이터 탐색 시스템.
The method of claim 13,
The division code is,
The Hangul data search system, characterized in that the Hangul code is fixedly maintained when the conversion to the conversion code.
제13항에 있어서,
상기 변환 코드는,
자소 단위로 상기 한글 데이터를 코드화함으로써 상기 한글 데이터의 사이즈를 감소시키는 코드인 것을 특징으로 하는 한글 데이터 탐색 시스템.
The method of claim 13,
The conversion code is,
And a code for reducing the size of the Hangul data by encoding the Hangul data in a phoneme unit.
제13항에 있어서,
상기 탐색부는,
상기 변환된 질의어를 이용하여 상기 변환 코드로 변환되어 색인된 복수개의 데이터 중 상기 변환된 질의어에 해당하는 데이터를 탐색하는 것을 특징으로 하는 한글 데이터 탐색 시스템.
The method of claim 13,
The searching unit searches,
And searching for data corresponding to the converted query word among a plurality of data converted and indexed by the conversion code using the converted query word.
제13항에 있어서,
상기 탐색부는,
상기 변환된 질의어를 상기 변환된 질의어에 대응하는 알파벳 질의어로 변형하고, 상기 알파벳 질의어를 이용하여 해당하는 데이터를 탐색하는 것을 특징으로 하는 한글 데이터 탐색 시스템.
The method of claim 13,
The searching unit searches,
And converting the converted query word into an alphabet query word corresponding to the converted query word and searching for corresponding data using the alphabet query word.
KR1020120036060A 2012-04-06 2012-04-06 Data indexing method and system for serch servise supporting unicode KR101275391B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120036060A KR101275391B1 (en) 2012-04-06 2012-04-06 Data indexing method and system for serch servise supporting unicode

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120036060A KR101275391B1 (en) 2012-04-06 2012-04-06 Data indexing method and system for serch servise supporting unicode

Publications (1)

Publication Number Publication Date
KR101275391B1 true KR101275391B1 (en) 2013-06-17

Family

ID=48867098

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120036060A KR101275391B1 (en) 2012-04-06 2012-04-06 Data indexing method and system for serch servise supporting unicode

Country Status (1)

Country Link
KR (1) KR101275391B1 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040097756A (en) * 2003-05-13 2004-11-18 주식회사 한닉 Method of internet keyword service by classification and the server
KR20070064900A (en) * 2005-12-19 2007-06-22 주식회사 팬택앤큐리텔 Converting apparatus for unicord of hangul
KR100835706B1 (en) 2007-07-09 2008-06-05 한국과학기술정보연구원 System and method for korean morphological analysis for automatic indexing
JP2010102559A (en) 2008-10-24 2010-05-06 Nec Corp Apparatus and method for data compression and program

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040097756A (en) * 2003-05-13 2004-11-18 주식회사 한닉 Method of internet keyword service by classification and the server
KR20070064900A (en) * 2005-12-19 2007-06-22 주식회사 팬택앤큐리텔 Converting apparatus for unicord of hangul
KR100835706B1 (en) 2007-07-09 2008-06-05 한국과학기술정보연구원 System and method for korean morphological analysis for automatic indexing
JP2010102559A (en) 2008-10-24 2010-05-06 Nec Corp Apparatus and method for data compression and program

Similar Documents

Publication Publication Date Title
CN107451153B (en) Method and device for outputting structured query statement
US8645350B2 (en) Dictionary compilations
EP3080714A1 (en) System and method for inputting text into electronic devices
CN111428494A (en) Intelligent error correction method, device and equipment for proper nouns and storage medium
CN107861753B (en) APP generation index, retrieval method and system and readable storage medium
CN111176650B (en) Parser generation method, search method, server, and storage medium
JP4502615B2 (en) Similar sentence search device, similar sentence search method, and program
WO2011079415A1 (en) Generating related input suggestions
CN105653697B (en) Recommended word retrieval method and system
CN103970751A (en) Multi-language web page converting system and method
CN110941694A (en) Knowledge graph searching and positioning method and system, electronic equipment and storage medium
CN109815390B (en) Method, device, computer equipment and computer storage medium for retrieving multilingual information
US20120109994A1 (en) Robust auto-correction for data retrieval
JP2010134922A (en) Similar word determination method and system
US20140358522A1 (en) Information search apparatus and information search method
WO2015075920A1 (en) Input assistance device, input assistance method and recording medium
KR101275391B1 (en) Data indexing method and system for serch servise supporting unicode
CN110738042A (en) Error correction dictionary creating method, device, terminal and computer storage medium
JP2012069059A (en) Specific character string exclusion character string retrieval support system and retrieval support method and program for the same
JP2004030613A (en) System and method for filtering far east language
KR20070050305A (en) Method and system for indexing and retrieving in search engine and search service using query by initial sound
CN115905297B (en) Method, apparatus and medium for retrieving data
JP5230664B2 (en) Similar word search server and method
KR101247346B1 (en) System and method for searching dictionary
KR100962015B1 (en) Korean data searching method and system using the double indexing

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160329

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20170328

Year of fee payment: 5