KR20070050305A - Method and system for indexing and retrieving in search engine and search service using query by initial sound - Google Patents

Method and system for indexing and retrieving in search engine and search service using query by initial sound Download PDF

Info

Publication number
KR20070050305A
KR20070050305A KR1020050107714A KR20050107714A KR20070050305A KR 20070050305 A KR20070050305 A KR 20070050305A KR 1020050107714 A KR1020050107714 A KR 1020050107714A KR 20050107714 A KR20050107714 A KR 20050107714A KR 20070050305 A KR20070050305 A KR 20070050305A
Authority
KR
South Korea
Prior art keywords
keyword
search
speech
spoken
document
Prior art date
Application number
KR1020050107714A
Other languages
Korean (ko)
Other versions
KR100722513B1 (en
Inventor
양승현
신동호
Original Assignee
주식회사 코난테크놀로지
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 코난테크놀로지 filed Critical 주식회사 코난테크놀로지
Priority to KR1020050107714A priority Critical patent/KR100722513B1/en
Publication of KR20070050305A publication Critical patent/KR20070050305A/en
Application granted granted Critical
Publication of KR100722513B1 publication Critical patent/KR100722513B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion

Abstract

본 발명은 검색 엔진 및 검색 서비스에서 제공하는 첫소리말 색인 및 검색 방법에 관한 것으로서, 더욱 상세하게는 검색어를 구성하는 각 음절의 첫소리(초성)만을 따서 만든 "첫소리말" 검색어를 입력으로 하는 검색 인터페이스 QBIS(Query By Initial Sound)를 이용한 첫소리말 색인 및 검색 방법에 관한 것이다. 이를 위해 본 발명에서는 색인 시 종래의 키워드에 덧붙여 변환된 첫소리말 키워드도 색인하여 첫소리말 검색어와 비교하여 검색 결과를 출력할 수 있도록 한다. 또 다른 방법으로, 첫소리말 검색어를 종래의 키워드로 변환하여 사용자로 하여금 선택하게 함으로써 검색 결과를 출력하게 구성할 수도 있다. 본 발명에 따른 첫소리말 색인 및 검색 방법에 의하면, 검색어 입력시에 키-스트로크 횟수를 적게 함으로써, 검색어 입력 수단이 불편한 장치의 사용자나 검색어 입력에 곤란함을 겪는 사용자 혹은 검색어를 정확하게 기억하기 힘든 사용자가 매우 편리하게 검색을 수행하도록 할 수 있다.The present invention relates to a first speech index and a search method provided by a search engine and a search service. More particularly, the present invention relates to a search interface that inputs a "first speech" search word made by only the first sound of each syllable constituting a search word. The first word index and search method using QBIS (Query By Initial Sound). To this end, in the present invention, the first spoken keyword is also indexed in addition to the conventional keyword at the time of indexing, and the search result can be output by comparing with the first spoken keyword. Alternatively, the first spoken search word may be converted into a conventional keyword and the user may select to output the search result. According to the first speech index and search method according to the present invention, by reducing the number of key-strokes when entering a search word, a user of a device that is inconvenient for the search word input means or a user who has difficulty in entering a search word or a user who cannot remember the search word correctly Can be done very conveniently.

첫소리말, 검색 엔진, QBIS, 절단어 검색, 검색어 확장 First voice, search engine, QBIS, truncated search, query expansion

Description

검색 엔진 및 검색 서비스에서 제공하는 첫소리말 색인 및 검색 방법, 시스템{METHOD AND SYSTEM FOR INDEXING AND RETRIEVING IN SEARCH ENGINE AND SEARCH SERVICE USING QUERY BY INITIAL SOUND}METHOOD AND SYSTEM FOR INDEXING AND RETRIEVING IN SEARCH ENGINE AND SEARCH SERVICE USING QUERY BY INITIAL SOUND}

도 1은 일반적인 색인 및 검색 과정을 나타낸 도면이다.1 is a diagram illustrating a general indexing and searching process.

도 2는 첫소리말 색인 및 검색 방법의 과정을 나타낸 도면이다.2 is a diagram illustrating a first speech indexing and searching method.

도 3은 첫소리말 색인 및 검색 방법의 또 다른 구현 방식인 검색어 확장 방식의 과정을 나타낸 도면이다.3 is a diagram illustrating a process of a search term expansion method, which is another implementation method of a first speech index and search method.

도 4는 도 2에 도시된 과정을 수행하는 본 발명의 일실시예에 따른 첫소리말 색인 및 검색 시스템의 구성을 나타낸 블록도이다.FIG. 4 is a block diagram illustrating a configuration of a first speech index and search system according to an exemplary embodiment of the present invention performing the process shown in FIG. 2.

도 5는 도 3에 도시된 과정을 수행하는 본 발명의 다른 실시예에 따른 첫소리말 색인 및 검색 시스템의 구성을 나타낸 블록도이다.FIG. 5 is a block diagram illustrating a configuration of a first speech index and search system according to another embodiment of the present invention performing the process shown in FIG. 3.

<도면의 주요 부분에 대한 부호의 설명><Explanation of symbols for the main parts of the drawings>

400 : 첫소리말 색인 및 검색 시스템400: First Speech Index and Search System

401 : 키워드 추출기401: Keyword Extractor

402 : 첫소리말 변환기402: First Speak Converter

403 : 역색인 표 구성부403: index index component

404 : 검색어 입력부404: search term input unit

405 : 문서 식별부405: document identification unit

406 : 검색 결과 제공부406: search result provider

본 발명은 검색 엔진 및 검색 서비스에서 제공하는 첫소리말 색인 및 검색 방법에 관한 것으로서, 더욱 상세하게는 검색어를 구성하는 각 음절의 첫소리(초성)만을 따서 만든 "첫소리말" 검색어를 입력으로 하는 검색 인터페이스 QBIS(Query By Initial Sound)를 이용한 첫소리말 색인 및 검색 방법에 관한 것이다.The present invention relates to a first speech index and a search method provided by a search engine and a search service. More particularly, the present invention relates to a search interface that inputs a "first speech" search word made by only the first sound of each syllable constituting a search word. The first word index and search method using QBIS (Query By Initial Sound).

아래 제시된 표 1에는 상용 검색엔진 및 검색서비스에서 제공되고 있는 여러 가지 검색어 입력 방법이 나와 있다. 가장 기본이 되는 키워드 검색어는 물론이고, 절단검색으로 검색되는 단축어(abbreviation) 검색어, 시소러스를 이용한 동의어 검색으로 검색되는 두문어(acronym) 검색어 등 여러 가지 줄임말 검색어가 상용 검색 엔진 및 검색 서비스에서 제공되고 있음을 알 수 있다. Table 1 below shows various search terms input methods provided by commercial search engines and search services. In addition to the most basic keyword search terms, several short search terms are provided in commercial search engines and search services, such as abbreviation search terms found in truncated searches and acronym search terms found in synonym searches using thesaurus. It can be seen that.

원래 각종 절단검색 및 동의어 검색은, 원하는 키워드만 정확히 입력하는 키워드 검색어에 비해 더 많은 검색결과를 내놓기 때문에 검색의 정확도는 다소 떨어지나, 검색어가 정확히 기억나지 않는 경우 혹은 정확도보다는 재현 즉 찾는 것 자체가 중요시 되는 분야 혹은 사용자의 선호 등의 여러 가지 이유로 해서, 이러한 각종 줄임말 검색어는 현재 상용 검색에서 여전히 이용되고 있다.Originally, truncated and synonymous searches produce more results than keyword keywords that only accurately enter the desired keywords. However, the accuracy of the search is slightly lower. However, if the search term is not remembered correctly or the search itself is more important than accuracy. For various reasons, such as the field of interest or the user's preference, these various short search terms are still used in commercial search.

Figure 112005064788787-PAT00001
Figure 112005064788787-PAT00001

종래의 이러한 여러 가지 검색어 입력 방법과는 달리 본 발명에서는, "첫소리말 검색어"(QBIS: Query By Initial Sound)라는 새로운 형태의 검색어 입력 방법을 제안한다.Unlike conventional methods for inputting various search words, the present invention proposes a new type of search word input method called "Query By Initial Sound" (QBIS).

본 발명의 "첫소리말 검색"은 문자 그대로, 검색할 키워드의 초성만으로 검색어를 지정할 수 있게 한다는 것이다. 이는 키워드를 타이핑할 때 키-스트로크의 횟수를 크게 줄이면서도 원하는 문서를 용이하게 검색할 수 있게 하자는 의도에서 고안되었다."First speech search" of the present invention is that literally, it is possible to specify a search word only by the initial consonant of the keyword to search. It is intended to make it easy to search for the desired document while greatly reducing the number of key-strokes when typing keywords.

영어의 경우는 표 1에도 나와 있듯이, 머리글자말 검색어로도 충분히 키-스트로크가 적은 효과를 누리지만, 한글은 초-중-종성이 결합된 음절을 단위 문자로 쓰기 때문에 '정통부'의 예처럼 머리글자말이더라도 영어처럼 키-스트로크가 많이 줄어들지는 않는다. 실제로, 'Major League Baseball'은 19회, 'MLB'는 3회로 키 -스트로크 횟수가 원 단어 대비 16%로 크게 줄어든 반면, 2벌식 자판 기준으로 '정보통신부'는 13회, '정통부'는 8회로 원 단어 대비 62%로 영어에 비해 크게 줄어들지 않음을 알 수 있다. 이는 다른 예에서도 대동소이해서 한글의 음절 특성에 기인한다고 일반화해도 좋을 것이다.In the case of English, as shown in Table 1, the initial search term has a low key-stroke effect, but Hangul uses the syllables combined with the elementary, middle, and final characters as unit letters. Even the initials don't reduce key-strokes much like English. Indeed, 'Major League Baseball' is 19 times, 'MLB' is 3 times, and the number of key-strokes is greatly reduced by 16% compared to the original word, while 'Information and Communication' is 13 times and 'Ministry of Information' is 8 It is 62% of circuit word and it does not decrease much compared to English. It may be generalized that this is caused by the syllable characteristics of Hangul because it is largely similar in other examples.

이는 결국 한글 검색 사용자에게 더 많은 키-스트로크를 요구하는 불편으로 이어지고 있다. 따라서, 본 발명에서는, 머리글자말에 비해 더욱 키-스트로크 수가 적은 '첫소리말'을 고안하였다.This leads to the inconvenience of requiring more key-strokes for the Hangul search users. Therefore, the present invention has devised a 'first speech' having a smaller number of keystrokes than the initial.

키보드 스트로크를 몇 글자 더 하는 것이 문제가 되지 않는 사용자나 입력 장치에선, 몇 글자 더 타이핑해서 좀 더 정확한 검색어를 얻는 것이 당연히 바람직하다. 그러나 그렇지 못한 입력 장치나 사용자에겐 "첫소리말" 검색이 아주 유용한 검색어 인터페이스 및 검색 방법이 될 것이다. 예를 들어, 입력 인터페이스가 데스크톱에 비해 다소 불편한 모바일 단말(스마트폰, PDA폰 등)에서는 키-스트로크를 대폭 줄여서 검색어를 넣을 수 있다면 매우 편리할 것이다. 혹은 사용자가 타이핑 동작에 어려움을 느끼는 경우, 예를 들면 컴퓨터 자판에 익숙치 않은 고령자나 자판 두드리는 동작에 불편을 느끼는 장애인 등의 경우에도 본 발명에 따른 첫소리말 검색이 매우 큰 도움이 될 것이다. 혹은 입력 장치에도 문제가 없고 사용자 타이핑에도 문제가 없는 경우라고 하더라도 여전히 많은 편리함을 줄 수 있을 것이다.For users or input devices where a few more strokes of keyboard is not a problem, it is of course desirable to type a few more characters to get a more accurate search term. But for input devices or users who don't, "first voice" search may be a very useful search term interface and search method. For example, in a mobile terminal (smartphone, PDA phone, etc.) where the input interface is somewhat inconvenient compared to the desktop, it would be very convenient if the key-stroke can be greatly reduced to put a search word. Or, if the user feels difficulty in typing, for example, an elderly person unfamiliar with the computer keyboard or a disabled person who feels uncomfortable with the keyboard tapping operation, the first voice search according to the present invention will be very helpful. Or even if there is no problem with the input device and user typing, it can still provide a lot of convenience.

상기와 같은 목적을 달성하기 위해서, 본 발명의 일실시예에 따른 첫소리말 색인 및 검색 방법은 소정의 키워드 추출기를 통해 문서에서 키워드를 추출하는 단계; 상기 추출된 키워드에 대해 첫소리말 변환을 수행하여, 상기 추출된 키워드에 대응하는 첫소리말 키워드를 생성하는 단계; 상기 첫소리말 키워드에 대응하여 상기 문서의 문서 식별자를 저장하는 역색인(Inverted Index) 표를 구성하는 단계; 검색어 입력창을 통해 사용자로부터 첫소리말 검색어를 입력받는 단계; 상기 역색인 표로부터 상기 입력된 첫소리말 검색어에 해당하는 첫소리말 키워드를 검색하고, 상기 검색된 첫소리말 키워드에 대응하는 문서 식별자를 식별하는 단계; 상기 식별된 문서 식별자를 이용하여 문서값을 가져와 검색 결과 목록을 생성하는 단계; 및 상기 생성된 검색 결과 목록을 상기 사용자에게 제공하는 단계를 포함하는 것을 특징으로 한다.In order to achieve the above object, the first speech index and search method according to an embodiment of the present invention comprises the steps of extracting a keyword from the document through a predetermined keyword extractor; Performing first speech conversion on the extracted keyword to generate a first speech keyword corresponding to the extracted keyword; Constructing an Inverted Index table that stores the document identifier of the document corresponding to the first spoken keyword; Receiving a first search word from a user through a search word input window; Searching for a first spoken keyword corresponding to the input first spoken keyword from the inverted index table, and identifying a document identifier corresponding to the searched first spoken keyword; Generating a search result list by retrieving a document value using the identified document identifier; And providing the generated search result list to the user.

한편, 본 발명의 또 다른 실시예에 따른 첫소리말 색인 및 검색 방법은 각 키워드를 포함하는 전체 키워드 목록을 유지하는 단계; 상기 각 키워드에 대해 첫소리말 변환을 수행하여, 상기 각 키워드에 대응하는 첫소리말 키워드를 생성하는 단계; 상기 전체 키워드 목록에 상기 첫소리말 키워드와 상기 각 키워드를 대응되도록 저장하는 단계; 검색어 입력창을 통해 사용자로부터 첫소리말 검색어를 입력받는 단계; 상기 전체 키워드 목록으로부터 상기 입력된 첫소리말 검색어에 대응하는 하나 이상의 키워드를 검색하고, 상기 검색된 하나 이상의 키워드를 상기 사용자에게 제공하는 단계; 상기 사용자로부터 상기 제공된 하나 이상의 키워드 중 특정 키워드를 선택받는 단계; 및 상기 선택된 특정 키워드에 대한 검색 결과 목록을 상기 사용자에게 제공하는 단계를 포함하는 것을 특징으로 한다.On the other hand, the first spoken index and search method according to another embodiment of the present invention comprises the steps of maintaining the entire keyword list including each keyword; Generating a first spoken keyword corresponding to each keyword by performing first speech conversion on each keyword; Storing the first spoken keyword and each keyword in correspondence with the entire keyword list; Receiving a first search word from a user through a search word input window; Searching one or more keywords corresponding to the input first search word from the entire keyword list and providing the searched one or more keywords to the user; Receiving a selection of a specific keyword from the one or more keywords provided by the user; And providing the user with a list of search results for the selected specific keyword.

일반적인 색인 및 검색 과정General Indexing and Search Process

도 1은 일반적인 색인 및 검색 과정을 나타낸 도면이다.1 is a diagram illustrating a general indexing and searching process.

단계(101)에서 문서가 주어진다. 주어진 문서의 ID를 가칭 D1이라 하여 도 1에 표기하였다.In step 101 a document is given. The ID of the given document is indicated in FIG. 1 as the tentative name D1.

단계(102)에서 D1의 원문이 키워드 추출기로 입력된다. 상기 키워드 추출기는 형태소 분석 기술을 바탕으로 하고 있어 한글 조사 등 불필요한 부분은 빼고 핵심 키워드만 추출해낼 수 있다.In step 102, the original text of D1 is input to the keyword extractor. The keyword extractor is based on the morphological analysis technology, so that only core keywords can be extracted without unnecessary parts such as Hangul survey.

단계(103)에서 키워드를 추출한다. 추출된 키워드는 대개 명사이나, 경우에 따라서는 동사, 형용사, 부사 등이 포함될 수도 있다.In step 103, a keyword is extracted. The extracted keywords are usually nouns, but may include verbs, adjectives, adverbs, etc. in some cases.

단계(104)에서 추출된 키워드들로 역색인 표를 구성한다. 문서를 주면 키워드를 뽑아내는 과정을 색인(Index)이라 한다면, 반대로 키워드를 주면 문서를 알아내는 과정은 색인의 역과정이므로 역색인(Inverted Index)이라는 이름으로 정의한다. An inverted index table is constructed using the keywords extracted in step 104. If a document is given, the process of extracting a keyword is called an index. On the contrary, if a keyword is given, a process of finding a document is an inverse of the index.

역색인 표는 키워드 영역 및 포스팅 데이터 영역을 포함하며, 따라서 단계(104)에서는 해당 키워드를 키워드 영역에 추가하고 그와 연관된 포스팅 데이터 영역에 문서 식별자(ID)를 추가한다. 이 역색인 표에서 포스팅 데이터 영역을 보면 주어진 해당 키워드가 어떤 문서에서 출현했는지를 금방 식별할 수 있으므로, 검색 시에 매우 중요한 역할을 한다. 한편, 역색인 표는 실제 구현에서는 이런 단순한 표가 아닌, B+ 트리처럼 많은 수의 키워드의 탐색에 적합한 구조로 되어 있을 수 있다. 또한, 포스팅 데이터 영역에도 문서 식별자 외에 출현 위치, 출현 빈도, 가중치 등이 같이 저장될 수 있다.The inverted index table includes a keyword area and a posting data area, so step 104 adds the keyword to the keyword area and adds a document identifier (ID) to its associated posting data area. The posting data area in this inverted index table can quickly identify which document a given keyword appears in, so it plays a very important role in the search. On the other hand, the inverted table may not be such a simple table in actual implementation, but may be structured to be suitable for searching a large number of keywords such as B + tree. In addition, the post location, the appearance frequency, the weight, and the like may be stored in the posting data area as well as the document identifier.

이러한 단계(101) 내지 단계(104)의 과정을, 가칭 D2, D3, D4, 등 복수의 문서에 대해 반복 적용하면 색인이 완료된다. 다음으로, 검색 과정을 살펴보도록 한다.When the processes of steps 101 to 104 are repeatedly applied to a plurality of documents such as tentative names D2, D3, D4, and the like, the index is completed. Next, let's look at the search process.

단계(105)에서 사용자가 검색어 입력창에 검색어를 넣는다.In step 105 the user puts a search term in the search term input window.

단계(106)에서 상기 입력한 검색어는 검색식으로 바뀌어 검색 엔진에 주어진다.In step 106, the entered search term is converted into a search expression and given to a search engine.

단계(107)에서 주어진 키워드를 역색인 표에서 탐색한다. 역색인 표가 정렬된 어레이 구조이면 바이너리 써치, B+ 트리이면 B+ 트리 탐색 등 구조에 따라 그에 맞는 탐색 기법이 동원될 수 있다. 그러나 탐색 기법의 차이가 있더라도 효율의 차이가 있을 수는 있지만 결과의 차이는 없다.The keyword given in step 107 is searched in the inverted index table. If the inverted index is an array structure with an ordered array, a binary search may be used, and if the B + tree is a B + tree search, a search method may be employed. However, there may be differences in efficiency even though there are differences in search techniques, but there is no difference in results.

단계(108)에서 탐색 결과 원하는 키워드를 찾으면 그 키워드의 포스팅 데이터 영역을 참조하여 그 키워드가 어떤 문서에서 출현되었는지를 식별한다.When the search finds the desired keyword in step 108, the posting data area of the keyword is referenced to identify in which document the keyword appeared.

단계(109)에서 출현 문서의 문서 식별자를 이용하여 문서값을 가져와 검색 결과 목록을 생성한다.In step 109, the document value is retrieved using the document identifier of the appearance document to generate a search result list.

단계(110)에서 상기 생성된 검색 결과 목록을 화면에 디스플레이하여 상기 사용자에게 제공한다.In step 110, the generated search result list is displayed on the screen and provided to the user.

첫소리말First speech 색인 및 검색 과정 Index and Search Process

도 2는 본 발명에 따른 첫소리말 색인 및 검색 방법의 과정을 나타낸 도면이다. 도 2에 따른 첫소리말 색인 및 검색 방법은 소정의 첫소리말 색인 및 검색 시스템에서 수행될 수 있다.2 is a diagram illustrating a process of a first speech index and search method according to the present invention. The first spoken index and search method according to FIG. 2 may be performed in a predetermined first spoken index and search system.

도 2를 참조하여 본 발명의 색인 및 검색의 흐름에 대해 살펴보도록 한다. 도 2의 단계(201) 내지 단계(210)는 도 1의 단계(101) 내지 단계(110)와 유사하므로, 도 1과 중복되는 설명은 간략히 설명하고 도 2의 특징적 과정에 대해서 자세히 살펴본다.Referring to Figure 2 looks at the flow of the index and search of the present invention. Since steps 201 to 210 of FIG. 2 are similar to steps 101 to 110 of FIG. 1, the description overlapping with FIG. 1 will be briefly described, and the characteristic process of FIG. 2 will be described in detail.

단계(201)에서 문서가 주어진다. 도 1과 마찬가지로 주어진 문서의 ID를 가칭 D1이라 하여 도 2에 표기하였다.In step 201 a document is given. As in FIG. 1, the ID of a given document is denoted in FIG.

단계(202)에서 상기 첫소리말 색인 및 검색 시스템은 D1의 원문을 키워드 추출기로 입력한다.In step 202, the first spoken index and search system inputs the original text of D1 into the keyword extractor.

단계(203)에서 상기 첫소리말 색인 및 검색 시스템은 상기 키워드 추출기를 통해 원문에서 키워드를 추출한다. 이 경우, 상기 키워드 추출기는 형태소 분석을 이용하여 상기 원문으로부터 상기 키워드를 추출할 수 있고, 이는 도 1에서 설명한 것과 동일하다.In step 203, the first speech index and search system extracts keywords from the original text through the keyword extractor. In this case, the keyword extractor may extract the keyword from the original text using morphological analysis, which is the same as described in FIG.

단계(204)에서 상기 첫소리말 색인 및 검색 시스템은 추출된 키워드들로 역색인 표를 구성한다. 역색인 표는 키워드 영역 및 포스팅 데이터 영역을 포함하며, 따라서 단계(204)에서 상기 첫소리말 색인 및 검색 시스템은 해당 키워드를 키 워드 영역에 추가하고 그와 연관된 포스팅 데이터 영역에 문서 식별자(ID)를 추가한다.In step 204, the first spoken index and search system constructs an inverted index table with the extracted keywords. The inverted index table includes a keyword area and a posting data area, so in step 204 the first speech index and search system adds the keyword to the keyword area and assigns a document identifier (ID) to its associated posting data area. Add.

단계(204a)에서 상기 첫소리말 색인 및 검색 시스템은 단계(203)에서 추출된 키워드에 대해 첫소리말 변환을 하고, 단계(204b)에서 상기 추출된 키워드에 대응하는 첫소리말 키워드를 생성한다.In step 204a, the first spoken index and search system converts the first spoken word for the keyword extracted in step 203, and generates a first spoken keyword corresponding to the extracted keyword in step 204b.

이 경우, 먼저 상기 첫소리말 색인 및 검색 시스템은 추출된 키워드가 어떤 문자셋으로 인코딩되어 있느냐에 따라 코드 변환이 필요한지 아닌지를 결정한다. 과거에는 음소별 인코딩이 보존되는 코드셋(KSSM 과거 조합형이라 불리기도 했음)을 사용하기도 했으나, 현재는 표준이 확립되어 그런 경우가 거의 존재하지 않는다. 현재 널리 사용되는 표준 문자셋은 KSC5601-1987, KSC5601-1992, MSWIN949, UTF8 등인데 이는 모두 음절에 대한 일련번호 성격의 코드이므로 코드값을 보더라도 음소별 구분은 되지 않는다. 따라서 음소별 코드 변환은 사실상 필수적인 과정이라고도 할 수 있다.In this case, the first speech index and retrieval system first determines whether or not a code conversion is required depending on which charset the extracted keyword is encoded. In the past, we used codesets (sometimes referred to as KSSM combinations) that preserve per-phone encoding, but nowadays standards are established and very few such cases exist. Currently, the standard character set widely used is KSC5601-1987, KSC5601-1992, MSWIN949, UTF8, etc. These are all serial number codes for syllables. Thus, phoneme-specific code conversion can be said to be an essential process.

다음으로 상기 첫소리말 색인 및 검색 시스템은 변환된 코드에서 초성 코드만 취해서 이를 다시 원래의 문자셋으로 변환하고 이를 통해 주어진 키워드에 대해 첫소리말 키워드를 생성할 수 있다. 이 경우, 한글 키워드가 아닌 키워드, 즉 영숫자 키워드는 무시할 수 있다.Next, the first spoken index and search system can take only the initial code from the converted code and convert it back to the original character set, thereby generating the first spoken keyword for the given keyword. In this case, keywords other than Korean keywords, that is, alphanumeric keywords can be ignored.

단계(204c)에서 상기 첫소리말 색인 및 검색 시스템은 상기 첫소리말 키워드에 대응하여 문서의 문서 식별자(ID)를 저장하는 역색인(Inverted Index) 표를 구성한다. In step 204c, the first spoken index and search system constructs an Inverted Index table that stores the document identifier (ID) of the document corresponding to the first spoken keyword.

첫소리말 키워드 역시 일단 생성되고 나면 일반 키워드와 동일한 표현, 동일한 구조를 갖게 된다. 따라서, 단계(204c)에서 상기 첫소리말 색인 및 검색 시스템은 상기 역색인 표의 키워드 영역에 상기 첫소리말 키워드를 추가하고, 상기 첫소리말 키워드가 추가된 키워드 영역과 연관된 포스팅 데이터 영역에 상기 문서 식별자를 추가함으로써 상기 역색인 표를 구성할 수 있다. 또한, 상기 포스팅 데이터 영역에는 상기 문서 식별자 이외에 상기 첫소리말 키워드와 연관된 문서 내 출현 위치, 출현 빈도 또는 가중치가 함께 저장될 수 있다.Once the first spoken keyword is also created, it has the same expression and structure as the general keyword. Thus, in step 204c, the first spoken index and search system adds the first spoken keyword to the keyword area of the inverted index table and adds the document identifier to the posting data area associated with the keyword area to which the first spoken keyword is added. By doing this, the inverted index table can be configured. In addition, the posting data area may store an appearance position, an appearance frequency, or a weight in a document associated with the first spoken keyword in addition to the document identifier.

이러한 단계(201) 내지 단계(204) 및 단계(204a) 내지 단계(204c)의 과정을, 가칭 D2, D3, D4, 등 복수의 문서에 대해 반복 적용하면 색인이 완료된다. 다음으로, 검색 과정을 살펴보도록 한다.When the processes of steps 201 to 204 and steps 204a to 204c are repeatedly applied to a plurality of documents such as tentatively D2, D3, D4, and the like, the index is completed. Next, let's look at the search process.

단계(205)에서 상기 첫소리말 색인 및 검색 시스템은 검색어 입력창을 통해 사용자로부터 첫소리말 검색어를 입력받는다.In step 205, the first spoken index and search system receives a first spoken search word from a user through a search word input window.

단계(206)에서 상기 입력된 검색어는 검색식으로 바뀌어 검색 엔진에 전달된다.In step 206, the input search word is converted into a search expression and transmitted to a search engine.

단계(207)에서 상기 첫소리말 색인 및 검색 시스템은 상기 역색인 표로부터 상기 입력된 첫소리말 검색어에 해당하는 첫소리말 키워드를 검색한다. 역색인 표가 정렬된 어레이 구조이면 바이너리 써치, B+ 트리이면 B+ 트리 탐색 등 구조에 따라 그에 맞는 검색 기법이 동원될 수 있다.In step 207, the first spoken index and search system searches the first spoken keyword corresponding to the input first spoken keyword from the inverted index table. If the index table is an ordered array structure, a binary search may be used, and if the B + tree is a B + tree search, the appropriate search scheme may be employed.

또한, 본 발명의 일실시예에 따르면, 상기 입력된 첫소리말 검색어의 속성에 따라 우절단 검색, 좌절단 검색, 좌우 절단 검색 중 적어도 하나의 절단 검색 방식으로 상기 첫소리말 키워드를 검색할 수 있는데, 이에 대해서는 후술하도록 한다.In addition, according to an embodiment of the present invention, the first voice keyword may be searched by at least one truncation search method among a right cut search, a frustrated search, and a left and right cut search according to the attribute of the input first search word. This will be described later.

단계(208)에서 상기 첫소리말 색인 및 검색 시스템은 상기 검색된 첫소리말 키워드에 대응하는 문서 식별자를 식별한다. 이 경우, 상기 첫소리말 색인 및 검색 시스템은 상기 검색된 첫소리말 키워드의 포스팅 데이터 영역을 참조하여, 상기 검색된 첫소리말 키워드가 출현한 문서의 문서 식별자를 식별할 수 있다.In step 208, the first spoken index and search system identifies a document identifier corresponding to the retrieved first spoken keyword. In this case, the first spoken index and search system may identify the document identifier of the document in which the searched first spoken keyword appears with reference to the posting data area of the searched first spoken keyword.

단계(209)에서 상기 첫소리말 색인 및 검색 시스템은 상기 식별된 문서 식별자를 이용하여 문서값을 가져와 검색 결과 목록을 생성한다.In step 209, the first spoken index and search system takes a document value using the identified document identifier and generates a search result list.

단계(210)에서 상기 첫소리말 색인 및 검색 시스템은 상기 생성된 검색 결과 목록을 화면에 디스플레이하여 상기 사용자에게 제공한다.In step 210, the first spoken index and search system displays the generated search result list on the screen and provides it to the user.

절단검색 방식Truncation Search Method

다음으로 첫소리말 검색어에도 절단검색 및 동의어 검색을 적용하는 것이 가능한지에 대해서 설명하도록 한다. 아래 표 2에 보면 첫소리말 검색어로도 여러 가지 절단검색이 가능함을 알 수 있다. 예를 들어, 한 손에 무거운 가방을 들고 걸어가면서 다른 한 손으로 스마트폰에 검색어를 입력하는 사용자의 경우는 다소 검색 결과가 많이 나오더라도 검색어를 짧게 치는 것이 도움이 된다고 판단할 수 있을 것이고, 이 경우 절단검색 방식에 따른 검색어 입력 방법은 매우 효과적일 수 있다.Next, it will be described whether it is possible to apply truncation search and synonym search to the first spoken search word. In Table 2 below, it can be seen that various truncation searches are possible even with the first spoken search word. For example, a user who walks with a heavy bag in one hand and enters a search term on a smartphone with the other hand may find it helpful to shorten the search term even though the search results are a lot. In this case, the search term input method according to the truncation search method may be very effective.

Figure 112005064788787-PAT00002
Figure 112005064788787-PAT00002

표 2에서도 설명한 바와 같이, 동의어 검색은 첫소리말 검색에는 잘 부합되지 않는다. 불가능하기 때문이 아니고, 첫소리말 조건만으로 동의어 확장을 시도하면 너무 많은 동의어로 확장될 수 있어서 실효성이 떨어지기 때문이다.As also described in Table 2, synonym searches are not well suited to first-speech searches. This is not because it is not impossible, but if you try to expand the synonym using only the first spoken condition, it can be extended to too many synonyms, which decreases the effectiveness.

검색어 확장 방식Query expansion method

위에서 첫소리말 검색을 위해 색인 시에 첫소리말 키워드를 역색인 표에 저장하는 방식을 설명하였는데, 본 발명에서는 또 다른 구성 형태로 검색어 확장 방식을 제공한다. In the above description, a method of storing the first spoken keyword in an inverted index table at the time of searching for the first spoken word has been described. The present invention provides a search term expansion method in another configuration.

이 방식은 첫소리말 키워드를 미리 역색인 표에 저장하지 않는 대신에 사용자가 입력한 첫소리말 검색어에 맞는 키워드 목록을 사용자에게 제시해서 선택하게 함으로써 첫소리말 검색을 가능하도록 하는 방식이다. 예를 들어, 사용자가 첫소리말 검색어로 'ㅂ, ㅈ, ㅌ'을 입력하면 검색 엔진에서 '비잔틴', '비지터', ... 등의 키워드 목록을 제시하고, 사용자는 그 중에서 자신이 원하는 키워드를 선택하여 검색하게 하는 방식이다.This method does not store the first spoken keyword in the inverse index table, but instead, presents the user with a list of keywords corresponding to the first spoken search word input by the user to select the first spoken search. For example, if a user enters 'ㅂ, ㅈ, ㅌ' as the first spoken query, the search engine will present a list of keywords, such as 'Byzantine', 'visitor', ... Select to search.

도 3은 본 발명에 따른 첫소리말 색인 및 검색 방법의 또 다른 구현 방식인 상기 검색어 확장 방식의 과정을 나타낸 도면으로서, 도 3을 통해 이 방식에 대하여 설명한다. 도 3에 따른 첫소리말 색인 및 검색 방법도 소정의 첫소리말 색인 및 검색 시스템에서 수행될 수 있다.3 is a diagram illustrating a process of the search word expansion method, which is another implementation method of the first speech indexing and searching method according to the present invention. The first spoken index and search method according to FIG. 3 may also be performed in a predetermined first spoken index and search system.

우선 상기 첫소리말 색인 및 검색 시스템은 도 3에 도시된 단계(301) 내지 단계(303)를 수행하기 위한 사전 단계로서, (1) 각 키워드를 포함하는 전체 키워드 목록을 유지하는 단계, (2) 상기 각 키워드에 대해 첫소리말 변환을 수행하여, 상기 각 키워드에 대응하는 첫소리말 키워드를 생성하는 단계, (3) 상기 전체 키워드 목록에 상기 첫소리말 키워드와 상기 각 키워드를 대응되도록 저장하는 단계를 수행할 수 있다.First, the first speech indexing and retrieval system is a preliminary step for performing the steps 301 to 303 shown in FIG. 3, which includes: (1) maintaining an entire keyword list including each keyword, (2) Performing a first speech conversion for each keyword, generating a first speech keyword corresponding to each keyword, and (3) storing the first speech keyword and the respective keywords so as to correspond to the entire keyword list. can do.

상기 첫소리말 색인 및 검색 시스템은 상기 전체 키워드 목록으로 도 1에 도시된 역색인 표를 활용할 수도 있고, 이와 달리 별개로 전체 키워드 목록을 편집할 수도 있다. 또한, 상기 첫소리말 색인 및 검색 시스템은 이렇게 확보한 키워드들에 대해 첫소리말 변환을 하여 각 키워드에 대응하는 첫소리말 키워드를 생성하고, 상기 전체 키워드 목록에 상기 첫소리말 키워드와 상기 각 키워드를 대응되도록 저장하는데, 이렇게 구성된 전체 키워드 목록의 일례가 도 3에 도시되어 있다.The first speech index and search system may utilize the inverted index table shown in FIG. 1 as the entire keyword list, or alternatively, edit the entire keyword list separately. In addition, the first spoken index and search system converts the first spoken keywords to the secured keywords to generate the first spoken keyword corresponding to each keyword, and the first spoken keyword and the respective keywords correspond to the entire keyword list. An example of a complete list of keywords thus constructed is shown in FIG. 3.

단계(301)에서 상기 첫소리말 색인 및 검색 시스템은 검색어 입력창을 통해 사용자로부터 첫소리말 검색어를 입력받는다. 예컨대, 도 3과 같이 상기 첫소리말 색인 및 검색 시스템은 사용자로부터 첫소리말 검색어 'ㅂㅈㅌ'을 입력받을 수 있다.In step 301, the first spoken index and search system receives a first spoken search word from a user through a search word input window. For example, as shown in FIG. 3, the first spoken index and search system may receive a first spoken search word '검색어 ㅈㅌ' from a user.

단계(302)에서 상기 첫소리말 색인 및 검색 시스템은 상기 전체 키워드 목록으로부터 상기 입력된 첫소리말 검색어에 대응하는 하나 이상의 키워드를 검색하고, 상기 검색된 하나 이상의 키워드를 상기 사용자에게 제공한다. 예컨대, 도 3과 같이 상기 첫소리말 색인 및 검색 시스템은 전체 키워드 목록에서 'ㅂ, ㅈ, ㅌ'에 해당하는 키워드들을 검색하여 '비잔틴, 비지터, ...'를 찾을 수 있으며, 이렇게 찾은 키워드를 사용자에게 다시 제시할 수 있다. 또한, 상기 첫소리말 색인 및 검색 시스템은 상기 입력된 첫소리말 검색어의 속성에 따라 우절단 검색, 좌절단 검색, 좌우 절단 검색 중 적어도 하나의 절단 검색 방식으로 상기 하나 이상의 키워드를 검색할 수도 있다.In step 302, the first spoken index and search system retrieves one or more keywords corresponding to the entered first spoken search word from the entire keyword list and provides the searched one or more keywords to the user. For example, as shown in FIG. 3, the first speech index and search system may search for keywords corresponding to 'ㅂ, ㅈ, ㅌ' in the entire keyword list and find 'Byzantine, visitor, ...' Can be presented back to the user. The first spoken index and search system may search the one or more keywords by at least one truncation search method among right cut search, frustrated search and left and right cut search according to the input first search word attribute.

단계(303)에서 상기 첫소리말 색인 및 검색 시스템은 상기 사용자로부터 상기 제공된 하나 이상의 키워드 중 특정 키워드를 선택받는다. 예컨대, 도 3과 같이 상기 첫소리말 색인 및 검색 시스템은 상기 사용자로부터 확장된 검색어 목록 '비잔틴, 비지터, ...'에서 상기 사용자가 원하는 키워드를 선택받을 수 있다.In step 303, the first spoken index and search system receives a specific keyword from the one or more keywords provided by the user. For example, as shown in FIG. 3, the first speech index and search system may receive a keyword selected by the user from the extended search word list 'byzantine, visitor, ...'.

다음 과정으로 상기 첫소리말 색인 및 검색 시스템은 상기 선택된 특정 키워드에 대한 검색 결과 목록을 상기 사용자에게 제공할 수 있으며, 이 과정은 도 1의 단계(105) 내지 단계(110)과 동일하므로 여기서는 자세한 설명을 생략한다. 이와 같이, 검색어 확장 방식은, 확장된 검색어 중 하나를 선택한 다음 단계부터는 도 1에서 설명한 일반적인 검색 방식과 동일하다. 따라서 일반적인 검색 엔진에 이러한 검색어 확장 모듈을 부가함으로써 기존의 검색 엔진에 쉽게 첫소리말 검색어 인터페이스를 붙일 수 있다는 장점이 있다.In the following process, the first speech index and search system may provide the user with a list of search results for the selected specific keyword, which is the same as steps 105 to 110 of FIG. Omit. As described above, the search term expansion method is the same as the general search method described with reference to FIG. 1 from the next step of selecting one of the extended search terms. Therefore, by adding such a search term expansion module to a general search engine, an existing first search term interface can be easily attached to an existing search engine.

본 발명에 따른 첫소리말 색인 및 검색 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 상기 매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The first speech indexing and retrieval method according to the present invention can be implemented in the form of program instructions that can be executed by various computer means and recorded in a computer readable medium. The computer readable medium may include program instructions, data files, data structures, etc. alone or in combination. Program instructions recorded on the media may be those specially designed and constructed for the purposes of the present invention, or they may be of the kind well-known and available to those having skill in the computer software arts. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tape, optical media such as CD-ROMs, DVDs, and magnetic disks, such as floppy disks. Magneto-optical media, and hardware devices specifically configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like. The medium may be a transmission medium such as an optical or metal wire, a waveguide, or the like including a carrier wave for transmitting a signal specifying a program command, a data structure, or the like. Examples of program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like. The hardware device described above may be configured to operate as one or more software modules to perform the operations of the present invention, and vice versa.

도 4는 도 2에 도시된 과정을 수행하는 본 발명의 일실시예에 따른 첫소리말 색인 및 검색 시스템의 구성을 나타낸 블록도이다. FIG. 4 is a block diagram illustrating a configuration of a first speech index and search system according to an exemplary embodiment of the present invention performing the process shown in FIG. 2.

도 4에 도시한 것과 같이, 본 실시예에 따른 첫소리말 색인 및 검색 시스템(400)은 키워드 추출기(401), 첫소리말 변환기(402), 역색인 표 구성부(403), 검색어 입력부(404), 문서 식별부(405), 검색 결과 제공부(406)를 포함할 수 있다. As shown in FIG. 4, the first speech index and search system 400 according to the present embodiment includes a keyword extractor 401, a first speech converter 402, an inverse index table forming unit 403, and a search term input unit 404. The document identification unit 405 and the search result providing unit 406 may be included.

도 4에 도시된 첫소리말 색인 및 검색 시스템(400)은 도 2에 도시된 과정을 수행하기 위한 것으로서, 도 2와 중복되는 설명은 생략하면서 이하에서 각 구성요소의 역할을 간단히 설명한다.The first speech index and search system 400 shown in FIG. 4 is for performing the process shown in FIG. 2, and a description of the overlapping description of FIG. 2 will be omitted.

키워드 추출기(401)는 문서에서 키워드를 추출한다.The keyword extractor 401 extracts a keyword from the document.

첫소리말 변환기(402)는 상기 추출된 키워드에 대해 첫소리말 변환을 수행하여, 상기 추출된 키워드에 대응하는 첫소리말 키워드를 생성한다.The first spoken converter 402 performs first spoken conversion on the extracted keyword to generate a first spoken keyword corresponding to the extracted keyword.

역색인 표 구성부(403)는 상기 첫소리말 키워드에 대응하여 상기 문서의 문서 식별자를 저장하는 역색인(Inverted Index) 표를 구성한다.An inverted index table constructing unit 403 constructs an inverted index table that stores the document identifier of the document in response to the first spoken keyword.

검색어 입력부(404)는 검색어 입력창을 통해 사용자로부터 첫소리말 검색어를 입력받는다.The search term inputter 404 receives a first speech search term from a user through a search term input window.

문서 식별부(405)는 상기 역색인 표로부터 상기 입력된 첫소리말 검색어에 해당하는 첫소리말 키워드를 검색하고, 상기 검색된 첫소리말 키워드에 대응하는 문서 식별자를 식별한다.The document identification unit 405 searches the first spoken keyword corresponding to the input first spoken keyword from the inverted index table and identifies a document identifier corresponding to the searched first spoken keyword.

검색 결과 제공부(406)는 상기 식별된 문서 식별자를 이용하여 문서값을 가져와 검색 결과 목록을 생성하고, 상기 생성된 검색 결과 목록을 상기 사용자에게 제공한다.The search result providing unit 406 obtains a document value by using the identified document identifier, generates a search result list, and provides the generated search result list to the user.

도 5는 도 3에 도시된 과정을 수행하는 본 발명의 다른 실시예에 따른 첫소리말 색인 및 검색 시스템의 구성을 나타낸 블록도이다. FIG. 5 is a block diagram illustrating a configuration of a first speech index and search system according to another embodiment of the present invention performing the process shown in FIG. 3.

도 5에 도시한 것과 같이, 본 실시예에 따른 첫소리말 색인 및 검색 시스템(500)은 첫소리말 변환기(501), 전체 키워드 목록 유지부(502), 검색어 입력부(503), 확장 키워드 제공부(504), 키워드 선택부(505), 검색 결과 제공부(506)를 포함할 수 있다.As shown in FIG. 5, the first spoken index and search system 500 according to the present embodiment includes a first spoken converter 501, an entire keyword list maintaining unit 502, a search term input unit 503, an extended keyword providing unit ( 504, a keyword selecting unit 505, and a search result providing unit 506.

도 5에 도시된 첫소리말 색인 및 검색 시스템(500)은 도 3에 도시된 과정을 수행하기 위한 것으로서, 도 3과 중복되는 설명은 생략하면서 이하에서 각 구성요소의 역할을 간단히 설명한다.The first spoken index and search system 500 shown in FIG. 5 is for performing the process shown in FIG. 3, and a description of the overlapping description of FIG. 3 will be briefly described below.

첫소리말 변환기(501)는 각 키워드에 대해 첫소리말 변환을 수행하여, 상기 각 키워드에 대응하는 첫소리말 키워드를 생성한다.The first spoken converter 501 performs first spoken conversion on each keyword to generate a first spoken keyword corresponding to each keyword.

전체 키워드 목록 유지부(502)는 전체 키워드 목록에 상기 첫소리말 키워드와 상기 각 키워드를 대응되도록 저장하여 유지한다.The entire keyword list holding unit 502 stores and maintains the first spoken keyword and the respective keywords so as to correspond to the entire keyword list.

검색어 입력부(503)는 검색어 입력창을 통해 사용자로부터 첫소리말 검색어를 입력받는다.The search word input unit 503 receives a first spoken search word from a user through a search word input window.

확장 키워드 제공부(504)는 상기 전체 키워드 목록으로부터 상기 입력된 첫소리말 검색어에 대응하는 하나 이상의 키워드를 검색하고, 상기 검색된 하나 이상의 키워드를 상기 사용자에게 제공한다.The extended keyword providing unit 504 searches one or more keywords corresponding to the input first search word from the entire keyword list, and provides the searched one or more keywords to the user.

키워드 선택부(505)는 상기 사용자로부터 상기 제공된 하나 이상의 키워드 중 특정 키워드를 선택받는다.The keyword selector 505 receives a specific keyword from the one or more keywords provided by the user.

검색 결과 제공부(506)는 상기 선택된 특정 키워드에 대한 검색 결과 목록을 상기 사용자에게 제공한다.The search result providing unit 506 provides the user with a list of search results for the selected specific keyword.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. As described above, although the present invention has been described with reference to limited embodiments and drawings, the present invention is not limited to the above embodiments, and those skilled in the art to which the present invention pertains various modifications and variations from such descriptions. This is possible.

그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.Therefore, the scope of the present invention should not be limited to the described embodiments, but should be determined not only by the claims below but also by the equivalents of the claims.

본 발명에 따른 첫소리말 색인 및 검색 방법에 의하면, 검색어 입력 수단이 불편한 장치(휴대폰, 스마트폰, PDA폰 등 모바일 단말, PVR, 인터랙티브 TV 등 지능형 가전)의 사용자가 검색어를 입력할 때 키-스트로크 횟수를 종래보다 훨씬 적게 할 수 있다.According to the first speech index and search method according to the present invention, a key-stroke when a user of a device (mobile terminal such as a mobile phone, a smart phone, a PDA phone, an intelligent home appliance such as a PVR, an interactive TV, etc.) that is inconvenient for a search word input unit enters a search word. The number of times can be made much smaller than before.

또한, 본 발명에 따른 첫소리말 색인 및 검색 방법에 의하면, 사용자가 정확한 키워드가 생각이 나지 않고 검색어의 일부 혹은 소리만 기억한다 해도 검색이 가능하다.In addition, according to the first speech index and search method according to the present invention, even if a user remembers only a part or sound of a search word without thinking of an exact keyword, a search is possible.

또한, 본 발명에 따른 첫소리말 색인 및 검색 방법에 의하면, 검색어 입력에 물리적으로 어려움을 느끼는 사용자(수하물 휴대자, 고령자, 지체장애인 등)도 용이하게 검색이 가능하다.In addition, according to the first speech index and search method according to the present invention, users (physical hand baggage, elderly, handicapped persons, etc.) who have a physical difficulty in entering a search word can be easily searched.

Claims (13)

첫소리말 색인 및 검색 방법에 있어서,In the first speech index and search method, 소정의 키워드 추출기를 통해 문서에서 키워드를 추출하는 단계;Extracting a keyword from a document through a predetermined keyword extractor; 상기 추출된 키워드에 대해 첫소리말 변환을 수행하여, 상기 추출된 키워드에 대응하는 첫소리말 키워드를 생성하는 단계;Performing first speech conversion on the extracted keyword to generate a first speech keyword corresponding to the extracted keyword; 상기 첫소리말 키워드에 대응하여 상기 문서의 문서 식별자를 저장하는 역색인(Inverted Index) 표를 구성하는 단계;Constructing an Inverted Index table that stores the document identifier of the document corresponding to the first spoken keyword; 검색어 입력창을 통해 사용자로부터 첫소리말 검색어를 입력받는 단계;Receiving a first search word from a user through a search word input window; 상기 역색인 표로부터 상기 입력된 첫소리말 검색어에 해당하는 첫소리말 키워드를 검색하고, 상기 검색된 첫소리말 키워드에 대응하는 문서 식별자를 식별하는 단계;Searching for a first spoken keyword corresponding to the input first spoken keyword from the inverted index table, and identifying a document identifier corresponding to the searched first spoken keyword; 상기 식별된 문서 식별자를 이용하여 문서값을 가져와 검색 결과 목록을 생성하는 단계; 및Generating a search result list by retrieving a document value using the identified document identifier; And 상기 생성된 검색 결과 목록을 상기 사용자에게 제공하는 단계Providing the generated list of search results to the user 를 포함하는 것을 특징으로 하는 첫소리말 색인 및 검색 방법.First speech index and search method comprising a. 제1항에 있어서,The method of claim 1, 상기 추출된 키워드에 대해 첫소리말 변환을 수행하여, 상기 추출된 키워드에 대응하는 첫소리말 키워드를 생성하는 상기 단계는,The step of generating a first speech keyword corresponding to the extracted keyword by performing a first speech conversion on the extracted keyword, 상기 추출된 키워드가 어떤 문자셋으로 인코딩되어 있는지에 따라 코드 변환이 필요한지 여부를 결정하는 단계;Determining whether a code conversion is necessary according to which charset the extracted keyword is encoded; 코드 변환이 필요한 경우, 음소별 코드 변환을 수행하는 단계; 및Performing transcoding for each phoneme if transcoding is necessary; And 상기 변환된 코드에서 초성 코드만 취하고 다시 원래의 문자셋으로 변환하여, 상기 추출된 키워드에 대응하는 상기 첫소리말 키워드를 생성하는 단계Taking only the initial code from the converted code and converting it back to the original character set to generate the first spoken keyword corresponding to the extracted keyword 를 포함하는 것을 특징으로 하는 첫소리말 색인 및 검색 방법.First speech index and search method comprising a. 제1항에 있어서,The method of claim 1, 소정의 키워드 추출기를 통해 문서에서 키워드를 추출하는 상기 단계는,The step of extracting a keyword from a document through a predetermined keyword extractor, 상기 문서의 원문을 상기 키워드 추출기에 입력하는 단계; 및Inputting the original text of the document into the keyword extractor; And 상기 키워드 추출기에서 형태소 분석을 이용하여 상기 원문으로부터 상기 키워드를 추출하는 단계Extracting the keyword from the original text using morphological analysis in the keyword extractor 를 포함하는 것을 특징으로 하는 첫소리말 색인 및 검색 방법.First speech index and search method comprising a. 제1항에 있어서,The method of claim 1, 상기 역색인 표는 키워드 영역 및 포스팅 데이터 영역을 포함하고,The inverted index table includes a keyword area and a posting data area, 상기 첫소리말 키워드에 대응하여 상기 문서의 문서 식별자를 저장하는 역색인 표를 구성하는 상기 단계는,The step of configuring an inverted index table for storing the document identifier of the document corresponding to the first spoken keyword, 상기 키워드 영역에 상기 첫소리말 키워드를 추가하고, 상기 첫소리말 키워드가 추가된 키워드 영역과 연관된 포스팅 데이터 영역에 상기 문서 식별자를 추가 하는 단계Adding the first spoken keyword to the keyword area and adding the document identifier to a posting data area associated with the keyword area to which the first spoken keyword is added; 를 포함하는 것을 특징으로 하는 첫소리말 색인 및 검색 방법.First speech index and search method comprising a. 제4항에 있어서,The method of claim 4, wherein 상기 포스팅 데이터 영역에는 상기 문서 식별자 이외에 상기 첫소리말 키워드와 연관된 문서 내 출현 위치, 출현 빈도 또는 가중치가 함께 저장되는 것을 특징으로 하는 첫소리말 색인 및 검색 방법.And a appearing position, a appearing frequency, or a weight in a document associated with the first spoken keyword in addition to the document identifier. 제4항에 있어서,The method of claim 4, wherein 상기 검색된 첫소리말 키워드에 대응하는 문서 식별자를 식별하는 상기 단계는,The step of identifying a document identifier corresponding to the searched first spoken keyword, 상기 검색된 첫소리말 키워드의 포스팅 데이터 영역을 참조하여, 상기 검색된 첫소리말 키워드가 출현한 문서의 문서 식별자를 식별하는 것을 특징으로 하는 첫소리말 색인 및 검색 방법.And a document identifier of a document in which the searched first speech keyword appears, by referring to the posting data area of the searched first speech keyword. 제1항에 있어서,The method of claim 1, 상기 역색인 표로부터 상기 입력된 첫소리말 검색어에 해당하는 첫소리말 키워드를 검색하는 상기 단계는,The step of searching for the first spoken keyword corresponding to the input first search word from the inverted index table, 상기 입력된 첫소리말 검색어의 속성에 따라 우절단 검색, 좌절단 검색, 좌우 절단 검색 중 적어도 하나의 절단 검색 방식으로 상기 첫소리말 키워드를 검색 하는 것을 특징으로 하는 첫소리말 색인 및 검색 방법.The first speech index and the search method, characterized in that for searching the first speech keyword by at least one truncation search method of the right cutting search, frustration search, left and right cut search according to the attribute of the input first speech search word. 첫소리말 색인 및 검색 방법에 있어서,In the first speech index and search method, 각 키워드를 포함하는 전체 키워드 목록을 유지하는 단계;Maintaining a complete list of keywords including each keyword; 상기 각 키워드에 대해 첫소리말 변환을 수행하여, 상기 각 키워드에 대응하는 첫소리말 키워드를 생성하는 단계;Generating a first spoken keyword corresponding to each keyword by performing first speech conversion on each keyword; 상기 전체 키워드 목록에 상기 첫소리말 키워드와 상기 각 키워드를 대응되도록 저장하는 단계;Storing the first spoken keyword and each keyword in correspondence with the entire keyword list; 검색어 입력창을 통해 사용자로부터 첫소리말 검색어를 입력받는 단계;Receiving a first search word from a user through a search word input window; 상기 전체 키워드 목록으로부터 상기 입력된 첫소리말 검색어에 대응하는 하나 이상의 키워드를 검색하고, 상기 검색된 하나 이상의 키워드를 상기 사용자에게 제공하는 단계;Searching one or more keywords corresponding to the input first search word from the entire keyword list and providing the searched one or more keywords to the user; 상기 사용자로부터 상기 제공된 하나 이상의 키워드 중 특정 키워드를 선택받는 단계; 및Receiving a selection of a specific keyword from the one or more keywords provided by the user; And 상기 선택된 특정 키워드에 대한 검색 결과 목록을 상기 사용자에게 제공하는 단계Providing the user with a list of search results for the selected specific keyword 를 포함하는 것을 특징으로 하는 첫소리말 색인 및 검색 방법.First speech index and search method comprising a. 제8항에 있어서,The method of claim 8, 상기 각 키워드에 대해 첫소리말 변환을 수행하여, 상기 각 키워드에 대응 하는 첫소리말 키워드를 생성하는 상기 단계는,The step of performing the first speech conversion for each keyword, generating the first speech keyword corresponding to each keyword, 상기 각 키워드가 어떤 문자셋으로 인코딩되어 있는지에 따라 코드 변환이 필요한지 여부를 결정하는 단계;Determining whether a code conversion is required according to which charset each keyword is encoded; 코드 변환이 필요한 경우, 음소별 코드 변환을 수행하는 단계; 및Performing transcoding for each phoneme if transcoding is necessary; And 상기 변환된 코드에서 초성 코드만 취하고 다시 원래의 문자셋으로 변환하여, 상기 각 키워드에 대응하는 상기 첫소리말 키워드를 생성하는 단계Taking only the initial code from the converted code and converting it back to the original character set to generate the first spoken keyword corresponding to each keyword; 를 포함하는 것을 특징으로 하는 첫소리말 색인 및 검색 방법.First speech index and search method comprising a. 제8항에 있어서,The method of claim 8, 상기 전체 키워드 목록으로부터 상기 입력된 첫소리말 검색어에 대응하는 하나 이상의 키워드를 검색하는 상기 단계는,The step of searching for one or more keywords corresponding to the input first search word from the entire keyword list, 상기 입력된 첫소리말 검색어의 속성에 따라 우절단 검색, 좌절단 검색, 좌우 절단 검색 중 적어도 하나의 절단 검색 방식으로 상기 하나 이상의 키워드를 검색하는 것을 특징으로 하는 첫소리말 색인 및 검색 방법.The first voice index and the search method, characterized in that for searching for the one or more keywords by at least one truncation search method of the right cutting search, frustration search, left and right cut search according to the attribute of the input first search word. 제1항 내지 제10항 중 어느 한 항의 방법을 실행하기 위한 프로그램이 기록되어 있는 것을 특징으로 하는 컴퓨터에서 판독 가능한 기록 매체.A computer-readable recording medium in which a program for executing the method of any one of claims 1 to 10 is recorded. 첫소리말 색인 및 검색 시스템에 있어서,In the first speech index and search system, 문서에서 키워드를 추출하는 키워드 추출기;A keyword extractor for extracting keywords from the document; 상기 추출된 키워드에 대해 첫소리말 변환을 수행하여, 상기 추출된 키워드에 대응하는 첫소리말 키워드를 생성하는 첫소리말 변환기;A first speech converter configured to perform first speech conversion on the extracted keyword to generate a first speech keyword corresponding to the extracted keyword; 상기 첫소리말 키워드에 대응하여 상기 문서의 문서 식별자를 저장하는 역색인(Inverted Index) 표를 구성하는 역색인 표 구성부;An inverted index table constructing unit for constructing an inverted index table for storing a document identifier of the document corresponding to the first spoken keyword; 검색어 입력창을 통해 사용자로부터 첫소리말 검색어를 입력받는 검색어 입력부;A search term input unit which receives a first search term from a user through a search term input window; 상기 역색인 표로부터 상기 입력된 첫소리말 검색어에 해당하는 첫소리말 키워드를 검색하고, 상기 검색된 첫소리말 키워드에 대응하는 문서 식별자를 식별하는 문서 식별부; 및A document identification unit searching for a first spoken keyword corresponding to the input first spoken keyword from the inverted index table and identifying a document identifier corresponding to the searched first spoken keyword; And 상기 식별된 문서 식별자를 이용하여 문서값을 가져와 검색 결과 목록을 생성하고, 상기 생성된 검색 결과 목록을 상기 사용자에게 제공하는 검색 결과 제공부A search result providing unit which retrieves a document value using the identified document identifier to generate a search result list and provides the generated search result list to the user 를 포함하는 것을 특징으로 하는 첫소리말 색인 및 검색 시스템.First speech index and search system comprising a. 첫소리말 색인 및 검색 시스템에 있어서,In the first speech index and search system, 각 키워드에 대해 첫소리말 변환을 수행하여, 상기 각 키워드에 대응하는 첫소리말 키워드를 생성하는 첫소리말 변환기;A first speech converter for performing a first speech conversion for each keyword to generate a first speech keyword corresponding to each keyword; 전체 키워드 목록에 상기 첫소리말 키워드와 상기 각 키워드를 대응되도록 저장하여 유지하는 전체 키워드 목록 유지부;An entire keyword list holding unit for storing and storing the first spoken keyword and the respective keywords corresponding to the entire keyword list; 검색어 입력창을 통해 사용자로부터 첫소리말 검색어를 입력받는 검색어 입 력부;A search term input unit which receives a first search term from a user through a search term input window; 상기 전체 키워드 목록으로부터 상기 입력된 첫소리말 검색어에 대응하는 하나 이상의 키워드를 검색하고, 상기 검색된 하나 이상의 키워드를 상기 사용자에게 제공하는 확장 키워드 제공부;An extended keyword providing unit for searching one or more keywords corresponding to the input first search word from the entire keyword list and providing the searched one or more keywords to the user; 상기 사용자로부터 상기 제공된 하나 이상의 키워드 중 특정 키워드를 선택받는 키워드 선택부; 및A keyword selector configured to select a specific keyword from the one or more keywords provided by the user; And 상기 선택된 특정 키워드에 대한 검색 결과 목록을 상기 사용자에게 제공하는 검색 결과 제공부A search result provider for providing the user with a list of search results for the selected specific keyword 를 포함하는 것을 특징으로 하는 첫소리말 색인 및 검색 시스템.First speech index and search system comprising a.
KR1020050107714A 2005-11-10 2005-11-10 Method and system for indexing and retrieving in search engine and search service using query by initial sound KR100722513B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020050107714A KR100722513B1 (en) 2005-11-10 2005-11-10 Method and system for indexing and retrieving in search engine and search service using query by initial sound

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020050107714A KR100722513B1 (en) 2005-11-10 2005-11-10 Method and system for indexing and retrieving in search engine and search service using query by initial sound

Publications (2)

Publication Number Publication Date
KR20070050305A true KR20070050305A (en) 2007-05-15
KR100722513B1 KR100722513B1 (en) 2007-05-28

Family

ID=38273949

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050107714A KR100722513B1 (en) 2005-11-10 2005-11-10 Method and system for indexing and retrieving in search engine and search service using query by initial sound

Country Status (1)

Country Link
KR (1) KR100722513B1 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012070840A2 (en) * 2010-11-22 2012-05-31 고려대학교 산학협력단 Apparatus and method for consensus search
KR20190043857A (en) * 2017-10-19 2019-04-29 배재대학교 산학협력단 Apparatus and method for extracting paragraph in document
KR20190055936A (en) 2017-11-16 2019-05-24 (주)인크루넷 W3C Web standard technology HTML5 and Java enterprise standard technology JEE 7 book / drawing service system
KR20200036333A (en) * 2018-09-28 2020-04-07 배재대학교 산학협력단 Document analysis-based key element extraction system and method

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100285119B1 (en) * 1998-03-07 2001-03-15 조관현 Method and device for retrieval of Hangul two character string
KR100332830B1 (en) 1999-06-02 2002-04-17 정문식 Hangul input and searching method of electronic equipment having Hangul memory function
KR100320045B1 (en) 1999-06-29 2002-01-09 김효상 Method to control name data for hangul database system
KR100427225B1 (en) 2000-11-03 2004-04-17 주식회사 언어과학 Apparatus for searching character string by basic consonant of Hangul
KR20020094178A (en) 2001-06-12 2002-12-18 김현숙 Method for input and search of hangul

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012070840A2 (en) * 2010-11-22 2012-05-31 고려대학교 산학협력단 Apparatus and method for consensus search
WO2012070840A3 (en) * 2010-11-22 2012-07-19 고려대학교 산학협력단 Apparatus and method for consensus search
US9679001B2 (en) 2010-11-22 2017-06-13 Korea University Research And Business Foundation Consensus search device and method
KR20190043857A (en) * 2017-10-19 2019-04-29 배재대학교 산학협력단 Apparatus and method for extracting paragraph in document
KR20190055936A (en) 2017-11-16 2019-05-24 (주)인크루넷 W3C Web standard technology HTML5 and Java enterprise standard technology JEE 7 book / drawing service system
KR20200036333A (en) * 2018-09-28 2020-04-07 배재대학교 산학협력단 Document analysis-based key element extraction system and method

Also Published As

Publication number Publication date
KR100722513B1 (en) 2007-05-28

Similar Documents

Publication Publication Date Title
KR101300839B1 (en) Voice query extension method and system
US9448995B2 (en) Method and device for performing natural language searches
US7769804B2 (en) Server side search with multi-word word wheeling and wildcard expansion
JP2018005218A (en) Automatic interpretation method and apparatus
JP2018077858A (en) System and method for conversation-based information search
US20020138479A1 (en) Adaptive search engine query
US20070050352A1 (en) System and method for providing autocomplete query using automatic query transform
JPWO2018097091A1 (en) Model creation device, text search device, model creation method, text search method, data structure, and program
JPH1145241A (en) Japanese syllabary-chinese character conversion system and computer-readable recording medium where programs making computer function as means of same system is recorded
WO2012095696A2 (en) Text segmentation with multiple granularity levels
CN101681365A (en) Method and apparatus for distributed voice searching
KR20080034363A (en) System and method for searching information using synonyms
KR100722513B1 (en) Method and system for indexing and retrieving in search engine and search service using query by initial sound
JP4724051B2 (en) Keyword generation method, document search method, topic range estimation method, topic boundary estimation method, apparatus and program thereof, and recording medium thereof
US10817551B2 (en) Method for expanding word, word expanding apparatus, and non-transitory computer-readable recording medium
JP2000148754A (en) Multilingual system, multilingual processing method, and medium storing program for multilingual processing
KR100923936B1 (en) Method and system for providing search result in case query composed of two or more words or a korean word or the like is inputted in japanese dictionary service
JPH06124305A (en) Document retrieving method
JP2005158044A (en) Apparatus, method and program for information retrieval, and computer-readable recording medium stored with this program
US11636271B2 (en) Dialogue apparatus, method and non-transitory computer readable medium
JP5664042B2 (en) SEARCH DEVICE, SEARCH METHOD, SEARCH PROGRAM, AND SEARCH SYSTEM
JPH11259469A (en) Person name preparation method and its device and storage medium
JPH05233696A (en) Method for retrieving data base
CN114036269A (en) Pinyin retrieval method, tool and client
KR101275391B1 (en) Data indexing method and system for serch servise supporting unicode

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
G170 Publication of correction
FPAY Annual fee payment

Payment date: 20130513

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20140521

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20150521

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20160519

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20180518

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20190430

Year of fee payment: 13