KR101026986B1 - Method for searching information based on language expression analysis and method for providing information - Google Patents

Method for searching information based on language expression analysis and method for providing information Download PDF

Info

Publication number
KR101026986B1
KR101026986B1 KR1020080125774A KR20080125774A KR101026986B1 KR 101026986 B1 KR101026986 B1 KR 101026986B1 KR 1020080125774 A KR1020080125774 A KR 1020080125774A KR 20080125774 A KR20080125774 A KR 20080125774A KR 101026986 B1 KR101026986 B1 KR 101026986B1
Authority
KR
South Korea
Prior art keywords
search
information
important
word
text
Prior art date
Application number
KR1020080125774A
Other languages
Korean (ko)
Other versions
KR20100067288A (en
Inventor
정희성
Original Assignee
주식회사 네오패드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 네오패드 filed Critical 주식회사 네오패드
Priority to KR1020080125774A priority Critical patent/KR101026986B1/en
Publication of KR20100067288A publication Critical patent/KR20100067288A/en
Application granted granted Critical
Publication of KR101026986B1 publication Critical patent/KR101026986B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Abstract

언어 표현 해석에 기반한 정보 검색방법 및 정보 제공방법이 제공된다. 본 정보 검색방법은, 입력된 검색어를 의미 있는 단어들로 분리하고, 분리된 단어들이 문장 내에서 어떠한 역할들을 하고 있는지 해석하여 생성한 검색키로 정보를 검색한다. 이에 의해, 검색단어를 논리연산자(AND, OR, NOT)의 조합으로 하여 검색하는 기존의 검색 방식에 비해, 정보의 재현율과 정확도가 훨씬 우수한 검색 방법을 제공할 수 있게 된다.An information retrieval method and an information providing method based on language expression interpretation are provided. In this information retrieval method, the input search word is divided into meaningful words, and the information is searched using a search key generated by analyzing what roles the separated words play in the sentence. As a result, it is possible to provide a retrieval method having a much higher reproducibility and accuracy of information than the conventional retrieval method of retrieving a search word using a combination of logical operators AND, OR, and NOT.

검색, 형태소 처리, 구문 해석, 의도 Search, stemming, parsing, intent

Description

언어 표현 해석에 기반한 정보 검색방법 및 정보 제공방법{Method for searching information based on language expression analysis and method for providing information}Method for searching information based on language expression analysis and method for providing information}

본 발명은 자연언어의 단어, 구, 문장을 검색어로 하여 정보를 제공하고 검색하되 언어 표현 해석을 통해 보다 사용자의 의도에 맞는 정확한 정보 제공과 검색을 가능하게 하는 다기능 정보 검색방법 및 시스템에 관한 것이다.The present invention relates to a multifunctional information retrieval method and system that provides information and searches for words, phrases and sentences of a natural language as a search word, and provides accurate information and retrieval according to a user's intention through language expression analysis. .

최근 정보 및 컨텐츠의 제공자, 소비자의 확대 그리고 다양한 정보 제공 매체의 융합 기술에 대한 개발 요구가 높다. 예를 들면, 유무선 방송 통신기술의 융합 기술, 통합 정보 웹서비스 기술 및 다양한 사용자 계층에 편리한 사용자 인터페이스 기술 개발이 대표적인 것들이다. 이러한 기술의 구체적 내용은 제공되는 또는 제공하는 컨텐츠, 정보의 질 및 의미의 해석을 컴퓨터로 자동 해석하여 정보 컨텐츠 이용자의 취향과 의도에 맞게 그리고 편리하고 다양한 방법으로 이들 정보 컨텐츠가 제시, 제공되는 정보시장기술이 기대되고 있다.Recently, there is a high demand for development of convergence technologies of information and contents providers, consumers, and various information providing media. For example, convergence technology of wired / wireless broadcasting communication technology, integrated information web service technology, and development of user interface technology convenient for various user layers are representative ones. The specific contents of these technologies are to automatically interpret the provided or provided contents, the quality and meaning of the information with a computer, so that the information contents are presented and provided in a convenient and various manner according to the taste and intention of the information contents user. Market technology is expected.

예를 들면, 한국특허 공개번호 제10-2006-0043333호 (데이터의 의도를 판정하고 의도에 기초하여 데이터에 응답하는 시스템 및 방법)은 데이터 핸들링을 용이 하게 하는 시스템으로서, 데이터를 수신하는 컴포넌트 및 상기 데이터의 의도를 판정하고, 상기 의도에 기초하여 적어도 상기 데이터의 부분집합을 재 체계화하며, 상기 재 체계화된 데이터를 사용자에게 자동적으로 제시하는 데이터 관리자를 포함하는 시스템을 목적으로, 상기 데이터 관리자는 상기 데이터를 분석하고, 상기 데이터를 관련 특징을 갖는 하나 이상의 집합으로 분류하며, 상기 데이터의 집합 중 적어도 하나의 집합으로부터 특징들을 추출하여 상기 데이터의 부분집합을 형성하는 시스템으로, 또, 상기 데이터 관리자는, 상기 데이터 분석을 용이하게 하기 위해, 상기 데이터의 메타데이터, 속성, 내용, 문맥, 키워드, 이력, 경험(heuristics), 추론, 규칙, 구분(demarcation), 시간, 요일, 관련된 핸들링 비용, 관련된 핸들링 이득, 소스 중 적어도 하나를 이용하며, 상기 특징은 구문론적 구조, 구문론적 속성, 언어적 구조 및 언어적 속성 중 하나에 적어도 부분적으로 기초하여 추출되는 시스템으로, 상기 언어적 특징은 문장에서 발생하는 단어, 문장에서 발생하는 이중음자 단어(Word bigram) 및 문장에서 발생하는 삼중음자 단어(Word trigram) 중 적어도 하나를 포함하는 시스템을 목적으로 하고 있다.For example, Korean Patent Publication No. 10-2006-0043333 (system and method for determining the intent of data and responding to data based on the intent) is a system for facilitating data handling, comprising: a component for receiving data; For purposes of a system comprising a data manager for determining an intent of the data, reorganizing at least a subset of the data based on the intent, and automatically presenting the reorganized data to a user, A system for analyzing the data, classifying the data into one or more sets having related features, and extracting features from at least one set of the data sets to form a subset of the data; The meta of the data, to facilitate the data analysis Uses at least one of data, attributes, content, context, keywords, history, heuristics, reasoning, rules, demarcation, time of day, day of the week, associated handling costs, associated handling gains, and sources. A system that is extracted based at least in part on one of syntactic, syntactic, linguistic, and linguistic properties, wherein the linguistic features include words that occur in sentences, double-word words that occur in sentences, and An object is to include at least one of the word trigrams generated in a sentence.

한국특허 공개번호 제2002-0028593호 (유해 단어 차단 방법)은 컴퓨터 이용자가 회원정보를 입력하고 관리서버에 접속하는 단계, 상기 컴퓨터 이용자는 상기 관리서버가 디스플레이 시킨 정보입력화면에 등록/전송을 위한 정보를 입력하는 단계, 상기 관리서버의 유해단어차단모듈은 상기 컴퓨터 이용자가 입력한 상기 정보에 유해 단어가 포함되어 있는지를 판단하는 단계, 상기 관리서버는 상기 유해단어차단모듈의 판단 결과에 따라서 컴퓨터 이용자와 연결을 차단하거나, 상기 정보를 등록/전송하는 단계로 이루어지는 것을 특징으로 하는 유해 단어 차단 방법을 특징으로 하고 있으나, 유해 단어에 대한 정의를 은어, 비속어, 성적 모독 또는 인격 모독에 관련한 것을 의미한다 하고 전송되는 메시지에 유해한 단어가 포함되어 있지 않을 경우, 채팅을 계속 진행하는 처리 모듈로 구성되어 있다. 상기 특허는 채팅 상의 메시지 속에 유해단어 포함 여부를 중심으로 한 것이다.Korean Patent Publication No. 2002-0028593 (harmful word blocking method) is a step in which a computer user enters member information and accesses a management server, and the computer user registers / transmits the information input screen displayed by the management server. Inputting information, the harmful word blocking module of the management server determining whether the harmful word is included in the information input by the computer user, and the management server is configured to determine whether the harmful word blocking module Characterized by the harmful word blocking method characterized in that the connection to the user, or the step of registering / transmitting the information, characterized in that the definition of the harmful word refers to slang, profanity, sexual insults or personal insults. If the message you send does not contain harmful words, please It consists of a processing module in progress. The patent is based on the presence of harmful words in the message on the chat.

한국특허 공개번호 제10-2006-0062300호 (유해 사이트 차단을 위한 다단계 텍스트 필터링 방법)은 음란사이트를 차단하기 위한 자료로 사용할 텍스트를 그 음란성 정도로 구분하여 적어도 하나 이상의 집합으로 구분한 후 데이터베이스화하는 단계, 접속중인 웹 사이트로부터 텍스트를 수집하는 단계 및 상기 텍스트를 상기 집합내의 텍스트들과 비교하여 적어도 하나 이상의 다단계 필터링을 수행하여 상기 접속중인 웹사이트의 차단여부를 결정하는 단계를 포함하는 것을 특징으로 하는 유해 사이트 차단을 위한 다단계 텍스트 필터링 방법으로 텍스트 내에 음란성 정도에 따라 유해사이트를 차단하는 것이다.Korean Patent Publication No. 10-2006-0062300 (a multi-step text filtering method for blocking harmful sites) divides the text to be used as a material for blocking pornographic sites into at least one set by dividing it into at least one set and then database And collecting text from a web site being accessed and comparing the text with text in the set to perform at least one multi-step filtering to determine whether to block the web site being accessed. Multi-level text filtering method for blocking harmful sites is to block harmful sites according to the degree of lewdness in the text.

한국특허 공개번호 제10-2006-0087735호 (개선된 스팸성 메시지 필터링을 제공하는 시스템 및 방법)은 스팸성 메시지 필터링을 제공하는 시스템에 있어서, 발신자 단말기로부터 사용자 단말기로 전송되기 위한 메시지를 수신하는 무선 네트워크 서버와, 자연어 문장의 사용례들과 이들 사용례에 대한 부속 정보들이 저장되어 있으며, 이를 각각의 사용 용도에 따라 카테고리별로 분류 가능한 대규모 언어 DB(Database)인 코퍼스DB와, 상기 무선 네트워크 서버에서 상기 메시지의 수신을 감지하고, 상기 수신 메시지에 포함된 문장으로부터 적어도 하나의 명사형 키워드 를 추출하는 어휘 분석부와, 상기 추출된 명사형 키워드들 중 어느 하나를 선택하여, 사용자가 스팸 메시지로 설정한 적어도 하나의 상기 코퍼스 DB의 사용자 카테고리들 각각에 포함된 문장들에서 사용된 스팸 빈도수들과, 상기 사용자 카테고리가 아닌 카테고리에 포함된 문장들에서 사용된 일반 빈도수를 검색하는 코퍼스 검색부와, 상기 적어도 하나의 스팸 빈도수와 상기 일반 빈도수가 입력되면, 상기 선택된 명사형 키워드가 포함된 문장이 상기 사용자 카테고리에 포함될 확률을 산출하는 확률 계산부와, 상기 어휘 분석부와 상기 코퍼스 검색부를 제어하여 상기 확률 계산부로부터 각각의 명사형 키워드마다의 스팸 메시지 포함 확률이 산출되도록 하고, 산출된 확률들에 대한 통계치를 산출하여 상기 수신 메시지가 스팸 메시지인지 아닌지를 판단하며, 판단 결과를 상기 무선 네트워크 서버로 전송하는 필터링 제어부를 구비하는 것을 특징으로 하는 개선된 스팸성 메시지 필터링을 제공하는 시스템으로 메시지의 스팸성을 평가, 분석, 분류하는 방법론이다.Korean Patent Laid-Open Publication No. 10-2006-0087735 (system and method for providing improved spam message filtering) is a system for providing spam message filtering, wherein the wireless network receives a message for transmission from a sender terminal to a user terminal. The server, the use cases of the natural language sentences, and accessory information on these use cases are stored, and a large-scale language database (Corpus DB) which can be classified into categories according to each use purpose, and the corpus DB in the wireless network server. A lexical analysis unit that detects a reception and extracts at least one noun type keyword from a sentence included in the received message, and selects any one of the extracted noun type keywords and sets the user to a spam message In sentences contained in each of the user categories in the Corpus DB. A corpus search unit for searching spam frequencies used and a general frequency used in sentences included in a category other than the user category, and when the at least one spam frequency and the general frequency are input, the selected noun keyword is entered. Probability calculation unit for calculating the probability that the included sentence is included in the user category, and control the lexical analysis unit and the corpus search unit to calculate the spam message inclusion probability for each noun type keyword from the probability calculation unit, calculate And a filtering control unit for calculating whether or not the received message is a spam message by calculating statistical values of the probabilities, and transmitting the determination result to the wireless network server. Assess and analyze the spam of a message, A methodology that kind.

한국특허 공개번호 제10-2008-0000416호 (유해 메시지 여과 시스템과 그 여과 방법 및 이를 기록한 기록매체)은 네트워크를 통하여 연결된 클라이언트로부터 수신되는 메시지를 저장하는 데이터베이스를 구비하고 유해 메시지를 여과하는 시스템에 있어서, 상기 메시지를 수신하는 메시지 수신수단, 수신된 상기 메시지에서 다수의 단어를 추출하는 단어 추출수단, 추출된 상기 다수의 단어를 이용하여 상기 메시지의 유해 메시지 여부를 판단하고 상기 데이터베이스에 저장하는 평가수단을 포함하고, 상기 평가수단은 상기 데이터베이스에 저장된 단어 평가값을 이용하여 상기 메시지의 유해 메시지 여부를 판단하고 상기 메시지를 다수의 유해 메시지 분 류로 세분화하는 것을 특징으로 하는 인터넷 커뮤니티 상의 유해 메시지 여과 시스템으로 메시지의 유해 여부를 분류하는 기술 분야이다. Korean Patent Publication No. 10-2008-0000416 (harmful message filtration system and filtering method thereof and a recording medium recording the same) has a database storing messages received from clients connected through a network, and a system for filtering harmful messages. The method may include: a message receiving means for receiving the message, a word extracting means for extracting a plurality of words from the received message, and determining whether the message is harmful by using the extracted plurality of words, and storing the message in the database; Means for evaluating whether the message is harmful using the word evaluation value stored in the database and subdividing the message into a plurality of harmful message classifications. Of the message A technology to classify it or not.

한국특허 등록번호 제10-0484944호 (국소 구문관계 및 의미 공기사전에 기반한 형태소 의미자동 태깅장치)는 원시문장 형태소 분석 결과로부터 기본 구문 구조 생성 규칙, 의존 구문 규칙, 형태소 의미 전자 사전, 의미 격틀 및 용언구 의미 공기사전을 이용하여 단문을 인식하는 단문 인식수단, 의미 격틀 및 용언구 의미 공기사전을 이용하여 보조사에 대한 격 복원을 수행하는 보조사 격 복원수단, 용언구 공기사전을 이용하여 용언의 논항 명사에 대한 의미를 결정하는 논항 명사 의미 결정수단, 및 명사/조사/명사, 명사/명사의 공기정보로 구성된 명사구 의미 공기사전을 이용하여 명사구내의 명사 및 복합 명사내의 명사들에 대한 의미를 결정하는 명사구 의미 결정수단, 을 포함하는 것을 특징으로 국소 구문관계 및 의미 공기사전에 기반한 형태소 의미 자동 태깅장치에 관한 것으로 언어학적 견지에서 구문 구조 정보를 이용하여 기존의 다른 의미 모호성 장치들보다 정확한 공기 정보인 구문 문맥 정보를 이용함으로써 명사의 의미 모호성을 해결하는 방법을 제시하고 있다.Korean Patent Registration No. 10-0484944 (morphological semantic automatic tagging device based on local syntactic relation and semantic air dictionary) is a basic syntax structure generation rule, dependency syntax rule, stemming semantic electronic dictionary, semantic framework and Short phrase recognition means for recognizing short sentences by means of lexical phrases, semantic frame and lexical phrases Means of restoring the auxiliary fire using auxiliary air dictionaries, lexical argument using lexical phrase air dictionaries Determining the meaning of nouns in noun phrases and compound nouns in a noun phrase using a noun phrase meaning determination means, and a noun phrase that consists of nouns / investigations / nouns and noun / noun air information Means for determining the meaning of a noun phrase, comprising a morpheme based on local syntax and meaning By using the correct syntax air information context information than other existing ambiguity it means that devices using the syntax structure information from the linguistic point of view on auto-tagging devices presents a way to resolve the ambiguity meaning of the noun.

한국특허 등록번호 제10-0757951호 (웹페이지의 형태소 분석을 통한 검색 방법)은 컴퓨터, 노트북, 핸드폰, PDA 등의 클라이언트와, 상기 클라이언트에게 정보를 제공하는 분석서버에 있어서, 상기 클라이언트 사용자가 탭브라우저를 통하여 웹사이트 등에 접속하면, 접속된 사이트의 내용이 탭브라우저에 표시되는 단계, 상기 분석서버는 상기 클라이언트의 탭브라우저에 표시되는 내용에 대한 문맥을 문맥 형태소 분석을 통하여 반복되는 문장, 단어의 빈도수를 식별하는 단계, 상기 식별 된 단어 중에서 기준치 이상의 빈도수를 갖는 문장, 단어를 중요단어인 키워드로 선정하는 단계, 상기 선정된 중요단어를 각 탭브라우저의 제목으로 출력하는 단계, 상기 각 탭브라우저의 제목을 포털사이트의 질의어로 사용하여 검색하고, 검색결과를 별도의 각 탭브라우저의 내용으로 출력시키는 단계를 포함하는 것을 특징으로 하는 웹페이지의 형태소 분석을 통한 검색 방법에 관한 것으로 상기 특허는 검색시스템의 일 방법론으로 텍스트 속에 출현하는 문장수, 단어수를 형태소 처리로 계산하여 그것을 키워드로 탭 웹브라우저 제목으로 출력하는 방법이다.Korean Patent Registration No. 10-0757951 (a search method through stemming analysis of a web page) is a client of a computer, a notebook, a mobile phone, a PDA, and the like, and an analysis server for providing information to the client, wherein the client user taps When the web site is accessed through a browser, the content of the connected site is displayed in a tab browser, and the analysis server analyzes the context of the content displayed in the tab browser of the client through context morpheme analysis. Identifying a frequency, selecting a sentence having a frequency above a reference value among the identified words, selecting a word as a keyword as an important word, outputting the selected important word as a title of each tab browser, Search using the title as a query of the portal site, and search results in each tab The present invention relates to a search method through morphological analysis of a web page comprising the step of outputting the contents of a web page. The patent is a methodology of a search system that calculates the number of sentences and words appearing in text by morphological processing. How to output it as a tab web browser title as a keyword.

한국특허 등록번호 제10-0691400호 (부가 정보를 이용하여 형태소를 분석하는 방법 및 상기 방법을 수행하는 형태소 분석기)는 형태소 분석방법에 있어서, 검색 색인용 데이터로부터 형태소 분석 대상 및 상기 형태소 분석 대상과 연관된 부가 정보를 획득하는 단계, 상기 부가 정보에 기초하여 키(Key)를 생성하는 단계, 및 상기 키를 활용하여 상기 형태소 분석 대상에 대해 형태소 분석을 수행하는 단계를 포함하는 것을 특징으로 하는 형태소 분석 방법이다.Korean Patent Registration No. 10-0691400 (a method for analyzing a morpheme using additional information and a morpheme analyzer for performing the method), in a morpheme analysis method, includes a morphological analysis target and a morphological analysis target from a search index data. Obtaining an associated additional information, generating a key based on the additional information, and performing a morphological analysis on the morphological analysis object using the key. It is a way.

한국특허 공개번호 제10-2007-0029389호 (핵심 키워드를 이용한 광고서비스 제공방법, 시스템 및 이를 구현하기 위한 프로그램이 기록된 기록매체)는 핵심 키워드를 이용한 키워드 광고 서비스를 제공하기 위해 디지털 처리 장치에 의해 실행될 수 있는 명령어들의 프로그램이 유형적으로 구현되어 있으며 디지털 처리 장치에 의해 판독될 수 있는 기록매체로서, 컨텐츠 텍스트의 형태소를 분석하여 키워드를 추출하는 단계, 광고 키워드 DB 서버와의 인터페이싱을 통해 핵심 키워드를 결정하는 단계, 광고 DB 서버와의 인터페이싱을 통해 상기 핵심 키워드에 매칭되는 광고 리스트를 수신하는 단계 및 상기 광고 리스트에 포함된 광고 중 적어도 하나를 상기 컨텐츠 텍스트에 삽입하는 단계를 수행하는 프로그램이 기록된 기록매체이다.Korean Patent Publication No. 10-2007-0029389 (a method for providing an advertisement service using a core keyword, a system and a recording medium on which a program for implementing the same) is recorded is provided to a digital processing apparatus to provide a keyword advertisement service using a core keyword. A program of instructions that can be executed by a program is tangibly embodied and can be read by a digital processing device. The method includes extracting keywords by analyzing the morphemes of content texts, and key keywords through interfacing with an advertisement keyword DB server. Determining an advertisement, receiving an advertisement list matching the core keyword through interfacing with an advertisement DB server, and inserting at least one of advertisements included in the advertisement list into the content text. Recording media.

한국특허 공개번호 제10-2006-0011333호 (메시지 분석을 통한 지역정보 제공 시스템 및 그 방법)은 지역 및 업종 별로 광고 정보를 저장하고 있는 데이터베이스, 저장된 단문 메시지 또는 문자 메시지를 분석하기 위한 메시지 인식수단, 저장된 음성 메시지를 분석하기 위한 음성 인식수단, 가입자 단말기의 현재 위치를 확인하기 위한 위치정보 수집수단, 서비스 가입자와 관련된 메시지가 저장되어 있는지를 상기 메시지 인식수단과 음성 인식수단으로 요청하고, 상기 메시지 인식수단과 음성 인식수단으로부터 전달된 메시지 분석 결과를 확인하여, 선택적으로 상기 위치정보 수집수단으로 가입자 단말기의 현재 위치 정보를 요청하며, 원하는 정보를 가입자 단말기로 전달하기 위해 상기 메시지 분석 결과에 따른 원하는 업종과 지역 정보를 제공하는 서비스 제어수단 및 상기 서비스 제어수단으로부터 전달된 업종과 지역 정보를 이용해 상기 데이터베이스로부터 정보를 검색하여, 검색 결과를 단문 메시지에 포함시켜 가입자 단말기로 전송하는 SMS 생성수단을 포함하는 것을 특징으로 하는 메시지 분석을 통한 지역정보 제공 시스템이다.Korean Patent Publication No. 10-2006-0011333 (Regional Information Providing System and Method through Message Analysis) is a database for storing advertisement information for each region and industry, message recognition means for analyzing stored short messages or text messages. Requesting the message recognition means and the voice recognition means to store the voice recognition means for analyzing the stored voice message, the location information collecting means for confirming the current location of the subscriber station, and the message related to the service subscriber. Confirming the message analysis result transmitted from the recognition means and the voice recognition means, optionally request the current location information of the subscriber station to the location information collecting means, and desired according to the message analysis result to deliver the desired information to the subscriber terminal Services that provide industry and local information Message generation means for retrieving information from the database using the business type and area information transmitted from the service control means and the service control means, and including the search result in a short message and transmitting the result to the subscriber station. Local information provision system through.

한국특허 공개번호 제10-2007-0015752호 (광고 유발 메시징 서비스 시스템 및 그 방법)은 광고 유발 메시징 서비스 시스템에 있어서, 발신단말기로부터 전송된 메시지를 분석하여 광고 유발 식별자를 검출하면, 미리 지정된 광고메시지를 상기 발신단말기로 전송한 후, 상기 메시지의 내용을 수신단말기로 전송하는 메시지 서버를 포함하는 것을 특징으로 하는 광고 유발 메시징 서비스 시스템이다.Korean Patent Publication No. 10-2007-0015752 (Advertising-induced messaging service system and method thereof) is an advertisement-induced messaging service system that detects an advertisement-inducing identifier by analyzing a message transmitted from a calling terminal, and then designates a predetermined advertisement message. After transmitting to the calling terminal, and the message server for transmitting the contents of the message to the receiving terminal.

한국특허 등록번호 제10-0775680호 (이동통신 단말기의 채팅을 이용한 광고 컨텐츠 제공 방법 및 그 시스템)은 무선 통신망을 통해 접속된 이동통신 단말기와 서버 사이에서 메신저를 통해 서로 메시지를 주고받는 방법에 있어서, 상기 서버와 접속된 상기 이동통신 단말기가 채팅 대상의 임의의 가상 대화 상대를 선택하는지 판단하는 단계와, 상기 서버에서는 상기 이동통신 단말기의 사용자 선호 정보에 따라 광고 컨텐츠 상품의 채팅 시나리오를 추출하여 상기 시나리오 규칙에 따른 메시지를 상기 이동통신 단말기로 전송하는 단계와, 상기 이동통신 단말기에서 상기 서버의 메시지에 대한 응답 메시지를 전송하는 단계와, 상기 서버에서 수신된 상기 이동통신 단말기의 메시지를 분석하여 사용자 의도와 상기 시나리오 규칙에 따라 광고 컨텐츠 정보 추천 허가를 요청하는 메시지를 상기 이동통신 단말기로 전송하는 단계와, 상기 서버에서는 상기 이동통신 단말기에서 상기 광고 컨텐츠 정보 추천을 허가하는 메시지를 전송할 경우 상기 광고 컨텐츠 정보를 상기 이동통신 단말기로 전송하는 단계를 포함하며, 상기 서버에서 상기 이동통신 단말기에 메시지를 전송하는 단계는 이전에, 상기 서버에서 상기 이동통신 단말기의 메시지를 분석하여 상기 사용자의 의도에 대응되게 상기 메신저의 캐릭터 상태를 조정하는 단계를 더 포함하는 것을 특징으로 하는 이동통신 단말기의 채팅을 이용한 광고 컨텐츠 제공 방법이다.Korean Patent Registration No. 10-0775680 (Method and system for providing advertisement contents using a chat of a mobile communication terminal) is a method of exchanging messages with each other through a messenger between a mobile communication terminal and a server connected through a wireless communication network. Determining whether the mobile communication terminal connected to the server selects a virtual chat partner to be chatted with, and the server extracts a chat scenario of an advertisement content product according to user preference information of the mobile communication terminal. Transmitting a message according to a scenario rule to the mobile communication terminal, transmitting a response message to the message of the server in the mobile communication terminal, and analyzing the message of the mobile communication terminal received from the server. Advertising content information according to the intention and the above scenario rule Transmitting a message requesting the cloth permission to the mobile communication terminal; and transmitting the advertisement content information to the mobile communication terminal when the server transmits a message for recommending the advertisement content information from the mobile communication terminal. The transmitting of the message to the mobile terminal by the server may include: previously, analyzing the message of the mobile terminal by the server and adjusting a character state of the messenger according to the intention of the user. Advertising content providing method using a chat of the mobile communication terminal further comprising.

한국특허 등록번호 제10-0597435호 (정보검색 및 질문응답시스템에서의 하이브리드 기반 질문분류 시스템 및 방법)은 입력된 질문에 포함된 작품명을 인식하는 질문 작품명 처리부, 질문을 형태소분석, 개체명 인식, 어휘 의미태깅 과정을 통해 개개의 어휘를 의미 있는 코드로 변환하는 질문 언어분석부, 질문의 의미 있는 LSP 형태 코드와 미리 정의된 질문분류 규칙을 이용하여 질문이 요구하는 정답 유형을 분류하는 규칙기반 질문분류부, 질문의 정답유형이 태깅된 학습문서로부터 구축된 통계정보를 이용하여, 질문의 LSP 코드에 대한 분류를 수행하는 통계기반 질문분류부 및 규칙기반 질문분류와 통계기반 질문분류의 결과를 이용하여 최종적으로 사용자의 질문에 대한 정답의 유형을 판별하는 질문 정답유형 결정부를 포함하는 것을 특징으로 하는 정보검색 및 질문응답시스템에서의 하이브리드 기반 질문 분류 시스템방법이다.Korean Patent Registration No. 10-0597435 (Hybrid-based Question Classification System and Method in Information Retrieval and Question Answer System) is a question title processing unit that recognizes the name of the work included in the input question, a morphological analysis of the question, and an individual name. Question language analysis unit that converts individual vocabularies into meaningful codes through recognition and lexical semantic tagging process, and rules that classify the correct type of answers required by the question using meaningful LSP form codes of the questions and predefined question classification rules. Based question classification unit, statistics based question classification unit for classifying questions LSP code using statistical information constructed from learning document tagged correct question type, result of rule based question classification and statistics based question classification And a question correct answer type determiner which finally determines the type of the correct answer to the user's question using Hybrid based question classification system in information retrieval and question answering system.

한국특허 등록번호 제10-0361166호 (정보 검색 시스템 및 그 방법)은 다수의 정보들이 분야별로 분류되고, 분류된 분야마다 코드가 부여되어 있으며, 각 분야의 코드와 연관하여 해당 분야에 포함되는 다수의 정보를 나타내는 단어들이 코드화 되어 있는 데이터 베이스와 데이터를 검색하고자 하는 이용자가 통신 장치를 이용하여 네트워크를 통해 접속한 후 검색하고자 하는 정보를 나타내거나 해당 정보가 속하는 분야를 나타내는 단어들을 입력하면, 입력된 단어들을 코드화하고 코드화된 단어들을 토대로 하여 상기 데이터 베이스를 검색하여 코드화된 단어들에 해당하는 정보를 찾는 처리 장치를 포함하며, 상기 데이터 베이스에 저장된 정보는 다수의 정보 영역으로 분류되고 상기 정보 영역에는 각각 정보 분류 코드가 할당되고 하나 이상의 세부 정보 영역으로 분류되며, 상기 세부 정보 영역들은 해당 정보 영역의 정보 분류 코드와 연관하여 코드화되며, 상기 정보를 나타내는 단어들 중 서로 동 일하거나 비슷한 의미를 가지는 단어들은 동일한 코드로 저장되어 있으며, 각 단어 코드들은 설정된 순서로 배열되어 있는 정보 검색 시스템 방법이다.Korean Patent Registration No. 10-0361166 (Information Retrieval System and Method) includes a plurality of information classified by a field, a code is assigned to each classified field, and a plurality of information included in the corresponding field in association with a code of each field. If a user who wants to search the data is coded with a database representing words of information and a user who wants to search the data is connected through a network using a communication device, and inputs a word indicating the information to be searched or indicates a field to which the information belongs, A processing device for encoding the coded words and searching the database based on the coded words to find information corresponding to the coded words, wherein the information stored in the database is classified into a plurality of information areas and the information area. Each is assigned an information classification code and contains one or more details. The detailed information areas are coded in association with an information classification code of the corresponding information area, and words having the same or similar meaning among the words representing the information are stored with the same code, and each word code These are information retrieval system methods arranged in a set order.

한국특허 공개번호 제10-2005-0092955호 (온라인 광고 시스템 및 광고 방법)은 광고될 정보가 저장되어 있는 제1저장장치, 원본 컨텐츠가 저장되어 있는 제2저장장치, 제2저장장치로부터 원본 컨텐츠를 가져와 자연어 처리 기법을 통해 분석하고, 이 분석 결과에 대응하는 광고될 정보를 제1저장장치로부터 가져와 상기 광고 정보 중 일부를 상기 원본 컨텐츠에 삽입하는 적어도 하나의 서버 그리고 상기 적어도 하나의 서버에 의해 상기 광고 정보가 삽입된 컨텐츠가 저장되어 있는 제3 저장장치를 포함하는 것을 특징으로 하는 온라인 광고 시스템 방법이다Korean Patent Publication No. 10-2005-0092955 (Online Advertising System and Advertising Method) includes a first storage device for storing information to be advertised, a second storage device for storing original content, and original content from a second storage device. At least one server to take a and analyze the natural language processing technique, the information to be advertised corresponding to the analysis result from the first storage device and insert some of the advertisement information into the original content and by the at least one server And a third storage device storing the content in which the advertisement information is inserted.

한국특허 등록번호 제10-0669534호 (문장추상화와 개연규칙을 활용하는 문서요약 방법과 시스템, 그리고 문장 의미 분석 및 표현방법)은 요약하고자 하는 문서 내용에 대해 입력, 저장하는 문장입력 단계; 상기 단계에서 저장되는 데이터에 대해 구문 분석, 저장하는 구문분석 단계; 상기 단계에서의 구문 데이터들을 순차적으로 읽어 들여 각 문장에서 주요성분들을 추출하고, 이 온톨로지 데이터를 저장하는 문장 주요성분 추출 단계; 상기 단계에서의 온톨로지 데이터 값을, 선별된 주요 구성요소들 각각이 갖는 의미에 대한 소정의 분류기준인 인식상위범주 정보와 비교하여, 선별된 주요 구성요소 각각에 대한 추상적인 의미로 파악되는 데이터 값을 저장하는 문장추상화 단계; 상기 단계에서의 저장 값을 읽어 들여 개연규칙 프로그램 가동장치부로 입력시켜서 구문간 개연성을 갖는 다수 화제문을 선정하고, 선정된 다수 화제문에 대한 식별값들을 각각 저장하는 화제문 선정 단계; 상기 단계에 서 저장된, 선별된 주요 구성요소들에 대하여 파악된 추상적인 의미의 해당 값들을 읽어들여 문법적인 요약 문장으로 조합하고, 저장하는 요약문 작성 단계; 출력 제어신호가 있는지를 판단하여 그럴 경우 상기 단계에서 저장된 데이터 값이 출력수단의 가동을 통하여 출력, 표시되게 하는 요약문 출력 단계를 포함하는, 문장추상화와 개연규칙을 활용한 문서 요약 방법에 관한 것이다.Korean Patent Registration No. 10-0669534 (document summary method and system using sentence abstraction and probability rule and sentence meaning analysis and expression method) includes a sentence input step of inputting and storing document contents to be summarized; A parsing step for parsing and storing the data stored in the step; A sentence main component extraction step of sequentially reading the syntax data in the step, extracting main components from each sentence, and storing the ontology data; The ontology data value in the step is compared with the cognitive upper category information, which is a predetermined classification criterion for the meaning of each of the selected main elements, and the data value identified as the abstract meaning for each of the selected main elements. Sentence abstracting step of storing; A topic selection step of reading a stored value in the step and inputting it into a probability rule program operating unit to select a plurality of topics having probability between phrases, and storing identification values for the selected plurality of topics respectively; A summary sentence preparation step of reading the corresponding values of the abstract meanings identified for the selected main elements stored in the above step, combining them into grammatical summary sentences, and storing the summary values; And a summary sentence output step of judging whether there is an output control signal and, if so, outputting and displaying the data value stored in the step through the operation of the output means.

한국특허 등록번호 제10-0836878호 (정보 검색 시스템에서의 주제 또는 분야 할당 장치 및 그 방법)은 인터넷을 통해 사용자 단말, 웹 포털 사이트, 웹 사이트와 연결되어 정보를 검색하고 검색된 정보를 제공하는 정보 검색 시스템에서의 주제 또는 분야 할당 장치로서, 상기 정보 검색 서버는, 질의어 또는 문서에 대응하는 색인어를 기반으로 문서에 대하여 정보 검색을 수행하는 검색 엔진과; 상기 검색 엔진에서 검색된 정보를 저장하고 관리하는 데이터베이스와; 상기 데이터베이스에 저장된 원문으로부터 색인어를 추출하여 색인어에 의한 시소러스 매칭을 수행하여 원문에 대한 주제 또는 분야 할당을 수행하는 시소러스 매칭부와; 상기 데이터베이스에 저장된 정의문으로부터 용어를 추출하여 추출한 용어에 의해 주제를 할당하고 택소노미를 사용하여 분야를 할당하는 택소노미 처리부;를 포함하여 구성되는 것을 특징으로 하는 정보 검색 시스템에서의 주제 또는 분야 할당 장치에 관한 것이다.Korean Patent Registration No. 10-0836878 (a subject or field allocating apparatus and method thereof in an information retrieval system) is connected to a user terminal, a web portal site, or a web site through the Internet to search for information and provide searched information. A subject or field assignment apparatus in a search system, the information search server comprising: a search engine for performing an information search on a document based on a query word or an index word corresponding to a document; A database for storing and managing information retrieved from the search engine; A thesaurus matching unit for extracting an index word from the original text stored in the database and performing a thesaurus matching by the index word to assign a subject or a field to the original text; A subject in an information retrieval system comprising a; taxonomy processing unit for extracting a term from a definition sentence stored in the database and assigning a subject using the extracted term and assigning a subject using a taxonomy A field allocation device.

또한, 현재 구글, 야후 등 대형 정보 검색 포탈이 사용하고 있는 정보 검색 시스템은 "단어" 단위의 검색키방식이 중심이며 비록 '구' 단위 입력을 가능하게 한다 해도 입력되는 '구'의 고도기술에 따른 언어처리 방법이라기보다는 N그램 기 반 색인키를 논리연산자(AND, OR, NOT)로 연결하여 검색 결과를 제시하는 정도임으로 현행기술로서는 정보 검색의 재현성, 정확성 향상에는 한계가 있다. 특히 차세대 정보검색분야로서 '모바일정보검색' 기술이 주목을 받고 있고 새로운 웹검색기술이 '시멘틱 웹' 기술이 제안되고 논의 중이나 특별히 성공적인 사례는 없다.In addition, the information retrieval system used by large information search portals such as Google and Yahoo is mainly based on the search key method of "word" unit, even though the "old" unit input is possible, Rather than the linguistic processing method, Ngram-based index keys are connected by logical operators (AND, OR, NOT) to present search results. Therefore, current technology has a limitation in improving reproducibility and accuracy of information retrieval. In particular, 'mobile information retrieval' technology is attracting attention as the next generation information retrieval field, and the new web retrieval technology is being proposed and discussed.

본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, 단어 단위를 검색어로 하는 정보 검색 시스템에서 구 단위, 문장 단위로 검색키를 확장하여 정보 검색 시스템의 사용자 인터페이스를 보다 편리하게 할 뿐 아니라 정보의 제공, 검색, 분류, 평가, 모니터링 등의 다기능이 통합 처리 가능한 다기능 통합 정보 검색/제공시스템을 제공하는데 있다.SUMMARY OF THE INVENTION The present invention has been made to solve the above problems, and an object of the present invention is to expand the search key by phrase unit and sentence unit in an information retrieval system using a word unit as a search word to view a user interface of the information retrieval system. It is not only convenient, but also provides a multifunctional integrated information retrieval / provision system capable of integrated processing of information provision, search, classification, evaluation, and monitoring.

상기 목적을 달성하기 위한 본 발명에 따른, 정보 검색방법은, 검색어를 입력받는 단계; 상기 검색어를 의미 있는 단어들로 분리하는 단계; 분리된 단어들이 문장 내에서 어떠한 역할들을 하고 있는지 해석하는 단계; 상기 해석단계의 해석결과를 토대로, 검색키를 생성하는 단계; 및 상기 생성단계에서 생성된 검색키를 이용하여 정보를 검색하는 단계;를 포함한다.In accordance with an aspect of the present invention, an information retrieval method includes: receiving a search word; Separating the search term into meaningful words; Interpreting what roles separate words play in the sentence; Generating a search key based on the analysis result of the analyzing step; And searching for information using the search key generated in the generating step.

그리고, 상기 입력단계는, 구 단위 및 문장 단위로 상기 검색어를 입력받을 수 있다.In the input step, the search word may be input in units of phrases and sentences.

또한, 상기 해석단계는, 상기 분리된 단어들이 문장 내에서 어떠한 역할들을 하고 있는지 해석하기 위해, 구문문법 규칙사전을 참조하며, 상기 구문문법 규칙사전은, 구구조문법, 격문법, 의존문법 및 어휘문법 중 적어도 하나가 수록되어 있는 것이 바람직하다.In addition, the interpreting step refers to a syntax grammar rule dictionary in order to interpret what roles the separated words play in the sentence, and the syntax grammar rule dictionary includes a syntax, grammar, dependent grammar and vocabulary. At least one of the grammars is preferably contained.

그리고, 상기 분리단계는, 상기 검색어를 품사 별로 분리하는 것이 바람직하다.In the separating step, it is preferable to separate the search word by parts of speech.

또한, 상기 분리단계는, 형태소 사전에 데이터 베이스화되어 있는 각 단어의 품사에 대한 정보를 참조하여, 상기 검색어를 품사 별로 분리하는 것이 바람직하다.In addition, in the separating step, it is preferable to divide the search word by parts of speech by referring to the information on the parts of speech of each word in the morpheme dictionary.

그리고, 상기 검색키 생성단계는, 상기 검색어를 구성하는 단어들이 상기 검색어 내에서 어떠한 문법적 관계 및 의미적 관계를 가지는지를 해석하여 얻어지는 구문 표현식을 상기 검색키로 생성하는 것이 바람직하다.In the search key generation step, it is preferable to generate a syntax expression obtained by analyzing the grammatical and semantic relations of the words forming the search word in the search key.

또한, 상기 구문 표현식은, 논리식, 수식-피수식 및 구문목 리스트식 중 적어도 하나인 것이 바람직하다.In addition, the syntax expression is preferably at least one of a logical expression, a formula-defense expression, and a syntax list item.

그리고, 상기 해석하는 단계는, 상기 단어들을 동의어로 교체하고 난 후에도 수행하는 것이 바람직하다.The interpreting may be performed even after the words are replaced with synonyms.

또한, 상기 정보 검색단계는, 완전 검색, 부분 검색, 연관 검색 및 동류매치 검색 중 적어도 하나를 수행하는 것이 바람직하다.In addition, the information retrieval step, it is preferable to perform at least one of a complete search, a partial search, an association search, and a similarity search.

그리고, 상기 정보 검색단계에서의 검색결과에 부가서비스를 부가하는 단계;를 더 포함하는 것이 바람직하다.The method may further include adding an additional service to the search result in the information retrieval step.

또한, 상기 부가서비스는, 컨텐츠 문맥 지각형(Context awareness) 서비스이 고, 상기 컨텐츠 문맥 지각형은, 안내서비스, 매매서비스, 광고서비스, 교육서비스, 상담서비스, 추천서비스, 경매서비스 및 행정서비스 중 적어도 하나를 포함하는 것이 바람직하다.The additional service may be a content context awareness service, and the content context awareness service may include at least one of a guide service, a trading service, an advertisement service, an education service, a counseling service, a recommendation service, an auction service, and an administrative service. It is preferable to include one.

한편, 본 발명에 따른, 정보 검색방법은, 텍스트를 수집하는 단계; 상기 텍스트의 중요구와 중요문장 중 적어도 하나를 추출하는 단계; 상기 중요구와 중요문장 중 적어도 하나를 이용하여 색인키를 생성하는 단계; 및 상기 색인키를 이용하여 정보 검색에 이용되는 색인파일을 생성하여 저장하는 단계;를 포함한다.On the other hand, the information retrieval method according to the invention, the step of collecting text; Extracting at least one of an important phrase and an important sentence of the text; Generating an index key using at least one of the key phrase and the key sentence; And generating and storing an index file used for information retrieval using the index key.

그리고, 상기 텍스트는, 네트워크를 통해 접근가능한 컨텐츠에 포함되어 있는 텍스트인 것이 바람직하다.In addition, the text is preferably text included in content accessible through a network.

또한, 본 정보 검색방법은, 상기 수집단계에서 수집된 텍스트를 의미 있는 단어들로 분리하는 단계; 분리된 단어들 중에서 중요단어를 추출하는 단계; 및 상기 중요단어가 문장 내에서 어떠한 역할들을 하고 있는지 해석하는 단계;를 더 포함하고, 상기 추출단계는, 상기 중요단어 및 상기 해석단계의 해석결과를 토대로, 상기 텍스트의 중요구와 중요문장 중 적어도 하나를 추출하는 것이 바람직하다.The information retrieval method may further include: separating the text collected in the collecting step into meaningful words; Extracting important words from the separated words; And analyzing what roles the important word plays in a sentence, wherein the extracting step comprises at least one of an important phrase and an important sentence of the text, based on an analysis result of the important word and the interpretation step; It is preferable to extract.

그리고, 상기 추출단계는, 상기 중요단어가 전후에 수록되어 있는 명사구를 중요구로 추출하고, 상기 중요단어와 함께 문장 내에서 출현하는 용언을 중요단어와 함께 중요문장으로 추출하는 것이 바람직하다.In the extracting step, it is preferable to extract the noun phrases containing the important words before and after as important phrases, and extract the words appearing in the sentence together with the important words as important sentences.

또한, 상기 중요단어는, 상기 분리된 단어들 중 상기 텍스트에서 출현빈도가 높은 단어인 것이 바람직하다.In addition, the important word is a word having a high frequency of appearance in the text among the separated words.

그리고, 상기 해석단계는, 상기 중요단어가 문장 내에서 어떠한 역할들을 하 고 있는지 해석하기 위해, 구문문법 규칙사전을 참조하며, 상기 구문문법 규칙사전은, 구구조문법, 격문법, 의존문법 및 어휘문법 중 적어도 하나가 수록되어 있는 것이 바람직하다.And, the interpreting step, to interpret what role the important words play in the sentence, refers to a syntax grammar rule dictionary, the syntax syntax rule dictionary, a syntax structure grammar, grammar, dependent grammar and vocabulary At least one of the grammars is preferably contained.

또한, 상기 분리단계는, 상기 텍스트를 품사 별로 분리하는 것이 바람직하다.In addition, in the separating step, it is preferable to separate the text by parts of speech.

그리고, 상기 분리단계는, 형태소 사전에 데이터 베이스화되어 있는 각 단어의 품사에 대한 정보를 참조하여, 상기 텍스트를 품사 별로 분리하는 것이 바람직하다.In the separating step, it is preferable to divide the text by parts of speech by referring to the information on the parts of speech of the words that are databased in the morpheme dictionary.

또한, 상기 색인키 생성단계는, 상기 중요구와 중요문장를 구성하는 단어들이 상기 중요구 및 상기 중요구와 중요문장 내에서 어떠한 문법적 관계 및 의미적 관계를 가지는지를 해석하여 얻어지는 구문 표현식을 상기 색인키로 생성하는 것이 바람직하다.In addition, the index key generation step may generate a syntax expression obtained by analyzing the grammatical and semantic relations in the important phrase and the important phrase and the important phrase in the important phrase and the important phrase as the index key. It is preferable.

그리고, 상기 구문 표현식은, 논리식, 수식-피수식 및 구문목 리스트식 중 적어도 하나인 것이 바람직하다.In addition, the syntax expression is preferably at least one of a logical expression, a formula-defense expression, and a syntax list item.

또한, 상기 중요구와 중요문장을 구성하는 단어들이 상기 중요구 및 상기 중요구와 중요문장 내에서 어떠한 문법적 관계 및 의미적 관계를 가지는지에 대한 해석은, 상기 중요구와 중요문장에 포함되어 있는 중요단어를 동의어로 교체한 구와 문장에 대해서도 수행하는 것이 바람직하다.In addition, the interpretation of the grammatical and semantic relations in the important phrases and the important phrases in the important phrases and the important phrases, the important words contained in the important phrases and important sentences It is also desirable to perform phrases and sentences replaced with synonyms.

그리고, 본 정보 검색방법은, 분리된 단어들을 이용하여 텍스트가 포함되어 있는 컨텐츠를 작성한 자의 의도를 파악하는 단계;를 더 포함하는 것이 바람직하 다.The information retrieval method may further include determining an intention of the creator of the content including the text using the separated words.

또한, 상기 파악단계는, 형태소 사전에 데이터 베이스화 되어 있는 단어가 어떠한 의미로 사용되는지에 대한 의미 정보를 참조하여 상기 컨텐츠를 작성한 자의 의도를 파악하는 것이 바람직하다.In the identifying step, it is preferable to identify the intention of the person who created the content by referring to semantic information on what meaning the words in the database are used in the morpheme dictionary.

그리고, 상기 파악단계는, 상기 텍스트를 구성하는 단어들의 의미 정보들의 정성적 분석과 정량적 분석에 의한 통계를 통해 상기 컨텐츠를 작성한 자의 의도를 파악하는 것이 바람직하다.In the identifying step, it is preferable to grasp the intention of the creator of the content through qualitative and quantitative analysis of semantic information of the words constituting the text.

또한, 상기 텍스트를 구성하는 문장별로 상기 컨텐츠를 작성한 자의 의도를 파악하고, 다수의 문장에 공통된 의도를 상기 컨텐츠를 작성한 자의 의도로 파악하는 것이 바람직하다.In addition, it is preferable to grasp the intention of the person who created the content for each sentence constituting the text, and to grasp the intention common to a plurality of sentences as the intention of the person who created the content.

그리고, 본 정보 검색방법은, 상기 텍스트를 구성하는 문장별로 상기 컨텐츠를 작성한 자의 의도를 파악한 결과를 테이블 형식 또는 그래프 형식으로 제공하는 단계;를 더 포함하는 것이 바람직하다.The information retrieval method may further include providing a result of determining the intention of the person who created the content for each sentence constituting the text in a table form or a graph form.

또한, 본 정보 검색방법은, 상기 중요단어에 대한 대역 외국어를 획득하는 단계; 및 상기 대역 외국어를 등록하는 단계;를 더 포함하는 것이 바람직하다.The information retrieval method may further include: obtaining a band foreign language for the important word; And registering the band foreign language.

이상 설명한 바와 같이, 본 발명에 따르면, "구", "문장" 수준의 검색이 가능해져, '검색 단어'를 키워드로 하고 그것의 확장으로서 또 다른 검색단어를 논리연산자(AND, OR, NOT)의 조합으로 하여 검색하는 기존의 검색 방식에 비해, 정보의 재현율과 정확도가 훨씬 우수하다.As described above, according to the present invention, it is possible to search at the phrase and phrase level, so that 'search word' is a keyword and another search word is expanded as its logical operator (AND, OR, NOT). The reproducibility and accuracy of the information is much higher than that of the conventional retrieval method which searches by using a combination of.

이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.Hereinafter, with reference to the drawings will be described the present invention in more detail.

도 1은 본 발명의 일 실시예에 따른 검색시스템을 도시한 도면이다. 본 실시예에 따른 검색시스템을 구성하는 블럭들은 S/W로 구현할 수 있음은 물론 H/W로 구현할 수 있다. 또한, 검색시스템을 구성하는 블럭들 중 일부는 S/W로 나머지는 H/W로 구현하는 것도 가능하다.1 is a diagram illustrating a search system according to an exemplary embodiment of the present invention. The blocks constituting the search system according to the present embodiment can be implemented in S / W as well as in H / W. In addition, some of the blocks constituting the search system may be implemented in S / W and the others in H / W.

본 실시예에 따른 검색시스템은, 도 1에 도시된 바와 같이, 텍스트 크롤러(101), 텍스트 형태소 처리기(102), 형태소 사전(103), 컨텐츠 제공자 의도 파악기(104), 정보 모니터(105), 중요단어 추출기(106), 텍스트 구문 해석기(107), 구문문법 규칙사전(108), 중요구 추출기(109), 용언 추출기(110), 색인키 생성기(111), 색인파일 구성기(112), 색인파일 저장기(113), 검색어 입력기(114), 검색어 형태소 처리기(115), 검색자 의도 파악기(116), 검색어 구문 해석기(117), 검색키 생성기(118), 검색기(119), 검색 결과 생성기(120), 부가서비스 생성기(121), 부가서비스 데이터베이스(122), 검색결과 표시기(123), 대역 외국어 획득기(124), 외국어 검색엔진 연결기(125) 및 정보 검색창(126)을 구비한다.As shown in FIG. 1, the search system according to the present embodiment includes a text crawler 101, a text stemmer 102, a stemmer dictionary 103, a content provider intention determiner 104, and an information monitor 105. , Key word extractor 106, text parser 107, syntax grammar rule dictionary 108, key phrase extractor 109, verb extractor 110, index key generator 111, index file constructor 112 , Index file store 113, search term inputter 114, search term stemmer 115, searcher intent determiner 116, search term parser 117, search key generator 118, searcher 119, Search result generator 120, supplementary service generator 121, supplementary service database 122, search result indicator 123, band foreign language obtainer 124, foreign language search engine connector 125 and information search window 126 It is provided.

텍스트 크롤러(101)는 네트워크를 통해 접근가능한 컨텐츠에 포함되어 있는 텍스트를 수집한다. 텍스트 크롤러(101)에 의해 수집된 텍스트는 후술할 텍스트 형태소 처리기(102)로 전달된다.The text crawler 101 collects text included in content accessible through a network. The text collected by the text crawler 101 is passed to a text stemmer 102, which will be described later.

여기서, 네트워크는 인터넷, 인트라넷 등과 같은 유선망은 물론, 이동통신망과 WLAN, WMAN과 같은 무선망도 포함된다. 또한, 컨텐츠는 네트워크를 통해 접근 가능한 것이라면 어떠한 것이라도 무방하다. 도 1에는 컨텐츠 또는 컨텐츠가 저장되어 있는 저장소로, 이미지(11), 이메일(12), 데이터 베이스(13), 파일 시스템(14), 웹사이트(15), 블로그(16), 문서 저장고(17) 등을 상정하였으나, 이외의 다른 컨텐츠 또는 저장소가 적용될 수 있음은 물론이다.Here, the network includes not only wired networks such as the Internet and intranets, but also mobile networks and wireless networks such as WLAN and WMAN. In addition, the content may be anything that is accessible through the network. In FIG. 1, a content or a storage in which a content is stored includes an image 11, an email 12, a database 13, a file system 14, a website 15, a blog 16, and a document storage 17. ), But other contents or storage may be applied.

형태소 사전(103)에는 각 단어의 품사 정보가 데이터 베이스화 되어 있다. 뿐만 아니라, 형태소 사전(103)에는 각 단어의 의미 정보, 동의어 정보, 대역 외국어 등의 확장 정보도 데이터 베이스화 되어 있다. 여기서, 형태소 사전(103)에 등록되는 단어에 대한 제한은 없으므로, 형태소 사전(103)에는 명사 이외의 다른 품사(대명사, 형용사, 조사, 어미 등)도 등록될 수 있음은 물론이다.In the morpheme dictionary 103, the part-of-speech information of each word is made into a database. In addition, in the morpheme dictionary 103, extended information such as semantic information of each word, synonym information, and band foreign language is also made into a database. Here, since there is no restriction on the words registered in the morpheme dictionary 103, the parts of speech other than the nouns (pronouns, adjectives, investigations, endings, etc.) other than the nouns may be registered.

형태소 사전(103)에 수록되어 있는 품사 정보는 텍스트를 품사 별로 분리하는데 참조되고, 의미 정보는 컨텐츠 작성자 또는 검색자의 의도를 파악하는데 이용된다. 또한, 동의어 정보는 보다 넓은 범위의 확장 검색을 수행하는데 이용되고, 대역 외국어는 다국어 검색을 수행하는데 이용된다.The part-of-speech information contained in the morpheme dictionary 103 is referenced to separate text by parts-of-speech, and the semantic information is used to grasp the intention of the content creator or searcher. In addition, synonym information is used to perform a wider range of extended searches, and band foreign languages are used to perform multilingual searches.

도 2에는 형태소 사전(103)에 수록되어 있는 정보가 예시되어 있으므로, 형태소 사전(103)에 대해서는 후에 도 2를 참조하여 상세히 설명하기로 한다.Since the information stored in the morpheme dictionary 103 is illustrated in FIG. 2, the morpheme dictionary 103 will be described in detail later with reference to FIG. 2.

텍스트 형태소 처리기(102)는 텍스트 크롤러(101)로부터 전달받은 텍스트를 '의미 있는 단어' 단위로 분리한다. 여기서, '의미 있는 단어'란 품사를 말하는데, 이에 따르면 텍스트 형태소 처리기(102)는 텍스트를 품사 별로 분리하는 것으로 이해할 수 있다.The text stemmer 102 separates the text received from the text crawler 101 into units of meaningful words. Here, the term 'sense of words' refers to a part-of-speech, and accordingly, the text morph processor 102 may be understood to divide the text into parts of speech.

이를 위해, 텍스트 형태소 처리기(102)는 형태소 사전(103)에 데이터 베이스 화되어 있는 단어에 대한 품사 정보를 참조하여, 텍스트를 품사별로 분리하게 된다.To this end, the text morpheme processor 102 refers to the part-of-speech information on words that are databased in the morpheme dictionary 103 to separate text by parts of speech.

컨텐츠 제공자 의도 파악기(104)는 텍스트 형태소 처리기(102)에서 품사 별로 분리된 단어들을 이용하여 텍스트가 포함되어 있는 컨텐츠를 작성한 자의 의도(예를 들면, 우호적, 비호감)를 파악한다.The content provider intention determiner 104 determines the intention (eg, friendly or unfavorable) of the creator of the content including the text by using the words separated by the parts of speech in the text morph processor 102.

한편, 형태소 사전(103)에 데이터 베이스화 되어 있는 단어에 대한 의미 정보에는, 해당 단어가 어떠한 의미로 사용되었는지에 대한 정보가 수록되어 있다. 따라서, 컨텐츠 제공자 의도 파악기(104)는 컨텐츠 제공자의 의도를 파악하기 위해, 형태소 사전(103)에 수록되어 있는 의미 정보들을 참조한다.On the other hand, the semantic information on the words databased in the morpheme dictionary 103 includes information on what meaning the word is used. Accordingly, the content provider intention determiner 104 refers to the semantic information contained in the morpheme dictionary 103 to determine the intention of the content provider.

구체적으로, 컨텐츠 제공자 의도 파악기(104)는 컨텐츠에 포함된 텍스트를 구성하는 단어들의 의미 정보들의 정성적 분석과 정량적 분석에 의한 통계를 통해 컨텐츠 제공자의 의도를 파악하는데, 이에 대한 보다 상세한 설명은 후술한다.In detail, the content provider intention determiner 104 determines the intention of the content provider through qualitative analysis and quantitative analysis of semantic information of words constituting the text included in the content. It will be described later.

정보 모니터(105)는 컨텐츠 제공자 의도 파악기(104)에 의해 파악된 컨텐츠 제공자의 의도를 사용자가 볼 수 있도록 출력한다. 이를 위해, 정보 모니터(105)는 그래픽 툴을 이용할 수 있다.The information monitor 105 outputs the intention of the content provider identified by the content provider intention determiner 104 for the user to see. To this end, the information monitor 105 may use graphical tools.

한편, 중요단어 추출기(106)는 텍스트 형태소 처리기(102)에 의해 텍스트로부터 분리된 단어들 중에서 중요단어를 추출한다. 구체적으로, 중요단어 추출기(106)는 텍스트 형태소 처리기(102)에 의해 텍스트로부터 분리된 단어들 중 출현빈도가 높은 단어를 중요단어로 추출할 수 있다.Meanwhile, the important word extractor 106 extracts an important word from words separated from the text by the text morpheme processor 102. In detail, the important word extractor 106 may extract a word having a high occurrence frequency among the words separated from the text by the text morph processor 102.

텍스트 구문 해석기(107)는 중요단어 추출기(106)에서 추출된 중요단어가 문 장 내에서 어떠한 역할들을 하고 있는지 해석한다. 이와 같은 해석을 위해, 텍스트 구문 해석기(107)는 구문문법 규칙사전(108)에 수록되어 있는 문법 규칙을 참조한다.The text parser 107 interprets the important words extracted by the key word extractor 106 in a sentence. For this interpretation, the text parser 107 refers to the grammar rules contained in the syntax grammar rule 108.

중요구 추출기(109)는 텍스트 구문 해석기(107)의 구문 해석 결과를 토대로, 중요단어가 포함된 명사구들을 중요구로 추출한다. 여기서, 중요구 추출기(109)에 의해 추출되는 중요구는 중요단어가 전후에 수록되어 있는 명사구이다.The key phrase extractor 109 extracts noun phrases containing important words as key phrases based on the syntax analysis result of the text parser 107. Here, the key phrase extracted by the key phrase extractor 109 is a noun phrase in which important words are recorded before and after.

용언 추출기(110)는 중요단어 추출기(106)에 추출된 중요단어와 함께 문장 내에서 출현하는 용언(공기어)을 중요단어와 함께 추출한다.The verb extractor 110 extracts a verb (air word) appearing in a sentence together with an important word extracted by the important word extractor 106 along with an important word.

색인키 생성기(111)는 중요구 추출기(109)에서 추출된 '중요구'와 용언 추출기(110)에서 추출된 '중요단어와 용언'(이하, '중요문장'으로 표기한다.)에 대해 구문 해석을 수행한다.The index key generator 111 constructs a syntax for the 'important word' extracted from the key phrase extractor 109 and the 'important word and verb' (hereinafter, referred to as 'important sentence') extracted from the verb extractor 110. Perform the analysis.

여기서, 구문 해석이란, '중요구'와 '중요문장'을 구성하는 단어들이 구/문장 내에서 어떠한, 문법적/의미적 관계를 가지는지를 해석하는 과정이다. 구문 해석 결과로 구문 표현식이 얻어지는데, 이는 논리식, 수식-피수식, 구문목 리스트식 등으로 표현가능하다.Here, syntactic analysis is a process of interpreting what grammatical / meaning relationships the words constituting the 'important' and 'important sentences' have within the phrase / sentence. As a result of parsing, a syntax expression is obtained, which can be expressed as a logical expression, a formula-defense expression, or a syntactic list expression.

이와 같은 절차에 의해, 색인키 생성기(111)는 구문 해석결과로 얻은 구문 표현식을 색인키로 생성한다. 이때, 색인키 생성기(111)는 중요구와 중요문장에 포함되어 있는 중요단어를 동의어로 교체한 구와 문장에 대해서도 구문해석하여, 이에 대한 색인키를 생성하는 것이 가능하다.By such a procedure, the index key generator 111 generates a syntax expression obtained as a result of syntax analysis as an index key. In this case, the index key generator 111 may parse phrases and sentences in which important words and important sentences included in important phrases are replaced with synonyms, and generate index keys for the phrases.

색인파일 구성기(112)는 색인키 생성기(111)에 의해 생성된 색인키를 각 색 인키에 관련하는 컨텐츠 정보를 링크하여 색인 파일을 생성하여, 색인파일 저장기(113)에 저장한다. 색인파일 구성기(112)에 의해 생성되는 색인파일은 도 5와 도 6에 예시되어 있으므로, 색인파일에 대해서는 도 5와 도 6에 대한 상세한 설명 부분에서 상술한다.The index file configurator 112 links the index key generated by the index key generator 111 to content information related to each index key to generate an index file, and stores the index file in the index file storage 113. Since the index file generated by the index file configurator 112 is illustrated in FIGS. 5 and 6, the index file will be described in detail in the detailed description of FIGS. 5 and 6.

지금까지 설명한 구성들은 정보검색을 위해 필요한 색인키를 생성하는데 이용되는 구성들이다. 이하에서는, 사용자가 검색어를 입력하여 검색을 요청한 경우, 위에서 생성하여 저장한 색인파일을 이용하여 정보검색을 수행하는 구성들에 대해 상세히 설명한다. 여기서, 사용자가 입력하는 검색어는 단어는 물론이고, 구나 문장인 경우도 포함된다.The configurations described so far are the configurations used to generate the index keys needed for information retrieval. Hereinafter, when the user requests a search by inputting a search word, the configuration of performing an information search using the index file generated and stored above will be described in detail. Here, the search word input by the user includes not only words but also phrases or sentences.

정보 검색창(126)은 사용자가 검색어를 단어, 구 또는 문장으로 입력할 수 있는 입력창을 제공한다. 그리고, 검색어 입력기(114)는 정보 검색창(126)을 통해 사용자가 입력한 검색어를 검색어 형태소 처리기(115)로 전달한다.The information search window 126 provides an input window through which a user can input a search word as a word, phrase, or sentence. In addition, the search term inputter 114 transmits the search term input by the user to the search term stem processor 115 through the information search window 126.

검색어 형태소 처리기(115)는 검색어 입력기(114)로부터 전달받은 검색어를 '의미 있는 단어' 단위로 분리한다. 여기서, '의미 있는 단어'란 품사를 말하는데, 이에 따르면 검색어 형태소 처리기(115)는 텍스트 형태소 처리기(102)와 동일한 방법으로 검색어를 품사 별로 분리하는 것으로 이해할 수 있다.The search term stem processor 115 divides the search term received from the search term inputter 114 into units of meaningful words. Here, the term 'sense of words' refers to a part-of-speech, and accordingly, the search term morpheme processor 115 may be understood as separating the search terms by parts of speech in the same manner as the text morpheme processor 102.

이를 위해, 검색어 형태소 처리기(115)는 형태소 사전(103)에 데이터 베이스화되어 있는 단어에 대한 품사 정보를 참조하여, 텍스트를 품사별로 분리하게 된다.To this end, the search term morpheme processor 115 refers to the part-of-speech information on words that are databased in the morpheme dictionary 103 to separate text by parts of speech.

검색자 의도 파악기(116)는 검색어 형태소 처리기(115)에서 품사별로 분리된 단어들을 이용하여 검색어를 입력한 검색자의 의도를 파악한다. 검색자 의도 파악기(116)는 검색자의 의도를 파악하기 위해, 형태소 사전(103)에 수록되어 있는 의미 정보들을 참조한다.The searcher intention determiner 116 detects the intention of the searcher who inputs the search word using the words separated by the parts of speech in the search term morpheme processor 115. The searcher intention determiner 116 refers to the semantic information contained in the morpheme dictionary 103 to determine the searcher's intention.

검색어 구문 해석기(117)는 검색어 형태소 처리기(115)에서 품사별로 분리된 단어들이 문장 내에서 어떠한 역할들을 하고 있는지 해석한다. 이와 같은 해석을 위해, 검색어 구문 해석기(117)는 구문문법 규칙사전(108)에 수록되어 있는 문법 규칙을 참조한다.The search term phrase interpreter 117 interprets the roles of words separated by parts of speech in the search term morpheme processor 115 in the sentence. For this interpretation, the search term parser 117 refers to the grammar rules contained in the syntax grammar rule 108.

검색키 생성기(118)는 검색어 구문 해석기(117)에서 해석된 구문 해석결과를 참조하여, 검색어 형태소 처리기(115)에서 품사별로 분리된 단어들로 구문 표현식을 얻어낸다. 검색키 생성기(118)는 이에 의해 얻어낸 구문 표현식을 검색키로 생성한다.The search key generator 118 refers to a syntax interpretation result interpreted by the search term syntax interpreter 117 and obtains a syntax expression into words separated by parts of speech in the search term stem processor 115. The search key generator 118 generates the syntax expression obtained thereby as a search key.

검색기(119)는 검색키 생성기(118)에서 생성된 검색키와 동일한 색인키를 색인파일 저장기(113)에서 검색한다. 이때, 검색기(119)는 검색키와 동일한 색인키를 색인파일 저장기(113)에서 검색한다.The searcher 119 searches the index file storage 113 for the same index key as the search key generated in the search key generator 118. At this time, the searcher 119 searches the index file storage 113 for the same index key as the search key.

한편, 검색기(119)는 검색키 생성기(118)에서 생성된 검색키를 구성하는 단어들을 동의어로 교체하고 생성한 구/문장과 동일한 색인키를 색인파일 저장기(113)에서 검색하는 확장 검색을 수행하는 것도 가능함은 물론이다.Meanwhile, the searcher 119 replaces the words constituting the search key generated by the search key generator 118 with synonyms, and performs an extended search for searching the index file storage 113 for the same index key as the generated phrase / phrase. Of course it is also possible to perform.

또한, 검색기(119)는 검색키와 구조 및 단어가 완전히 동일한 색인키 뿐만 아니라, 구조와 단어가 일부만 동일한 색인키를 검색하는 것도 가능하다. 즉, 검색기(119)는 동일 검색 뿐만 아니라, 부분 검색이나 연관 검색도 가능한 것이다.In addition, the searcher 119 can search not only an index key having the same structure and words as the search key, but also an index key having only a part of the structure and words. That is, the searcher 119 can perform a partial search or a related search as well as the same search.

부가서비스 데이터베이스(122)에는 검색자의 검색 의도에 적합한 사이트 정보 또는 관련 광고서비스를 제공하는 수단 등이 저장되어 있다.The additional service database 122 stores a site information or a related advertisement service suitable for a searcher's search intent.

부가서비스 생성기(121)는 검색키와 관련한 부가서비스를 생성한다. 이를 위해, 부가서비스 생성기(121)는 부가서비스 데이터베이스(122)에 저장되어 있는 부가서비스들 중 검색자의 검색 의도에 적합한 부가서비스를 이용한다.The additional service generator 121 generates an additional service related to the search key. To this end, the supplementary service generator 121 uses an supplementary service suitable for a searcher's search intention among the supplementary services stored in the supplementary service database 122.

부가서비스 데이터베이스(122)와 부가서비스 생성기(121)에 의해 제공되는 부가서비스는 컨텐츠 문맥 지각형(Context awareness) 서비스로 구현할 수 있다. 이때, 컨텐츠 문맥 지각형 서비스에는 안내서비스, 매매서비스, 광고서비스, 교육서비스, 상담서비스, 추천서비스, 경매서비스, 행정서비스 등이 포함된다.The additional service provided by the additional service database 122 and the additional service generator 121 may be implemented as a content context awareness service. In this case, the content context-sensitive service includes a guide service, a trading service, an advertisement service, an education service, a counseling service, a recommendation service, an auction service, an administrative service, and the like.

검색 결과 생성기(120)는 검색기(119)에서 수행된 검색결과에 부가서비스 생성기(121)에서 생성된 부가서비스를 부가한다. 또한, 부가서비스 생성기(121)는 검색결과와 검색자의 검색어의 일치 정도를 판단하고, 판단결과를 검색 결과에 부가할 수 있다. 만약, 검색 결과가 동일 검색이라면 일치 정도가 높겠지만, 부분 검색이나 연관 검색인 경우는 일치 정도가 동일 검색보다 낮게 된다.The search result generator 120 adds the additional service generated by the additional service generator 121 to the search result performed by the searcher 119. In addition, the additional service generator 121 may determine the degree of match between the search result and the searcher's search term, and add the determination result to the search result. If the search result is the same search, the matching degree is high, but in the case of partial or related search, the matching degree is lower than the same search.

검색결과 표시기(123)는 검색 결과 생성기(120)에서 생성된 부가서비스가 부가된 검색결과를 화면을 통해 출력하여 사용자에게 제공한다.The search result indicator 123 outputs the search result to which the additional service generated by the search result generator 120 is added to the user through the screen.

한편, 부가서비스 없이 검색결과만을 사용자에게 제공하는 것이 가능하다. 이 경우는, 부가서비스 생성기(121)가 부가서비스를 생성하지 않도록 하거나, 생성하더라도 검색 결과 생성기(120)가 생성된 부가서비스를 부가하지 않도록 하는 방식에 의해 가능하다.On the other hand, it is possible to provide only the search results to the user without additional services. In this case, the additional service generator 121 may not generate the additional service, or the search result generator 120 may not add the generated additional service even if the additional service generator 121 generates the additional service.

한편, 대역 외국어 획득기(124)는 외국어 검색엔진 연결기(125)를 이용하여 외국어 검색엔진에 접속하여, 중요단어 추출기(106)에서 추출된 중요단어에 대한 대역 외국어를 획득한다. 그리고, 대역 외국어 획득기(124)는 형태소 사전(103)에 중요단어에 대한 대역 외국어로 등록한다.Meanwhile, the band foreign language obtainer 124 accesses a foreign language search engine using the foreign language search engine connector 125 to obtain a band foreign language for the important word extracted by the key word extractor 106. Then, the band foreign language obtainer 124 registers the band foreign language for the important word in the morpheme dictionary 103.

이하에서는, 전술한 형태소 사전(103)에 대해, 도 2를 참조하여 상세히 설명한다. 도 2에는 형태소 사전의 일 예로, 한국어 형태소 사전을 도시하였다.Hereinafter, the morpheme dictionary 103 mentioned above is demonstrated in detail with reference to FIG. 2 illustrates an example of a morpheme dictionary in Korean.

도 2에 도시된 바와 같이, 형태소 사전(103)은, 1) 제1열에는 단어가, 2) 제2열에는 단어의 품사정보가, 3) 제3열에는 단어의 의미 정보가, 4) 제4열에는 동의어(또는 동의구), 유사어 및/또는 대표어의 집합이, 5) 제5열에는 대역 영어가, 6) 제6열에는 대역 일본어가, 7) 제7열에는 대역 중국어가, 각각 나열되어 구성된다.As shown in FIG. 2, the morpheme dictionary 103 includes 1) a word in a first column, 2) a part-of-speech information in a second column, and 3) a semantic information of a word in a third column. In column 4, a set of synonyms, synonyms, and / or representatives, 5) band English in column 5, 6) band Japanese in column 6, and 7) band Chinese in column 7. , Each listed.

도시된 형태소 사전(103)은, 텍스트 형태소 처리기(102)가 텍스트를 형태소 처리하는데 이용되고, 검색어 형태소 처리기(115)가 검색어를 형태소 처리하는데 이용된다.In the illustrated morpheme dictionary 103, the text morpheme processor 102 is used to morph text, and the search term morpheme 115 is used to morph the search term.

전술한 바 있듯이, 형태소 처리는 주어진 문장의 요소가 어떤 의미 있는 단어로 구성되어 있는가를 가리는 것이다. 예를 들어, "학교에 간다"를 형태소 처리하면 "학교+에+가+ㄴ다"와 같이 단어 경계를 나누는 것이, 형태소 처리이다.As mentioned above, morphological processing is to indicate what meaningful words the elements of a given sentence consist of. For example, when stemming "go to school", it is morpheme processing to divide the word boundary as "school + goes to + goes to school."

이때, 사용하는 정보는 형태소 사전(103)에 저장되어 있는 품사 정보로 각 품사간의 인접가능 관계를 조사하여 처리 결과로써, "학교/명사+에/조사+가/동사+ㄴ다/어미"와 같이 출력한다.At this time, the information to be used is the part-of-speech information stored in the morpheme dictionary 103 to examine the possible relations between each part-of-speech and as a result of processing, such as "school / noun + to / investigative + verb / verb / mother". Output

이와 동시에 형태소 처리의 부차적 정보로써 "단어빈도", "문장수" 등 언어 통계치를 구할 수 있고 의미 정보, 동의어 정보, 대역 외국어를 동시에 출력하는 것이 가능하다.At the same time, linguistic statistics such as "word frequency" and "sentence number" can be obtained as secondary information of morphological processing, and it is possible to simultaneously output semantic information, synonym information, and foreign language.

한편, 형태소 사전(103)에 수록되어 있는 의미 정보는,On the other hand, the semantic information recorded in the morpheme dictionary 103 is,

1) 명사의 경우, 물건|자연|재료|요소|도구|수단|인간관계|사회|범죄|조직|문화|동물|인간|식물|수|추상|구성|구체|행위|상태|때|장소|위치|간격|회수|비율|정도|수량|강조|진위|감정|욕설|비하|정치|경제|회사명|지역명|사건|인명|음식|음란|의약품 등으로 분류되고,1) In the case of nouns, things | nature | materials | elements | tools | tools | human relations | society | crime | organization | culture | animals | humans | plants | water | abstract | composition | | Location | Interval | Number of times | Ratio | Accuracy | Quantity | Emphasis | Authenticity |

2) 동사의 경우, 행위|순간|계속|이동|변화|감정|사고|지각|존재|판단|무의지|표현|서비스 등으로 분류되며,2) In the case of verbs, they are classified into acts | instantaneous | continued | moving | change | sentiment | thinking | perception | existence | judgment | involuntary | expression

3) 형용사의 경우, 상태|관계|성질|정도|강조|호감|비호감|선정|음란|양태 등으로 분류되고,3) In the case of adjectives, it is classified into state | relationship | property | degree | highlight | crushing | favorite | chosen | choice | obscene |

4) 조사의 경우, 구|수단/방법|원료/재로|원인/이유|원천/기점|착점/방향|목적/목표|결과|주는쪽|받는쪽|장소|때|경우|내용|역할|대조|범위/회수|정도|수량|비율|강조|진위|양태 등으로 분류하며,4) In the case of investigation, ward | means / method | raw materials / home | cause / reason | source / origin | point of arrival / direction | purpose / aim | Result | giver | receiving | place | time | case | contents | role | Control | range / frequency | accuracy | quantity | ratio | emphasis | authenticity |

5) 부사의 경우, |강조|등으로 분류되고,5) In the case of adverbs, it is classified as |

6) 양태를 나타내는 어미의 경우, 과거|현재|미래|부정|가능|자별|의무|필요|불가피|요청|요구|단정|확실한추정|불확실추정|예정|희망|시행|명령|의문|의리|허가|권유|사역|의뢰|수동|수익|겸손|존칭 등으로 분류된다.6) In the case of a mother indicating an aspect, the past | present | future | negative | possible | self-specific | duty | necessity | unavoidable | request | request | assertion | certainty estimation | uncertainty estimation | expectation | hope | enforcement | It is classified into permission, recommendation, ministry, referral, manual, profit, humility and respect.

하지만, 위에서 제시한 분류는 일 예에 불과하며 고정적인 것도 아니다. 단 어의 의미는 시시각각 변화한다는 점에서, 의미 분류도 고정된 것이 아닌 시대의 변천에 따라 변화될 수 있음은 물론이다. 또한, 의미 정보 분류시에는 시소러스 분류에 의한 어휘 사전을 참조할 수 있음은 물론이다.However, the classification presented above is only one example and is not fixed. As the meaning of words changes from time to time, the classification of meanings is not fixed but can change according to the change of the times. In addition, when classifying semantic information, the lexical dictionary by thesaurus classification may be referred.

도 2에 예시된 바에 따르면,As illustrated in FIG. 2,

1) "이승만(103-1)"은, 품사 정보가 "명사", 의미 정보는 "인명", 동의어 정보는 "한국 대통령"임을 알 수 있고,1) "Rhee Syngman (103-1)", the part-of-speech information is "noun", the meaning information is "person name", the synonym information can be seen that the "Korean President",

2) "냉면(103-2)"은, 품사 정보가 "명사", 의미 정보는 "음식명", 동의어 정보는 "한국 대표적 면류 음식"임을 알 수 있으며,2) "Cold noodles 103-2", the part-of-speech information "noun", meaning information "food name", synonym information can be seen that "Korean representative noodles food,"

3) "이산화탄소(103-3)"는, 품사 정보가 "명사", 의미 정보가 "유해물질", 동의어 정보가 "시오투, 지구 온난화"임을 알 수 있고,3) "carbon dioxide (103-3)", the part-of-speech information "noun", meaning information "harmful substance", synonym information "Shiotu, global warming",

4) "세요(103-4)"는, 품사 정보가 "어미", 의미 정보가 "요청,존대", 동의어 정보가 "명령"임을 알 수 있으며,4) "Please (103-4)", the part-of-speech information is "mother", meaning information "request, respect", synonym information is "command",

5) "놈(103-5)"은 품사 정보가 "명사", 의미 정보가 "비하", 동의어 정보가 "넘"임을 알 수 있다.5) "Nom 103-5" can know that the part-of-speech information is "noun", the semantic information is "relax", and the synonym information is "over".

의미 정보와 동의어 정보는, 검색을 확대, 확장시키는데 이용될 수 있다. 예를 들어, "이승만"을 검색어로 한 경우, "이승만"에 대한 검색결과는 물론, "한국 대통령"에 관련하는 검색 결과도 더 제공하는 것이 가능하도록 한다.Semantic information and synonym information may be used to expand and expand the search. For example, when "Rhee Syngman" is used as a search word, it is possible to further provide a search result related to "Rhee Syngman" as well as a search result related to "Korean President".

또한, "이산화탄소 대책"을 검색어로 한 경우, "이산화탄소 대책"에 대한 검색결과는 물론, "유해 물질", "CO2 대책", "지구 온난화 대책"에 관련하는 검색결과 도 더 제공하는 것이 가능하다.In addition, "carbon dioxide measures" if one with the query, "Carbon dioxide measures" search results, as well as "toxic substances", "CO 2 measures", it is possible to also provide better search results relating to "Global Warming" on Do.

마찬가지로, "소고기, 돼지고기, 김치" 등의 의미 정보는 "식품"이고, 동의어 정보는 "육류", "채소류"이므로, 의미 정보와 동의어 정보를 이용하여 확장 검색을 수행하는 것이 가능하다.Similarly, since the meaning information such as "beef, pork, kimchi" is "food" and the synonym information is "meat", "vegetables," it is possible to perform an extended search using the semantic information and synonym information.

이와 같이, 형태소 사전(103)에는 품사 정보 외에도 의미 정보와 동의어 정보가 수록되어 있으므로, 풍부한 정보 검색을 가능하게 한다.In this way, since the morpheme dictionary 103 contains semantic information and synonym information in addition to the part-of-speech information, rich information retrieval is possible.

이하에서는, 구/문장을 형태소 처리하여 색인키나 검색키의 표현식을 생성하는 과정에 대해 도 3을 참조하여 부연설명한다.Hereinafter, a process of generating an expression of an index key or a search key by stemming a phrase / phrase will be described with reference to FIG. 3.

구문해석이란, 문장을 구성하는 각각의 의미 있는 단어가 바른 문으로서 어떤 구조를 가지고 있는지를 해석하는 과정이다. 구문해석에는 자연언어를 기술하는 문법이론이 이용된다. 자연언어를 기술하는 문법이론에는 구구조문법, 격문법, 의존문법, 어휘문법 등이 있는데, 이들은 문법기술 방법에 차이점이 있다.Syntactic analysis is the process of interpreting the structure of each meaningful word that constitutes a sentence. Syntactic analysis uses grammar theory to describe the natural language. Grammar theories describing natural languages include grammar, grammar, dependence, and lexical grammar.

영어, 한국어, 중국어, 일본어 등 모든 언어에 상기 문법이론은 적용 가능하므로, 본 실시예에서 제시하는 한국어 구문 해석 방법론은 다른 언어들에도 적용할 수 있다.Since the grammar theory is applicable to all languages such as English, Korean, Chinese, and Japanese, the Korean syntax interpretation methodology presented in this embodiment can be applied to other languages.

도 3에 도시된 형태소 처리(301) 과정을 끝낸 입력문은 의미 있는 단어 단위로 분리되며 분리된 단어들에는 각각 품사 정보가 부가(302)되어 있다. 품사 정보는 {명사, 대명사, 수사, 형용사, 부사, 조사…} 등 10~12개 정도의 품사명으로 되어 있다.The input sentence that has completed the morpheme processing 301 shown in FIG. 3 is separated into meaningful word units, and the parts of speech information is added 302 to the separated words. Part-of-speech information includes {nouns, pronouns, investigations, adjectives, adverbs, investigations… } There are about 10-12 parts of speech.

각각의 단어들이 서로 어떻게 결합되어 바른 구, 절, 문을 이루는가를 해석 하기 위해서는 각 언어에서의 바른 구, 절, 문에 대한 생성규칙(303)이 필요한데, 이 규칙은 전술한 구문문법 규칙사전(108)에 포함되어 있으므로, 구문문법 규칙사전(108)으로부터 추출한다.In order to interpret how each word is combined with each other to form correct phrases, clauses, and statements, a generation rule (303) for the correct phrases, phrases, and statements in each language is required. 108, it is extracted from the syntax grammar rule dictionary (108).

예를 들면, "문장은 주부(명사구)와 술부(동사구)로 이루어진다" 라는 지식을 문법 규칙화하면 S(Sentence)←NP(Noun Phrase)·VP(Verb Phrase)로 표현된다. 이러한 규칙이 정의된 곳이 구, 절, 문에 대한 생성규칙(303)인 것이다.For example, the grammatical rule of knowledge that "a sentence consists of a housewife (noun phrase) and a predicate phrase (verb phrase)" is expressed as S (Sentence) ← NP (Noun Phrase) and VP (Verb Phrase). Where these rules are defined is the creation rule 303 for phrases, clauses, and statements.

이들 규칙을 간단히 설명하면, 1) 구구조문법 형식은 단어 단위에서 구, 절, 문 단위로 생성하는 규칙을 기반으로 정의되고, 2) 격문법 형식과 의존문법형식은 어절이라는 단위들의 수식과 피수식 관계를 규칙으로 정의되며, 3) 어휘문법형식은 VP=cat(동사, 종지, … Sub, SEM) 형식을 취하며 각 단어간의 바른 결합을 단일화(Unification)라는 연산으로 수행된다.To explain these rules briefly, 1) the grammatical form is defined based on the rules that are generated from word units to phrase, clause, and sentence units. Mathematical relations are defined as rules. 3) The lexical grammar form takes the form VP = cat (verb, end,…, Sub, SEM) and the correct combination between each word is performed by unification.

구체적인 예를 들면, 구구조문법 규칙과 처리방법은As a specific example, the rules of grammar and how to handle them

(1) S ← PPV(1) S ← PPV

(2) PP ← NP(2) PP ← NP

과 같이 정의해 두고 "서울에서 왔다"를 구문 해석하면 형태소 처리 결과 (서울/N(명사), 에서/P(조사), 왔다/V(동사)과거)의 단어들이 생성되며, 구문 해석이 수행되면, "서울에서"는 "NP"이므로 "서울에서"는 문법규칙(2)에 따라 "PP(전치사구)"로 구문 해석되며 "왔다"는 'V(동사)'이므로 PP와 V는 문법규칙(1)에 따라 'S(문장)'으로 해석되어 그 결과를 한국어의 경우 ((서울에서)왔다)라는 목(tree)구조 또는 리스트(list)구조식으로 출력된다.If you define and parse as "I'm from Seoul," the words of the morphological results (Seoul / N (noun), E / P (probe), and / V (verb) are generated), and the parsing is performed. When "in Seoul" is "NP", "in Seoul" is interpreted as "PP (prepositional phrase)" according to the grammar rule (2), and "come" is "V (verb)", so PP and V are grammar rules. According to (1), it is interpreted as 'S (Sentence)' and the result is output in Korean as a tree or list structure.

한편, 상기의 예문을 의존문법규칙으로 해석하면 어절, "서울에서"가 어절 "왔다"를 수식하는 구문 해석 관계를 "서울에서→왔다"라는 표현식으로 출력된다.On the other hand, when the above example sentence is interpreted as a dependent grammar rule, the phrase "synonym from Seoul" is output as an expression "coming from Seoul".

그리고, 어휘문법형식은 (왔다, [누가], [서울에서])라는 구문해석 결과를 의미표현식으로 출력한다. 본 발명에서는 문법 이론에 따라 각각의 구문해석 표현식을 출력(304)할 수 있다. 이에 따라, 품사정보에 의한 표현식(305), 의미정보에 의한 표현식(306), 동의어/구에 의한 표현식(307)이 출력가능한데, 이들이 전술한 색인키와 검색키로 사용되는 것이다.And, the lexical grammar form outputs the result of syntax interpretation (come, [who], [in Seoul]) as a semantic expression. In the present invention, each syntax expression may be output 304 according to a grammar theory. Accordingly, the expression 305 based on the part-of-speech information, the expression 306 based on the semantic information, and the expression 307 based on the synonyms / phrases can be output, which are used as the aforementioned index key and search key.

이하에서는, 도 1에 도시된 검색시스템에 의한 검색방법, 구체적으로, 색인키를 생성하여 색인 파일화 하고, 이 색인 파일을 이용하여 사용자가 입력한 검색어에 대해 검색을 수행하는 과정에 대해, 도 4 내지 도 8을 참조하여 상세히 설명한다.Hereinafter, a search method using the search system shown in FIG. 1, specifically, a process of generating an index key and indexing the file, and performing a search on a search word input by a user using the index file, FIG. It will be described in detail with reference to 4 to 8.

도 4는 본 발명의 다른 실시예에 따른 검색방법의 설명에 제공되는 흐름도이고, 도 5 및 도 6은 도 4에 도시된 검색방법의 부연 설명에 제공되는 도면이다.4 is a flowchart provided to explain a search method according to another embodiment of the present invention, and FIGS. 5 and 6 are views provided to further explain the search method illustrated in FIG. 4.

먼저, 텍스트 크롤러(101)는 검색키를 확보하고자 하는 컨텐츠를 지정하고(S401), 컨텐츠에 포함되어 있는 텍스트들 중 검색키를 확보하고자 하는 텍스트를 지정한 후(S402), 지정된 텍스트를 추출한다(S403).First, the text crawler 101 designates the content for which the search key is to be secured (S401), and designates the text for which the search key is to be secured among the texts included in the content (S402), and extracts the specified text (S402). S403).

도 5의 (a)에는 S401단계 내지 S403단계를 통해 추출된 텍스트의 일 예를 나타내었다.5A illustrates an example of text extracted through steps S401 to S403.

이후, 텍스트 형태소 처리기(102)는 텍스트 크롤러(101)가 추출한 텍스트를 문장 별로 분리하고, 분리된 문장들을 품사 별로 분리한다(S404). S404단계에서의 형태소 처리는 형태소 사전(103)의 참조하에 이루어진다.Thereafter, the text morpheme processor 102 separates the text extracted by the text crawler 101 by sentence, and separates the separated sentences by parts of speech (S404). The morpheme processing in step S404 is performed with reference to the morpheme dictionary 103.

이후, 텍스트 형태소 처리기(102)는 S404단계를 통해 분리된 단어들에 품사 정보를 부가한 결과를 텍스트의 문장수와 단어수와 함께 출력한다(S405).Thereafter, the text morpheme processor 102 outputs the result of adding the part-of-speech information to the words separated in operation S404 together with the number of sentences and the number of words of the text (S405).

도 5의 (b)에는 텍스트를 품사별로 분리하여 단어 단위로 나타낸 결과를 도시하였고, 도 5의 (c)에는 분리된 단어들과 그들에 대한 품사 정보와 함께, 텍스트의 단어수와 문장수가 나타난 결과를 도시하였다. 도 5의 (c)에 따르면, 도 5의 (a)에 나타난 텍스트는 5문장으로 구둣점 포함하여 127개의 단어로 구성되었음을 확인할 수 있다.In FIG. 5B, the text is divided into parts of speech, and the results are expressed in units of words. In FIG. 5C, the number of words and sentences in the text are displayed together with the separated words and parts of speech. The results are shown. According to FIG. 5C, it can be seen that the text shown in FIG. 5A is composed of 127 words including punctuation in five sentences.

이후, 중요단어 추출기(106)는 S405단계에서의 출력을 기초로, 중요단어를 추출한다(S406). S406단계에서의 중요단어 추출은, 정량적 통계 계산법에 의해 수행할 수 있는데, 정량적 통계 계산법은 아래와 같다.Thereafter, the key word extractor 106 extracts a key word based on the output in step S405 (S406). Extraction of important words in step S406 can be performed by a quantitative statistical calculation method, which is as follows.

우선, tfidf(wi,t) = freq(wj,t) * idf(wj) 의 식을 세운다.First, formula tfidf (w i , t) = freq (w j , t) * idf (w j ).

여기서, freq(wj,t)는 텍스트 t 속에 단어 wj 의 출현빈도를 나타내고 idf(wi) = log(n/uf(wj))로 정의한다. 그리고, n은 문장수, uf(wj) 는 단어 wj가 포함된 문장수를 나타낸다.Here, freq (w j , t) represents the frequency of occurrence of the word w j in the text t and is defined as idf (w i ) = log (n / uf (w j )). N represents the number of sentences and uf (w j ) represents the number of sentences containing the word w j .

이후, 텍스트에 포함되어 있는 단어들 모두에 대한 tfidf(wi,t)를 산출하고, 산출값이 가장 높은 단어를 중요단어로 하면 된다.Then, tfidf (w i , t) for all of the words included in the text is calculated, and the word having the highest calculated value is the important word.

도 5의 (c)에 나타난 결과에 대해 위 식을 적용하면, "김치"가 중요단어로 추출되므로, 도 5의 (d)에 중요단어를 나타내었다.When the above equation is applied to the result shown in (c) of FIG. 5, since "kimchi" is extracted as an important word, the important word is shown in FIG.

이후, 텍스트 구문 해석기(107)는 S406단계에서 추출된 중요단어가 포함된 문장에 대해 구문해석을 수행한다(S407).Thereafter, the text syntax interpreter 107 performs syntax analysis on the sentence including the important word extracted in step S406 (S407).

그러면, 중요구 추출기(109)는 S407단계의 수행된 구문해석 결과를 이용하여, 중요단어가 포함된 명사구들인 중요구들을 추출한다(S408).Then, the key phrase extractor 109 extracts key phrases that are noun phrases containing key words by using the result of the syntax analysis performed in step S407 (S408).

그리고, 용언 추출기(110)는 S408단계에서 추출된 중요단어와 함께 문장 내에서 출현하는 용언(공기어)을 중요단어와 함께 추출한다(S409).The verb extractor 110 extracts a verb (air word) appearing in the sentence together with the important word extracted in step S408 together with the important word (S409).

S408단계와 S409단계의 수행결과로 얻어지는, '중요구'와 '중요문장'(중요단어와 용언)을 도 5의 (e)에 나타내었다.The 'important request' and 'important sentence' (important words and verbs) obtained as a result of performing the steps S408 and S409 are shown in FIG.

도 5의 (e)에 나타난 문구들 중 "김치수입", "대한민국의 김치수입량", "수출된 김치", "수입 김치", "비싼 김치", "싼 김치"는 중요구에 해당한다. 그리고, (김치수입)급증, (김치수입량)급증, (비싼김치)수출 및 (싼 김치)수입은, 각각 중요구인 "김치수입은 급증하였다", "김치수입량은 급증하였다", "비싼김치를 수출하고", "싼 김치를 수입하는"를 간략히 표현한 것이다.Among the phrases shown in (e) of FIG. 5, "kimchi imported", "kimchi imported amount of Korea", "exported kimchi", "imported kimchi", "expensive kimchi", "cheap kimchi" corresponds to an important phrase. (Kimchi imports) surge, (kimchi imports) surge, (expensive kimchi) exports and (cheap kimchi) imports, respectively, important phrases "kimchi imports surged", "kimchi imports surged", "expensive kimchi Export, "and" import cheap kimchi. "

이후, 색인키 생성기(111)는 S408단계에서 추출된 '중요구'와 S409단계에서 추출된 '중요문장'에 대해 구문 해석을 수행하고(S410), 구문 해석 결과로 얻은 구문 표현식을 색인키로 생성한다(S411).Thereafter, the index key generator 111 parses the 'important statement' extracted in step S408 and the 'important sentence' extracted in step S409 (S410), and generates a syntax expression obtained as a result of the parse as an index key. (S411).

그리고, 색인파일 구성기(112)는 색인키 생성기(111)에 의해 생성된 색인키를 각 색인키에 관련하는 컨텐츠 정보를 링크하여 색인 파일을 생성하여(S412), 색인파일 저장기(113)에 저장한다(S413).Then, the index file configurator 112 links the content information associated with each index key to the index key generated by the index key generator 111 to generate an index file (S412), and the index file storage 113 Store in (S413).

도 5의 (f)에는, S410단계에서 의존문법으로 구문해석을 수행한 경우 얻어지 는 구문 표현식인, 김치→수입, 대한민국→김치수입량, 수출된→김치, 수입→김치, 비싼→김치, 싼→김치 등을 색인키로 생성한 결과를 나타내었다.In Figure 5 (f), the syntactic expression obtained when performing the syntax analysis in the dependent syntax in step S410, kimchi → import, Korea → kimchi imports, exported → kimchi, import → kimchi, expensive → kimchi, cheap → The result of generating Kimchi with an index key is shown.

또한, 도 5의 (g)에는, S410단계에서 구구조문법으로 구문해석을 수행한 경우 얻어지는 구문 표현식인, (김치(수입)), (김치(수입량), (수출된(김치)), (수입(김치)), (비싼(김치)수출), (싼(김치)수입) 등을 색인키로 생성한 결과를 나타내었다.In addition, (g) of FIG. 5, (kimchi (import)), (kimchi (import amount), (exported (kimchi)), which are the syntax expressions obtained when the syntax analysis is performed in the old structure syntax in step S410, ( The results of generating index keys for import (kimchi)), (expensive (kimchi) export), (cheap (kimchi) import), etc. are shown.

또한, 도 5의 (f) 및 (g)에서는 색인키에 관련하는 컨텐츠 정보가 링크되었음을 확인할 수 있는데, 색인키에 대한 출현빈도, 출현문, 출현위치 정보가 이에 해당한다.5 (f) and (g), it can be seen that the content information related to the index key is linked. The appearance frequency, the appearance sentence, and the appearance position information of the index key correspond to this.

한편, 의미 정보를 이용하여 색인키와 동일한 의미를 가지는 다른 색인키를 생성하여 이들에 대한 색인 파일을 저장하는 것도 가능하다. 이 결과로 생성되는 색인키들이 나열되어 있는 색인 파일은 도 6에 예시하였다.On the other hand, it is also possible to generate another index key having the same meaning as the index key by using the semantic information and to store the index file for them. An index file listing the resulting index keys is illustrated in FIG.

이하에서는, 위와 같은 방식에 의해 생성되어 저장된 색인 파일을 이용하여 사용자가 입력한 검색어에 대해 검색을 수행하는 과정에 대해, 도 7 및 도 8을 참조하여 상세히 설명한다.Hereinafter, a process of searching for a search word input by a user using an index file generated and stored in the above manner will be described in detail with reference to FIGS. 7 and 8.

도 7은 본 발명의 또 다른 실시예에 따른 검색방법의 설명에 제공되는 흐름도이고, 도 8은 도 7에 도시된 검색방법의 부연 설명에 제공되는 도면이다.7 is a flowchart provided to explain a search method according to another embodiment of the present invention, and FIG. 8 is a view provided to further explain the search method shown in FIG. 7.

먼저, 정보검색창(126)을 통해 사용자가 검색어를 입력하면(S701), 검색어 형태소 처리기(115)는 S701단계에서 입력된 검색어를 품사 별로 분리하여 단어 단위로 출력하되, 각 단어에 대한 품사 정보도 함께 출력한다(S702).First, when a user inputs a search word through the information search window 126 (S701), the query morpheme processor 115 separates the search word input in parts S701 and outputs it in word units, but the part-of-speech information for each word is used. Also output (S702).

도 8에서는 사용자에 의해 입력된 검색어인 "수출된 김치"(801)가 입력된 경우를 상정하였으며, 형태소 처리 결과인 "수출되/동사, ㄴ/어미, 김치/명사"(802)와 의미 정보가 활용된 "동사/수출, 어미/과거, 명사/식품"(803)을 나타내었다.In FIG. 8, it is assumed that a search word input by a user, “exported kimchi,” 801 is input, and the result of morphological processing is “exported / verb, b / mother, kimchi / noun” 802 and semantic information. Represents “verb / export, mother / past, noun / food” (803).

이후, 검색어 구문 해석기(117)는 S702단계에서의 출력을 가지고 구문해석을 수행하며(S703), 검색키 생성기(118)는 S703단계에서 수행된 구문 해석결과를 참조하여, 검색키를 생성한다(S704).Subsequently, the search term syntax interpreter 117 performs syntax analysis with the output in step S702 (S703), and the search key generator 118 generates a search key by referring to the syntax analysis result performed in step S703 (S703). S704).

도 8에 나타난 "수출된→김치"(804)와 "수출된→식품"(805)은 S704단계에서 생성될 수 있는 검색키를 나타낸다. 전자는 품사정보에 의한 표현식으로 나타낸 검색키이고, 후자는 의미정보에 의한 표현식으로 나타낸 검색키이다.The "exported → kimchi" 804 and the "exported → food" 805 shown in FIG. 8 represent search keys that can be generated in step S704. The former is a search key represented by an expression by part-of-speech information, and the latter is a search key represented by an expression by semantic information.

이후, 검색기(119)는 S704단계에서 생성된 검색키를 색인파일 저장기(113)에서 검색한다(S705).Thereafter, the searcher 119 searches the index file storage 113 for the search key generated in step S704 (S705).

S705단계에서의 검색은 정보 재현성을 높이기 위한 목적으로, 완전 검색(동일 검색)은 물론, 부분 검색, 연관 검색 및 동류매치 검색도 포함한다.The search in step S705 includes a full search (same search), a partial search, a related search, and a similar match search for the purpose of increasing information reproducibility.

여기서, '완전검색'이란 "수출된→김치"(805)(806)의 정확한 구문해석에 의한 검색을 나타낸다.Here, "complete search" refers to a search by correct syntax interpretation of "exported → kimchi" (805) (806).

한편, "김치"의 의미 정보가 "식품"인 것을 활용하여 "수출된→식품"(807)을 검색키로 하면 의미 정보를 "식품"으로 한 모든 텍스트 정보들을 검색 결과로 얻을 수 있는 결과가 된다. 즉, "소고기" "돼지고기"는 의미 정보가 모두 "식품"인 경우라면, "수출된→식품"(807)을 검색키로 전 텍스트에서 "수출된→김치" 뿐만 아니라, "수출된→소고기", "수출된→돼지고기" 등 "식품"이라 정보가 주어진 모든 것 들이 검색 결과로 얻을 수 있어 보다 확장된 정보검색이 가능해지는데, 이는 '연관검색'에 해당한다.On the other hand, utilizing the meaning information of "kimchi" as "food" and using the search key "exported → food" (807), all the text information with the meaning information as "food" can be obtained as a search result. . That is, "beef" and "pork" means that if the meaning information is all "food", as well as "exported → kimchi" in the entire text with the search key "exported → food" (807), as well as "exported → beef All information given as "food" such as "exported pork" can be obtained as a search result, which allows for more extensive information search, which corresponds to 'associated search'.

또한, "수출된→김치"에서 부분적인 검색키 즉 "김치"(808)와 "수출"(809)만을 이용한 '부분검색'을 수행하는 것도 가능하다.In addition, it is also possible to perform a partial search using only a partial search key, that is, "kimchi" 808 and "export" 809 in "exported-to-kimchi".

또한, 형태소 사전(103)(도 2 참조)에 수록되어 있는 동의어 정보를 활용함으로써 "수출된"이 "외국으로 나간"으로 변경하여 검색하는 것도 가능하다.Further, by utilizing synonym information stored in the morpheme dictionary 103 (see FIG. 2), it is also possible to change the "exported" to "outbound" and search.

즉, 형태소 사전(103)의 동의어 정보를 참조하여, "외국으로 나간→김치", "외국으로 나간→식품" 등의 검색키를 이용한 검색이 가능한데, 이는 '동류검색'에 해당한다.That is, with reference to the synonym information of the morpheme dictionary 103, it is possible to search using a search key such as "going out → kimchi", "going out → food", which corresponds to the "current search".

본 실시예와 같이, 다양한 방법으로 색인키를 확장 생성할 경우, 정보 재현율과 정확성에 있어 기존의 방법보다 월등한 효과를 얻을 수 있다. 기존의 검색시스템에서는 '검색 단어'를 키워드로 하고 그것의 확장으로서 또 다른 검색단어를 논리연산자(AND, OR, NOT)의 조합으로 하여 검색하는 방식인데 반해, 본 실시예는 "구", "문장" 수준의 검색 방법이므로, 본 실시예에 따른 검색 방식은 정보의 재현율과 정확도가 훨씬 우수하다.As in the present embodiment, when the index key is extended and generated in various ways, an effect superior to the conventional method can be obtained in information reproducibility and accuracy. In the existing search system, 'search word' is a keyword, and as an extension thereof, another search word is searched using a combination of logical operators (AND, OR, and NOT). As a sentence "level search method, the search method according to the present embodiment has a much higher reproducibility and accuracy of information.

이하에서는, 도 1에 도시된 컨텐츠 제공자 의도 파악기(104)가 형태소 사전(103)을 참조하여, 컨텐츠 제공자의 의도를 파악하는 방법에 대해, 도 9를 참조하여 상세히 설명한다.Hereinafter, a method of determining the intention of the content provider by the content provider intention determiner 104 illustrated in FIG. 1 with reference to the morpheme dictionary 103 will be described in detail with reference to FIG. 9.

도 9는 "상품평" 컨텐츠에 대해 이를 작성한 컨텐츠 제공자의 의도를 파악하는 과정을 예시한 도면이다.9 is a diagram illustrating a process of identifying the intention of the content provider who has created the "review" content.

도 9에서는 텍스트 크롤러(101)에 의해 텍스트(901)가 수집되어, 텍스트 형태소 처리기(102)에 의한 형태소 처리(902)되면서 품사 정보 및/또는 의미 정보가 단어, 단어수, 문장수와 함께 출력된 결과(903)를 나타내었다.In FIG. 9, the text 901 is collected by the text crawler 101, and the part-of-speech information and / or semantic information is output along with the words, the number of words, and the number of sentences while the stemming process 902 is performed by the text morpheme processor 102. The result (903) is shown.

컨텐츠 제공자 의도 파악기(104)는 '903'에 수록되어 있는 정보를 이용하여 행렬식(904)을 작성한다. 행렬식(904)은 어떠한 의미 정보가 수록되어 있는지에 대한 정보를 문장별로 통계한 것이다.The content provider intention determiner 104 constructs the determinant 904 using the information contained in '903'. The determinant 904 is a sentence-by-state information on what semantic information is stored.

이후, 컨텐츠 제공자 의도 파악기(104)는 작성된 행렬식(904)에 수록되어 있는 의미 정보를 각 문장별로 분석, 평가하여, 우호적인 문장의 개수와 적대적인 문장의 개수를 파악한다. 구체적으로, 호감, 존대 등의 빈도가 높은 문장은 우호적인 문장으로, 비호감, 부정적, 욕설 등의 빈도가 높은 문장은 적대적인 문장으로 파악한다.Thereafter, the content provider intention determiner 104 analyzes and evaluates the semantic information contained in the created determinant 904 for each sentence to determine the number of friendly sentences and the number of hostile sentences. Specifically, sentences with a high frequency of crush and respect are regarded as friendly sentences, and sentences with high frequency of affinity, negativeness, and abusive language are identified as hostile sentences.

도 9의 행렬식(904)에 따르면, 총 6개의 문장 중 "호감"과 "존대"의 빈도가 높은 문장의 개수가 5개이므로, 텍스트(901)은 지극히 우호적인 것으로 평가하며, 이를 나타내는 아이콘(906)을 출력하는 것도 가능하다.According to the determinant 904 of FIG. 9, since the number of sentences having a high frequency of "favorite" and "respect" among the six sentences is five, the text 901 is evaluated as being extremely friendly, and an icon indicating this ( It is also possible to output 906.

도 10에는 "댓글" 컨텐츠에 대해 이를 작성한 컨텐츠 제공자의 의도를 파악하는 과정을 예시한 도면이다. 이 과정에 의해 의도 파악 대상인 "댓글"이 선플인지 악플인지에 대한 평가 및 분류가 가능하다.FIG. 10 is a diagram illustrating a process of identifying an intention of a content provider who has created the "comment" content. By this process, it is possible to evaluate and classify whether the "comment" which is the intention grasping target is a sunfleet or an affliction.

도 10에서는 텍스트 크롤러(101)에 의해 텍스트(1001)가 수집되어, 텍스트 형태소 처리기(102)에 의한 형태소 처리(1002)되면서 품사 정보 및/또는 의미 정보가 단어, 단어수, 문장수와 함께 출력된 결과(1003)를 나타내었다.In FIG. 10, the text 1001 is collected by the text crawler 101, and the part-of-speech information and / or semantic information is output along with the words, the number of words, and the number of sentences while the stemming process 1002 is performed by the text morpheme processor 102. The result (1003) is shown.

컨텐츠 제공자 의도 파악기(104)는 '1003'에 수록되어 있는 정보를 이용하여 행렬식(1004)을 작성한다. 그리고, 컨텐츠 제공자 의도 파악기(104)는 작성된 행렬식(1004)에 수록되어 있는 의미 정보를 각 문장별로 분석, 평가하여, 우호적인 문장의 개수와 적대적인 문장의 개수를 파악한다.The content provider intention determiner 104 creates a determinant 1004 using the information contained in '1003'. The content provider intention determiner 104 analyzes and evaluates the semantic information contained in the created determinant 1004 for each sentence to determine the number of friendly sentences and the number of hostile sentences.

도 10의 행렬식(1004)에 따르면, 총 4개의 문장 중 "비호감"과 "비하"의 빈도가 높은 문장의 개수가 4문장이므로, 텍스트(1001)은 지극히 적대적인 것으로 평가한다.According to the determinant 1004 of FIG. 10, since the number of sentences having a high frequency of "unfavorable" and "depressed" among four sentences is four sentences, the text 1001 is evaluated as extremely hostile.

이에 따르면, 우호적, 비우호적 상품평을 실시간으로 분석, 평가, 분류할 수 있는 모니터링 기능을 수행할 수 있게 된다.According to this, it is possible to perform a monitoring function that can analyze, evaluate and classify friendly and unfriendly product reviews in real time.

한편, 컨텐츠 제공자 의도 파악기(104)는 특정 의미 정보를 가지는 단어들이 문장들에 얼마나 분포되어 있는지 여부를 나타내는 정보를 생성하고, 생성된 이 분포 정보를 정보 모니터(105)에 의해 출력할 수 있다.Meanwhile, the content provider intention determiner 104 may generate information indicating how distributed words having specific semantic information are in sentences, and output the generated distribution information by the information monitor 105. .

여기서, 생성되는 분포 정보는 테이블 형식(1005)일 수 있음은 물론, 그래프 형식(1006)인 것도 가능하다.Here, the generated distribution information may be in the form of a table 1005 as well as in the form of a graph 1006.

한편, 본 실시예를 변형하게 되면, 정보제공자 의도를 추출하여 청소년 유해 정보, 스팸성 메일 등을 필터링하도록 구현하는 것이 가능하다. 이를 위해서는, 청소년 유해 정보 또는 스팸성 메일에서 가장 많이 출현하는 단어에 의미 정보로서 "음란물", "유해정보" 또는 "스팸성" 등을 수록하고, 이를 이용한 의도 파악 수순을 통해 유해정보, 스팸성 메일의 자동 평가, 자동 분류, 자동 삭제 등의 필터링 기능을 수행하는 것이 가능하다.On the other hand, by modifying the present embodiment, it is possible to extract the information provider intention to filter the harmful information, spam mails, and the like. To this end, "sexually explicit material", "harmful information" or "spammy", etc., are recorded as the meaning information in the words most frequently appeared in youth harmful information or spam mails, and the harmful information and spam mails are automatically processed through the intention grasping procedure. It is possible to perform filtering functions such as evaluation, automatic classification and automatic deletion.

예를 들면, 스팸성 메일의 단어로 많이 출현하는 "대리운전", "최저 대출", "대박게임", "인터넷 최저", "성형수술", "비아그라" 등의 단어에 상기한 의미 정보를 부여하고 의도 파악 처리를 수행하면, 유해정보의 평가, 분류가 가능하게 된다.For example, the above meaning information is given to words such as "agent driving", "lowest loan", "hit game", "internet minimum", "plastic surgery", and "viagra" that frequently appear as words of spam mail. In this case, harmful information can be evaluated and classified.

도 11은 부가서비스 데이터베이스(122)에 저장되어 있으며 부가서비스 생성기(121)에 의해 생성되는 부가서비스의 일 예로 문맥지각형 검색서비스의 일종인 지리안내 서비스의 설명에 제공되는 도면이다.FIG. 11 is a diagram of a geographic guidance service stored in the supplementary service database 122 and an example of an additional service generated by the supplementary service generator 121.

이를 위해, 도 11에서는 정보검색창(126)을 통해 "이근처 맛있는 이태리 레스토랑은"(1101)이라는 문장이 입력된 것을 가정하였다.To this end, in FIG. 11, it is assumed that the sentence “Nearly delicious Italian restaurant” 1101 is input through the information search window 126.

입력된 문장(1401)은 검색어 형태소 처리기(115)에 의해 형태소 처리되어, "이근처/맛있/는/이태리/레스토랑/은"으로 분리된 후(1102), 의미 정보들이 부가된 "이근처/명사/현재위치, 맛있/형용사/음식평가, 는/조사/수식, 이태리/명사/국명, 레스토랑/명사/음식점, 은/조사/제시"(1103)가 출력된다.The input sentence 1401 is morphologically processed by the search term stem processor 115, and is separated into "near neighborhood / delicious / island / italy / restaurant / silver" (1102), and the "near neighborhood / to which semantic information is added." Noun / Current Location, Delicious / Adjective / Food Evaluation, Silver / Investigation / Formula, Italy / Noun / Country, Restaurant / Noun / Restaurant, Silver / Investigation / Presentation "(1103) is output.

그러면, 검색자 의도 파악기(116)는 형태소 처리 결과를 통해, 검색자의 의도를 파악한다. 구체적으로, 검색자 의도 파악기(116)는 문맥지각형 단어 '은/는'의 의미 정보가 '제시'를 나타내므로 '검색요청'을 의미하는 것으로 파악하고, 문맥지각형 단어 "이근처"는 'GPS에 의해 확인가능한 현재 위치'를 획득하여야 하는 의미로 파악하고, '이태리 레스토랑'은 음식점 데이터베이스의 검색을 각각 요구한다는 의도로 파악한다.Then, the searcher intention determiner 116 detects the searcher's intention through the morpheme processing result. In detail, the searcher intention determiner 116 recognizes the search request as the contextual information of the word 'silver' indicates 'present', and the contextual word "nearby". Is understood to mean that the current location that can be identified by the GPS should be acquired, and the Italian restaurant is intended to require a search of a restaurant database.

이에 따라, 부가서비스 생성기(121)는 GPS를 이용하여 현재위치 파악하 고(1104), 검색기(119)는 맛있는 이태리 레스토랑에 대한 검색을 수행하고(1105), 부가서비스 생성기(120)는 지도를 실행하여(1106), 현재 위치가 나타난 지도에 검색된 맛있는 이태리 레스토랑이 표시된 지도를 출력한다(1107).Accordingly, the supplementary service generator 121 determines the current position using the GPS (1104), the searcher 119 performs a search for a delicious Italian restaurant (1105), and the supplementary service generator 120 maps the map. In operation 1106, a map displaying a delicious Italian restaurant searched for is displayed on a map showing a current location (1107).

도 12에는 다른 종류의 부가 서비스를 제공하는 방법의 설명에 제공되는 도면이다. 도시된 부가 서비스는, 검색결과로 출력되는 텍스트에 포함되어 있는 특정 단어, 주제와 관련하여 다양한 부가 정보를 제공하는 것이다. 이를 위해서는, 부가서비스 데이터베이스(122)에 저장되어 있는 기관정보(1201), 광고(1202), 인물정보(1203), 토픽주제정보(1204), 회사정보(1205) 등의 각종 정보를 활용할 수 있음은 물론, 네트워크를 통해 연결된 다른 데이터 베이스로부터 획득할 수 있음은 물론이다.12 is a diagram provided to explain a method of providing another type of additional service. The illustrated additional service is to provide various additional information related to a specific word and a subject included in the text output as a search result. To this end, various kinds of information such as organization information 1201, advertisement 1202, person information 1203, topic topic information 1204, company information 1205, etc. stored in the additional service database 122 may be utilized. Of course, it can be obtained from other databases connected through the network.

도 13은 대역 외국어 획득기(124)가 외국어 검색엔진 연결기(125)를 이용하여 외국어 검색엔진에 접속하여, 중요단어 추출기(106)에서 추출된 중요단어에 대한 대역 외국어를 획득하는 과정을, 보다 상세히 설명하는데 이용되는 도면이다.FIG. 13 illustrates a process in which the band foreign language obtainer 124 accesses a foreign language search engine using the foreign language search engine connector 125 to obtain a band foreign language for an important word extracted by the key word extractor 106. It is a drawing used for describing in detail.

중요단어 추출기(106)에서 추출된 중요단어에 대한 대역 외국어는 형태소 사전(103)을 통해 획득할 수 있다. 그리고, 획득된 대역 외국어를 이용하여, 도 13에 도시된 바와 같이 외국어 검색엔진을 이용한 다국어 횡단검색을 통해 영어 검색(1302), 일본어 검색(1303), 중국어 검색(1304) 등 외국어에 대해서도 정보 검색을 할 수 있다. 외국어 정보 검색엔진은 Google 또는 Yahoo 등 기존의 검색엔진을 이용할 수 있다.The band foreign language for the key word extracted by the key word extractor 106 may be obtained through the morpheme dictionary 103. Also, using the obtained band foreign language, as shown in FIG. 13, information search is also performed on foreign languages such as English search 1302, Japanese search 1303, and Chinese search 1304 through multilingual cross search using a foreign language search engine. can do. Foreign language information search engines can use existing search engines such as Google or Yahoo.

도 14는 정보검색창과 정보제공창이 함께 구비된 정보 제공/검색창의 일 예 를 도시한 도면이다. 도시된 정보 제공/검색창에서 입력창(1401)은 검색어를 입력하는데 이용되는 창이고, 정보제공 버튼(1402)은 정보를 등록하고자 할 때 이용되는 버튼이며, 정보검색 버튼(1403)은 입력창(1401)에 입력된 검색어에 대한 정보검색을 명령하는데 이용되는 버튼이다.14 is a diagram illustrating an example of an information providing / search window provided with an information search window and an information providing window. In the illustrated information providing / search window, input window 1401 is a window used to input a search word, information providing button 1402 is a button used to register information, and information search button 1403 is an input window. It is a button used to instruct an information search for a search word entered in 1401.

그리고, 하부에 마련된 버튼들(1404)은 검색 방법과 검색 결과 제공방법을 설정하는데 이용되는 버튼이다. 예를 들어, 도 14에 제시된 "완전검색" 버튼은 검색방식을 완전 검색으로 설정하는데 이용되는 버튼이고, "광고허용" 버튼은 검색결과와 관련된 광고물을 검색결과와 함께 표시할 것을 허용하는데 이용되는 버튼이고, "관련서비스 제공허용" 버튼은 검색결과에 포함되어 있는 단어, 문구들에 대한 부가정보를 함께 제공할 것을 허용하는데 이용되는 버튼이다.The buttons 1404 provided below are buttons used to set a search method and a search result providing method. For example, the "exact search" button shown in FIG. 14 is a button used to set the search method to a perfect search, and the "ad allow" button is used to allow advertisements related to the search results to be displayed together with the search results. The "Allow related service provision" button is a button used to allow additional information on words and phrases included in a search result.

지금까지 설명한 실시예들은, 휴대폰과 같은 모바일 휴대형 정보기기들은 물론 여타의 정보기기들에서 구현가능하다.The embodiments described so far can be implemented in mobile information devices such as mobile phones as well as other information devices.

또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.In addition, although the preferred embodiment of the present invention has been shown and described above, the present invention is not limited to the specific embodiments described above, but the technical field to which the invention belongs without departing from the spirit of the invention claimed in the claims. Of course, various modifications can be made by those skilled in the art, and these modifications should not be individually understood from the technical spirit or the prospect of the present invention.

도 1은 본 발명의 일 실시예에 따른 검색시스템을 도시한 도면,1 is a diagram illustrating a search system according to an embodiment of the present invention;

도 2는 한국어 형태소 사전을 도시한 도면,2 is a diagram showing a Korean morpheme dictionary;

도 3은 구/문장을 형태소 처리한 후 구문해석을 수행하는 과정의 부연설명에 제공되는 도면,3 is a view provided in the description of the process of performing syntax analysis after stemming the phrase / sentence,

도 4는 본 발명의 다른 실시예에 따른 검색방법의 설명에 제공되는 흐름도,4 is a flowchart provided to explain a search method according to another embodiment of the present invention;

도 5 및 도 6은 도 4에 도시된 검색방법의 부연 설명에 제공되는 도면,5 and 6 are views provided to further explain the search method shown in FIG.

도 7은 본 발명의 또 다른 실시예에 따른 검색방법의 설명에 제공되는 흐름도, 7 is a flowchart provided to explain a search method according to another embodiment of the present invention;

도 8은 도 7에 도시된 검색방법의 부연 설명에 제공되는 도면,8 is a view provided for further explanation of the search method illustrated in FIG. 7;

도 9는 "상품평" 컨텐츠에 대해 이를 작성한 컨텐츠 제공자의 의도를 파악하는 과정을 예시한 도면,9 is a view illustrating a process of identifying the intention of the content provider who has created the "review" content for the content;

도 10은 "댓글" 컨텐츠에 대해 이를 작성한 컨텐츠 제공자의 의도를 파악하는 과정을 예시한 도면,FIG. 10 is a diagram illustrating a process of determining the intention of a content provider who wrote a comment about content.

도 11은 부가서비스 데이터베이스에 저장되어 있으며 부가서비스 생성기에 의해 생성되는 부가서비스의 일 예로 문맥지각형 검색서비스의 일종인 지리안내 서비스의 설명에 제공되는 도면,FIG. 11 is a diagram of a geographic information service stored in an additional service database and provided as an example of an additional service generated by an additional service generator;

도 12는 도 11과 다른 종류의 부가 서비스를 제공하는 방법의 설명에 제공되는 도면,12 is a view provided to explain a method of providing an additional service of a different type from FIG. 11;

도 13은 대역 외국어를 획득하는 과정의 상세한 설명에 제공되는 도면,13 is a view provided in a detailed description of a process of obtaining a band foreign language;

도 14는 정보검색창과 정보제공창이 함께 구비된 정보 제공/검색창의 일 예를 도시한 도면이다.14 is a diagram illustrating an example of an information providing / search window provided with an information search window and an information providing window.

* 도면의 주요 부분에 대한 부호의 설명 *Explanation of symbols on the main parts of the drawings

101 : 텍스트 크롤러 102 : 텍스트 형태소 처리기101: Text Crawler 102: Text Stemmer

103 : 형태소 사전 104 : 컨텐츠 제공자 의도 파악기103: stemming dictionary 104: content provider intention grasp

105 : 정보 모니터 106 : 중요단어 추출기105: information monitor 106: key word extractor

107 : 텍스트 구문 해석기 108 : 구문문법 규칙사전107: text parser 108: syntax syntax rules dictionary

109 : 중요구 추출기 110 : 용언 추출기109: key phrase extractor 110: word extractor

111 : 색인키 생성기 112 : 색인파일 구성기111: index key generator 112: index file organizer

113 : 색인파일 저장기 114 : 검색어 입력기113: index file storage 114: search term input

115 : 검색어 형태소 처리기 116 : 검색자 의도 파악기115: query stemmer 116: searcher intent grasp

117 : 검색어 구문 해석기 118 : 검색키 생성기117: query parser 118: search key generator

119 : 검색기 120 : 검색 결과 생성기119: Searcher 120: Search Result Generator

121 : 부가서비스 생성기 122 : 부가서비스 데이터베이스121: additional service generator 122: additional service database

123 : 검색결과 표시기 124 : 대역 외국어 획득기123: search result indicator 124: band foreign language obtainer

125 : 외국어 검색엔진 연결기 126 : 정보 검색창125: foreign language search engine connector 126: information search box

Claims (28)

검색어를 입력받는 단계;Receiving a search term; 상기 검색어를 의미 있는 단어들로 분리하는 단계;Separating the search term into meaningful words; 분리된 단어들이 문장 내에서 어떠한 역할들을 하고 있는지 해석하는 단계;Interpreting what roles separate words play in the sentence; 상기 해석단계의 해석결과를 토대로, 검색키를 생성하는 단계; 및Generating a search key based on the analysis result of the analyzing step; And 상기 생성단계에서 생성된 검색키를 이용하여 정보를 검색하는 단계;를 포함하고,And searching for information using the search key generated in the generating step. 상기 검색키 생성단계는,The search key generation step, 상기 검색어를 구성하는 단어들이 상기 검색어 내에서 어떠한 문법적 관계 및 의미적 관계를 가지는지를 해석하여 얻어지는 구문 표현식을 상기 검색키로 생성하는 것을 특징으로 하는 정보 검색방법.And a phrase expression obtained by analyzing what grammatical and semantic relations of the words forming the search word have in the search word. 제 1항에 있어서,The method of claim 1, 상기 입력단계는,The input step, 구 단위 및 문장 단위로 상기 검색어를 입력받는 것을 특징으로 하는 정보 검색방법.Information search method characterized in that for receiving the search word in phrase units and sentence units. 제 1항에 있어서,The method of claim 1, 상기 해석단계는,The analysis step, 상기 분리된 단어들이 문장 내에서 어떠한 역할들을 하고 있는지 해석하기 위해, 구문문법 규칙사전을 참조하며,To interpret what roles the separated words play in the sentence, refer to a syntax grammar dictionary, 상기 구문문법 규칙사전은,The syntax syntax rule dictionary, 구구조문법, 격문법, 의존문법 및 어휘문법 중 적어도 하나가 수록되어 있는 것을 특징으로 하는 정보 검색방법.An information retrieval method characterized in that at least one of a grammar, a grammar, a dependent grammar, and a lexical grammar is recorded. 제 1항에 있어서,The method of claim 1, 상기 분리단계는,The separation step, 상기 검색어를 품사 별로 분리하는 것을 특징으로 하는 정보 검색방법.Information retrieval method characterized in that for separating the search word by parts of speech. 제 4항에 있어서,The method of claim 4, wherein 상기 분리단계는,The separation step, 형태소 사전에 데이터 베이스화되어 있는 각 단어의 품사에 대한 정보를 참조하여, 상기 검색어를 품사 별로 분리하는 것을 특징으로 하는 정보 검색방법.An information retrieval method comprising: separating the search word by parts of speech by referring to information on parts of speech of each word in a morpheme dictionary. 삭제delete 제 1항에 있어서,The method of claim 1, 상기 구문 표현식은,The syntax expression is 논리식, 수식-피수식 및 구문목 리스트식 중 적어도 하나인 것을 특징으로 하는 정보 검색방법.And at least one of a logical expression, an expression-defense expression, and a syntactic list expression. 제 1항에 있어서,The method of claim 1, 상기 해석하는 단계는,The interpreting step, 상기 단어들을 동의어로 교체하고 난 후에도 수행하는 것을 특징으로 하는 정보 검색방법.The information retrieval method, characterized in that performed even after replacing the words with synonyms. 제 1항에 있어서,The method of claim 1, 상기 정보 검색단계는,The information retrieval step, 완전 검색, 부분 검색, 연관 검색 및 동류매치 검색 중 적어도 하나를 수행하는 것을 특징으로 하는 정보 검색방법.And at least one of a complete search, a partial search, an associated search, and a similarity search. 제 1항에 있어서,The method of claim 1, 상기 정보 검색단계에서의 검색결과에 부가서비스를 부가하는 단계;를 더 포함하는 것을 특징으로 하는 정보 검색방법.And adding an additional service to a search result in the information retrieval step. 제 10항에 있어서,The method of claim 10, 상기 부가서비스는, 컨텐츠 문맥 지각형(Context awareness) 서비스이고,The additional service is a content context awareness service, 상기 컨텐츠 문맥 지각형은,The content context perceptual is, 안내서비스, 매매서비스, 광고서비스, 교육서비스, 상담서비스, 추천서비스, 경매서비스 및 행정서비스 중 적어도 하나를 포함하는 것을 특징으로 하는 정보 검색방법.An information retrieval method comprising at least one of a guide service, a trading service, an advertising service, an education service, a counseling service, a recommendation service, an auction service, and an administrative service. 텍스트를 수집하는 단계;Collecting text; 상기 텍스트의 중요구와 중요문장 중 적어도 하나를 추출하는 단계;Extracting at least one of an important phrase and an important sentence of the text; 상기 중요구와 중요문장 중 적어도 하나를 이용하여 색인키를 생성하는 단계; 및Generating an index key using at least one of the key phrase and the key sentence; And 상기 색인키를 이용하여 정보 검색에 이용되는 색인파일을 생성하여 저장하는 단계;를 포함하고,And generating and storing an index file used for information retrieval using the index key. 상기 색인키 생성단계는,The index key generation step, 상기 중요구와 중요문장를 구성하는 단어들이 상기 중요구 및 상기 중요구와 중요문장 내에서 어떠한 문법적 관계 및 의미적 관계를 가지는지를 해석하여 얻어지는 구문 표현식을 상기 색인키로 생성하는 것을 특징으로 하는 검색용 정보 제공방법.Searching information providing method characterized in that for generating a phrase expression obtained by analyzing the grammatical and semantic relationship between the important phrases and the important phrases in the important phrases and important phrases and important sentences with the index key; . 제 12항에 있어서,The method of claim 12, 상기 텍스트는,The text above is 네트워크를 통해 접근가능한 컨텐츠에 포함되어 있는 텍스트인 것을 특징으로 하는 검색용 정보 제공방법.Search information providing method, characterized in that the text contained in the content accessible through the network. 제 12항에 있어서,The method of claim 12, 상기 수집단계에서 수집된 텍스트를 의미 있는 단어들로 분리하는 단계;Separating the text collected in the collecting step into meaningful words; 분리된 단어들 중에서 중요단어를 추출하는 단계; 및Extracting important words from the separated words; And 상기 중요단어가 문장 내에서 어떠한 역할들을 하고 있는지 해석하는 단계;를 더 포함하고,Interpreting what roles the important words play in the sentence; 상기 추출단계는,The extraction step, 상기 중요단어 및 상기 해석단계의 해석결과를 토대로, 상기 텍스트의 중요구와 중요문장 중 적어도 하나를 추출하는 것을 특징으로 하는 검색용 정보 제공방법.And at least one of an important phrase and an important sentence of the text is extracted based on the important word and an analysis result of the interpreting step. 제 14항에 있어서,15. The method of claim 14, 상기 추출단계는,The extraction step, 상기 중요단어가 전후에 수록되어 있는 명사구를 중요구로 추출하고, 상기 중요단어와 함께 문장 내에서 출현하는 용언을 중요단어와 함께 중요문장으로 추출하는 것을 특징으로 하는 검색용 정보 제공방법.And extracting a noun phrase containing the important word before and after as an important phrase, and extracting a word appearing in a sentence together with the important word as an important sentence. 제 14항에 있어서,15. The method of claim 14, 상기 중요단어는,The important word, 상기 분리된 단어들 중 상기 텍스트에서 출현빈도가 기준빈도 이상인 단어인 것을 특징으로 하는 검색용 정보 제공방법.Search information providing method, characterized in that the occurrence frequency of the separated words in the text is more than the reference frequency. 제 14항에 있어서,15. The method of claim 14, 상기 해석단계는,The analysis step, 상기 중요단어가 문장 내에서 어떠한 역할들을 하고 있는지 해석하기 위해, 구문문법 규칙사전을 참조하며,To interpret what roles the important word plays in a sentence, refer to a syntax grammar dictionary, 상기 구문문법 규칙사전은,The syntax syntax rule dictionary, 구구조문법, 격문법, 의존문법 및 어휘문법 중 적어도 하나가 수록되어 있는 것을 특징으로 하는 검색용 정보 제공방법.At least one of a grammar, a grammar, a dependent grammar, and a lexical grammar. 제 14항에 있어서,15. The method of claim 14, 상기 분리단계는,The separation step, 상기 텍스트를 품사 별로 분리하는 것을 특징으로 하는 검색용 정보 제공방법.Search information providing method characterized in that the text is separated by parts of speech. 제 18항에 있어서,The method of claim 18, 상기 분리단계는,The separation step, 형태소 사전에 데이터 베이스화되어 있는 각 단어의 품사에 대한 정보를 참조하여, 상기 텍스트를 품사 별로 분리하는 것을 특징으로 하는 검색용 정보 제공방법.A method for providing information for retrieval, characterized in that the text is separated for each part of speech with reference to information on parts of speech of each word in the morpheme dictionary. 삭제delete 제 12항에 있어서,The method of claim 12, 상기 구문 표현식은,The syntax expression is 논리식, 수식-피수식 및 구문목 리스트식 중 적어도 하나인 것을 특징으로 하는 검색용 정보 제공방법.Search information providing method, characterized in that at least one of a logical expression, formula-defense expression and syntax list item. 제 12항에 있어서,The method of claim 12, 상기 중요구와 중요문장을 구성하는 단어들이 상기 중요구 및 상기 중요구와 중요문장 내에서 어떠한 문법적 관계 및 의미적 관계를 가지는지에 대한 해석은,The interpretation of the grammatical and semantic relations between the important phrases and the important phrases in the important phrases and the important phrases is as follows: 상기 중요구와 중요문장에 포함되어 있는 중요단어를 동의어로 교체한 구와 문장에 대해서도 수행하는 것을 특징으로 하는 검색용 정보 제공방법.Search information providing method, characterized in that performed for phrases and sentences in which the important words contained in the important phrases and important sentences are replaced with synonyms. 제 14항에 있어서,15. The method of claim 14, 형태소 사전을 참조로, 분리된 단어들이 어떠한 의미로 사용되는지 파악하여, 텍스트가 포함되어 있는 컨텐츠를 작성한 자의 의도를 파악하는 단계;를 더 포함하는 것을 특징으로 하는 검색용 정보 제공방법.Identifying the meaning of the separated words by referring to the morpheme dictionary to determine the intention of the creator of the content including the text; 삭제delete 제 23항에 있어서,24. The method of claim 23, 상기 파악단계는,The grasping step, 상기 텍스트를 구성하는 단어들의 의미 정보들의 정성적 분석과 정량적 분석에 의한 통계를 통해 상기 컨텐츠를 작성한 자의 의도를 파악하는 것을 특징으로 하는 검색용 정보 제공방법.Searching information providing method characterized in that to grasp the intention of the creator of the content through the qualitative and quantitative analysis of the semantic information of the words constituting the text. 제 23항에 있어서,24. The method of claim 23, 상기 텍스트를 구성하는 문장별로 상기 컨텐츠를 작성한 자의 의도를 파악하고, 다수의 문장에 공통된 의도를 상기 컨텐츠를 작성한 자의 의도로 파악하는 것을 특징으로 하는 검색용 정보 제공방법.The method of claim 1, wherein the intention of the creator of the content is identified for each sentence constituting the text, and the intention common to a plurality of sentences is grasped as the intention of the creator of the content. 제 26항에 있어서,The method of claim 26, 상기 텍스트를 구성하는 문장별로 상기 컨텐츠를 작성한 자의 의도를 파악한 결과를 테이블 형식 또는 그래프 형식으로 제공하는 단계;를 더 포함하는 것을 특징으로 하는 검색용 정보 제공방법.And providing a result in which the intention of the creator of the content is determined for each sentence constituting the text in a table form or a graph form. 제 12항에 있어서,The method of claim 12, 중요단어에 대한 대역 외국어를 획득하는 단계; 및Obtaining a band foreign language for an important word; And 상기 대역 외국어를 등록하는 단계;를 더 포함하는 것을 특징으로 하는 검색용 정보 제공방법.Registering the band foreign language; the search information providing method further comprising.
KR1020080125774A 2008-12-11 2008-12-11 Method for searching information based on language expression analysis and method for providing information KR101026986B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080125774A KR101026986B1 (en) 2008-12-11 2008-12-11 Method for searching information based on language expression analysis and method for providing information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080125774A KR101026986B1 (en) 2008-12-11 2008-12-11 Method for searching information based on language expression analysis and method for providing information

Publications (2)

Publication Number Publication Date
KR20100067288A KR20100067288A (en) 2010-06-21
KR101026986B1 true KR101026986B1 (en) 2011-04-11

Family

ID=42365992

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080125774A KR101026986B1 (en) 2008-12-11 2008-12-11 Method for searching information based on language expression analysis and method for providing information

Country Status (1)

Country Link
KR (1) KR101026986B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038214A (en) * 2017-03-06 2017-08-11 北京小米移动软件有限公司 Expression information processing method and processing device

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015037814A1 (en) * 2013-09-16 2015-03-19 고려대학교 산학협력단 Portable terminal device on basis of user intention inference and method for recommending contents using same
CN107027065B (en) * 2017-04-21 2020-03-13 海信集团有限公司 Method and device for identifying non-standard channel name

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020027088A (en) * 2000-10-06 2002-04-13 정우성 Korean natural language processing technology based on syntax analysis and applications thereof

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020027088A (en) * 2000-10-06 2002-04-13 정우성 Korean natural language processing technology based on syntax analysis and applications thereof

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038214A (en) * 2017-03-06 2017-08-11 北京小米移动软件有限公司 Expression information processing method and processing device

Also Published As

Publication number Publication date
KR20100067288A (en) 2010-06-21

Similar Documents

Publication Publication Date Title
KR101042515B1 (en) Method for searching information based on user's intention and method for providing information
US9645993B2 (en) Method and system for semantic searching
US8402036B2 (en) Phrase based snippet generation
JP6007088B2 (en) Question answering program, server and method using a large amount of comment text
JP5232415B2 (en) Natural language based location query system, keyword based location query system, and natural language based / keyword based location query system
US6442540B2 (en) Information retrieval apparatus and information retrieval method
Moussa et al. A survey on opinion summarization techniques for social media
JP5711674B2 (en) Question answering program, server and method using a large amount of comment text
US8335787B2 (en) Topic word generation method and system
RU2488877C2 (en) Identification of semantic relations in indirect speech
US20100332217A1 (en) Method for text improvement via linguistic abstractions
US20080154871A1 (en) Method and Apparatus for Mobile Information Access in Natural Language
KR102285232B1 (en) Morphology-Based AI Chatbot and Method How to determine the degree of sentence
JP4967133B2 (en) Information acquisition apparatus, program and method thereof
Kisilevich et al. “Beautiful picture of an ugly place”. Exploring photo collections using opinion and sentiment analysis of user comments
Sharma et al. A contemporary combined approach for query expansion
KR101026986B1 (en) Method for searching information based on language expression analysis and method for providing information
JP2004355550A (en) Natural sentence retrieval device, and its method and program
CN109298796B (en) Word association method and device
JP3985483B2 (en) SEARCH DEVICE, SEARCH SYSTEM, SEARCH METHOD, PROGRAM, AND RECORDING MEDIUM USING LANGUAGE SENTENCE
JP2006139484A (en) Information retrieval method, system therefor and computer program
CN111046168A (en) Method, apparatus, electronic device, and medium for generating patent summary information
Yoon et al. Intent-based categorization of search results using questions from web q&a corpus
Chan et al. Social media harvesting
KR100923936B1 (en) Method and system for providing search result in case query composed of two or more words or a korean word or the like is inputted in japanese dictionary service

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
FPAY Annual fee payment
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150312

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20160127

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20170327

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20180109

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20190110

Year of fee payment: 9