KR100885527B1 - 문맥 기반 색인데이터 생성장치와 문맥기반 검색장치 및 그방법 - Google Patents

문맥 기반 색인데이터 생성장치와 문맥기반 검색장치 및 그방법 Download PDF

Info

Publication number
KR100885527B1
KR100885527B1 KR1020070107155A KR20070107155A KR100885527B1 KR 100885527 B1 KR100885527 B1 KR 100885527B1 KR 1020070107155 A KR1020070107155 A KR 1020070107155A KR 20070107155 A KR20070107155 A KR 20070107155A KR 100885527 B1 KR100885527 B1 KR 100885527B1
Authority
KR
South Korea
Prior art keywords
search
index data
context
key phrase
information
Prior art date
Application number
KR1020070107155A
Other languages
English (en)
Inventor
양승현
Original Assignee
주식회사 코난테크놀로지
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 코난테크놀로지 filed Critical 주식회사 코난테크놀로지
Priority to KR1020070107155A priority Critical patent/KR100885527B1/ko
Application granted granted Critical
Publication of KR100885527B1 publication Critical patent/KR100885527B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명에 따른 문맥기반 색인 데이터 생성장치는, 색인생성의 대상이 되는 대상문서가 입력되는 입력부; 상기 입력된 대상문서의 내용을 분석하여 상기 대상문서의 문맥에 해당하는 색인생성의 단위인 키프레이즈를 생성하는 생성부; 및 상기 대상문서의 위치정보를 포함하는 아이디정보와 상기 생성된 키프레이즈 가 상호 연계된 색인 데이터를 생성하는 색인데이터생성부를 포함하며, 본 발명에 의한 문맥기반 검색장치는, 사용자로부터 원하는 검색어를 입력받는 검색입력부; 상기 입력된 검색어를 분석하여 상기 검색어의 문맥에 해당하는 문맥형태의 검색어로 변환하는 변환부; 문맥 검색의 색인 단위인 키프레이즈와 상기 키프레이즈에 해당하는 문서의 위치정보로 구성되는 색인데이터가 저장되는 색인데이터저장부; 및 상기 변환된 문맥형태 검색어와 상기 색인데이터를 비교하여 상기 변환된 문맥형태 검색어에 해당하는 색인데이터의 문서를 제공하는 검색결과제공부를 포함한다.
상기 본 발명에 의하면, 사용자의 검색의도를 분석하여 사용자가 원하는 실질적인 정보만을 검색결과로 출력할 수 있어, 사용자 검색 만족도를 더욱 향상시킬 수 있으며, 웹 문서의 실질적인 내용이 반영된 검색 기반 데이터 베이스를 생성할 수 있어 불필요한 리소스의 낭비를 원천적으로 방지할 수 있음은 물론, 검색 결과가 오용되어 검색 품질의 한계를 초래하는 문제점을 근본적으로 개선할 수 있다.

Description

문맥 기반 색인데이터 생성장치와 문맥기반 검색장치 및 그 방법{APPARATUS FOR MAKING INDEX-DATA BASED BY CONTEXT AND FOR SEARCHING BASED BY CONTEXT AND METHOD THEREOF}
본 발명은 색인데이터 생성장치 및 검색장치에 관한 것으로서, 색인 생성의 대상 문서의 화제어 또는 문맥에 대한 정보를 이용하여 색인데이터를 생성하거나 이를 이용하여 검색 결과를 출력하는 문맥 기반 색인데이터 생성장치 및 문맥기반 검색장치와 그 방법에 관한 것이다.
인터넷 환경이 일반인에게 보편적인 생활의 공간으로 자리잡은 현재에는 수를 헤아릴 수 없는 광대한 정보가 인터넷에 편재되어 있다. 이러한 환경에서 유저가 특정한 사이트의 주소를 미리 알고 있지 않는 한, 원하는 정보가 게재되어 있는 웹싸이트를 찾아낸다는 것은 거의 불가능한 일이 되고 있다.
이러한 인터넷 정보의 활용상의 문제점을 해소하기 위하여 유저가 원하는 정보만을 선별적으로 검색하여 그 결과를 유저에게 제공하여 줌으로써, 유저가 모든 싸이트를 방문하지 않고도 원하는 정보를 용이하게 획득할 수 있도록 하는 인터넷 정보 활용 방법인 소위 검색이라는 기법이 보편적으로 이용되고 있다.
다양한 방법으로 이용되는 이러한 검색 기법들은 기본적으로 웹-문서 정보에 대한 색인데이터를 생성하고, 사용자가 원하는 검색어를 입력하게 되면, 입력된 검색어와 유사도 또는 일치도에 부합되는 색인데이터를 선별하고 선별된 색인데이터에 포스팅되어 있는 해당하는 웹문서를 제공하여 주는 방법을 주로 이용하고 있다.
이러한 색인 생성 기법 중 초기에 선보였던 기술은 N-GRAM 방법으로 이 방법은 색인 대상 문서에서 N글자 단위로 잘라서 색인어를 추출하는 간단한 방식을 이용한 방법이다.
예를 들어, BI-GRAM의 경우, 두 글자씩 분절하여 색인어를 추출하게 되는데, 대상 문서에 '인천국제공항'이라는 텍스트가 존재하면, "인천", "천국", "국제", "제공", 공항"과 같이 두 글자씩 잘라 색인어를 추출하는 방법이다.
이러한 방식은 그 방법의 간단성에 기인하여 크게 활용되기도 하였으나, "인천국제공항"과 실질적인 관련성이 없는 "천국", "제공" 등과 같은 낱말도 색인에 포함되기 때문에, 문서 수에 비해 색인 데이터의 크기가 너무 방대해지게 되어 불필요하게 리소스가 낭비되게 되고, 이에 따라 참조되는 색인데이터 수가 방대해져 검색속도가 저하되는 문제점 및 사용자가 실제 검색하는 경우에도 연관성이 없는 단어가 검색되게 되므로 사용자 만족도 또한 저하된다는 문제점이 존재한다.
이러한 문제점을 해소하기 위하여 또는 다른 검색목적을 달성하기 위하여 형태소 분석을 기초로 한 키워드 추출 기법이 제시되었다. 이 기법은 원문 또는 대상문서(색인 생성의 대상이 되는 문서 등)을 형태소 단위로 분석하여 형태소 또는 품사를 기초로 색인데이터를 생성하는 방법(주로 명사를 기반으로 하나, 필요에 따라 다른 품사, 즉, 부사, 형용사, 동사 등을 색인어로 선정하는 경우도 있음)이다.
'인천국제공항'의 동일한 예의 경우, [인천/NN + 국제/NN + 공항/NN](NN은 명사를 의미함)이라는 색인어를 얻을 수 있게 되고, 검색식 [인천 AND 공항]으로 해당하는 웹문서를 찾을 수 있음은 물론, 앞선 NGRAM 방식의 일종인 BIGRAM 방식에 의한 문제점인 '천국' 이나 '제공" 등과 같은 단어로는 검색이 되지 않게 되므로 더욱 양질의 검색 결과를 제공할 수 있게 되었다.
상기 품사(형태소)기반의 색인 생성 방식에 대한 내용을 종래 형태소 기반 색인 생성 방법에 대한 과정을 도시한 흐름도인 도 1을 통하여 설명하면 다음과 같다.
우선, 색인 생성의 대상이 되는 대상 문서를 입력받게 된다(S100). 상기 대상문서는 색인 생성의 대상이 되는 문서를 의미하는 것으로서, 텍스트 기반으로 생성되거나 변환될 수 있다면 웹상에서 게재되는 웹문서, 웹페이지, 블로그, 게시판, 사전, 도서, 뉴스 등 그 명칭에 한정되지 않는 다양한 형식 또는 형태상의 모든 웹문서를 포괄하는 개념을 의미한다.
도 1에 도시된 바와 같이 대상 문서(D1, D2, D3)가 입력되게 되면, 입력된 문서를 대상으로 형태소(품사) 분석을 수행하게 된다(S110). 형태소와 품사는 통상적인 언어학적 의미에는 일치되지 않는 개념일 수 있으나, 본 발명의 검색 엔진 등의 분야에서는 "형태소"와 "품사"는 유사 개념으로 사용되므로 특별히 언급되지 않는 한 유사한 개념을 의미하는 것으로 전제하여 설명하도록 한다.
상기 품사 기반의 키워드 추출의 과정은 명사(경우에 따라 동사, 형용사, 부 사 등도 포함)를 중심으로 품사 기반의 분석을 수행하게 되며, 도 1의 110단계와 같은 품사 기반 분석 결과를 얻게 된다.
상기 결과에서 보는 바와 같이 해당하는 문서(도 1에 예시된 D1, D2, D3)마다 각각의 키워드가 추출되었고, 추출된 키워드는 추출된 문서에 기재된 단어이기는 하나, 실제 문서의 주요한 내용이나 주제와는 무관하거나 관련성이 현저히 낮은 키워드도 많이 추출됨을 알 수 있다.
상기와 같이 추출된 키워드를 이용하여 색인어와 색인어가 추출된 문서의 정보(포스팅 데이터)로 구성되는 색인데이터가 120단계와 같이 생성되게 된다. 앞서 설명한, NGRAM방법보다는 다소 검색의 효율성이 나아졌다고 할 수는 있으나, 색인 생성의 본질적인 문제에 기인하여 실제 대상문서와 무관한 많은 색인어가 생성되게 되므로 그만큼의 검색 품질의 저하를 초래하게 된다.
이하에서는 도 1을 통하여 설명한 종래 품사 기반 색인 생성기법에 대응하는 검색방법을 도 2를 통하여 간단히 설명한다.
품사 기반 검색방법은 상기 도 1에서 도시된 바와 같은 방법에 의하여 생성된 색인데이터 DB를 이용하여 사용자가 원하는 검색 결과를 제공하는 방법으로서, 우선, 사용자로부터 검색어를 입력받게 된다(S200). 입력된 검색어를 대상으로 앞서 설명한 바와 같은 품사 기반의 분석을 수행하여 키워드를 추출하게 된다(S210).
입력된 검색어(검색식)에서 키워드를 추출한 후, 도 1에서 생성된 색인 데이터DB와 비교/매칭 프로세스(S220)를 수행하여, 일치되거나 부합되는 색인어를 추출하고, 이에 해당하는 포스팅 데이터 영역을 참조하여 해당하는 색인어의 출처 문서 를 확인하게 된다.
확인결과가 복수 개일 경우, 소정 기준에 의하여 확인 결과 문서에 랭킹을 부여(S230)하고, 서비스 운영 지침에 의한 결과화면을 구성하여(S240) 유저 또는 클라이언트로 결과 화면을 출력(S250)하게 된다.
상기와 같은 방법은 앞서 살펴본 바와 같이 품사 기반으로 색인 생성 작업을 수행하므로 원 문서와 관련성이 없거나 현저히 떨어지는 단어 또한 색인어로 생성되는 본질적인 문제를 내포하고 있을 뿐만 아니라, 검색 결과를 출력하는 과정에서 또한 많은 문제점을 가지고 있다. 이하에서 이러한 검색과정의 수행시 발생되는 문제점 등에 대하여 기술하도록 한다.
검색 결과의 출력과정은 검색어(검색식)과 일치 또는 부합되는 색인어의 포스팅 문서를 사용자단으로 출력하는 과정을 의미하는데, 검색 결과가 동일하다고 하여도 검색 문서 랭킹 즉, 어떤 문서를 먼저 보여주느냐에 따라 실질적인 검색 품질은 물론, 사용자가 직접적으로 느끼는 직관적인 검색 품질의 고저가 달라질 수 있다.
일반적으로 검색결과의 문서가 사용자에게 제공되는 순서를 일반적으로 랭킹이라고 칭할 수 있는데, 이러한 랭킹 선별과정은 검색결과가 하나 이상 복수 개 제공될 경우 이를 '적합도' 순으로 정렬해 주는 과정이라고 할 수 있다.
이러한 랭킹 기법으로 유사도(similarity) 기반과 인기도(popularity) 기반이 있는데, 유사도 기반은 사용자가 입력한 검색어와 얼마나 유사한지를 연산하여 유사한 순위에 따라 검색결과에 순위를 부여하여 나열하는 방식을 의미한다.
이러한 방식의 경우, 유사도의 측정은 해당하는 검색어가 원문에 출현한 빈도를 기준으로 수행되게 되는데, 문서 수가 방대해짐에 따라 원하는 검색과는 관련성이 떨어짐에도 불구하고 정량적으로 단순히 검색어가 많이 포함되었다는 이유로 상위 랭크에 오르기도 하며, 또한, 도 3에 도시된 바와 같이 고의적인 핸들링을 위하여 키워드를 문서 내에 반복시키는 일련의 랭킹 조작 행위(소위 '키워드 스패밍'이라고 칭해짐)에 무방비 상태가 되는 문제점이 있다.
즉, 키워드의 출현 빈도라는 단순하고 정량적인 통계적 수치만을 기초로 한 유사도로는 실질적이고 바람직한 적합도를 연산하는 것에 한계가 있음을 드러내고 있다.
또한, 또 다른 주요 랭킹 기법인 인기도 기반의 랭킹 기법의 경우, 참조가 많이 되는 웹페이지가 대체로 대중적이거나 권위가 있는 페이지라는 것을 기초한 방법이나, 참조 링크가 구비되는 웹문서를 제외하면 다른 종류의 문서의 경우 이러한 방법을 적용할 수 없다는 또 다른 문제점을 내포하고 있다.
상기 참조링크의 양적 크기를 기준으로 하는 상기 방법의 본질적인 관점에서, 인기도 기반의 랭킹 기법은 검색어의 내용에 가장 부합되는 결과를 찾아준다기보다는 검색어에 관련된 웹페이지 중 참조링크가 가장 많은 대중적인 문서를 찾아주는 방법으로 귀결되므로 실질적인 검색 품질의 한계를 본질적으로도 가지고 있다고 할 수 있으며, 도 4에 도시된 바와 같이 이러한 인기도 기반의 랭킹 기법은 사용자가 실제적으로 원하는 페이지를 찾아주기보다는 관공서, 기관 등 참조랭킹이 많은 페이지를 더 상위에 랭킹시키고 있음을 알 수 있다.
종합하여 볼 때, 인터넷 사용 유저들에게는 인터넷의 필수품으로 이용되는 종래 검색엔진에서의 색인데이터 생성과 이를 이용한 검색 기법 등은 사용자의 의도에 부합되는 실질적인 정보를 검색하여 제공함에 있어 근본적이고 본질적인 한계를 가지고 있다고 할 수 있다.
본 발명은 상기된 문제점을 극복하기 위하여 안출된 것으로서, 색인 생성 대상 문서의 문맥을 기초로 색인데이터를 생성함과 동시에 사용자의 실질적인 검색 의도를 파악하여 이를 기초로 검색결과를 제공할 수 있는 장치 및 방법을 제공하는 데 목적이 있다.
본 발명에 다른 목적 및 장점들은 하기에 설명될 것이며, 본 발명의 실시예에 의해 알게 될 것이다. 또한, 본 발명의 목적 및 장점들은 특허청구범위에 나타난 구성과 구성의 조합에 의해 실현될 수 있다.
상기 목적을 달성하기 위한 본 발명의 문맥기반 색인데이터 생성장치는, 색인생성의 대상이 되는 대상문서가 입력되는 입력부; 상기 입력된 대상문서에서 색인데이터 생성의 단위 구문인 키프레이즈를 생성하는 생성부; 및 상기 대상문서의 위치정보를 포함하는 아이디정보와 상기 생성된 키프레이즈 가 상호 연계된 색인 데이터를 생성하는 색인데이터생성부를 포함하고, 상기 키프레이즈는 상기 대상문서에서 기술되고 있는 주대상 단어인 화제어 또는 상기 화제어가 상기 대상문서에서 가지는 내용적 의미인 문맥범주정보로 구성되며, 상기 키프레이즈는 상기 대상문서의 문장 또는 문단 단위로 생성될 수 있다.
또한, 상기 생성부는 형태소 패턴과 상기 형태소 패턴에 해당하는 문맥범주정보가 연계된 문맥패턴정보가 저장된 문맥패턴정보DB부; 상기 입력된 대상문서를 대상으로 형태소 패턴 분석을 수행하는 형태소분석부; 및 상기 형태소 패턴 분석 결과에 대응하는 상기 문맥패턴정보의 형태소 패턴이 존재하는 경우, 상기 행태소 패턴에 해당하는 문맥범주정보와 상기 형태소 패턴을 구성하는 화제어로 상기 키프레이즈를 생성하는 키프레이즈생성부를 포함하여 구성될 수 있다.
이와 함께, 상기 색인데이터생성부는 타 기반 색인데이터와 상기 키프레이즈 기반의 색인데이터를 병합하여 색인데이터베이스를 생성하되, 상기 키프레이즈 기반의 색인데이터가 타 색인데이터와 구분 가능하도록 상기 색인데이터베이스를 생성하도록 구성되는 것이 바람직하다.
한편, 본 발명의 다른 목적을 달성하기 위한 문맥기반 검색장치는, 사용자로부터 원하는 검색어를 입력받는 검색입력부; 상기 입력된 검색어를 키프레이즈 형태 검색어로 변환하는 변환부; 색인생성의 대상이 되는 대상문서의 키프레이즈와 상기 대상문서의 위치정보를 포함하는 아이디정보가 상호 연계된 색인데이터가 저장되는 색인데이터저장부; 및 상기 키프레이즈 형태 검색어와 상기 색인데이터를 비교하여 상기 키프레이즈 형태 검색어에 해당하는 색인데이터의 문서를 제공하는 검색결과제공부를 포함하고, 상기 키프레이즈는, 상기 대상문서에서 기술되고 있는 주대상 단어인 화제어 또는 상기 화제어가 상기 대상문서에서 가지는 내용적 의미인 문맥범주정보로 구성된다.
또한, 상기 변환부는 입력된 검색어의 내용적 의미를 기준으로 상기 입력된 검색어에 해당하는 정규화형태정보가 저장되는 정규화정보저장부; 상기 입력된 검색어에서 불용어를 제거하는 불용어제거부; 및 상기 불용어가 제거된 검색어를 대 응되는 정규화형태정보로 변환하고, 부가어를 제거하여 상기 키프레이즈 형태 검색어로 변환하는 검색어변환부를 포함할 수 있다.
한편, 본 발명의 다른 측면에 의한 문맥기반 색인데이터 생성방법은, 색인생성의 대상이 되는 대상문서가 입력되는 입력단계; 상기 입력된 대상문서에서 색인데이터 생성의 단위 구문인 키프레이즈를 생성하는 생성단계; 및 상기 대상문서의 위치정보를 포함하는 아이디정보와 상기 생성된 키프레이즈 가 상호 연계된 색인 데이터를 생성하는 색인데이터생성단계를 포함하고, 상기 키프레이즈는 상기 대상문서에서 기술되고 있는 주대상 단어인 화제어 또는 상기 화제어가 상기 대상문서에서 가지는 내용적 의미인 문맥범주정보로 구성된다.
또 다른 측면에 의한 본 발명의 문맥기반 검색방법은, 사용자로부터 원하는 검색어를 입력받는 검색입력단계; 상기 입력된 검색어를 키프레이즈 형태 검색어로 변환하는 변환단계; 및 색인생성의 대상이 되는 대상문서의 키프레이즈와 상기 대상문서의 위치정보를 포함하는 아이디정보가 상호 연계된 데이터인 색인데이터와 상기 키프레이즈 형태 검색어를 상호 비교하여 상기 키프레이즈 형태 검색어에 해당하는 색인데이터의 문서를 제공하는 검색결과제공단계를 포함하고, 상기 키프레이즈는 상기 대상문서에서 기술되고 있는 주대상 단어인 화제어 또는 상기 화제어가 상기 대상문서에서 가지는 내용적 의미인 문맥범주정보로 구성된다.
본 발명은 검색의 기초 데이터인 색인데이터를 색인 생성 대상 문서의 중심 되는 내용인 화제어 또는/및 문맥 정보를 중심으로 제공하여 사용자의 검색 의도에 더욱 부합되는 색인데이터를 제공할 수 있다.
이와 함께 사용자로부터 입력된 검색어 또한, 검색어의 문맥적 의미를 기초로 사용자의 의도를 분석하고 분석된 결과에 의하여 검색어를 새롭게 변환하여 상기의 프로세스로 생성된 색인데이터와 비교/매칭함으로써, 사용자의 의도에 부합되는 실질적인 검색결과를 제공할 수 있는 효과를 창출할 수 있다.
또한, 검색 엔진 등의 구동 효율적인 측면에서도 불필요한 색인데이터를 원천적으로 제거하고 불필요한 키워드 등을 배제할 수 있으므로 인덱스의 크기를 크게 감소시킬 수 있으며, 검색 속도 또한 감소된 색인데이터의 크기에 따른 연쇄적인 효과로서 더욱 높아질 수 있다.
사용자의 실질적인 검색과정을 고려하는 경우에도, 1차 검색에 이은 결과 내 검색 등에서도 단순정보의 병렬적 나열 방식을 효과적으로 지양하고, 역피라미드 식의 정보를 사용자에게 제공할 수 있어 원하는 정보로의 실질적 접근성이 더욱 가속화된 검색 결과 정보를 제공할 수 있게 된다.
검색 결과 출력 방법에서도 색인데이터의 본질적 속성을 오용하는 등의 키워드 스패밍과 같은 문제의 발생을 효과적으로 제거할 수 있음은 물론, 유사도 랭킹이나 인기도 랭킹을 기반으로 한 종래 기술에 비해 검색 결과 문서의 연관도를 크게 높일 수 있어 사용자로 하여금 더욱 향상된 검색 품질을 제공할 수 있는 효과를 창출할 수 있다.
또한, 사용자의 측면에서도 자신이 원하는 정보를 찾기 위하여 검색어를 입 력하는 과정에서 자신의 검색 의도를 검색 엔진 측으로 효과적으로 전달할 수 있어 낚시식의 검색어 입력방식을 지양할 수 있고 원하는 정보로 더욱 신속하게 접근할 수 있는 효과를 창출할 수 있다.
더욱이, 검색 결과 출력 과정에서 검색 결과를 단순 리스트 형식으로 보여주는 것 뿐만 아니라, 문맥 특성 등에 따라 그룹핑하여 유사한 문서를 번들로 제공할 수 있어, 사용자의 가독성을 더욱 높일 수 있게 된다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명하기로 한다. 이에 앞서, 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다.
따라서, 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시예에 불과할 뿐이고 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.
본 발명의 바람직한 실시예에 따른 문맥기반 색인데이터 생성장치의 구성을 도시한 블록도인 도 5와 본 발명의 바람직한 실시예에 따른 문맥기반 색인데이터 생성방법의 단계를 도시한 흐름도인 도 6을 참조할 때, 본 발명의 색인데이터 생성 장치(500)는 입력부(510), 생성부(520), 색인데이터 생성부(530) 및 색인데이터DB(540)을 포함하여 구성되며, 상기 생성부(520)는 구체적으로 형태소 분석부(522), 문맥패턴정보DB부(524) 및 키프레이즈생성부(526)를 포함하여 구성된다.
상기 입력부(510)는 색인생성의 대상이 되는 대상문서가 입력(S600)되는 구성요소로서, 상기 대상문서는 앞서 설명한 것과 같이 색인생성의 대상이 되는 것이라면, 웹에서 발현되는 형태 또는 형식 등을 불문하고 모두 포함될 수 있음은 자명하다.
상기 본 발명의 생성부(520)는 입력된 대상 문서의 내용을 분석하여, 본 발명의 주요한 기술사상인 사용자 검색 의도가 반영될 수 있도록 색인데이터 생성의 단위 구문인 키프레이즈를 생성(S610)하며, 상기 키프레이즈는 상기 대상문서에서 기술되고 있는 주대상 단어인 화제어 또는 상기 화제어가 상기 대상문서에서 가지는 내용적 의미인 문맥범주정보로 구성된다.
본 발명의 주요 목적은 종래 검색 기술보다 검색품질을 향상시키는 즉, 사용자의 의도가 충분히 반영된 검색 기술을 구현하는데 있으며, 종래 기술과 같이 빈도 또는 참조 계수와 같은 단순한 정량적 통계값이 아닌 사용자의 검색 의도와 대상 문서의 중심되는 내용인 화제 등 텍스트가 담고 있는 본래 의미를 파악함을 기술사상의 근저로 한다.
사용자의 검색의도라는 의미는 곧 검색어가 갖고 있는 일종의 문맥이라고 볼 수 있고, 화제는 문서 내용이 갖고 있는 문맥의 핵심적 단어로 볼 수 있다. 이러한 본 발명의 기술 사상을 실현하기 위하여 색인 데이터 생성 단계에서부터 사용자의 검색의도가 반영될 수 있는 색인데이터를 생성하도록 구성한다.
즉, 글자 단위 또는 품사 단위의 단순 명사를 추출하는 방법이 아니라 대상 문서의 문장 또는 문단 등의 화제가 되는 주요 내용이 무엇인지를 분석하여 색인데이터를 생성하게 된다.
이와 같이 대상 문서의 중심되는 내용인 화제어 또는/및 문맥내용을 중심으로 색인어를 생성하게 되므로 앞선 설명에서와 같이 스팸 키워드가 추출되거나 생성되는 경우를 원천적으로 제거할 수 있으며, 스팸 키워드에 의한 스팸 문서가 검색 결과에 포함될 수 없으므로 랭킹 등을 인위적으로 조정하는 등의 악의적이고 오용적인 사용은 자연스럽게 제거될 수 있다.
다시 본 발명의 구성에 대한 구체적인 설명을 계속하면, 본 발명의 색인데이터생성부(530)는 상기 대상문서의 위치정보를 포함하는 아이디정보와 상기 생성된 키프레이즈가 상호 연계된 색인 데이터를 생성(S620)하게 되고, 생성된 색인데이터는 색인데이터DB부(540) 등의 저장 공간에 저장되게 되어 향후 검색어와 일치되거나 대응되는 내용의 참조 또는 매칭 등의 검색프로세스에 이용되게 된다.
색인데이터는 도 6에 도시된 바와 같이 색인어 데이터와 포스팅 데이터가 연계되어진 형태로 구성되며, 상기 색인어 데이터는 인덱스에 해당하는 것으로서, 상기 도 6 등에서는 설명의 단순화를 위하여 룩업 테이블 또는 표의 형식을 빌어 도시되고 있으나, 실제로는 B+ 트리 등과 같이 수많은 키워드의 탐색에 적합한 구조로 구성될 수 있으며, 포스팅 데이터 영역 또한, 문서의 위치정보, 문서를 구별할 수 있는 아이디 정보, 출현 빈도, 가중치 등 실시형태에 따라 다양한 추가적 정보 가 함께 연계될 수 있음은 물론이다.
이하에서는 앞서 설명한 본 발명의 문맥기반 색인데이터 생성장치(500)의 생성부(520)의 구체적인 구성을 통하여 키프레이즈 생성에 대한 구체적인 내용을 설명하도록 한다.
형태소 분석부(522), 문맥패턴정보DB부(524) 및 키프레이즈생성부(526)를 포함하여 구성되는 상기 생성부(520)는 종래 기법의 키워드 추출에 대응되는 개념으로 키프레이즈(keyphrase) 추출의 프로세스를 수행하게 된다.
문맥 기반 키프레이즈 추출의 과정은 문서 내용을 분석해 화제어(topic word)와 화제어의 문맥을 파악해서 인덱싱이 가능한 형식으로 추출하는 과정을 의미한다. 종래 글자 또는 품사 단위의 과정에 대비하여 문맥 의미가 고려된 색인어를 추출하게 되므로 더욱 정제된 인덱스 데이터의 구축이 가능하게 된다.
문맥이라는 단어의 의미를 어떤 화제어가 앞뒤 말과 연관되어 이어지는 단위라고 할 때, 문맥의 단위는 보통 문단 또는 문장이 된다. 본 발명에서는 이와 같은 점을 반영하여 색인데이터 생성 단위인 키프레이즈는 대상문서의 문장 또는 문단 단위로 생성되는 것이 바람직하며, 또한, 대상문서를 입력받을 때, 전처리과정을 거쳐서 문장 또는 문단 단위로 입력되도록 구성하는 것도 상기와 동일한 기술적 의미가 되며, 다양한 실시형태에 의하여 절, 장, 혹은 문서 전체가 추출단위로 이용될 수 있음은 물론이다.
일종의 내용 태그(content tag)라고 볼 수 있는 키프레이즈는 어떤 대상 문장이나 문단에서 그 문장이나 문단의 특징적 내용을 함축하는 간결한 표현을 의미 한다고도 할 수 있다.
즉, 본 발명의 설명에 있어 "화제어"라는 개념은 대상 문서가 무엇을 화제로 하고 있느냐, 즉, 대상 문서에서 기술되고 있는 주대상(main-object)은 무엇인가에 대한 소위 주제어를 포함하는 개념이다.
후술되는 바와 같이 주어진 대상문서의 화제어는 대상 문서의 형태소의 특징을 분석하고, 분석된 형태소별 패턴을 기초로 정해진 규칙에 의하여 소정의 색인어 추출 엔진 등으로 구현되는 본 발명의 생성부(520)에서 생성된다.
또한, 문맥 또는 문맥범주의 개념은 사용된 어절, 문장 또는 문단 앞뒤의 내용적 논리 연관 관계를 고려하여 어떤 내용인지에 대한 파악된 결과를 의미하고, 상기 화제어가 대상문서에서 가지는 내용적 의미로 정의할 수 있다.
구체적으로 상기 문맥(문맥범주)은 상기 화제어가 상기 대상문서에서 어떻게 내용적으로 표현되고 있는지 등에 대한 의미를 담게 되며, 무엇은(화제어) 어떻다(문맥)로 간단히 요약할 수 있게 된다.
상기와 같은 키프레이즈를 생성하기 위한 구체적인 구성을 실현하기 위하여, 우선 문맥패턴정보DB부(524)는 형태소 패턴과 상기 형태소 패턴에 해당하는 문맥범주정보가 연계된 문맥패턴정보가 저장된다.
상기 문맥패턴정보는 앞서 설명한 키프레이즈를 생성하기 위한 참조(reference) 데이터에 해당하는 것으로서 아래 표 1에 그 구체적인 예를 도시한다.
Figure 112007076137207-pat00001
상기 표 1은 N = 명사 변수, PP = 조사, CP = 서술격 조사, VV = 동사, EM = 어말 어미, SN = 명사형 접미사를 범례로 가지며, 상기 문맥 패턴 정보의 양은 사전의 어휘 수가 한정되지 않는 것과 같이 계속적으로 추가되고 갱신될 수 있음은 자명하다.
상기 표 1에서와 같이 문맥패턴정보는 문맥에 특성 또는 분류 속성 등에 대한 문맥 범주 정보와 이에 대응되는 형태소 패턴 정보가 연계되어 있는 정보를 의미한다. 상기 형태소 패턴 정보는 앞서 전술된 바와 같이 형태소 기반의 키워드 분석의 결과로서 도출되는 형식을 이용하여, 일종의 구문-어휘패턴의 형식으로 생성된 정보에 해당한다.
상기 표 1의 우측 기준 3열에 해당하는 형태소 패턴을 가지는 문장 또는 문단의 경우, 이에 해당하는 2열의 문맥 범주에 해당됨을 의미하며, 이러한 문맥패턴정보는 후술되는 키프레이즈 생성부(526)가 소정의 키프레이즈를 생성하기 위한 기본 데이터로서 상기 문맥패턴정보를 상기 키프레이즈 생성부(526)에 제공하게 된다.
본 발명의 형태소 분석부(522)는 상기 입력된 대상문서(S700)를 대상으로 형태소 패턴 분석을 수행하게 된다(S710). 형태소 분석은 도 7에 예시된 바와 같이 입력된 대상문서의 품사 기반 분석에 의하여 각각의 품사가 무엇이며, 그 어근이 무엇인지에 대한 분석을 의미하는 것으로서, 그 내용은 당업자에게 잘 알려진 사실이므로 상세한 설명은 생략하도록 한다.
상기의 과정을 거친 후, 본 발명의 키프레이즈 생성부(526)는 상기 형태소 패턴 분석 결과에 대응하는 상기 문맥패턴정보의 형태소 패턴이 존재하는지 판단하여(S720), 상기 형태소 패턴에 해당하는 문맥범주정보와 상기 형태소 패턴을 구성하는 화제어로 상기 키프레이즈를 생성하게 된다(S730, S740).
즉, 형태소 분석 결과가 도출되게 되며, 상기 결과에 해당하는 형태소 패턴이 존재하는지 문맥패턴정보에서 매칭작업을 수행하게 되고, 특정 형태소 패턴이 존재하면 해당 문맥을 찾았다고 판정할 수 있다.
도 7에 도시되어 있는 형태소 분석 결과를 구체적인 예로 참조하여 볼 때, 아래 표 2와 같다.
Figure 112007076137207-pat00002
상기 표 2에서와 같이 형태소 분석 결과의 형태소 패턴을 분석하여, 합치되는 패턴이 상기 문맥패턴정보에 존재하는 경우(삼계탕/NN+은/PP, 음식/NN+이/CP)이에 해당하는 문맥 범주 #1은 [요리/정의]임을 찾게 되며, 또한, 상기 형태소 패턴의 명사에 해당되어 합치되는 단어는 삼계탕이므로 상기 문장의 화제어는 삼계탕으로 추출할 수 있게 된다.
즉, 상기 색인 생성의 대상 문서는 상기와 같은 과정을 통하여 #삼계탕#요리/정의#라는 키프레이즈 기반의 검색을 위한 색인데이터로 생성되게 된다.
보충적으로 상기 키프레이즈는 문장의 특징적인 내용이 압축된 하나의 구(句)로 표현될 수 있는데 본 발명에서는 문장의 화제어와 화제어의 문맥 범주가 결합된 명사구 형태로 나타낼 수 있다.
본 발명의 더욱 바람직할 실시형태를 구현하기 위하여, 종래에 이용되는 글자 기반 또는 품사 기반의 검색 방법 각각의 장점을 병합하여 검색 시너지 효과를 높이기 위하여, 종래 방법에 의한 색인데이터와 함께 상기 키프레이즈 기반 색인데이터를 생성하는 것이 더욱 바람직하며, 특정 기호, 숫자, 암호 등으로 각각이 구분가능하도록 데이터 베이스화하는 것이 바람직하다.
상기와 같이 구분 가능하도록 각 방법의 색인데이터를 생성하는 경우, 검색하는 엔진이나 툴의 다양한 실시형태에 따라 적용가능한 형태의 데이터 베이스를 운용할 수 있게 된다. 이와 관련된 종래 기법(단어, 품사 기반 등)과 본 발명의 키프레이즈 기반 방법이 병합된 검색 방법에 대하여서는 후술하도록 한다.
이하에서는 본 발명의 또 다른 목적을 달성하기 위한 문맥기반 검색장치 및 방법에 대한 도 8 및 도 9를 참조하여 상세히 설명하도록 한다.
설명에 앞서 고품질의 검색 작업을 수행하기 위한 사용자 의도를 검색에 반영하는 의미에 대하여 간략히 언급하도록 한다. 종래 검색에서 간과되고 있는 기술 내용이기도 한 사용자 의도 분석에 내용을 종래 검색 싸이트(인기도 기반)에서 "제주도" 라는 검색어를 입력하고 해당 결과가 출력되는 과정을 구체적인 예로 들어 설명한다.
상기와 같이 인기도 기반의 싸이트의 검색창에 제주도라는 검색어를 입력하는 경우 제주도란 섬에 대해 알고 싶은데도 불구하고 제주도의 기관, 단체에 관한 문서만이 주로 출력되게 된다. 이에 따라 사용자는 자신의 의도와는 다르게 나온 검색 결과를 보고 검색어를 수정해 보려고 하게 되고, 숙고 후 "제주도에 대해", "제주도 and 섬 and 지역" 등의 검색어를 입력해 보지만 인기도 기반 검색은 오히려 처음보다도 적합도가 떨어지는 문서만이 출력되게 된다. 사용자는 포기하고 다시 원래 검색어로 검색한 후, 자기가 원했던 문서가 발견될 때까지 검색 결과를 처음부터 찾아보게 된다.
상기 상황에 대한 예는, 자신의 검색 의도를 더 구체화하고 싶은 사용자에게 그 수단을 제공해 주지 못하는 현재 검색 엔진 기술의 문제를 보여주고 있다고 할 수 있으며, 또 다른 예로 "삼계탕 끓이는 법" 이라는 검색어를 들어 추가적으로 설명하면 다음과 같다.
이 검색어에는 사용자의 검색 의도가 비교적 명확하게 나타나 있으나, 그 의도를 포착해 검색에 반영하는 기술이 종래의 검색 기술에는 존재하지 않는다. 종래 검색 기술로는 고작 "삼계탕" 또는 "끓이는 법"이라는 키워드가 전부 혹은 일부 포함된 문서를 보여줄 수 있을 뿐이다.(정해진 주제에 대해 미리 편집한 문서를 보여주는 소위 포털 "지식검색"의 검색 결과는 검색 기술이 아닌 콘텐츠에 의한 것이므로 논외로 한다).
사용자가 원하는 문서는 명백히 삼계탕 조리법에 관한 문서였겠지만 종래 기술로는 그 의도를 특정해서 처리할 능력이 없으므로, 의도를 구체화하기 위해 부가한 표현(예. "끓이는 법")이 오히려 검색에 방해만 되는 일이 종종 발생학 된다.
그 결과, 사용자는 의도의 구체화를 포기하고 대신에 중심어 위주의 간단한 검색어를 선호하는 방식으로 적응되어 가고 있으며, 실제 포털 검색 서비스에서 입력되는 검색어의 70~80%는 한 단어 검색어이라고 알려져 있다.
즉, 사용자가 원하는 실질적인 정보만을 검색결과로 제공받는 것이 불가능하므로 가장 일반적인 대표적 단어로만 1차 범주를 한정하고 그 속에서 직접 원하는 정보를 추려내는 방식만으로 검색 방법은 이용되고 있다.
이는 검색 엔진의 입장에서 보면 점점 사용자가 입력하는 의도가 모호해지는 것을 의미하기 때문에 기술 발전 측면에서도 결코 바람직한 방향일 수 없으며, 명확한 검색 의도가 파악 못되지 못하므로 정확성 및 적확성이 높은 검색 결과 역시 사용자에게 제공할 수 없다는 악순환이 계속되고 있다.
이러한 문제점을 해소하기 위하여 본 발명은 앞서 설명한 것과 같이 색인 대상이 되는 모든 문서를 키프레이즈 중심의 색인데이터를 형성하여 검색에 반영하고, 검색어 또한 사용자의 의도를 분석하여 의도 분석 기반의 검색어로 변환하여 상기 키프레이즈 중심의 색인데이터에 일치되는 문서를 검색의 결과로 제공하는 방법을 채용하여 실현하게 된다.
상기의 방법을 실현하기 위한 본 발명의 문맥기반 검색장치(800)는, 검색입력부(810), 변환부(820), 색인데이터 저장부(830) 및 검색결과 제공부(840)를 포함하여 구성된다.
우선, 상기 검색입력부(810)는 사용자로부터 원하는 검색어를 입력받는다(S900). 입력받는 다양한 방법이 가능하며, 통상적으로 검색 포털 등에서 제공하는 검색창을 통하여 사용자 입력방식으로 검색어를 입력받게 되며, 상기 검색입력부(810)는 본 발명에 의한 검색장치가 운용되는 호스트와 클라이언트의 데이터 입출력 인터페이스에 해당하게 된다.
변환부(820)는 상기 검색입력부(810)를 통하여 입력된 검색어를 키프레이즈 형태 검색어로 변환하는 역할을 담당한다. 상기 키프레이즈 형태 검색어로의 변환은 앞서 설명한 바와 같은 형태소 분석결과에 따른 형태소별 패턴에 의하여 결정할 수 있음은 물론이다.
그 후, 본 발명의 검색결과제공부(840)는 상기 변환부(820)로부터 상기 변환된 키프레이즈 형태 검색어를 전달받고, 색인데이터저장부(830)로부터 색인생성의 대상이 되는 대상문서의 키프레이즈와 상기 대상문서의 위치정보를 포함하는 아이디정보가 상호 연계된 색인데이터를 독출하여 상기 키프레이즈 형태 검색어와 상기 색인데이터를 비교하여 상기 키프레이즈 형태 검색어에 해당하는 색인데이터의 문서를 제공하게 된다.
상기 키프레이즈 형태 검색어에 해당하는 색인데이터를 찾는 방법으로 이진 탐색, B+트리 탐색 등 본 발명에 속하는 기술분야의 당업자에게 활용가능한 다양한 형태의 방법이 이용될 수 있으며, 그 구체적인 방법에 대한 상세한 설명은 생략하도록 한다.
즉, 상기 변환부(820)는 사용자가 입력한 검색어 또는 검색식 등을 기초로 인덱스(색인)데이터 조회가 가능한 키프레이즈 형태의 검색어로 변환하게 된다.
사용자마다 사용하는 언어환경이 동일하지 않으므로 자신의 검색 의도를 여러가지 다양한 문장 등으로 표현할 수 있기 때문에, 궁극적으로 검색하고자 하는 바가 동일할지라도 검색어는 조금씩 차이가 날 수 있으며, 예를 들어, '삼계탕 끓이는 법', '삼계탕 맛있게 끓이는 법', '삼계탕 끓이기' 등은 표현이 동일하지 않지만 모두 '삼계탕을 끓이는 방법'에 대한 문서를 제공받기를 원한다고 할 수 있다.
이러한 원래적인 표현에 대한 다양한 변이형태를 내부 색인 데이터에 저장된 키프레이즈 형태인 [#삼계탕#요리법#] 으로 변환하는 역할을 상기 변환부(820)가 담당하게 되며, 서로 형태는 동일하지 않지만 동일한 언어적 의미를 가지는 변이형(variant)검색어들을 동일한 형태의 원래적 표현으로 변환한다는 의미에서 상기 변환과정을 검색어의 정규화(normalization)과정이라고 칭할 수도 있다.
경우에 따라, 사용자의 의도가 묵시적으로 표현되는 경우도 존재할 수 있다. 이런 경우, 의도를 명시화하여 키프레이즈를 생성할 수 있는데, 예를 들어, '목이 아플 때'라는 검색어는 [#목#치료법]으로 검색 의도가 명시된 표현으로 정규화될 수도 있다.
의도가 전혀 나타나지 않는 검색어의 경우, 에를 들어 검색어가 '삼계탕'이라면 검색 의도를 특정할 수 없으므로 화제어인 [#삼계탕#]만으로 정규화할 수도 있다.
상기 변환부(820)의 구체적인 처리 동작 메카니즘을 설명하면, 변환부(820)는 불용어제거부(822), 정규화정보저장부(824) 및 검색어 변환부(826)를 포함하여 구성될 수 있다.
우선 정규화정보저장부(824)는 입력된 검색어의 내용적 의미를 기준으로 상기 입력된 검색어에 해당하는 정규화형태정보가 저장된다. 앞서 설명한 바와 같이 검색어를 통하여 입력된 검색어의 다양한 변이형태를 정규화된 형태로 치환할 수 있도록 상기 정규화형태정보는 가급적 많은 변이 형태의 표현 정보와 이에 대응하는 정규화형태 정보가 등재되어 있는 것이 바람직하다.
실시를 거듭함에 따라 상기 정규화형태정보에 등재되어 있지 않은 검색어 표현은 피드백 시스템을 응용하여 재차 정규화형태정보에 포섭될 수 있도록 운용하는 것이 더욱 바람직하다.
상기 불용어제거부(822)는 검색어 처리에 크게 도움이 되지 않는다고 판단되는 특수기호, 문자, 글자, 심볼 등의 불용어를 제거하는 과정(S910)으로서, 상기 불용어는 문장부호(?, ! 등), 이모티콘('OTL', '*'. '^^' 등), 내용없는 단순 반복 글자['ㅋㅋㅋ', 'zzz' 등), 공백 문자 등을 다양한 불용어가 해당될 수 있다.
불용어가 제거된 검색어를 대상으로 이에 대응되는 정규화형태정보가 존재하는지 상기 정규화정보저장부(824)에 저장되어 있는 정규화형태정보를 검색하고 해당되는 정규화형태로 변환한다(S920).
구체적인 예를 들어, '끓이는기술, 끓이는방법, 끓이는방법은, 끓이는법, 끓이는법좀, 끓이는법좀알려주세요, 끓이는비법,..... 등은 모두 요리법에 대한 변이형에 해당하므로 상기와 같은 사용자의 검색어들이 입력되는 경우 상기 변이형에 해당하는 정규화형태정보인 "요리법"이라는 형태로 모두 변환되게 된다.
상기와 같이 정규화형태로 변환한 후, 상기 검색어 변환부(826)는 부사 또는 조사 등의 부가어를 제거함(S930)으로써 최종적으로 사용자가 입력한 검색어를 키프레이즈 형태 검색어로 변환하게 된다.
'맛있게, 싸게, 빨리.. ' 등과 같은 표현은 대상 문서 또는 검색에 대한 내용을 의미하기보다는 정도를 나타내는 표현에 해당하므로 전체 내용에 영향을 거의 미치지 않으므로 제거하는 것이 더욱 바람직하다.
상기와 같이 키프레이즈 형태 검색어에 해당하는 색인데이터를 검색하게 되고(S940), 검색된 색인데이터에 해당하는 문서를 소정의 출력화면으로 구성하여 클라이언트로 출력전송하게 된다(S950).
상기에서 본 발명에 의한 문맥 기반의 색인데이터 생성방법 및 이를 이용한 문맥 기반 검색 방법에 대한 상세히 설명하였다. 상기와 같은 방법에 의한 검색방법은 주어진 검색어가 화제어로 출현한 문서만을 검색하여 출력하는 방식이므로 랭킹에 앞서 이미 검색 결과의 사용자 적합도가 매우 높다고 할 수 있다.
그러므로 달리 랭킹에 의한 출력 순위의 조정의 필요성없이 문맥 기반의 검색을 통한 결과를 랭킹 없이 그대로 사용자에게 출력하여도 도 11과 같이 높은 적합도의 정보를 제공할 수 있다.
검색결과를 출력함에 있어, 상기 검색결과제공부(840)는 상기 키프레이즈 형태 검색어에 해당하는 색인데이터를 도 12와 같이 키프레이즈의 종류별로 그룹핑하여 출력하는 경우, 키프레이즈의 종류에 따른 범주화가 가능하여 사용자에게 더욱 높은 가독성 및 선별성을 제공할 수 있다.
또한, 상기 키프레이즈 형태의 검색어에 부합되는 정도에 따라 상기 색인데이터에 우선순위를 부여하여 출력하는 경우에도 상기와 같이 사용자로 하여금 더욱 정제된 선별성을 제공할 수 있다.
즉, 여러 문맥 범주 정보 중 검색어와의 관계, 즉 검색어에 부합되는 정도에 따라 문맥 범주를 상위에 배치하면 검색 결과의 연관도 및 정제된 선별성을 제공할 수 있다. 도 13에 도시된 바와 같이 검색어가 장소에 관한 것인 경우, 위치, 자랑거리, 소개 등의 문맥 범주에 해당하는 문서를 중점적으로 제시하고, 그 후 리스트 나열식의 일반적인 방법으로 제시함으로써, 더욱 정련된 정보 제공의 효과를 창출할 수 있다.
종래 글자 또는 품사 기반의 검색방법의 장점을 선별적으로 결합시켜 검색방법의 시너지 효과를 더욱 높이기 위한 방법으로서, 앞서 색인 데이터 생성에 대한 설명에서 간단히 살펴본 바와 같이 색인데이터 베이스를 본 발명에 의한 키프레이즈 기반 색인데이터와 함께 타 기반 색인데이터를 함께 구분되도록 저장하고, 특정 문서 등에 더욱 효율적일 수 있는 방법을 선별적으로 적용하는 방법을 이용할 수도 있다.
즉, 문서 내 검색 섹션마다 텍스트의 유형, 분량, 문체 등이 서로 동일하지 않기 때문에 그에 부합되도록 사용자로부터의 검색 요청이 다를 수도 있다. 예를 들어, 도서 검색의 경우, 검색어 내 조사까지도 동일한 표현을 찾아야 하는 경우가 있으므로 이러한 경우에는 글자기반(N-GRAM)방법을 사용하고, 서평 본문에 대한 경우에는 품사기반 검색을 적용하는 식이다.
또한, 사용자의 요청 또는 검색대상이 되는 문서의 종류 등에 따라 종래 기법과 본 발명에 의한 기법을 동시에 적용하는 것도 가능하다.
상기와 같은 구성을 실현하기 위하여 본 발명의 검색입력부(810)는 사용자로부터 검색의 대상이 되는 문서의 종류정보 또는 원하는 검색방식에 대한 정보 등을 추가적으로 입력받고, 입력된 정보에 해당하는 검색방식을 이용한 검색 결과를 사용자에게 제공하도록 구성하는 것이 더욱 바람직하다.
상기 본 발명에 의한 문맥 기반 색인데이터생성장치 및 문맥기반 검색장치의 각 구성요소는 물리적으로 구분되는 구성요소라기보다는 논리적인 구성요소로 이해되어야 한다. 즉, 각각의 구성은 본 발명의 기술사상을 실현하기 위하여 논리적으로 구분된 구성요소에 해당하므로 각각의 구성요소가 통합 또는 분리되어 수행되더라도 본 발명의 논리 구성이 수행하는 기능을 실현할 수 있다면 본 발명의 범위 내에 있다고 해석되어야 한다.
또한, 본 발명의 기술내용에 대한 적확한 표현을 위하여 채용되는 단어의 정의는 국어학적 의미로 제한되어 해석될 수 없으며, 채용된 단어와 동일하지 않은 단어 또는 용어일지라도 그 단어 또는 용어가 지칭하는 기능적 수행이 본 발명의 요소와 동일 또는 유사하다면 지칭된 명칭의 상위에 관계없이 본 발명의 범주에 해당된다고 해석되어야 함은 명확하다.
이상에서 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 이것에 의해 한정되지 않으며 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 본 발명의 기술사상과 아래에 기재될 특허청구범위의 균등범위 내에서 다양한 수정 및 변형이 가능함은 물론이다.
본 명세서에 첨부되는 다음의 도면들은 본 발명의 바람직한 실시예를 예시하는 것이며, 전술된 발명의 상세한 설명과 함께 본 발명의 기술사상을 더욱 이해시키는 역할을 하는 것이므로, 본 발명은 그러한 도면에 기재된 사항에만 한정되어 해석되어서는 아니된다.
도 1은 종래 형태소 기반 색인 생성 방법에 대한 과정을 도시한 흐름도,
도 2는 종래 형태소 기반 검색 방법에 대한 과정을 도시한 흐름도,
도 3은 종래 검색 방법 중 유사도 검색에 의한 검색결과의 출력 화면을 도시한 도면,
도 4는 종래 검색 방법 중 인기도 검색에 의한 검색결과의 출력 화면을 도시한 도면,
도 5는 본 발명의 바람직한 실시예에 따른 문맥기반 색인데이터 생성장치의 구성을 도시한 블록도,
도 6은 본 발명의 바람직한 실시예에 따른 문맥기반 색인데이터 생성방법의 단계를 도시한 흐름도,
도 7은 본 발명에 의한 키프레이즈 생성의 구체적인 과정을 도시한 흐름도,
도 8은 본 발명의 다른 실시예에 의한 문맥 기반 검색장치에 대한 구성을 도시한 블록도,
도 9는 본 발명의 다른 실시예에 의한 문맥 기반 검색방법의 과정을 도시한 흐름도,
도 10은 본 발명에 의한 키프레이즈 기반 검색과 타 기반 검색이 병합된 검색방법에 대한 구성도,
도 11은 본 발명에 의한 키프레이즈 기반 검색 결과가 사용자에게 제공되는 화면에 대한 도면,
도 12는 본 발명에 의한 키프레이즈 기반 검색결과를 키프레이즈의 종류별로 그룹핑하여 제공하는 화면에 대한 도면,
도 13은 본 발명에 의한 키프레이즈 기반 검색결과를 검색어와 연관성 높은 대상 문서를 우선적으로 제공하는 화면에 대한 도면이다.

Claims (14)

  1. 색인생성의 대상이 되는 대상문서가 입력되는 입력부;
    상기 입력된 대상문서에서 색인데이터 생성의 단위 구문인 키프레이즈를 생성하는 생성부; 및
    상기 대상문서의 위치정보를 포함하는 아이디정보와 상기 생성된 키프레이즈 가 상호 연계된 색인 데이터를 생성하는 색인데이터생성부를 포함하고,
    상기 키프레이즈는,
    상기 대상문서에서 기술되고 있는 주대상 단어인 화제어 또는 상기 화제어가 상기 대상문서에서 가지는 내용적 의미인 문맥범주정보로 구성되며,
    상기 생성부는,
    형태소 패턴과 상기 형태소 패턴에 해당하는 문맥범주정보가 연계된 문맥패턴정보가 저장된 문맥패턴정보DB부;
    상기 입력된 대상문서를 대상으로 형태소 패턴 분석을 수행하는 형태소분석부; 및
    상기 형태소 패턴 분석 결과에 대응하는 상기 문맥패턴정보의 형태소 패턴이 존재하는 경우, 상기 행태소 패턴에 해당하는 문맥범주정보와 상기 형태소 패턴을 구성하는 화제어로 상기 키프레이즈를 생성하는 키프레이즈생성부를 포함하는 것을 특징으로 하는 문맥기반 색인데이터 생성장치.
  2. 제 1항에 있어서, 상기 키프레이즈는,
    상기 대상문서의 문장 또는 문단 단위로 생성되는 것을 특징으로 하는 문맥기반 색인데이터 생성장치.
  3. 삭제
  4. 제 1항에 있어서, 상기 색인데이터생성부는,
    타 기반 색인데이터와 상기 키프레이즈 기반의 색인데이터를 병합하여 색인데이터베이스를 생성하되, 상기 키프레이즈 기반의 색인데이터가 타 색인데이터와 구분 가능하도록 상기 색인데이터베이스를 생성하는 것을 특징으로 하는 문맥기반 색인데이터 생성장치.
  5. 사용자로부터 원하는 검색어를 입력받는 검색입력부;
    상기 입력된 검색어를 키프레이즈 형태 검색어로 변환하는 변환부;
    색인생성의 대상이 되는 대상문서의 키프레이즈와 상기 대상문서의 위치정보를 포함하는 아이디정보가 상호 연계된 색인데이터가 저장되는 색인데이터저장부; 및
    상기 키프레이즈 형태 검색어와 상기 색인데이터를 비교하여 상기 키프레이즈 형태 검색어에 해당하는 색인데이터의 문서를 제공하는 검색결과제공부를 포함하고,
    상기 키프레이즈는,
    상기 대상문서에서 기술되고 있는 주대상 단어인 화제어 또는 상기 화제어가 상기 대상문서에서 가지는 내용적 의미인 문맥범주정보로 구성되는 것을 특징으로 하는 문맥기반 검색장치.
  6. 제 5항에 있어서, 상기 변환부는,
    입력된 검색어의 내용적 의미를 기준으로 상기 입력된 검색어에 해당하는 정규화형태정보가 저장되는 정규화정보저장부;
    상기 입력된 검색어에서 불용어를 제거하는 불용어제거부; 및
    상기 불용어가 제거된 검색어를 대응되는 정규화형태정보로 변환하고, 부가어를 제거하여 상기 키프레이즈 형태 검색어로 변환하는 검색어변환부를 포함하는 것을 특징으로 하는 문맥기반 검색장치.
  7. 제 5항에 있어서, 상기 검색결과제공부는,
    상기 키프레이즈 형태 검색어에 해당하는 색인데이터를 키프레이즈의 종류별로 그룹핑하여 출력하는 것을 특징으로 하는 문맥기반 검색장치.
  8. 제 5항에 있어서, 상기 검색결과제공부는,
    상기 키프레이즈 형태의 검색어에 부합되는 정도에 따라 상기 색인데이터에 우선순위를 부여하여 출력하는 것을 특징으로 하는 문맥기반 검색장치.
  9. 제 5항에 있어서, 상기 검색입력부는,
    상기 사용자로부터 검색의 대상이 되는 문서의 종류정보를 더 입력받고,
    상기 검색결과제공부는,
    상기 색인데이터와 함께 타 기반 색인데이터가 더 저장된 색인데이터저장부를 제어하여 상기 입력된 문서의 종류정보에 해당하는 색인데이터의 문서를 제공하는 것을 특징으로 하는 문맥기반 검색장치.
  10. 제 5항에 있어서, 상기 검색입력부는,
    상기 사용자로부터 원하는 검색방식을 더 입력받고,
    상기 검색결과제공부는,
    상기 색인데이터와 함께 타 기반 색인데이터가 더 저장된 상기 색인데이터저장부를 제어하여, 상기 입력된 검색방식에 해당하는 색인데이터의 문서를 제공하는 것을 특징으로 하는 문맥기반 검색장치.
  11. 색인생성의 대상이 되는 대상문서가 입력되는 입력단계;
    상기 입력된 대상문서에서 색인데이터 생성의 단위 구문인 키프레이즈를 생성하는 생성단계; 및
    상기 대상문서의 위치정보를 포함하는 아이디정보와 상기 생성된 키프레이즈 가 상호 연계된 색인 데이터를 생성하는 색인데이터생성단계를 포함하고,
    상기 키프레이즈는,
    상기 대상문서에서 기술되고 있는 주대상 단어인 화제어 또는 상기 화제어가 상기 대상문서에서 가지는 내용적 의미인 문맥범주정보로 구성되며,
    상기 생성단계는,
    형태소 패턴과 상기 형태소 패턴에 해당하는 문맥범주정보가 연계된 문맥패턴정보가 저장되는 문맥패턴정보저장단계;
    상기 입력된 대상문서를 대상으로 형태소 패턴 분석을 수행하는 형태소분석단계; 및
    상기 형태소 패턴 분석 결과에 대응하는 상기 문맥패턴정보의 형태소 패턴이 존재하는 경우, 상기 형태소 패턴에 해당하는 문맥범주정보와 상기 형태소 패턴을 구성하는 화제어로 상기 키프레이즈를 생성하는 키프레이즈생성단계를 포함하는 것을 특징으로 하는 문맥기반 색인데이터 생성방법.
  12. 삭제
  13. 사용자로부터 원하는 검색어를 입력받는 검색입력단계;
    상기 입력된 검색어를 키프레이즈 형태 검색어로 변환하는 변환단계; 및
    색인생성의 대상이 되는 대상문서의 키프레이즈와 상기 대상문서의 위치정보를 포함하는 아이디정보가 상호 연계된 데이터인 색인데이터와 상기 키프레이즈 형태 검색어를 상호 비교하여 상기 키프레이즈 형태 검색어에 해당하는 색인데이터의 문서를 제공하는 검색결과제공단계를 포함하고,
    상기 키프레이즈는,
    상기 대상문서에서 기술되고 있는 주대상 단어인 화제어 또는 상기 화제어가 상기 대상문서에서 가지는 내용적 의미인 문맥범주정보로 구성되는 것을 특징으로 하는 문맥기반 검색방법.
  14. 제 13항에 있어서, 상기 변환단계는,
    입력된 검색어의 내용적 의미를 기준으로 상기 입력된 검색어에 해당하는 정규화형태정보가 저장되는 정규화정보저장단계;
    상기 입력된 검색어에서 불용어를 제거하는 불용어제거단계; 및
    상기 불용어가 제거된 검색어를 대응되는 정규화형태정보로 변환하고, 부가어를 제거하여 상기 키프레이즈 형태 검색어로 변환하는 검색어변환단계를 포함하는 것을 특징으로 하는 문맥기반 검색방법.
KR1020070107155A 2007-10-24 2007-10-24 문맥 기반 색인데이터 생성장치와 문맥기반 검색장치 및 그방법 KR100885527B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020070107155A KR100885527B1 (ko) 2007-10-24 2007-10-24 문맥 기반 색인데이터 생성장치와 문맥기반 검색장치 및 그방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070107155A KR100885527B1 (ko) 2007-10-24 2007-10-24 문맥 기반 색인데이터 생성장치와 문맥기반 검색장치 및 그방법

Publications (1)

Publication Number Publication Date
KR100885527B1 true KR100885527B1 (ko) 2009-02-26

Family

ID=40682093

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070107155A KR100885527B1 (ko) 2007-10-24 2007-10-24 문맥 기반 색인데이터 생성장치와 문맥기반 검색장치 및 그방법

Country Status (1)

Country Link
KR (1) KR100885527B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101174216B1 (ko) * 2010-10-25 2012-08-14 엔에이치엔(주) 지역기반의 검색어를 추천하는 시스템 및 그 방법
KR20190008673A (ko) 2017-07-17 2019-01-25 주식회사 코난테크놀로지 비동기 방식을 사용하는 파일 색인장치 및 그 방법
CN118193682A (zh) * 2024-05-13 2024-06-14 广东电网有限责任公司中山供电局 关键词匹配方法、计算机程序产品及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010004404A (ko) * 1999-06-28 2001-01-15 정선종 키팩트기반 텍스트 검색시스템과, 이를 이용한 키팩트기반 텍스트 색인방법 및 검색방법
KR20030006201A (ko) * 2001-07-12 2003-01-23 서정연 홈페이지 자동 검색을 위한 통합형 자연어 질의-응답시스템
KR20030094966A (ko) * 2002-06-11 2003-12-18 주식회사 코스모정보통신 통제학습 기반의 문서 자동분류시스템 및 그 방법
KR20080001017A (ko) * 2006-06-29 2008-01-03 김성훈 전자문서의 내용 검색을 위한 문맥반복성에 의한 색인 생성기법 및 시스템

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010004404A (ko) * 1999-06-28 2001-01-15 정선종 키팩트기반 텍스트 검색시스템과, 이를 이용한 키팩트기반 텍스트 색인방법 및 검색방법
KR20030006201A (ko) * 2001-07-12 2003-01-23 서정연 홈페이지 자동 검색을 위한 통합형 자연어 질의-응답시스템
KR20030094966A (ko) * 2002-06-11 2003-12-18 주식회사 코스모정보통신 통제학습 기반의 문서 자동분류시스템 및 그 방법
KR20080001017A (ko) * 2006-06-29 2008-01-03 김성훈 전자문서의 내용 검색을 위한 문맥반복성에 의한 색인 생성기법 및 시스템

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101174216B1 (ko) * 2010-10-25 2012-08-14 엔에이치엔(주) 지역기반의 검색어를 추천하는 시스템 및 그 방법
US9460113B2 (en) 2010-10-25 2016-10-04 Nhn Corporation System and method for recommending location-based keyword
KR20190008673A (ko) 2017-07-17 2019-01-25 주식회사 코난테크놀로지 비동기 방식을 사용하는 파일 색인장치 및 그 방법
CN118193682A (zh) * 2024-05-13 2024-06-14 广东电网有限责任公司中山供电局 关键词匹配方法、计算机程序产品及存储介质

Similar Documents

Publication Publication Date Title
US8060357B2 (en) Linguistic user interface
US6470306B1 (en) Automated translation of annotated text based on the determination of locations for inserting annotation tokens and linked ending, end-of-sentence or language tokens
KR101732342B1 (ko) 신뢰 질의 시스템 및 방법
US20050203900A1 (en) Associative retrieval system and associative retrieval method
KR20010075026A (ko) 지식 창조 능력을 가지는 문서 의미 분석/선택 시스템 및그 방법
CN102214189B (zh) 基于数据挖掘获取词用法知识的系统及方法
US20090222409A1 (en) Conceptual Reverse Query Expander
JP2011118689A (ja) 検索方法及びシステム
Kallimani et al. Summarizing news paper articles: experiments with ontology-based, customized, extractive text summary and word scoring
Litvak et al. Degext: a language-independent keyphrase extractor
WO2019200699A1 (zh) 政务系统发文方法、装置、计算机设备及存储介质
JP3743678B2 (ja) 自動自然言語翻訳
Kerremans et al. Using data-mining to identify and study patterns in lexical innovation on the web: The NeoCrawler
KR20200136636A (ko) 형태소 기반 ai 챗봇 및 그의 문장의도 결정 방법
EP4080381A1 (en) Method and apparatus for generating patent summary information, and electronic device and medium
KR100885527B1 (ko) 문맥 기반 색인데이터 생성장치와 문맥기반 검색장치 및 그방법
JP4065346B2 (ja) 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
Bian et al. Integrating query translation and document translation in a cross-language information retrieval system
KR101238927B1 (ko) 전자도서컨텐츠 검색 서비스 시스템 및 전자도서컨텐츠 검색 서비스 방법
Georgantopoulos MSc in Speech and Language Processing Dissertation: Automatic summarising based on sentence extraction: A statistical approach
WO1997048058A1 (en) Automated translation of annotated text
JP4452527B2 (ja) 文書検索装置、文書検索方法、および文書検索プログラム
WO1997048058A9 (en) Automated translation of annotated text
Milić-Frayling Text processing and information retrieval
JP4138048B2 (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130214

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20140110

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20150102

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20160104

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20170105

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20180111

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20190108

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20191127

Year of fee payment: 12