KR20010004404A - 키팩트기반 텍스트 검색시스템과, 이를 이용한 키팩트기반 텍스트 색인방법 및 검색방법 - Google Patents

키팩트기반 텍스트 검색시스템과, 이를 이용한 키팩트기반 텍스트 색인방법 및 검색방법 Download PDF

Info

Publication number
KR20010004404A
KR20010004404A KR1019990025035A KR19990025035A KR20010004404A KR 20010004404 A KR20010004404 A KR 20010004404A KR 1019990025035 A KR1019990025035 A KR 1019990025035A KR 19990025035 A KR19990025035 A KR 19990025035A KR 20010004404 A KR20010004404 A KR 20010004404A
Authority
KR
South Korea
Prior art keywords
key
fact
key fact
document
search
Prior art date
Application number
KR1019990025035A
Other languages
English (en)
Inventor
정경택
장명길
전미선
박세영
Original Assignee
정선종
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=19596538&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=KR20010004404(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by 정선종, 한국전자통신연구원 filed Critical 정선종
Priority to KR1019990025035A priority Critical patent/KR20010004404A/ko
Priority to US09/475,743 priority patent/US6366908B1/en
Publication of KR20010004404A publication Critical patent/KR20010004404A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99951File or database maintenance
    • Y10S707/99952Coherency, e.g. same view to multiple users

Abstract

본 발명은 문서가 갖고 있는 정형화된 개념소를 주제어인 객체와 부속어인 속성의 쌍으로 표현하고, 이들 쌍으로 표현된 정보를 색인정보로 사용하여 문서를 색인 및 검색하는 키팩트기반 텍스트 검색에 관한 것이다.
이러한 키팩트기반 텍스트 검색시스템은, 검색대상 문서집합과 사용자 질의를 분석하여 품사모호성이 해소된 키워드들을 추출하고 이 키워드들로부터 키팩트들을 추출하는 키팩트 추출장치와; 상기 검색대상 문서집합에 포함된 다양한 유형의 키팩트의 빈도를 계산하고, 전체 문서집합에 대한 키팩트리스트를 생성하여 키팩트 색인구조로 저장하는 키팩트 색인장치; 및 상기 사용자 질의의 키팩트와 상기 문서집합의 키팩트들을 입력받아 키팩트유형에 따른 가중치상수를 고려하여 키팩트기반 검색모델을 정의하고 질의와 유사한 문서를 검색결과로 출력하는 키팩트 검색장치를 포함한다.

Description

키팩트기반 텍스트 검색시스템과, 이를 이용한 키팩트기반 텍스트 색인방법 및 검색방법 { Keyfact-based text retrieval system, keyfact-based text index method, and retrieval method using this system }
본 발명은 키팩트기반 텍스트 색인/검색방법에 관한 것이며, 특히, 문서가 갖고 있는 정형화된 개념소를 주제어인 객체와 부속어인 속성의 쌍으로 표현하고, 이들 쌍으로 표현된 정보를 색인정보로 사용하여 문서검색을 수행하는 키팩트기반 텍스트 검색시스템 및 방법에 관한 것이다.
본 발명에서 키팩트(keyfact)라 함은, 사용자가 문서에서 찾기를 원하는 사실을 말한다.
종래의 텍스트 검색방법으로는 키워드기반 텍스트 검색이 주로 사용되어 왔다. 그러나, 키워드기반 텍스트 검색방법은 다음과 같은 문제점이 있기 때문에 검색의 정확도가 낮다. 이 키워드기반 텍스트 검색의 문제점은 첫째, 문서를 키워드라는 명사 어휘의 단어로 표현하기 때문에, 문서의 의미를 정확히 표현하지 못하고 문서 표현의 대표성이 떨어진다. 이것은 검색 정확성의 하락의 근본적인 요인으로 작용한다. 둘째, 자연어구나 문장 혹은 키워드단어들로 질의를 하는 경우에 있어서 키워드기반 검색에서는 질의를 키워드로 표현하기 때문에 사용자가 검색하고자 하는 내용을 정확히 표현하지 못한다. 따라서, 키워드기반 검색은 키워드라는 단어 중심으로 문서검색을 수행하는 점에서 검색정확성에 근본적으로 한계가 있다. 따라서, 이러한 키워드기반 검색방법은 검색 정확도가 낮기 때문에 다수의 불필요한 검색을 수행하게 되어, 불필요한 시간과 노력이 소요되는 문제점이 있었다.
이러한 키워드기반 텍스트 검색방법의 단점을 보완하기 위하여, 최근에는 복합단어나 명사구와 같은 구절기반(phrase-based) 텍스트 검색방법에 관한 연구가 활발히 진행되고 있다. 구절기반 텍스트 검색방법은, 형태적-구문적 정규화과정을 통해 정확한 구절패턴을 추출하고, 추출된 구절 단위로 색인과 검색을 수행한다. 따라서, 키워드기반 텍스트 검색방법보다는 정확한 검색이 가능하지만, 텍스트를 개념 단위로 표현하여 검색하는 개념기반(concept-based) 텍스트 검색방법보다는 검색의 정확도가 낮다.
따라서, 키워드기반 텍스트 검색방법의 단점을 극복하고 구절기반 텍스트 검색방법을 일반화한 키팩트기반 텍스트 검색방법이 제안되고 있다. 키팩트기반 텍스트 검색에서는 같은 의미를 나타내는 텍스트의 일부분을 하나의 키팩트(keyfact)로 표현하여, 이를 단위로 색인과 검색을 수행하는 일종의 개념기반(concept-based) 텍스트 검색방법이기 때문에 검색의 정확도를 보다 향상시킬 수 있다.
이러한 키팩트기반 텍스트 검색은, 같은 의미를 가지는 구들이 서로 같은 색인어로 색인되는 것이 바람직하다. 예를 들어, '정보의 효과적인 검색', '분산된 정보의 검색', '분산된 정보의 빠른 검색'과 같이 '정보의 검색'을 부분집합으로 포함하는 명사구들은 '정보의 검색'으로부터 생성 가능한 공통의 색인어들을 부분집합으로 가져야 하는 동시에 서로 다른 색인어로써 미묘한 의미적 차이를 인식하여야 한다.
즉, 의미가 무시된 키워드기반 텍스트 검색에서는 '정보의 검색'과 '정보의 효과적인 검색'에 대한 의미 차이를 인식하지 못하기 때문에 사용자가 원하는 정확한 문서를 찾아주지 못하였으나, 본 발명에서는 이러한 미세한 의미적 차이를 고려한 키팩트기반 텍스트 검색기술을 통하여 사용자가 원하는 정확한 정보를 검색하는 기술을 구현한다.
따라서, 본 발명의 목적은, 검색대상 문서에 대하여 자연어처리기술을 이용하여 정확한 키팩트 패턴을 추출하고, 이 키팩트 단위로 문서를 색인하는 방법을 제공하는 데 있다.
또한 본 발명의 다른 목적은, 사용자로부터 제공되는 자연어 질의어에 대하여 자연어처리기술을 이용하여 정확한 키팩트 패턴을 추출하고, 이 질의어의 키팩트를 이용하여 키팩트기반 색인파일로부터 질의어와 유사한 문서를 검색하는 방법을 제공하는 데 있다.
또한 본 발명의 다른 목적은, 키팩트 단위로 문서를 색인하고 검색하는 키팩트기반 텍스트 검색시스템을 제공하는 데 있다.
도 1은 본 발명의 키팩트기반 텍스트 검색시스템의 전체 구성도를 개략적으로 나타낸 도면,
도 2는 본 발명의 한 실시예에 따른 키팩트기반 텍스트 검색시스템이 적용된 하드웨어 구성을 도시한 블록도,
도 3은 본 발명의 한 실시예에 따른 키팩트기반 텍스트 검색시스템의 키팩트 추출장치를 나타낸 도면,
도 4는 본 발명의 한 실시예에 따른 키팩트기반 텍스트 검색시스템의 키팩트 색인장치를 나타낸 도면,
도 5는 본 발명의 한 실시예에 따른 키팩트기반 텍스트 검색시스템의 키팩트 검색장치를 나타낸 도면,
도 6은 사용자 질의와 그에 따른 문서검색결과를 디스플레이하는 화면을 나타낸 도면이다.
※ 도면의 주요부분에 대한 부호의 설명 ※
11 : 키팩트 추출장치 12 : 키팩트 색인장치
13 : 키팩트 검색장치 14 : 문서집합
15 : 질의 16 : 색인구조
상기한 목적을 달성하기 위한 본 발명에 따르면, 키팩트기반 텍스트 검색시스템이 제공된다. 이러한 키팩트기반 텍스트 검색시스템은, 검색대상 문서집합과 사용자 질의를 분석하여 품사모호성이 해소된 키워드들을 추출하고 이 키워드들로부터 키팩트들을 추출하는 키팩트 추출장치와; 상기 검색대상 문서집합에 포함된 다양한 유형의 키팩트의 빈도를 계산하고, 전체 문서집합에 대한 키팩트리스트를 생성하여 키팩트 색인구조로 저장하는 키팩트 색인장치; 및 상기 사용자 질의의 키팩트와 상기 문서집합의 키팩트들을 입력받아 키팩트유형에 따른 가중치상수를 고려하여 키팩트기반 검색모델을 정의하고 질의와 유사한 문서를 검색결과로 출력하는 키팩트 검색장치를 포함한다.
양호하게는, 상기 키팩트 추출장치는, 검색대상 문서집합 또는 사용자 질의가 입력되면, 입력되는 문장의 형태소를 분석하고 품사태그를 붙여서 품사태그열을 구하는 형태소해석수단과; 상기 다양한 품사태그열 중 정확한 하나의 형태소 태그열을 구하고, 명사 혹은 복합명사를 키워드(KEY) 태그로 변환하여 최종 형태소태그열을 구하는 품사태깅수단; 상기 최종 형태소태그열을 키팩트패턴규칙에 적용하여 키팩트패턴을 추출하는 키팩트패턴 추출수단; 및 상기 키팩트패턴을 키팩트 생성규칙에 적용하여 키팩트 리스트를 생성하는 키팩트생성수단을 포함한다.
보다 양호하게는, 상기 키팩트 색인장치는, 상기 검색대상 문서집합에 포함된 다양한 유형의 키팩트들에 대하여 전체문서에서의 발생빈도(tf)와 키팩트가 출연하는 문서빈도(df)를 계산하는 발생빈도계산수단과; 상기 검색대상 문서집합에 대하여 문서색인테이블과, 문서테이블, 키팩트리스트테이블, 그리고 키팩트색인테이블 등의 테이블을 생성하는 테이블 생성수단; 및 상기 검색대상 문서집합에 포함된 다양한 유형의 키팩트들에 대하여, 전체문서에서의 발생빈도(tf)와, 키팩트가 출연하는 문서빈도(df), 키팩트가 출연한 문서번호(문서ID), 및 해당 문서에서의 키팩트 발생빈도수 등의 정보를 포함하는 키팩트 색인구조를 구성하는 키팩트 색인수단을 포함한다.
보다 양호하게는, 상기 키팩트 검색장치는, 상기 키팩트 색인장치에 의해 생성된 색인파일과 상기 키팩트 추출장치에 의해 생성된 질의의 키팩트를 가지고 문서와 질의벡터를 구성하는 수단과; 문서집합 특성에 맞게 각각의 키팩트유형에 따른 가중치상수를 결정하는 가중치상수 결정수단; 상기 문서와 질의벡터에 상기 키팩트유형에 따른 가중치상수를 적용하여 문서와 질의의 키팩트가중치를 계산하는 키팩트가중치 계산수단; 및 상기 문서와 질의의 키팩트가중치를 키팩트 검색모델에 적용하여 질의와 유사한 문서를 검색결과로 출력하는 검색결과 출력수단을 포함한다.
또한, 본 발명에 따르면 위에서 언급하였던 키팩트기반 텍스트 검색시스템을 실현하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체가 제공된다.
또한, 본 발명에 따르면 검색대상 문서집합을 키팩트 단위로 색인하는 키팩트기반 텍스트 색인방법이 제공된다. 이러한 키팩트기반 텍스트 색인방법은, 검색대상 문서집합을 분석하여 품사모호성이 해소된 키워드들을 추출하고 이 키워드들로부터 키팩트들을 추출하는 키팩트 추출단계와; 상기 검색대상 문서집합에 포함된 다양한 유형의 키팩트의 빈도를 계산하고, 전체 문서집합에 대한 키팩트리스트를 생성하여 키팩트 색인구조로 저장하는 키팩트 색인단계를 포함한다.
양호하게는, 상기 키팩트 추출단계는, 검색대상 문서집합이 입력되면, 입력되는 문장의 형태소를 분석하고 품사태그를 붙여서 품사태그열을 구하는 형태소해석단계와; 상기 다양한 품사태그열 중 정확한 하나의 형태소 태그열을 구하고, 명사 혹은 복합명사를 키워드(KEY) 태그로 변환하여 최종 형태소태그열을 구하는 품사태깅단계; 상기 최종 형태소태그열을 키팩트패턴규칙에 적용하여 키팩트패턴을 추출하는 키팩트패턴 추출단계; 및 상기 키팩트패턴을 키팩트 생성규칙에 적용하여 키팩트 리스트를 생성하는 키팩트생성단계를 포함한다.
여기서, 상기 형태소해석단계는, 입력되는 검색대상 문서를 어절단위로 분리하는 제1단계와; 품사사전을 이용하여 상기 분리된 각 어절별로 형태소를 분석하는 제2단계; 형태론적 변형형상을 처리하여 각 형태소의 원형을 복원하는 제3단계; 및 형태소 분석결과에 대하여 품사태그를 태깅하여 품사태그열을 구하는 제4단계를 포함하는 것이 양호하다. 상기 품사사전은 복합어미사전, 어간사전, 결합조건사전, 명사서전, 복합조사사전, 부사사전, 불용어구사전, 단위명사사전, 접속사사전등을 포함하는 것이 보다 양호하다.
보다 양호하게는, 상기 키팩트 색인방법은, 상기 검색대상 문서집합에 포함된 다양한 유형의 키팩트들에 대하여 전체문서에서의 발생빈도(tf)와 키팩트가 출연하는 문서빈도(df)를 계산하는 발생빈도계산단계와; 상기 검색대상 문서집합에 대하여 문서색인테이블과, 문서테이블, 키팩트리스트테이블, 그리고 키팩트색인테이블 등의 테이블을 생성하는 테이블 생성단계; 및 상기 검색대상 문서집합에 포함된 다양한 유형의 키팩트들에 대하여, 전체문서에서의 발생빈도(tf)와, 키팩트가 출연하는 문서빈도(df), 키팩트가 출연한 문서번호(문서ID), 및 해당 문서에서의 키팩트 발생빈도수 등의 정보를 포함하는 키팩트 색인구조를 구성하는 키팩트 색인단계를 포함한다.
또한, 본 발명에 따르면 위에서 언급하였던 키팩트기반 텍스트 색인방법을 실현하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체가 제공된다.
또한, 본 발명에 따르면 사용자 질의와 키팩트기반 색인파일이 입력되면, 사용자 질의를 키팩트 단위로 분석하여 검색하는 키팩트기반 텍스트 검색방법이 제공된다. 이러한 키팩트기반 텍스트 검색방법은, 사용자 질의를 분석하여 품사모호성이 해소된 키워드들을 추출하고 이 키워드들로부터 키팩트들을 추출하는 키팩트 추출단계와; 상기 사용자 질의의 키팩트와 검색대상 문서집합들의 색인파일을 입력받아 키팩트유형에 따른 가중치상수를 고려하여 키팩트기반 검색모델을 정의하고 질의와 유사한 문서를 검색결과로 출력하는 키팩트 검색단계를 포함한다.
양호하게는, 상기 키팩트 추출단계는, 검색대상 문서집합이 입력되면, 입력되는 문장의 형태소를 분석하고 품사태그를 붙여서 품사태그열을 구하는 형태소해석단계와; 상기 다양한 품사태그열 중 정확한 하나의 형태소 태그열을 구하고, 명사 혹은 복합명사를 키워드(KEY) 태그로 변환하여 최종 형태소태그열을 구하는 품사태깅단계; 상기 최종 형태소태그열을 키팩트패턴규칙에 적용하여 키팩트패턴을 추출하는 키팩트패턴 추출단계; 및 상기 키팩트패턴을 키팩트 생성규칙에 적용하여 키팩트 리스트를 생성하는 키팩트생성단계를 포함한다.
여기서, 상기 형태소해석단계는, 입력되는 검색대상 문서를 어절단위로 분리하는 제1단계와; 품사사전을 이용하여 상기 분리된 각 어절별로 형태소를 분석하는 제2단계; 형태론적 변형형상을 처리하여 각 형태소의 원형을 복원하는 제3단계; 및 형태소 분석결과에 대하여 품사태그를 태깅하여 품사태그열을 구하는 제4단계를 포함하는 것이 양호하다. 상기 품사사전은 복합어미사전, 어간사전, 결합조건사전, 명사서전, 복합조사사전, 부사사전, 불용어구사전, 단위명사사전, 접속사사전등을 포함하는 것이 보다 양호하다.
보다 양호하게는, 상기 키팩트 검색방법은, 상기 색인파일과 상기 질의의 키팩트를 가지고 문서와 질의벡터를 구성하는 제1단계와; 문서집합 특성에 맞게 각각의 키팩트유형에 따른 가중치상수를 결정하는 제2단계; 상기 문서와 질의벡터에 상기 키팩트유형에 따른 가중치상수를 적용하여 문서와 질의의 키팩트가중치를 계산하는 제3단계; 및 상기 문서와 질의의 키팩트가중치를 키팩트 검색모델에 적용하여 질의와 유사한 문서를 검색결과로 출력하는 제4단계를 포함한다.
또한, 본 발명에 따르면 위에서 언급하였던 키팩트기반 텍스트 검색방법을 실현하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체가 제공된다.
이 발명의 상기 및 기타의 특성과 장점은 아래의 양호한 실시예에 대한 설명에 의해 좀더 명료해질 것이다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 키팩트기반 텍스트 검색시스템과, 이를 이용한 키팩트기반 텍스트 색인방법 및 검색방법의 한 실시예를 설명하면 다음과 같다.
도 1은 본 발명의 한 실시예에 따른 키팩트기반 텍스트 검색시스템을 도시한 도면이다. 이러한 키팩트기반 텍스트 검색시스템은 크게 키팩트 추출장치(11)와, 키팩트 색인장치(12), 및 키팩트 검색장치(13)로 이루어진다. 도 2는 본 발명의 키팩트기반 텍스트 검색시스템이 적용된 하드웨어 구성도이다.
도 2를 참조하면, 주기억장치(21)에는 본 발명의 키팩트기반 텍스트 검색시스템인 키팩트 추출장치(11)와, 키팩트 색인장치(12), 키팩트 검색장치(13), 및 색인구조(16)가 저장된다. 중앙처리장치(23)는 키팩트기반 텍스트 검색을 주관한다. 하드디스크(24)는 검색대상의 문서집합(25)과 키팩트 추출을 위한 사전들(26), 그리고 키팩트 색인 결과파일인 색인파일(27)을 저장한다. 색인파일(27)은 주기억장치(21)에 색인구조(16)로 로딩되어 키팩트 검색장치(13)에서 사용한다. 입출력장치(22)는 사용자의 질의를 입력받고 검색결과를 사용자에게 출력한다.
아래에서는 도 1을 참조하면서, 본 발명에 따른 키팩트기반 텍스트 검색시스템을 설명한다. 키팩트 추출장치(11)는 문서집합(14)과 질의(15)가 주어지면 형태소 분석과 태깅을 수행하여 품사 모호성이 해소된 키워드들을 추출하고, 이들 키워드들을 키팩트 생성규칙에 적용하여 키팩트들을 추출한다. 키팩트 색인장치(12)는 키팩트 단위로 문서집합(14)과 질의(15)를 색인하고, 키팩트 단위의 빈도를 계산하여 키팩트 색인구조(16)에 저장한다. 키팩트 검색장치(13)는 키팩트기반의 텍스트 검색모델을 이용하여 문서집합과 질의의 키팩트 가중치를 고려한 유사도 계산방법에 의하여 문서를 순위화하여 검색결과를 나타낸다.
키팩트기반 텍스트 검색은, 문서집합(14)과 질의(15)가 주어지면 키팩트 추출장치(11)가 이를 키팩트 단위로 표현한다. 이때 모든 키팩트는 문장 내에서의 키워드들간의 의미적 관계(semantic relation)를 [객체(object), 속성(property)]의 표현 형식으로 나타낸다. 이러한 객체와 속성을 구성하는 키워드들의 구성 형태에 따라 다양한 유형의 키팩트들로 분류할 수 있다. 문서집합과 질의의 텍스트들의 내용이 의미적으로 같은 내용을 나타내는 텍스트의 일부는 같은 키팩트유형으로 분류된다. 이러한 키팩트 추출장치에 대한 자세한 설명은 도 3을 참조하면서 후술하기로 한다.
추출된 키팩트는 키팩트 색인장치(12)에 의하여 그 빈도에 따라 색인된다. 즉, 각 문서에 포함된 다양한 유형의 키팩트들의 빈도를 계산하고 전체 문서집합에 대한 키팩트 리스트를 생성하여 키팩트를 고려한 키팩트 색인구조(16)를 만들고 색인파일을 저장한다. 이러한 키팩트 색인장치에 대한 자세한 설명은 도 4를 참조하면서 후술하기로 한다.
마지막으로 키팩트 검색장치(13)는 사용자 질의가 입력되면 키팩트기반 검색방법에 의해 적합한 문서들을 검색한다. 즉, 키팩트 유형에 따른 가중치 상수를 고려하여 키팩트 검색모델을 정의하고, 질의와 문서 사이의 유사도를 계산하여 질의에 적합한 문서들을 순위화하여 검색결과로 제시된다. 이러한 키팩트 검색장치에 대한 자세한 설명은 도 5를 참조하면서 후술하기로 한다.
도 3을 참조하면, 키팩트 추출장치는 검색대상 문서를 분석하여 키팩트를 생성하는데, 이는 형태소해석, 품사태깅, 키팩트패턴추출, 및 키팩트생성을 통해 이루어진다.
도면에서 31은 검색대상 문서가 입력되는 단계이고, 32는 형태소 해석단계이다.
형태소 해석단계(32)에서는 입력문서의 문장을 어절로 분리하고, 각종 사전(36)을 이용하여 가능한 모든 형태소를 분석한다. 또한, 분석한 모든 형태소들은 형태론적 변형현상을 처리하여 원형을 복원한다. 사전(36)은 복합어미사전과, 어간사전, 결합조건사전, 명사사전, 복합조사사전, 부사사전, 불용어구사전, 단위명사사전, 및 접속사사전 등을 포함한다.
사전(36)에 수록된 품사 태그는 크게 명사, 조사, 관형사, 용언으로 구분되며, 명사는 다시 고유명사(NQ), 인명명사(NN), 호칭명사(NT), 단위명사(NU), 서술격명사(NH), 비서술격명사(NB) 등으로 세분화된다. 이와 같이 명사를 세분하는 이유는, 명사의 종류에 따라 키팩트의 객체(object) 혹은 속성(property)이 결정되기 때문이다.
예를 들어, 두 개 또는 세 개의 명사가 단순히 나열된 형태의 구문에서 인명명사, 고유명사, 비서술격명사는 객체(object)가 될 확률이 높으며 호칭명사, 단위명사, 서술격명사는 속성(property)이 될 확률이 높다. 또한, 인명명사, 고유명사, 비서술격명사끼리 서로 결합한 형태의 구문일 경우, 그 명사가 객체에 위치하게 되는 우선순위는 인명명사 〉 고유명사 〉 비서술격명사의 순으로 된다.
또한, 조사는 체언과 체언의 관계규명에 필요한 속격조사(JY)와, 접속조사(JC), 그리고 체언과 용언의 관계규명에 필요한 격조사(J)로 분류된다. 용언의 어간 밑에 붙는 어미의 기능에 따른 관형형어미를 포함하는 용언 형태소는 관형사(MP)로 태깅된다. 예를 들어, "분산된 정보의 빠른 검색"에 대한 형태소 해석결과로 문장 단위의 태그열 "MP(관형사) NB(비서술격명사) JY(속격조사) MP(관형사) NH(서술격명사)"가 얻어진다.
상기와 같이 형태소 해석단계(32)가 수행되면, 다양한 형태소 분석결과가 얻어진다.
품사태깅단계(33)에서는 한 문장에 대한 다양한 형태소 분석결과들 중에서 정확한 하나의 형태소 태그열을 구한다. 즉, 품사태깅단계에서는 형태소 분석결과에서 얻어진 태그열의 품사태그들을 이용하여 태깅하되, 명사 혹은 조사없이 연이어 연결된 형태의 복합명사는 키워드(key) 태그로 변환한다. 앞에서 예로 들었던 "분산된 정보의 빠른 검색"의 문자열로부터 "MP KEY JY MP KEY"의 최종 태그열이 얻어진다.
이와 같이 입력되는 문자열에 대한 최종 태그열이 얻어지면, 키팩트패턴추출단계(34)는 캐팩트패턴규칙(37)을 탐색하여 키팩트생성에 필요한 의미있는 키팩트패턴을 추출한다. 키팩트패턴추출에 사용하는 키팩트패턴규칙(37)은 입력 태그열에 대한 키팩트패턴을 기술하고 있다. 아래의 표 1은 키팩트패턴규칙의 일부를 예시한 것이다.
키팩트패턴 키팩트 용어 리스트
KEY1 JY KEY2 [KEY1,KEY2], [KEY1,NIL], [KEY2,NIL]
KEY1 JY MP KEY2 [KEY1,KEY2], [KEY2,MP], [KEY1,NIL], [KEY2,NIL]
MP KEY1 JY KEY2 [KEY1,KEY2], [KEY1,MP], [KEY1,NIL], [KEY2,NIL]
MP1 KEY1 JY MP2 KEY2 [KEY1,KEY2], [KEY1,MP1], [KEY2,MP2], [KEY1,NIL], [KEY2,NIL]
앞에서 예로 들었던 "분산된 정보의 빠른 검색"의 문자열로부터 얻어진 최종 태그열 "MP KEY JY MP KEY"은, 키팩트패턴규칙에 적용되어 "MP1 KEY1 JY MP2 KEY2"의 키팩트패턴이 추출된다.
키팩트 생성단계(35)에서는 입력되는 키팩트패턴에 대하여 키팩트생성규칙(38)을 탐색하여 [객체,속성] 형태의 키팩트 용어(term)을 생성한다. 여기서, 객체는 키워드로 대표되는 명사 또는 복합명사이고, 속성은 명사 앞에서 그 명사를 꾸며주는 역할을 하는 명사, 수식 용언 또는 서술 기능을 하는 용언의 원형이 된다.
키팩트생성규칙은 각각의 키팩트패턴별로 생성가능한 키팩트리스트를 포함한다. 앞에서의 예에서, 키팩트패턴 "MP1 KEY1 JY MP2 KEY2"를 키팩트생성단계에 적용하면, 그 수행결과는 '[KEY1,KEY2], [KEY1,MP1], [KEY2,MP2], [KEY1,NIL], [KEY2,NIL]'가 된다. 즉, 키팩트패턴 "분산 정보 의 빠르다 검색"으로부터 '[정보,검색], [정보,분산], [검색,빠르다], [정보,NIL], [검색,NIL], [분산,NIL]'과 같은 키팩트 리스트(39)를 얻을 수 있다.
다음, 도 4를 참조하면서 키팩트 색인장치를 상세하게 설명한다.
키팩트 색인장치는 키팩트 추출장치로부터 얻은 키팩트들을 문서집합상의 통계적 빈도로 계산한 후, 색인구조로 구성하여 색인 정보화함으로써, 이를 효과적으로 관리, 저장하는 단계이다. 키팩트 색인장치의 색인어는 각 문서를 대표하는 추출된 키팩트 용어(term)이다.
입력되는 문서집합에 대해 키팩트 추출장치(41)로부터 얻어진 키팩트(42)들의 빈도정보를 계산하는데(43), 전체 문서에서의 키팩트 빈도(tf)와 키팩트의 문서빈도(df)등을 계산한다.
다음, 효율적인 키팩트단위의 색인구조를 구성하기 위하여 문서색인테이블, 문서테이블, 키팩트리스트테이블, 그리고 키팩트색인테이블 등의 부속 테이블을 생성한다(44). 여기서, 문서색인테이블은 문서내의 키팩트들과 그들의 빈도정보, 그리고 실제 문서에 대한 정보를 가진다. 문서테이블은 실제 문서 텍스트를 포함한다. 키팩트리스트테이블은 키팩트들의 리스트를 모아놓은 테이블이다. 키팩트색인테이블은 키팩트단위의 색인구조 형성에 가장 테이블로서, 각 키팩트들의 전체문서에서의 빈도(tf), 각 키팩트의 문서빈도(df), 각 키팩트의 문서(doc), 및 문서내 빈도(tfi) 정보를 포함한다.
다음, 키팩트단위의 색인구조를 구성하고, 색인파일을 저장한다. 색인구조는 키팩트단위의 색인어로 구성된 B+ 트리와 같은 효율적인 저장구조를 사용할 수 있는데, 포스팅 정보파일구조로 키팩트색인테이블을 역화일구조로 사용한다.
다음 표 2는 키팩트 색인결과의 일부 내용을 예시한 것이다.
키팩트색인어 tf df (문서ID:빈도수)
[가시,날카롭다] 1 1 (162:1)
[가시,무디다] 1 1 (102:1)
(중 략)
[갈대,NIL] 1 1 (6:1)
[갈대밭,NIL] 1 1 (6:1)
[갈래,NIL] 4 4 (21:1)(33:1)(88:1)(90:1)
[갈매나무과,NIL] 1 1 (102:1)
표 2에서, 키팩트색인어 [갈래,NIL]의 경우, 전체문서 내에서 4번 나타났기 때문에 전체문서에서의 빈도(tf)는 4이고, 4개의 문서에서 나타났기 때문에 문서빈도(df)는 4이다. 또한, 문서 21, 문서 33, 문서 88, 문서 90에서 각각 1번씩의 빈도로 나타났다.
마지막으로, 도 5를 참조하면서 키팩트 검색장치의 세부 구성을 설명한다. 키팩트 검색장치는 키팩트 색인장치(51)에 의하여 생성된 색인파일(52)과, 키팩트 추출장치(53)로부터 제공되는 질의의 키팩트를 가지고, 문서와 질의벡터를 구성한다(54).
문서와 질의벡터로부터 키팩트가중치를 계산하기에 앞서, 임의의 문서집합 특성에 맞는 키팩트가중치상수(CKfType#)를 설정한다(55). 키팩트가중치상수는 아래의 표 3과 같이 다양한 형태의 키팩트 유형에 따라 각각 부여된다.
분류 키팩트 유형 가중치상수
Type Ⅰ [KEY,NIL] CKfTypeⅠ
Type Ⅱ [KEY,MP] or [KEY,VH/VB] CKfTypeⅡ
Type Ⅲ [KEY1,KEY2] CKfTypeⅢ
Type Ⅳ [KEY1 KEY2,NIL] or [KEY2 KEY1, NIL] CKfTypeⅣ
Type Ⅴ [KEY1 KEY2 KEY3] CKfTypeⅤ
... ... ...
이러한 키팩트가중치상수는 CKfTypeⅠ〈 CKfTypeⅡ〈 CKfTypeⅢ〈 CKfTypeⅣ〈 CKfTypeV〈‥‥의 순으로 차등적으로 부여된다. 키팩트가중치상수는 키팩트기반 텍스트 검색의 정확도에 중요한 변수로 작용하기 때문에, 검색대상 문서집합의 키팩트유형의 분포 특성에 따라 실험적으로 결정한다.
이러한 키팩트 가중치상수는 아래의 수학식 1로 나타낸 키팩트가중치 계산식에 적용되며, 수학식 1로부터 계산된 키팩트가중치(wxk)는 키팩트를 단위로 하는 키팩트기반 텍스트 검색모델에서 사용된다.
여기에서, wxk는 키팩트가중치, tfxk는 키팩트의 빈도, N은 문서의 크기, dfk는 키팩트의 문서빈도, CkfType#는 키팩트 가중치 상수를 나타낸다.
일반적으로 키워드기반 텍스트 검색에서는 키워드의 빈도(tfkeyword)와, 키워드의 문서빈도(dfkeyword), 및 문서의 크기(N)만을 고려하여 키워드 가중치를 계산하였다. 그러나, 키팩트기반 텍스트 검색에서는 키팩트 단위로 색인 및 검색하기 위하여 키팩트 유형에 따른 검색 효과의 중요도를 고려하여, 키팩트 유형에 따라 가중치상수(CkfType#)를 키팩트가중치 계산식에 반영한다(56).
다음, 벡터공간모델에 의한 키팩트검색모델(58)을 적용하여 질의에 적합한 문서의 유사도를 계산한다. 유사도 계산 결과는 질의에 적합한 문서를 순위화하여 검색 결과로 제시한다(57).
도 6은 사용자 질의와 그에 따른 문서검색결과를 디스플레이하는 화면을 나타낸 도면이다. 사용자는 질의란(61)에 자연어로 질의하고, 자연어질의는 키팩트기반 텍스트 검색시스템에 의하여 키팩트가 추출되어 질의어와 유사한 문서를 찾는다. 이 질의어에 대한 검색 결과는 가장 유사한 순서대로 순위화하여 문서검색결과화면(62)에 표시되는데, 순위와 함께 문서제목과 순위점수(weight)가 함께 표시된다. 또한, 문서검색결과화면에 표시된 문서를 선택하면, 문서텍스트화면(63)은 실제 문서 텍스트 내용을 디스플레이한다.
위에서 양호한 실시예에 근거하여 이 발명을 설명하였지만, 이러한 실시예는 이 발명을 제한하려는 것이 아니라 예시하려는 것이다. 이 발명이 속하는 분야의 숙련자에게는 이 발명의 기술사상을 벗어남이 없이 위 실시예에 대한 다양한 변화나 변경 또는 조절이 가능함이 자명할 것이다. 그러므로, 이 발명의 보호범위는 첨부된 청구범위에 의해서만 한정될 것이며, 위와 같은 변화예나 변경예 또는 조절예를 모두 포함하는 것으로 해석되어야 할 것이다.
이상과 같이 본 발명에 의하면, 검색대상 문서집합의 텍스트와 사용자 질의가 개념기반(concept-based)의 키팩트 단위로 표현되어 색인 및 검색이 이루어지기 때문에 보다 정확한 검색결과를 얻을 수 있다. 또한, 높은 검색 정확도로 색인 및 검색이 가능하기 때문에 소요되는 시간과 노력을 절약할 수 있어서, 향후 다양한 응용분야에서 개선된 검색방법으로 유용하게 활용할 수 있다. 특히, 디지털 라이브러리, 방송국 등의 텍스트와, 주석기반 멀티미디어(이미지 및 동영상) 검색분야, 인터넷, 및 전자상거래에서의 정보검색, 교육/의료/군사 분야에서의 문서 및 자료 검색 등에 활용될 수 있는 잇점이 있다.

Claims (17)

  1. 검색대상 문서집합과 사용자 질의를 분석하여 품사모호성이 해소된 키워드들을 추출하고 이 키워드들로부터 키팩트들을 추출하는 키팩트 추출장치와;
    상기 검색대상 문서집합에 포함된 다양한 유형의 키팩트의 빈도를 계산하고, 전체 문서집합에 대한 키팩트리스트를 생성하여 키팩트 색인구조로 저장하는 키팩트 색인장치; 및
    상기 사용자 질의의 키팩트와 상기 문서집합의 키팩트들을 입력받아 키팩트유형에 따른 가중치상수를 고려하여 키팩트기반 검색모델을 정의하고 질의와 유사한 문서를 검색결과로 출력하는 키팩트 검색장치를 포함한 것을 특징으로 하는 키팩트기반 텍스트 검색시스템.
  2. 제1항에 있어서, 상기 키팩트 추출장치는,
    검색대상 문서집합 또는 사용자 질의가 입력되면, 입력되는 문장의 형태소를 분석하고 품사태그를 붙여서 품사태그열을 구하는 형태소해석수단과;
    상기 다양한 품사태그열 중 정확한 하나의 형태소 태그열을 구하고, 명사 혹은 복합명사를 키워드(KEY) 태그로 변환하여 최종 형태소태그열을 구하는 품사태깅수단;
    상기 최종 형태소태그열을 키팩트패턴규칙에 적용하여 키팩트패턴을 추출하는 키팩트패턴 추출수단; 및
    상기 키팩트패턴을 키팩트 생성규칙에 적용하여 키팩트 리스트를 생성하는 키팩트생성수단을 포함한 것을 특징으로 하는 키팩트기반 텍스트 검색시스템.
  3. 제1항에 있어서, 상기 키팩트 색인장치는,
    상기 검색대상 문서집합에 포함된 다양한 유형의 키팩트들에 대하여 전체문서에서의 발생빈도(tf)와 키팩트가 출연하는 문서빈도(df)를 계산하는 발생빈도계산수단과;
    상기 검색대상 문서집합에 대하여 문서색인테이블과, 문서테이블, 키팩트리스트테이블, 그리고 키팩트색인테이블 등의 테이블을 생성하는 테이블 생성수단; 및
    상기 검색대상 문서집합에 포함된 다양한 유형의 키팩트들에 대하여, 전체문서에서의 발생빈도(tf)와, 키팩트가 출연하는 문서빈도(df), 키팩트가 출연한 문서번호(문서ID), 및 해당 문서에서의 키팩트 발생빈도수 등의 정보를 포함하는 키팩트 색인구조를 구성하는 키팩트 색인수단을 포함한 것을 특징으로 하는 키팩트기반 텍스트 검색시스템.
  4. 제1항에 있어서, 상기 키팩트 검색장치는,
    상기 키팩트 색인장치에 의해 생성된 색인파일과 상기 키팩트 추출장치에 의해 생성된 질의의 키팩트를 가지고 문서와 질의벡터를 구성하는 수단과;
    문서집합 특성에 맞게 각각의 키팩트유형에 따른 가중치상수를 결정하는 가중치상수 결정수단;
    상기 문서와 질의벡터에 상기 키팩트유형에 따른 가중치상수를 적용하여 문서와 질의의 키팩트가중치를 계산하는 키팩트가중치 계산수단; 및
    상기 문서와 질의의 키팩트가중치를 키팩트 검색모델에 적용하여 질의와 유사한 문서를 검색결과로 출력하는 검색결과 출력수단을 포함한 것을 특징으로 하는 키팩트기반 텍스트 검색시스템.
  5. 컴퓨터에,
    검색대상 문서집합과 사용자 질의를 분석하여 품사모호성이 해소된 키워드들을 추출하고 이 키워드들로부터 키팩트들을 추출하는 키팩트 추출수단과;
    상기 검색대상 문서집합에 포함된 다양한 유형의 키팩트의 빈도를 계산하고, 전체 문서집합에 대한 키팩트리스트를 생성하여 키팩트 색인구조로 저장하는 키팩트 색인수단; 및
    상기 사용자 질의의 키팩트와 상기 문서집합의 키팩트들을 입력받아 키팩트유형에 따른 가중치상수를 고려하여 키팩트기반 검색모델을 정의하고 질의와 유사한 문서를 검색결과로 출력하는 키팩트 검색수단을 포함하여, 키팩트를 단위로 문서를 색인하고 검색하는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
  6. 검색대상 문서집합을 분석하여 품사모호성이 해소된 키워드들을 추출하고 이 키워드들로부터 키팩트들을 추출하는 키팩트 추출단계와;
    상기 검색대상 문서집합에 포함된 다양한 유형의 키팩트의 빈도를 계산하고, 전체 문서집합에 대한 키팩트리스트를 생성하여 키팩트 색인구조로 저장하는 키팩트 색인단계를 포함한 것을 특징으로 하는 키팩트기반 텍스트 색인방법.
  7. 제6항에 있어서, 상기 키팩트 추출단계는,
    검색대상 문서집합이 입력되면, 입력되는 문장의 형태소를 분석하고 품사태그를 붙여서 품사태그열을 구하는 형태소해석단계와;
    상기 다양한 품사태그열 중 정확한 하나의 형태소 태그열을 구하고, 명사 혹은 복합명사를 키워드(KEY) 태그로 변환하여 최종 형태소태그열을 구하는 품사태깅단계;
    상기 최종 형태소태그열을 키팩트패턴규칙에 적용하여 키팩트패턴을 추출하는 키팩트패턴 추출단계; 및
    상기 키팩트패턴을 키팩트 생성규칙에 적용하여 키팩트 리스트를 생성하는 키팩트생성단계를 포함한 것을 특징으로 하는 키팩트기반 텍스트 색인방법.
  8. 제7항에 있어서, 상기 형태소해석단계는,
    입력되는 검색대상 문서를 어절단위로 분리하는 제1단계와;
    품사사전을 이용하여 상기 분리된 각 어절별로 형태소를 분석하는 제2단계;
    형태론적 변형형상을 처리하여 각 형태소의 원형을 복원하는 제3단계; 및
    형태소 분석결과에 대하여 품사태그를 태깅하여 품사태그열을 구하는 제4단계를 포함한 것을 특징으로 하는 키팩트기반 텍스트 색인방법.
  9. 제8항에 있어서, 상기 품사사전은 복합어미사전, 어간사전, 결합조건사전, 명사서전, 복합조사사전, 부사사전, 불용어구사전, 단위명사사전, 접속사사전등을 포함하는 것을 특징으로 하는 키팩트기반 텍스트 색인방법.
  10. 제6항에 있어서, 상기 키팩트 색인방법은,
    상기 검색대상 문서집합에 포함된 다양한 유형의 키팩트들에 대하여 전체문서에서의 발생빈도(tf)와 키팩트가 출연하는 문서빈도(df)를 계산하는 발생빈도계산단계와;
    상기 검색대상 문서집합에 대하여 문서색인테이블과, 문서테이블, 키팩트리스트테이블, 그리고 키팩트색인테이블 등의 테이블을 생성하는 테이블 생성단계; 및
    상기 검색대상 문서집합에 포함된 다양한 유형의 키팩트들에 대하여, 전체문서에서의 발생빈도(tf)와, 키팩트가 출연하는 문서빈도(df), 키팩트가 출연한 문서번호(문서ID), 및 해당 문서에서의 키팩트 발생빈도수 등의 정보를 포함하는 키팩트 색인구조를 구성하는 키팩트 색인단계를 포함한 것을 특징으로 하는 키팩트기반 텍스트 색인방법.
  11. 컴퓨터에,
    검색대상 문서집합을 분석하여 품사모호성이 해소된 키워드들을 추출하고 이 키워드들로부터 키팩트들을 추출하는 키팩트 추출단계와;
    상기 검색대상 문서집합에 포함된 다양한 유형의 키팩트의 빈도를 계산하고, 전체 문서집합에 대한 키팩트리스트를 생성하여 키팩트 색인구조로 저장하는 키팩트 색인단계를 포함하여, 키팩트 단위로 문서를 색인하는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
  12. 사용자 질의를 분석하여 품사모호성이 해소된 키워드들을 추출하고 이 키워드들로부터 키팩트들을 추출하는 키팩트 추출단계와;
    상기 사용자 질의의 키팩트와 검색대상 문서집합들의 색인파일을 입력받아 키팩트유형에 따른 가중치상수를 고려하여 키팩트기반 검색모델을 정의하고 질의와 유사한 문서를 검색결과로 출력하는 키팩트 검색단계를 포함하는 것을 특징으로 하는 키팩트기반 텍스트 검색방법.
  13. 제12항에 있어서, 상기 키팩트 추출단계는,
    검색대상 문서집합이 입력되면, 입력되는 문장의 형태소를 분석하고 품사태그를 붙여서 품사태그열을 구하는 형태소해석단계와;
    상기 다양한 품사태그열 중 정확한 하나의 형태소 태그열을 구하고, 명사 혹은 복합명사를 키워드(KEY) 태그로 변환하여 최종 형태소태그열을 구하는 품사태깅단계;
    상기 최종 형태소태그열을 키팩트패턴규칙에 적용하여 키팩트패턴을 추출하는 키팩트패턴 추출단계; 및
    상기 키팩트패턴을 키팩트 생성규칙에 적용하여 키팩트 리스트를 생성하는 키팩트생성단계를 포함한 것을 특징으로 하는 키팩트기반 텍스트 검색방법.
  14. 제13항에 있어서, 상기 형태소해석단계는,
    입력되는 검색대상 문서를 어절단위로 분리하는 제1단계와;
    품사사전을 이용하여 상기 분리된 각 어절별로 형태소를 분석하는 제2단계;
    형태론적 변형형상을 처리하여 각 형태소의 원형을 복원하는 제3단계; 및
    형태소 분석결과에 대하여 품사태그를 태깅하여 품사태그열을 구하는 제4단계를 포함한 것을 특징으로 하는 키팩트기반 텍스트 검색방법.
  15. 제14항에 있어서, 상기 품사사전은 복합어미사전, 어간사전, 결합조건사전, 명사서전, 복합조사사전, 부사사전, 불용어구사전, 단위명사사전, 접속사사전등을 포함하는 것을 특징으로 하는 키팩트기반 텍스트 검색방법.
  16. 제12항에 있어서, 상기 키팩트 검색방법은,
    상기 색인파일과 상기 질의의 키팩트를 가지고 문서와 질의벡터를 구성하는 제1단계와;
    문서집합 특성에 맞게 각각의 키팩트유형에 따른 가중치상수를 결정하는 제2단계;
    상기 문서와 질의벡터에 상기 키팩트유형에 따른 가중치상수를 적용하여 문서와 질의의 키팩트가중치를 계산하는 제3단계; 및
    상기 문서와 질의의 키팩트가중치를 키팩트 검색모델에 적용하여 질의와 유사한 문서를 검색결과로 출력하는 제4단계를 포함한 것을 특징으로 하는 키팩트기반 텍스트 검색방법.
  17. 컴퓨터에,
    사용자 질의를 분석하여 품사모호성이 해소된 키워드들을 추출하고 이 키워드들로부터 키팩트들을 추출하는 키팩트 추출단계와;
    상기 사용자 질의의 키팩트와 검색대상 문서집합들의 색인파일을 입력받아 키팩트유형에 따른 가중치상수를 고려하여 키팩트기반 검색모델을 정의하고 질의와 유사한 문서를 검색결과로 출력하는 키팩트 검색단계를 포함하여, 키팩트 단위로 문서를 검색하는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1019990025035A 1999-06-28 1999-06-28 키팩트기반 텍스트 검색시스템과, 이를 이용한 키팩트기반 텍스트 색인방법 및 검색방법 KR20010004404A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1019990025035A KR20010004404A (ko) 1999-06-28 1999-06-28 키팩트기반 텍스트 검색시스템과, 이를 이용한 키팩트기반 텍스트 색인방법 및 검색방법
US09/475,743 US6366908B1 (en) 1999-06-28 1999-12-30 Keyfact-based text retrieval system, keyfact-based text index method, and retrieval method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019990025035A KR20010004404A (ko) 1999-06-28 1999-06-28 키팩트기반 텍스트 검색시스템과, 이를 이용한 키팩트기반 텍스트 색인방법 및 검색방법

Publications (1)

Publication Number Publication Date
KR20010004404A true KR20010004404A (ko) 2001-01-15

Family

ID=19596538

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019990025035A KR20010004404A (ko) 1999-06-28 1999-06-28 키팩트기반 텍스트 검색시스템과, 이를 이용한 키팩트기반 텍스트 색인방법 및 검색방법

Country Status (2)

Country Link
US (1) US6366908B1 (ko)
KR (1) KR20010004404A (ko)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020088671A (ko) * 2001-05-19 2002-11-29 구교성 대표키워드를 이용한 네트워크 상에서의 정보검색방법
KR20030001261A (ko) * 2001-06-26 2003-01-06 소니 가부시끼 가이샤 정보처리장치, 정보처리방법, 기록매체, 프로그램과전자출판 데이터제공 시스템
KR20030094966A (ko) * 2002-06-11 2003-12-18 주식회사 코스모정보통신 통제학습 기반의 문서 자동분류시스템 및 그 방법
KR100479346B1 (ko) * 2001-12-28 2005-03-30 한국전자통신연구원 문서분류기법을 이용한 정답문서집합 자동 구축 방법
KR100498574B1 (ko) * 2001-03-08 2005-07-01 주식회사 다이퀘스트 단락 단위의 실시간 응답 색인을 이용한 자연어 질의-응답검색시스템
KR100501244B1 (ko) * 2002-05-30 2005-07-18 재단법인서울대학교산학협력재단 특허 지도 작성 방법 및 그 시스템
KR100691400B1 (ko) * 2006-03-31 2007-03-12 엔에이치엔(주) 부가 정보를 이용하여 형태소를 분석하는 방법 및 상기방법을 수행하는 형태소 분석기
KR20070035786A (ko) * 2005-09-28 2007-04-02 강기만 단어 교차 관계 기반 질의어 확장에 의한 문서 검색 장치및 그 방법
KR100816912B1 (ko) * 2006-04-13 2008-03-26 엘지전자 주식회사 문서검색 시스템 및 그 방법
KR100885527B1 (ko) * 2007-10-24 2009-02-26 주식회사 코난테크놀로지 문맥 기반 색인데이터 생성장치와 문맥기반 검색장치 및 그방법
KR100926876B1 (ko) * 2008-04-01 2009-11-16 엔에이치엔(주) 랭크 발생 확률을 이용한 랭크 학습 모델 생성 방법 및랭크 학습 모델 생성 시스템
KR20200017031A (ko) * 2018-08-08 2020-02-18 신한대학교 산학협력단 지식융합형 학습정보제공장치

Families Citing this family (103)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100318573B1 (ko) * 1996-10-16 2001-12-28 마찌다 가쯔히꼬 문자 입력 장치 및 문자 입력 프로그램을 기억한 기록 매체
US7966234B1 (en) 1999-05-17 2011-06-21 Jpmorgan Chase Bank. N.A. Structured finance performance analytics system
US8271316B2 (en) * 1999-12-17 2012-09-18 Buzzmetrics Ltd Consumer to business data capturing system
US7225181B2 (en) * 2000-02-04 2007-05-29 Fujitsu Limited Document searching apparatus, method thereof, and record medium thereof
US7249095B2 (en) 2000-06-07 2007-07-24 The Chase Manhattan Bank, N.A. System and method for executing deposit transactions over the internet
US6546386B1 (en) * 2000-08-01 2003-04-08 Etronica.Com Brilliant query system
US7392212B2 (en) * 2000-09-28 2008-06-24 Jpmorgan Chase Bank, N.A. User-interactive financial vehicle performance prediction, trading and training system and methods
US7185065B1 (en) 2000-10-11 2007-02-27 Buzzmetrics Ltd System and method for scoring electronic messages
US7197470B1 (en) * 2000-10-11 2007-03-27 Buzzmetrics, Ltd. System and method for collection analysis of electronic discussion methods
US7313541B2 (en) * 2000-11-03 2007-12-25 Jpmorgan Chase Bank, N.A. System and method for estimating conduit liquidity requirements in asset backed commercial paper
US7231381B2 (en) * 2001-03-13 2007-06-12 Microsoft Corporation Media content search engine incorporating text content and user log mining
US20020143759A1 (en) * 2001-03-27 2002-10-03 Yu Allen Kai-Lang Computer searches with results prioritized using histories restricted by query context and user community
US6748398B2 (en) 2001-03-30 2004-06-08 Microsoft Corporation Relevance maximizing, iteration minimizing, relevance-feedback, content-based image retrieval (CBIR)
US7197506B2 (en) * 2001-04-06 2007-03-27 Renar Company, Llc Collection management system
US7596526B2 (en) * 2001-04-16 2009-09-29 Jpmorgan Chase Bank, N.A. System and method for managing a series of overnight financing trades
US7536413B1 (en) 2001-05-07 2009-05-19 Ixreveal, Inc. Concept-based categorization of unstructured objects
US7627588B1 (en) 2001-05-07 2009-12-01 Ixreveal, Inc. System and method for concept based analysis of unstructured data
USRE46973E1 (en) 2001-05-07 2018-07-31 Ureveal, Inc. Method, system, and computer program product for concept-based multi-dimensional analysis of unstructured information
US6970881B1 (en) 2001-05-07 2005-11-29 Intelligenxia, Inc. Concept-based method and system for dynamically analyzing unstructured information
US7194483B1 (en) 2001-05-07 2007-03-20 Intelligenxia, Inc. Method, system, and computer program product for concept-based multi-dimensional analysis of unstructured information
US7409335B1 (en) 2001-06-29 2008-08-05 Microsoft Corporation Inferring informational goals and preferred level of detail of answers based on application being employed by the user
US7519529B1 (en) * 2001-06-29 2009-04-14 Microsoft Corporation System and methods for inferring informational goals and preferred level of detail of results in response to questions posed to an automated information-retrieval or question-answering service
US7283992B2 (en) * 2001-11-30 2007-10-16 Microsoft Corporation Media agent to suggest contextually related media content
US8589413B1 (en) 2002-03-01 2013-11-19 Ixreveal, Inc. Concept-based method and system for dynamically analyzing results from search engines
US8224723B2 (en) 2002-05-31 2012-07-17 Jpmorgan Chase Bank, N.A. Account opening system, method and computer program product
US20040044961A1 (en) * 2002-08-28 2004-03-04 Leonid Pesenson Method and system for transformation of an extensible markup language document
US7293015B2 (en) * 2002-09-19 2007-11-06 Microsoft Corporation Method and system for detecting user intentions in retrieval of hint sentences
US7194455B2 (en) 2002-09-19 2007-03-20 Microsoft Corporation Method and system for retrieving confirming sentences
US7171351B2 (en) * 2002-09-19 2007-01-30 Microsoft Corporation Method and system for retrieving hint sentences using expanded queries
US7392240B2 (en) * 2002-11-08 2008-06-24 Dun & Bradstreet, Inc. System and method for searching and matching databases
US20050044033A1 (en) * 2003-01-10 2005-02-24 Gelson Andrew F. Like-kind exchange method
US7634435B2 (en) * 2003-05-13 2009-12-15 Jp Morgan Chase Bank Diversified fixed income product and method for creating and marketing same
JP3768205B2 (ja) * 2003-05-30 2006-04-19 沖電気工業株式会社 形態素解析装置、形態素解析方法及び形態素解析プログラム
US8200486B1 (en) 2003-06-05 2012-06-12 The United States of America as represented by the Administrator of the National Aeronautics & Space Administration (NASA) Sub-audible speech recognition based upon electromyographic signals
US7770184B2 (en) * 2003-06-06 2010-08-03 Jp Morgan Chase Bank Integrated trading platform architecture
US20050015324A1 (en) * 2003-07-15 2005-01-20 Jacob Mathews Systems and methods for trading financial instruments across different types of trading platforms
US7970688B2 (en) * 2003-07-29 2011-06-28 Jp Morgan Chase Bank Method for pricing a trade
US7774333B2 (en) * 2003-08-21 2010-08-10 Idia Inc. System and method for associating queries and documents with contextual advertisements
US20070136251A1 (en) * 2003-08-21 2007-06-14 Idilia Inc. System and Method for Processing a Query
CA2536265C (en) 2003-08-21 2012-11-13 Idilia Inc. System and method for processing a query
US20050060256A1 (en) * 2003-09-12 2005-03-17 Andrew Peterson Foreign exchange trading interface
US20060075345A1 (en) * 2004-09-27 2006-04-06 Sherman Kenneth N Progressive reference system, method and apparatus
US9489853B2 (en) * 2004-09-27 2016-11-08 Kenneth Nathaniel Sherman Reading and information enhancement system and method
US9547994B2 (en) * 2003-10-01 2017-01-17 Kenneth Nathaniel Sherman Progressive reference system, method and apparatus
US7593876B2 (en) * 2003-10-15 2009-09-22 Jp Morgan Chase Bank System and method for processing partially unstructured data
US7725414B2 (en) 2004-03-16 2010-05-25 Buzzmetrics, Ltd An Israel Corporation Method for developing a classifier for classifying communications
US8423447B2 (en) * 2004-03-31 2013-04-16 Jp Morgan Chase Bank System and method for allocating nominal and cash amounts to trades in a netted trade
US20050222937A1 (en) * 2004-03-31 2005-10-06 Coad Edward J Automated customer exchange
US20050251478A1 (en) * 2004-05-04 2005-11-10 Aura Yanavi Investment and method for hedging operational risk associated with business events of another
US7693770B2 (en) 2004-08-06 2010-04-06 Jp Morgan Chase & Co. Method and system for creating and marketing employee stock option mirror image warrants
US7523085B2 (en) 2004-09-30 2009-04-21 Buzzmetrics, Ltd An Israel Corporation Topical sentiments in electronically stored communications
US20090132428A1 (en) * 2004-11-15 2009-05-21 Stephen Jeffrey Wolf Method for creating and marketing a modifiable debt product
US7321655B2 (en) * 2005-02-07 2008-01-22 Adomo, Inc. Caching user information in an integrated communication system
US20090164384A1 (en) * 2005-02-09 2009-06-25 Hellen Patrick J Investment structure and method for reducing risk associated with withdrawals from an investment
US8688569B1 (en) 2005-03-23 2014-04-01 Jpmorgan Chase Bank, N.A. System and method for post closing and custody services
US20090187512A1 (en) * 2005-05-31 2009-07-23 Jp Morgan Chase Bank Asset-backed investment instrument and related methods
US7822682B2 (en) 2005-06-08 2010-10-26 Jpmorgan Chase Bank, N.A. System and method for enhancing supply chain transactions
US9158855B2 (en) 2005-06-16 2015-10-13 Buzzmetrics, Ltd Extracting structured data from weblogs
US20110035306A1 (en) * 2005-06-20 2011-02-10 Jpmorgan Chase Bank, N.A. System and method for buying and selling securities
US7574357B1 (en) * 2005-06-24 2009-08-11 The United States Of America As Represented By The Admimnistrator Of The National Aeronautics And Space Administration (Nasa) Applications of sub-audible speech recognition based upon electromyographic signals
US20070100779A1 (en) * 2005-08-05 2007-05-03 Ori Levy Method and system for extracting web data
US7567928B1 (en) 2005-09-12 2009-07-28 Jpmorgan Chase Bank, N.A. Total fair value swap
US7818238B1 (en) 2005-10-11 2010-10-19 Jpmorgan Chase Bank, N.A. Upside forward with early funding provision
JP5368100B2 (ja) * 2005-10-11 2013-12-18 アイエックスリビール インコーポレイテッド 概念ベースの検索および解析のためのシステム、方法、およびコンピュータプログラム製品
US7676485B2 (en) * 2006-01-20 2010-03-09 Ixreveal, Inc. Method and computer program product for converting ontologies into concept semantic networks
US8280794B1 (en) 2006-02-03 2012-10-02 Jpmorgan Chase Bank, National Association Price earnings derivative financial product
US7620578B1 (en) 2006-05-01 2009-11-17 Jpmorgan Chase Bank, N.A. Volatility derivative financial product
US7647268B1 (en) 2006-05-04 2010-01-12 Jpmorgan Chase Bank, N.A. System and method for implementing a recurrent bidding process
US20070265824A1 (en) * 2006-05-15 2007-11-15 Michel David Paradis Diversified semantic mapping engine (DSME)
US9811868B1 (en) 2006-08-29 2017-11-07 Jpmorgan Chase Bank, N.A. Systems and methods for integrating a deal process
US7660783B2 (en) * 2006-09-27 2010-02-09 Buzzmetrics, Inc. System and method of ad-hoc analysis of data
US7827096B1 (en) 2006-11-03 2010-11-02 Jp Morgan Chase Bank, N.A. Special maturity ASR recalculated timing
US8671341B1 (en) * 2007-01-05 2014-03-11 Linguastat, Inc. Systems and methods for identifying claims associated with electronic text
US8396331B2 (en) * 2007-02-26 2013-03-12 Microsoft Corporation Generating a multi-use vocabulary based on image data
US20080270375A1 (en) * 2007-04-27 2008-10-30 France Telecom Local news search engine
US8041697B2 (en) * 2007-08-31 2011-10-18 Microsoft Corporation Semi-automatic example-based induction of semantic translation rules to support natural language search
US20090070322A1 (en) * 2007-08-31 2009-03-12 Powerset, Inc. Browsing knowledge on the basis of semantic relations
US8229970B2 (en) * 2007-08-31 2012-07-24 Microsoft Corporation Efficient storage and retrieval of posting lists
WO2009029922A2 (en) * 2007-08-31 2009-03-05 Powerset, Inc. Fact-based indexing for natural language search
US8868562B2 (en) * 2007-08-31 2014-10-21 Microsoft Corporation Identification of semantic relationships within reported speech
US8346756B2 (en) * 2007-08-31 2013-01-01 Microsoft Corporation Calculating valence of expressions within documents for searching a document index
US8229730B2 (en) * 2007-08-31 2012-07-24 Microsoft Corporation Indexing role hierarchies for words in a search index
US8463593B2 (en) * 2007-08-31 2013-06-11 Microsoft Corporation Natural language hypernym weighting for word sense disambiguation
US8280721B2 (en) * 2007-08-31 2012-10-02 Microsoft Corporation Efficiently representing word sense probabilities
US8316036B2 (en) * 2007-08-31 2012-11-20 Microsoft Corporation Checkpointing iterators during search
US8712758B2 (en) * 2007-08-31 2014-04-29 Microsoft Corporation Coreference resolution in an ambiguity-sensitive natural language processing system
US8209321B2 (en) * 2007-08-31 2012-06-26 Microsoft Corporation Emphasizing search results according to conceptual meaning
US7984032B2 (en) * 2007-08-31 2011-07-19 Microsoft Corporation Iterators for applying term occurrence-level constraints in natural language searching
US8347326B2 (en) 2007-12-18 2013-01-01 The Nielsen Company (US) Identifying key media events and modeling causal relationships between key events and reported feelings
US8473279B2 (en) * 2008-05-30 2013-06-25 Eiman Al-Shammari Lemmatizing, stemming, and query expansion method and system
US9245243B2 (en) * 2009-04-14 2016-01-26 Ureveal, Inc. Concept-based analysis of structured and unstructured data using concept inheritance
DE102009031872A1 (de) 2009-07-06 2011-01-13 Siemens Aktiengesellschaft Verfahren und Vorrichtung zur automatischen Suche nach Dokumenten in einem Datenspeicher
US20110182493A1 (en) * 2010-01-25 2011-07-28 Martin Huber Method and a system for image annotation
US8738514B2 (en) 2010-02-18 2014-05-27 Jpmorgan Chase Bank, N.A. System and method for providing borrow coverage services to short sell securities
US8352354B2 (en) 2010-02-23 2013-01-08 Jpmorgan Chase Bank, N.A. System and method for optimizing order execution
US8346795B2 (en) * 2010-03-10 2013-01-01 Xerox Corporation System and method for guiding entity-based searching
US8874727B2 (en) 2010-05-31 2014-10-28 The Nielsen Company (Us), Llc Methods, apparatus, and articles of manufacture to rank users in an online social network
JP5232260B2 (ja) * 2011-03-11 2013-07-10 株式会社東芝 話題抽出装置及びプログラム
US9292537B1 (en) 2013-02-23 2016-03-22 Bryant Christopher Lee Autocompletion of filename based on text in a file to be saved
KR101529120B1 (ko) * 2013-12-30 2015-06-29 주식회사 케이티 바이오 문헌 정보의 마이닝을 위한 마이닝 패턴 생성 방법 및 시스템
US9582486B2 (en) * 2014-05-13 2017-02-28 Lc Cns Co., Ltd. Apparatus and method for classifying and analyzing documents including text
KR102094934B1 (ko) 2014-11-19 2020-03-31 한국전자통신연구원 자연어 질의 응답 시스템 및 방법
US10255271B2 (en) * 2017-02-06 2019-04-09 International Business Machines Corporation Disambiguation of the meaning of terms based on context pattern detection

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4839853A (en) 1988-09-15 1989-06-13 Bell Communications Research, Inc. Computer information retrieval using latent semantic structure
JPH03129472A (ja) 1989-07-31 1991-06-03 Ricoh Co Ltd 文書検索装置における処理方法
US5289375A (en) * 1990-01-22 1994-02-22 Sharp Kabushiki Kaisha Translation machine
US5708829A (en) 1991-02-01 1998-01-13 Wang Laboratories, Inc. Text indexing system
US5541836A (en) * 1991-12-30 1996-07-30 At&T Corp. Word disambiguation apparatus and methods
US5598557A (en) * 1992-09-22 1997-01-28 Caere Corporation Apparatus and method for retrieving and grouping images representing text files based on the relevance of key words extracted from a selected file to the text files
US5692176A (en) * 1993-11-22 1997-11-25 Reed Elsevier Inc. Associative text search and retrieval system
US5721902A (en) * 1995-09-15 1998-02-24 Infonautics Corporation Restricted expansion of query terms using part of speech tagging

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100498574B1 (ko) * 2001-03-08 2005-07-01 주식회사 다이퀘스트 단락 단위의 실시간 응답 색인을 이용한 자연어 질의-응답검색시스템
KR20020088671A (ko) * 2001-05-19 2002-11-29 구교성 대표키워드를 이용한 네트워크 상에서의 정보검색방법
KR20030001261A (ko) * 2001-06-26 2003-01-06 소니 가부시끼 가이샤 정보처리장치, 정보처리방법, 기록매체, 프로그램과전자출판 데이터제공 시스템
KR100479346B1 (ko) * 2001-12-28 2005-03-30 한국전자통신연구원 문서분류기법을 이용한 정답문서집합 자동 구축 방법
KR100501244B1 (ko) * 2002-05-30 2005-07-18 재단법인서울대학교산학협력재단 특허 지도 작성 방법 및 그 시스템
KR20030094966A (ko) * 2002-06-11 2003-12-18 주식회사 코스모정보통신 통제학습 기반의 문서 자동분류시스템 및 그 방법
KR20070035786A (ko) * 2005-09-28 2007-04-02 강기만 단어 교차 관계 기반 질의어 확장에 의한 문서 검색 장치및 그 방법
KR100691400B1 (ko) * 2006-03-31 2007-03-12 엔에이치엔(주) 부가 정보를 이용하여 형태소를 분석하는 방법 및 상기방법을 수행하는 형태소 분석기
KR100816912B1 (ko) * 2006-04-13 2008-03-26 엘지전자 주식회사 문서검색 시스템 및 그 방법
KR100885527B1 (ko) * 2007-10-24 2009-02-26 주식회사 코난테크놀로지 문맥 기반 색인데이터 생성장치와 문맥기반 검색장치 및 그방법
KR100926876B1 (ko) * 2008-04-01 2009-11-16 엔에이치엔(주) 랭크 발생 확률을 이용한 랭크 학습 모델 생성 방법 및랭크 학습 모델 생성 시스템
KR20200017031A (ko) * 2018-08-08 2020-02-18 신한대학교 산학협력단 지식융합형 학습정보제공장치

Also Published As

Publication number Publication date
US6366908B1 (en) 2002-04-02

Similar Documents

Publication Publication Date Title
KR20010004404A (ko) 키팩트기반 텍스트 검색시스템과, 이를 이용한 키팩트기반 텍스트 색인방법 및 검색방법
US6904429B2 (en) Information retrieval apparatus and information retrieval method
US6957213B1 (en) Method of utilizing implicit references to answer a query
EP0965089B1 (en) Information retrieval utilizing semantic representation of text
Gupta et al. A survey of text question answering techniques
KR100666064B1 (ko) 인터랙티브 검색 쿼리 개선 시스템 및 방법
US7174290B2 (en) Multi-language document search and retrieval system
US7958128B2 (en) Query-independent entity importance in books
US5940624A (en) Text management system
US20100094835A1 (en) Automatic query concepts identification and drifting for web search
US20050203900A1 (en) Associative retrieval system and associative retrieval method
US20070219986A1 (en) Method and apparatus for extracting terms based on a displayed text
JPH03172966A (ja) 類似文書検索装置
KR100396826B1 (ko) 정보검색에서 질의어 처리를 위한 단어 클러스터 관리장치 및 그 방법
Babekr et al. Personalized semantic retrieval and summarization of web based documents
Bhoir et al. Question answering system: A heuristic approach
Markó et al. Interlingual Indexing across Different Languages.
WO2012143839A1 (en) A computerized system and a method for processing and building search strings
KR20020054254A (ko) 사전구조를 이용한 한국어 형태소 분석방법
KR20010008962A (ko) 개념분류망을 이용한 정보 검색 장치 및 그 방법
JP7428035B2 (ja) データ検索装置、データ検索方法およびプログラム
AU668073B2 (en) A text management system
Piotrowski NLP-supported full-text retrieval
Stratogiannis et al. Related Entity Finding Using Semantic Clustering Based on Wikipedia Categories
Babu et al. An information retrieval system for Malayalam using query expansion technique

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application