KR20020058639A - 엑스엠엘 문서 검색 시스템 및 그 방법 - Google Patents

엑스엠엘 문서 검색 시스템 및 그 방법 Download PDF

Info

Publication number
KR20020058639A
KR20020058639A KR1020000086754A KR20000086754A KR20020058639A KR 20020058639 A KR20020058639 A KR 20020058639A KR 1020000086754 A KR1020000086754 A KR 1020000086754A KR 20000086754 A KR20000086754 A KR 20000086754A KR 20020058639 A KR20020058639 A KR 20020058639A
Authority
KR
South Korea
Prior art keywords
document
index
query
search
xml document
Prior art date
Application number
KR1020000086754A
Other languages
English (en)
Inventor
윤보현
정의석
차건회
강현규
왕지현
Original Assignee
오길록
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 오길록, 한국전자통신연구원 filed Critical 오길록
Priority to KR1020000086754A priority Critical patent/KR20020058639A/ko
Priority to US09/836,316 priority patent/US20020120616A1/en
Publication of KR20020058639A publication Critical patent/KR20020058639A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/81Indexing, e.g. XML tags; Data structures therefor; Storage structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 XML 문서 검색 시스템 및 그 방법에 관한 것으로, XML 문서에 대해 내용 및 구조를 통합 색인하고, 상기 색인된 색인 정보로부터 사용자의 질의에 대하여 내용 및 구조를 통합 검색하기 위한 XML 문서 검색 시스템 및 그 방법과 상기 방법을 실현시키기 위한 컴퓨터로 읽을 수 있는 기록매체를 제공하기 위하여, 복잡한 DTD(Document Type Definition)를 색인 및 검색시에 이용하기 위한 간략한 DTD로 축소하여 색인용 컨피그(config) 파일을 만들기 위한 DTD(Document Type Definition) 축소 수단; 상기 DTD 축소 수단에서 만들어진 컨피그(config) 파일과 XML문서를 입력받아 색인하기 위한 색인 수단; 상기 색인 수단으로부터 색인 정보를 입력받아 저장하기 위한 색인정보 저장수단; 및 사용자로부터 일반 질의 및 구조 질의를 입력받아 검색하기 위한 검색 수단을 포함하며, XML문서 검색 시스템 등에 이용됨.

Description

엑스엠엘 문서 검색 시스템 및 그 방법{A XML Document Retrieval System and Method of it}
본 발명은 XML 문서 검색 시스템 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것으로, 더욱 상세하게는 구조를 갖는 문서에 대해 내용과 구조를 통합하여 색인하고 검색하여 정확하고 빠른 색인 및 검색을 지원하는 XML 문서 검색 시스템 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.
종래의 전문 정보 검색 시스템은 문서의 내용을 분석하여 색인어를 추출하고, 사용자의 질의가 주어졌을 때, 질의에 사용된 단어와 색인어의 유사성을 계산하여 얻어진 결과를 제공한다. 이러한 시스템의 문제점은 문서를 단지 단어의 연속이라는 제한적 관점에서 보았고, 구조화되지 않은 문서의 집합에 대해서만 질의를 수행하였다. 즉, 문서를 단어의 연속이라는 제한적 관점에서 보았기 때문에 문서내의 구조는 무시되었다.
이와 같은 검색은 사용자가 검색하고자 하는 문서의 부분을 지정할 수 없으며, 항상 문서 전체에 대해 검색하므로 검색 시간이 오래 걸리는 문제가 있다. 따라서, 기존의 전문검색 시스템은 문서 전체에 대한 전문검색만을 지원하며, 문서의 구조를 적절히 활용하지 못하는 단점이 있다.
또한, 종래의 구조 정보 검색 시스템은 SGML(Standard Generalized Markup Language) 문서를 위한 정보 검색에 관한 시스템 개발만 이루어졌으며, XML(Extensible Markup Language) 문서를 위한 정보 검색 시스템 개발은 이루어지지 않았다. 또한, 복잡한 SGML 문서의 내용 및 구조를 그대로 색인 및 검색하므로써 색인과 검색 측면에서 시간 및 저장공간 오버헤드가 상당히 크다는 단점이 있으며, 다중 영역을 고려하지 못하고 단일 영역만을 고려하여 색인 및 검색하여 단일 분야의 검색만 가능하다는 문제점이 있었다.
본 발명은, 상기한 바와 같은 문제점을 해결하기 위하여 제안된 것으로, XML 문서에 대해 내용 및 구조를 통합 색인하고, 상기 색인된 색인 정보로부터 사용자의 질의에 대하여 내용 및 구조를 통합 검색하기 위한 XML 문서 검색 시스템 및 그 방법과 상기 방법을 실현시키기 위한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.
즉, 본 발명은, XML 문서에 대해 구조 정보와 내용 정보를 혼합하여 문서의 특정 부분을 지칭하여 검색의 범위를 한정할 수 있는 검색을 가능하게 하여 보다 정확한 검색을 할 수 있고, 또한 문서의 일부만을 골라내어 자유롭게 조합하여 사용자에게 제시할 수 있어서 불필요한 네트워크 과부하와 시스템 과부하를 줄여 빠른 검색을 가능하게 하고, 아울러 XML 문서에 대해 다양한 XSL(eXtensible Style Language) 파일을 적용하여 동적으로 포맷팅할 수 있어 사용자의 정보 습득 능력을 향상시킬 수 있게 하기 위한 XML 문서 검색 시스템 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.
도 1 은 일반적인 XML 문서의 일실시예시도.
도 2 는 본 발명에 따른 XML 문서 기반 정보 검색 시스템의 일실시예 구성도.
도 3 은 본 발명에 따른 내용과 구조를 색인하는 엘리먼트 색인의 일실시예 구조도.
도 4 는 본 발명에 따른 클라이언트/서버 구조에 응용한 검색 시스템의 일실시예 구성도.
도 5 에 본 발명에 따른 Yacc을 이용하여 질의가 구문에 맞는지 검증하고 step-query로 변환하기 위한 BNF 형태의 일실시예시도.
도 6 은 본 발명의 일실시예에 따른 정보과학논문, 석박사논문 등의 다중 영역을 선택할 수 있는 텝에 대한 일실시예시도.
도 7 은 본 발명에 따른 질의 예를 통해 검색한 결과화면에 대한 일실시예시도.
* 도면의 주요 부분에 대한 부호의 설명
200 : DTD 축소 모듈201 : 컨피그(config)파일
202 : XML 문서210 : 색인 모듈
211 : 색인용 문서 변환 모듈212 : 형태소 해석 모듈
213 : 색인어 추출 모듈214 : 엘리먼트 및 위치정보 추출 모듈
220 : 검색 모듈221 : 질의 파싱 모듈
222 : 유사도 계산 모듈223 : 문서 랭킹 모듈
224 : 검색결과 제시 모듈230 : 색인정보 저장 모듈
상기 목적을 달성하기 위한 본 발명의 장치는, XML 문서 정보 검색 시스템에 있어서, 복잡한 DTD(Document Type Definition)를 색인 및 검색시에 이용하기 위한 간략한 DTD로 축소하여 색인용 컨피그(config) 파일을 만들기 위한 DTD(Document Type Definition) 축소 수단; 상기 DTD 축소 수단에서 만들어진 컨피그(config) 파일과 XML 문서를 입력받아 색인하기 위한 색인 수단; 상기 색인 수단으로부터 색인 정보를 입력받아 저장하기 위한 색인정보 저장수단; 및 사용자로부터 일반 질의 및 구조 질의를 입력받아 검색하기 위한 검색 수단을 포함하는 것을 특징으로 한다.
한편, 본 발명의 방법은, XML 문서 검색 시스템에 적용되는 검색 방법에 있어서, 사용자로부터 일반 질의 및 구조 질의를 입력받아 검색엔진에 적합한 형태의 질의로 변형하는 제 1 단계; 상기 변형된 질의를 이용하여 색인정보 저장 모듈로 접근하여 질의와 문서집합간에 유사도 계산을 수행하는 제 2 단계; 상기 계산된 유사도를 이용하여 문서의 순위를 조정하는 제 3 단계; 및 상기 랭킹된 문서의 일부 엘리먼트 혹은 문서 전체를 제시하는 제 4 단계를 포함하는 것을 특징으로 한다.
한편, 본 발명은, 대용량 프로세서를 구비한 XML 문서 검색 시스템에 있어서, 사용자로부터 일반 질의 및 구조 질의를 입력받아 검색엔진에 적합한 형태의 질의로 변형하는 제 1 기능; 상기 변형된 질의를 이용하여 색인정보 저장 모듈로 접근하여 질의와 문서집합간에 유사도 계산을 수행하는 제 2 기능; 상기 계산된 유사도를 이용하여 문서의 순위를 조정하는 제 3 기능; 및 상기 랭킹된 문서의 일부 엘리먼트 혹은 문서 전체를 제시하는 제 4 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
상술한 목적, 특징들 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.
도 1 은 일반적인 XML 문서의 일실시예시도이다.
도 1 에 도시된 바와 같이, XML 문서는 같은 성질의 엘리먼트(예를 들어, 1장, 2장, 3장 등)를 가지기도 한다. 이와 같은 문서를 다루기 위해서는 기존의 정보 검색 시스템을 그대로 적용할 수는 없고, 내용과 구조를 색인 및 검색하는 정보 검색 시스템이 필요하다.
도 2 는 본 발명에 따른 XML 문서 기반 정보 검색 시스템의 일실시예 구성도이다.
도 2 에 도시된 바와 같이, XML 문서 기반 정보 검색 시스템은, 복잡한 DTD(Document Type Definition)를 색인 및 검색시에 이용하기 위한 간략한 DTD로 축소하여 색인용 컨피그(config) 파일(201)을 만들어 내는 DTD(Document Type Definition) 축소 모듈(200), 상기 DTD 축소 모듈(200)에서 만들어진 컨피그(config) 파일과 XML 문서를 입력받아 색인하는 색인 모듈(210), 사용자로부터 일반 질의 및 구조 질의를 입력받아 검색하는 검색 모듈, 그리고 상기 색인 모듈(210)로부터 색인 정보를 입력받아 저장하는 색인정보 저장 모듈(230)을 포함한다.
상기 DTD(Document Type Definition) 축소 모듈(200)은 복잡한 DTD를 색인 및 검색시에 이용하기 위한 간략한 DTD로 축소하여 색인용 컨피그(config) 파일(201)을 만들어 낸다.
상기 색인 모듈(210)은 XML 문서(202)와 컨피그(config) 파일(201)을 입력받아 XML 문서를 파싱하여 색인을 위한 파일을 만들어내는 색인용 문서 변환 모듈(211), 색인용 파일에 대해 형태소를 해석하는 형태소 해석 모듈(212), 상기 형태소 해석 모듈(212)의 결과에서 복합명사 분해, 영어 스테밍, 한자-한글 변환, 숫자 인식을 수행하여 색인어를 추출하는 색인어 추출 모듈(213), 상기 색인어 추출 모듈(213)에서 추출된 색인어의 엘리먼트 정보와 위치 정보를 추출하는 엘리먼트 및 위치정보 추출 모듈(214)을 포함한다.
상기 색인정보 저장 모듈(230)은 상기 엘리먼트 및 위치 정보 추출 모듈(214)에서 추출된 색인 정보를 역색인 구조로 저장한다.
상기 검색 모듈(220)은 사용자로부터 일반 질의 및 구조 질의를 입력받아 검색엔진에 적합한 형태의 질의로 변형하는 질의 파싱 모듈(221), 상기 질의 파싱 모듈(221)에서 나온 질의를 이용하여 색인정보 저장 모듈(230)로 접근하여 질의와 문서 집합간에 유사도 계산을 수행하는 유사도 계산 모듈(222), 상기 유사도 계산 모듈(222)에서 계산된 유사도를 이용하여 불리언 모델, 확장 불리언 모델, 벡터 공간 모델을 이용하여 문서의 순위를 조정하는 문서 랭킹 모듈(223), 상기 문서 랭킹 모듈(223)에서 랭킹된 문서의 일부 엘리먼트 혹은 문서 전체를 제시하거나 XSL을 이용하여 포맷팅하는 검색 결과 제시 모듈(224)를 포함한다.
특히, 색인어 추출 모듈(213)은 주어진 문자열을 형태소 해석하여 색인어로 사용할 수 있는 단어들과 이들의 위치 정보(문장 번호, 문장내 어절 번호)를 추출하며, 영어 단어의 경우 스테밍(stemming)하고, 설정에 따라 대문자를 소문자로 바꾼다. 한자인 경우 설정에 따라 한글로 변환한다.
한편, 색인정보 저장 모듈(230)은 색인 정보로 포스팅 정보와 문서정보가 저장된다. 포스팅 정보로는 색인어의 출현 문서빈도(document frequency), 위치정보, 문서번호, 문서내 색인어빈도(term frequency), 엘리먼트번호, 엘리먼트내 색인어빈도가 저장된다. 문서정보로는 문서이름, 제목, 날짜, 엘리먼트개수, 엘리먼트번호, 엘리먼트내용길이, 엘리먼트내용이 저장된다.
특히, 상기 검색 모듈(220)에서 질의 파싱 모듈(221)은 사용자의 질의를 받아서 질의 BNF 형태인 후술되는 도 4 를 기반으로 렉스(Lex)와 야크(Yacc)을 이용하여 스텝쿼리(step-query)의 형태로 바꾼다. 여기서, 스텝쿼리(step-query)란 사용자가 입력한 질의를 하나씩 분해하여 검색시스템이 사용할 수 있도록 하는 구조로 예를 들어 "AND 정보:0.7 in 한글요약 검색:0.5 in 제목"의 형태이다. 이것은 0.7의 가중치를 갖는 "정보"가 있는 한글요약과 0.5의 가중치를 갖는 "검색"이 있는 제목을 갖는 문서를 찾는다는 의미이다. 복합명사의 경우는 이를 불리언 연산자를 사용하여, 분리한 결과와 같이 생성하여 질의를 재구성한다. 예를 들어 "정보검색"이란 질의는 "(정보 AND 검색 OR 정보검색)"으로 재구성한 후 이를 스텝쿼리(step-query)로 만든다. 영어는 스테머를 돌려서 질의를 만들며 대문자는 모두 소문자로 변환하는 역할도 수행한다.
또한, 유사도 계산 모듈(222)은 다음과 같은 식에 의해 계산한다. 질의어가 가중치를 갖는 질의 Q는 다음과 같이 표현된다.
하나의 질의어에 대해 검색된 n개의 결과인 문서집합 D는 다음과 같이 표현된다.
여기서,는 문서가 질의어에 대해 가지는 가중치를 의미한다.
질의어에 대한 문서의 가중치는 다음과 같이 계산된다.
여기서,는 질의어가 문서내에서 나타난 색인어 빈도이고,는 질의어가 전체 문서에서 나타난 문서 빈도이며,는 문서내에서 최대 색인어 빈도를 의미한다.
일반적으로 색인과정에서 색인어에 대한 가중치 계산을 수행한다. 하지만, 이와 같이 검색시 가중치 계산을 수행하는 이유는 동적인 삽입/삭제를 수행하기 때문이다. 다시 말해서, 만약 색인시에 가중치를 계산한다면, 동적 문서 삽입/삭제를 수행할 때마다 모든 색인어의 가중치를 다시 계산해야 하는 오버헤드가 발생하기 때문이다.
문서 랭킹 모듈(223)에서 질의 Q와 문서집합 D의 랭킹은 세가지 검색모델 불리언 검색 모델, 확장 불리언 검색 모델, 벡터공간 모델을 변형하여 지원한다. 각각 변형된 모델은 다음과 같다.
불리언 검색 모델에서 문서의 랭킹은 다음과 같은 식에 의해 이루어진다. 문서집합의 총 개수인 n차원의 벡터는 다음과 같이 표현된다.
벡터의 원소인는 문서의 랭킹 값을 의미한다.
일 경우,
Q_"or" 일 경우,
일 경우,
이다.
확장 불리언 검색 모델의 유사도 계산은 다음과 같은 식에 의해 이루어진다. 연산자의 강도를 나타내는 계수 p값은 가장 나은 성능을 보이는 값 2를 사용하였다. 문서집합의 총 개수인n차원의 벡터는 다음과 같이 표현된다.
일 경우,
일 경우,
일 경우, 는
벡터 공간 모델에서의 문서의 랭킹은 다음 식에 의해 수행된다. 문서집합의 총 개수인 n차원의 벡터는 다음과 같이 표현된다.
도 3 은 본 발명에 따른 내용과 구조를 색인하는 엘리먼트 색인의 일실시예 구조도이다.
도 3 에 도시된 바와 같이, 엘리먼트 색인 구조는 검색과 삭제 속도를 중시한 구조로서 검색 속도를 증가시키기 위해 색인어당 하나의 포스팅 레코드와 위치정보 레코드를 가진다. 아울러 삭제 속도를 중시하기 위해 문서당 포스팅 레코드 지정파일을 두어 문서에 속한 색인어를 바로 찾아 삭제 가능하였다.
역색인을 구성하는 각 중요 구조들은 Loc_dev(300), Post_dev(310), Doc_dev(320), Rev_dev(330) 4개의 분리된 디바이스(device)로 나누어진다.
Post_dev(310)의 Term_index(311)는 색인어와 포스팅 레코드의 B+ 트리 색인이며, Rev_term_index(312)는 절단(truncation)처리를 위해 색인어를 리버스하는 색인이다.
Doc_dev(320)의 Doc_index(321)는 문서의 이름과 내용 레코드를 가리키는 B+ 색인이며, Rev_dev(330)의 Date_index(331)는 날짜를 효율적으로 검색하기 위한 색인이다.
Post_dev(310)의 포스팅 파일(313)은 각 색인어의 포스팅 정보를 저장하는 파일이며, Loc_dev(300)의 위치 파일(301)은 검색 속도를 빠르게 하기 위해 각 색인어의 위치 정보를 저장하는 파일이다.
Rev_dev(320)의 리버스 파일(332)은 포스팅 레코드 개수와 실제 포스팅 레코드를 가리키는 정보를 저장하는 파일이다. 또한 Doc_dev(320)의 문서 파일(322)은 실제 문서의 내용을 저장할 파일이며, Rev_dev(330)의 날짜 파일(303-3)은 날짜-문서의 역색인 리스트를 갖는 파일이다.
도 4 는 본 발명에 따른 클라이언트/서버 구조에 응용한 검색 시스템의 일실시예 구성도이다.
검색의 특성상 대량의 메모리를 잠깐 사용하고 다시 운영체제에 반환하는 작업이 반복적이고 운영체제에의 메모리 할당 요구가 시간 소요 작업임을 고려하여 다사용자 접속시 검색 성능 저하 방지를 위한 메모리 관리모듈(400)이 있다. 또한 검색 엔진(401)은 색인데이타(406)를 참조하여 불리언 검색(403), 확장 불리언 검색(404), 벡터 공간 검색 모듈(405)을 이용하여 검색하는 검색 모듈과 검색한 중간 결과를 저장하고 분배/통합하는 모듈(402)이 있다.
도 5 에 본 발명에 따른 Yacc을 이용하여 질의가 구문에 맞는지 검증하고 step-query로 변환하기 위한 BNF 형태의 일실시예시도이다.
"KEYWORD"(501)는 공백으로 구분되는 한 단어를 의미하며, "WEIGHT"(502)는 10진수 디지트(digit) 혹은 실수이다. 명사 태그(tag)는 nc(보통명사), nq(고유명사) 등이 사용된다. "AND, and , &"은 불리언 and를 수행하고, "OR, or, |"는 불리언 or를 의미하고, "ANDNOT, -"은 불리언 ANDNOT 수행한다. ":"는 질의어 가중치를 부여할 때 사용하고, "( , )"은 불리언 연산의 우선순위 표현하기 위해서 사용한다. "in"은 엘리먼트 검색을 수행하기 위한 엘리먼트 지정 연산자이고, "NEAR, near"은 "near term term number" 형식을 가지고 number내로 떨어진 두 단어를 검색하는 연산자이다.
"WITHINS, withins"는 "withins term term number" 형식으로 사용되어 number내 문장으로 떨어진 두 단어를 검색하는 연산자이다.
"Date from to"는 date연산을 수행하기 위한 연산자이며 질의 시작에만 가능하다. 아울러 질의어를 나열하면 벡터검색을 수행한다.
도 6 은 본 발명의 일실시예에 따른 정보과학논문, 석박사논문 등의 다중 영역을 선택할 수 있는 텝에 대한 일실시예시도이다.
도 6 에 도시된 바와 같이, DTD 축소 모듈에 의해 축소된 영역 트리를 보이는 DTD 트리 영역(601), 엘리먼트와 키워드를 입력할 수 있는 엘리먼트 질의 영역(602), 자연어로 질의를 입력할 수 있는 질의 입력 영역(603), 실제 검색을 수행하기 위해 변환된 질의를 보이는 질의 입력 영역(604)으로 나뉘어 있다.
예를 들어, 사용자가 예측이라는 단어가 한글요약에 나오고 저자그룹에 유희열이 있는 문서를 찾고자 할 때, 질의입력 콤보박스에 "예측 in 한글요약 AND 유희열 in 저자그룹"를 입력한 예를 보여주고 있다.
도 7 은 본 발명에 따른 질의 예를 통해 검색한 결과화면에 대한 일실시예시도이다.
검색 결과인 문서의 부분인 제목과 1장을 포맷팅하여 보일 수도 있으며, 문서 전체를 사용자에게 포맷팅하여 동적으로 제시하는 화면이다.
본 발명은, 모든 문서 형식 즉, HTML, XML, 그리고 SGML로 이루어진 문서 검색에 이용할 수 있다. HTML의 태그의 일부를 인식하여 구조로 전환한다면 웹 공간 및 유즈넷 공간의 검색이 인터넷 검색엔진에 쉽게 적용 가능하다. 또한 SGML 문서와 XML 문서를 각각 파서를 이용하여 문서를 n개의 논리적 부분(엘리먼트)로 나눈다면 엘리먼트 검색을 수행할 수가 있다. 이러한 검색 엔진은 SGML과 XML 문서내의 모든 계층정보와 모든 엘리먼트 정보를 색인하는 구조 검색 엔진의 문제점인 색인공간이 상당히 소요되는 문제와 검색속도의 저하 문제를 해결할 수 있다.
상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 형태로 기록매체(씨디롬, 램, 롬, 플로피 디스크, 광자기 디스크 등)에 저장될 수 있다.
이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하다는 것이 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 명백할 것이다.
상기한 바와 같은 본 발명은, 단순 색인어만으로 문서에 접근하는 기능 외에 문서의 구조정보와 내용정보를 혼합하여 다양한 각도로 문서를 검색함으로써, 불필요한 네트워크의 과부하와 시스템의 과부하를 감소시킬 수 있는 효과가 있다.
또한, 본 발명은, 모든 문서 형식 즉, HTML, XML, 그리고 SGML로 이루어진 문서 검색에 이용함으로써, 구조 검색 엔진의 문제점인 색인공간이 상당히 소요되는 문제와 검색속도의 저하 문제를 해결할 수 있는 효과가 있다.

Claims (13)

  1. XML 문서 정보 검색 시스템에 있어서,
    복잡한 DTD(Document Type Definition)를 색인 및 검색시에 이용하기 위한 간략한 DTD로 축소하여 색인용 컨피그(config) 파일을 만들기 위한 DTD(Document Type Definition) 축소 수단;
    상기 DTD 축소 수단에서 만들어진 컨피그(config) 파일과 XML 문서를 입력받아 색인하기 위한 색인 수단;
    상기 색인 수단으로부터 색인 정보를 입력받아 저장하기 위한 색인정보 저장수단; 및
    사용자로부터 일반 질의 및 구조 질의를 입력받아 검색하기 위한 검색 수단
    을 포함하는 XML 문서 검색 시스템.
  2. 제 1 항에 있어서,
    상기 색인 수단은,
    상기 XML 문서와 컨피그(config) 파일을 입력받아 XML 문서를 파싱하여 색인을 위한 파일을 만들기 위한 색인용 문서 변환 수단;
    상기 색인용 문서 변환 수단에 의해 만들어진 색인용 파일에 대해 형태소를 해석하기 위한 형태소 해석 수단;
    상기 형태소 해석 수단의 결과에서 색인어를 추출하기 위한 색인어 추출 수단; 및
    상기 색인어 추출 수단에서 추출된 색인어의 엘리먼트 정보와 위치 정보를 추출하기 위한 엘리먼트 및 위치정보 추출 수단
    을 포함하는 XML 문서 검색 시스템.
  3. 제 2 항에 있어서,
    상기 색인어 추출 수단은,
    복합명사 분해, 영어 스테밍, 한자-한글 변환, 숫자 인식을 수행하여 색인어를 추출하는 것을 특징으로 하는 XML 문서 검색 시스템.
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 검색 수단은,
    사용자로부터 일반 질의 및 구조 질의를 입력받아 검색엔진에 적합한 형태의 질의로 변형하기 위한 질의 파싱 수단;
    상기 질의 파싱 수단에서 변형된 질의를 이용하여 색인정보에 접근하여 질의와 문서집합간에 유사도 계산을 수행하기 위한 유사도 계산 수단;
    상기 유사도 계산 수단에서 계산된 유사도를 이용하여 문서의 순위를 조정하기 위한 문서 랭킹 수단; 및
    상기 문서 랭킹 수단에서 랭킹된 문서의 일부 엘리먼트 혹은 문서 전체를 제시하기 위한 검색 결과 제시 수단
    을 포함하는 XML 문서 검색 시스템.
  5. 제 1 항에 있어서,
    상기 색인정보 저장수단은,
    내용과 구조를 통합하여 역색인 구조로 저장된 색인 구조를 사용하는 것을 특징으로 하는 XML 문서 검색 시스템.
  6. 제 4 항에 있어서,
    상기 질의 파싱 수단은,
    일반 질의나 구조 질의를 lex와 yacc을 이용하여 질의 파싱하는 것을 특징으로 하는 XML 문서 검색 시스템.
  7. 제 4 항에 있어서,
    상기 유사도 계산 수단은,
    질의와 문서와 가중치를 계산하여 질의와 문서 집합간의 유사도를 계산하는 것을 특징으로 하는 XML 문서 검색 시스템.
  8. 제 4 항에 있어서,
    상기 문서 랭킹 수단은,
    기존의 불리언 모델, 확장 불리언 모델, 벡터 공간 모델을 수정하여 문서를 순위 조정하는 것을 특징으로 하는 XML 문서 검색 시스템.
  9. 제 4 항에 있어서,
    상기 검색 결과 제시 수단은,
    문서의 일부 및 전체를 XSL(eXtensible Stylesheet Language)을 이용하여 포맷팅하여 동적으로 제시하는 것을 특징으로 하는 XML 문서 검색 시스템.
  10. 제 4 항에 있어서,
    상기 검색 결과 제시 수단의 엘리먼트는,
    검색과 삭제 속도를 중시한 구조로서 검색 속도를 증가시키기 위해 색인어당 하나의 포스팅 레코드와 위치정보 레코드를 가지는 것을 특징으로 하는 XML 문서검색 시스템.
  11. XML 문서 검색 시스템에 적용되는 검색 방법에 있어서,
    사용자로부터 일반 질의 및 구조 질의를 입력받아 검색엔진에 적합한 형태의 질의로 변형하는 제 1 단계;
    상기 변형된 질의를 이용하여 색인정보 저장 모듈로 접근하여 질의와 문서집합간에 유사도 계산을 수행하는 제 2 단계;
    상기 계산된 유사도를 이용하여 문서의 순위를 조정하는 제 3 단계; 및
    상기 랭킹된 문서의 일부 엘리먼트 혹은 문서 전체를 제시하는 제 4 단계
    를 포함하는 검색 방법.
  12. 제 11 항에 있어서,
    상기 문서 순위 조정 과정은,
    불리언 모델, 확장 불리언 모델, 벡터 공간 모델을 이용하여 문서 순위를 조정하는 것을 특징으로 하는 검색 방법.
  13. 대용량 프로세서를 구비한 XML 문서 검색 시스템에 있어서,
    사용자로부터 일반 질의 및 구조 질의를 입력받아 검색엔진에 적합한 형태의 질의로 변형하는 제 1 기능;
    상기 변형된 질의를 이용하여 색인정보 저장 모듈로 접근하여 질의와 문서집합간에 유사도 계산을 수행하는 제 2 기능;
    상기 계산된 유사도를 이용하여 문서의 순위를 조정하는 제 3 기능; 및
    상기 랭킹된 문서의 일부 엘리먼트 혹은 문서 전체를 제시하는 제 4 기능
    을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1020000086754A 2000-12-30 2000-12-30 엑스엠엘 문서 검색 시스템 및 그 방법 KR20020058639A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020000086754A KR20020058639A (ko) 2000-12-30 2000-12-30 엑스엠엘 문서 검색 시스템 및 그 방법
US09/836,316 US20020120616A1 (en) 2000-12-30 2001-04-18 System and method for retrieving a XML (eXtensible Markup Language) document

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020000086754A KR20020058639A (ko) 2000-12-30 2000-12-30 엑스엠엘 문서 검색 시스템 및 그 방법

Publications (1)

Publication Number Publication Date
KR20020058639A true KR20020058639A (ko) 2002-07-12

Family

ID=19704056

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020000086754A KR20020058639A (ko) 2000-12-30 2000-12-30 엑스엠엘 문서 검색 시스템 및 그 방법

Country Status (2)

Country Link
US (1) US20020120616A1 (ko)
KR (1) KR20020058639A (ko)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100494078B1 (ko) * 2002-08-23 2005-06-13 엘지전자 주식회사 확장성 표기 언어 기반의 전자문서 요청/제공 방법
KR100555982B1 (ko) * 2004-07-12 2006-03-03 한국과학기술정보연구원 확장 마크업 언어로 작성된 문서를 위한 정보검색 시스템및 그 방법과 그 방법을 실행시키기 위한 프로그램을기록한 컴퓨터로 읽을 수 있는 기록매체
KR100580197B1 (ko) * 2004-04-02 2006-05-16 삼성전자주식회사 엘리먼트 서치 방법 및 장치와 그 방법을 수행하기 위한프로그램이 저장된 기록 매체
KR100726886B1 (ko) * 2005-08-19 2007-06-12 (주)수도프리미엄엔지니어링 인터넷 웹 문서 검색 시스템 및 그 방법
US7263525B2 (en) 2002-10-23 2007-08-28 Samsung Electronics Co., Ltd. Query processing method for searching XML data
KR100818742B1 (ko) * 2007-08-09 2008-04-02 이종경 색인 단어의 문서 내 위치 정보에 대한 관련성을 이용한문서 검색 방법
US7398466B2 (en) 2002-11-14 2008-07-08 Lg Electronics, Inc. Electronic document versioning method and updated document supply method using version number based on XML
KR100862587B1 (ko) 2007-03-28 2008-10-09 인하대학교 산학협력단 엑스엠엘 문서 유사도 측정 장치 및 그 방법
KR100867446B1 (ko) * 2006-11-24 2008-11-06 주식회사 케이티 작업 문서 생성 장치와 이를 이용한 처리 방법 및 이를구현하기 위한 프로그램이 기록된 기록매체
US7496834B2 (en) 2002-08-23 2009-02-24 Lg Electronics, Inc. Electronic document request/supply method based on XML
US7747429B2 (en) 2006-06-02 2010-06-29 Samsung Electronics Co., Ltd. Data summarization method and apparatus
KR101040094B1 (ko) * 2005-10-07 2011-06-09 노키아 코포레이션 Svg 문서 유사성을 측정하기 위한 시스템 및 방법
CN109947926A (zh) * 2019-03-26 2019-06-28 苏州大成有方数据科技有限公司 一种人工智能语义降维检索与分析系统

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3368883B2 (ja) * 2000-02-04 2003-01-20 インターナショナル・ビジネス・マシーンズ・コーポレーション データ圧縮装置、データベースシステム、データ通信システム、データ圧縮方法、記憶媒体及びプログラム伝送装置
TWI289261B (en) * 2002-09-11 2007-11-01 Hon Hai Prec Ind Co Ltd System and method for dynamically generating a HTTP query
US20050177358A1 (en) * 2004-02-10 2005-08-11 Edward Melomed Multilingual database interaction system and method
GB0407389D0 (en) * 2004-03-31 2004-05-05 British Telecomm Information retrieval
CN100437565C (zh) * 2004-06-08 2008-11-26 北京大学 结构约束下获得可扩展标记语言频繁查询模式的方法
US7627589B2 (en) * 2004-08-10 2009-12-01 Palo Alto Research Center Incorporated High performance XML storage retrieval system and method
US20060047690A1 (en) * 2004-08-31 2006-03-02 Microsoft Corporation Integration of Flex and Yacc into a linguistic services platform for named entity recognition
US20060047500A1 (en) * 2004-08-31 2006-03-02 Microsoft Corporation Named entity recognition using compiler methods
US20060047691A1 (en) * 2004-08-31 2006-03-02 Microsoft Corporation Creating a document index from a flex- and Yacc-generated named entity recognizer
KR100597437B1 (ko) * 2004-12-17 2006-07-06 한국전자통신연구원 하이브리드 정답유형 인식 장치 및 방법
US7921092B2 (en) * 2006-12-04 2011-04-05 Yahoo! Inc. Topic-focused search result summaries
US20080301129A1 (en) * 2007-06-04 2008-12-04 Milward David R Extracting and displaying compact and sorted results from queries over unstructured or semi-structured text
US10776352B2 (en) * 2016-11-30 2020-09-15 Hewlett Packard Enterprise Development Lp Generic query language for data stores
CN111639151A (zh) * 2020-06-01 2020-09-08 山东汇贸电子口岸有限公司 一种全文检索的高效保存倒排索引方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5265065A (en) * 1991-10-08 1993-11-23 West Publishing Company Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query
US5819251A (en) * 1996-02-06 1998-10-06 Oracle Corporation System and apparatus for storage retrieval and analysis of relational and non-relational data
US5745898A (en) * 1996-08-09 1998-04-28 Digital Equipment Corporation Method for generating a compressed index of information of records of a database
US5765158A (en) * 1996-08-09 1998-06-09 Digital Equipment Corporation Method for sampling a compressed index to create a summarized index
US5970490A (en) * 1996-11-05 1999-10-19 Xerox Corporation Integration platform for heterogeneous databases
US6081774A (en) * 1997-08-22 2000-06-27 Novell, Inc. Natural language information retrieval system and method
US6163782A (en) * 1997-11-19 2000-12-19 At&T Corp. Efficient and effective distributed information management
US6564263B1 (en) * 1998-12-04 2003-05-13 International Business Machines Corporation Multimedia content description framework
US6757646B2 (en) * 2000-03-22 2004-06-29 Insightful Corporation Extended functionality for an inverse inference engine based web search
US6782379B2 (en) * 2000-12-22 2004-08-24 Oblix, Inc. Preparing output XML based on selected programs and XML templates

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100494078B1 (ko) * 2002-08-23 2005-06-13 엘지전자 주식회사 확장성 표기 언어 기반의 전자문서 요청/제공 방법
US8677231B2 (en) 2002-08-23 2014-03-18 Lg Electronics, Inc. Electronic document request/supply method based on XML
US7496834B2 (en) 2002-08-23 2009-02-24 Lg Electronics, Inc. Electronic document request/supply method based on XML
US7584421B2 (en) 2002-08-23 2009-09-01 Lg Electronics, Inc. Electronic document request/supply method based on XML
US7263525B2 (en) 2002-10-23 2007-08-28 Samsung Electronics Co., Ltd. Query processing method for searching XML data
US7398466B2 (en) 2002-11-14 2008-07-08 Lg Electronics, Inc. Electronic document versioning method and updated document supply method using version number based on XML
US8631318B2 (en) 2002-11-14 2014-01-14 Lg Electronics, Inc. Electronic document versioning method and updated document supply method using version number based on XML
US7484171B2 (en) 2002-11-14 2009-01-27 Lg Electronics, Inc. Electronic document versioning method and updated document supply method using version number based on XML
KR100580197B1 (ko) * 2004-04-02 2006-05-16 삼성전자주식회사 엘리먼트 서치 방법 및 장치와 그 방법을 수행하기 위한프로그램이 저장된 기록 매체
KR100555982B1 (ko) * 2004-07-12 2006-03-03 한국과학기술정보연구원 확장 마크업 언어로 작성된 문서를 위한 정보검색 시스템및 그 방법과 그 방법을 실행시키기 위한 프로그램을기록한 컴퓨터로 읽을 수 있는 기록매체
KR100726886B1 (ko) * 2005-08-19 2007-06-12 (주)수도프리미엄엔지니어링 인터넷 웹 문서 검색 시스템 및 그 방법
KR101040094B1 (ko) * 2005-10-07 2011-06-09 노키아 코포레이션 Svg 문서 유사성을 측정하기 위한 시스템 및 방법
US7747429B2 (en) 2006-06-02 2010-06-29 Samsung Electronics Co., Ltd. Data summarization method and apparatus
KR100867446B1 (ko) * 2006-11-24 2008-11-06 주식회사 케이티 작업 문서 생성 장치와 이를 이용한 처리 방법 및 이를구현하기 위한 프로그램이 기록된 기록매체
KR100862587B1 (ko) 2007-03-28 2008-10-09 인하대학교 산학협력단 엑스엠엘 문서 유사도 측정 장치 및 그 방법
KR100818742B1 (ko) * 2007-08-09 2008-04-02 이종경 색인 단어의 문서 내 위치 정보에 대한 관련성을 이용한문서 검색 방법
CN109947926A (zh) * 2019-03-26 2019-06-28 苏州大成有方数据科技有限公司 一种人工智能语义降维检索与分析系统

Also Published As

Publication number Publication date
US20020120616A1 (en) 2002-08-29

Similar Documents

Publication Publication Date Title
KR20020058639A (ko) 엑스엠엘 문서 검색 시스템 및 그 방법
US6678677B2 (en) Apparatus and method for information retrieval using self-appending semantic lattice
US6167370A (en) Document semantic analysis/selection with knowledge creativity capability utilizing subject-action-object (SAO) structures
JP3755134B2 (ja) コンピュータベースの適合テキスト検索システムおよび方法
Burkowski Retrieval activities in a database consisting of heterogeneous collections of structured text
EP0886226B1 (en) Linguistic search system
US6714905B1 (en) Parsing ambiguous grammar
KR101522049B1 (ko) 모호성 민감 자연 언어 처리 시스템에서의 동일 지시어 분석
JPH11110416A (ja) データベースからドキュメントを検索するための方法および装置
JPH0424869A (ja) 文書処理システム
JP2005251115A (ja) 連想検索システムおよび連想検索方法
WO2002091234A1 (fr) Dispositif de recuperation destine a une base de donnees de textes joints contenant des informations secondaires
EP1099171B1 (en) Accessing a semi-structured database
JP4091146B2 (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH0484271A (ja) 文書内情報検索装置
JP4065346B2 (ja) 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
KR101476225B1 (ko) 자연어 및 수식 색인화 방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체
JP3786233B2 (ja) 情報検索方法および情報検索システム
US7127450B1 (en) Intelligent discard in information access system
JP4499179B1 (ja) 端末装置
Dao et al. An indexing scheme for structured documents and its implementation
JP2001265774A (ja) 情報検索方法、装置、および情報検索プログラムを記録した記録媒体、ハイパーテキスト情報検索システム
JPH11259524A (ja) 情報検索システム、情報検索システムにおける情報処理方法および記録媒体
JP2000105769A (ja) 文書表示方法
JP3851712B2 (ja) 文書管理システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application