KR100904195B1

KR100904195B1 - 웹문서에 대한 사전검색과 데이터 처리 및 검색어 처리를통한 정보검색 시스템 및 그 방법

Info

Publication number: KR100904195B1
Application number: KR1020070130771A
Authority: KR
Inventors: 장태종; 김능수; 유영복; 문영수; 정명동
Original assignee: 한국과학기술정보연구원
Priority date: 2007-12-14
Filing date: 2007-12-14
Publication date: 2009-06-23
Also published as: KR20090063423A

Abstract

본 발명은 웹문서에 대한 사전검색과 데이터 처리 및 검색어 처리를 통한 정보검색 시스템 및 그 방법을 제공하기 위한 것이다. 본 발명의 구성을 살펴보면, 먼저 검색서버의 동작을 제어하는 제어부와; 검색관련 정보를 저장하는 데이터베이스와; 인터넷을 통해 웹서버의 정보를 수집하는 웹정보 수집부와; 웹정보 수집부에서 수집된 정보에 텍스트 정보가 포함되어 있으면 텍스트 정보를 가공하는 텍스트 가공부와; 웹정보 수집부에서 수집된 정보에 메타데이터가 포함되어 있으면 메타데이터를 가공하는 메타데이터 가공부와; 사용자가 검색조건을 설정할 수 있도록 하는 검색조건 설정부와; 검색조건 설정부에서 설정된 결과에 따라 사용자가 입력된 검색어를 처리하여 텍스트 가공부 또는 메타데이터 가공부에서 가공한 데이터를 전달받아 사용자 단말기로 출력하는 검색결과 출력부와; 사용자가 입력한 검색이력을 저장하는 검색이력 저장부;를 포함하여 구성된다. 이러한 본 발명의 웹문서에 대한 사전검색과 데이터 처리 및 검색어 처리를 통한 정보검색 시스템 및 그 방법을 이용함으로서 사용자의 검색조건 설정에 따라 입력된 검색어에 해당되는 관련 정보를 효율적으로 찾아서 그 결과를 제공할 수 있는 효과가 있게 된다. 이는 관련 키워드가 포함된 문헌만을 대상으로 검색을 수행하는 통상적인 키워드 검색사이트와 달리 관련된 사진 자료 및 키워드는 정확하게 일치하지 않지만 관련된 정보들에 대한 검색을 용이하게 할 수 있는 효과가 있다.

인터넷, 정보검색, 메타데이터, 텍스트, 검색 조건

Description

웹문서에 대한 사전검색과 데이터 처리 및 검색어 처리를 통한 정보검색 시스템 및 그 방법{System and method for information search by pre-search of web document and process of data and keyword}

본 발명은 정보검색에 관한 것으로, 특히 웹문서에 대한 사전검색을 수행하여 텍스트만 포함된 데이터 또는 메타데이터가 포함된 데이터를 미리 처리하여 저장하고, 사용자의 검색조건 설정에 따라 입력된 검색어를 처리하여 사용자가 원하는 최적의 검색결과를 제공하기에 적당하도록 한 웹문서에 대한 사전검색과 데이터 처리 및 검색어 처리를 통한 정보검색 시스템 및 그 방법에 관한 것이다.

일반적으로 정보화 사회에서 인간의 지적 활동에 필요 불가결한 행위의 하나는 첨단과학기술에 의존한 정보의 수집과 축적 및 검색과 이용이라고 할 수 있다. 개인적으로는 필요한 정보나 데이터를 보다 신속, 정확하게 입수하여 연구개발이나 의사결정에 활용할 수 있는 방법을 모색하고, 사회적으로는 사회 각 부문에서의 다양한 정보요구를 효율적으로 대처하는 것이 정보화 사회에서의 가장 중요한 과제이다. 바로 여기에 정보검색으로 충족시킬 수 있는 정보검색 시스템을 어떻게 구축, 유지, 운영하느냐가 중요하다.

정보검색 시스템은 정보 수요자가 필요하다고 예측되는 정보나 데이터를 미리 수집, 가공, 처리하여 찾기 쉬운 형태로 축적해 놓은 데이터베이스로부터 요구에 적합한 정보를 신속하게 찾아내어 정보요구자에게 제공하는 시스템을 말한다. 이러한 형태에는 정보시스템에서 출력된 검색결과를 전화로 알려주거나 팩스로 전송하거나 또는 우송하는 경우가 있고, 인터넷을 통해 컴퓨터를 보유하고 있는 사용자의 가정이나 사무실에 온라인으로 검색결과를 전송해 줄 수 있다.

그리고 데이터베이스에 축적되어 있는 정보의 종류에 따라 참조검색, 사실검색, 전문(full-text)검색으로 구분된다. 참조검색은 요구자가 알고자 하는 주제를 핵심적으로 다루고 있는 문헌의 서지사항을 검색하는 것이다. 사실검색은 일반데이터나 수치데이터 및 사실데이터를 검색할 수 있는 것이다. 전문검색은 문헌의 전문을 축적해 놓은 데이터베이스로부터 서지적 데이터뿐만 아니라 해당 문장이나 원문 전부를 필요에 따라 검색해서 볼 수 있는 것이다.

그러나 종래기술은 사용자가 정보검색 서버를 이용하여 정보검색을 수행할 때 사용자가 입력하는 단어에 한정한 검색을 수행하기 때문에 사용자가 원하는 최적의 정보를 제공하지 못하는 한계가 있었다.

이에 본 발명은 상기와 같은 종래의 제반 문제점을 해결하기 위해 제안된 것으로, 본 발명의 목적은 웹문서에 대한 사전검색을 수행하여 텍스트만 포함된 데이터 또는 메타데이터가 포함된 데이터를 미리 처리하여 저장하고, 사용자의 검색조건 설정에 따라 입력된 검색어를 처리하여 사용자가 원하는 최적의 검색결과를 제공할 수 있는 웹문서에 대한 사전검색과 데이터 처리 및 검색어 처리를 통한 정보검색 시스템 및 그 방법을 제공하는데 있다.

도 1은 본 발명이 적용되는 일반적인 인터넷의 개념도이고, 도 2는 본 발명의 일 실시예에 의한 웹문서에 대한 사전검색과 데이터 처리 및 검색어 처리를 통한 정보검색 시스템에서 검색 서버의 상세블록도이다.

이에 도시된 바와 같이, 인터넷을 통해 연결된 검색서버(100)와 웹서버(200)와 사용자 단말기(300)를 포함하여 구성된 정보검색 시스템에 있어서, 상기 검색서버(100)는, 상기 검색서버(100)의 동작을 제어하는 제어부(110)와; 상기 제어부(110)의 제어를 받고, 검색관련 정보를 저장하는 데이터베이스(120)와; 상기 제어부(110)의 제어를 받고, 인터넷을 통해 웹서버(200)의 정보를 수집하는 웹정보 수집부(130)와; 상기 제어부(110)의 제어를 받고, 상기 웹정보 수집부(130)에서 수집된 정보에 텍스트 정보가 포함되어 있으면 텍스트 정보를 가공하는 텍스트 가공 부(140)와; 상기 제어부(110)의 제어를 받고, 상기 웹정보 수집부(130)에서 수집된 정보에 메타데이터가 포함되어 있으면 메타데이터를 가공하는 메타데이터 가공부(150)와; 상기 제어부(110)의 제어를 받고, 사용자가 검색조건을 설정할 수 있도록 하는 검색조건 설정부(160)와; 상기 제어부(110)의 제어를 받고, 상기 검색조건 설정부(160)에서 설정된 결과에 따라 사용자가 입력된 검색어를 처리하여 상기 텍스트 가공부(140) 또는 상기 메타데이터 가공부(150)에서 가공한 데이터를 전달받아 사용자 단말기(300)로 출력하는 검색결과 출력부(170)와; 상기 제어부(110)의 제어를 받고, 사용자가 입력한 검색이력을 저장하는 검색이력 저장부(180);를 포함하여 구성된 것을 특징으로 한다.

상기 메타데이터 가공부(150)는, 제목(title), 작성자(creator), 주제(정보의 내용에 포함되는 토픽과 키워드), 설명(description, 정보의 내용의 설명, 요약, 목차), 날짜(date, 작성한 날짜 또는 공개한 날짜), 형식(type, 정보의 내용 또는 장르), 범위(coverage, 정보의 범위 또는 대상, 지리적 구분, 시간적 구분 등), 권리(rights, 저작권 또는 산업재산권의 언명)를 포함하여 메타데이터를 가공하는 것을 특징으로 한다.

상기 메타데이터 가공부(150)는, 시소러스(thesaurus)와 가중치를 부여한 시소러스에 의해 메타데이터를 가공하는 것을 특징으로 한다.

상기 검색조건 설정부(160)는, 사용자가 색인어 설정, 출력개수 설정, 검색언어 설정, 검색파일형식 설정, 검색영역 설정을 포함하여 수행하도록 하는 것을 특징으로 한다.

상기 검색조건 설정부(160)에서 색인어 설정은, 입력된 색인어를 모두 포함하는 경우, 입력된 색인어의 문구와 동일하게 포함하는 경우, 입력된 복수개의 색인어 중 하나 이상을 포함하는 경우, 입력된 색인어는 제외하는 경우로 구분하여 색인어 설정을 할 수 있도록 하는 것을 특징으로 한다.

상기 검색조건 설정부(160)에서 검색영역 설정은, 뉴스 내 검색, 웹화면 내 검색, 블로그 내 검색, 도서 내 검색, 이미지 내 검색, 분야별 검색을 포함하여 검색영역 설정을 할 수 있도록 하는 것을 특징으로 한다.

도 3은 본 발명의 일 실시예에 의한 웹문서에 대한 사전검색과 데이터 처리 및 검색어 처리를 통한 정보검색 방법을 보인 흐름도이다.

이에 도시된 바와 같이, 검색서버(100)에서 인터넷을 통해 웹서버(200)의 정보를 미리 수집하는 제 1 단계(ST1)와; 상기 제 1 단계에서 수집한 정보에서 텍스트 또는 메타데이터가 포함된 검색결과를 가공하여 처리하는 제 2 단계(ST2)와; 상기 제 2 단계 후 사용자의 검색조건 설정에 따라 사용자가 입력한 검색어를 처리하여 검색을 수행하는 제 3 단계(ST3)와; 상기 제 3 단계에서 수행된 검색결과를 사용자 단말기(300)로 출력하는 제 4 단계(ST4)와; 상기 제 4 단계 후 사용자의 검색이력을 저장하는 제 5 단계(ST5);를 포함하여 수행하는 것을 특징으로 한다.

도 4는 도 3에서 텍스트 또는 메타데이터가 포함된 검색결과 처리방법을 보인 상세흐름도이다.

이에 도시된 바와 같이, 상기 제 2 단계는, 상기 제 1 단계에서 미리 수집한 웹문서 검색결과를 데이터베이스(120)에 저장하는 제 11 단계(ST11)와; 상기 제 11 단계 후 상기 데이터베이스(120)에 저장된 정보에 메타데이터가 포함되어 있는지 판별하는 제 12 단계(ST12)와; 상기 제 12 단계에서 메타데이터가 포함되어 있지 않는 것으로 판별되면, 문자열 텍스트를 처리하여 가공하는 제 13 단계(ST13)와; 상기 제 12 단계에서 메타데이터가 포함되어 있는 것으로 판별되면, 메타데이터를 처리하여 가공하는 제 14 단계(ST14);를 포함하여 수행하는 것을 특징으로 한다.

상기 제 14 단계는, 제목(title), 작성자(creator), 주제(정보의 내용에 포함되는 토픽과 키워드), 설명(description, 정보의 내용의 설명, 요약, 목차), 날짜(date, 작성한 날짜 또는 공개한 날짜), 형식(type, 정보의 내용 또는 장르), 범위(coverage, 정보의 범위 또는 대상, 지리적 구분, 시간적 구분 등), 권리(rights, 저작권 또는 산업재산권의 언명)를 포함하여 메타데이터를 가공하는 것을 특징으로 한다.

상기 제 14 단계는, 시소러스(thesaurus)와 가중치를 부여한 시소러스에 의해 메타데이터를 가공하는 것을 특징으로 한다.

도 5는 도 4에서 사용자의 검색조건 설정에 따라 입력된 검색어를 처리하여 검색을 수행하는 예를 보인 상세흐름도이다.

이에 도시된 바와 같이, 상기 제 5 단계는, 검색조건을 초기화시키는 제 21 단계(ST21)와; 상기 제 21 단계 후 사용자의 검색조건 설정이 있는지 판별하는 제 22 단계(ST22)와; 상기 제 22 단계에서 사용자의 검색조건 설정이 있으면, 사용자가 색인어 설정, 출력개수 설정, 검색언어 설정, 검색파일형식 설정, 검색영역 설 정을 수행하도록 하는 제 23 단계(ST23)와; 상기 제 23 단계 후 사용자가 검색어를 입력하는지 판별하는 제 24 단계(ST24)와; 상기 제 24 단계에서 사용자가 검색어를 입력한 것으로 판별하면, 사용자가 설정한 조건에 따라 입력된 검색어를 처리하여 검색을 수행하는 제 25 단계(ST25);를 포함하여 수행하는 것을 특징으로 한다.

상기 제 23 단계에서 색인어 설정은, 입력된 색인어를 모두 포함하는 경우, 입력된 색인어의 문구와 동일하게 포함하는 경우, 입력된 복수개의 색인어 중 하나 이상을 포함하는 경우, 입력된 색인어는 제외하는 경우로 구분하여 색인어 설정을 할 수 있도록 하는 것을 특징으로 한다.

상기 제 23 단계에서 검색영역 설정은, 뉴스 내 검색, 웹화면 내 검색, 블로그 내 검색, 도서 내 검색, 이미지 내 검색, 분야별 검색을 포함하여 검색영역 설정을 할 수 있도록 하는 것을 특징으로 한다.

본 발명에 의한 웹문서에 대한 사전검색과 데이터 처리 및 검색어 처리를 통한 정보검색 시스템 및 그 방법은 웹문서에 대한 사전검색을 수행하여 텍스트만 포함된 데이터 또는 메타데이터가 포함된 데이터를 미리 처리하여 저장함으로써, 사용자의 검색조건 설정에 따라 입력된 검색어에 해당되는 관련 정보를 효율적으로 찾아서 그 결과를 제공할 수 있는 효과가 있게 된다. 이는 관련 키워드가 포함된 문헌만을 대상으로 검색을 수행하는 통상적인 키워드 검색사이트와 달리 관련된 사진 자료 및 키워드는 정확하게 일치하지 않지만 관련된 정보들에 대한 검색을 용 이하게 할 수 있는 효과가 있다.

이와 같이 구성된 본 발명에 의한 웹문서에 대한 사전검색과 데이터 처리 및 검색어 처리를 통한 정보검색 시스템 및 그 방법의 바람직한 실시예를 첨부한 도면에 의거하여 상세히 설명하면 다음과 같다. 하기에서 본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서, 이는 사용자, 운용자의 의도 또는 판례 등에 따라 달라질 수 있으며, 이에 따라 각 용어의 의미는 본 명세서 전반에 걸친 내용을 토대로 해석되어야 할 것이다.

먼저 본 발명은 웹문서에 대한 사전검색을 수행하여 텍스트만 포함된 데이터 또는 메타데이터가 포함된 데이터를 미리 처리하여 저장하고, 사용자의 검색조건 설정에 따라 입력된 검색어를 처리하여 사용자가 원하는 최적의 검색결과를 제공하고자 한 것이다.

도 1은 본 발명이 적용되는 일반적인 인터넷의 개념도이다.

그래서 본 발명에 의한 검색서버(100)는 미리 인터넷을 통해 웹서버(200)를 검색하여 텍스트 또는 메타데이터가 포함된 정보를 가공하여 저장한다. 그리고 사용자 단말기(300)를 이용하여 사용자가 검색서버(100)에서 정보검색을 수행하면 미리 가공된 정보를 제공하여 사용자가 원하는 최적의 정보를 제공하게 된다.

도 2는 본 발명의 일 실시예에 의한 웹문서에 대한 사전검색과 데이터 처리 및 검색어 처리를 통한 정보검색 시스템에서 검색 서버의 상세블록도이다.

그래서 검색서버(100)는 제어부(110), 데이터베이스(120), 웹정보 수집부(130), 텍스트 가공부(140), 메타데이터 가공부(150), 검색조건 설정부(160), 검색결과 출력부(170), 검색이력 저장부(180)를 포함하여 구성할 수 있다.

제어부(110)는 검색서버(100)에서 미리 인터넷을 통해 웹서버(200)를 검색하여 텍스트 또는 메타데이터가 포함된 정보를 가공하여 저장하고, 사용자 단말기(300)를 이용하여 사용자가 검색서버(100)에서 정보검색을 수행하면 미리 가공된 정보를 제공하여 사용자가 원하는 최적의 정보를 제공하는 동작을 제어한다.

데이터베이스(120)는 제어부(110)의 제어를 받고, 검색관련 정보를 저장한다. 그래서 제어부(110)에서 처리한 결과를 저장하고, 웹정보 수집부(130)에서 수집한 정보를 저장하며, 텍스트 가공부(140)에서 가공한 텍스트 처리결과를 저장하고, 메타데이터 가공부(150)에서 가공한 메타데이터 처리결과를 저장한다. 또한 검색조건 설정부(160)를 통해 사용자가 설정한 검색조건을 저장하고, 사용자가 입력한 검색어의 처리에 의한 검색결과를 검색결과 출력부(170)를 통해 사용자 단말기(300)로 제공한다.

그리고 상기 데이터베이스(120)는 텍스트 가공부(140)에서 필요로 하는 문서분류 체계 등에 대해 저장하고 필요시 데이터를 제공한다. 또한, 메타데이터 가공부(150)에서 필요로 하는 정보를 제공한다.

웹정보 수집부(130)는 제어부(110)의 제어를 받고, 인터넷을 통해 웹서버(200)의 정보를 수집한다. 이때 수집된 정보에는 텍스트 정보, 메타데이터가 포함된 정보 등이 포함된다.

텍스트 가공부(140)는 제어부(110)의 제어를 받고, 웹정보 수집부(130)에서 수집된 정보에 텍스트 정보가 포함되어 있으면 텍스트 정보를 가공하여 데이터베이스(120)에 저장한다. 사용자가 입력한 검색어에 의해 검색을 수행할 때, 사용자가 입력한 검색어가 모두 포함하는 경우, 입력된 복수개의 검색어의 문구와 동일하게 포함하는 경우, 입력된 복수개의 검색어 중 하나 이상을 포함하는 경우, 입력된 검색어는 제외하는 경우로 구분하여 텍스트 정보를 구분하여 데이터베이스(120)에 저장한다. 이러한 텍스트 가공부(140)에서의 가공을 통해 사용자가 의도하지 않는 내용의 표시를 최소화시킬 수 있다.

텍스트 가공부(140)에서 텍스트 가공을 수행할 때는 문서 분류(Document Classification), 문서 군집화(Document Clustering), 정보 추출(Information Extraction), 문서 요약(document Summarization)을 수행하여 비정형 텍스트 데이터에서 가치와 의미가 있는 정보를 찾아낸다.

텍스트 가공부(140)에서 수행하는 문서 분류는 서지학(bibliography)의 결과물을 이용한다. 서지학이란 도서에 대한 학문으로 문서의 분류방법 등이 이에 해당한다. 상기 문서의 분류방법과 관련되는 정보는 데이터베이스(120)에 미리 입력되어 있으며 상기 문서의 분류방법과 관련되는 정보를 데이터베이스로부터 검색하여 웹으로부터 검색되는 문서가 문서의 분류방법상 어느 분류에 포함될 것인지를 수행 한다. 이때, 웹문서의 성질에 의해 분류상 데이터베에스의 가장 적절한 영역에 저장되는 것이 가능하다.

또한 텍스트 가공부(140)에서 수행하는 문서 군집화는 각 지식 콘텐트의 특성을 파악해 그 내용 또는 형태가 유사하거나 상호 관련성이 높은 콘텐트들을 군집시킨다. 제어부(110)에서는 문서의 분류방법에 의해 동일한 문서종류끼리는 데이터베이스(120) 내의 동일영역 내에 저장되게 하여 문서 군집화를 통해 관심있는 문서들을 그 관련도 순으로 한꺼번에 묶어서 효과적으로 검토할 수 있도록 하고, 예제 기반 질의를 통해 방대한 콘텐트 속에 숨겨져 있는 정보에 매우 빠르고 쉽게 접근할 수 있도록 해준다. 그래서 대상 문서의 언어학적 분석을 통해 차별화된 중요 특성들을 추출해내고, 이를 다른 문서의 특성들과 비교하여 그 유사도가 높은 문서들을 상호 묶어주는 방식으로 구현한다. 상기 유사도가 높은 문서들을 상호 묶어주는 방법은 데이터베이스 내에 비록 동일 문서종류는 아니더라고 데이터베이스내의 동일영역에 저장되어 있는 문서는 함께 사용자의 단말에 출력함으로써 가능하게 된다.

또한 텍스트 가공부(140)에서 수행하는 정보 추출은 텍스트 문서 내에서 중요한 의미를 가지는 정보들을 자동으로 추출하는 것이다. 사용자는 정보 추출에 의한 결과물을 통해 비정형 문서에서 중요 키워드, 핵심 개념, 특정 사건, 인명, 지명, 날짜, 상황 및 조건, 결론 등의 다양한 정형 정보를 추출하여 활용할 수 있게 된다. 키워드와 같은 기본적인 정보는 자동 분류, 군집화 등에 직접적으로 활용되는 중요 요소가 되고, 그 외의 다양한 상세 정보들은 자동 요약에 있어서 매우 중 요한 문장 구성 요소가 된다. 또한 경쟁자 정보 분석, 조직 내의 위험 관리, 온톨로지에 기반한 시멘틱 웹 기술을 이용하여 비정형 텍스트 문서에 의미 정보를 부여할 수 있다.

상기 중요 키워드, 핵심 개념, 특정 사건, 인명, 지명, 날짜, 상황 및 조건, 결론 등의 다양한 정형 정보는 텍스트 문서를 미리 검색하여 데이터베이스(120)에 저장한 후, 저장결과를 사용자의 단말에 디스플레이시킴으로서 가능하게 된다.

또한 텍스트 가공부(140)에서 수행하는 문서 요약은 컨텐츠에서 담고 있는 핵심 의미를 유지하면서 그 복잡도와 길이를 효과적으로 줄여주어 각 사용자가 짧고 간단한 요약 문장을 파악할 수 있게 하여 빠르게 정보를 이해하고 활용할 수 있도록 돕게 된다. 상기 간단한 요약 문장 또한 텍스트 문서를 미리 검색하여 데이터베이스에 저장한 후, 저장결과를 사용자의 단말에 디스플레이시킴으로서 가능하게 된다.

자동으로 문서 요약을 수행하는 것은 특성 추출 및 정보 추출에 기반하고 있으며, 텍스트 전체에서 그 문서를 대표할 만한 문장을 추출하여 재구성하는 추출 요약 방식과 추출한 중요 정보들을 활용하여 문장을 생성해내는 생성 요약 방식을 이용할 수 있다.

메타데이터 가공부(150)는 제어부(110)의 제어를 받고, 웹정보 수집부(130)에서 수집된 정보에 메타데이터가 포함되어 있으면 메타데이터를 가공하여 데이터베이스(120)에 저장한다.

여기서 메타데이터는 속성정보라고도 하는데, 대량의 정보 가운데에서 찾고 있는 정보를 효율적으로 찾아내서 이용하기 위해 일정한 규칙에 따라 콘텐트에 대하여 부여되는 데이터이다. 여기에는 콘텐트의 위치와 내용, 작성자에 관한 정보, 권리 조건, 이용 조건, 이용 내력 등이 기록되어 있다. 컴퓨터에서는 보통 메타데이터를 데이터를 표현하기 위한 목적과 데이터를 빨리 찾기 위한 목적으로 사용하고 있다. 데이터를 표현하기 위한 목적으로 사용되는 메타데이터의 가장 좋은 예가 HTML 태그이다. 데이터에 관한 구조화라는 것은 HTML 태그 안에 head나 body가 있으며, body 안에는 table이 올 수 있고, table 안에는 tr이, tr 안에는 td가 올 수 있는 것처럼 데이터가 상위에서 하위로 나무(tree) 형태의 구조를 이루고 있다는 의미이다. 메타데이터의 또 다른 목적은 데이터를 빨리 찾기 위한 것으로, 정보의 인덱스(Index) 구실을 한다.

그래서 메타데이터 가공부(150)는 사용자가 메타데이터를 이용하여 자기가 원하는 특정 데이터(정보)를 쉽게 찾아낼 수 있게 한다.

또한 메타데이터 가공부(150)는 메타데이터가 불완전하거나 검색조건이 부적당하더라도 검색효율을 손상시키는 일없이 항상 사용자가 원하는 검색결과를 얻을 수 있도록 메타데이터가 포함된 정보를 미리 가공하여 제공한다.

또한 메타데이터 가공부(150)는 제목(title), 작성자(creator), 주제(정보의 내용에 포함되는 토픽, 키워드), 설명(description, 정보의 내용의 설명, 요약, 목차 등), 날짜(date, 작성한 날짜 또는 공개한 날짜), 형식(type, 정보의 내용 또는 장르), 범위(coverage, 정보의 범위 또는 대상, 지리적 구분, 시간적 구분 등), 권리(rights, 저작권 또는 산업재산권 등의 언명) 등을 포함하여 가공한다.

상기의 정보들은 웹문서를 미리 검색한 후 저장하고 저장된 결과는 데이터베이스(120)에 보관된다. 즉, 제어부에서는 상기 저장 요청되는 검색결과(가공된 정보)를 데이터베이스(120)에 저장한다. 이러한 가공된 정보가 데이터베이스에 저장되어 있으면 사용자가 필요로 하는 정보를 사용자의 단말(300)에 출력시킬 수 있다.

또한 메타데이터 가공부(150)는 시소러스(thesaurus)와 가중치를 부여한 시소러스에 의해 메타데이터를 가공한다. 여기서 메타데이터 가공부(150)에서 메타데이터를 가공하는데 사용하는 시소러스는 용어의 사용법과 용어들 사이의 관계에 대한 정보를 제공하는 어휘 도구를 말한다. 용어의 관계성은 일반적으로 상위 개념(BT: broader term), 하위 개념(NT: Narrower Term), 용례 혹은 동의어(UF: Use For Or Synonymous), 관계어(RT: Related Term), 대체어(USE) 등으로 분류되는데, 시소러스는 이러한 관계성을 이용하여, 탐색시 질의에 포함된 용어의 의미를 확대하기 위해 사용하는 것이다. 상기의 상위개념, 하위개념, 용례 혹은 동의어, 관계어 대체어는 어휘의 종류에 따라 미리 데이터베이스(120)에 저장되어 있다.

또한 가중치를 부여한 시소러스는 웹정보 수집부(130)와 검색이력 저장부(180)에서 저장한 사용자의 검색어 이력을 이용하여 시소러스에 가중치를 부여하여 사용자에게 최적의 정보검색 결과를 제공하는데 사용된다. 상기의 가중치는 사용자의 필요에 따라 정해질 수 있으며 상기 가중치 또한 데이터베이스(120)에 저장되어 있다. 사용자가 일정한 내용의 정보검색시 제어부(110)에서는 데이터베이스(120)에 저장되어 있는 자료와 가중치를 검색하여 가중치가 가장 높은 자료를 사 용자의 단말에 먼저 디스플레이하는 방법으로 사용될 수 있다.

또한 메타데이터 가공부(150)는 시소러스를 이용할 때 고전적 시소러스, 색인 시소러스, 검색 시소러스를 이용할 수 있다.

그래서 고전적 시소러스는 검색과 색인을 할 때 사용한다. 색인 작업자는 문서 수준의 색인 작업을 할 때, 우선어와 유의어를 대응시키는 데 사용하고, 검색자는 시소러스 역할을 아는 것과 상관없이 시소러스를 사용한다. 질의어는 시소러스의 풍부한 어휘와 대응되어 동의어 관리, 계층적 브라우징, 연관적 연결을 가능하게 한다.

즉, 사용자가 어떠한 단어를 검색시 제어부에서는 검색단어 이외에 우선어와 유의어에 의한 문서정보를 사용자의 단말에 함께 디스플레이시키며 상기 검색단어의 우선어와 유의어는 해당 단어에 대해 미리 데이터베이스(120)에 저장되어 있어야 한다.

또한 색인 시소러스는 통제 어휘집과 색인 문서를 개발할 수 있는 능력은 있지만, 동의어 관리 기능을 검색 엔진에 포함시킬 수 없는 경우도 있고 검색 엔진의 주요 부분을 수정하지 않고는 해당 기능을 지원하지 않을 수도 있는데, 이들 경우에 통제 어휘집 색인을 수행한다. 이러한 색인 시소러스를 구축함으로써 프로세스를 색인하고 일관성과 효율성을 향상시킨다. 또한 우선어를 브라우징 할 수 있으며, 사용자가 단일 접속지에서 특정 주제나 제품과 관련한 모든 문서를 찾을 수 있게 한다. 또한 시소러스 색인은 다음 단계인 고전적 시소러스를 구축할 수 있는 발판이 되도록 한다. 이러한 색인 시소러스는 브라우징 가능한 색인에 어휘 항목을 추가 시켜 검색 기능을 강화하고, 시소러스 전체를 가치 있게 하여 검색과 브라우징 경험을 강화시킬 수 있다.

즉, 사용자가 문서의 필요한 어휘에 대해 검색시 제어부에서는 상기 어휘에 해당하는 우선어를 데이터베이스로부터 검색하여 사용자 단말에 상기 우선어를 함께 디스플레이 하고 사용자가 우선어에 대해 검색요구서 상기 우선어에 해당하는 모든 문서를 같이 출력함으로써 이루어지게 된다.

또한 검색 시소러스는 고전적 시소러스가 실용적이지 않은 경우에 적용되도록 한다. 즉, 수준의 색인을 못하게 하는 콘텐츠의 경우로서 제3자의 콘텐츠나 매일 변경되는 뉴스 콘텐츠. 또는 단순히 수작업으로 인해 색인 비용이 너무 많이 드는 콘텐츠일 경우가 이에 해당되는데, 이러한 경우에 검색 시소러스를 이용한다. 또한 검색 시소러스는 색인 시점이 아니라 검색 시점에 통제 어휘를 사용한다. 이러한 방법은 정밀도를 낮추고 호출을 향상시킬 수 있다. 또한 사용자에게 우선어, 유의어, 상위어, 하위어, 연관어 조합을 사용할 지 묻는 방식으로 관리와 통제 기능을 부여할 수 있다. 사용자는 자신의 검색 범위를 필요에 따라 확장하거나 좁힐 수 있도록 한다. 이러한 검색 시소러스를 이용함으로서 검색 브라우징에 매우 높은 수준의 유연성을 제공할 수 있다. 사용자는 유의어, 계층 관계, 연관 관계를 네비게이션하고, 시소러스 일부 또는 전부를 브라우징하게 할 수 있다.

즉, 사용자가 일정 어휘에 대해 검색시 웹문서의 종류에 따라 색인작업이 의미가 없는 경우가 있다. 즉, 뉴스 등의 경우 제공되는 정보는 항상 바뀌기 때문에 색인작업이 의미가 없게 된다. 만일 사용자가, 일정 어휘의 검색시 제어부에서는 검색 요청되는 단어의 우선어, 유의어, 상위어, 하위어, 연관어 등을 데이터베이스로부터 호출하여 상기 우선어, 유의어 등의 자료 검색서버(100)에 있는 데이터베이스가 아니라 웹서버(200)에서 검색하여 사용자의 단말에 출력하는 것이 가능하다.

검색조건 설정부(160)는 제어부(110)의 제어를 받고, 사용자가 검색조건을 설정할 수 있도록 한다. 또한 검색조건 설정부(160)는 사용자가 색인어 설정, 출력개수 설정, 검색언어 설정, 검색파일형식 설정, 검색영역 설정을 포함하여 수행하도록 한다. 그리고 검색조건 설정부(160)에서 색인어 설정은 입력된 색인어를 모두 포함하는 경우, 입력된 색인어의 문구와 동일하게 포함하는 경우, 입력된 복수개의 색인어 중 하나 이상을 포함하는 경우, 입력된 색인어는 제외하는 경우로 구분하여 색인어 설정을 할 수 있도록 한다. 또한 검색조건 설정부(160)에서 검색영역 설정은 뉴스 내 검색, 웹화면 내 검색, 블로그 내 검색, 도서 내 검색, 이미지 내 검색, 분야별 검색을 포함하여 검색영역 설정을 할 수 있도록 한다.

검색결과 출력부(170)는 제어부(110)의 제어를 받고, 검색조건 설정부(160)에서 설정된 결과에 따라 사용자가 입력된 검색어를 처리하여 텍스트 가공부(140) 또는 메타데이터 가공부(150)에서 가공한 데이터를 전달받아 사용자 단말기(300)로 출력한다.

검색이력 저장부(180)는 제어부(110)의 제어를 받고, 사용자가 입력한 검색이력을 저장한다. 그래서 검색결과로서 사용자 단말기(300)의 WWW 브라우저에 표시되는 검색결과 일람에 대하여 사용자가 입력한 검색어 등을 이력으로서 저장하고 관리하는 기능을 수행한다.

그래서 먼저 제 1 단계(ST1)에서는 검색서버(100)에서 인터넷을 통해 웹서버(200)의 정보를 미리 수집한다.

또한 제 2 단계(ST2)에서는 제 1 단계에서 수집한 정보에서 텍스트 또는 메타데이터가 포함된 검색결과를 가공하여 처리한다.

또한 제 3 단계에서는 제 2 단계 후 사용자의 검색조건 설정에 따라 사용자가 입력한 검색어를 처리하여 검색을 수행한다.

또한 제 4 단계(ST4)에서는 제 3 단계에서 수행된 검색결과를 사용자 단말기(300)로 출력한다.

또한 제 5 단계에서는 제 4 단계 후 사용자의 검색이력을 저장한다.

그래서 제 2 단계에서는, 제 1 단계에서 미리 수집한 웹문서 검색결과를 데이터베이스(120)에 저장한다(ST11).

그리고 데이터베이스(120)에 저장된 정보에 메타데이터가 포함되어 있는지 판별한다(ST12).

이때 메타데이터가 포함되어 있지 않는 것으로 판별되면, 문자열 텍스트를 처리하여 가공한다(ST13).

그래서 사용자가 입력한 검색어에 의해 검색을 수행할 때, 사용자가 입력한 검색어가 모두 포함하는 경우, 입력된 복수개의 검색어의 문구와 동일하게 포함하는 경우, 입력된 복수개의 검색어 중 하나 이상을 포함하는 경우, 입력된 검색어는 제외하는 경우로 구분하여 텍스트 정보를 구분하여 데이터베이스(120)에 저장한다. 이러한 텍스트 가공을 통해 사용자가 의도하지 않는 내용의 표시를 최소화시킬 수 있다.

또한 메타데이터가 포함되어 있는 것으로 판별되면, 메타데이터를 처리하여 가공한다(ST14).

이때 메타데이터를 가공할 때는 제목(title), 작성자(creator), 주제(정보의 내용에 포함되는 토픽과 키워드), 설명(description, 정보의 내용의 설명, 요약, 목차), 날짜(date, 작성한 날짜 또는 공개한 날짜), 형식(type, 정보의 내용 또는 장르), 범위(coverage, 정보의 범위 또는 대상, 지리적 구분, 시간적 구분 등), 권리(rights, 저작권 또는 산업재산권의 언명)를 포함하여 가공한다. 또한 시소러스(thesaurus)와 가중치를 부여한 시소러스에 의해 메타데이터를 가공한다. 상기 메타데이터 가공자료는 데이터베이스(120)에 저장된다.

그래서 제 5 단계에서는, 먼저 검색조건을 초기화시킨다(ST21).

그리고 사용자의 검색조건 설정이 있는지 판별한다(ST22).

이때 사용자의 검색조건 설정이 없으면 종료한다.

또한 사용자의 검색조건 설정이 있으면 사용자가 색인어 설정, 출력개수 설 정, 검색언어 설정, 검색파일형식 설정, 검색영역 설정을 수행하도록 한다(ST23).

그리고 사용자가 검색어를 입력하는지 판별한다(ST24).

이때 사용자가 검색어를 입력하지 않으면 종료한다.

또한 사용자가 검색어를 입력한 것으로 판별하면, 사용자가 설정한 조건에 따라 입력된 검색어를 처리하여 검색을 수행한다(ST25).

도 6은 도 5에서 검색조건 설정 예를 보인 개념도이다.

도 6에서 색인어 설정은 입력된 색인어를 모두 포함하는 경우, 입력된 색인어의 문구와 동일하게 포함하는 경우, 입력된 복수개의 색인어 중 하나 이상을 포함하는 경우, 입력된 색인어는 제외하는 경우로 구분하여 색인어 설정을 할 수 있도록 한다.

출력개수 설정은 10개, 20개, 30개, 50개, 100개, 200개 등으로 검색결과의 출력개수를 설정할 수 있다.

또한 언어 설정은 모든 언어를 검색하는 경우와 지정된 언어만을 검색하는 경우로 구분하여 설정할 수 있다. 지정된 언어에는 한국어, 영어, 일본어, 중국어, 프랑스어, 독일어, 스페인어 등의 언어들이 포함될 수 있다.

파일형식 설정은 모든 파일 형식을 검색대상으로 설정하는 경우와 지정된 파일형식만을 검색대상으로 설정하는 경우로 구분할 수 있다. 지정된 파일형식에는 텍스트 파일(.txt), 어도비 아크로뱃 PDF(.pdf), 마이크로소프트 워드(.doc), 마이크로소프트 액셀(.xls), 마이크로소프트 파워포인트(.ppt), 아래아한글(.hwp) 등이 포함될 수 있다.

검색영역 설정은 뉴스 내 검색, 웹화면 내 검색, 블로그 내 검색, 도서 내 검색, 이미지 내 검색, 분야별 검색을 포함할 수 있다. 분야별 검색은 특허, 논문, 연구보고서 등의 영역을 포함할 수 있다. 또한 분야별 검색은 정치, 경제, 사회, 문화, 생활, 국제, 과학, 연예, 스포츠 등을 포함할 수 있다.

이처럼 본 발명은 웹문서에 대한 사전검색을 수행하여 텍스트만 포함된 데이터 또는 메타데이터가 포함된 데이터를 미리 처리하여 저장하고, 사용자의 검색조건 설정에 따라 입력된 검색어를 처리하여 사용자가 원하는 최적의 검색결과를 제공하게 되는 것이다.

이상에서 본 발명의 바람직한 실시예에 한정하여 설명하였으나, 본 발명은 이에 한정되지 않고 다양한 변화와 변경 및 균등물을 사용할 수 있다. 따라서 본 발명은 상기 실시예를 적절히 변형하여 응용할 수 있고, 이러한 응용도 하기 특허청구범위에 기재된 기술적 사상을 바탕으로 하는 한 본 발명의 권리범위에 속하게 됨은 당연하다 할 것이다.

도 1은 본 발명이 적용되는 일반적인 인터넷의 개념도이다.

도 6은 도 5에서 검색조건 설정 예를 보인 개념도이다.

* 도면의 주요 부분에 대한 부호의 설명 *

100 : 검색서버 110 : 제어부

120 : 데이터베이스 130 : 웹정보 수집부

140 : 텍스트 가공부 150 : 메타데이터 가공부

160 : 검색조건 설정부 170 : 검색결과 출력부

180 : 검색이력 저장부 200 : 웹서버

300 : 사용자 단말기

Claims

인터넷을 통해 연결된 검색서버와 웹서버와 사용자 단말기를 포함하여 구성된 정보검색 시스템에 있어서,

상기 검색서버는,

상기 검색서버의 동작을 제어하는 제어부;

상기 제어부의 제어를 받고, 인터넷을 통해 웹서버의 정보를 수집하는 웹정보 수집부;

상기 제어부의 제어를 받고, 상기 웹정보 수집부에서 수집된 정보에 텍스트 정보가 포함되어 있으면 텍스트 정보를 가공하는 텍스트 가공부;

상기 제어부의 제어를 받고, 상기 웹정보 수집부에서 수집된 정보에 메타데이터가 포함되어 있으면 메타데이터를 가공하는 메타데이터 가공부;

상기 제어부의 제어를 받고, 상기 텍스트 가공부에서 가공된 텍스트 정보와 상기 메타데이터 가공부에서 가공된 메타데이터를 저장하는 데이터베이스;

상기 제어부의 제어를 받고, 사용자가 검색조건을 설정할 수 있도록 하는 검색조건 설정부;

상기 제어부의 제어를 받고, 상기 검색조건 설정부에서 설정된 결과에 따라 사용자가 입력된 검색어를 처리하여 상기 텍스트 가공부 또는 상기 메타데이터 가공부에서 가공한 데이터를 전달받아 사용자 단말기로 출력하는 검색결과 출력부; 및

상기 제어부의 제어를 받고, 사용자가 입력한 검색이력을 저장하는 검색이력 저장부;

를 포함하여 구성되고,

상기 메타데이터 가공부는 메타데이터를 사용자의 검색이력을 이용하여 가중치를 부여한 시소러스에 의해 가공하는 것을 특징으로 하며,

상기 검색조건 설정부는, 사용자의 단말로부터 색인어 설정, 출력개수 설정, 검색언어 설정, 검색파일형식 설정, 검색영역 설정을 포함하는 검색조건을 설정 요청받아 검색조건이 설정되도록 하되,

상기 색인어 설정은, 입력된 색인어를 모두 포함하는 경우, 입력된 색인어의 문구와 동일하게 포함하는 경우, 입력된 복수 개의 색인어 중 하나 이상을 포함하는 경우, 입력된 색인어는 제외하는 경우로 구분되어 설정되며,

상기 검색영역 설정은, 뉴스 내 검색, 웹 화면 내 검색, 블로그 내 검색, 도서 내 검색, 이미지 내 검색, 분야별 검색을 포함하여 설정되는 것을 특징으로 하는 웹문서에 대한 사전검색과 데이터 처리 및 검색어 처리를 통한 정보검색 시스템.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
검색서버에서 인터넷을 통해 웹서버의 정보를 미리 수집하는 제 1 단계;

상기 제 1 단계에서 수집한 정보에서 텍스트 또는 메타데이터가 포함된 검색결과를 가공하여 처리하는 제 2 단계;

상기 제 2 단계 후 사용자의 단말로부터 입력되는 검색조건에 따라 입력된 검색어를 처리하여 검색을 수행하는 제 3 단계;

상기 제 3 단계에서 수행된 검색결과를 사용자 단말기로 출력하는 제 4 단계; 및

상기 제 4 단계 후 사용자의 검색이력을 데이터베이스에 저장하는 제 5 단계;

를 포함하여 수행되며,

상기 제 2 단계는,

상기 제 1 단계에서 미리 수집된 웹문서 검색결과를 데이터베이스에 저장하는 제 11 단계;

상기 제 11 단계 후 제어부가 상기 데이터베이스에 저장된 정보에 메타데이터가 포함되어 있는지 판별하는 제 12 단계;

상기 제 12 단계에서 제어부에서 메타데이터가 포함되어 있지 않는 것으로 판별되면, 문자열 텍스트를 처리하여 가공하는 제 13 단계; 및

상기 제 12 단계에서 제어부에서 메타데이터가 포함되어 있는 것으로 판별되면, 메타데이터를 처리하여 가공하는 제 14 단계;를 포함하고,

상기 제 14 단계는 사용자의 검색이력을 이용하여 가중치를 부여한 시소러스에 의해 메타데이터가 가공되는 것을 특징으로 하며,

상기 제 5 단계는,

검색조건을 초기화시키는 제 21 단계;

상기 제 21 단계 후 사용자의 단말로부터 입력되는 검색조건 설정이 있는지 제어부에서 판별하는 제 22 단계;

상기 제 22 단계에서 사용자의 단말로부터 입력되는 검색조건 설정이 있으면, 사용자의 단말로부터 입력되는 검색조건에 따라 색인어 설정, 출력개수 설정, 검색언어 설정, 검색파일형식 설정, 검색영역 설정을 수행하도록 하는 제 23 단계;

사용자의 단말에 의해 입력되는 검색어를 제어부에서 입력하는지 판별하는 제 24 단계; 및

상기 제 24 단계에서 사용자의 단말로부터 검색어가 입력된 것으로 판별되면, 사용자의 단말로부터 입력되는 조건에 따라 입력된 검색어를 처리하여 검색을 수행하는 제 25 단계;를 포함하고,

상기 제 23 단계에서 색인어 설정은,

입력된 색인어를 모두 포함하는 경우, 입력된 색인어의 문구와 동일하게 포함하는 경우, 입력된 복수개의 색인어 중 하나 이상을 포함하는 경우, 입력된 색인어는 제외하는 경우로 구분하여 색인어 설정을 할 수 있도록 하고,

상기 제 23 단계에서 검색영역 설정은,

뉴스 내 검색, 웹화면 내 검색, 블로그 내 검색, 도서 내 검색, 이미지 내 검색, 분야별 검색을 포함하여 검색영역 설정을 할 수 있도록 하는 것을 특징으로 하는 웹문서에 대한 사전검색과 데이터 처리 및 검색어 처리를 통한 정보검색 방법.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제