KR102243286B1 - 데이터베이스 구축 방법, 이를 수행하기 위한 기록매체 - Google Patents

데이터베이스 구축 방법, 이를 수행하기 위한 기록매체 Download PDF

Info

Publication number
KR102243286B1
KR102243286B1 KR1020140138206A KR20140138206A KR102243286B1 KR 102243286 B1 KR102243286 B1 KR 102243286B1 KR 1020140138206 A KR1020140138206 A KR 1020140138206A KR 20140138206 A KR20140138206 A KR 20140138206A KR 102243286 B1 KR102243286 B1 KR 102243286B1
Authority
KR
South Korea
Prior art keywords
web
word
document
web documents
association
Prior art date
Application number
KR1020140138206A
Other languages
English (en)
Other versions
KR20160033563A (ko
Inventor
엄기홍
서대원
Original Assignee
경북대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 경북대학교 산학협력단 filed Critical 경북대학교 산학협력단
Publication of KR20160033563A publication Critical patent/KR20160033563A/ko
Application granted granted Critical
Publication of KR102243286B1 publication Critical patent/KR102243286B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

데이터베이스 구축 방법, 이를 수행하기 위한 기록매체가 개시된다.
웹 사이트로부터 수집한 웹 문서 및 사용자로부터 수신한 문서에서 단어를 추출하고, 추출한 단어를 기반으로 하여 웹 사이트로부터 수집한 복수 개의 웹 문서간의 연관도 및 웹 사이트로부터 수집한 웹 문서와 사용자로부터 수신한 문서간의 연관도를 산출하고, 산출한 연관도를 대응하는 웹 사이트로부터 수집한 웹 문서 및 사용자로부터 수신한 문서에 색인하여 저장한다.

Description

데이터베이스 구축 방법, 이를 수행하기 위한 기록매체{METHOD FOR CONSTRUCTING DATABASE, RECORDING MEDIUM FOR PERFORMING THE METHOD}
본 발명은 데이터베이스 구축 방법, 이를 수행하기 위한 기록매체에 관한 것으로서, 보다 상세하게는 웹 상에 있는 자료간의 연관성을 반영하여 웹 상에 있는 자료를 데이터베이스화하는 데이터베이스 구축 방법, 이를 수행하기 위한 기록매체에 관한 것이다.
웹 기반의 검색 요청과 검색 결과 제공 프로세스 자체는 일반적으로 채택되는 공지의 영역이지만, 웹 서버 측에서 어떻게 정보를 찾고 이를 어떻게 가공하며 어떻게 효과적으로 클라이언트에게 제공할 것이냐에 따라서 다양한 기술 발전이 진행되고 있다.
이와 같은 검색 기술의 핵심은 클라이언트가 얻고자 하는 목적에 적합한 정보를 신속하고 정확하게 제공하는 데 있다.
기존의 정보 검색 방식은 웹 상에 있는 정보를 수집하여 저장하고 있는 데이터베이스로부터 입력된 키워드와 동일한 키워드를 포함하거나 입력된 키워드와 유사한 키워드를 포함하는 정보만을 검색하였다.
그러나, 기존의 정보 검색 방식은 데이터베이스에 저장된 정보들간의 연관성을 알 수 없어 입력된 키워드와 관련된 정보만을 검색할 뿐 보다 효과적으로 입력된 키워드와 연관된 정보를 제공할 수 없다는 단점이 있다.
따라서, 사용자가 한번의 검색으로 웹 상에 퍼져있는 연관된 정보를 모두 검색할 수 있도록 저장된 정보들간에 연관성을 고려하여 자료를 저장하는 데이터베이스가 필요한 상황이다.
한국공개특허 제2009-0124301호 한국공개특허 제2006-0025726호
본 발명의 일측면은 웹 상에 있는 자료를 검색하기 위한 데이터베이스를 구축하는 방법에 있어서, 복수 개의 웹 문서간의 연관성을 분석하고, 복수 개의 웹 문서간의 연관성 정보와 함께 복수 개의 웹 문서를 저장하는 웹 자료 검색을 위한 데이터베이스 구축 방법을 제공한다.
본 발명의 다른 측면은 웹 사이트로부터 복수 개의 웹 문서를 수집하고, 복수 개의 웹 문서간의 연관성을 분석하고, 사용자로부터 수신한 문서와 수집한 복수 개의 웹 문서간의 연관성을 분석하여 복수 개의 웹 문서 및 사용자로부터 수신한 문서간의 연관성 정보와 함께 복수 개의 웹 문서 및 사용자로부터 수신한 문서를 저장하는 데이터베이스 구축 방법을 제공한다.
본 발명의 일측면은 웹 자료 검색을 위한 데이터베이스 구축 방법에 있어서, 웹 사이트에서 복수 개의 웹 문서를 수집하고, 상기 복수 개의 웹 문서에서 단어를 추출하여 단어 리스트를 생성하고, 상기 단어 리스트를 기반으로 상기 복수 개의 웹 문서간의 연관도를 산출하고, 상기 산출한 연관도를 상기 복수 개의 웹 문서에 색인하여 저장한다.
상기 단어 리스트를 기반으로 상기 복수 개의 웹 문서간의 연관도를 산출하는 것은, 상기 복수 개의 웹 문서 중 상기 단어 리스트에 포함된 단어를 포함하는 웹 문서를 검출하고, 상기 검출한 웹 문서에서 상기 단어 리스트에 포함된 단어가 발견된 횟수를 검출하고, 상기 검출한 웹 문서에서 상기 단어 리스트에 포함된 단어가 발견된 횟수에 따라 상기 복수 개의 웹 문서간의 연관도를 산출할 수 있다.
상기 검출한 웹 문서에서 상기 단어 리스트에 포함된 단어가 발견된 횟수에 따라 상기 복수 개의 웹 문서간의 연관도를 산출하는 것은, 상기 검출한 웹 문서에서 상기 단어 리스트에 포함된 단어가 발견된 횟수가 많을수록 상기 복수 개의 웹 문서간의 연관도가 높은 것으로 산출하고, 상기 검출한 웹 문서에서 상기 단어 리스트에 포함된 단어가 발견된 횟수가 적을수록 상기 복수 개의 웹 문서간의 연관도가 낮은 것으로 산출할 수 있다.
상기 단어 리스트를 기반으로 상기 복수 개의 웹 문서간의 연관도를 산출하는 것은, 기저장된 유사단어 데이터로부터 상기 단어 리스트에 포함된 단어와 유사한 의미를 갖는 유사단어를 검출하고, 상기 단어 리스트에 포함된 단어와 상기 검출한 유사단어 간의 유사도를 검출하고, 상기 복수 개의 웹 문서 중 상기 검출한 유사단어를 포함하는 웹 문서를 검출하고, 상기 검출한 웹 문서에서 상기 검출한 유사단어가 발견된 횟수를 검출하고, 상기 검출한 웹 문서에서 상기 검출한 유사단어가 발견된 횟수 및 상기 검출한 유사단어 간의 유사도에 따라 상기 복수 개의 웹 문서간의 연관도를 산출할 수 있다.
상기 단어 리스트를 생성하는 것은, 상기 웹 문서를 문장 단위로 분리하고, 상기 분리한 문장의 형태소를 분석하여 상기 분리한 문장에 있는 단어를 추출할 수 있다.
상기 단어 리스트를 생성하는 것은, 상기 웹 문서의 각 문장에서 추출한 단어의 빈도수를 산출하고, 상기 웹 문서의 각 문장에서 추출한 단어의 빈도수가 높은 순대로 정렬하여 상기 단어 리스트를 생성할 수 있다.
상기 데이터베이스에 저장된 정보를 고속으로 검색할 수 있도록 상기 단어 리스트에 포함된 단어에 대하여 인덱스를 생성하여 저장하는 것을 더 포함할 수 있다.
사용자에 의해 상기 복수 개의 웹 문서 중 어느 하나가 탐색되면 상기 복수 개의 웹 문서간의 연관도에 따라 연관된 웹 문서가 함께 탐색되도록 상기 복수 개의 웹 문서간의 연관도에 따라 상기 복수 개의 웹 문서를 그룹핑하는 것을 더 포함할 수 있다.
상기 복수 개의 웹 문서간의 연관도에 따라 상기 복수 개의 웹 문서를 그룹핑하는 것은, 상기 사용자에 의해 상기 복수 개의 웹 문서 중 어느 하나가 탐색되면 상기 사용자에 의해 탐색된 웹 문서와 연관도가 높은 웹 문서부터 순차적으로 정렬되어 상기 사용자에게 제공되도록 상기 복수 개의 웹 문서를 상기 복수 개의 웹 문서간의 연관도에 따라 정렬하여 그룹핑할 수 있다.
본 발명의 다른 측면은 웹 사이트에서 복수 개의 웹 문서를 수집하여 상기 복수 개의 웹 문서에 포함된 단어 간의 연관 정보를 기반으로 상기 복수 개의 웹 문서간의 연관도를 산출하고, 사용자로부터 업데이트할 문서를 수신하고, 상기 사용자로부터 수신한 문서와 상기 복수 개의 웹 문서간의 연관도를 산출하고, 상기 복수 개의 웹 문서간의 연관도 및 상기 사용자로부터 수신한 문서와 상기 복수 개의 웹 문서간의 연관도를 상기 복수 개의 웹 문서 및 상기 사용자로부터 수신한 문서에 색인하여 저장한다.
상기 복수 개의 웹 문서에 포함된 단어 간의 연관 정보를 기반으로 상기 복수 개의 웹 문서간의 연관도를 산출하는 것은, 상기 복수 개의 웹 문서를 문장 단위로 분리하고, 상기 문장 단위로 분리한 복수 개의 웹 문서의 형태소를 분석하여 상기 복수 개의 웹 문서에 포함된 단어를 추출하고, 상기 복수 개의 웹 문서간의 상기 추출한 단어의 중복지수에 따라 상기 복수 개의 웹 문서간의 연관도를 산출할 수 있다.
상기 복수 개의 웹 문서간의 상기 추출한 단어의 중복지수에 따라 상기 복수 개의 웹 문서들간의 연관도를 산출하는 것은, 상기 복수 개의 웹 문서간에 동일하거나 연관된 단어가 포함된 횟수를 검출하고, 상기 동일하거나 연관된 단어가 포함된 횟수가 많을수록 상기 복수 개의 웹 문서간의 연관도를 높은 것으로 산출할 수 있다.
상기 복수 개의 웹 문서간에 연관된 단어가 포함된 횟수를 검출하는 것은, 기저장된 유사단어 데이터로부터 상기 복수 개의 웹 문서에서 추출한 단어와 유사한 의미를 갖는 유사단어를 추출하고, 상기 복수 개의 웹 문서로부터 상기 유사단어가 포함된 횟수를 검출할 수 있다.
상기 사용자로부터 수신한 문서와 상기 복수 개의 웹 문서간의 연관도를 분석하는 것은, 상기 사용자로부터 수신한 문서를 문장 단위로 분리하고, 상기 문장 단위로 분리한 복수 개의 웹 문서의 형태소를 분석하여 상기 사용자로부터 수신한 문서에 포함된 단어를 추출하고, 상기 복수 개의 웹 문서에 포함된 단어와 상기 사용자로부터 수신한 문서로부터 추출한 단어의 중복지수에 따라 상기 사용자로부터 수신한 문서와 상기 복수 개의 웹 문서간의 연관도를 분석할 수 있다.
사용자에 의해 상기 복수 개의 웹 문서 중 어느 하나가 탐색되면 상기 복수 개의 웹 문서간의 연관도에 따라 연관된 문서가 함께 탐색되도록 상기 복수 개의 웹 문서들간의 연관도 및 상기 사용자로부터 수신한 문서와 상기 복수 개의 웹 문서들간의 연관도에 따라 상기 복수 개의 웹 문서 및 상기 사용자로부터 수신한 문서를 그룹핑하는 것을 더 포함할 수 있다.
상기 복수 개의 웹 문서간의 연관도 및 상기 사용자로부터 수신한 문서와 상기 복수 개의 웹 문서간의 연관도에 따라 상기 복수 개의 웹 문서 및 상기 사용자로부터 수신한 문서를 그룹핑하는 것은, 상기 사용자에 의해 상기 복수 개의 웹 문서 중 어느 하나가 탐색되면 상기 사용자에 의해 탐색된 웹 문서와 연관도가 높은 문서부터 순차적으로 정렬되어 상기 사용자에게 제공되도록 상기 복수 개의 웹 문서 및 상기 사용자로부터 수신한 문서를 상기 복수 개의 웹 문서간의 연관도 및 상기 사용자로부터 수신한 문서와 상기 복수 개의 웹 문서간의 연관도에 따라 정렬하여 그룹핑할 수 있다.
상기 사용자로부터 특정 단어를 수신하면 상기 특정 단어가 포함된 웹 문서를 검출하고, 상기 복수 개의 웹 문서간의 연관도에 따라 상기 특정 단어가 포함된 웹 문서와 연관된 웹 문서를 검출하고, 상기 특정 단어가 포함된 웹 문서 및 상기 특정 단어가 포함된 웹 문서와 연관된 웹 문서에 포함된 단어를 추출하고, 상기 특정 단어가 포함된 웹 문서 및 상기 특정 단어가 포함된 웹 문서와 연관된 웹 문서에 포함된 단어를 기반으로 사용자 단말에 저장되어 있는 문서와의 연관도를 산출하고, 상기 사용자 단말에 저장되어 있는 문서와의 연관도에 따라 상기 사용자 단말에 저장되어 있는 문서를 상기 데이터베이스에 저장하는 것을 더 포함할 수 있다.
상기 사용자 단말에 저장되어 있는 문서와의 연관도에 따라 상기 사용자 단말에 저장되어 있는 문서를 상기 데이터베이스에 저장하는 것은,
상기 사용자 단말에 저장되어 있는 문서와의 연관도가 미리 정해진 연관도 이상인지 여부를 검출하고, 상기 사용자 단말에 저장되어 있는 문서와의 연관도가 미리 정해진 연관도 이상이면 상기 사용자에게 상기 사용자 단말에 저장되어 있는 문서를 상기 데이터베이스에 저장할 것인지를 묻는 알림 메시지를 출력하고, 상기 알림 메시지에 응답하여 상기 사용자로부터 저장 요청신호를 수신하면 상기 사용자 단말에 저장되어 있는 문서를 상기 데이터베이스에 저장할 수 있다.
데이터베이스를 구축하기 위한, 컴퓨터 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체일 수 있다.
상술한 본 발명의 일측면에 따르면, 복수 개의 웹 문서간의 연관도에 대한 정보와 함께 복수 개의 웹 문서를 저장함으로써, 사용자에 의해 복수 개의 웹 문서 중 어느 하나의 웹 문서가 탐색될 시 사용자가 탐색한 웹 문서뿐만 아니라 사용자가 탐색한 웹 문서와 연관된 다른 웹 문서를 바로 탐색하여 사용자에게 제공할 수 있다.
상술한 본 발명의 다른 측면에 따르면, 사용자로부터 수신한 문서를 데이터베이스에 저장되어 있는 복수 개의 웹 문서와의 연관도를 산출하고, 산출한 연관도와 함께 저장함으로써, 간단한 키워드를 입력만으로 웹 문서뿐만 아니라 관련된 모든 문서들을 탐색하여 제공할 수 있다.
도 1 은 본 발명의 일 실시예에 따른 데이터베이스 구축 장치의 일예를 도시한 도면이다.
도 2 는 도 1 에 도시된 단어 분석기의 개략적인 구성을 설명하기 위한 도면이다.
도 3 은 도 1 에 도시된 연관성 분석기의 개략적인 구성을 설명하기 위한 도면이다.
도 4 는 본 발명의 일 실시예에 따른 데이터베이스 구축 방법을 도시한 순서도이다.
도 5 는 본 발명의 다른 실시예에 따른 데이터베이스 구축 방법을 도시한 순서도이다.
도 6 은 본 발명의 또 다른 실시예에 따른 데이터베이스 구축 방법을 도시한 순서도이다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예와 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.
이하, 도면들을 참조하여 본 발명의 바람직한 실시예들을 보다 상세하게 설명하기로 한다.
도 1 은 본 발명의 일 실시예에 따른 데이터베이스 구축 장치의 일예를 도시한 도면이다.
본 발명의 일 실시예에 따른 데이터베이스 구축 장치(1)은 웹 상에 있는 자료를 수집하고, 웹 상에 있는 자료간의 연관성을 분석하여 연관성 정보와 함께 웹 상에 있는 자료를 저장할 수 있다.
본 발명의 일 실시예에 따른 데이터베이스 구축 장치(1)은 통신부(100), 제어부(200) 및 메모리부(300)를 포함할 수 있다.
통신부(100)는 외부에 있는 사용자 단말(미도시)와 무선 통신을 수행하며, 사용자 단말(미도시)간의 소정의 정보를 송수신할 수 있다.
이러한 통신부(100)는 사용자 단말(미도시)로부터 단어 정보 및 문서 데이터를 수신할 수 있으며, 제어부(200)에 의해 추출된 정보를 사용자 단말(미도시)로 전송할 수 있다.
제어부(200)는 데이터베이스 구축 장치(1)의 전반적인 동작을 제어할 수 있다.
제어부(200)는 수집한 웹 문서에서 단어를 추출하는 단어 추출기(210) 및 수집한 웹 문서간의 연관성을 분석하는 연관성 분석기(220)를 포함할 수 있다.
단어 추출기(210)는 웹 상에 있는 자료들이 수집되어 저장된 문서 데이터베이스(310)로부터 웹 문서를 수신할 수 있다. 단어 추출기(210)는 문서 데이터베이스(310)로부터 수신한 웹 문서를 분석하여 수신한 웹 문서에 포함된 복수 개의 단어를 추출할 수 있다. 이때, 웹 상에 있는 자료는 웹 사이트에 개시된 웹 뉴스, 블로그. SNS 등과 같은 다양한 웹 사이트에 올려져 있는 자료를 의미할 수 있다. 단어 추출기(210)는 추출한 단어를 각각의 웹 문서 별로 분류하여 단어 리스트 데이터베이스(320)에 저장할 수 있다.
연관성 분석기(220)는 단어 추출기(210)를 통해 웹 문서에서 추출한 단어 정보를 기반으로 웹 문서간의 연관성을 분석할 수 있다.
구체적으로, 연관성 분석기(220)는 복수 개의 웹 문서 중 어느 하나의 웹 문서에 포함된 단어의 빈도수를 산출할 수 있다. 연관성 분석기(220)는 복수 개의 웹 문서 중 어느 하나의 웹 문서에 포함된 단어와 동일한 단어를 포함하는 다른 웹 문서를 검출할 수 있다. 연관성 분석기(220)는 복수 개의 웹 문서 중 어느 하나의 웹 문서에 포함된 단어와 동일한 단어를 포함하는 다른 웹 문서에 복수 개의 웹 문서 중 어느 하나의 웹 문서에 포함된 단어가 발견된 횟수를 검출할 수 있다. 연관성 분석기(220)는 복수 개의 웹 문서 중 어느 하나의 웹 문서에 포함된 단어의 빈도수와 복수 개의 웹 문서 중 어느 하나의 웹 문서에 포함된 단어와 동일한 단어를 포함하는 다른 웹 문서에 복수 개의 웹 문서 중 어느 하나의 웹 문서에 포함된 단어가 발견된 횟수와의 비율을 산출할 수 있다. 연관성 분석기(220)는 산출한 비율을 이용하여 웹 문서간의 연관도를 산출할 수 있다. 예를 들어, 어느 하나의 웹 문서에 포함된 단어의 빈도수가 80번이고, 어느 하나의 웹 문서에 포함된 단어와 동일한 단어를 포함하는 다른 웹 문서에 상기 어느 하나의 웹 문서에 포함된 단어와 동일한 단어가 60개 있는 것으로 검출되면, 연관성 분석기(220)는 2개의 웹 문서간의 연관도를 75%로 산출할 수 있다.
연관성 분석기(220)는 어느 하나의 웹 문서에 포함된 단어 중 다른 웹 문서에서 발견된 단어가 복수 개이면, 각 단어들에 대한 웹 문서간 연관도를 산출하고, 각 연관도를 합산하여 웹 문서간의 연관도를 산출할 수 있다.
연관성 분석기(220)는 산출한 연관도가 높을수록 연관성이 높은 것으로 분석할 수 있으며, 연관도가 높은 순대로 웹 문서를 정렬하여 연관도 데이터베이스(340)에 저장할 수 있다.
메모리부(300)는 제어부(200)의 처리 및 제어를 위한 프로그램을 저장할 수 있으며, 입/출력되는 데이터들의 임시 저장을 위한 기능을 수행할 수 있다.
이러한 메모리부(300)는 문서 데이터베이스(310), 단어 리스트 데이터베이스(320), 유사단어 데이터베이스(330) 및 연관도 데이터베이스(340)를 포함할 수 있다.
문서 데이터베이스(310)는 웹 상에서 수집한 웹 문서 및 사용자로부터 수신한 문서를 저장할 수 있다.
단어 리스트 데이터베이스(320)는 웹 상에서 수집한 웹 문서 및 사용자로부터 수신한 문서로부터 추출한 단어를 저장할 수 있다.
유사단어 데이터베이스(330)는 미리 정해진 단어와 유사한 의미를 갖는 유사단어들을 저장할 수 있으며, 미리 정해진 단어와 유사한 의미를 갖는 유사단어들이 대응하는 미리 정해진 단어별로 분류하여 저장할 수 있다.
연관도 데이터베이스(340)는 웹 상에서 수집한 웹 문서 및 사용자로부터 수신한 문서에 웹 상에서 수집한 웹 문서 및 사용자로부터 수신한 문서간의 상호 연관도 정보가 색인된 데이터를 저장할 수 있다.
본 발명의 다른 실시예에 따른 데이터베이스 구축 장치(1)은 사용자로부터 문서를 수신하여 수신한 문서와 웹 문서간의 연관성을 반영하여 사용자로부터 수신한 문서를 저장할 수 있다.
구체적으로, 본 발명의 다른 실시예에 따른 데이터베이스 구축 장치(1)은 웹 상에 퍼져있는 웹 문서를 수집하고, 통신부(100)를 통해 사용자로부터 문서를 수신할 수 있다. 데이터베이스 구축 장치(1)은 수집한 웹 문서 및 사용자로부터 수신한 문서를 문서 데이터베이스(310)에 저장할 수 있다. 데이터베이스 구축 장치(1)은 상술한 것과 같이 단어 추출기(210) 및 연관성 분석기(220)를 포함할 수 있다. 단어 추출기(210)는 문서 데이터베이스(310)로부터 웹 상에서 수집한 웹 문서 및 사용자로부터 수신한 문서를 수신할 수 있다. 단어 추출기(210)는 웹 상에서 수집한 웹 문서 및 사용자로부터 수신한 문서를 문장 단위로 분리할 수 있다. 단어 추출기(210)는 분리한 문장의 형태소를 분석할 수 있다. 단어 추출기(210)는 분리한 문장의 형태소를 분석하여 웹 상에서 수집한 웹 문서 및 사용자로부터 수신한 문서에 있는 단어를 추출할 수 있다. 단어 추출기(210)는 웹 상에서 수집한 웹 문서 및 사용자로부터 수신한 문서에서 추출한 단어를 각 문서별로 분류하여 단어 리스트 데이터베이스(320)에 저장할 수 있다.
연관성 분석기(220)는 단어 추출기(210)를 통해 웹 상에서 수집한 웹 문서 및 사용자로부터 수신한 문서에서 추출한 단어 정보를 기반으로 문서간의 연관성을 분석할 수 있다.
구체적으로, 연관성 분석기(220)는 웹 상에서 수집한 웹 문서 및 사용자로부터 수신한 문서에 포함된 단어의 빈도수를 산출할 수 있다. 연관성 분석기(220)는 웹 상에서 수집한 웹 문서에 포함된 단어와 동일한 단어가 사용자로부터 수신한 문서에 포함되어 있는지 여부를 검출할 수 있다. 연관성 분석기(220)는 웹 상에서 수집한 웹 문서에 포함된 단어와 동일한 단어가 사용자로부터 수신한 문서에 포함되어 있으면, 사용자로부터 수신한 문서에 웹 문서에 포함된 단어와 동일한 단어가 발견된 횟수를 검출할 수 있다. 연관성 분석기(220)는 웹 상에서 수집한 웹 문서 및 사용자로부터 수신한 문서에 포함된 단어의 빈도수와 사용자로부터 수신한 문서에 웹 문서에 포함된 단어와 동일한 단어가 발견된 횟수와의 비율을 산출할 수 있다. 연관성 분석기(220)는 산출한 비율을 이용하여 웹 문서와 사용자로부터 수신한 문서 간의 연관도를 산출할 수 있다.
연관성 분석기(220)는 산출한 연관도가 높을수록 연관성이 높은 것으로 분석할 수 있으며, 사용자로부터 수신한 문서와의 연관도가 높은 순대로 웹 문서를 정렬하여 연관도 데이터베이스(340)에 저장할 수 있다.
도 2 는 도 1 에 도시된 단어 분석기의 개략적인 구성을 설명하기 위한 도면이다.
본 발명의 일 실시예에 따른 데이터베이스 구축 장치(1)에 포함된 단어 추출기(210)는 문장 추출 모듈(110), 형태소 분석 모듈(120) 및 단어 추출 모듈(130)를 포함할 수 있다.
문장 추출 모듈(110)은 문서를 문장 단위로 분리할 수 있다. 이때, 문서 내의 있는 단어를 추출하기 위해서는 문장의 형태를 분석해야하므로 문서를 문장 단위를 분리하는 것이다. 문장 추출 모듈(110)은 “.”와 같은 마침표가 있는 위치가 문장의 끝점인 동시에 시작점이므로 문서가 시작되는 지점으로부터 마침표가 있는 곳까지는 첫번째 문장, 첫번째 문장의 마침표가 있는 바로 뒤부터 그 다음 마침표가 있는 곳까지를 두번째 문장, 두번째 문장의 마침표가 있는 바로 뒤부터 그 다음 마침표가 있는 곳까지를 세번째 문장, 이런 방식으로 문서에 있는 문장을 분리할 수 있다. 이때, 문장을 추출하는 문서는 웹 상에서 수집한 웹 문서 또는 사용자로부터 수신한 문서일 수 있다.
형태소 분석 모듈(120)은 문장 추출 모듈(110)을 통해 분리한 문장의 형태를 분석할 수 있다. 이때, 형태소 분석 모듈(120)은 문장에 있는 단어와 “를”, “을”, “으로” 와 같은 조사를 분류할 수 있다.
단어 추출 모듈(130)은 형태소 분석 모듈(120)을 통해 분석한 문장에서 단어만을 추출할 수 있다. 단어 추출 모듈(130)은 각 문서마다 추출된 단어를 각 문서별로 그룹핑하여 단어 리스트 데이터베이스(320)에 저장할 수 있다.
본 발명의 다른 실시예에 따른 단어 추출 모듈(130)은 형태소 분석 모듈(120)을 통해 분석한 문장에서 추출한 단어와 유사단어 리스트 데이터베이스(320)에 저장된 유사단어 정보를 매칭하여 형태소 분석 모듈(120)을 통해 분석한 문장에서 추출한 단어와 유사한 의미를 갖는 유사 단어를 추출할 수 있다. 단어 추출 모듈(130)은 각 문서마다 추출된 단어 및 각 문서마다 추출된 단어의 유사단어를 각 문서별로 그룹핑하여 단어 리스트 데이터베이스(320)에 저장할 수 있다.
도 3 은 도 1 에 도시된 연관성 분석기의 개략적인 구성을 설명하기 위한 도면이다.
본 발명의 일 실시예에 다른 데이터베이스 구축 장치(1)에 포함된 연관성 분석기(220)는 중복횟수 산출 모듈(210), 연관도 산출 모듈(220) 및 연관도 리스트 추출 모듈(230)를 포함할 수 있다.
중복횟수 산출 모듈(210)은 각 문서에 포함된 단어의 빈도수 및 각 문서에서 동일한 단어가 발견된 횟수를 산출할 수 있다. 이때, 문서는 웹 상에서 수집한 웹 문서 또는 사용자로부터 수신한 문서일 수 있다.
구체적으로, 중복횟수 산출 모듈(210)은 단어 리스트 데이터베이스(320)로부터 각 문서별로 각 문서에 포함된 단어 정보를 수신할 수 있다. 중복횟수 산출 모듈(210)은 각 문서에 포함된 단어별로 빈도수를 검출할 수 있다. 중복횟수 산출 모듈(210)은 임의의 문서에 포함된 단어가 다른 임의의 문서에 포함되어 있는지 여부를 검출할 수 있다. 중복횟수 산출 모듈(210)은 임의의 문서에 포함된 단어가 다른 임의의 문서에 포함되어 있으면, 임의의 문서에 포함된 단어의 빈도수 및 다른 임의의 문서에서 임의의 문서에 포함된 단어와 동일한 단어가 발견된 횟수를 검출할 수 있다.
연관도 산출 모듈(220)은 중복회수 산출 모듈(210)로부터 산출한 중복횟수 정보를 이용하여 문서간의 연관도를 산출할 수 있다.
구체적으로, 연관도 산출 모듈(220)은 임의의 문서에 포함된 단어가 임의의 문서에서 발견된 횟수와 다른 임의의 문서에서 임의의 문서에 포함된 단어와 동일한 단어가 발견된 횟수와의 비율을 산출할 수 있다. 예를 들어, 제1 문서에서 “특허”라는 단어가 80번 발견되었고, 제2 문서에서 “특허”라는 단어가 60번 발견되면, 제1 문서와 제2 문서와의 연관도는 60번/80번*100(%)= 75%로 산출될 수 있다.
연관도 산출 모듈(220)은 문서 데이터베이스(310)에 저장되어 있는 모든 문서간의 연관도를 상술한 방식을 이용하여 산출할 수 있다.
연관도 리스트 추출 모듈(230)은 연관도 산출 모듈(220)을 통해 산출된 임의의 문서와 연관된 다른 문서와의 연관도 정보를 미리 정해진 기준에 따라 정렬하여 연관도 리스트를 추출할 수 있다.
구체적으로, 연관도 리스트 추출 모듈(230)은 연관도 산출 모듈(220)로부터 임의의 문서와 적어도 하나 이상의 다른 임의의 문서와의 연관도 정보를 수신할 수 있다. 연관도 리스트 추출 모듈(230)은 적어도 하나 이상의 다른 임의의 문서와의 연관도 정보를 비교할 수 있다. 연관도 리스트 추출 모듈(230)은 연관도가 큰 순서대로 또는 연관도가 작은 순서대로 적어도 하나 이상의 다른 임의의 문서를 배열할 수 있다. 연관도 리스트 추출 모듈(230)은 임의의 문서와 임의의 문서와 연관된 적어도 하나 이상의 다른 임의의 문서를 배열된 순서대로 그룹핑하여 연관도 데이터베이스(340)에 저장할 수 있다. 예를 들어, 임의의 문서인 제1 문서와 연관된 문서는 제2 문서, 제3 문서, 제4 문서이고, 제1 문서와 제2 문서와의 연관도는 80%이고, 제1 문서와 제2 문서와의 연관도는 75%이고, 제1 문서와 제3 문서와의 연관도는 50%이면, 연관도가 큰 순서대로 문서를 배열하면 제2 문서, 제3 문서, 제4 문서 순으로 배열된다.
본 발명의 다른 실시예에 따른 연관성 분석기(220)는 웹 상에서 수집한 웹 문서 및 사용자로부터 수신한 문서를 페이지 단위로 분류하여 페이지 단위로 연관성을 분석할 수 있다.
구체적으로, 본 발명의 다른 실시예에 따른 연관성 분석기(220)는 웹 상에서 수집한 웹 문서 및 사용자로부터 수신한 문서에서 문장을 추출할 수 있다. 연관성 분석기(220)는 추출한 문장에서 단어만을 추출할 수 있다. 연관성 분석기(220)는 임의의 문서에서 추출된 단어가 포함된 다른 문서를 검출할 수 있다. 연관성 분석기(220)는 임의의 문서에서 추출된 단어가 포함된 다른 문서를 페이지 단위로 분리할 수 있다. 연관성 분석기(220)는 임의의 문서에서 추출된 단어가 포함된 다른 문서의 각 페이지에 있는 문장을 추출하고, 추출한 문장의 형태소를 분석하여 추출한 문장에 있는 단어를 검출할 수 있다. 연관성 분석기(220)는 임의의 문서에서 추출된 단어가 포함된 다른 문서의 각 페이지로부터 추출한 단어 중 임의의 문서에서 추출된 단어와 동일한 단어를 검출하고, 임의의 문서에서 추출된 단어와 동일한 단어가 발견되는 횟수를 검출할 수 있다. 연관성 분석기(220)는 각 페이지별로 각 페이지에서 임의의 문서에서 추출된 단어와 동일한 단어가 발견되는 횟수에 따라 임의의 문서와의 연관도를 산출할 수 있다. 예를 들어, 연관성 분석기(220)는 임의의 문서에서 추출된 단어와 동일한 단어가 발견되는 횟수가 상대적으로 높은 페이지를 임의의 문서와 연관도가 높은 것으로 산출할 수 있으며, 임의의 문서에서 추출된 단어와 동일한 단어가 발견되는 횟수가 적으면 임의의 문서와 연관도가 낮은 것으로 산출할 수 있다. 연관성 분석기(220)는 각 문서의 페이지별로 산출한 연관도를 저장할 수 있다. 이때, 문서의 페이지별로 연관도를 분석하는 것은, 문서의 전체적으로 보면 연관도가 낮은 문서일 수 있으나 문서의 특정 페이지는 임의의 문서와 연관도가 높은 페이지일 수 있는 경우를 고려하기 위함이다.
본 발명의 또 다른 실시예에 따른 데이터베이스 구축 장치(1)은 사용자로부터 특정 단어를 수신하면 수신한 특정 단어를 포함하는 문서 및 특정 단어를 포함하는 문서와 연관된 문서를 사용자에게 제공할 수 있으며, 특정 단어를 포함하는 문서 및 특정 단어를 포함하는 문서와 연관된 문서에 포함된 단어를 이용하여 특정 단어와 연관된 사용자 단말에 저장되어 있는 다른 문서를 검출할 수 있으며, 검출한 사용자 단말에 저장되어 있는 다른 문서를 데이터베이스에 업데이트 시킬 수 있다.
구체적으로, 본 발명의 또 다른 실시예에 따른 데이터베이스 구축 장치(1)은 사용자로부터 특정 단어를 수신하면, 수신한 특정 단어를 포함하는 문서를 검출할 수 있다. 이때, 데이터베이스 구축 장치(1)은 단어 리스트 데이터베이스(320)에 수신한 특정 단어를 매칭하여 수신한 특정 단어가 포함된 문서를 검출할 수 있다. 데이터베이스 구축 장치(1)은 수신한 특정 단어가 포함된 문서와 연관도 데이터베이스(340)에 저장된 연관도 데이터를 이용하여 수신한 특정 단어가 포함된 문서와 연관된 문서를 검출할 수 있다. 이때, 연관도 데이터베이스(340)에 저장된 연관도 데이터는 각 문서별로 연관도 문서가 연관도가 큰 순서 또는 작은 순서대로 배열되어 저장되어 있는 데이터일 수 있다. 데이터베이스 구축 장치(1)은 수신한 특정 단어가 포함된 문서 및 수신한 특정 단어가 포함된 문서와 연관된 문서로부터 특정 단어와 관련된 적어도 하나 이상의 다른 단어를 검출할 수 있다. 이때, 수신한 특정 단어가 포함된 문서 및 수신한 특정 단어가 포함된 문서와 연관된 문서로부터 특정 단어와 관련된 적어도 하나 이상의 다른 단어를 검출하는 것은, 수신한 특정 단어가 포함된 문서 및 수신한 특정 단어가 포함된 문서와 연관된 문서의 모든 문장에서 수신한 특정 단어와 쌍으로 있는 단어를 검출하고, 특정 단어와 쌍으로 있는 단어의 빈도수에 따라 수신한 특정 단어와 관련된 단어를 검출할 수 있다. 이때, 각 문장에 수신한 특정 단어와 쌍으로 있는 단어를 검출하는 것은, 한 문장에 있는 단어들은 서로 연관이 있다는 가정 하에 각 문장에 수신한 특정 단어와 쌍으로 있는 단어를 검출하는 것이며, 많은 문장에서 동일하게 추출되는 단어 쌍이 많을수록 단어간의 상호 연관도가 높을 것을 예상되므로 각 문장에 수신한 특정 단어와 쌍으로 있는 단어를 검출함으로써 수신한 특정 단어와 관련된 단어를 검출하는 것이다. 데이터베이스 구축 장치(1)은 수신한 특정 단어 및 수신한 특정 단어와 관련된 단어를 이용하여 사용자 단말에 저장되어 있는 문서 중 수신한 특정 단어 및 수신한 특정 단어와 관련된 단어와 관련있는 문서를 검출할 수 있다. 이때, 수신한 특정 단어 및 수신한 특정 단어와 관련된 단어와 관련있는 문서를 검출하는 것은 수신한 특정 단어 및 수신한 특정 단어와 관련된 단어가 포함된 문서 중 미리 정해진 일정 빈도수 이상 수신한 특정 단어 및 수신한 특정 단어와 관련된 단어가 발견되는 문서를 검출하는 것이다. 데이터베이스 구축 장치(1)은 수신한 특정 단어 및 수신한 특정 단어와 관련된 단어와 관련있는 문서를 검출한 후 사용자 단말에 수신한 특정 단어 및 수신한 특정 단어와 관련된 단어와 관련있는 문서를 문서 데이터베이스(310)에 업데이트할 것인지 여부를 묻는 알림 메시지를 출력하도록 할 수 있다. 데이터베이스 구축 장치(1)은 사용자로부터 수신한 특정 단어 및 수신한 특정 단어와 관련된 단어와 관련있는 문서를 문서 데이터베이스(310)에 업데이트하라는 요청신호가 입력되면, 수신한 특정 단어 및 수신한 특정 단어와 관련된 단어와 관련있는 문서를 문서 데이터베이스(310)에 업데이트할 수 있다.
이하에서는, 도 4 를 통하여 본 발명의 일 실시예에 따른 데이터베이스 구축 방법에 대해 설명한다.
먼저, 웹 사이트에서 웹 상에 있는 웹 문서들을 수집(410)하고, 수집한 웹 문서에서 문장 단위로 문장을 분리하고, 분리한 문장의 형태소를 분석하여 수집한 웹 문서에 있는 단어를 추출한다(420).
수집한 웹 문서마다 추출한 단어가 발견되는 횟수를 검출(430)하고, 각 웹 문서에서 추출한 단어 중 동일한 단어가 발견되는 횟수를 검출하고, 각 웹 문서들간의 추출한 단어 중 동일한 단어가 발견되는 횟수의 비율을 산출하여 각 웹 문서간의 연관도를 산출한다(440).
산출한 연관도 정보를 대응하는 웹 문서에 색인하여 데이터베이스에 저장한다(450).
이하에서는, 도 5 를 통하여 본 발명의 다른 실시예에 따른 데이터베이스 구축 방법에 대해 설명한다.
먼저, 웹 사이트에서 웹 상에 있는 웹 문서들을 수집 및 사용자로부터 문서를 수신(510)하고, 수집한 웹 문서 및 사용자로부터 수신한 문서에서 문장 단위로 문장을 분리하고, 분리한 문장의 형태소를 분석하여 수집한 웹 문서 및 사용자로부터 수신한 문서에 있는 단어를 추출한다(520).
수집한 웹 문서 및 사용자로부터 수신한 문서마다 추출한 단어가 발견되는 횟수를 검출(530)하고, 각 웹 문서 및 사용자로부터 수신한 문서에서 추출한 단어 중 동일한 단어가 발견되는 횟수를 검출하고, 각 웹 문서들간 또는 각 웹 문서와 사용자로부터 수신한 문서간의 추출한 단어 중 동일한 단어가 발견되는 횟수의 비율을 산출하여 각 웹 문서간의 연관도를 산출한다(540).
산출한 연관도 정보를 대응하는 웹 문서 및 사용자로부터 수신한 문서에 색인하여 데이터베이스에 저장한다(550).
이하에서는, 도 6 을 통하여 본 발명의 또 다른 실시예에 따른 데이터베이스 구축 방법에 대해 설명한다.
먼저, 사용자로부터 특정 단어를 수신(610)하면, 단어 리스트 데이터베이스(320)를 이용하여 수신한 특정 단어가 포함된 문서를 검출한다(620).
특정 단어가 포함된 문서를 검출(620)한 후, 연관도 데이터베이스(340)를 이용하여 특정 단어가 포함된 문서와 연관된 다른 문서를 검출한다(630).
특정 단어가 포함된 문서 및 특정 단어가 포함된 문서와 연관된 다른 문서에 포함된 단어를 검출(640)하고, 사용자 단말에 저장되어 있는 문서 중 검출한 단어 또는 검출한 단어 또는 검출한 단어와 관련된 관련 단어가 포함된 관련 문서를 검출한다(650).
사용자로부터 검출한 관련 문서를 데이터베이스에 저장할 것인지 여부를 입력받을 있도록 검출한 관련 문서를 데이터베이스에 저장할 것인지를 묻는 알림 메시지를 사용자 단말에 전송한다(660).
이때, 사용자 단말로부터 검출한 관련 문서를 데이터베이스에 저장한다는 메시지를 포함하는 저장 요청 신호가 수신(670)되면 검출한 관련 문서를 데이터베이스에 전송하여 저장한다(680).
이와 같은, 웹 상에 있는 웹 문서간의 연관성을 고려하여 데이터베이스를 구축하는 기술은 애플리케이션으로 구현되거나 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.
상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거니와 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다.
컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD 와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.
프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드 뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상에서는 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
1: 데이터베이스 구축 장치
100: 통신부
200: 제어부
210: 단어 추출기
220: 연관성 분석기
300: 메모리부

Claims (19)

  1. 웹 상에 있는 자료를 수집하여, 자료간의 연관성 정보와 함께 웹 상에 있는 자료를 저장하는 데이터베이스 구축 장치를 이용한 웹 자료 검색을 위한 데이터베이스 구축 방법에 있어서,
    웹 사이트에서 복수 개의 웹 문서를 수집하고,
    상기 복수 개의 웹 문서에서 단어를 추출하여 단어 리스트를 생성하고,
    상기 단어 리스트를 기반으로 상기 복수 개의 웹 문서간의 연관도를 산출하고,
    상기 산출한 연관도를 상기 복수 개의 웹 문서에 색인하여 저장하고,
    상기 단어 리스트를 기반으로 상기 복수 개의 웹 문서간의 연관도를 산출하는 것은,
    복수 개의 웹 문서 중 어느 하나의 웹 문서에 포함된 단어의 빈도수를 산출하고, 상기 복수 개의 웹 문서중 어느 하나의 웹 문서에 포함된 단어와 동일한 단어를 포함하는 다른 웹 문서를 검출하며, 상기 복수 개의 웹 문서 중 어느 하나의 웹 문서에 포함된 단어와 동일한 단어를 포함하는 상기 다른 웹 문서에 상기 복수 개의 웹 문서 중 어느 하나의 웹 문서에 포함된 단어가 발견된 횟수를 검출하고, 상기 복수 개의 웹 문서 중 어느 하나의 웹 문서에 포함된 단어의 빈도수와 상기 복수 개의 웹 문서 중 어느 하나의 웹 문서에 포함된 단어와 동일한 단어를 포함하는 상기 다른 웹 문서에 상기 복수 개의 웹 문서 중 어느 하나의 웹 문서에 포함된 단어가 발견된 횟수와의 비율을 산출하며, 산출한 비율을 이용하여 상기 웹 문서 간의 연관도를 산출하는, 웹 자료 검색을 위한 데이터베이스 구축 방법.
  2. 삭제
  3. 삭제
  4. 제 1 항에 있어서,
    상기 단어 리스트를 기반으로 상기 복수 개의 웹 문서간의 연관도를 산출하는 것은,
    상기 단어 리스트에 포함된 단어와 유사한 의미를 갖는 단어가 대응되도록 기저장된 유사단어 데이터로부터 상기 단어 리스트에 포함된 단어에 대응되는 유사단어를 검출하고, 상기 단어 리스트에 포함된 단어와 상기 검출한 유사단어 간의 유사도를 검출하고, 상기 복수 개의 웹 문서 중 상기 검출한 유사단어를 포함하는 웹 문서를 검출하고, 상기 검출한 웹 문서에서 상기 검출한 유사단어가 발견된 횟수를 검출하고, 상기 검출한 웹 문서에서 상기 검출한 유사단어가 발견된 횟수 및 상기 검출한 유사단어 간의 유사도에 따라 상기 복수 개의 웹 문서간의 연관도를 산출하는 웹 자료 검색을 위한 데이터베이스 구축 방법.
  5. 제 1 항에 있어서,
    상기 단어 리스트를 생성하는 것은,
    상기 웹 문서를 문장 단위로 분리하고, 상기 분리한 문장의 형태소를 분석하여 상기 분리한 문장에 있는 단어를 추출하는 웹 자료 검색을 위한 데이터베이스 구축 방법.
  6. 제 5 항에 있어서,
    상기 단어 리스트를 생성하는 것은,
    상기 웹 문서의 각 문장에서 추출한 단어의 빈도수를 산출하고, 상기 웹 문서의 각 문장에서 추출한 단어의 빈도수가 높은 순대로 정렬하여 상기 단어 리스트를 생성하는 웹 자료 검색을 위한 데이터베이스 구축 방법.
  7. 제 1 항에 있어서,
    상기 데이터베이스에 저장된 정보를 고속으로 검색할 수 있도록 상기 단어 리스트에 포함된 단어에 대하여 인덱스를 생성하여 저장하는 것을 더 포함하는 웹 자료 검색을 위한 데이터베이스 구축 방법.
  8. 제 1 항에 있어서,
    사용자에 의해 상기 복수 개의 웹 문서 중 어느 하나가 탐색되면 상기 복수 개의 웹 문서간의 연관도에 따라 연관된 웹 문서가 함께 탐색되도록 상기 복수 개의 웹 문서간의 연관도에 따라 상기 복수 개의 웹 문서를 그룹핑하는 것을 더 포함하는 웹 자료 검색을 위한 데이터베이스 구축 방법.
  9. 제 8 항에 있어서,
    상기 복수 개의 웹 문서간의 연관도에 따라 상기 복수 개의 웹 문서를 그룹핑하는 것은,
    상기 사용자에 의해 상기 복수 개의 웹 문서 중 어느 하나가 탐색되면 상기 사용자에 의해 탐색된 웹 문서와 연관도가 높은 웹 문서부터 순차적으로 정렬되어 상기 사용자에게 제공되도록 상기 복수 개의 웹 문서를 상기 복수 개의 웹 문서간의 연관도에 따라 정렬하여 그룹핑하는 웹 자료 검색을 위한 데이터베이스 구축 방법.
  10. 웹 상에 있는 자료를 수집하여, 자료간의 연관성 정보와 함께 웹 상에 있는 자료를 저장하는 데이터베이스 구축 장치를 이용한 웹 자료 검색을 위한 데이터베이스 구축 방법에 있어서,
    웹 사이트에서 복수 개의 웹 문서를 수집하여 상기 복수 개의 웹 문서에 포함된 단어 간의 연관 정보를 기반으로 상기 복수 개의 웹 문서간의 연관도를 산출하고,
    사용자로부터 업데이트할 문서를 수신하고, 상기 사용자로부터 수신한 문서와 상기 복수 개의 웹 문서간의 연관도를 산출하고,
    상기 복수 개의 웹 문서간의 연관도 및 상기 사용자로부터 수신한 문서와 상기 복수 개의 웹 문서간의 연관도를 상기 복수 개의 웹 문서 및 상기 사용자로부터 수신한 문서에 색인하여 저장하고,
    상기 복수 개의 웹 문서에 포함된 단어 간의 연관 정보를 기반으로 상기 복수 개의 웹 문서간의 연관도를 산출하는 것은,
    복수 개의 웹 문서 중 어느 하나의 웹 문서에 포함된 단어의 빈도수를 산출하고, 상기 복수 개의 웹 문서중 어느 하나의 웹 문서에 포함된 단어와 동일한 단어를 포함하는 다른 웹 문서를 검출하며, 상기 복수 개의 웹 문서 중 어느 하나의 웹 문서에 포함된 단어와 동일한 단어를 포함하는 상기 다른 웹 문서에 상기 복수 개의 웹 문서 중 어느 하나의 웹 문서에 포함된 단어가 발견된 횟수를 검출하고, 상기 복수 개의 웹 문서 중 어느 하나의 웹 문서에 포함된 단어의 빈도수와 상기 복수 개의 웹 문서 중 어느 하나의 웹 문서에 포함된 단어와 동일한 단어를 포함하는 상기 다른 웹 문서에 상기 복수 개의 웹 문서 중 어느 하나의 웹 문서에 포함된 단어가 발견된 횟수와의 비율을 산출하며, 산출한 비율을 이용하여 상기 웹 문서 간의 연관도를 산출하는, 데이터베이스 구축 방법.
  11. 제 10 항에 있어서,
    상기 복수 개의 웹 문서에 포함된 단어 간의 연관 정보를 기반으로 상기 복수 개의 웹 문서간의 연관도를 산출하는 것은,
    상기 복수 개의 웹 문서를 문장 단위로 분리하고, 상기 문장 단위로 분리한 복수 개의 웹 문서의 형태소를 분석하여 상기 복수 개의 웹 문서에 포함된 단어를 추출하고, 상기 복수 개의 웹 문서간의 상기 추출한 단어의 중복지수에 따라 상기 복수 개의 웹 문서간의 연관도를 산출하는 데이터베이스 구축 방법.
  12. 삭제
  13. 제 11 항에 있어서,
    상기 복수 개의 웹 문서간에 연관된 단어가 포함된 횟수를 검출하는 것은,
    상기 복수 개의 웹 문서에서 추출한 단어와 유사한 의미를 갖는 단어가 대응되도록 기저장된 유사단어 데이터로부터 상기 복수 개의 웹 문서에서 추출한 단어에 대응되는 유사단어를 추출하고, 상기 복수 개의 웹 문서로부터 상기 유사단어가 포함된 횟수를 검출하는 데이터베이스 구축 방법.
  14. 제 10 항에 있어서,
    상기 사용자로부터 수신한 문서와 상기 복수 개의 웹 문서간의 연관도를 분석하는 것은,
    상기 사용자로부터 수신한 문서를 문장 단위로 분리하고, 상기 문장 단위로 분리한 복수 개의 웹 문서의 형태소를 분석하여 상기 사용자로부터 수신한 문서에 포함된 단어를 추출하고, 상기 복수 개의 웹 문서에 포함된 단어와 상기 사용자로부터 수신한 문서로부터 추출한 단어의 중복지수에 따라 상기 사용자로부터 수신한 문서와 상기 복수 개의 웹 문서간의 연관도를 분석하는 데이터베이스 구축 방법.
  15. 제 10 항에 있어서,
    사용자에 의해 상기 복수 개의 웹 문서 중 어느 하나가 탐색되면 상기 복수 개의 웹 문서간의 연관도에 따라 연관된 문서가 함께 탐색되도록 상기 복수 개의 웹 문서들간의 연관도 및 상기 사용자로부터 수신한 문서와 상기 복수 개의 웹 문서들간의 연관도에 따라 상기 복수 개의 웹 문서 및 상기 사용자로부터 수신한 문서를 그룹핑하는 것을 더 포함하는 데이터베이스 구축 방법.
  16. 제 15 항에 있어서,
    상기 복수 개의 웹 문서간의 연관도 및 상기 사용자로부터 수신한 문서와 상기 복수 개의 웹 문서간의 연관도에 따라 상기 복수 개의 웹 문서 및 상기 사용자로부터 수신한 문서를 그룹핑하는 것은,
    상기 사용자에 의해 상기 복수 개의 웹 문서 중 어느 하나가 탐색되면 상기 사용자에 의해 탐색된 웹 문서와 연관도가 높은 문서부터 순차적으로 정렬되어 상기 사용자에게 제공되도록 상기 복수 개의 웹 문서 및 상기 사용자로부터 수신한 문서를 상기 복수 개의 웹 문서간의 연관도 및 상기 사용자로부터 수신한 문서와 상기 복수 개의 웹 문서간의 연관도에 따라 정렬하여 그룹핑하는 데이터베이스 구축 방법.
  17. 제 10 항에 있어서,
    상기 사용자로부터 특정 단어를 수신하면 상기 특정 단어가 포함된 웹 문서를 검출하고, 상기 복수 개의 웹 문서간의 연관도에 따라 상기 특정 단어가 포함된 웹 문서와 연관된 웹 문서를 검출하고, 상기 특정 단어가 포함된 웹 문서 및 상기 특정 단어가 포함된 웹 문서와 연관된 웹 문서에 포함된 단어를 추출하고, 상기 특정 단어가 포함된 웹 문서 및 상기 특정 단어가 포함된 웹 문서와 연관된 웹 문서에 포함된 단어를 기반으로 사용자 단말에 저장되어 있는 문서와의 연관도를 산출하고, 상기 사용자 단말에 저장되어 있는 문서와의 연관도에 따라 상기 사용자 단말에 저장되어 있는 문서를 상기 데이터베이스에 저장하는 것을 더 포함하는 데이터베이스 구축 방법.
  18. 제 17 항에 있어서,
    상기 사용자 단말에 저장되어 있는 문서와의 연관도에 따라 상기 사용자 단말에 저장되어 있는 문서를 상기 데이터베이스에 저장하는 것은,
    상기 사용자 단말에 저장되어 있는 문서와의 연관도가 미리 정해진 연관도 이상인지 여부를 검출하고,
    상기 사용자 단말에 저장되어 있는 문서와의 연관도가 미리 정해진 연관도 이상이면 상기 사용자에게 상기 사용자 단말에 저장되어 있는 문서를 상기 데이터베이스에 저장할 것인지를 묻는 알림 메시지를 출력하고,
    상기 알림 메시지에 응답하여 상기 사용자로부터 저장 요청신호를 수신하면 상기 사용자 단말에 저장되어 있는 문서를 상기 데이터베이스에 저장하는 데이터베이스 구축 방법.
  19. 제 1 항, 제 4 항 내지 제 11 항, 제 13 항 내지 제 18 항 중 어느 하나의 항에 따라 데이터베이스를 구축하기 위한, 컴퓨터 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.
KR1020140138206A 2014-09-18 2014-10-14 데이터베이스 구축 방법, 이를 수행하기 위한 기록매체 KR102243286B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020140124131 2014-09-18
KR20140124131 2014-09-18

Publications (2)

Publication Number Publication Date
KR20160033563A KR20160033563A (ko) 2016-03-28
KR102243286B1 true KR102243286B1 (ko) 2021-04-22

Family

ID=57008253

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140138206A KR102243286B1 (ko) 2014-09-18 2014-10-14 데이터베이스 구축 방법, 이를 수행하기 위한 기록매체

Country Status (1)

Country Link
KR (1) KR102243286B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102170844B1 (ko) * 2018-03-14 2020-10-27 주식회사 산타 강의 관련 키워드를 기반으로 하는 강의 음성파일 텍스트 변환 시스템
KR102080409B1 (ko) * 2018-10-19 2020-02-21 주식회사 산타 강의 관련 키워드를 기반으로 하는 강의 음성파일 텍스트 변환 시스템

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002032411A (ja) 2000-07-18 2002-01-31 Fuji Xerox Co Ltd 関連文書検索方法および装置
KR101130535B1 (ko) 2004-04-30 2012-04-12 마이크로소프트 코포레이션 다양성과 정보 풍부성을 향상시키기 위해 서치 결과의문서들을 랭킹하기 위한 방법 및 시스템
JP2012194690A (ja) * 2011-03-15 2012-10-11 Ntt Comware Corp 特徴量算出装置、文書類似度算出装置、特徴量算出方法およびプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1153381A (ja) * 1997-08-01 1999-02-26 Toshiba Corp 類似文書検索装置および類似文書検索方法
KR100671284B1 (ko) 2004-09-17 2007-01-18 주식회사 코난테크놀로지 내용 기반 분류를 이용한 웹사이트 광고 제공 방법 및 그시스템
KR100863990B1 (ko) * 2006-11-28 2008-10-16 주식회사 오피엠에스 카테고리 광고 시스템 및 방법
KR101042445B1 (ko) * 2008-02-28 2011-06-16 엔에이치엔(주) 사이트 특성 단어를 이용한 연관 사이트 제공 방법 및 시스템
KR20090124301A (ko) 2008-05-29 2009-12-03 (주)쓰리소프트 검색어 연관 네트워크 서비스 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002032411A (ja) 2000-07-18 2002-01-31 Fuji Xerox Co Ltd 関連文書検索方法および装置
KR101130535B1 (ko) 2004-04-30 2012-04-12 마이크로소프트 코포레이션 다양성과 정보 풍부성을 향상시키기 위해 서치 결과의문서들을 랭킹하기 위한 방법 및 시스템
JP2012194690A (ja) * 2011-03-15 2012-10-11 Ntt Comware Corp 特徴量算出装置、文書類似度算出装置、特徴量算出方法およびプログラム

Also Published As

Publication number Publication date
KR20160033563A (ko) 2016-03-28

Similar Documents

Publication Publication Date Title
US20180300315A1 (en) Systems and methods for document processing using machine learning
US9317613B2 (en) Large scale entity-specific resource classification
US9158754B2 (en) Named entity extraction from a block of text
JP5746426B2 (ja) インデックスドキュメントの発見
US10152478B2 (en) Apparatus, system and method for string disambiguation and entity ranking
US20170212899A1 (en) Method for searching related entities through entity co-occurrence
US9251274B2 (en) Grouping search results into a profile page
Rosin et al. Learning word relatedness over time
US9165058B2 (en) Apparatus and method for searching for personalized content based on user's comment
KR101638535B1 (ko) 사용자 검색어 연관 이슈패턴 검출 방법, 이를 수행하는 이슈패턴 검출 서버 및 이를 저장하는 기록매체
KR101651780B1 (ko) 빅 데이터 처리 기술을 이용한 연관 단어 추출 방법 및 그 시스템
US8838580B2 (en) Method and system for providing keyword ranking using common affix
KR101541306B1 (ko) 컴퓨터 실행 가능한 중요 키워드 추출 방법, 이를 수행하는 중요 키워드 추출 서버 및 이를 저장하는 기록매체
US20150206101A1 (en) System for determining infringement of copyright based on the text reference point and method thereof
Kumar et al. From tweets to events: exploring a scalable solution for twitter streams
Bansal et al. Towards semantic retrieval of hashtags in microblogs
WO2015084757A1 (en) Systems and methods for processing data stored in a database
Alonso et al. Duplicate news story detection revisited
KR102243286B1 (ko) 데이터베이스 구축 방법, 이를 수행하기 위한 기록매체
KR102097118B1 (ko) 소셜 네트워크 서비스의 데이터 스트림에서 토픽 탐지 방법 및 그 장치
KR101402339B1 (ko) 문서 관리 시스템 및 문서 관리 방법
Erdoğan et al. From social media analysis to ubiquitous event monitoring: the case of Turkish tweets
KR100964207B1 (ko) 해시 기반 문서의 색인화 및 검색 방법 및 장치
KR102719536B1 (ko) 실시간 빅데이터 분석 시스템
CN108268552B (zh) 网站信息的处理方法及装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right