KR100557874B1 - 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체 - Google Patents

과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체 Download PDF

Info

Publication number
KR100557874B1
KR100557874B1 KR1020030101590A KR20030101590A KR100557874B1 KR 100557874 B1 KR100557874 B1 KR 100557874B1 KR 1020030101590 A KR1020030101590 A KR 1020030101590A KR 20030101590 A KR20030101590 A KR 20030101590A KR 100557874 B1 KR100557874 B1 KR 100557874B1
Authority
KR
South Korea
Prior art keywords
information
url
processor
analysis
database
Prior art date
Application number
KR1020030101590A
Other languages
English (en)
Other versions
KR20050070955A (ko
Inventor
배상진
강종석
이상필
김석진
정용일
박철균
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Priority to KR1020030101590A priority Critical patent/KR100557874B1/ko
Publication of KR20050070955A publication Critical patent/KR20050070955A/ko
Application granted granted Critical
Publication of KR100557874B1 publication Critical patent/KR100557874B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • G06Q50/60

Abstract

본 발명은 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터 프로그램을 저장한 기록매체에 관한 것으로, 정형필드의 한계를 극복하기 위하여 초록과 같은 비정형 필드를 분석 대상 필드로 확장하고, 분석대상 정보도 과학기술문헌 데이터베이스(DB)에 웹문서를 추가함으로써 정보분석시스템의 활용성을 높일 수 있는 장점이 있다.
이를 위한 본 발명에 의한 과학기술 정보분석 방법은, 다수의 정보원에서 정보분석 대상 기술영역에 관한 정보를 수집하는 정보수집 단계; 상기 수집된 정보 중에서 원하는 정보를 선별하고, 테스트마이닝, 데이터마이닝, 통계적 처리에 의해 정보를 1차 분석하고 분석된 결과를 가시화하는 지식추출 및 가시화 단계; 및 상기 1차로 분석한 결과를 가지고 전문가가 2차로 분석한 결과를 입력하고 입력된 2차 분석결과를 서비스 등록자의 이메일을 통해 자동으로 확산하는 단계;를 포함한다.

Description

과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터 프로그램을 저장한 기록매체{METHOD OF SCIENTIFIC INFORMATION ANALYSIS AND MEDIA THAT CAN RECORD COMPUTER PROGRAM THEREOF}
도 1은 종래기술에 따른 과학기술 정보분석 방법을 설명하기 위한 구성도
도 2는 본 발명에 의한 과학기술 정보분석 방법을 설명하기 위한 구성도
도 3은 본 발명에 의한 정보분석 결과물 확산 방법을 설명하기 위한 흐름도
본 발명은 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터 프로그램을 저장한 기록매체에 관한 것으로, 특히 정형필드의 한계를 극복하기 위하여 초록과 같은 비정형 필드를 분석 대상 필드로 확장하고, 분석대상 정보도 과학기술문헌 데이터베이스(DB)에 웹문서를 추가함으로써 정보분석시스템의 활용성을 높일 수 있는 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터 프로그램을 저장한 기록매체에 관한 것이다.
과학기술문헌 발간량이 꾸준히 증가하고 인터넷을 통해 입수할 수 있는 정보가 과잉상태에 도달함에 따라 오히려 정보를 통해 연구동향을 파악하고, 이를 통해 기업간 경쟁력을 확보하고, 연구개발 방향을 대세에 맞추어 설정하고, 미래의 도전에 대비해야 하는 사람들에게는 오히려 역기능으로 작용하고 있다.
정보이용자가 모든 정보 출처에서 개인의 지식과 경험을 토대로 정보를 입수하고 분석하는 전통적인 정보분석 방법은 전문가의 시간 과다 소요, 전문가의 관점에 따라 편향된 정보수집과 분석 진행 등의 단점을 내포하고 있다.
이러한 단점을 개선하기 위한 하나의 방편으로서 사람이 하는 일의 일부를 컴퓨터가 대행해주는 정보분석시스템 개발에 대한 연구가 진행되고 있다. 현재까지 제안된 정보분석시스템은 정형 데이터베이스(DB)를 이용하여 특정 주제에 대한 검색한 결과를 필드의 정량적 분석 등을 통하여 기술동향을 분석하는 시스템으로서 정보 분석자의 정성적 분석을 보조하는 수단으로 활용되고 있다.
정보분석시스템은 대상 정보에 따라 기술문헌 데이터베이스(DB) 분석시스템과 특허분석시스템으로 구분할 수 있다.
한국과학기술정보연구원(KISTI)에서 개발한 KITAS는 전자의 대표적인 시스템으로서 우리나라에서는 유일하게 개발되어 실제 정보분석업무에 적용되고 있는 시스템으로서 과학기술문헌 데이터베이스(DB)와 특허 데이터베이스(DB)를 분석대상으로 하며, 정형화된 필드를 계수하여 연도별로 추이를 분석하는 시스템이다. KITAS와 같이 정형 필드만을 분석대상으로 하는 시스템은 웹문서와 같이 구조화되어 있지 않거나, 문서의 발생연도를 포함하지 않고 있는 정보를 분석하는데는 한계가 있다
따라서, 본 발명은 상기 문제점을 해결하기 위하여 이루어진 것으로, 본 발명의 목적은 정형필드의 한계를 극복하기 위하여 초록과 같은 비정형 필드를 분석 대상 필드로 확장하고, 분석대상 정보도 과학기술문헌 데이터베이스(DB)에 웹문서를 추가함으로써 정보분석시스템의 활용성을 높일 수 있는 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터 프로그램을 저장한 기록매체를 제공하는데 있다.
또한, 본 발명의 다른 목적은 정보추출, 텍스트마이닝을 통한 분류, 키워드 추출, 코워드(CO-word) 분석 등을 적용하여 웹 문서를 시스템적으로 분석하고 분석 결과를 종류별로 다양하게 자동 통지할 수 있는 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터 프로그램을 저장한 기록매체를 제공하는데 있다.
또한, 본 발명의 또 다른 목적은 분야별로 유용한 웹사이트와 기술문헌 데이터베이스(DB)에서 가치 있는 정보를 선별하고, 분석 재가공하여 새로운 유용한 정보를 생성하고, 이를 필요로 하는 사람에게 주기적으로 전달할 수 있는 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터 프로그램을 저장한 기록매체를 제공하는데 있다.
상기 목적을 달성하기 위한 본 발명에 의한 과학기술 정보분석 방법은, 다수의 정보원에서 정보분석 대상 기술영역에 관한 정보를 수집하는 정보수집 단계; 상기 수집된 정보 중에서 원하는 정보를 선별하고, 테스트마이닝, 데이터마이닝, 통계적 처리에 의해 정보를 1차 분석하고 분석된 결과를 가시화하는 지식추출 및 가시화 단계; 및 상기 1차로 분석한 결과를 가지고 전문가가 2차로 분석한 결과를 입력하고 입력된 2차 분석결과를 서비스 등록자의 이메일을 통해 자동으로 확산하는 단계;를 포함한다.
여기서, 상기 정보수집 단계는, 인터넷상의 정보수집을 위해 사용되는 하나의 에이전트로서, 서버에 상주하면서 사용자와 직접적인 상호작용 없이 사용자를 대신해서 작업을 수행하여 인터넷상에서 분산된 온라인 정보를 순회하며 정보를 수집하는 웹 로봇(Web Robot)과, 데이터의 형태가 서로 다른 다수의 과학기술문헌 데이터베이스(DB)에서 동시에 정보를 검색하고 검색된 결과를 단일 형태로 변환해 주는 정보검색 에이전트를 이용하여 정보를 수집하여 데이터베이스(DB)에 저장하는 단계; 및 상기 웹문서 데이터베이스(DB)와 기술문헌 데이터베이스(DB)에 저장된 정보를 대상으로 문서를 수집하고 색인(indexing)하며 검색 가능한 기반 구조체를 구성하는 단계;를 포함한다.
그리고, 상기 웹 로봇 프로그램은, 사용자로부터 시작 URL(Uniform Resource Locator)을 입력받아 접근 주소를 추출하고 이를 기반으로 웹 서버에 접근하여 해당 데이터를 수집하는 것을 특징으로 한다.
또한, 상기 웹 로봇 프로그램은 로봇관리, URL 분석, 데이터베이스(DB) 관리, 로그관리 모듈을 포함하는 것을 특징으로 한다.
또한, 상기 웹 로봇 프로그램의 동작과정은, 시스템 정보를 수집하고 사용자가 입력한 다양한 설정사항을 통해 상기 웹 로봇의 동작에 필요한 설정을 수행하는 제 1 단계; 로봇 에이전트(Robot Agent) 프로그램을 실행하는 제 2 단계; URL의 호스트 이름을 추출하여 텍스트 파일의 URL을 접근하는 제 3 단계; 상기 텍스트 파일의 내용을 받는 제 4 단계; 상기 텍스트 파일 내용을 분석하여 그 호스트에서 접근하지 말아야 할 URL을 알아내는 제 5 단계; 상기 제 5 단계에서 주어진 URL이 텍스트 파일에 접근하지 말아야 할 URL이라고 적혀져 있지 않다면 다시 URL로 접근하는 제 6 단계; 상기 제 4 단계와 같은 방법으로 해당 URL의 내용을 받는 제 7 단계; 상기 제 7 단계에서 전달받은 파일을 분석하여 URL을 추출하는 제 8 단계; 상기 추출한 URL을 다음 방문 때 참조할 수 있도록 URL 데이터베이스에 저장하는 제 9 단계; 상기 제 7 단계에서 전달받은 파일을 분석하여 키워드를 추출하고 필요한 정보를 저장하는 제 10 단계; 및 상기 URL 데이터베이스에서 다음 방문할 URL을 가지고 상기 제 3 내지 제 10 단계를 반복하는 제 11 단계;를 포함한다.
또한, 상기 제 2 단계에서 상기 로봇 에이전트(Robot Agent) 프로그램 실행시 처음에 접근을 시도할 URL은 사용자가 입력한 자료를 사용하는 것을 특징으로 한다.
또한, 상기 제 8 단계에서 상대 URL을 절대 URL로 변환하는 것을 특징으로 한다.
또한, 상기 제 9 단계에서 상기 URL을 상기 URL 데이터베이스에 저장할 때 몇 개의 URL을 추측하여 함께 저장하는 것을 특징으로 한다.
또한, 상기 제 9 단계에서 상기 URL을 상기 URL 데이터베이스에 저장할 때 이미 등록된 URL인지 아닌지 검사하여 중복되지 않도록 하는 것을 특징으로 한다.
상기 목적을 달성하기 위한 본 발명에 의한 과학기술 정보분석 방법에 대한 컴퓨터 프로그램을 저장한 기록매체는, 다수의 정보원에서 정보분석 대상 기술영역에 관한 정보를 수집하는 정보수집 단계; 상기 수집된 정보 중에서 원하는 정보를 선별하고, 테스트마이닝, 데이터마이닝, 통계적 처리에 의해 정보를 1차 분석하고 분석된 결과를 가시화하는 지식추출 및 가시화 단계; 및 상기 1차로 분석한 결과를 가지고 전문가가 2차로 분석한 결과를 입력하고 입력된 2차 분석결과를 서비스 등록자의 이메일을 통해 자동으로 확산하는 단계;를 포함한다.
여기서, 상기 정보수집 단계는, 인터넷상의 정보수집을 위해 사용되는 하나의 에이전트로서, 서버에 상주하면서 사용자와 직접적인 상호작용 없이 사용자를 대신해서 작업을 수행하여 인터넷상에서 분산된 온라인 정보를 순회하며 정보를 수집하는 웹 로봇(Web Robot)과, 데이터의 형태가 서로 다른 다수의 과학기술문헌 데이터베이스(DB)에서 동시에 정보를 검색하고 검색된 결과를 단일 형태로 변환해 주는 정보검색 에이전트를 이용하여 정보를 수집하여 데이터베이스(DB)에 저장하는 단계; 및 상기 웹문서 데이터베이스(DB)와 기술문헌 데이터베이스(DB)에 저장된 정보를 대상으로 문서를 수집하고 색인(indexing)하며 검색 가능한 기반 구조체를 구성하는 단계;를 포함한다.
그리고, 상기 웹 로봇 프로그램은, 사용자로부터 시작 URL(Uniform Resource Locator)을 입력받아 접근 주소를 추출하고 이를 기반으로 웹 서버에 접근하여 해당 데이터를 수집하는 것을 특징으로 한다.
그리고, 상기 웹 로봇 프로그램은 로봇관리, URL 분석, 데이터베이스(DB) 관리, 로그관리 모듈을 포함하는 것을 특징으로 한다.
또한, 상기 웹 로봇 프로그램은, 시스템 정보를 수집하고 사용자가 입력한 다양한 설정사항을 통해 상기 웹 로봇의 동작에 필요한 설정을 수행하는 제 1 프로세서; 로봇 에이전트(Robot Agent) 프로그램을 실행하는 제 2 프로세서; URL의 호스트 이름을 추출하여 텍스트 파일의 URL을 접근하는 제 3 프로세서; 상기 텍스트 파일의 내용을 받는 제 4 프로세서; 상기 텍스트 파일 내용을 분석하여 그 호스트에서 접근하지 말아야 할 URL을 알아내는 제 5 프로세서; 상기 제 5 프로세서에서 주어진 URL이 텍스트 파일에 접근하지 말아야 할 URL이라고 적혀져 있지 않다면 다시 URL로 접근하는 제 6 프로세서; 상기 제 4 단계와 같은 방법으로 해당 URL의 내용을 받는 제 7 프로세서; 상기 제 7 단계에서 전달받은 파일을 분석하여 URL을 추출하는 제 8 프로세서; 상기 추출한 URL을 다음 방문 때 참조할 수 있도록 URL 데이터베이스에 저장하는 제 9 프로세서; 상기 제 7 프로세서에서 전달받은 파일을 분석하여 키워드를 추출하고 필요한 정보를 저장하는 제 10 프로세서; 및 상기 URL 데이터베이스에서 다음 방문할 URL을 가지고 상기 제 3 내지 제 10 프로세서를 반복하는 제 11 프로세서;를 포함한다.
여기서, 상기 제 2 프로세서에서 상기 로봇 에이전트(Robot Agent) 프로그램 실행시 처음에 접근을 시도할 URL은 사용자가 입력한 자료를 사용하는 것을 특징으로 한다.
그리고, 상기 제 8 프로세서에서 상대 URL을 절대 URL로 변환하는 것을 특징으로 한다.
또한, 상기 제 9 프로세서에서 상기 URL을 상기 URL 데이터베이스에 저장할 때 몇 개의 URL을 추측하여 함께 저장하는 것을 특징으로 한다.
또한, 상기 제 9 프로세서에서 상기 URL을 상기 URL 데이터베이스에 저장할 때 이미 등록된 URL인지 아닌지 검사하여 중복되지 않도록 하는 것을 특징으로 한다.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
이하, 본 발명의 실시예를 첨부도면을 참조하여 상세히 설명하기로 한다.
도 2는 본 발명에 의한 과학기술 정보분석 방법을 설명하기 위한 구성도이다.
상기 과학기술 정보분석 시스템은 도시된 바와 같이, 정보수집 단계(100), 지식추출 및 가시화 단계(1차 분석)(200), 2차 분석 및 확산 단계(300)로 이루어진다.
(1) 정보 발굴 (investigation)
본 발명에서 다루는 ‘정보경향의 탐지 및 우량 정보 사이트 발굴’을 위한 웹 정보의 참고 구조 분석에서는 기본적으로 구글(Google)이 사용하고 있는 페이지 등급(PageRank)을 활용한다. 일반적으로 웹 문서는 다른 웹 문서로 연결하기 위한 포워드(forward) 링크와 다른 웹 문서들로부터 연결되는 백워드(backward) 링크들을 갖는다.
일반적으로 보다 많은 수의 웹 문서들로부터 참조되고 있는, 즉 백워드(backward) 링크들을 가진 웹 문서가 적은 수의 백워드(backward) 링크를 가지고 있는 웹 문서보다 중요한 문서라는 가정은 웹 문서들 마다 백워드(backward) 링크의 빈도수만을 고려하는 문제를 야기한다. 그러나 본 발명에서는 백워드(backward) 링크의 웹 문서가 다른 백워드(backward) 링크의 웹 문서보다 큰 중요도를 가질 경우도 함께 고려하며 또한 페이지 등급(PageRank) 값의 수렴이 쉽게 이루어지지 않는 문제인 '페이지 싱크(page sink)' 문제를 해결하기 위하여 구글(Google)에 적용된 페이지 등급(PageRank)을 수정하여 사용한다.
기본적인 페이지 등급(PageRank) 알고리즘은 웹 문서에 대한 페이지 등급(PageRank) 값을 구하기 위해 우선 백워드(backward) 링크들을 가지고 있는 웹 문서들을 찾고, 이들의 페이지 등급(PageRank) 값을 포워드(forward) 링크의 수로 나눈 값들의 합을 구한다. 즉, 높은 페이지 등급(PageRank) 값을 갖는 웹 문서로부터의 백 워드(backward) 링크를 가질 경우 구하려는 웹 문서의 페이지 등급(PageRank) 값에 유리하게 되며, 이것은 백워드(backward) 문서의 포워드(forward) 링크들의 수에 의해서 상쇄된다. 다른 웹 문서들에 영향을 주는 웹 문서의 페이지 등급(PageRank) 값은 문서가 갖는 포워드(forward) 링크들에게 균등하게 나누어진다. 아래의 식은 기본적인 페이지 등급(PageRank) 값을 구하는 과정을 간단하게 표현하고 있다. 매개변수 는 모든 웹 문서들에 대한 전체 페이지 등급(PageRank)들의 합이 상수가 되도록 정규화 하기 위하여 사용되는 정규화 상수이다.
Figure 112003051062630-pat00001
수정된 페이지 등급 알고리즘은 아래와 같이 기본적인 페이지 등급(RageRank)에서 운동량(mometum)값 θ를 추가로 고려하여 링크의 순위를 다시 한번 조정하며 운동량(momentum) 값은 문서집합에 대한 기계학습 기법을 이용하여 계산한다.
Figure 112003051062630-pat00002
(2) 정보수집용 로봇 에이전트(Robot Agent)
웹 로봇(Web Robot)은 인터넷상의 정보수집을 위해 사용되는 하나의 에이전트로서 서버에 상주하면서 사용자와 직접적인 상호작용 없이 사용자를 대신해서 작업을 수행하여 인터넷상에서 분산된 온라인 정보를 순회하며 정보를 수집하는 프로그램이다.
웹 로봇은 서버에 접속하여 마크업 언어(Markup Language)로 작성된 파일은 물론 다양한 형태의 파일을 가져오는(Fetch) 기능적인 측면으로만 봐서는 웹 브라우저와 같은 기능을 하는 셈이다. 웹 브라우저는 가져온 데이터를 화면에 보여주고, 사용자가 링크를 클릭하면 홈페이지로 이동, 연결된 기능만을 수행한다. 그러 나 웹 로봇 에이전트는 브라우저를 통해 디스플레이를 하는 대신 해당 파일을 분석하고, 문서내에 나타난 URL(Uniform Resource Locator) 부분을 추출한 후 다른 URL로 접근하여 필요한 데이터를 수집한다.
웹 로봇은 자동적으로 홈페이지를 순회하므로 웹 로봇을 이용하면 사람이 하기 귀찮은 다양한 정보 수집을 보다 빠르게 수행할 수 있다. 가령 어느 홈페이지의 내용이 내가 원하는 내용이지만 링크 되어 있는 문서가 굉장히 많고 문서 안에 수많은 그림들이 있을 때 과연 모니터 앞에 앉아 하나씩 저장하는 과정이 필요한 것인가 또는 홈페이지의 관리자가 자신이 관리하는 홈페이지를 하나씩 접속해 보면서 잘못된 URL이 있으면 찾아가서 일일이 고칠 것인가 하는 등의 문제를 웹 로봇을 통해 보다 효율적으로 처리할 수 있다.
웹 로봇은 이와 같이 웹 페이지를 돌아다니면서 할 수 있는 다양한 일들을 효율적이고 자동적으로 해 주는데 의미가 있다. 현재 웹 로봇을 이용한 검색엔진의 경우도 사람이 일일이 찾아 다니면서 검색을 위한 인덱스를 만드는 것이 아니라 웹 로봇에 의해 자동적으로 수집된 자료를 대상으로 색인하여 검색 서비스를 제공하는 것이다.
일반적인 웹 로봇 기능별 구성을 통해 일반적으로 문서 수집을 위해 사용되는 웹 로봇의 구성요소별 기능을 살펴보도록 하겠다. 자료수집을 위해 사용되는 웹 로봇은 사용자로부터 시작 URL을 입력 받아 접근 주소를 추출하고 이를 기반으로 웹 서버에 접근하여 해당 데이터를 수집하는데 사용된다. 웹 로봇의 주요 구성요소는 로봇관리, URL 분석, 데이터베이스(DB) 관리, 로그관리 모듈로 구성되어 있 다.
자료 수집을 위한 일반적인 웹 로봇의 동작과정을 살펴보면 다음과 같다.
1) 웹 로봇의 시작
① 시스템 정보를 수집하고 사용자가 입력한 다양한 설정사항을 통해 웹 로봇의 동작에 필요한 설정을 수행한다.
② 로봇 에이전트(Robot Agent) 프로그램을 실행한다. 이때 기본적으로 처음에 접근을 시도할 URL은 사용자가 입력한 자료를 사용한다.
2) URL에 접근하여 분석 및 추출
③ URL의 호스트 이름(예를 들어, 'http://www.www-kr.org/~userid'가 주어진 URL이라면 이중에서 'www.www-kr.org')을 추출하여 'http://호스트이름/robots.txt'의 URL을 접근한다.
④ robots.txt 파일의 내용을 받는다.
⑤ robots.txt의 파일 내용을 분석하여 그 호스트에서 접근하지 말아야 할 URL을 알아낸다.
⑥ 만약 주어진 URL이 robots.txt에 접근하지 말아야 할 URL이라고 적혀져 있지 않다면, 다시 URL로 접근한다.
⑦ ④번과 같은 방법으로 해당 URL의 내용을 받는다.
⑧ ⑦번에서 전달받은 파일을 분석하여 URL을 추출한다. 이때에는 상대 URL과 절대 URL로 나뉘는데 모든 URL을 절대 URL로 변환한다. 즉, 상대 URL(/dir/index.html)을 절대 URL(http://호스트이름/dir/index.html)로 바꾼다.
3) URL 관리
⑨ 추출한 URL은 다음 방문때 참조할 수 있도록 URL 데이터베이스에 저장한다. 또한 URL 데이터베이스에 저장할 때에는 몇 개의 URL을 추측하여 함께 저장하기도 한다. 가령 'http://host/dir/subdir/file.html'이 저장할 URL이라면, 그 URL 뿐만 아니라 'http://host/dir/subdir/', 'http://host/dir/', 'http://host/'도 홈페이지의 내용이 있으리라고 추측이 가능하다.
⑩ 마지막으로 URL 데이터베이스에 추출한 URL을 저장할 때에는 이미 등록된 URL인지 아닌지 검사하여 중복이 안되도록 한다.
⑪ ⑦ 번에서 전달받은 파일을 분석하여 키워드를 추출하고 필요한 정보를 저장한다.
4) 반복 수행
⑫ URL 데이터베이스에서 다음 방문할 URL을 가지고 2 ~ 3의 과정을 반복한다.
(3) 정보검색 (information retrieval)
특정 데이터 집합을 대상으로 문서를 수집하고 색인(indexing)하며 검색이 가능한 기반 구조체를 구성하는 단계이다. 이러한 과정은 구글(Google)이나 네이 버(Naver)와 같은 일반적인 범용 정보검색 엔진이 사용하는 단계와 같다. 이러한 정보검색 단계에서는 대상 문서를 전처리 하여 주어진 질의에 대하여 효율적으로 관련문서를 검색할 수 있도록 색인파일을 구성하고 문서와 질의 간의 유사도 평가를 위한 문서비교 모델을 구성한다. 색인을 위한 문서의 표현은 일반적으로 정보검색에서 널리 쓰이는 TFIDF(Term Frequency Inverse Document Frequency)를 이용한 표현이 이용된다. 표현된 문서에 대하여 문서간 유사도 등을 계산하기 위하여 널리 사용되는 방법으로 문서를 이진벡터공간(binary vector space)에 표현해 두고 그때그때 입력되는 질의도 문서로 고려하여 같은 공간으로 변환한 후 각 문서들과 현재 주어진 질의와의 연관성을 코사인 유사도(cosine similarity)를 이용하여 구하는 모델을 예로 들 수 있다. 문서집합에서 특정 문서와 주어진 질의문는 아래와 같이 두 문서간의 코사인 유사도(cosine similarity)를 구한다.
Figure 112003051062630-pat00003
Figure 112003051062630-pat00004
(4) 텍스트마이닝(Text Mining): 정보추출 및 문서 필터링(information extraction and filtering)
지식추출 및 가시화 단계에서는 정보검색 방법론을 이용하여 검색된 문서집합에 대하여 보다 구체적인 정보 획득 방법을 적용하는 단계이다.
선택된 대량의 문서집합에서 원하는 정보를 선별하여 추출하는 데에는 마이 닝(mining)이라는 과정이 사용될 수 있으며, 자연언어 처리 기법을 활용한 정보추출(information extraction)의 과정을 적용할 수 도 있다.
이러한 과정을 수행하기 위해서는 먼저 검색된 문서집합에서 주어진 주제 또는 질의문과 연관된 문서만을 선별하는 작업을 적용할 수 있으며 이러한 과정은 시스템이 주어지는 주제에 대하여 처리해야 하는 문서 집합의 크기를 상당히 줄일 수 있기 때문에 꼭 필요한 단계라 할 수 있다.
일반적인 정보검색 환경에서 이러한 작업은 정보 여과(information filtering)으로 언급되며 매우 다양한 학습 기법들이 제시되어 있다.
(5) 기계학습 (machine learning)
앞에서 도식화 한 정보경향의 탐지 및 우량 정보 사이트 발굴을 위한 시스템에서 기계학습 단계는 시스템의 자동화 및 성능의 향상에 관여하게 된다. 일반적으로 ETD(Emerging Trend Detection) 시스템은 완전 자동(fully automatic) 시스템과 반자동(semi-automatic) 시스템으로 분류되는데 시스템의 이러한 분류는 시스템에서 사용하는 학습 모듈의 종류와 깊은 연관성을 가지는 경우가 많다.
완전자동 시스템은 대상 문헌집합(corpus)을 입력으로 받아 사용자의 개입이 없는 학습을 수행한 후 주제목록(topic list)을 나열해 준다. 이후 이렇게 제시된 주제를 전문가(human reviewer)가 정말 어떠한 주제가 새로이 주목받고 있는 정보인지 또는 전체 정보 사이트들 중에서 주어진 정보를 가장 근원적으로 제공하는 허브 사이트(hub site)는 어떤 사이트들인지 판달 할 수 있도록 해준다. 최종적으로 시스템은 전문가의 판단 결과를 다시 시스템 입력의 한 형태로 받아들여 내부 학습 모델의 조정을 수행한다. 이러한 시스템에는 무감독학습(unsupervised learning)에 속하는 학습 방법을 적용할 수 있다.
반면, 반자동 시스템은 사용자의 입력에 어느 정도 의존하는 시스템으로 볼 수 있다. 완전 자동 시스템과 달리 반자동 시스템은 사용자에 의해 주어진 분류(class)에 대하여 대상 문서를 군집화 하거나 분석하는 과정을 수행하며 사용자에 의해 주어지는 분류 정보는 대상문서에 관한 분류정보나 문서를 군집화 하여 결국 추출해야 하는 주제에 관한 분류 정보가 될 수 있다. 이러한 반자동 시스템의 구현에는 사용자의 입력을 활용하여 충분한 학습 효과를 얻을 수 있는 감독학습(supervised learning) 방법을 적용하는 것이 효과적이다. 일반적으로 반자동 시스템은 사용자가제시한 분류 그룹에 대한 수행 결과와 함께 결과의 판단에 도움이 되는 증거자료(evidence)를 함께 출력하도록 구성한다.
(6) 통계분석 (statistical analysis)
통계분석의 단계는 시스템의 분석 결과와 전처리가 끝난 데이터에 대하여 직접적인 분석을 수행하는 단계이다. 대표적인 통계분석 단계로 데이터마이닝(data mining) 과정을 들 수 있다. 데이터마이닝에서는 대량의 데이터에 대한 다양한 계수작업을 수행해야 하기 때문에 통계적인 접근이 필수적이다.
데이터마이닝은 대량의 데이터들로부터 유용한 정보를 얻어내는 과정을 의미한다. 이러한 과정은 KDD(Knowledge Discovery in Database)과정이라고도 표현되며 거대한 데이타 집합(Database)에서 유용한 지식을 획득(Knowledge Discovery)하는 과정을 표현하는 용어로 사용된다. 이러한 과정은 대량의 데이터에서 선택한 특정 정보가 유용한 지식인지 아닌지를 판단하여 법칙(rule)으로 규정할지를 정해야 하기 때문에, 상호 대화적(interactive)이며 반복적인 특성을 지닌다.
본 발명의 응용에서는 시스템에 의하여 탐지된 특정 정보에 대하여 검색을 통하여 얻어진 대량의 데이터를 분석하여 해당 정보가 허브 사이트(hub site)에서 기인한 것인지를 판단하는데 활용할 수 있으며 최종적으로 유용한 정보 항목을 가장 많이 보유한 웹 사이트를 해당 정보 분야의 잠재적인 우량 정보 사이트로 분류할 수 있다.
이와 같은 데이터마이닝은 앞서 설명한 시스템의 중요 단계들 중 세 번째 단계인 기계학습(machine learning)에 기반 한다. 기계학습 기법 여러 가지 통계적 연산을 기본 요소로 하여 주어진 데이터에서 규칙을 찾아내기 위한 자동화된 유도과정(inductive process)이라 볼 수 있으며 결국 데이터마이닝 모듈을 구성하는데 중요한 요소로 작용한다.
본 모듈에서의 통계학은 데이터마이닝을 효율적으로 수행할 수 있도록 하기 위한 '모델 선택'에 중점을 갖는다. 즉, 통계학은 분석의 역할을 하고 데이터마이닝은 분석이 아니라 데이터마이닝의 결과를 중심으로 더욱 직접적인 분석을 수행한다.
데이터마이닝을 위한 지식 발견의 절차(KDD Process)는 일반적으로 ①영역(domain)의 이해, ②데이터 집합의 준비, ③패턴을 발견(데이터 마이닝), ④ 발견된 패턴에 대한 후처리(postprocessing), ⑤결과의 활용의 과정 포함한다. 통계분석 단계에서는 이러한 데이터마이닝 과정을 거쳐 대상 데이터 및 데이터의 주요 인자에 대하여 크게 다음과 같은 분석을 할 수 있다.
- 특성화(characterization)
데이터 집합의 일반적 특성을 분석한 것으로 일반화 및, 세분화 과정에 의한 자료 요약 과정을 거쳐 특성 규칙을 발견한다.
- 분류화(classification)
다른 클래스에 대한 차별적인 특성을 추출한다. 이와 같은 차별적인 특성은 소속 클래스를 알 수 없는 미지의 객체가 있을 때, 그 소속 클래스를 결정하는데 활용된다.
- 군집화(clustering)
유사한 특성을 갖는 데이터들을 묶는 분석법으로 인공지능 분야에서 분류는 감독 학습임에 반해 클러스터링은 비감독 학습으로 불린다. 감독학습이란 감독자가 자료를 집단별로 구분해 놓고 분류기준은 컴퓨터 프로그램이 학습에 의하여 발견하도록 하는 방법이다. 비감독학습은 감독이 없이 모델 시스템 스스로가 자료집단의 유사성을 바탕으로 집단을 나누어 나가는 방식이다.
- 연관규칙의 탐사(association)
여러 개의 트랜잭션들 중에서 동시 발생하는 트랜잭션의 연관관계를 발견하는 것으로 규칙발견에 사용한 측정값은 연관성의 신뢰 요인으로 사용된다.
- 경향분석(trend analysis)
시계열 데이터(주식, 물가, 판매량, 과학적 실험 데이타)들이 시간 축으로 변하는 전개과정을 특성화하여 동적으로 변화하는 데이터의 분석을 수행한다. 본 응용에서 새로운 정보 경향을 탐지하는데 사용될 수 있다.
- 패턴 분석(pattern analysis)
대용량 데이터베이스 또는 데이터 집합에서 명시된 패턴을 찾는 것으로 정보추출 등의 보다 세부적인 자료의 분석에 활용 할 수 있다.
(7) 가시화 및 정보 구조분석 (visualization and analysis)
가시화 및 정보 분석 단계는 시스템이 내부의 추출 및 추론 모델을 이용하여 도출한 결과를 사용자 인터페이스를 이용하여 최종 의사결정을 담당하는 전문가에게 제시해 주는 단계이다. 대부분의 정보경향의 탐지를 수행하기 위한 모델 시스템들은 모델의 추론 결과를 효율적으로 표현하기 위한 단계를 가지고 있다. 본 발명에서 다루고자 하는 ‘정보경향의 탐지 및 우량 정보 사이트 발굴’ 시스템의 다섯 번째 모듈인 가시화 단계에서는 새로운 정보 동향의 감지 후 해당 주제에 관한 일반 웹 검색을 통해 제공된 검색 결과 문서집합의 상호 참조구조를 분석해 전체 정보의 대부분을 대표할 수 있는 우량 정보를 제공 사이트를 보다 직관적인 방법으로 탐지할 수 있도록 해주기 위한 단계이다.
이와 같은 가시화 응용은 다양한 분야에 걸쳐 시도되고 있으며, 특히 대량의 문서집합에서 사용자가 지정한 특정 정보 요소들을 언어처리기법 등을 이용하여 추출한 후 기계학습 알고리즘을 이용한 추론 등을 적용하여 보다 고급화 된 정보 요 소로 가시화 하는 접근 방법은 생물학 분야를 대상으로 실현된 예가 이미 존재한다.
(8) 정보추출
정보추출이란 한 문서에서 그 문서의 중심적 의미를 나타내는 특정 구성요소를 인식하여 추출하는 작업을 가리킨다. 추출된 정보는 필드 제한검색, 마이닝 적용 등에 의해 가용성을 높이기 위하여 데이터베이스에 필드별로 저장하게 된다.
최근 인터넷이 발달하면서 디지털 정보의 출판이 용이해지면서 많은 양의 디지털 정보에 대한 접근이 용이해지고 있지만, 이로 인한 정보 과부하(information overload)의 문제는 사용자들로 하여금 정보를 탐색하고 해득하기 어렵게 만들고 있다. 여러 문서에서 필요한 정보만을 추출해서 하나의 통합 인터페이스를 통해 사용자에게 제공할 필요성이 대두되었다.
정보검색이 대용량의 문서집합으로부터 사용자의 질의에 맞는 문서집합을 찾아내는 것으로 정의한다면, 정보추출은 사용자의 관심사에 적합한 문서들로부터 어떤 구체적인 사실이나 관계를 정확히 추출해내는 작업을 의미한다. 인터넷의 정보 과부하는 특정주제에 관한 정보를 추출하여 체계적으로 관리하는 방향으로 정보처리기술의 발전을 유도하고 있다.
특히 웹(Web) IE는 인터넷의 HTML(HyperText Markup Language; 하이퍼펙스트 마크업 언어) 문서를 데이터베이스 엔트리(database entries)로 변환한다.
본 발명은 텍스트 문서에서의 정보추출을 다룬다. 정보추출의 관점에서 텍 스트 문서는 구조화되지 않은(unstructured) 문서, 준구조화된(semi-structured) 문서, 구조화된(structured) 문서의 형태로 구분할 수 있다.
첫째, 구조화되지 않은 문서는 어떤 일정한 형식 없이 정보를 표현하는 방식으로 일반 텍스트의 경우 구조화 되지 않은 문서라 할 수 있다. 둘째, 준구조화된 문서는 일부 정보는 구조화 되어있고 다른 일부는 비구조화 문서로 이루어지 문서를 말한다. 셋째, 구조화된 문서는 정보를 테이블 형태와 같이 일정한 구조로 표현한 문서이다. 일반적인 웹상의 문서들은 구조화되지 않은 문서들이지만, 특정 도메인의 정보검색을 위한 문서들은 준구조화 문서로 볼 수 있다.
(1) 정보수집
정보수집(Information Gathering)이란 여러 정보원에서 정보분석 대상 기술영역(domain)에 관한 정보를 수집하는 일련의 행위이다.
정보수집의 순서는 [정보분석의 목적 정의 및 대상기술영역 선정] → [개념 및 주제분석] → [정보원 선정] → [탐색 주제어 선정] → [탐색식 작성] → [탐색 수행] → [결과 분석] → [종료 또는 재 탐색]의 일련의 과정으로 나누어 볼 수 있다.
먼저 정보분석 대상 기술영역이 정해지면 주제나 내용 분석을 통하여 정보수집 범위 및 내용을 명확히 하여야 한다. 주제에서 벗어나면 시간과 비용이 낭비되므로 주제 분석을 통해 적합한 키워드(표준 용어를 중심으로)를 추출하는 작업이 무엇보다도 중요하다.
정보 수집의 거의 전 과정에서 분석 대상 기술영역의 전문가의 지식이 반영되어야 하는데, 특히 키워드 리스트를 만드는 과정에서의 역할이 요구된다. 정보검색의 정확도를 높이기 위해서는 2차 검색이 불가피한데, 2차 검색을 위하여서는 1차 검색식의 문제점을 살펴보아야 한다. 1차 검색식에서 검색어를 대체할 필요는 없는지, 연산자 활용에 문제는 없는지 등을 살펴보아야 하고, 해당 정보원에서 만족한 결과를 얻을 수 없다면, 타 정보원을 이용한 검색을 시도해야만 한다.
정보분석 시스템화의 목적 중에 하나가 전문가 개입을 줄이고, 개인 편차에 의한 영향을 줄이고자 하는 것이다. 이러한 관점에서 전문가의 개입을 줄이고 정보수집의 정확도를 높이기 위하여 정부수집 중간과정에 정보분석 주제에 가장 근접하는 대표 초록들로부터 키워드를 추출하고 이를 분류하는 방법을 적용할 수 있다. 이는 텍스트마이닝 기술을 활용함으로써 실용적으로 가능해진다. 유사한 사례인 TOAK(Technology Opportunities Analysis Knowbot)는 빈번하게 발견되는 키워드, 저작소속기관, 국가 등의 리스트를 신속하게 생성해줌으로써 리스트 생성작업을 용이하게 해준다.
문헌정보를 대상으로 하는 주제검색에 의한 결과는 그 주제를 담고 있는 문헌 리스트나 문헌이지만 검색된 정보가 당초의 정보요구에 일치되지 않는 부적합 정보가 나타나게 되거나, 본래 검색되어야 할 정보가 검색되지 않는 것도 있다. 전자의 부적합 정보를 검색 노이즈라고 하며, 후자를 검색누락이라고 한다. 검색 누락을 줄이기 위해서는 노이즈 발생을 예상하면서도 검색주제의 범주를 넓게 설정할 수 밖에 없는데 이는 결국 정보검색자가 수작업에 의해 노이즈를 없애는 작업을 해 야 한다는 것을 의미한다. 특허맵(Patent Map)이나 문헌정보 분석시스템 모두가 안고 있는 문제로서 자동화(엄밀하게는 반자동화) 방안을 모색해야 한다.
과학기술문헌 데이터베이스(DB)는 제각기 특정 기술분야의 정보를 수록하고 있는데, 적합한 정보원의 선정은 정보수집에 있어서 매우 중요하다. 그러나 분석대상기술이 여러 분야에 공통적으로 관련될 때는 정보원의 선정이 매우 까다롭다. 이런 경우 대개 관련 데이터베이스(DB)를 전부 검색해야 하는데, 한 저널이 여러 데이터베이스(DB)에 함께 수록되는 경우를 배제할 수 없기 때문에 데이터베이스(DB)의 포맷이 서로 다른 문제, 중복 수록된 문헌(정보)을 걸러내는 문제, 동일한 탐색을 반복해야 하는 비효율성 등을 해결하여야 한다. 이 문제의 해결 방안으로서 정보검색 에이전트를 적용하는 방안을 제안하다.
정보검색 에이전트는 사용자가 여러개의 문헌 데이터베이스(DB)와 인터넷 검색엔진을 통합하여 보다 쉽게 원하는 정보를 찾을 수 있도록 사용자에게 일관된 질의 인터페이스를 제공하고, 질의에 대하여 해당 자료라고 판단되는 검색 결과를 통일된 형태로 제공함으로써 기존의 정보검색 방법의 단점을 보완한다. 메타 서치엔진, 통합형 검색엔진, 혹은 멀티쓰레드 검색기라도 알려진 정보검색 에이전트는 자체 데이타베이스를 가질 필요가 없으므로 적은 시스템 자원으로 서비스를 개설 할 수 있다. 뿐만 아니라 한번의 검색으로 여러 문헌 데이터베이스(DB)를 이용하는 효과를 얻으므로 적은 시간으로 포괄적인 정보수집을 할 수 있다는 장점을 가지고 있다.
정보수집과 관련된 문제를 다시 정리하면 다음과 같다. 이러한 문제들은 뒤 에 나열하는 정보검색 시스템 모델의 구성요소가 된다.
- 텍스트마이닝을 이용한 적절한 키워드 리스트 작성 기능
- 순환검색과정에서 전회의 검색결과를 분석하여 적절한 검색식을 생성하는 기능
- 검색결과에서 노이즈를 추려내는 기능
- 여러 문헌DB를 통합검색하고, 검색결과를 정리하는 검색에이전트 개발
(2) 지식추출 및 가시화(Visualization)
과학기술 문헌을 주 대상으로 하는 정보분석 시스템은 특정 기술에 관련하여 과거의 발전 추세를 분석하고 기술예측을 하고, 관심을 가지고 있는 특정 기술분야에 새로운 기술이 개발되었을 때 이를 자동으로 알려주는 것을 목표로 한다. 이를 위해서 과거의 추세와 앞으로의 변화를 도식화 하고, 떠오르는 기술(Emerging technology)의 핵심기술을 알려주고, 수많은 문헌 중에서 이러한 변화를 인지할 수 있는 정보를 담고 있는 문헌을 별도로 분류하여 요약과 함께 제시해주는 기능을 갖추어야 한다. 아래에 Georgia Tech이 개발한 TOA가 추구하는 목표 기능을 나열하였다. 이 기능 들은 정보분석시스템이 갖추어야 하는 기본 기능을 예시해준다.
- 요소기술을 찾아내고, 그 요소기술들이 서로 어떻게 연관을 맺는지 밝혀낸다.
- 그 기술을 누가(회사, 대학, 개인) 활발하게 개발하고 있는지 밝혀낸다.
- 활발하게 개발하고 있는 사람들이 국내 또는 국제적으로 어디에 존재하고 있는지 밝혀낸다.
- 시간이 경과함에 따라 기술적 강조가 어떻게 이동하고 있는지 밝혀낸다.
- 연구 윤곽을 확인함으로써 조직적 강점과 약점을 밝혀낸다.
본 발명에서는 계량서지학, 텍스트마이닝(데이터마이닝), 통계학적 기법 등 다양한 기술을 적용하는 정보분석시스템 모델을 제안하고자 한다. 이 모델은 분석 대상 필드도 정형화된 필드에 국한하지 않고, 제목, 키워드, 초록 등으로 확대함으로써 텍스트마이닝을 적용하지 않고서는 계량화, 가시화(visualization) 하기 어려운 필드에서 지식을 추출하는 형태를 띠게 된다. 텍스트마이닝의 적용에 대한 연구는 향후 후속 연구의 핵심을 이루게 될 것이다.
(3) 분석결과 이용 및 확산
정보분석 시스템은 정보분석가(Domain expert)에게 계량화, 가시화된 정보를 제공함으로써 정보분석을 보다 객관적으로 수행할 수 있게 함으로써 이들이 작성하는 정보분석결과 보고서의 신뢰성을 높여주는데 활용된다. 또한 최종 이용자(연구소, 대학, 기업의 의사결정자)의 관심 주제에 가장 적합한 문서를 자동으로 발췌하여 이메일(e-mail)을 통해 자동 서비스하는 모델도 유용하게 이용될 것이다. 그리고 분석결과물 중 맵(Map)은 그 자체가 간이 보고서의 형태를 가지게 되며, 의사결정을 신속히 하는데 활용될 수 있다. 이러한 개념을 SDI(Selective Dissemination of Information) 서비스와 결합한 확산 모델을 도 3에 나타내었다.
SDI 서비스는 ‘맞춤정보서비스’로 지칭되는 이미 보편화 되어 있는 기술이다. 단지 이용자가 스스로 작성한 검색식 프로파일의 신뢰도가 낮다는 문제가 있다. 관심주제 보다 너무 포괄적인 키워드(예를 들면 ‘컴퓨터’)를 등록해 놓거나 채택한 키워드가 보편적인 어휘가 아닐 경우 검색건수가 매우 적어지는 문제 등은 해결 과제이다.
이상의 본 발명은 상기에 기술된 실시 예들에 의해 한정되지 않고 당업자들에 의해 다양한 변형 및 변경을 가져올 수 있는데, 이는 첨부된 청구항에서 정의되는 본 발명의 취지와 범위에 포함된다.
이상에서 살펴본 바와 같이 본 발명에 의한 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터 프로그램을 저장한 기록매체에 의하면, 텍스트 문서에서 지식을 추출할 수 있는 정보분석방법을 도입함으로써 연도와 같은 정형화된 데이터를 가지고 있지 않는 문서에서도 정보분석을 실시할 수 있다.
또한, 정보분석대상을 웹문서로 확대함으로써 실질적인 활용성을 높일 수 있다.
또한, 정보분석자에게 주기적으로 관심정보를 자동 분석하고, 그 결과를 통보함으로써 정보분석효율을 개선하는 한편, 의사결정에 있어서 주요 정보를 누락하는 현상을 방지할 수 있다.

Claims (18)

  1. 다수의 정보원에서 정보분석 대상 기술영역에 관한 정보를 수집하는 정보수집 단계;
    상기 수집된 정보 중에서 원하는 정보를 선별하고, 테스트마이닝, 데이터마이닝, 통계적 처리에 의해 정보를 1차 분석하고 분석된 결과를 가시화하는 지식추출 및 가시화 단계; 및
    상기 1차로 분석한 결과를 가지고 전문가가 2차로 분석한 결과를 입력하고 입력된 2차 분석결과를 서비스 등록자의 이메일을 통해 자동으로 확산하는 단계;를 포함하는 과학기술 정보분석 방법.
  2. 제 1 항에 있어서, 상기 정보수집 단계는:
    인터넷상의 정보수집을 위해 사용되는 하나의 에이전트로서, 서버에 상주하면서 사용자와 직접적인 상호작용 없이 사용자를 대신해서 작업을 수행하여 인터넷상에서 분산된 온라인 정보를 순회하며 정보를 수집하는 웹 로봇(Web Robot)과, 데이터의 형태가 서로 다른 다수의 과학기술문헌 데이터베이스(DB)에서 동시에 정보를 검색하고 검색된 결과를 단일 형태로 변환해 주는 정보검색 에이전트를 이용하여 정보를 수집하여 데이터베이스(DB)에 저장하는 단계; 및
    상기 웹문서 데이터베이스(DB)와 기술문헌 데이터베이스(DB)에 저장된 정보를 대상으로 문서를 수집하고 색인(indexing)하며 검색 가능한 기반 구조체를 구성하는 단계;를 포함하는 것을 특징으로 하는 과학기술 정보분석 방법.
  3. 제 2 항에 있어서, 상기 웹 로봇 프로그램은:
    사용자로부터 시작 URL(Uniform Resource Locator)을 입력 받아 접근 주소를 추출하고 이를 기반으로 웹 서버에 접근하여 해당 데이터를 수집하는 것을 특징으로 하는 과학기술 정보분석 방법.
  4. 제 3 항에 있어서,
    상기 웹 로봇 프로그램은 로봇관리, URL 분석, 데이터베이스(DB) 관리, 로그관리 모듈을 포함하는 것을 특징으로 하는 과학기술 정보분석 방법.
  5. 제 2 항에 있어서, 상기 웹 로봇 프로그램의 동작과정은:
    시스템 정보를 수집하고 사용자가 입력한 다양한 설정사항을 통해 상기 웹 로봇의 동작에 필요한 설정을 수행하는 제 1 단계;
    로봇 에이전트(Robot Agent) 프로그램을 실행하는 제 2 단계;
    URL의 호스트 이름을 추출하여 텍스트 파일의 URL을 접근하는 제 3 단계;
    상기 텍스트 파일의 내용을 받는 제 4 단계;
    상기 텍스트 파일 내용을 분석하여 그 호스트에서 접근하지 말아야 할 URL을 알아내는 제 5 단계;
    상기 제 5 단계에서 주어진 URL이 텍스트 파일에 접근하지 말아야 할 URL이라고 적혀져 있지 않다면 다시 URL로 접근하는 제 6 단계;
    상기 제 4 단계와 같은 방법으로 해당 URL의 내용을 받는 제 7 단계;
    상기 제 7 단계에서 전달받은 파일을 분석하여 URL을 추출하는 제 8 단계;
    상기 추출한 URL을 다음 방문때 참조할 수 있도록 URL 데이터베이스에 저장하는 제 9 단계;
    상기 제 7 단계에서 전달받은 파일을 분석하여 키워드를 추출하고 필요한 정보를 저장하는 제 10 단계; 및
    상기 URL 데이터베이스에서 다음 방문할 URL을 가지고 상기 제 3 내지 제 10 단계를 반복하는 제 11 단계;를 포함하는 것을 특징으로 하는 과학기술 정보분석 방법.
  6. 제 5 항에 있어서,
    상기 제 2 단계에서 상기 로봇 에이전트(Robot Agent) 프로그램 실행시 처음에 접근을 시도할 URL은 사용자가 입력한 자료를 사용하는 것을 특징으로 하는 과학기술 정보분석 방법.
  7. 제 5 항에 있어서,
    상기 제 8 단계에서 상대 URL을 절대 URL로 변환하는 것을 특징으로 하는 과학기술 정보분석 방법.
  8. 제 5 항에 있어서,
    상기 제 9 단계에서 상기 URL을 상기 URL 데이터베이스에 저장할 때 몇 개의 URL을 추측하여 함께 저장하는 것을 특징으로 하는 과학기술 정보분석 방법.
  9. 제 5 항에 있어서,
    상기 제 9 단계에서 상기 URL을 상기 URL 데이터베이스에 저장할 때 이미 등록된 URL인지 아닌지 검사하여 중복되지 않도록 하는 것을 특징으로 하는 과학기술 정보분석 방법.
  10. 다수의 정보원에서 정보분석 대상 기술영역에 관한 정보를 수집하는 정보수집 프로세서;
    상기 수집된 정보 중에서 원하는 정보를 선별하고, 테스트마이닝, 데이터마이닝, 통계적 처리에 의해 정보를 1차 분석하고 분석된 결과를 가시화하는 지식추출 및 가시화 프로세서; 및
    상기 1차로 분석한 결과를 가지고 전문가가 2차로 분석한 결과를 입력하고 입력된 2차 분석결과를 서비스 등록자의 이메일을 통해 자동으로 확산하는 프로세서;를 포함하는 과학기술 정보분석 방법에 대한 컴퓨터 프로그램을 저장한 기록매체.
  11. 제 10 항에 있어서, 상기 정보수집 프로세서는:
    인터넷상의 정보수집을 위해 사용되는 하나의 에이전트로서, 서버에 상주하면서 사용자와 직접적인 상호작용 없이 사용자를 대신해서 작업을 수행하여 인터넷상에서 분산된 온라인 정보를 순회하며 정보를 수집하는 웹 로봇(Web Robot)과, 데이터의 형태가 서로 다른 다수의 과학기술문헌 데이터베이스(DB)에서 동시에 정보를 검색하고 검색된 결과를 단일 형태로 변환해 주는 정보검색 에이전트를 이용하여 정보를 수집하여 데이터베이스(DB)에 저장하는 프로세서; 및
    상기 웹문서 데이터베이스(DB)와 기술문헌 데이터베이스(DB)에 저장된 정보를 대상으로 문서를 수집하고 색인(indexing)하며 검색 가능한 기반 구조체를 구성하는 프로세서;를 포함하는 것을 특징으로 하는 과학기술 정보분석 방법에 대한 컴퓨터 프로그램을 저장한 기록매체.
  12. 제 11 항에 있어서, 상기 웹 로봇 프로그램은:
    사용자로부터 시작 URL(Uniform Resource Locator)을 입력 받아 접근 주소를 추출하고 이를 기반으로 웹 서버에 접근하여 해당 데이터를 수집하는 것을 특징으로 하는 과학기술 정보분석 방법에 대한 컴퓨터 프로그램을 저장한 기록매체.
  13. 제 12 항에 있어서,
    상기 웹 로봇 프로그램은 로봇관리, URL 분석, 데이터베이스(DB) 관리, 로그관리 모듈을 포함하는 것을 특징으로 하는 과학기술 정보분석 방법에 대한 컴퓨터 프로그램을 저장한 기록매체.
  14. 제 11 항에 있어서, 상기 웹 로봇 프로그램은:
    시스템 정보를 수집하고 사용자가 입력한 다양한 설정사항을 통해 상기 웹 로봇의 동작에 필요한 설정을 수행하는 제 1 프로세서;
    로봇 에이전트(Robot Agent) 프로그램을 실행하는 제 2 프로세서;
    URL의 호스트 이름을 추출하여 텍스트 파일의 URL을 접근하는 제 3 프로세서;
    상기 텍스트 파일의 내용을 받는 제 4 프로세서;
    상기 텍스트 파일 내용을 분석하여 그 호스트에서 접근하지 말아야 할 URL을 알아내는 제 5 프로세서;
    상기 제 5 프로세서에서 주어진 URL이 텍스트 파일에 접근하지 말아야 할 URL이라고 적혀져 있지 않다면 다시 URL로 접근하는 제 6 프로세서;
    상기 제 4 단계와 같은 방법으로 해당 URL의 내용을 받는 제 7 프로세서;
    상기 제 7 단계에서 전달받은 파일을 분석하여 URL을 추출하는 제 8 프로세서;
    상기 추출한 URL을 다음 방문때 참조할 수 있도록 URL 데이터베이스에 저장하는 제 9 프로세서;
    상기 제 7 프로세서에서 전달받은 파일을 분석하여 키워드를 추출하고 필요한 정보를 저장하는 제 10 프로세서; 및
    상기 URL 데이터베이스에서 다음 방문할 URL을 가지고 상기 제 3 내지 제 10 프로세서를 반복하는 제 11 프로세서;를 포함하는 것을 특징으로 하는 과학기술 정보분석 방법에 대한 컴퓨터 프로그램을 저장한 기록매체.
  15. 제 14 항에 있어서,
    상기 제 2 프로세서에서 상기 로봇 에이전트(Robot Agent) 프로그램 실행시 처음에 접근을 시도할 URL은 사용자가 입력한 자료를 사용하는 것을 특징으로 하는 과학기술 정보분석 방법에 대한 컴퓨터 프로그램을 저장한 기록매체.
  16. 제 14 항에 있어서,
    상기 제 8 프로세서에서 상대 URL을 절대 URL로 변환하는 것을 특징으로 하는 과학기술 정보분석 방법에 대한 컴퓨터 프로그램을 저장한 기록매체.
  17. 제 14 항에 있어서,
    상기 제 9 프로세서에서 상기 URL을 상기 URL 데이터베이스에 저장할 때 몇 개의 URL을 추측하여 함께 저장하는 것을 특징으로 하는 과학기술 정보분석 방법에 대한 컴퓨터 프로그램을 저장한 기록매체.
  18. 제 14 항에 있어서,
    상기 제 9 프로세서에서 상기 URL을 상기 URL 데이터베이스에 저장할 때 이미 등록된 URL인지 아닌지 검사하여 중복되지 않도록 하는 것을 특징으로 하는 과학기술 정보분석 방법에 대한 컴퓨터 프로그램을 저장한 기록매체.
KR1020030101590A 2003-12-31 2003-12-31 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체 KR100557874B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020030101590A KR100557874B1 (ko) 2003-12-31 2003-12-31 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020030101590A KR100557874B1 (ko) 2003-12-31 2003-12-31 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체

Publications (2)

Publication Number Publication Date
KR20050070955A KR20050070955A (ko) 2005-07-07
KR100557874B1 true KR100557874B1 (ko) 2006-03-10

Family

ID=37260966

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020030101590A KR100557874B1 (ko) 2003-12-31 2003-12-31 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체

Country Status (1)

Country Link
KR (1) KR100557874B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101040734B1 (ko) * 2008-11-25 2011-06-13 한국과학기술정보연구원 지적재산 가이던스 시스템 및 방법
KR101133719B1 (ko) * 2009-04-10 2012-04-09 (주)야긴스텍 가축 생체 데이터 감시 시스템 및 방법

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100718745B1 (ko) * 2005-10-14 2007-05-15 한국과학기술정보연구원 텍스트 마이닝을 이용한 특허 검색 시스템 및 그 방법
KR100952634B1 (ko) * 2007-10-05 2010-04-20 한국산업기술진흥원 정보분석 시스템 및 그 정보분석 방법
KR100993817B1 (ko) * 2007-12-21 2010-11-12 한국과학기술정보연구원 정보 분석 시스템 및 그 방법
KR100966106B1 (ko) * 2008-06-17 2010-06-28 한국과학기술원 특허 정보를 이용한 기술과 서비스의 평가 및 서비스중심의 기술 로드맵 작성 방법
KR101047135B1 (ko) * 2008-10-30 2011-07-12 한국과학기술정보연구원 학술정보 자원의 분석 정보 제공 시스템 및 방법
KR102055407B1 (ko) * 2019-06-13 2019-12-12 (주)케이엔랩 정책정보 제공 방법, 정책정보 제공 시스템, 이를 위한 컴퓨터 프로그램
KR102166390B1 (ko) * 2019-12-16 2020-10-15 (주)에이펙스 이에스씨 비정형 데이터의 모델링 방법 및 시스템
KR102543703B1 (ko) * 2020-11-16 2023-06-16 주식회사 솔트룩스 과학 기술 논문을 위한 지식 추출 시스템
CN113515558B (zh) * 2021-06-29 2024-03-22 上海硕恩网络科技股份有限公司 基于推理技术的数据挖掘的方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101040734B1 (ko) * 2008-11-25 2011-06-13 한국과학기술정보연구원 지적재산 가이던스 시스템 및 방법
KR101133719B1 (ko) * 2009-04-10 2012-04-09 (주)야긴스텍 가축 생체 데이터 감시 시스템 및 방법

Also Published As

Publication number Publication date
KR20050070955A (ko) 2005-07-07

Similar Documents

Publication Publication Date Title
Chakrabarti et al. Focused crawling: a new approach to topic-specific Web resource discovery
US7499965B1 (en) Software agent for locating and analyzing virtual communities on the world wide web
US8473473B2 (en) Object oriented data and metadata based search
CN100440224C (zh) 一种搜索引擎性能评价的自动化处理方法
US20070094250A1 (en) Using matrix representations of search engine operations to make inferences about documents in a search engine corpus
CN103116635B (zh) 面向领域的暗网资源采集方法和系统
Vijiyarani et al. Research issues in web mining
KR100557874B1 (ko) 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체
KR20090120843A (ko) 사용자 웹 사용 정보에 기반한 멀티 컨셉 네트워크 생성시스템 및 방법
Rome et al. Towards a formal concept analysis approach to exploring communities on the world wide web
JP2000331020A (ja) 情報参照方法,情報参照装置および情報参照プログラムを格納した記憶媒体
KR20030051577A (ko) 검색사이트의 검색결과 표시방법
KR100862565B1 (ko) 사용자 맞춤형 특허정보 데이터베이스 구축시스템
KR100667917B1 (ko) 웹사이트 검색 서비스 제공 방법 및 그 시스템
Rana et al. Analysis of web mining technology and their impact on semantic web
Haruechaiyasak et al. A data mining framework for building a web-page recommender system
Bamboat et al. Web content mining techniques for structured data: A review
KR20040098889A (ko) 웹사이트 검색 서비스 제공 방법 및 그 시스템
Gunasundari et al. Removing non-informative blocks from the web pages
KR100942902B1 (ko) 웹페이지 검색 방법 및 상기 방법을 컴퓨터에서 구현하는 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체
KR20040099109A (ko) 웹사이트 검색 서비스 제공 방법 및 그 시스템
CN102890715A (zh) 一种特定领域信息自动化组织的装置及其方法
Sabri New Approach Exploring Unclear Weighted Association Rules Using Weighted Support and Trust Framework by using Data Mining
KR20180079482A (ko) 빅데이터 통합 서비스를 위한 온톨로지기반 데이터 수집 및 분석방법
Matias A Comprehensive Summary on Category of Web Usage Mining

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20111229

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20130111

Year of fee payment: 8

LAPS Lapse due to unpaid annual fee