KR20090039323A

KR20090039323A - 정보분석형 도표 컨텐츠 추출 및 생성을 위한 시스템 및 그방법

Info

Publication number: KR20090039323A
Application number: KR1020070104893A
Authority: KR
Inventors: 최현규; 홍성화; 배국진; 강현무; 최성배; 박영욱
Original assignee: 한국과학기술정보연구원
Priority date: 2007-10-18
Filing date: 2007-10-18
Publication date: 2009-04-22

Abstract

본 발명은 정보분석형 도표 컨텐츠 추출 및 생성을 위한 시스템 및 그 방법을 제공하기 위한 것으로, 인터넷 또는 입력 수단을 통해 기술 및 시장 동향 관련 문서 파일을 수집하는 문서 파일 수집부와; 상기 문서 파일 수집부에서 수집한 문서에서 도표를 추출하는 도표 추출부와; 상기 도표 추출부에서 추출된 도표를 이미지로 가공하는 이미지 가공부와; 상기 문서 파일 수집부에서 수집한 문서에서 텍스트를 추출하는 텍스트 추출부와; 상기 텍스트 추출부에서 추출한 내용을 전달받아 원시 데이터로 생성하는 원시데이터 생성부와; 상기 문서 파일 수집부에서 수집한 문서에서 키워드를 추출하는 키워드 추출부와; 상기 이미지 가공부에서 가공된 이미지와 상기 원시데이터 생성부에서 생성한 원시데이터와 상기 키워드 추출부에서 추출한 키워드를 전달받아 이미지 컨텐츠를 생성하는 이미지 컨텐츠 생성부;를 포함하여 구성함으로서, 인터넷 상의 각종 문서형 파일에서 그림이나 표로 된 부분을 선택적으로 추출하여 그림이나 표를 전문적으로 검색하고 활용할 수 있도록 데이터베이스의 각 레코드를 자동으로 생성할 수 있게 되는 것이다.

정보분석, 도표 컨텐츠, 문서형 파일, 검색로봇, 이미지 파일, 원시 데이터

Description

정보분석형 도표 컨텐츠 추출 및 생성을 위한 시스템 및 그 방법{System and method for extraction and creation of image and table contents of information analysis}

본 발명은 컨텐츠 추출 및 생성에 관한 것으로, 특히 인터넷 상의 각종 문서형 파일에서 그림이나 표로 된 부분을 선택적으로 추출하여 그림이나 표를 전문적으로 검색하고 활용할 수 있도록 데이터베이스의 각 레코드를 자동으로 생성하기에 적당하도록 한 정보분석형 도표 컨텐츠 추출 및 생성을 위한 시스템 및 그 방법에 관한 것이다.

일반적으로 컨텐츠(contents)는 인터넷이나 컴퓨터 통신 등을 통하여 제공되는 각종 정보나 그 내용물을 말한다.

그래서 유무선 전기 통신망에서 사용하기 위하여 문자/부호/음성/음향/이미지/영상 등을 디지털 방식으로 제작해 처리/유통하는 각종 정보 또는 그 내용물을 통틀어 이르는 개념이다. 콘텐츠는 본래 문서/연설 등의 내용이나 목차/요지를 뜻 하는 말이었다. 그러다 정보통신 기술이 빠르게 발달하면서 각종 유무선 통신망을 통해 제공되는 디지털 정보나 그러한 내용물을 총칭하는 용어로 널리 쓰이게 되었다.

이러한 컨텐츠는 크게 디지털 콘텐츠와 멀티미디어 콘텐츠로 구분한다. 디지털 콘텐츠는 구입/결제/이용에 이르기까지 모두 네트워크와 개인용 컴퓨터(Personal Computer, PC)를 통해 이루어지기 때문에 기존의 통신판매 범위를 훨씬 뛰어넘어 전자상거래의 새로운 형태로 확고한 자리를 잡았고, 갈수록 시장 수요도 확대되고 있다.

멀티미디어 콘텐츠는 컴팩트디스크/CD-ROM/비디오테이프 등에 담긴 사진/미술/음악/영화/게임 등 읽기 전용의 다중매체 저작물과 광대역통신망이나 고속 데이터망을 통해 양방향으로 송수신되는 각종 정보 또는 내용물, 디지털화되어 정보기기를 통해 제작/판매/이용되는 정보 등을 말한다.

보통 멀티미디어 소프트웨어를 만드는 데 필요한 자료/정보 등을 모아 수록한 데이터를 '콘텐츠 라이브러리'라 하고, 이 콘텐츠 라이브러리를 제공하는 사람을 '콘텐츠 제공자'라고 한다.

그래서 종래에는 다양한 컨텐츠들이 인터넷 등을 통해 제공되었다.

종개기술은 인터넷 상의 각종 문서형 파일에서 그림이나 표로 된 부분들에는 국내외 기술, 산업, 시장 및 정책에 관한 그림이나 표 등이 있으나, 이를 전문적으로 가공하여 컨텐츠로 제공하는 기술은 없었다.

이에 본 발명은 상기와 같은 종래의 제반 문제점을 해결하기 위해 제안된 것으로, 본 발명의 목적은 인터넷 상의 각종 문서형 파일에서 그림이나 표로 된 부분을 선택적으로 추출하여 그림이나 표를 전문적으로 검색하고 활용할 수 있도록 데이터베이스의 각 레코드를 자동으로 생성할 수 있는 정보분석형 도표 컨텐츠 추출 및 생성을 위한 시스템 및 그 방법을 제공하는데 있다.

도 1은 본 발명의 일 실시예에 의한 정보분석형 도표 컨텐츠 추출 및 생성을 위한 시스템의 블록구성도이다.

이에 도시된 바와 같이, 인터넷 또는 입력 수단을 통해 기술 및 시장 동향 관련 문서 파일을 수집하는 문서 파일 수집부(10)와; 상기 문서 파일 수집부(10)에서 수집한 문서에서 도표를 추출하는 도표 추출부(20)와; 상기 도표 추출부(20)에서 추출된 도표를 이미지로 가공하는 이미지 가공부(30)와; 상기 문서 파일 수집부(10)에서 수집한 문서에서 텍스트를 추출하는 텍스트 추출부(40)와; 상기 텍스트 추출부(40)에서 추출한 내용을 전달받아 원시 데이터로 생성하는 원시데이터 생성 부(50)와; 상기 문서 파일 수집부(10)에서 수집한 문서에서 키워드를 추출하는 키워드 추출부(60)와; 상기 이미지 가공부(30)에서 가공된 이미지와 상기 원시데이터 생성부(50)에서 생성한 원시데이터와 상기 키워드 추출부(60)에서 추출한 키워드를 전달받아 이미지 컨텐츠를 생성하는 이미지 컨텐츠 생성부(70);를 포함하여 구성된 것을 특징으로 한다.

상기 문서 파일 수집부(10)는, 검색 로봇을 이용하여 인터넷에서 문서 파일을 수집하는 것을 특징으로 한다.

상기 도표 추출부(20)는, 자동문서인식 시스템을 이용하여 상기 문서 파일 수집부(10)에서 수집된 문서 파일에서 도(그림) 또는 표(table)로 된 내용만을 추출하는 것을 특징으로 한다.

상기 도표 추출부(20)는, 상기 문서 파일 수집부(10)에서 수집된 문서 파일에서 도표목차를 참조하여 도(그림) 또는 표(table)로 된 내용만을 추출하는 것을 특징으로 한다.

상기 이미지 가공부(30)는, 이미지 가공시 ANI, BMP, CGM, CAL, DIB, EPS, EMF, GIF, IMG, JPG, JFIF, JPE, JPEG, JPG, MAC, PBM, PCD, PCT, PCX, PGM, PIC, PNG, PPM, PSD, RAS, TGA, TIF, TIFF, WMF, WPG 중에서 하나 이상의 이미지 파일로 가공하는 것을 특징으로 한다.

상기 텍스트 추출부(40)는, 문서변환기를 이용하여 상기 문서 파일 수집부(10)에서 수집된 문서 파일에서 텍스트를 추출하는 것을 특징으로 한다.

상기 텍스트 추출부(40)는, 상기 도표 추출부(20)에서 사용하는 자동문서인 식 시스템을 이용하여 텍스트를 추출하는 것을 특징으로 한다.

상기 원시데이터 생성부(50)는, 엑셀 프로그램을 포함한 스프레드시트 프로그램을 이용하여 원시데이터를 생성하는 것을 특징으로 한다.

상기 키워드 추출부(60)는, 수집된 문서 파일에 대해 도표의 제목, 좌표 또는 주요어휘 중에서 하나 이상을 키워드로 추출하는 것을 특징으로 한다.

상기 이미지 컨텐츠 생성부(70)는, 생성한 이미지 컨텐츠의 레코드 항목에 일련번호, 제목, 도표이미지, 출처, 키워드, 분류, 원문, 일련번호 중에서 하나 이상이 포함되도록 하는 것을 특징으로 한다.

도 2는 본 발명의 일 실시예에 의한 정보분석형 도표 컨텐츠 추출 및 생성을 위한 방법을 보인 흐름도이다.

이에 도시된 바와 같이, 인터넷 또는 입력 수단을 통해 기술 및 시장 동향 관련 문서 파일을 수집하는 제 1 단계(ST1)와; 상기 제 1 단계에서 수집된 문서에서 도표가 추출되도록 하는 제 2 단계(ST2)와; 상기 제 2 단계에서 추출된 도표가 이미지로 가공되도록 하는 제 3 단계(ST3)와; 상기 제 1 단계에서 수집된 문서에서 텍스트가 추출되도록 하는 제 4 단계(ST4)와; 상기 제 4 단계에서 추출된 내용이 원시 데이터로 생성되도록 하는 제 5 단계(ST5)와; 상기 제 1 단계에서 수집된 문서에서 키워드가 추출되도록 하는 제 6 단계(ST6)와; 상기 제 3 단계에서 가공된 이미지와 상기 제 4 단계에서 생성된 원시데이터와 상기 제 6 단계에서 추출된 키워드를 이용하여 이미지 컨텐츠를 생성하는 제 7 단계(ST7);를 포함하여 수행하는 것을 특징으로 한다.

상기 제 1 단계는, 검색 로봇을 이용하여 인터넷에서 문서 파일이 수집되도록 하는 것을 특징으로 한다.

상기 제 2 단계는, 자동문서인식 시스템을 이용하여 상기 제 1 단계에서 수집된 문서 파일에서 도(그림) 또는 표(table)로 된 내용만을 추출하는 것을 특징으로 한다.

상기 제 2 단계는, 상기 제 1 단계에서 수집된 문서 파일에서 도표목차를 참조하여 도(그림) 또는 표(table)로 된 내용만을 추출하는 것을 특징으로 한다.

상기 제 3 단계는, 이미지 가공시 ANI, BMP, CGM, CAL, DIB, EPS, EMF, GIF, IMG, JPG, JFIF, JPE, JPEG, JPG, MAC, PBM, PCD, PCT, PCX, PGM, PIC, PNG, PPM, PSD, RAS, TGA, TIF, TIFF, WMF, WPG 중에서 하나 이상의 이미지 파일로 가공하는 것을 특징으로 한다.

상기 제 4 단계는, 문서변환기를 이용하여 상기 제 1 단계에서 수집된 문서 파일에서 텍스트를 추출하는 것을 특징으로 한다.

상기 제 4 단계는, 도표 추출시 사용하는 자동문서인식 시스템을 이용하여 텍스트를 추출하는 것을 특징으로 한다.

상기 제 5 단계는, 엑셀 프로그램을 포함한 스프레드시트 프로그램을 이용하여 원시데이터를 생성하는 것을 특징으로 한다.

상기 제 6 단계는, 수집된 문서 파일에 대해 도표의 제목, 좌표 또는 주요어휘 중에서 하나 이상을 키워드로 추출하는 것을 특징으로 한다.

상기 제 7 단계는, 생성한 이미지 컨텐츠의 레코드 항목에 일련번호, 제목, 도표이미지, 출처, 키워드, 분류, 원문, 일련번호 중에서 하나 이상이 포함되도록 하는 것을 특징으로 한다.

본 발명에 의한 정보분석형 도표 컨텐츠 추출 및 생성을 위한 시스템 및 그 방법은 인터넷 상의 각종 문서형 파일에서 그림이나 표로 된 부분을 선택적으로 추출하여 그림이나 표를 전문적으로 검색하고 활용할 수 있도록 데이터베이스의 각 레코드를 자동으로 생성할 수 있는 효과가 있게 된다.

이와 같이 구성된 본 발명에 의한 정보분석형 도표 컨텐츠 추출 및 생성을 위한 시스템 및 그 방법의 바람직한 실시예를 첨부한 도면에 의거하여 상세히 설명하면 다음과 같다. 하기에서 본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서, 이는 사용자, 운용자의 의도 또는 판례 등에 따라 달라질 수 있으며, 이에 따라 각 용어의 의미는 본 명세서 전반에 걸친 내용을 토대로 해석되어야 할 것이다.

먼저 본 발명은 인터넷 상의 각종 문서형 파일에서 그림이나 표로 된 부분을 선택적으로 추출하여 그림이나 표를 전문적으로 검색하고 활용할 수 있도록 데이터 베이스의 각 레코드를 자동으로 생성하고자 한 것이다.

그래서 국내외 기술시장 전문보고서 등에 수록된 기술, 산업, 시장 및 정책에 관한 그림(graph or chart) 및 표(table) 등을 전문적으로 가공한 정보분석형 지식 컨텐츠를 제공하게 된다.

그리고 본 발명에서 제공하는 지식차트 컨텐츠는 정보분석 결과의 집약적 표현으로 활용의 직접성과 유용성을 인정받을 수 있는 수요가 높은 산업 및 기술, 시장에 관한 수요 창출 및 충족형 고부가가치 지식정보 상품이 될 수 있다.

또한 본 발명에 의해 공개 정보자원을 활용하여 연구기획, 정책수립, 연구성과의 사업화를 효과적으로 지원할 수 있는 중도 절충형(원문 DB와 사실 DB의 중간) 고품위 데이터베이스를 제공할 수 있게 된다.

도 1은 본 발명의 일 실시예에 의한 정보분석형 도표 컨텐츠 추출 및 생성을 위한 시스템의 블록구성도이고, 도 2는 본 발명의 일 실시예에 의한 정보분석형 도표 컨텐츠 추출 및 생성을 위한 방법을 보인 흐름도이다.

이를 위해 문서 파일 수집부(10), 도표 추출부(20), 이미지 가공부(30), 텍스트 추출부(40), 원시데이터 생성부(50), 키워드 추출부(60), 이미지 컨텐츠 생성부(70) 등을 포함해 정보분석형 도표 컨텐츠 추출 및 생성을 위한 시스템을 구성한다.

그래서 문서 파일 수집부(10)는 인터넷 또는 입력 수단을 통해 기술 및 시장 동향 관련 문서 파일을 수집한다. 이때 인터넷에서 문서 파일을 수집할 경우에는 검색 로봇을 이용할 수 있다.

여기서 문서 파일 수집부(10)에서 사용하는 검색 로봇(또는 검색 엔진)은 인터넷상에서 자료를 쉽게 찾을 수 있게 도와주는 소프트웨어를 말한다. 이러한 검색 로봇은 사용자의 검색어 선정과 검색조건의 적절한 지정에 따라 검색 소요시간이 달라진다. 검색방법으로는 사용자가 키워드, 즉 검색어를 직접 입력하는 검색과 검색엔진이 제시한 몇 가지 항목들 중 사용자가 원하는 항목을 선택하는 방식으로 범위를 좁혀가는 카테고리 검색을 사용할 수 있다. 또한 단어별 검색엔진(word-oriented searching), 주제별 검색엔진(subject-oriented searching), 메타 검색엔진(Meta-search engine)을 사용할 수 있다. 단어별 검색엔진이란 검색하고자 하는 내용을 입력하면, 검색사이트에 있는 데이터베이스를 찾아 웹페이지로 보여주는 검색엔진이다. 주제별 검색엔진(subject-oriented searching)이란 인터넷 상에 있는 정보를 큰 범위에서 좁은 범위로 좁혀가며 찾는 방식의 검색엔진이다. 메타 검색엔진(Meta-search engine)이란 인터넷에서 규모가 큰 검색엔진들에 사용자가 입력한 검색키워드에 대해 의뢰한 뒤 결과를 가져오는 검색엔진이다.

또한 문서 파일 수집부(10)는 입력 수단을 통해 직접 입력하도록 할 수도 있다.

그리고 도표 추출부(20)는 문서 파일 수집부(10)에서 수집한 문서에서 도표를 추출한다. 여기서 도표란 그림(graph or chart) 또는 표(table)를 포함한 것이다.

이때 도표 추출부(20)는 자동문서인식 시스템을 이용하여 문서 파일 수집부(10)에서 수집된 문서 파일에서 도(그림) 또는 표(table)로 된 내용만을 추출할 수도 있고, 문서 파일 수집부(10)에서 수집된 문서 파일에서 도표목차를 참조하여 도(그림) 또는 표(table)로 된 내용만을 추출할 수도 있다.

여기서 자동문서인식 시스템은 한글, 영어, 한자, 숫자, 특수기호 등을 자동으로 인식하는 것이다.

또한 이미지 가공부(30)는 도표 추출부(20)에서 추출된 도표를 이미지로 가공하게 된다. 이러한 추출된 도표에 대한 이미지 가공을 통해 ANI, BMP, CGM, CAL, DIB, EPS, EMF, GIF, IMG, JPG, JFIF, JPE, JPEG, JPG, MAC, PBM, PCD, PCT, PCX, PGM, PIC, PNG, PPM, PSD, RAS, TGA, TIF, TIFF, WMF, WPG 등의 이미지 파일을 생성하게 된다.

여기서 ANI는 움직이는 마우스 커서 파일로 Animation의 뜻을 가지고 있다

BMP(Bitmap)는 윈도, OS/2 환경에서 사용되는 그래픽 파일 포맷이다.

CAL(CALS Raster)은 CALS Raster의 그래픽 파일 포맷이다.

CGM(Computer Graphics Metafile)은 2D 이미지 그래픽 표준 포맷이다.

DIB(Microsoft Device Independent)는 비트맵(Bitmap) 형식으로 저장된 그림 파일이다.

EMF(Enhanced Meta File)는 WMF와 동일하지만 32비트로 화질이 개선된 규약이다.

EPS(Encapsulated PostScript) 포스트스크립트(PostScript) 형식의 그림 파일이다.

GIF(Graphics Interchange Format)는 256컬러 이하로 표현되는 그래픽 파일 포맷으로 인터레이스드(Interlaced)를 지원한다. 이러한 GIF는 PC통신 서비스 업체인 컴퓨서브에서 이미지 자료를 게시하기 위해 만든 파일 규격이다.

IMG는 DTP 프로그램 벤추라(Ventura)에서 사용되는 이미지 파일이다.

JFIF는 이미지 압축 기술자 모임에서 만든 그래픽 파일 규격이다.

JPE는 이미지 압축 기술자 모임에서 만든 그래픽 파일 규격이다.

JPEG(Joint Picture Experts Group)는 이미지 압축 기술자 모임에서 만든 그래픽 파일 규격이다.

JPG는 풀 컬러(Full color)를 지원하고 저장 공간 점유율을 줄이기 위해서 이미지를 압축된 형태로 저장하게 하는 손실압축기법을 이용하여 압축률이 높고 파일의 크기로 작은 이미지 파일 포맷이다.

MAC(MacPaint)은 MacPaint의 그래픽 파일이다.

PBM(Portable Bitmap)은 비트맵 그래픽 파일이다.

PCD(Photo CD)는 Photo CD에서 사용하는 그림 파일이다.

PCT는 1984년 애플컴퓨터에서 만든 이미지 파일 포맷이다.

PCX는 Zsoft사의 PC Paintbrush 소프트웨어에 사용되는 그래픽 파일 규격이다.

PGM(Portable Greymap) 그레이맵 파일이다.

PIC(Lotus Picture File)는 벡터 방식의 그래픽 파일이다.

PNG(Portable Network Graphics)는 GIF를 대체하기 위한 파일로, 인터넷의 GIF 그래픽 파일은 저작권이 있는 압축 기술로 함부로 사용할 수 없기 때문에 저작 권이 없는 고유의 압축 기술로 PNG를 개발한 것이다. 이러한 PNG는 인터넷에서 이용하기 위해 만들어진 그래픽 포맷으로 인터레이스드를 지원하고 풀 컬러를 지원한다.

PPM(Portable Pixelmap)은 픽셀맵 파일이다.

PSD는 어도비사의 포토샵에서 사용되는 이미지 파일 포맷이다.

RAS(Raster)는 Sun Raster사의 이미지 파일 포맷이다.

TGA는 트루비전사의 타가 그래픽 포맷으로 고화질 이미지나 광추적 이미지에 사용된다.

TIF(Tag Image File Format)는 압축된 형식의 비트맵 이미지 파일이다.

TIFF(Tag Image File Format)는 비트맵 이미지 파일이다.

WMF(Windows Meta File)는 윈도우3.1, 윈도우95/98의 표준 그래픽 파일이다.

WPG는 워드퍼펙트에서 사용된 그래픽 파일 포맷이다.

이외에도 이미지 가공부(30)에서는 지원되는 다양한 형태의 그래픽 파일로 이미지를 가공하여 생성할 수 있도록 한다.

또한 텍스트 추출부(40)는 문서 파일 수집부(10)에서 수집한 문서에서 텍스트를 추출한다. 이때 텍스트 추출부(40)는 문서변환기를 이용하여 문서 파일 수집부(10)에서 수집된 문서 파일에서 텍스트를 추출할 수 있다. 또한 텍스트 추출부(40)는 도표 추출부(20)에서 사용하는 자동문서인식 시스템을 이용하여 텍스트를 추출할 수도 있다. 여기서 문서변환기는 수집된 문서에서 텍스트를 추출할 수 있도록 변환시킨다.

또한 원시데이터 생성부(50)는 텍스트 추출부(40)에서 추출한 내용을 전달받아 원시 데이터로 생성한다. 이때 엑셀 프로그램을 포함한 스프레드시트 프로그램을 이용하여 원시데이터를 생성할 수 있다. 여기서 스프레드시트 프로그램은 표 계산 등을 할 때 사용하는 프로그램으로서, MS 엑셀, Lotus 1-2-3, 훈민 시트 등의 프로그램을 사용할 수 있다.

또한 키워드 추출부(60)는 문서 파일 수집부(10)에서 수집한 문서에서 키워드를 추출한다. 이때 키워드로 추출하는 것은 수집된 문서 파일에 대한 도표의 제목, 좌표 또는 주요어휘 등이 된다.

또한 이미지 컨텐츠 생성부(70)는 이미지 가공부(30)에서 가공된 이미지와 원시데이터 생성부(50)에서 생성한 원시데이터와 키워드 추출부(60)에서 추출한 키워드를 전달받아 이미지 컨텐츠를 생성하게 된다. 이때 이미지 컨텐츠 생성부(70)는 생성한 이미지 컨텐츠의 레코드 항목에 일련번호, 제목, 도표이미지, 출처, 키워드, 분류, 원문, 일련번호 중에서 하나 이상이 포함되도록 할 수 있다.

도 3은 본 발명에 의해 생성한 컨텐츠의 레코드 항목의 예를 보인 도면이다.

그래서 '일련번호' 항목은 일정 규칙에 따라 번호를 부여한 것으로 도표이미지 파일명과 동일하게 설정할 수 있다.

또한 '제목' 항목은 도표의 이름을 나타낸 것으로, 원자료의 이름을 이해할 수 있도록 변경하는 것이 가능하게 설정한다.

또한 '도표이미지' 항목은 원자료를 스캐닝한 이미지자료로서 예를 들면 '파일명.jpg'의 포맷으로 설정할 수 있다.

또한 '출처' 항목은 원자료의 설명으로서, 논문의 인용자료 작성 수준 등이 포함되는데, 저자 / 발행기관 / 보고서명 / 게재면수 / 작성년월 / 원출처 등이 포함될 수 있다.

또한 '키워드' 항목은 검색을 위한 용어로서, 5개 이상으로 설정할 수 있다.

또한 '분류' 항목은 국가과학기술표준분류(복분류 적용) 및 자료특성 분류의 내용이다.

또한 '원문' 항목은 원문파일 등록 및 상세 URL(Uniform Resource Locator)을 기재할 수 있다.

도 4는 본 발명에 의해 생성한 컨텐츠의 샘플을 보인 도면이다.

그래서 '일련번호' 항목에는 "KTC200503"이 표시되고, '제목' 항목에는 ": 한국의 나노기술 관련 SCI 논문수 및 국가순위변화"와 같이 표시될 수 있으며, 또한 '도표이미지' 항목에는 도 4에서와 같이 추출된 이미지를 삽입한다.

또한 '저자' 항목에는 저자를 기재하고, '발행기관' 항목에는 "한국과학기술정보연구원"과 같이 기재할 수 있다.

또한 '보고서명' 항목에는 "나노기술연감 2005"와 같이 기재되도록 할 수 있고, '게재면수' 항목에는 "297"과 같이 기재되도록 할 수 있으며, '작성년월' 항목에는 "200605"와 같이 기재되도록 할 수 있으며, '원출처' 항목에는 필요한 내용이 기재되도록 할 수 있다.

또한 '키워드' 항목에는 "나노기술, SCI발표논문수, 논문분석, 국가순위"와 같이 기재되도록 할 수 있고, '분류' 항목에는 "B21, C08"과 같이 국가과학기술표 준분류 등을 적용하여 기재할 수 있으며, '원문' 항목에는 "NN1000345.pdf"와 같이 원문파일명 등을 기재할 수 있도록 한다.

이처럼 본 발명은 인터넷 상의 각종 문서형 파일에서 그림이나 표로 된 부분을 선택적으로 추출하여 그림이나 표를 전문적으로 검색하고 활용할 수 있도록 데이터베이스의 각 레코드를 자동으로 생성하게 되는 것이다.

이상에서 본 발명의 바람직한 실시예에 한정하여 설명하였으나, 본 발명은 이에 한정되지 않고 다양한 변화와 변경 및 균등물을 사용할 수 있다. 따라서 본 발명은 상기 실시예를 적절히 변형하여 응용할 수 있고, 이러한 응용도 하기 특허청구범위에 기재된 기술적 사상을 바탕으로 하는 한 본 발명의 권리범위에 속하게 됨은 당연하다 할 것이다.

* 도면의 주요 부분에 대한 부호의 설명 *

10 : 문서 파일 수집부

20 : 도표 추출부

30 : 이미지 가공부

40 : 텍스트 처리부

50 : 원시데이터 생성부

60 : 키워드 추출부

70 : 이미지 컨텐츠 생성부

Claims

인터넷 또는 입력 수단을 통해 기술 및 시장 동향 관련 문서 파일을 수집하는 문서 파일 수집부와;

상기 문서 파일 수집부에서 수집한 문서에서 도표를 추출하는 도표 추출부와;

상기 도표 추출부에서 추출된 도표를 이미지로 가공하는 이미지 가공부와;

상기 문서 파일 수집부에서 수집한 문서에서 텍스트를 추출하는 텍스트 추출부와;

상기 텍스트 추출부에서 추출한 내용을 전달받아 원시 데이터로 생성하는 원시데이터 생성부와;

상기 문서 파일 수집부에서 수집한 문서에서 키워드를 추출하는 키워드 추출부와;

상기 이미지 가공부에서 가공된 이미지와 상기 원시데이터 생성부에서 생성한 원시데이터와 상기 키워드 추출부에서 추출한 키워드를 전달받아 이미지 컨텐츠를 생성하는 이미지 컨텐츠 생성부;

를 포함하여 구성되는 것을 특징으로 하는 정보분석형 도표 컨텐츠 추출 및 생성을 위한 시스템.
청구항 1에 있어서,

상기 문서 파일 수집부는,

검색 로봇을 이용하여 인터넷에서 문서 파일을 수집하는 것을 특징으로 하는 정보분석형 도표 컨텐츠 추출 및 생성을 위한 시스템.
청구항 1에 있어서,

상기 도표 추출부는,

자동문서인식 시스템을 이용하여 상기 문서 파일 수집부에서 수집된 문서 파일에서 도 또는 표로 된 내용만을 추출하는 것을 특징으로 하는 정보분석형 도표 컨텐츠 추출 및 생성을 위한 시스템.
청구항 1에 있어서,

상기 도표 추출부는,

상기 문서 파일 수집부에서 수집된 문서 파일에서 도표목차를 참조하여 도 또는 표로 된 내용만을 추출하는 것을 특징으로 하는 정보분석형 도표 컨텐츠 추출 및 생성을 위한 시스템.
청구항 1에 있어서,

상기 이미지 가공부는,

이미지 가공시 ANI, BMP, CGM, CAL, DIB, EPS, EMF, GIF, IMG, JPG, JFIF, JPE, JPEG, JPG, MAC, PBM, PCD, PCT, PCX, PGM, PIC, PNG, PPM, PSD, RAS, TGA, TIF, TIFF, WMF, WPG 중에서 하나 이상의 이미지 파일로 가공하는 것을 특징으로 하는 정보분석형 도표 컨텐츠 추출 및 생성을 위한 시스템.
청구항 1에 있어서,

상기 텍스트 추출부는,

문서변환기를 이용하여 상기 문서 파일 수집부에서 수집된 문서 파일에서 텍스트를 추출하는 것을 특징으로 하는 정보분석형 도표 컨텐츠 추출 및 생성을 위한 시스템.
청구항 1에 있어서,

상기 텍스트 추출부는,

상기 도표 추출부에서 사용하는 자동문서인식 시스템을 이용하여 텍스트를 추출하는 것을 특징으로 하는 정보분석형 도표 컨텐츠 추출 및 생성을 위한 시스템.
청구항 1에 있어서,

상기 원시데이터 생성부는,

엑셀 프로그램을 포함한 스프레드시트 프로그램을 이용하여 원시데이터를 생성하는 것을 특징으로 하는 정보분석형 도표 컨텐츠 추출 및 생성을 위한 시스템.
청구항 1에 있어서,

상기 키워드 추출부는,

수집된 문서 파일에 대해 도표의 제목, 좌표 또는 주요어휘 중에서 하나 이상을 키워드로 추출하는 것을 특징으로 하는 정보분석형 도표 컨텐츠 추출 및 생성을 위한 시스템.
청구항 1 내지 청구항 9 중 어느 하나의 항에 있어서,

상기 이미지 컨텐츠 생성부는,

생성한 이미지 컨텐츠의 레코드 항목에 일련번호, 제목, 도표이미지, 출처, 키워드, 분류, 원문, 일련번호 중에서 하나 이상이 포함되도록 하는 것을 특징으로 하는 정보분석형 도표 컨텐츠 추출 및 생성을 위한 시스템.
인터넷 또는 입력 수단을 통해 기술 및 시장 동향 관련 문서 파일을 수집하는 제 1 단계와;

상기 제 1 단계에서 수집된 문서에서 도표가 추출되도록 하는 제 2 단계와;

상기 제 2 단계에서 추출된 도표가 이미지로 가공되도록 하는 제 3 단계와;

상기 제 1 단계에서 수집된 문서에서 텍스트가 추출되도록 하는 제 4 단계와;

상기 제 4 단계에서 추출된 내용이 원시 데이터로 생성되도록 하는 제 5 단계와;

상기 제 1 단계에서 수집된 문서에서 키워드가 추출되도록 하는 제 6 단계와;

상기 제 3 단계에서 가공된 이미지와 상기 제 4 단계에서 생성된 원시데이터와 상기 제 6 단계에서 추출된 키워드를 이용하여 이미지 컨텐츠를 생성하는 제 7 단계;

를 포함하여 구성되는 것을 특징으로 하는 정보분석형 도표 컨텐츠 추출 및 생성을 위한 방법.
청구항 11에 있어서,

상기 제 1 단계는,

검색 로봇을 이용하여 인터넷에서 문서 파일이 수집되도록 하는 것을 특징으로 하는 정보분석형 도표 컨텐츠 추출 및 생성을 위한 방법.
청구항 11에 있어서,

상기 제 2 단계는,

자동문서인식 시스템을 이용하여 상기 제 1 단계에서 수집된 문서 파일에서 도 또는 표로 된 내용만을 추출하는 것을 특징으로 하는 정보분석형 도표 컨텐츠 추출 및 생성을 위한 방법.
청구항 11에 있어서,

상기 제 2 단계는,

1. 상기 제 1 단계에서 수집된 문서 파일에서 도표목차를 참조하여 도 또는 표로 된 내용만을 추출하는 것을 특징으로 하는 정보분석형 도표 컨텐츠 추출 및 생성을 위한 방법.
청구항 11에 있어서,

상기 제 3 단계는,

이미지 가공시 ANI, BMP, CGM, CAL, DIB, EPS, EMF, GIF, IMG, JPG, JFIF, JPE, JPEG, JPG, MAC, PBM, PCD, PCT, PCX, PGM, PIC, PNG, PPM, PSD, RAS, TGA, TIF, TIFF, WMF, WPG 중에서 하나 이상의 이미지 파일로 가공하는 것을 특징으로 하는 정보분석형 도표 컨텐츠 추출 및 생성을 위한 방법.
청구항 11에 있어서,

상기 제 4 단계는,

문서변환기를 이용하여 상기 제 1 단계에서 수집된 문서 파일에서 텍스트를 추출하는 것을 특징으로 하는 정보분석형 도표 컨텐츠 추출 및 생성을 위한 방법.
청구항 11에 있어서,

상기 제 4 단계는,

도표 추출시 사용하는 자동문서인식 시스템을 이용하여 텍스트를 추출하는 것을 특징으로 하는 정보분석형 도표 컨텐츠 추출 및 생성을 위한 방법.
청구항 11에 있어서,

상기 제 5 단계는,

엑셀 프로그램을 포함한 스프레드시트 프로그램을 이용하여 원시데이터를 생성하는 것을 특징으로 하는 정보분석형 도표 컨텐츠 추출 및 생성을 위한 방법.
청구항 11에 있어서,

상기 제 6 단계는,

수집된 문서 파일에 대해 도표의 제목, 좌표 또는 주요어휘 중에서 하나 이상을 키워드로 추출하는 것을 특징으로 하는 정보분석형 도표 컨텐츠 추출 및 생성을 위한 방법.
청구항 11 내지 청구항 19 중 어느 하나의 항에 있어서,

상기 제 7 단계는,

생성한 이미지 컨텐츠의 레코드 항목에 일련번호, 제목, 도표이미지, 출처, 키워드, 분류, 원문, 일련번호 중에서 하나 이상이 포함되도록 하는 것을 특징으로 하는 정보분석형 도표 컨텐츠 추출 및 생성을 위한 방법.