KR100562276B1 - 전자문서 분철기술과 전문검색기술을 통합한 페이지 검색정보 제공 시스템 및 방법 - Google Patents

전자문서 분철기술과 전문검색기술을 통합한 페이지 검색정보 제공 시스템 및 방법 Download PDF

Info

Publication number
KR100562276B1
KR100562276B1 KR1020040058908A KR20040058908A KR100562276B1 KR 100562276 B1 KR100562276 B1 KR 100562276B1 KR 1020040058908 A KR1020040058908 A KR 1020040058908A KR 20040058908 A KR20040058908 A KR 20040058908A KR 100562276 B1 KR100562276 B1 KR 100562276B1
Authority
KR
South Korea
Prior art keywords
page
document
keyword
search
file
Prior art date
Application number
KR1020040058908A
Other languages
English (en)
Other versions
KR20060010277A (ko
Inventor
최태헌
Original Assignee
최태헌
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 최태헌 filed Critical 최태헌
Priority to KR1020040058908A priority Critical patent/KR100562276B1/ko
Publication of KR20060010277A publication Critical patent/KR20060010277A/ko
Application granted granted Critical
Publication of KR100562276B1 publication Critical patent/KR100562276B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

문서 및 캐드도면등의 전자문서를 분철하여 페이지 단위로 정보를 제공할 수 있는 페이지검색 시스템이 개시된다. 페이지 검색 시스템이란, 사용자 단말기로부터 전문 검색 (FTR : Full Text Retrieval) 및 메타 검색(Meta Keyword) 요청에 대하여, 검색어가 포함된 문서 전체가 아닌 해당 페이지만을 원문형태의 레이아웃 그대로 사용자 단말기로 제공하는 것으로서 전자문서분철 및 텍스트 필터링 서버, 검색엔진 서버 그리고 사용자의 요청에 대해 페이지를 제공하는 서비스제공서버로 구성된다.
검색, 전문검색, FTR, 메타검색, 키워드검색, 페이지, 문서, 도면, 그림, 이미지, 캐드, 스캔, OCR

Description

전자문서 분철기술과 전문검색기술을 통합한 페이지 검색 정보 제공 시스템 및 방법 {Server-side Document to Sheets Transformation System and Method on Providing Search-Result in a Native Page-Layout Format}
도 1은 본 발명에 따른 사용자가 요구하는 문서의 페이지별 제공 시스템의 바람직한 실시예를 도시한 블록도,
도 2는 도 1의 파일변환부를 보다 상세히 도시한 블록도,
도 3은 도 1의 파일변환부의 해당 문서에 대한 페이지 레이아웃 과정을 도시한 플로우도,
도 4는 도 1의 텍스트 추출부의 키워드 텍스트 추출 과정의 예를 나타낸 플로우도, 그리고
도 5는 본 발명의 문서의 페이지별 제공 시스템을 이용한 검색 문서 제공 방법의 바람직한 실시예를 도시한 흐름도이다.
본 발명은 전문검색을 이용한 검색 정보 제공 시스템 및 방법에 관한 것으로 서, 보다 상세하게는, 검색단어가 포함된 전자문서의 해당 페이지를 보다 빠르고 정확하게 제공할 수 있는 페이지 검색 정보 제공 시스템 및 방법에 관한 것이다.
유무선 인터넷이 급속도로 보급됨에 따라 사용자들은 통신 단말기를 이용하여 자신이 필요로 하는 정보들을 해당 웹사이트 또는 검색 사이트에 접속하여 간편하게 제공받을 수 있는 서비스가 일반화되어 있다. 해당 정보를 제공받고자 하는 경우, 사용자는 해당 웹사이트 또는 검색 사이트에 접속하여 해당 정보가 포함된 문서를 다운로드 받은 후, 자신이 찾고자 하는 정보를 확인하는 방법을 통해 이루어진다. 따라서 종래에는 해당 자료를 제공받고자 하는 경우, 자신이 꼭 필요로 하는 자료가 아니더라도 일단 검색한 문서 전체를 다운로드 하여야 하는 문제점이 있다.
최근에는 제공되는 전자문서가 PDF, HWP, GUL, DOC, XLS, PPT, DWG, TIF 등 다양한 포맷으로 되어 있으며 용량이 대형화되고 있으며, 해당 문서를 제공받기 위해 접속하는 사용자가 양적으로 폭주하고 있다. 이에 따라 해당 정보를 제공받고자 하는 사용자는 그 정보가 대용량의 전자문서에 포함된 자료인 경우, 즉 200쪽의 문서에서 단 1쪽만이 필요한 경우라도 200쪽의 전자문서를 다운로드하여 이를 살펴보는데 많은 시간과 노력을 소비되는 문제점이 있다.
따라서 사용자가 원하는 해당 정보를 제공받고자 하는 경우, 상기의 불합리한 자료 검색 시간을 단축시키기 위해 원하는 페이지를 사용자가 웹상에서 문서의 해당페이지를 먼저 확인하고 필요 하다면 확인한 자료를 다운로드할 수 있도록 하는 서비스가 요구된다.
한편, 기업유통정보의 80%에 달하는 비정형데이터(Unstructured Data), 즉 사용자의 데스크탑에서 생성되는 각종 전자문서의 생성은 지속적으로 증가하여 2~3개월마다 그 양이 배가되고 있다.
그 중에서도 응용프로그램에 종속적인 비정형데이터는 실제 비즈니스 환경에서 심각한 문제를 야기하기도 한다. 즉, 사용자가 제공받고자 하는 자료의 포맷이 사용자의 컴퓨터에 인스톨된 뷰어 프로그램을 통해 표시할 수 없는 형식인 경우, 사용자는 수신한 자료를 즉각적으로 확인할 수 없는 문제점이 있다. 예를 들어, 훈민정음이 설치되지 않은 컴퓨터의 사용자가 훈민정음으로 작성된 문서를 컴퓨터를 이용하여 수신 또는 검색하였을 때, 해당 문서를 즉각 액세스할 수 없게 된다.
이러한 문제점을 해결하기 위해 다양한 문서형식과 버전을 지원하는 뷰어 애플리케이션을 컴퓨터마다 설치한다면, 해당 애플리케이션의 구입에 따른 비용이 많이 드는 어려움이 있다.
기업에서의 문서 컨텐츠비용은 문서 재작업, 문서검색 및 다운로드에 소요되는 시간, 기회상실비용, 컴퓨터 애플리케이션의 라이센스 비용, 심각한 데이터 손실등 매우 소모적인 형태로 지출되게 된다. 이러한 모든 비용을 최소화하기 위해 모든 비정형문서를 웹에서 페이지단위로 검색 및 표시 가능한 형태로 변환시키는 방법이 요구된다.
상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, 전자문서변환기술과 검색엔진을 융합하여 검색하고자 하는 해당 문서를 페이지 단위로 제공할 수 있는 검색 정보 제공 시스템 및 방법을 제공하는 데 있다.
본 발명의 다른 목적은, 사용자가 검색하고자 하는 해당 문서를 표시하기 위한 뷰어 애플리케이션이 설치되어 있지 않은 통신 단말기에서 상기 문서를 표시할 수 있는 포맷으로 변화하여 상기 통신 단말기에 제공할 수 있는 페이지 검색 정보 제공 시스템 및 방법을 제공하는 데 있다.
상기와 같은 목적은 본 발명에 따라, 전문검색을 지원하는 검색 정보 제공 시스템에 있어서, 전자문서를 서버상에서 페이지단위로 원문의 레이아웃을 유지한채 분철하고 텍스트를 추출하는 페이지 서버, 페이지별로 전문검색이 가능하도록 인덱싱하여주는 검색엔진서버, 그리고 사용자의 검색 요청에 대하여, 단어및 문장을 분석하여 화면에 표시해주는 서비스제공 시스템에 의해 달성된다.
바람직하게는, 상기 페이지서버는, 해당 문서에 대해 페이지 레이아웃을 유지한 채로 분철하고, 각 페이지마다 존재하는 폰트정보를 분리하여 공유하도록 하며, 압축포맷으로 변환하여 페이지 단위로 즉각 액세스가 가능하도록 처리하는 파일변환부 및 상기 문서의 원래 형태에 따라 전문검색을 위한 키워드를 각 페이지별로 선택적으로 추출하는 텍스트추출부를 포함한다.
상기 파일변환부는, 상기 문서의 파일 형식에 따라 페이지 레이아웃 변환을 위한 해당 프로그램 라이브러리에 관한 정보가 등록되어 있는 변환할당테이블 및 상기 문서를 페이지 레이아웃으로 변환시 각 파일형식에 따라 제어해야할 프로그램에 대한 제어부분이 등록된 변환특성테이블을 구비한다.
상기 파일변환부는 상기 변환할당테이블에 등록되어 있지 않은 파일 형식을 갖는 문서에 대해, 프린터 드라이버를 이용하여 EMF(Enhanced Meta Format)파일로 변환하고, 각 페이지로부터 폰트정보를 분리하여 폰트파일을 생성하여 공유하도록 하며, 압축된 페이지 레이아웃 형식으로 변환한다.
상기 텍스트 추출부는 상기 추출한 키워드를 XML 및 HTML 중 어느 하나의 형식으로 가공할 수도 있다.
상기 문서의 원래 형태가 전자문서인 경우, 상기 텍스트 추출부는 프린터 드라이버를 이용하여 프린터 출력방향을 바꾸어 EMF(Enhanced Meta Format) 파일로 인쇄하고 키워드를 페이지별로 추출하며, 페이지에 존재하는 폰트정보를 분리하여 모든 페이지에서 공유하도록 처리한다.
상기 문서의 원래 형태가 스캔 이미지 문서인 경우, 상기 텍스트 추출부는 OCR기술을 이용하여 페이지별로 이미지 내의 키워드를 추출한다.
상기 문서의 원래 형태가 캐드 도면파일인 경우, 상기 텍스트 추출부는 최종 생성된 페이지 레이아웃 파일로부터 키워드 텍스트를 추출한다.
상기 서비스 제공서버는, 상기 문서의 원래 형태가 스캔 이미지 및 캐드 도면 중 어느 하나인 경우, 상기 스캔 이미지 또는 상기 도면을 신속한 액세스를 위해 상기 스캔 이미지 또는 상기 캐드 도면을 이미지 스트리밍을 위한 타일 이미지(Tiled Image) 형식으로 변환한다.
한편, 상기와 같은 목적은 본 발명의 실시예에 따라, 키워드를 이용한 검색정보 제공 시스템을 이용한 키워드 검색 정보 제공 방법에 있어서, 키워드가 포함 된 문서의 검색을 요청하는 신호를 수신하는 단계; 및 상기 검색 요청 신호에 대응하여, 상기 키워드를 포함하는 문서로부터 상기 키워드가 포함된 페이지를 페이지 단위로 제공하는 단계를 포함하는 키워드 검색 정보 제공 방법에 의해 달성된다.
바람직하게는, 본 실시예의 키워드 검색 정보 제공 방법은, 상기 검색 요청 신호를 수신하면, 상기 키워드를 포함하는 문서를 상기 페이지 단위로 제공 가능한 지를 판단하는 단계; 상기 페이지 단위로 제공할 수 없는 경우, 상기 키워드가 포함된 문서에 대한 페이지 레이아웃 및 상기 레이아웃에 따른 각 페이지별 검색 키워드의 추출을 요청하는 단계; 및 상기 페이지 레이아웃 및 상기 검색 키워드 추출의 요청에 대응하여 상기 문서에 대해 처리된 페이지 레이아웃 처리정보를 수신하면, 상기 수신한 페이지 레이아웃 처리정보를 상기 검색 요청 신호에 대응하여 제공하는 단계를 더 포함한다.
상기 페이지 레이아웃 처리정보는, 상기 키워드가 포함된 문서에 대한 페이지 레이아웃, 메타파일, 및 폰트파일이 포함된 정보이다. 상기 메타파일은 상기 레이아웃에 따른 각 페이지정보, 및 메타정보를 포함한다.
본 발명에 따르면, 해당 문서/도면/이미지 컨텐츠에 대해 페이지별로 레이아웃을 생성하고 각 페이지별로 검색 키워드 텍스트를 추출하여 각각 데이터베이스화 함으로써, 문서/도면/이미지 컨텐츠를 웹환경에서 페이지단위로 고속으로 액세스할 수 있다. 또한, 유사한 페이지 또는 비교해야할 페이지를 즉각 동적으로 조합하여 실시간으로 표시할 수 있다.
이하, 본 발명의 바람직한 실시예들을 첨부한 도면을 참조하여 상세히 설명 한다. 도면들 중 동일한 구성요소들은 가능한 한 어느 곳에서든지 동일한 부호들로 나타내고 있음에 유의해야 한다. 또한 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략한다.
도 1은 본 발명에 따른 사용자가 요구하는 문서의 페이지별 제공 시스템의 바람직한 실시예를 도시한 블록도이다.
도시된 바와 같이, 본 실시예의 문서의 페이지별 제공 시스템은, 서비스 제공서버(100), 페이지처리부(200), 정보제공서버(400)를 포함할 수 있다.
서비스 제공서버(100)는 유저인터페이스를 통해 사용자로부터 요구 또는 정보제공서버(400)로부터 요구되는 해당 문서의 페이지 레이아웃 요청정보에 따라 문서의 페이지 레이아웃 및 레이아웃된 페이지별 검색을 위한 텍스트 처리를 위한 전반적인 동작을 제어 및 모니터링한다. 또한 서비스 제공서버(100)는 해당 문서에 대한 페이지 레이아웃 처리가 요청되면, 상기 문서에 대해 보안을 처리한다.
구체적으로 서비스 제공서버(100)는 아래와 같이 문서에 대해 보안 처리를 수행한다. 첫째 서비스 제공서버(100)는 문서 검색의 이용 만료기간 및 문서에 대한 암호를 설정한다. 둘째 서비스 제공서버(100)는 문서에 대해 스크린 배너, 스크린 워터마크, 프린터 배너, 프린터 워터마크 등을 설정한다. 셋째 서비스 제공서버(100)는 문서에 대해 인쇄, 클립보드복사, 레이어 제어, 마크업 조회 등의 허용 및 방지를 설정한다.
페이지처리부(200)는 서비스 제공서버(100)의 제어에 따라 문서에 대해 페이지 단위로 분철하여 페이지 레이아웃을 생성하고 상기 문서에 대한 전문 검색을 위 한 검색 키워드를 추출 및 썸네일을 작성한다.
페이지처리부(200)는 파일변환부(220), 및 텍스트추출부(240)를 갖는다. 파일변환부(220)는 문서에 대해 페이지 레이아웃을 유지한 채로 분철하고, 페이지마다 존재하는 폰트정보를 분리하여 공유하도록 하며, 압축포맷으로 변환하여 페이지 단위로 즉각 액세스가 가능하도록 처리한다.
바람직하게는, 파일변환부(220)는 도 2와 같이 문서의 파일형식에 따라 이를 인식하고 하나의 통합된 페이지 레이아웃으로 변환하기 위한 테이블이 마련된 데이터베이스(230)를 구비한다.
상기 데이터베이스(230)는 변환할당테이블(232) 및 변환특성테이블(234)을 구비한다. 변환할당테이블(232)은 문서의 파일 형식에 따라 페이지 레이아웃 변환을 위한 해당 프로그램이 할당된 정보를 나타내는 테이블이다. 변환특성테이블(234)은 문서를 페이지 레이아웃으로 변환시 각 파일형식에 따라 제어해야할 프로그램에 대한 제어부분이 등록된 테이블이다.
아래 [표 1]은 변환할당테이블(232)의 예를 도시한 것이다.
확장자 변환기 컴포넌트 파일 형식
Emf emf2dl EMF 파일
Wmf emf2dl WMF 파일
Xxx 테스트2dl 테스트 파일
Xdf 테스트2dl 테스트 파일
Arx arx2dl Arx 플러그인
Pdf pdf2dl Pdf 파일
Ps pdf2dl 포스트스크립트
Cc cc2dl Ecad CC 파일
Ccz cc2dl Ecad CC 파일
Dwg dwg2dl 오토캐드 dwg 파일
Dxf dwg2dl 오토캐드 dxf 파일
Dgn dgn2dl 마이크로스테이션 Ver8
Dbf inso2dl xBase Database
Doc inso2dl 마이크로소프트 워드
Drw inso2dl Micrografx Products
Fax inso2dl CCITT Group3 Fax
Flw inso2dl Freelance 파일
Fmt inso2dl FoxPro for Windows
Fwk inso2dl Framework IIIE10
Htm inso2dl HTM 문서
Html inso2dl HTML 문서
Ppt inso2dl 파워포인트
Prs inso2dl Harvard Graphics
Prz inso2dl Freelance Graphics
rnd inso2dl Auto Shade Rendering 파일포맷
rtf inso2dl 리치텍스트포맷
sam inso2dl SAMAMI Word Processing
vsd inso2dl Visio 파일
vw inso2dl Volkswriter 3&4
wk1 inso2dl 로터스 스프레드 쉬트
wk3 inso2dl 로터스 스프레드 쉬트
wmf inso2dl WMF Windows Meta 파일
wp inso2dl WordPerfect
wp5 inso2dl WordPerfect 5.0
wp6 inso2dl WordPerfect 6.0
wpd inso2dl WordPerfect
wpf inso2dl WordPerfect4.2
wpg inso2dl WordPerfect Graphic1.0
wri inso2dl Windows Meta 파일
ws inso2dl WS WordStar
xls inso2dl XLS 엑셀
axp myrimcs.dll AXP Database
확장자 변환기 컴포넌트 파일 형식
000 myrihpgl.dll PLT HPGL Plot
906 myri906.dll 906Plot 파일
907 myri906.dll 907Plot 파일
bmp myribmp.dll Windows Bitmap
cal myriiso.dll CALS Group IV
cg4 myriiso.dll CALS Group IV
cg4/dwg/ref GTX RasterCAD
cgm myricgm.dll CGM Group IV
cit myricit.dll CIT Intergraph GroupIV
cit/dgn DGN IRAS
cmi myrime10.dll CMI HP CADM
dc Auto-trol Composite
dcx myripcx.dll Intel Fax Board
dg myridg.dll Auto-trol Vector
dgn7 myridgn.dll Intergraph Drawing
dif myridif.dll Raytheon G4
dft myrise.dll SolidEdge Draft
dls Myriad Display List
dsf 문서Stack
dsn myriorcad.dll OrCad Drawing
dwg myridwg.dll 오토캐드 도면
dwf myridwf.dll 오토캐드Drawing web format
dx myridx.dll Auto-trol Raster
dx/dg/dc Auto-trol Composite
dxf myridwg.dll Data Exchange Format
edc myrisgi.dll ED CARS
edm myriedm.dll ED MICS
ftk myriftk.dll FormtekRaster
g3 myrigtx.dll GTX GroupIII
g4/dwg/ref GTX RasterCAD
g4 myrigtx.dll GTX GroupIV
gif myrigif.dll CompuServe Graphics
gp4 myriiso.dll CALS Group IV
gp4/dwg/ref RasterCAD
gp4/dwg Image Systems CadOverlay
grp Myriad's Group 파일
확장자 변환기 컴포넌트 파일 형식
igs myriiges.dll Initial Graphics Exchange Specification
idw myriidw.dll Inventor Format
iso myriiso.dll ISO8613/CALS
jpg myrijpg.dll JPEG Compressed Image
jpeg myrijpg.dll JPEG Compressed Image
mcs myrimcs.dll Anvil Format
mi myrime10.dll HP CAD ME10
mil myriiso.dll CALS Group IV
mot myrimot.dll Motorola
mrk 마크업 형식
m3r myrimvs.dll Myriad RedlineViewSet
mvs myrimvs.dll MyriadViewSet
mvp myrimvs.dll Published Myriad View Set
pcx myripcx.dll PCPaint
plt myrihpgl.dll HPGLPlot
hgl myrihpgl.dll HPGLPlot
png myripng.dll Raster
prt myriprt.dll Cadkey
ref GTX Reference
res=S Image Systems Resource
rlc myrirlc.dll CADOverlay
rlc/dwg CadOverlay
rle myrirle.dll Intergraph Runlength
rnl myrigtx.dll GTX Runlength
rnl/dwg/ref GTX Raster CAD
rtl myrirtl.dll Myriad Internal Format
slddrw myriswdwg.dll SolidWorks Drawing 파일
tif myrisgi.dll Tagged Image 파일
tiff myrisgi.dll Tagged Image 파일
tg4 myricit.dll CIT Intergraph Group IV
txt myritxt.dll ASCII 텍스트
xml XML 마크업 형식
한편, 문서의 파일형식에 따른 변환특성테이블(234)의 종류는 AutoCAD, Dawing Web Format, OrCAD, Solidworks driver, IGES-Initial Graphic exchange Specification, PostScript, CGM, HP ME10, AutoTrol, Calcomp 906/907, HPGL-HP Graphic Language, DgnHybrid-IRAS format, DGN-Microstation, 및 GTX Raster CAD 등이 있다. 아래 [표 2]는 변환특성테이블(234) 중 오토캐드파일형식의 변환특성 테이블 예를 도시한 표이다.
제어부분 사용자 정의 내용
SHXPATH 폰트파일이 위치하고 있는 폴더
XREFPATH 외부참조도면이 위치하고 있는 폴더
WhiteToBlack 배경색상을 희게 하거나 검게하는 옵션
ThawAllLayer 레이어를 전부 풀어서 퍼블리슁
UseTTF 트루타입폰트의 사용여부
TrueTypeFill 트루타입폰트를 처리하는 방법
MaxCircleSegs 원을 표현할때의 거칠기 정의
OutPutAttribute 조회시에 블록의 속성을 나타내도록 함
TagOrPrompt 속성이 태그로 나타나게 하거나 프롬프트로 나타나게 제어
Quality 퍼블리슁된 도면의 품질
파일변환부(220)는 수없이 많은 종류의 파일형식을 갖는 문서를 하나의 통합된 페이지 레이아웃으로 변환하기 위하여 직접변환방식 또는 프린터드라이버 변환방식을 이용한다.
직접변환방식은 변환할당테이블(232)에 등록된 파일형식에 대응하는 문서에 대한 변환방식이고, 프린터드라이버 변환방식은 변환할당테이블(232)에 등록되어 있지 않은 파일형식을 갖는 문서를 EMF프린터드라이버를 이용하여 변환하는 방식이다. 이에 따라, 파일변환부(220)는 변환테이블(232)을 참조하여 파일 변환이 가능한 목록에 등록된 파일형식의 문서는 직접변환으로 변환하고, 등록되지 않은 파일형식의 문서는 프린터의 출력 방향을 역방향으로 인쇄(Redirect)하여 파일로 만드는 프린터드라이버 변환방식을 이용한다.
한편, 텍스트 추출부(240)는 원래 문서의 형태에 따라 아래와 같이 세 가지 방식으로 전문검색을 위한 키워드를 추출한다. 이때 텍스트 추출부(240)는 정보제공서버(400)의 요구사항에 대응하도록 키워드 그대로 또는 XML, HTML 등으로 가공 처리한다.
첫째 원래 문서의 형태가 전자문서인 경우, 텍스트 추출부(240)는 프린터 드라이버를 이용하여 프린터 출력방향을 바꾸어(Redirect) EMF(Enhanced Meta Format) 파일로 인쇄하고 키워드 텍스트를 페이지별로 추출한다. 텍스트 추출부(240)는 페이지마다 폰트정보를 가지고 있으므로 파일사이즈가 매우 큰 EMF 파일에서 폰트정보를 분리하여 폰트는 모든 페이지에서 공유하도록 한다. 이에 따라 텍스트 추출부(240)는 폰트정보를 빼낸 순수한 페이지 레이아웃을 갖는 고밀도로 압축된 페이지를 생성하게 된다.
이에 대한 결과물로서, 페이지구성 메타데이터 파일, 폰트정보, 분철된 각각의 페이지 레이아웃, 각 페이지별 키워드 텍스트 추출파일, 및 각 페이지별 미리보기용 썸네일 등이 얻어진다.
이와 같이 전자문서에 대해 프린터드라이버를 이용한 페이지 레이아웃을 제공하고 검색을 위한 키워드 텍스트를 설정할 경우, 수많은 원래 문서의 파일형식에 대응하여 프로그램을 일일이 개발할 필요가 없는 장점이 있다.
둘째, 원래 문서의 형태가 스캔 이미지 문서인 경우, 텍스트 추출부(240)는 OCR기술을 이용하여 페이지별로 이미지 내의 키워드 텍스트를 추출한다.
이에 대한 결과물로서, 페이지구성 메타데이터 파일, 분철된 각각의 페이지 레이아웃, 각 페이지별 키워드 텍스트 추출파일, 및 각 페이지별 미리보기용 썸네일 등이 얻이진다.
스캔 이미지 문서인 경우, 페이지 처리부(200)는 원래 이미지가 큰 이미지이 면 신속한 액세스를 위해 스캔 이미지를 이미지 스트리밍을 위한 타일 이미지(Tiled Image) 형식으로 만들 수 있다.
셋째, 원래 문서의 형태가 캐드 도면파일인 경우, 텍스트 추출부(240)는 최종 생성된 페이지 레이아웃 파일에서 키워드 텍스트를 추출한다.
이에 대한 결과물로서, 페이지 메타데이터 파일, 페이지 레이아웃 파일, 텍스트 추출파일, 및 미리보기용 썸네일 등이 얻어진다.
캐드 도면파일이 큰 사이즈의 도면인 경우, 페이지 처리부(200)는 스캔 이미지와 동일하게 신속한 액세스를 위해 캐드 도면을 이미지 스트리밍을 위한 타일 이미지 형식으로 만들 수 있다.
이와 같이 캐드 도면 파일에 대해 최종 결과물에서 텍스트를 추출하므로, 수많은 캐드 형식에 대응하여 해당 소프트웨어를 구비할 필요가 없으며 간단한 키워드 텍스트의 추출이 가능하다.
한편, 표시부(300)는 웹기반의 통합 뷰어로서 페이지 처리부(200)의 해당 문서에 대한 페이지 레이아웃 처리동작을 표시한다. 이때 표시부(300)는 원래 문서를 표시하는 것이 아니라, 페이지별로 분철된 사본을 매우 압축된 상태로 낱장단위로 표시하므로 표시속도가 빠르다. 또한 표시부(300)는 벡터기반의 뷰어와 이미지기반의 뷰어를 하나의 인터페이스로 통합한 뷰어를 사용한다.
한편, 정보제공서버(400)는 서지정보 데이터베이스(520), 검색 키워드 데이터베이스(540), 및 페이지 레이아웃 데이터베이스(560)를 구비한다.
서지정보 데이터베이스(520)는 해당 문서의 페이지 레이아웃에 따른 페이지 별 서지정보가 저장되어 있다. 여기서 서지정보는 관리자로부터 직접 입력받거나 문서 제공자로부터 XML로 수신 받을 수 있다. 검색 키워드 데이터베이스(540)는 텍스트 추출부(240)에서 추출한 문서에 대한 전문 검색을 위해 추출한 키워드 텍스트가 저장되어 있다. 페이지 레이아웃 데이터베이스(560)는 파일변환부(220)에서 변환한 문서에 대응하는 페이지 레이아웃 정보가 저장되어 있다.
따라서, 해당 문서/도면/이미지 컨텐츠에 대해 페이지별로 레이아웃을 생성하고 각 페이지별로 검색 키워드 텍스트를 추출하여 각각 데이터베이스화 함으로써, 문서/도면/이미지 컨텐츠를 웹환경에서 페이지단위로 고속으로 액세스할 수 있다. 또한, 유사한 페이지 또는 비교해야할 페이지를 즉각 동적으로 조합하여 실시간으로 표시할 수 있다. 뿐만 아니라, 인쇄가 가능한 어떠한 파일로부터도 전문검색이 가능하고, 검색엔진과 연결하여 각 페이지에 대한 전문검색(FTR)을 가능하게 하며, 검색된 페이지에 대한 썸네일을 제공하므로 직관적인 검색이 가능하다. 또한, 모든 파일을 페이지 처리부(220)를 통해 하나의 통합된 형식으로 변환함으로써, 클라이언트 사용자측에서는 하나의 뷰어 프로그램을 이용하여 모든 종류의 파일을 볼 수 는 멀티 포맷 싱글 뷰(Multi format Single View)를 구현할 수 있다. 페이지별 검색 키워드 텍스트를 추출하여 데이터베이스화 함으로써, 문서 단위가 아니라 페이지 단위로 키워드별 검색이 가능하다.
도 3은 파일변환부(220)의 해당 문서에 대한 페이지 레이아웃 과정을 도시한 플로우도이다.
파일변환부(220)는 서비스제공서버(100)로부터 문서 파일의 입력 여부를 판 별한다(S110). 문서 파일이 입력되지 않으면, 파일변환부(220)는 대기모드를 유지한다(S120).
문서 파일이 입력되면, 파일변환부(220)는 변환할당테이블(232)을 참조하여 입력된 문서 파일의 페이지 레이아웃 변환 가능 여부를 판별하여(S130), 상기 문서 파일의 페이지 레이아웃 변환 가능여부를 결정한다(S140).
상기 문서 파일의 페이지 레이아웃 변환이 가능할 것으로 판단되면, 파일변환부(220)는 변환특성테이블(234)을 기초로 페이지 레이아웃을 변환하고 이에 대한 변환파일을 생성한다(S150). 변환 파일을 생성한 후, 파일변환부(220)는 상기 변환 파일에 대한 검색을 위해 각 페이지 레이아웃에 따른 페이지정보와 메타정보를 갖는 메타 파일을 생성한다(S160). 이에 따라 파일변환부(220)는 입력된 문서 파일에 대한 페이지 레이아웃, 메타파일 및 폰트파일을 획득한다(S170).
한편, S140 단계에서 페이지 레이아웃이 불가능할 것으로 판단되면, 파일변환부(220)는 프린터 드라이버를 이용하여 입력된 문서 파일을 EMF 파일로 변환한다(S180). 파일변환부(220)는 상기 EMF(Enhanced Meta Format) 파일로부터 각 페이지에 포함되는 폰트정보를 분리하여 폰트 파일을 생성 및 공유한다(S185). 이때 파일변환부(220)는 폰트정보가 별도로 분리된 문서에 대해 압축된 페이지 레이아웃 형식으로 변환한다(S190). 이때 S180 단계 내지 S190 단계가 수행된 문서 파일에 대해 S160 및 S170 단계가 수행된다.
도 4는 텍스트 추출부(240)의 키워드 텍스트 추출 과정의 예를 나타낸 플로우도이다.
파일변환부(220)에서 페이지 레이아웃에 따라 페이지별로 분철된 페이지 파일이 입력되면(S210), 텍스트 추출부(240)는 페이지 파일에 대한 미리보기용 썸네일을 생성한다(S220). 이때 텍스트 추출부(240)는 대형 이미지에 대해 스트리밍 요구가 있는지를 판별한다(S230).
대형 이미지 스트리밍 요구가 없는 것으로 판단되면, 텍스트 추출부(240)는 페이지 파일을 해당 데이터베이스(페이지 레이아웃 데이터베이스(560))에 업로드한다(S240).
한편, S230단계에서 대형 이미지 스트리밍 요구가 있는 것으로 판단되면, 텍스트 추출부(240)는 대형 이미지의 빠른 액세스를 위해 이미지 스트리밍 형식의 파일을 생성한다(S250). 텍스트 추출부(240)는 이미지 스트리밍 형식의 파일에 대하여 데이터베이스로의 업로드를 수행하는 S240 단계를 수행한다.
도 5는 본 발명의 문서의 페이지별 제공 시스템을 이용한 검색 문서 제공 방법의 바람직한 실시예를 도시한 플로우도이다.
컴퓨터(620) 또는 무선 단말기(640)를 통해 통신에 연결하고 있는 사용자(600)는 키워드가 포함된 페이지를 검색하고자 하는 검색신호를 정보제공서버(400)에 전송한다(S420). 여기서 정보제공서버(400)는 야후, 네이버 등과 같은 검색 엔진 사이트, 및 특정 기관 또는 회사의 홈페이지일 수 있다.
키워드 검색신호를 수신하면, 정보제공서버(400)는 키워드가 포함된 문서의 페이지별 제공이 가능한 지를 데이터베이스(520,540,560)를 참조하여 판별한다(S440). 페이지별 제공이 가능한 것으로 판단되면, 정보제공서버(400)는 데이터베 이스(520,540,560)로부터 키워드가 포함된 문서를 페이지 단위로 사용자(600)에게 제공한다(S460).
한편, 페이지별 제공이 불가능한 경우, 정보제공서버(400)는 키워드가 포함된 문서에 대해 페이지 레이아웃을 요청하는 신호를 서비스제공서버(100)로 전송한다(S480). 서비스제공서버(100)는 페이지 처리부(200)의 페이지 변환부(220) 및 페이지 추출부(240)를 통해 요청된 문서에 대한 페이지 레이아웃을 처리 및 페이지별 키워드 텍스트를 추출하고 해당 페이지별 메타파일 및 폰트파일을 생성한다(S520).
서비스제공서버(100)는 요청된 문서에 대한 페이지 레이아웃 및 키워드 텍스트 추출정보와, 메타파일 및 폰트파일을 포함하는 페이지 레이아웃 처리정보를 정보제공서버(400)로 전송한다(S540). 정보제공서버(400)는 수신한 페이지 레이아웃 처리정보를 해당 데이터베이스에 저장하고(S560), 페이지 레이아웃에 따라 키워드가 포함된 페이지별로 사용자(600)에게 제공한다(S580).
이상에서는 본 발명에서 특정의 바람직한 실시예에 대하여 도시하고 또한 설명하였다. 그러나, 본 발명은 상술한 실시예에 한정되지 아니하며, 특허 청구의 범위에서 첨부하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시가 가능할 것이다.
본 발명에 따르면, 해당 문서/도면/이미지 컨텐츠에 대해 페이지별로 레이아웃을 생성하고 각 페이지별로 검색 키워드 텍스트를 추출하여 각각 데이터베이스화 함으로써, 문서/도면/이미지 컨텐츠를 웹환경에서 페이지단위로 고속으로 액세스할 수 있다. 또한, 유사한 페이지 또는 비교해야할 페이지를 즉각 동적으로 조합하여 실시간으로 표시할 수 있다.
뿐만 아니라, 인쇄가 가능한 어떠한 파일로부터도 전문검색이 가능하고, 검색엔진과 연결하여 각 페이지에 대한 전문검색(FTR)을 가능하게 하며, 검색된 페이지에 대한 썸네일을 제공하므로 직관적인 검색이 가능하다. 또한, 모든 파일을 하나의 통합된 형식으로 변환함으로써, 클라이언트 사용자측에서는 하나의 뷰어 프로그램을 이용하여 모든 종류의 파일을 볼 수 는 멀티 포맷 싱글 뷰(Multi format Single View)를 구현할 수 있다.

Claims (13)

  1. 키워드를 이용한 검색 정보 제공 시스템에 있어서,
    사용자 단말기로부터 키워드가 포함된 문서의 검색 요청에 대하여, 상기 키워드가 포함된 문서의 페이지별 레이아웃 및 상기 레이아웃에 따른 페이지별 검색 키워드의 추출을 요청하고, 상기 사용자 단말기의 요청에 대해 상기 키워드가 포함된 문서를 페이지 단위로 상기 사용자 단말기로 제공하는 정보제공서버; 및
    상기 정보제공서버의 요청에 따라 상기 문서에 대해 페이지 레이아웃 및 상기 레이아웃에 따른 페이지별 검색 키워드를 추출하여 상기 정보제공서버로 제공하는 서비스제공서버를 포함하는 것을 특징으로 하는 검색 정보 제공 시스템.
  2. 제 1항에 있어서,
    상기 서비스제공서버는,
    해당 문서에 대해 페이지 레이아웃을 유지한 채로 분철하고, 상기 레이아웃에 따른 각 페이지마다 존재하는 폰트정보를 분리하여 공유하도록 하며, 압축포맷으로 변환하여 페이지 단위로 즉각 액세스가 가능하도록 처리하는 파일변환부; 및
    상기 문서의 원래 형태에 따라 전문검색을 위한 키워드를 각 페이지별로 선택적으로 추출하는 텍스트추출부를 포함하는 것을 특징으로 하는 검색 정보 제공 시스템.
  3. 제 2항에 있어서,
    상기 파일변환부는,
    상기 문서의 파일 형식에 따라 페이지 레이아웃 변환을 위한 해당 프로그램이 할당된 정보가 등록되어 있는 변환할당테이블; 및
    상기 문서를 페이지 레이아웃으로 변환시 각 파일형식에 따라 제어해야할 플그램에 대한 제어부분이 등록된 변환특성테이블을 구비하는 것을 특징으로 하는 검색 정보 제공 시스템.
  4. 제 3항에 있어서,
    상기 파일변환부는 상기 변환할당테이블에 등록되어 있지 않은 파일 형식을 갖는 문서에 대해, 프린터 드라이버를 이용하여 EMF(Enhanced Meta Format)파일로 변환하고, 각 페이지로부터 폰트정보를 분리하여 폰트파일을 생성하여 공유하도록 하며, 압축된 페이지 레이아웃 형식으로 변환하는 것을 특징으로 하는 검색 정보 제공 시스템.
  5. 제 2항에 있어서,
    상기 텍스트 추출부는 상기 추출한 키워드를 XML 및 HTML 중 어느 하나의 형 식으로 가공하는 것을 특징으로 하는 검색 정보 제공 시스템.
  6. 제 2항에 있어서,
    상기 문서의 원래 형태가 전자문서인 경우,
    상기 텍스트 추출부는 프린터 드라이버를 이용하여 프린터 출력방향을 바꾸어 EMF(Enhanced Meta Format) 파일로 인쇄하고 키워드를 페이지별로 추출하며, 페이지에 존재하는 폰트정보를 분리하여 모든 페이지에서 공유하도록 처리하는 것을 특징으로 하는 검색 정보 제공 시스템.
  7. 제 2항에 있어서,
    상기 문서의 원래 형태가 스캔 이미지 문서인 경우,
    상기 텍스트 추출부는 광학문자인식(OCR)기술을 이용하여 페이지별로 이미지 내의 키워드를 추출하는 것을 특징으로 하는 검색 정보 제공 시스템.
  8. 제 2항에 있어서,
    상기 문서의 원래 형태가 캐드 도면파일인 경우,
    상기 텍스트 추출부는 최종 생성된 페이지 레이아웃 파일로부터 키워드 텍스 트를 추출하는 것을 특징으로 하는 검색 정보 제공 시스템.
  9. 제 7항 또는 제 8항에 있어서,
    상기 서비스 제공서버는,
    상기 문서의 원래 형태가 스캔 이미지 및 캐드 도면 중 어느 하나인 경우,
    상기 스캔 이미지 또는 상기 도면을 신속한 액세스를 위해 상기 스캔 이미지 또는 상기 캐드 도면을 이미지 스트리밍을 위한 타일 이미지(Tiled Image) 형식으로 변환하는 것을 특징으로 하는 검색 정보 제공 시스템.
  10. 키워드를 이용한 검색정보 제공 시스템을 이용한 키워드 검색 정보 제공 방법에 있어서,
    키워드가 포함된 문서의 검색을 요청하는 신호를 수신하는 단계; 및
    상기 검색 요청 신호에 대응하여, 상기 키워드를 포함하는 문서로부터 상기 키워드가 포함된 페이지를 페이지 단위로 제공하는 단계를 포함하는 것을 특징으로 하는 키워드 검색 정보 제공 방법.
  11. 제 10항에 있어서,
    상기 검색 요청 신호를 수신하면,
    상기 키워드를 포함하는 문서를 상기 페이지 단위로 제공 가능한 지를 판단하는 단계;
    상기 페이지 단위로 제공할 수 없는 경우, 상기 키워드가 포함된 문서에 대한 페이지 레이아웃 및 상기 레이아웃에 따른 각 페이지별 검색 키워드의 추출을 요청하는 단계; 및
    상기 페이지 레이아웃 및 상기 검색 키워드 추출의 요청에 대응하여 상기 문서에 대해 처리된 페이지 레이아웃 처리정보를 수신하면, 상기 수신한 페이지 레이아웃 처리정보를 상기 검색 요청 신호에 대응하여 제공하는 단계를 더 포함하는 것을 특징으로 하는 키워드 검색 정보 제공 방법.
  12. 제 11항에 있어서,
    상기 페이지 레이아웃 처리정보는,
    상기 키워드가 포함된 문서에 대한 페이지 레이아웃, 메타파일, 및 폰트파일이 포함된 정보인 것을 특징으로 하는 키워드 검색 정보 제공 방법.
  13. 제 12항에 있어서,
    상기 메타파일은 상기 레이아웃에 따른 각 페이지정보, 및 메타정보를 포함 하는 것을 특징으로 하는 검색 정보 제공 방법.
KR1020040058908A 2004-07-27 2004-07-27 전자문서 분철기술과 전문검색기술을 통합한 페이지 검색정보 제공 시스템 및 방법 KR100562276B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020040058908A KR100562276B1 (ko) 2004-07-27 2004-07-27 전자문서 분철기술과 전문검색기술을 통합한 페이지 검색정보 제공 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020040058908A KR100562276B1 (ko) 2004-07-27 2004-07-27 전자문서 분철기술과 전문검색기술을 통합한 페이지 검색정보 제공 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20060010277A KR20060010277A (ko) 2006-02-02
KR100562276B1 true KR100562276B1 (ko) 2006-03-22

Family

ID=37120615

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020040058908A KR100562276B1 (ko) 2004-07-27 2004-07-27 전자문서 분철기술과 전문검색기술을 통합한 페이지 검색정보 제공 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR100562276B1 (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100736336B1 (ko) * 2006-08-04 2007-07-06 (주)인트라테크 분철 페이지 문서 가상 바인딩 방법 및 그 시스템
WO2008032962A1 (en) * 2006-09-11 2008-03-20 Ddh, Inc. System and method for transforming electronic document
US8571319B2 (en) 2009-07-28 2013-10-29 International Business Machines Corporation Enhanced screen capture for form manipulation
KR101371406B1 (ko) * 2013-10-08 2014-03-13 (주)에프데스크 Pdf 문서의 소스분석을 통한 전자책 제작방법 및 시스템
KR101462458B1 (ko) * 2014-03-28 2014-11-18 주식회사 한글과컴퓨터 전자 문서 검색 보조를 위한 데이터 저장 장치 및 방법
KR102390000B1 (ko) * 2021-04-08 2022-04-22 한밭대학교 산학협력단 문서 이미지 내 텍스트 추출 서비스 시스템 및 방법
KR102374797B1 (ko) * 2021-06-14 2022-03-16 주식회사 아키브소프트 멀티이미지 텍스트 처리 장치 및 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010034973A (ko) * 2000-05-10 2001-05-07 이병철 전문검색과 웹 게시판 자료연동에 의한 데이터 구축 및검색 시스템
KR20030009079A (ko) * 2001-07-19 2003-01-29 후지쯔 가부시끼가이샤 전문 검색 시스템 및 전문 검색 프로그램

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010034973A (ko) * 2000-05-10 2001-05-07 이병철 전문검색과 웹 게시판 자료연동에 의한 데이터 구축 및검색 시스템
KR20030009079A (ko) * 2001-07-19 2003-01-29 후지쯔 가부시끼가이샤 전문 검색 시스템 및 전문 검색 프로그램

Also Published As

Publication number Publication date
KR20060010277A (ko) 2006-02-02

Similar Documents

Publication Publication Date Title
US8001466B2 (en) Document processing apparatus and method
US8726178B2 (en) Device, method, and computer program product for information retrieval
US6040920A (en) Document storage apparatus
US8482808B2 (en) Image processing apparatus and method for displaying a preview of scanned document data
US20090052804A1 (en) Method process and apparatus for automated document scanning and management system
US7908344B2 (en) Methods, apparatus, and systems for providing local and online data services
US20030210428A1 (en) Non-OCR method for capture of computer filled-in forms
EP1873626A2 (en) Printing control method, printing control device, printing system, terminal device, program, and recording medium
US20140053050A1 (en) Document file display device and method
JP2005512185A (ja) マルチページsvg文書用ディレクトリ
JP2008234658A (ja) テキスト検索エンジンにより検索されたページ番号付き文書全体を通してのコースツーファイン・ナビゲーション
KR20060101803A (ko) 동적 열람이 가능한 전자 문서의 제작 및 열람 방법
EP1680754B1 (fr) Procede et systeme de diffusion de documents vers des terminaux disposant de capacites d'affichage limitees, tels que des terminaux mobiles
JP2009169536A (ja) 情報処理装置、画像形成装置、ドキュメント生成方法、ドキュメント生成プログラム
JPH09231022A (ja) 文書蓄積装置
KR100562276B1 (ko) 전자문서 분철기술과 전문검색기술을 통합한 페이지 검색정보 제공 시스템 및 방법
JPH09231121A (ja) 文書蓄積装置
CN105740317A (zh) 用于将非文本内容对象化以及用于文档发现的方法和系统
US20070211293A1 (en) Document management system, method and program therefor
JP2006309443A (ja) 情報処理システム、情報処理装置、情報処理端末、情報処理方法、その方法をコンピュータで実行するプログラム、および記録媒体
KR100736336B1 (ko) 분철 페이지 문서 가상 바인딩 방법 및 그 시스템
KR100661994B1 (ko) 분철 페이지 문서 정보 첨부 기능 지원 전자 우편 시스템및 전자 우편 서비스 방법
JP2007280105A (ja) アップロード要求装置、アップロード要求方法およびアップロード要求プログラム
US20050166137A1 (en) Systems and methods for analyzing documents
JP2006023946A (ja) 画像処理装置及びその制御方法、プログラム

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee