KR20090084161A - 문서 내 목차정보를 이용한 검색 시스템 - Google Patents

문서 내 목차정보를 이용한 검색 시스템 Download PDF

Info

Publication number
KR20090084161A
KR20090084161A KR1020080010177A KR20080010177A KR20090084161A KR 20090084161 A KR20090084161 A KR 20090084161A KR 1020080010177 A KR1020080010177 A KR 1020080010177A KR 20080010177 A KR20080010177 A KR 20080010177A KR 20090084161 A KR20090084161 A KR 20090084161A
Authority
KR
South Korea
Prior art keywords
contents
file
search
document
title
Prior art date
Application number
KR1020080010177A
Other languages
English (en)
Other versions
KR100912288B1 (ko
Inventor
박종철
김승현
Original Assignee
주식회사 싱싱타오
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 싱싱타오 filed Critical 주식회사 싱싱타오
Priority to KR20080010177A priority Critical patent/KR100912288B1/ko
Publication of KR20090084161A publication Critical patent/KR20090084161A/ko
Application granted granted Critical
Publication of KR100912288B1 publication Critical patent/KR100912288B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)

Abstract

본 발명에 따르면, 문서파일 내의 정보 검색을 위한 시스템에 관한 것으로서, 사용자로부터 선택받은 문서파일을 등록하되, 문서파일의 파일제목을 문서파일별 고유한 파일고유코드와 연계하여 문서파일을 등록하는 문서등록부; 문서등록부에 등록된 문서파일 내의 각 목차를 추출하되, 각 목차별로 목차제목, 목차가 위치한 페이지, 현재 목차에 대한 상하 목차 간의 계층관계, 목차 내의 텍스트 내용인 내용정보를 각각 추출하고, 목차제목, 페이지, 계층관계 및 내용정보를 목차별 고유한 목차고유코드와 연계하여 저장하는 목차추출부; 목차추출부에서 추출이 수행된 문서파일을 PDF파일로 변환하여 저장하는 파일변환부; 및 검색창에 검색어가 입력되는 경우, 문서파일 중 내용정보의 텍스트 상에 해당 검색어가 존재하는 모든 문서파일을 검색하여, 해당 문서파일의 파일제목, 텍스트를 포함한 내용정보, 내용정보를 포함하고 있는 목차의 목차제목을 각각 문서파일별로 그룹핑한 검색결과를 검색결과란에 표시하되, 내용정보의 경우 미리보기 형태로 제공하는 문서 내 목차정보를 이용한 검색 시스템이 제공된다.
문서파일, 검색, 텍스트, 문서등록, 목차추출, 파일변환

Description

문서 내 목차정보를 이용한 검색 시스템{Search system using contents information in document file}
본 발명은 문서 내 목차정보를 이용한 검색 시스템에 관한 것으로서, 보다 상세하게는 오프라인상의 문서파일이 아닌 일반적인 전자화된 문서들의 고유한 특성에 적합하도록 구성된, 문서 내 목차정보를 활용한 검색 시스템에 관한 것이다.
IT환경의 급속한 성장으로 다량의 전산화된 문서가 인터넷(Internet)과 인트라넷(Intranet)에 축척됨에 따라, 자료의 홍수 속에서 필요로 하는 지식을 신속하고 정확하게 찾아낼 수 있는 검색엔진 기술의 중요성이 높아지고 있다.
특히, 구글(Google)은 인터넷의 고유한 특성인 웹페이지 상호 간의 링크를 활용하여 페이지의 유명도를 계산하는 페이지랭크(PageRank) 기술을 활용하여, 기존의 페이지 내 단어들과 검색어의 관계를 중심으로 한 검색에 비하여 검색의 정확도를 획기적으로 높였다.
하지만, 기업이나 기관 내부의 인트라넷(intranet)에 존재하는 정보나 개인이 보관하는 파일은 상호 연결된 HTML 문서의 형식이 아니고, 주로 아래아 한글(*.hwp)이나 MS Word(*.doc)등의 편집 프로그램으로 작성된 보고서용, 발표용, 인쇄용, 보관용 자료이므로, 상술한 바와 같은 웹링크(web link) 구조 분석 기술을 전혀 적용할 수가 없다.
또한, 수백 페이지가 넘기도 하는 매우 큰 용량의 문서 자체를 검색의 한 단위로 취급하기 때문에, 검색 결과의 정확도가 충분히 만족스럽지 못한 것이 현실이다.
본 발명은 상술한 문제점을 해결하기 위하여 창출된 것으로서, 오프라인상의 문서파일이 아닌 일반적인 전자화된 문서파일들의 고유 특성에 적합하도록, 등록된 문서파일 내의 목차정보 추출을 통한 텍스트 검색기술을 이용함에 따라 원하는 특정 검색어가 존재하는 문서파일 내의 해당 내용부분의 검색과 그 검색결과의 제공을 용이하게 하는 문서 내 목차정보를 이용한 검색 시스템을 제공하는 데 그 목적이 있다.
상기와 같은 목적을 달성하기 위한 본 발명의 문서 내 목차정보를 이용한 검색 시스템은, 문서파일 내의 정보 검색을 위한 시스템에 관한 것으로서, 사용자로부터 선택받은 문서파일을 등록하되, 상기 문서파일의 파일제목을 문서파일별 고유한 파일고유코드와 연계하여 문서파일을 등록하는 문서등록부; 상기 문서등록부에 등록된 문서파일 내의 각 목차를 추출하되, 각 목차별로 목차제목, 목차가 위치한 페이지, 현재 목차에 대한 상하 목차 간의 계층관계, 목차 내의 텍스트 내용인 내용정보를 각각 추출하고, 상기 목차제목, 페이지, 계층관계 및 내용정보를 상기 목차별 고유한 목차고유코드와 연계하여 저장하는 목차추출부; 상기 목차추출부에서 추출이 수행된 문서파일을 PDF파일로 변환하여 저장하는 파일변환부; 및 검색창에 검색어가 입력되는 경우, 상기 문서파일 중 상기 내용정보의 텍스트 상에 해당 검색어가 존재하는 모든 문서파일을 검색하여, 해당 문서파일의 파일제목, 상기 텍스 트를 포함한 내용정보, 상기 내용정보를 포함하고 있는 목차의 목차제목을 각각 문서파일별로 그룹핑한 검색결과를 검색결과란에 표시하되, 상기 내용정보의 경우 미리보기 형태로 제공하는 검색부를 포함한다.
또한, 상기 검색부는, 상기 검색결과란에 표시된 상기 내용정보 또는 목차제목의 어느 일 부분을 사용자로부터 선택받는 경우, 해당 문서파일에 대응되는 PDF파일을 상기 파일변환부에서 취출하여 파일을 오픈하여 제공하되, 상기 페이지 및 상기 목차고유코드를 이용하여 상기 선택받은 부분의 위치가 바로 표시되도록 할 수 있다.
또한, 상기 검색부는, 상기 목차추출부에서 추출된 상기 계층관계를 이용하여, 상기 목차제목의 표시시 상기 목차제목에 대한 상위 목차제목을 함께 표시할 수 있다.
그리고, 본 발명은 사용자인증을 거친 사용자의 개인정보, 아이디 및 패스워드가 등록된 사용자등록부를 더 포함하며, 상기 검색부는, 상기 검색결과란에 표시된 상기 목차제목마다 바로가기 등록 옵션을 제공하여 목차의 바로가기 등록이 개인별로 가능하고, 상기 바로가기 등록 옵션을 사용자로부터 선택받는 경우 개인별 바로가기 목록을 바로가기공간 상에 제공하되, 해당 파일제목, 바로가기 등록된 목차제목, 상기 목차제목의 상위 목차제목을 각각 문서파일 별로 그룹핑하여 제공하고, 바로가기 등록된 목차제목마다 바로가기 삭제 옵션을 제공할 수 있다.
또한, 상기 검색부는, 모든 사용자를 대상으로 상기 목차에 관한 바로가기 등록 횟수를 카운트하여 바로가기 등록 횟수가 높은 순으로 정렬된 인기목차 목록 을 모든 사용자에게 공통결과로 제공하되, 해당 파일제목, 상기 목차제목, 상기 목차제목의 상위 목차제목을 각각 문서파일별로 그룹핑하여 제공할 수 있다.
한편, 상기 검색부는, 사용자로부터 검색어가 입력되는 경우, 상기 내용정보, 상기 내용정보를 포함한 목차제목, 상기 목차제목의 상위 목차제목, 상기 파일제목 상에 각각 해당 검색어가 포함된 갯수를 카운트하고, 상기 목차의 바로가기 등록 횟수를 카운트하여, 상기 카운트에 의한 가중치가 높은 순으로 상기 검색결과를 재정렬하여 상기 검색결과란에 제공할 수 있다.
본 발명에 따른 문서 내 목차정보를 이용한 검색 시스템에 따르면, 문서등록, 목차추출, 목차 내 내용정보 추출 등을 이용하여 문서번호 생성, 목차번호 생성, 목차의 계층구조 저장, 목차(장/절)별 고유코드를 적용함에 따라 등록되는 문서의 파일종류(hwp, doc,ppt, pdf 등)에 관계없이 pdf파일 상에 해당 검색어가 포함된 문서 내의 검색 결과를 즉시 표시하여 개인별 목차 바로가기, 목차 조회, 인기 목차목록의 제공뿐만 아니라 원하는 검색어가 포함된 목차의 검색이 신속하고 용이하게 실현될 수있는 이점이 있다.
이하 첨부된 도면을 참조하면서 본 발명에 따른 바람직한 실시예를 상세히 설명하기로 한다. 이에 앞서, 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있 다는 원칙에 입각하여, 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다.
따라서, 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시예에 불과할 뿐이고 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.
도 1은 본 발명의 실시예에 따른 문서 내 목차정보를 이용한 검색 시스템의 구성도, 도 2는 도 1에 따른 검색의 흐름도, 도 3 내지 도 5는 도 1의 문서등록부의 문서파일 등록 예시도, 도 6 내지 도 8은 도 1의 문서추출부의 목차 추출 예시도, 도 9는 도 1의 파일변환부의 파일 변환 예시도이다.
그리고, 도 10 내지 도 11은 도 1의 검색부의 화면 예시도, 도 12는 도 1의 검색부에 의한 바로가기 등록의 예시도, 도 13은 도 1의 검색부에 의한 인기 목차목록 제공의 예시도이다.
도 1에 도시된 바와 같이, 본 발명의 실시예에 따른 문서 내 목차정보를 이용한 검색 시스템(100)은, 문서등록부(110), 목차추출부(120), 파일변환부(130), 검색부(140)를 포함한다.
도 1 및 도 2를 바탕으로 각 구성의 상세한 설명에 앞서, 이러한 본 발명의 시스템(100)은 전자화된 문서 즉, 일반 문서파일 내의 원하는 정보 검색을 수행하는, 일종의 검색엔진에 해당된다.
여기서, 상기 문서파일이란, 아래아 한글(*.hwp), MS Word(*.doc), 파워포인 트(*.ppt), PDF(*.pdf) 등일 수 있으나 이외에도 나열하지 않은 다양한 문서파일이 해당될 수 있다. 이러한 문서파일은 특정 단체 내의 인트라넷(intranet) 공간 또는 개인적인 PC공간에 직접 보관되는 보고서용, 발표용, 인쇄용, 보관용 등의 자료일 수 있다.
먼저, 상기 문서등록부(110)는, 도 3 내지 도 5와 같이, 사용자로부터 선택받은 문서파일을 등록하되, 상기 문서파일의 파일제목을 문서파일별 고유한 파일고유코드와 연계하여 문서파일을 등록하는 부분으로서, 즉 사용자가 추후 문서의 검색이 가능하도록 문서 등록을 수행하는 구성에 해당된다.
문서등록부(110)의 문서등록 예로서, 도 3과 같이, 파일추가 아이콘(Add Files) 클릭을 통해 검색 대상문서의 직접 선택이 가능한 방식, 폴더추가 아이콘(Add Folders) 클릭을 통해 검색대상 문서가 포함된 폴더의 선택이 가능한 방식이 적용될 수 있는데, 이외에도, 나열하지 않은 다양한 방식이 적용 가능하다.
그리고, 문서등록부(110)에 문서파일이 등록되면, 도 4와 같이 파일고유코드를 생성하여, 파일제목, 파일크기 정보와 함께 기록된다. 예를 들어, 도 4에서 파일명이 "getting-started.pdf"인 문서파일의 등록시, 파일고유코드 2014520, 파일제목 getting-started.pdf, 파일크기 6,262,834byte 정보와 함께 등록된다.
물론, 도 5와 같이 문서파일 내에서 실제 문서제목 부분(보통은 문서 첫페이지에 기재되는 내용)을 추출하여 함께 등록하는 것도 가능하다. 여기서, 문서제목 추출시, 문서파일이 pdf파일인 경우에는 pdf의 메타정보인 XMP를 이용하고, 문서파일이 hwp 또는 doc인 경우에는 서식정보인 스타일 정보를 이용할 수 있다. 상기 파 일제목은 보통 간소화되어 기재하는 경우가 많으므로 도 5와 같이 추출된 실제 문서제목이 상기 파일제목을 대신할 수 있음은 물론이다.
다음, 상기 목차추출부(120)는, 도 6 내지 도 8과 같이, 문서등록부(110)에 등록된 문서파일 내의 각 목차를 추출하되, 각 목차별로 '목차제목', 목차가 위치한 '페이지', 현재 목차에 대한 상하 목차 간의 '계층관계', 목차 내의 텍스트 내용인 '내용정보'를 각각 추출하고, 상기 목차제목, 페이지, 계층관계 및 내용정보를 상기 목차별 고유한 목차고유코드와 연계하여 저장한다.
여기서, 상기 목차란, 문서파일 내의 장, 절에 해당될 수 있고, 쉽게 말해서 목차제목뿐만 아니라 해당 목차제목 하부의 내용정보까지 모두 포괄하는 개념이다.
도 6은 각 목차별로 '목차제목'을 추출한 예로서, 8장의 목차제목(8장. 웹티어 사용하기), 8장에 속한 절의 목차제목(8.1. 소개, 8.2. 웹 애플리케이션 디플로이), 8.2절의 하부 절의 목차제목(8.2.1 예제코드 등) 등이 이에 해당된다. 이러한 목차 추출에 의해 각 목차 간 트리구조를 갖는 '계층관계'가 성립됨을 알 수 있다.
여기서, 목차(특히 장/절의 목차제목)에 관한 정보 추출시 문서파일의 원본을 분석해야 하는데, pdf파일의 경우는 pdf의 메타정보인 XMP과 북마크(bookmark) 정보를 이용하고, hwp파일의 경우는 서식정보인 스타일 정보와 목차정보인 차례 정보를 이용하고, doc파일의 경우 서식정보인 스타일 정보, 목차정보 등을 이용할 수 있다.
일반적으로, 사용자의 취향, 지식 등에 따라 문서파일의 작성시, 각 문서 내의 메타정보, 서식정보, 목차정보 등의 기능을 이용하지 않는 경우도 있다.
따라서, 문서파일 내의 목차 추출시, 상술한 정보(메타정보, 서식정보, 목차정보)의 이용이 불가능한 경우에는, 해당 문서파일 내에서 문자열의 위치, 형태 등을 이용하여 목차를 추출할 수 있다. 예를 들면, 폰트(Font) 사이즈, 볼드(Bold)체 여부, 들여쓰기 여부, 가운데 정렬 여부, 글자체 등을 통해 목차 부분을 추출할 수 있으며, 그 외에도 한 줄에 문장이 하나만 있는 경우 목차인 것으로 판별할 수 있고, 또한 문장 앞에 가,나,다,...,a,b,c,...,1,2,3,... 등의 식별문자가 있는 경우 목차인 것으로 판단하여 추출하는 것도 가능하다.
도 7은, 각 목차제목(장/절 제목), 페이지, 목차고유코드(장/절 고유번호), 계층관계(상위 장/절 고유번호)가 서로 연계되어 저장되는 예로서, 추출된 목차(장/절)에 대한 목차고유코드를 생성하고, 각 목차(장/절)의 계층관계(hierarchy), 각 목차(장/절)의 문서 내 위치인 페이지, 각 목차(장/절)의 제목이 함께 저장된다.
도 8은 각 목차(장/절) 내의 텍스트 내용인 내용정보를 추출하여 도 7 상의 정보들과 함께 저장되는 예이다.
한편, 상기 파일변환부(130)는 목차추출부(120)에서 추출이 수행된 문서파일을 도 9와 같이 PDF파일로 변환하여 저장하는 부분이다.
PDF파일 상의 각 목차에는 실제로 눈에 보이지 않는 목차고유코드(ex, 2014250800, 2014250801) 등의 목차추출부(120)에서 추출 및 연계 저장된 정보들이 코드화된 것을 알 수 있다.
즉, 이러한 파일변환부(130)에 따르면, 추후 브라우저 창 안의 검색결과에서 해당 문서를 바로 조회하는 것이 가능하도록 문서를 PDF파일로 변환하고, 해당 위 치로 바로 이동이 가능하도록 문서 내의 각 목차(장/절)의 위치마다 사용자에게는 보이지 않는 표식을 기록하고 있다.
한편, 상기 검색부(140)는 도 10과 같이, 검색창(141)에 검색어가 입력되는 경우, 상기 문서파일 중에서 내용정보의 텍스트 상에 해당 검색어가 존재하는 모든 문서파일을 검색하여, 해당 문서파일의 '파일제목', 상기 텍스트를 포함한 '내용정보', 상기 내용정보를 포함하고 있는 목차의 '목차제목'을 각각 문서파일별로 그룹핑(Grouping)한 검색결과를 검색결과란(142)에 표시한다. '내용정보'의 경우 텍스트 내용이 장황하게 표시되는 것보다 간략화된 미리보기 형태로 제공될 수 있다.
도 10에서 검색어가 '중소기업'인 경우, 총 3가지 문서파일(문서제목이 각각 '중소기업협동조합법', '지역균형개발 및 지방중소기업 육성에 관한 법률', '중소기업 기본법'인 문서파일)이 검색되었고, 각 문서파일별로 상기 검색어가 존재하는 목차 리스트를 묶어 목차(장/절)단위의 검색결과 및 내용정보의 미리보기를 제공한다.
또한, 도 10과 같이, 검색부(140)는 상기 목차추출부(120)에서 추출된 계층관계를 이용하여, 목차제목의 표시시 목차제목에 대한 상위 목차제목(장/절)을 함께 표시할 수 있다.(ex:제5장 중소기업중앙회(상위 목차제목) - 제4절 중소기업공제사업기금(현재 목차제목))
한편, 검색부(140)는 도 10의 검색결과란(142)에 표시된 내용정보 또는 목차제목의 어느 일 부분을 사용자로부터 선택받는 경우, 해당 문서파일에 대응되는 PDF파일을 파일변환부(130)에서 취출하여 파일을 오픈하여 제공하되, 도 11과 같 이, 상기 페이지 및 상기 목차고유코드를 이용하여 상기 선택받은 부분의 위치가 바로 표시되도록 할 수 있다. 즉, 해당 내용정보 또는 목차제목의 클릭과 동시에 PDF변환된 문서가 브라우저 창 안에서 바로 열리며, 문서의 해당 부분에 표식을 기록한 위치가 바로 열리게 된다. 이에 따라 검색 시간을 단축시키고 해당 파일의 이용효율을 높이며, 결론적으로 문서파일 내 원하는 정보에 대한 검색환경의 편리성을 증진시킨다.
여기서, 도 10 상의 상위 목차제목 클릭시에도 상술한 바와 같은 원리를 통해, 해당 PDF파일 상의 상기 상위 목차 부분의 내용이 바로 표시되도록 할 수 있다.
한편, 본 발명은 별도의 사용자인증을 거친 사용자의 개인정보, 아이디 및 패스워드가 등록된 사용자등록부(150)를 더 포함하여, 사용자등록부(150)의 사용자 로그인 기능을 통해 사용자의 개인 검색환경, 예를 들면 개인별 목차 바로가기 등록 기능 등을 제공할 수 있다.
즉, 상기 검색부(140)는, 도 10에 도시된 바와 같이, 검색결과란(142)에 표시된 목차제목마다 각각의 바로가기 등록 옵션을 제공하여 목차의 바로가기 등록이 개인별로 가능하도록 한다. 즉, 개인별로 본인이 자주 조회하는 문서는 별도의 검색과정 없이도 해당 목차(장/절)을 바로 조회할 수 있도록 바로가기 목록에 추가할 수 있다.
이때, 검색부(140)는 바로가기 등록 옵션을 사용자로부터 선택(클릭)받는 경우 개인별 바로가기 목록을 개인적인 바로가기공간 상에 도 12과 같이 제공하되, 해당 파일제목(ex,컴퓨터 프로그램의 구조와 해석), 바로가기 등록된 목차제목(ex,'5.1.3 서브루틴'), 상기 목차제목의 상위 목차제목(ex,'5.레지스터 기계로 계산하기 z- 5.1 레지스터 기계 설계하기')을 각각 문서파일 별로 그룹핑하여 제공하고, 바로가기 등록된 목차제목마다 우측의 바로가기 삭제 옵션을 제공할 수 있다.
여기서, 바로가기공간 상의 목차제목 클릭시 도 11과 같은 원리를 통해 PDF파일 상의 해당 목차제목 부분이 바로 표시되도록 하는 것은 자명하다. 물론, 상위 목차제목 클릭시에도 그 원리는 상술한 바와 동일하다.
한편, 검색부(140)는, 모든 사용자를 대상으로 각 목차에 관한 바로가기 등록 횟수를 카운트하여 바로가기 등록 횟수가 높은 순으로 정렬된 인기목차 목록을 도 13과 같이 모든 사용자에게 공통의 결과로 제공하되, 해당 파일제목, 상기 목차제목, 상기 목차제목의 상위 목차제목을 각각 문서파일(컴퓨터 프로그램의 구조와 해석, 현대 국어 통사론 등)별로 그룹핑하여 제공한다. 즉, 어떠한 사용자에게도 동일한 인기목차 목록이 제공된다.
즉, 모든 사용자에 대하여, 목차(장/절)별로 목차 바로가기 등록 횟수를 조회하여 그에 따른 인기 목차목록을 제공하며 인기 목차목록상에서의 목차제목, 또는 상위 목차제목 클릭시 도 11의 원리를 통해 해당 목차부분이 바로 표시된다.
다시 말해서, 각 목차(장/절)마다 몇 명의 사용자가 자신의 바로가기로 등록했는지를 기록하여 이 인기도를 바탕으로 상위 인기 목차정보를 제공한다.
한편, 본 발명의 검색부(140)는 사용자로부터 검색어가 입력되는 경우, 상기 문서파일 중 상기 내용정보의 텍스트 상에 해당 검색어가 존재하는 모든 문서파일을 검색하여, 상기 내용정보, 상기 내용정보를 포함한 목차제목, 상기 목차제목의 상위 목차제목, 상기 파일제목 상에 각각 해당 검색어가 포함된 갯수를 카운트하고, 상기 목차의 바로가기 등록 횟수를 카운트하여, 상기 카운트에 의한 가중치가 높은 순으로 검색결과를 재정렬하여 검색결과란(142)에 제공할 수 있다.
즉, 예를 들어, 도 10에서 3개의 문서 중 파일제목, 목차제목, 내용정보 상에 '중소기업'이라는 검색어가 포함된 횟수, 해당 목차의 바로가기 등록 횟수를 카운트하여 각각의 카운트 합이 가장 높은 문서파일 순으로 검색결과란에 재정렬하여 표시할 수 있다. 또한, 2번째 문서파일(지역균형개발 및 지방중소기업 육성에 관한 법률)을 예를 들면, 표시된 2개의 목차 목록 중에서 목차제목과 내용정보 상에 '중소기업'이라는 검색어가 포함된 횟수, 각 목차의 바로가기 등록 횟수를 카운트 하여 그 합이 높은 목차 순으로 목차 정보를 재정렬하여 표시하는 것도 가능하다.
이외에도, 검색결과의 정렬에는 다음과 같이 문서파일 내의 모든 단어 수에 대비한 검색어 수의 비율이 적용될 수 있다.
예를 들어, 검색어가 '중소기업'인 경우, '중소기업'이라는 단어를 포함하는 모든 문서파일을 검색하여 보여주되, 상기 비율이 가장 높은 문서파일 순으로 정렬하여 표시하는 구성이 가능하다.
즉, 문서파일 A는 총 100 단어로 이루어지고 '중소기업'이라는 단어가 3개로 검색된다면 상기 비율은 3%이며, 문서파일 B는 총 200단어로 이루어지고 '중소기업'이라는 단어가 총 4개로 검색된다면 그 비율은 2%가 된다.
이때, 문서파일 A은 상기 검색어가 검색된 카운트는 적으나 문서 내 차지하는 비율이 높기 때문에 문서파일 B에 비해 먼저 보여지게 된다.
즉, 문서파일 정렬시, 해당 문서파일 내의 전체 단어에 대비하여 해당 검색어가 검색된 개수를 카운트하고 전체 단어 대 카운트된 검색어 개수의 비율을 더 적용하는 것도 가능하다.
이상과 같은 본 발명은 도 2와 같이, 문서등록, 목차추출, 목차 내 내용정보 추출 등을 이용하여 문서번호 생성, 목차번호 생성, 목차의 계층구조 저장, 목차(장/절)별 고유코드를 적용함에 따라 등록되는 문서의 파일종류(hwp, doc,ppt, pdf 등)에 관계없이 pdf파일 상에 해당 검색어가 포함된 문서 내의 검색 결과를 즉시 표시하여 개인별 목차 바로가기, 목차 조회, 인기 목차목록의 제공뿐만 아니라 원하는 검색어가 포함된 목차의 검색이 신속하고 용이하게 실현되는 이점이 있다.
이러한 본 발명에 따르면, 인트라넷 등의 사내 파일관리시스템에서 직원들이 파일 내 원하는 정보 검색시 유용하게 이용 가능함은 물론이며 이러한 본 발명은 인트라넷 이외에 개인 PC공간에서도 충분히 활용될 수 있다.
이상과 같이, 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 이것에 의해 한정되지 않으며 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 본 발명의 기술 사상과 아래에 기재될 청구범위의 균등 범위 내에서 다양한 수정 및 변형이 가능함은 물론이다.
도 1은 본 발명의 실시예에 따른 문서 내 목차정보를 이용한 검색 시스템의 구성도,
도 2는 도 1에 따른 검색의 흐름도,
도 3 내지 도 5는 도 1의 문서등록부의 문서파일 등록 예시도,
도 6 내지 도 8은 도 1의 문서추출부의 목차 추출 예시도,
도 9는 도 1의 파일변환부의 파일 변환 예시도,
도 10 내지 도 11은 도 1의 검색부의 화면 예시도,
도 12는 도 1의 검색부에 의한 바로가기 등록의 예시도,
도 13은 도 1의 검색부에 의한 인기 목차목록 제공의 예시도이다.
<도면의 주요 부분에 대한 부호의 설명>
100...문서 내 목차정보를 이용한 검색 시스템
110...문서등록부 120...목차추출부
130...파일변환부 140...검색부
150...사용자등록부

Claims (6)

  1. 문서파일 내의 정보 검색을 위한 시스템에 관한 것으로서,
    사용자로부터 선택받은 문서파일을 등록하되, 상기 문서파일의 파일제목을 문서파일별 고유한 파일고유코드와 연계하여 문서파일을 등록하는 문서등록부;
    상기 문서등록부에 등록된 문서파일 내의 각 목차를 추출하되, 각 목차별로 목차제목, 목차가 위치한 페이지, 현재 목차에 대한 상하 목차 간의 계층관계, 목차 내의 텍스트 내용인 내용정보를 각각 추출하고, 상기 목차제목, 페이지, 계층관계 및 내용정보를 상기 목차별 고유한 목차고유코드와 연계하여 저장하는 목차추출부;
    상기 목차추출부에서 추출이 수행된 문서파일을 PDF파일로 변환하여 저장하는 파일변환부; 및
    검색창에 검색어가 입력되는 경우, 상기 문서파일 중 상기 내용정보의 텍스트 상에 해당 검색어가 존재하는 모든 문서파일을 검색하여, 해당 문서파일의 파일제목, 상기 텍스트를 포함한 내용정보, 상기 내용정보를 포함하고 있는 목차의 목차제목을 각각 문서파일별로 그룹핑한 검색결과를 검색결과란에 표시하되, 상기 내용정보의 경우 미리보기 형태로 제공하는 검색부를 포함하는 문서 내 목차정보를 이용한 검색 시스템.
  2. 제 1항에 있어서, 상기 검색부는,
    상기 검색결과란에 표시된 상기 내용정보 또는 목차제목의 어느 일 부분을 사용자로부터 선택받는 경우, 해당 문서파일에 대응되는 PDF파일을 상기 파일변환부에서 취출하여 파일을 오픈하여 제공하되, 상기 페이지 및 상기 목차고유코드를 이용하여 상기 선택받은 부분의 위치가 바로 표시되도록 하는 것을 특징으로 하는 문서 내 목차정보를 이용한 검색 시스템.
  3. 제 1항 또는 제 2항에 있어서, 상기 검색부는,
    상기 목차추출부에서 추출된 상기 계층관계를 이용하여, 상기 목차제목의 표시시 상기 목차제목에 대한 상위 목차제목을 함께 표시하는 것을 특징으로 하는 문서 내 목차정보를 이용한 검색 시스템.
  4. 제 3항에 있어서,
    사용자인증을 거친 사용자의 개인정보, 아이디 및 패스워드가 등록된 사용자등록부를 더 포함하며,
    상기 검색부는,
    상기 검색결과란에 표시된 상기 목차제목마다 바로가기 등록 옵션을 제공하여 목차의 바로가기 등록이 개인별로 가능하고, 상기 바로가기 등록 옵션을 사용자로부터 선택받는 경우 개인별 바로가기 목록을 바로가기공간 상에 제공하되, 해당 파일제목, 바로가기 등록된 목차제목, 상기 목차제목의 상위 목차제목을 각각 문서파일 별로 그룹핑하여 제공하고, 바로가기 등록된 목차제목마다 바로가기 삭제 옵 션을 제공하는 것을 특징으로 하는 문서 내 목차정보를 이용한 검색 시스템.
  5. 제 4항에 있어서, 상기 검색부는,
    모든 사용자를 대상으로 상기 목차에 관한 바로가기 등록 횟수를 카운트하여 바로가기 등록 횟수가 높은 순으로 정렬된 인기목차 목록을 모든 사용자에게 공통결과로 제공하되, 해당 파일제목, 상기 목차제목, 상기 목차제목의 상위 목차제목을 각각 문서파일별로 그룹핑하여 제공하는 것을 특징으로 하는 문서 내 목차정보를 이용한 검색 시스템.
  6. 제 4항에 있어서, 상기 검색부는,
    사용자로부터 검색어가 입력되는 경우, 상기 내용정보, 상기 내용정보를 포함한 목차제목, 상기 목차제목의 상위 목차제목, 상기 파일제목 상에 각각 해당 검색어가 포함된 갯수를 카운트하고, 상기 목차의 바로가기 등록 횟수를 카운트하여, 상기 카운트에 의한 가중치가 높은 순으로 상기 검색결과를 재정렬하여 상기 검색결과란에 제공하는 것을 특징으로 하는 문서 내 목차정보를 이용한 검색 시스템.
KR20080010177A 2008-01-31 2008-01-31 문서 내 목차정보를 이용한 검색 시스템 KR100912288B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR20080010177A KR100912288B1 (ko) 2008-01-31 2008-01-31 문서 내 목차정보를 이용한 검색 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR20080010177A KR100912288B1 (ko) 2008-01-31 2008-01-31 문서 내 목차정보를 이용한 검색 시스템

Publications (2)

Publication Number Publication Date
KR20090084161A true KR20090084161A (ko) 2009-08-05
KR100912288B1 KR100912288B1 (ko) 2009-08-17

Family

ID=41204758

Family Applications (1)

Application Number Title Priority Date Filing Date
KR20080010177A KR100912288B1 (ko) 2008-01-31 2008-01-31 문서 내 목차정보를 이용한 검색 시스템

Country Status (1)

Country Link
KR (1) KR100912288B1 (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130009950A (ko) * 2010-02-19 2013-01-24 마이크로소프트 코포레이션 데이터 구조 매핑 및 네비게이션
KR101497235B1 (ko) * 2013-09-25 2015-02-27 경호연 문서의 생산등록번호를 이용한 사업단위 문서 정보 구축 시스템 및 방법, 문서의 생산등록번호를 이용한 사업단위 문서 정보 검색시스템 및 방법
US20200005329A1 (en) * 2013-09-09 2020-01-02 UnitedLex Corp. Unique documents determination
KR20200073700A (ko) * 2018-12-14 2020-06-24 아주대학교산학협력단 문서를 생성하고 관리하기 위한 장치 및 방법
KR102171325B1 (ko) * 2020-01-14 2020-10-28 티아이테크놀로지 주식회사 Pdf 파일을 대상으로 하는 테이블 데이터 파싱 방법
CN112001150A (zh) * 2019-05-27 2020-11-27 珠海金山办公软件有限公司 一种文档格式转换的方法、装置、计算机存储介质及终端

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000049925A (ko) * 2000-05-06 2000-08-05 조규철 인터넷에서 서적내용을 피디에프파일로 제공하는 방법 및그 시스템
KR100386804B1 (ko) * 2000-08-19 2003-06-09 (주) 지식공학 유의어 전자사전 및 그 전자사전을 이용한 유의어 검색방법
KR100751691B1 (ko) * 2005-11-08 2007-08-23 삼성에스디에스 주식회사 다수의 파워포인트 문서 편집 방법

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130009950A (ko) * 2010-02-19 2013-01-24 마이크로소프트 코포레이션 데이터 구조 매핑 및 네비게이션
US20200005329A1 (en) * 2013-09-09 2020-01-02 UnitedLex Corp. Unique documents determination
US11978057B2 (en) 2013-09-09 2024-05-07 UnitedLex Corp. Single instance storage of metadata and extracted text
KR101497235B1 (ko) * 2013-09-25 2015-02-27 경호연 문서의 생산등록번호를 이용한 사업단위 문서 정보 구축 시스템 및 방법, 문서의 생산등록번호를 이용한 사업단위 문서 정보 검색시스템 및 방법
KR20200073700A (ko) * 2018-12-14 2020-06-24 아주대학교산학협력단 문서를 생성하고 관리하기 위한 장치 및 방법
CN112001150A (zh) * 2019-05-27 2020-11-27 珠海金山办公软件有限公司 一种文档格式转换的方法、装置、计算机存储介质及终端
KR102171325B1 (ko) * 2020-01-14 2020-10-28 티아이테크놀로지 주식회사 Pdf 파일을 대상으로 하는 테이블 데이터 파싱 방법
WO2021145541A1 (ko) * 2020-01-14 2021-07-22 티아이테크놀로지 주식회사 Pdf 파일을 대상으로 하는 테이블 데이터 파싱 방법

Also Published As

Publication number Publication date
KR100912288B1 (ko) 2009-08-17

Similar Documents

Publication Publication Date Title
CN109614504B (zh) 一种互联网电子书的管理系统及方法
CN104123269B (zh) 一种基于模板的出版物半自动生成方法及系统
EP2506208A1 (en) Forensic system and forensic method, and forensic program
KR100912288B1 (ko) 문서 내 목차정보를 이용한 검색 시스템
US20020083045A1 (en) Information retrieval processing apparatus and method, and recording medium recording information retrieval processing program
Ugale et al. Document management system: A notion towards paperless office
US6694302B2 (en) System, method and article of manufacture for personal catalog and knowledge management
Hassel Resource lean and portable automatic text summarization
JP5103051B2 (ja) 情報処理システム及び情報処理方法
WO2008041367A1 (fr) Dispositif de recherche de document, procédé de recherche de document et programme de recherche de document
KR101401250B1 (ko) 전자문서에 대한 키워드맵 제공 방법 및 이를 위한 키워드맵 제공 프로그램을 기록한 컴퓨터로 판독가능한 기록매체
Rehm et al. Curation Technologies for Cultural Heritage Archives: Analysing and transforming a heterogeneous data set into an interactive curation workbench
CN112199960B (zh) 一种标准知识元粒度解析系统
Bhatia et al. Specialized research datasets in the citeseerx digital library
US20100211562A1 (en) Multi-part record searches
Fragkou et al. BOEMIE Ontology-Based Text Annotation Tool.
JP2007011973A (ja) 情報検索装置及び情報検索プログラム
Malhotra et al. Web page segmentation towards information extraction for web semantics
Witten Browsing around a digital library
Balakrishnan et al. Digital library of India: a testbed for Indian language research
Bhat Development of Digital Libraries in India: a Survey of Digital Collection of National Digital Library of India
JP2000020549A (ja) 文書データベースシステムへの入力支援装置
JPH117452A (ja) ネットワークを介した情報収集方法および装置と該方法を実施するプログラムを記録した記録媒体
JP5746912B2 (ja) テキストパターン抽出を用いてWeb文書をリファインするための方法、システム及びコンピュータ読み出し可能記録媒体
CN104516941A (zh) 相关文档检索装置、方法及程序

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130516

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20140519

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20150522

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20160608

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20170526

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20180524

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20190523

Year of fee payment: 11