KR20240008631A

KR20240008631A - 문서 검색 시스템

Info

Publication number: KR20240008631A
Application number: KR1020220085719A
Authority: KR
Inventors: 백진성
Original assignee: 망고클라우드 주식회사
Priority date: 2022-07-12
Filing date: 2022-07-12
Publication date: 2024-01-19

Abstract

문서 검색 시스템이 개시된다. 본 발명의 일 실시예에 따른 문서 검색 시스템은, 텍스트를 포함하는 제1전자문서 파일을 입력받아, 상기 제1전자문서 내의 텍스트를 추출하여 상기 제1전자문서와는 별도의 제2전자문서를 생성하여 저장하는 전자문서 수집부; 상기 전자문서 수집부로터 상기 제2전자문서를 수신받아, 상기 텍스트를 형태소 별로 구분하여 저장하는 전처리부; 상기 전처리부에서 분류된 형태소들을 정규화하고 자연어 처리를 한 뒤 명사만 분류하여 저장하는 자연어 처리부; 사용자로부터 입력된 검색어와 상기 자연어 처리부에서 분류된 명사를 매칭하여, 상기 검색어가 포함되는 상기 제1전자문서 파일을 리스팅하여 표시하는 검색부;를 포함한다. 본 발명에 의하면, 전자문서의 파일명 뿐만 아니라 본문 내의 텍스트들도 검색 가능한 문서 검색 시스템이 제공된다.

Description

문서 검색 시스템{DOCUMENT SEARCHING SYSTEM}

본 발명은 문서 검색 시스템에 관한 것으로서, 보다 상세하게는 전자문서의 파일명 뿐만 아니라 본문 내의 텍스트들도 검색 가능한 문서 검색 시스템에 관한 것이다.

최근 수많은 정보를 담고 있는 문서들이 매우 빠른 속도로 생산되고 있다. 특히 코로나-19 펜데믹 이후 세계 다양한 산업의 기업 및 기관은 디지털 워크스페이스 도입을 위하여 전자문서 제품·서비스에 관심이 높으며, 다양한 산업에서 전자문서를 활용한 업무 개선에 돌입하고 있다. 일 기관의 조사에 따르면, 2019년부터 연평균 29%의 높은 성장을 보인 전 세계 전자문서 시장이 코로나-19 펜데믹 사태로 인한 수요 증가로 2026년까지 약 61억 2,000만 달러 규모로 성장할 것으로 전망한 바 있다.

많은 수의 전자문서가 생산되고, 필요 시 전자문서들을 검색하여 내용을 열람하거나 수정 등의 필요가 있는데, 데이터베이스 등을 통해 검색하는 경우 전자문서의 제목(파일명)만 검색이 가능하여, 실제 전자문서의 내용을 확인하기 위해서는 일일히 전자문서를 열어서 내용을 확인하여야 하는 문제점이 있으며 이는 업무 비효율의 일부분을 차지하고 있다.

한편, 전자문서의 본문에는 상당 수의 텍스트를 포함한 콘텐트가 포함되어 있으며, 이를 일일히 색인 작업을 통해 검색을 하기에는 많은 수의 전자문서를 감안할 때 검색시간이 길어질 수 있으며 나아가 검색 정확도가 떨어지는 문제점이 있다.

대한민국 등록특허 제10-2019194호(2019.09.02) "문서 내 핵심 키워드 추출 시스템 및 방법" 대한민국 공개특허 제10-2021-0105764호(2021.08.27) "전자문서 내의 텍스트 추출 방법 및 관련 장치"

본 발명의 일 실시예에 따른 문서 검색 시스템은, 전자문서의 파일명 뿐만 아니라 본문 내의 텍스트들도 검색 가능한 문서 검색 시스템을 제공하는 것을 목적으로 한다.

본 발명의 과제들은 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

본 발명의 일 실시예에 따른 문서 검색 시스템은, 텍스트를 포함하는 제1전자문서 파일을 입력받아, 상기 제1전자문서 내의 텍스트를 추출하여 상기 제1전자문서와는 별도의 제2전자문서를 생성하여 저장하는 전자문서 수집부; 상기 전자문서 수집부로터 상기 제2전자문서를 수신받아, 상기 텍스트를 형태소 별로 구분하여 저장하는 전처리부; 상기 전처리부에서 분류된 형태소들을 정규화하고 자연어 처리를 한 뒤 명사만 분류하여 저장하는 자연어 처리부; 사용자로부터 입력된 검색어와 상기 자연어 처리부에서 분류된 명사를 매칭하여, 상기 검색어가 포함되는 상기 제1전자문서 파일을 리스팅하여 표시하는 검색부;를 포함한다.

여기서, 상기 제1전자문서 파일은 이미지 콘텐트와 도표 컨텐트 중 적어도 하나 이상을 포함하는 시각적 콘텐트를 더 포함하며, 상기 전처리부는, 상기 제2전자문서 파일의 포맷 구조 분석을 통해 상기 시각적 콘텐트의 좌표를 분석하여 상기 시각적 콘텐트의 영역을 분석하고, 상기 시각적 콘텐트 영역 내의 텍스트는 제외하여 상기 제2전자문서를 생성할 수 있다.

여기서, 상기 전처리부는, 상기 시각적 콘텐트에 포함된 명사가 텍스트 영역 내에 기 설정된 횟수 이상으로 포함되는 경우에는 상기 제2전자문서 생성 시 포함시킬 수 있다.

여기서, 상기 제2전자문서는 확장가능 마크업 언어(Extensible Mark-up Language; XML) 포맷일 수 있다.

본 발명의 실시예들에 의하면 적어도 다음과 같은 효과가 있다.

본 발명에 따른 문서 검색 시스템에 의하면, 제1전자문서의 본문에 포함된 단어도 검색하여, 해당 단어가 본문에 포함된 제1전자문서를 사용자에게 리스팅할 수 있다.

또한, 시각적 컨텐츠를 제외하고 텍스트만을 추출하며 나아가 명사만 추출하여 저장한 뒤 검색함으로써 검색 효율이 매우 우수하다.

본 발명에 따른 효과는 이상에서 예시된 내용에 의해 제한되지 않으며, 더욱 다양한 효과들이 본 명세서 내에 포함되어 있다.

도 1은 본 발명의 일 실시예에 따른 문서 검색 시스템의 구성도
도 2는 본 발명의 일 실시예에 따른 문서 검색 시스템의 텍스트 추출 설명도
도 3 및 도 4는 일 실시예에 따른 문서 검색 시스템의 자연어 처리부의 설명도이다.

본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예를 도면에 예시하고 이에 대해 상세한 설명에 상세하게 설명한다. 본 발명의 효과 및 특징, 그리고 그것들을 달성하는 방법은 도면과 함께 상세하게 후술되어 있는 실시예를 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예에 한정되는 것이 아니라 다양한 형태로 구현될 수 있으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

설명에 앞서 상세한 설명에 기재된 용어에 대해 설명한다. 이하의 실시예에서, 제1, 제2 등의 용어는 한정적인 의미가 아니라 하나의 구성 요소를 다른 구성 요소와 구별하는 목적으로 사용되었다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다. 또한, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 또한, '포함하다' 또는 '가지다' 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 의미하는 것이고, 하나 이상의 다른 특징들 또는 구성요소가 부가될 가능성을 미리 배제하는 것은 아니다.

또한, 도면에서는 설명의 편의를 위하여 구성 요소들이 그 크기가 과장 또는 축소될 수 있다. 예컨대, 도면에서 나타난 각 구성의 크기 및 두께는 설명의 편의를 위해 임의로 나타내었으므로, 본 발명이 반드시 도시된 바에 한정되지 않는다.

이하, 본 발명에 따른 일 실시예를 첨부된 도면을 참조하여 상세히 설명한다. 첨부 도면을 참조하여 설명함에 있어, 동일하거나 대응하는 구성요소는 동일한 도면 부호를 부여하고 이에 대해 중복되는 설명은 생략한다.

본 발명의 일 실시예에 따른 문서 검색 시스템은, 전자문서의 파일명 뿐만 아니라 본문 내의 텍스트들도 검색 가능한 문서 검색 시스템에 관한 것이다.

도 1은 본 발명의 일 실시예에 따른 문서 검색 시스템의 구성도이며, 도 2는 본 발명의 일 실시예에 따른 문서 검색 시스템의 텍스트 추출 설명도이며, 도 3 및 도 4는 일 실시예에 따른 문서 검색 시스템의 자연어 처리부의 설명도

본 발명의 일 실시예에 따른 문서 검색 시스템(1000)은, 전자문서 수집부(100)와, 전처리부(200)와, 자연어 처리부(300) 및 검색부(400)를 포함한다.

전자문서 수집부(100)는 작성된 제1전자문서를 수신하여 제1전자문서의 본문에 포함된 명사들이 검색될 수 있도록 제2전자문서를 생성하는 구성이다.

제1전자문서는 일반적인 문서 작업 시 사용하는 소프트웨어를 통해 작성된 문서이다. 제1전자문서의 포맷은 한글문서(HWP), 워드(DOC), 파워포인트(PPT) 및 엑셀(XLS) 파일 PDF파일 중 적어도 어느 하나일 수 있다.

제1전자문서에는 사용자가 직접 입력한 텍스트들이 포함되며, 나아가 사용자가 직접 입력한 이미지 콘텐트와 도표 컨텐트를 포함할 수 있다. 본 실시예에서 텍스트를 제외한 컨텐트, 즉 이미지 콘텐트와 도표 컨텐트를 시각적 컨텐트라고 한다.

전자문서 수집부(100)는 제1전자문서를 수신한 뒤 제2전자문서 내의 텍스트를 추출하여 제1전자문서와는 별도의 제2전자문서를 생성한다. 본 실시예에서 제2전자문서는 확장가능 마크업 언어(Extensible Mark-up Language; XML) 포맷이다.

따라서 제1전자문서의 포맷이 한글문서(HWP), 워드(DOC), 파워포인트(PPT) 및 엑셀(XLS) 파일 중 어느 하나인 경우, 제2전자문서는 오피스 오픈 XML(OOXML), 오픈 도큐먼트(Open Document) 및 개방형 워드프로세서 마크업 언어(OWPML) 포맷일 수 있다. 구체적으로 제2전자문서는 XML포맷으로서, 사용된 프로그램에 따라 워드 프로세서(DOCX, ODT, HWPX), 스프레드시트(XLSX, ODS, CELL) 및 프레젠테이션(PPTX, ODP, SHOW) 문서 중 적어도 어느 하나일 수 있다.

제1전자문서가 텍스트만으로 이루어진 경우 전자문서 수집부(100)는 제1전자문서에서 텍스트를 모두 추출하여 제2전자문서를 생성한다.

그러나 제1전자문서에 상술한 시각적 컨텐트가 포함된 경우, 전자문서 수집부(100)는 제2전자문서를 생성할 때 제1전자문서에 포함된 시각적 컨텐트를 추출하고, 시각적 컨텐트 및 시각적 컨텐트에 포함된 텍스트들은 제외한다.

본 실시예는 상술한 바와 같이 제1전자문서의 본문에 포함된 명사들도 검색하여 리스팅될 수 있도록 하는데, 사용자들이 검색하고자 하는 대상이 주제나 주요 키워드로서 명사이며, 한편 시각적 컨텐트 내부에 포함된 명사의 경우 검색 대상에서 제외되는 경우가 많은 점을 분석하여, 해당 시각적 컨텐트에 포함된 텍스트들은 제외시킨다.

이에 따라 전자문서 수집부(100)는 제1전자문서의 각 페이지 내에서 시각적 컨텐트들을 추출한다. 전자문서 수집부(100)는 제2전자문서 파일의 포맷 구조 분석을 한 뒤 Contour 알고리즘을 적용하여 시각적 콘텐트의 좌표를 분석한다. 즉 전자문서 수집부(100)는 제2전자문서의 오피스 오픈 XML, 오픈 도큐먼트 및 개방형 워드프로세서 마크업 언어 중 적어도 어느 하나 파일 여부에 따른 파일 내부의 XML 포맷 여부를 판단하고, XML 포맷 구조 분석을 통해 시각적 콘텐트가 위치하는 좌표를 분석한다.

이 후 추출된 모든 외곽 좌표를 연결된 선으로 인식 후 외형선 및 좌표 정보를 산출한다.

즉, 좌표를 통해 제2전자문서를 텍스트 콘텐트와 시각적 콘텐트로 분류한다. 그리고 좌표 정보 즉 분류된 텍스트 콘텐트와 시각적 콘텐트 정보를 전처리부(200)로 전송한다.

전처리부(200)는 전자문서 수집부(100)로부터 제2전자문서를 수신받아, 제2전자문서에 포함된 텍스트를 형태소 별로 구분하여 저장한다. 전처리부(200)는 정규화부와 토큰화부 및 필터링부를 포함할 수 있다. 정규화부는 제2전자문서에 포함된 텍스트 중 검색과 관련없는 정보 예를 들어 특수 문자(-, + 등)와 같은 구문을 제거한다.

그리고 토큰화부는 정규화 처리 된 텍스트들에 대해 형태소 단위로 토큰화 처리를 수행한다. 이 때 토큰화부는 형태소이지만 한 단어로 이루어진 의존명사(예컨대, '것', '수', '때' 등)를 제외한다.

필터링부는 전자문서 생성부로부터 수신한 좌표 정보를 통해 시각적 콘텐트와 텍스트 콘텐트 정보를 인식하고, 시각적 컨텐트 내부에 포함되는 텍스트들은 제외하고 제2전자문서를 생성한다.

제1전자문서에서 텍스트를 모두 추출한 뒤 제2전자문서를 생성할 때 시각적 컨텐트 내부에 포함된 텍스트를 제외하는데, 시각적 컨텐트 내부에 포함된 텍스트가 텍스트 컨텐트 내부에도 포함된 경우에는 제외되지 않는다. 구체적으로 필터링부는 제2전자문서를 생성할 때 시각적 컨텐트 내부에 포함된 텍스트를 제외하는데, 시각적 콘텐트에 포함된 명사가 텍스트 영역 내에 기 설정된 횟수 이상으로 포함되는 경우에는 제2전자문서 생성 시 이를 포함시킨다.

자연어 처리부(300)는 제2전자문서에 포함된 텍스트들에 대해 자연어를 처리하는 구문 분석기인 자연어 처리 파서(Parser)를 사용하여 각각의 토큰에 품사를 붙이는 품사(Part of Speech, POS) 태깅을 수행한다.

즉 태깅을 수행하여 정규화 처리 및 형태소 단위로 토큰화 처리가 수행 된 텍스트들에 대해 품사 태깅을 수행한 뒤, 명사를 제외한 다른 품사들이 태깅된 텍스트들은 제외하고 제2전자문서를 생성한다.

검색부(400)는 사용자로부터 검색어가 입력되면 자연어 처리가 완료된 제2전자문서의 텍스트들 즉, 자연어 처리부(300)에서 분류된 명사들을 검색어와 매칭한다.

각각의 제1전자문서의 본문의 내용들은 제2전자문서를 거쳐 자연어 처리가 완료된 후 데이터베이스(500)에 저장된다. 검색부(400)는 사용자로부터 검색어가 입력되면, 데이터베이스(500)에 저장된 자연어 처리된 명사들과 매칭하고, 매칭된 명사가 포함된 문서들을 리스팅한다.

상술한 바와 같이 본 발명에 의하면, 전자문서의 파일명 뿐만 아니라 본문 내의 텍스트들도 검색 가능한 문서 검색 시스템이 제공된다.

본 발명에서 모든 예들 또는 예시적인 용어(예를 들어, 등등)의 사용은 단순히 본 발명을 상세히 설명하기 위한 것으로서 청구범위에 의해 한정되지 않는 이상 상기 예들 또는 예시적인 용어로 인해 본 발명의 범위가 한정되는 것은 아니다. 또한 해당 기술 분야의 통상의 기술자는 다양한 수정, 조합 및 변경이 부가된 청구범위 또는 그 균등물의 범주 내에서 설계 조건 및 팩터(factor)에 따라 구성될 수 있음을 알 수 있다.

따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 청구범위 뿐만 아니라, 이 청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다.

1000 : 문서 검색 시스템
100 : 전자문서 수집부 200 : 전처리부
210 : 정규화부 220 : 토큰화부
230 : 필터링부 300 : 자연어 처리부
400 : 검색부

Claims

텍스트를 포함하는 제1전자문서 파일을 입력받아, 상기 제1전자문서 내의 텍스트를 추출하여 상기 제1전자문서와는 별도의 제2전자문서를 생성하여 저장하는 전자문서 수집부;
상기 전자문서 수집부로터 상기 제2전자문서를 수신받아, 상기 텍스트를 형태소 별로 구분하여 저장하는 전처리부;
상기 전처리부에서 분류된 형태소들을 정규화하고 자연어 처리를 한 뒤 명사만 분류하여 저장하는 자연어 처리부;
사용자로부터 입력된 검색어와 상기 자연어 처리부에서 분류된 명사를 매칭하여, 상기 검색어가 포함되는 상기 제1전자문서 파일을 리스팅하여 표시하는 검색부;
를 포함하는 문서 검색 시스템.
제1항에 있어서,
상기 제1전자문서 파일은 이미지 콘텐트와 도표 컨텐트 중 적어도 하나 이상을 포함하는 시각적 콘텐트를 더 포함하며,
상기 전처리부는,
상기 제2전자문서 파일의 포맷 구조 분석을 통해 상기 시각적 콘텐트의 좌표를 분석하여 상기 시각적 콘텐트의 영역을 분석하고, 상기 시각적 콘텐트 영역 내의 텍스트는 제외하여 상기 제2전자문서를 생성하는 문서 검색 시스템.
제2항에 있어서,
상기 전처리부는,
상기 시각적 콘텐트에 포함된 명사가 텍스트 영역 내에 기 설정된 횟수 이상으로 포함되는 경우에는 상기 제2전자문서 생성 시 포함시키는 문서 검색 시스템.
제3항에 있어서,
상기 제2전자문서는 확장가능 마크업 언어(Extensible Mark-up Language; XML) 포맷인 문서 검색 시스템.