KR102518843B1

KR102518843B1 - Lda를 이용한 기업 컨텐츠 관리 시스템

Info

Publication number: KR102518843B1
Application number: KR1020220085722A
Authority: KR
Inventors: 백진성
Original assignee: 망고클라우드 주식회사
Priority date: 2022-07-12
Filing date: 2022-07-12
Publication date: 2023-04-06

Abstract

LDA를 이용한 기업 컨텐츠 관리 시스템이 개시된다. 본 발명의 일 실시예에 따른 LDA를 이용한 기업 컨텐츠 관리 시스템은, LDA를 이용한 기업 컨텐츠 관리 시스템이 개시된다. 본 발명의 일 실시예에 따른 LDA를 이용한 기업 컨텐츠 관리 시스템은, 텍스트를 포함하는 제1전자문서 파일을 입력받아, 상기 제1전자문서와는 별도의 제2전자문서를 생성하고, 상기 제2전자문서 내의 텍스트를 추출하여 데이터베이스에 저장하는 전자문서 수집부; 상기 데이터베이스로부터 상기 텍스트를 수신받아, 상기 텍스트를 형태소 별로 구분하여 저장하는 전처리부; 상기 전처리부에서 분류된 형태소들을 정규화하고 자연어 처리를 한 뒤 명사만 분류하여 저장하는 자연어 처리부; 상기 자연어 처리된 명사들의 전체 개수로부터 특정 명사의 비율을 산정한 뒤, 소정 순위 이상의 비율을 갖는 명사를 선정하여 키워드를 추출하는 키워드 추출부; 상기 키워드 추출부에서 추출된 키워드로부터 토픽을 선정하고, 상기 토픽과 동일한 폴더명을 제안하는 토픽 선정부;를 포함하며, 상기 토픽 선정부는, 상기 토픽과 동일한 폴더명이 제안된 상기 제1전자문서의 저장경로 정보 및 파일명 정보를 수신하고, 제안된 상기 토픽과 동일한 폴더명을 사용하는 사용자의 수가 제안된 상기 토픽과 동일하지 않은 폴더명을 사용하는 사용자의 수보다 많은 경우 다시 상기 토픽과 동일한 폴더명을 제안하며, 제안된 상기 토픽과 동일한 폴더명을 사용하는 사용자의 수가 제안된 상기 토픽과 동일하지 않은 폴더명을 사용하는 사용자의 수보다 적은 경우 추출된 키워드 중에서 상기 토픽과 동일하지 않은 폴더명에 매칭되는 키워드를 토픽으로 재선정한 뒤 폴더명으로 제안한다. 본 발명에 의하면 제1전자문서의 파일명 뿐만 아니라 본문 내의 텍스트들도 검색 가능하며, 나아가, 본문 내의 텍스트들을 분석하여 토픽을 선정한 뒤 이를 사용자들에게 제공함으로써 컨텐츠를 보다 효율적으로 관리할 수 있는 LDA를 이용한 기업 컨텐츠 관리 시스템이 제공된다.

Description

LDA를 이용한 기업 컨텐츠 관리 시스템{ENTERPRISE CONTENT MANAGEMENT SYSTEM USING A LATENE DIRICHLET ALLOCATION}

본 발명은 기업 컨텐츠 관리 시스템에 관한 것으로서, 보다 상세하게는 제1전자문서의 파일명 뿐만 아니라 본문 내의 텍스트들도 검색 가능하며, 나아가, 본문 내의 텍스트들을 분석하여 토픽을 선정한 뒤 이를 사용자들에게 제공함으로써 컨텐츠를 보다 효율적으로 관리할 수 있는 LDA를 이용한 기업 컨텐츠 관리 시스템에 관한 것이다. 본 연구는 부산정보산업진흥원의 AI 기업 사업화 지원사업(2차)의 지원에 의한 연구이다.

전사적 콘텐츠 관리 시스템인 ECM(Enterprise Content Management)은 조직 내의 처리 업무에 관한 콘텐츠나 문서를 보관ㆍ전달ㆍ관리에 이용하는 기술을 의미한다.

최근 ECM은 기업 내부의 콘텐츠의 양과 종류가 급격한 속도로 증가하는 상황에서, 이에 대한 체계적인 관리가 기업 경쟁력 강화 및 생산성 향상에 크게 기여한다는 점에서 주목받고 있다.

전 산업에 걸쳐서 정보 기술화가 진행되면서, 기업들은 자사가 보유하고 있는 파일 시스템, DM/XML, 문서, 미디어, ERP(Enterprise Resource Planning) 등의 디지털 콘텐츠에 대한 효율적인 관리에 대한 고민을 하고 있다.

나아가, 코로나-19 펜데믹 이후 세계 다양한 산업의 기업 및 기관은 디지털 워크스페이스 도입을 위하여 전자문서 제품·서비스에 관심이 높으며, 다양한 산업에서 전자문서를 활용한 업무 개선에 돌입하고 있으며, 수많은 정보를 담고 있는 전자문서들이 매우 빠른 속도로 생산되고 있다.

많은 수의 전자문서가 생산되고, 필요 시 전자문서들을 검색하여 내용을 열람하거나 수정 등의 필요가 있는데, 데이터베이스 등을 통해 검색하는 경우 전자문서의 제목(파일명)만 검색이 가능하여, 실제 전자문서의 내용을 확인하기 위해서는 일일히 전자문서를 열어서 내용을 확인하여야 하는 문제점이 있으며 이는 업무 비효율의 일부분을 차지하고 있다.

한편, 전자문서의 본문에는 상당 수의 텍스트를 포함한 컨텐츠가 포함되어 있으며, 이를 일일히 색인 작업을 통해 검색을 하기에는 많은 수의 전자문서를 감안할 때 검색시간이 길어질 수 있으며 나아가 검색 정확도가 떨어지는 문제점이 있다.

따라서, 검색 효율을 높힘과 동시에 유사한 내용을 주제로 하는 전자문서들의 주제를 동일화 및 체계화하여 기업이 보유하는 컨텐츠를 효율적으로 관리할 수 있는 시스템이 필요한 실정이다.

대한민국 공개특허 제10-2012-0092931호 (2012.08.22) "이씨엠 시스템 및 그 시스템의 어플리케이션 데이터 관리 방법"

본 발명의 일 실시예에 따른 LDA를 이용한 기업 컨텐츠 관리 시스템은, 제1전자문서의 파일명 뿐만 아니라 본문 내의 텍스트들도 검색 가능하며, 나아가, 본문 내의 텍스트들을 분석하여 토픽을 선정한 뒤 이를 사용자들에게 제공함으로써 컨텐츠를 보다 효율적으로 관리할 수 있는 LDA를 이용한 기업 컨텐츠 관리 시스템을 제공하는 것을 목적으로 한다.

본 발명의 과제들은 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

LDA를 이용한 기업 컨텐츠 관리 시스템이 개시된다. 본 발명의 일 실시예에 따른 LDA를 이용한 기업 컨텐츠 관리 시스템은, 텍스트를 포함하는 제1전자문서 파일을 입력받아, 상기 제1전자문서와는 별도의 제2전자문서를 생성하고, 상기 제2전자문서 내의 텍스트를 추출하여 데이터베이스에 저장하는 전자문서 수집부; 상기 데이터베이스로부터 상기 텍스트를 수신받아, 상기 텍스트를 형태소 별로 구분하여 저장하는 전처리부; 상기 전처리부에서 분류된 형태소들을 정규화하고 자연어 처리를 한 뒤 명사만 분류하여 저장하는 자연어 처리부; 상기 자연어 처리된 명사들의 전체 개수로부터 특정 명사의 비율을 산정한 뒤, 소정 순위 이상의 비율을 갖는 명사를 선정하여 키워드를 추출하는 키워드 추출부; 상기 키워드 추출부에서 추출된 키워드로부터 토픽을 선정하고, 상기 토픽과 동일한 폴더명을 제안하는 토픽 선정부;를 포함하며, 상기 토픽 선정부는, 상기 토픽과 동일한 폴더명이 제안된 상기 제1전자문서의 저장경로 정보 및 파일명 정보를 수신하고, 제안된 상기 토픽과 동일한 폴더명을 사용하는 사용자의 수가 제안된 상기 토픽과 동일하지 않은 폴더명을 사용하는 사용자의 수보다 많은 경우 다시 상기 토픽과 동일한 폴더명을 제안하며, 제안된 상기 토픽과 동일한 폴더명을 사용하는 사용자의 수가 제안된 상기 토픽과 동일하지 않은 폴더명을 사용하는 사용자의 수보다 적은 경우 추출된 키워드 중에서 상기 토픽과 동일하지 않은 폴더명에 매칭되는 키워드를 토픽으로 재선정한 뒤 폴더명으로 제안한다.

여기서, 상기 키워드 추출부는, 소정 순위 이상의 비율을 갖는 명사를 선정하여 키워드로 추출하며, 상기 토픽 선정부는 키워드 중 최고 비율을 갖는 키워드를 상기 토픽으로 선정할 수 있다.

삭제

여기서, 상기 키워드 추출부는, 상기 제1전자문서 파일은 이미지 컨텐츠와 도표 컨텐츠 중 적어도 하나 이상을 포함하는 시각적 컨텐츠를 더 포함하며, 상기 전자문서 수집부는, 상기 제2전자문서 파일의 포맷 구조 분석을 통해 상기 시각적 컨텐츠의 좌표를 분석하여 상기 시각적 컨텐츠의 영역을 분석하고, 상기 시각적 컨텐츠 영역 내의 텍스트는 제외하여 상기 제2전자문서를 생성할 수 있다.

삭제

본 발명의 실시예들에 의하면 적어도 다음과 같은 효과가 있다.

본 발명에 따른 LDA를 이용한 기업 컨텐츠 관리 시스템에 의하면, 제1전자문서의 본문에 포함된 단어도 검색하여, 해당 단어가 본문에 포함된 제1전자문서를 사용자에게 리스팅할 수 있다.

또한, 시각적 컨텐츠를 제외하고 텍스트만을 추출하며 나아가 명사만 추출하여 저장한 뒤 검색함으로써 검색 효율이 매우 우수하다.

또한, 본문 내의 텍스트들을 분석하여 토픽을 선정한 뒤 이를 사용자들에게 제공함으로써 컨텐츠를 보다 효율적으로 관리할 수 있다.

또한, 사용자들의 토픽 사용여부를 피드백 받아 토픽 개선이 가능하여 컨텐츠를 보다 효율적으로 관리할 수 있다.

본 발명에 따른 효과는 이상에서 예시된 내용에 의해 제한되지 않으며, 더욱 다양한 효과들이 본 명세서 내에 포함되어 있다.

도 1은 본 발명의 제1실시예에 따른 LDA를 이용한 기업 컨텐츠 관리 시스템의 구성도
도 2는 본 발명의 제1실시예에 따른 LDA를 이용한 기업 컨텐츠 관리 시스템의 텍스트 추출 설명도
도 3 및 도 4는 본 발명의 제1실시예에 따른 LDA를 이용한 기업 컨텐츠 관리 시스템의 자연어 처리부의 설명도
도 5는 본 발명의 제1실시예에 따른 LDA를 이용한 기업 컨텐츠 관리 시스템의 토픽 선정부의 설명도
도 6은 본 발명의 제2실시예에 따른 LDA를 이용한 기업 컨텐츠 관리 시스템의 텍스트 추출 설명도
도 7은 본 발명의 제2실시예에 따른 LDA를 이용한 기업 컨텐츠 관리 시스템의 자연어 처리부의 설명이다.

본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예를 도면에 예시하고 이에 대해 상세한 설명에 상세하게 설명한다. 본 발명의 효과 및 특징, 그리고 그것들을 달성하는 방법은 도면과 함께 상세하게 후술되어 있는 실시예를 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예에 한정되는 것이 아니라 다양한 형태로 구현될 수 있으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

설명에 앞서 상세한 설명에 기재된 용어에 대해 설명한다. 이하의 실시예에서, 제1, 제2 등의 용어는 한정적인 의미가 아니라 하나의 구성 요소를 다른 구성 요소와 구별하는 목적으로 사용되었다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다. 또한, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 또한, '포함하다' 또는 '가지다' 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 의미하는 것이고, 하나 이상의 다른 특징들 또는 구성요소가 부가될 가능성을 미리 배제하는 것은 아니다.

또한, 도면에서는 설명의 편의를 위하여 구성 요소들이 그 크기가 과장 또는 축소될 수 있다. 예컨대, 도면에서 나타난 각 구성의 크기 및 두께는 설명의 편의를 위해 임의로 나타내었으므로, 본 발명이 반드시 도시된 바에 한정되지 않는다.

이하, 본 발명에 따른 일 실시예를 첨부된 도면을 참조하여 상세히 설명한다. 첨부 도면을 참조하여 설명함에 있어, 동일하거나 대응하는 구성요소는 동일한 도면 부호를 부여하고 이에 대해 중복되는 설명은 생략한다.

본 발명의 일 실시예에 따른 LDA를 이용한 기업 컨텐츠 관리 시스템은, 제1전자문서의 파일명 뿐만 아니라 본문 내의 텍스트들도 검색 가능하며, 나아가, 본문 내의 텍스트들을 분석하여 토픽을 선정한 뒤 이를 사용자들에게 제공함으로써 컨텐츠를 보다 효율적으로 관리할 수 있는 LDA를 이용한 기업 컨텐츠 관리 시스템에 관한 것이다.

도 1은 본 발명의 제1실시예에 따른 LDA를 이용한 기업 컨텐츠 관리 시스템의 구성도이며, 도 2는 본 발명의 제1실시예에 따른 LDA를 이용한 기업 컨텐츠 관리 시스템의 텍스트 추출 설명도이다.

본 발명의 일 실시예에 따른 LDA를 이용한 기업 컨텐츠 관리 시스템(1000)은, 전자문서 수집부(100)와, 자연어 처리부(200)와, 키워드 추출부(300) 및 토픽 선정부(400)를 포함한다.

전자문서 수집부(100)는 작성된 제1전자문서를 수신하여 제1전자문서의 본문에 포함된 명사들이 검색될 수 있도록 제2전자문서를 생성하고, 제2전자문서에 포함된 텍스트들을 데이터베이스(500)에 저장하는 구성이다.

제1전자문서는 일반적인 문서 작업 시 사용하는 소프트웨어를 통해 작성된 문서이다. 제1전자문서의 포맷은 한글문서(HWP), 워드(DOC), 파워포인트(PPT) 및 엑셀(XLS) 파일 PDF파일 중 적어도 어느 하나일 수 있다.

제1전자문서에는 사용자가 직접 입력한 텍스트들이 포함되며, 나아가 사용자가 직접 입력한 이미지 컨텐츠와 도표 컨텐츠를 포함할 수 있다. 본 실시예에서 텍스트를 제외한 컨텐츠, 즉 이미지 컨텐츠와 도표 컨텐츠를 시각적 컨텐츠라고 한다.

전자문서 수집부(100)는 제1전자문서를 수신한 뒤, 제1전자문서와는 별도의 제2전자문서를 생성한다. 본 실시예에서 제2전자문서는 확장가능 마크업 언어(Extensible Mark-up Language; XML) 포맷이다.

따라서 제1전자문서의 포맷이 한글문서(HWP), 워드(DOC), 파워포인트(PPT) 및 엑셀(XLS) 파일 중 어느 하나인 경우, 제2전자문서는 오피스 오픈 XML(OOXML), 오픈 도큐먼트(Open Document) 및 개방형 워드프로세서 마크업 언어(OWPML) 포맷일 수 있다. 구체적으로 제2전자문서는 XML포맷으로서, 사용된 프로그램에 따라 워드 프로세서(DOCX, ODT, HWPX), 스프레드시트(XLSX, ODS, CELL) 및 프레젠테이션(PPTX, ODP, SHOW) 문서 중 적어도 어느 하나일 수 있다.

그리고 전자문서 수집부(100)는 제2전자문서에 포함된 텍스트들을 추출하여 데이터베이스(500)에 저장한다. XML포맷의 제2전자문서를 XML 파싱을 수행하여 텍스트들을 추출할 수 있다.

구체적으로 제2전자문서는 문서 본문 내용을 XML로 기술하며, 문서 본문 내용의 루트로서 Contents 폴더 즉, 문서의 실제 콘텐츠 데이터를 담은 XML 파일을 담는 폴더로서, content.hpf, header.xml, section0.xml 등의 파일이 저장되며, 이를 분석하여 텍스트들을 추출할 수 있다. 추출된 텍스트들은 데이터베이스(500)에 저장된다. 이는 데이터베이스(500)의 텍스트 저장부(510)에 저장될 수 있다.

도 3 및 도 4는 본 발명의 제1실시예에 따른 LDA를 이용한 기업 컨텐츠 관리 시스템의 자연어 처리부의 설명도이다.

자연어 처리부(200)는, 데이터베이스(500)에 저장된 제2전자문서로부터 추출된 텍스트들을 수신받아, 제2전자문서에 포함된 텍스트들 중 명사만을 분류하여 저장하는 구성이다. 자연어 처리부(200)는 정규화부(210)와 토큰화부(220) 및 명사 처리부(230)를 포함한다.

정규화부(210)는 제2전자문서에 포함된 텍스트 중 검색과 관련없는 정보 예를 들어 특수 문자(-, + 등)와 같은 구문을 제거한다.

그리고 토큰화부(220)는 정규화 처리 된 텍스트들에 대해 형태소 단위로 토큰화 처리를 수행한다. 이 때 토큰화부(220)는 형태소이지만 한 단어로 이루어진 의존명사(예컨대, '것', '수', '때' 등)를 제외한다.

명사 처리부(230)는 제2전자문서에 포함된 텍스트들에 대해 자연어를 처리하는 구문 분석기인 자연어 처리 파서(Parser)를 사용하여 각각의 토큰에 품사를 붙이는 품사(Part of Speech, POS) 태깅을 수행한다.

즉 태깅을 수행하여 정규화 처리 및 형태소 단위로 토큰화 처리가 수행 된 텍스트들에 대해 품사 태깅을 수행한 뒤, 명사를 제외한 다른 품사들이 태깅된 텍스트들은 제외하고 명사들만 데이터베이스(500)의 명사 저장부(520)에 저장한다.

검색부는 사용자로부터 검색어가 입력되면 자연어 처리가 완료된 제2전자문서의 텍스트들 즉, 자연어 처리부(200)에서 분류된 명사들을 검색어와 매칭한다.

각각의 제1전자문서의 본문의 내용들은 제2전자문서를 거쳐 자연어 처리가 완료된 후 데이터베이스(500)에 저장된다. 검색부는 사용자로부터 검색어가 입력되면, 데이터베이스(500)에 저장된 자연어 처리된 명사들 즉 명사 저장부(520)에 저장된 텍스트들과 매칭하고, 매칭된 명사가 포함된 문서들을 리스팅한다.

이를 통해 보다 효율적으로 제1전자문서들을 검색할 수 있다. 다시 말해, 제1전자문서의 파일명에 포함되지 않고 본문 내에만 포함된 명사도 검색할 수 있으며, 해당 명사를 포함하는 제1전자문서를 리스팅하여 효율적인 검색이 가능하다.

키워드 추출부(300)는 자연어 처리된 명사들로부터 제1전자문서의 주제를 선정할 수 있는 키워드를 추출하는 구성이다.

키워드 추출부(300)는 자연어 처리된 명사들의 전체 개수로부터 각 명사들의 비율을 산정한다. 즉, 제1전자문서에 포함된 명사들의 총 개수 중에서 각각의 명사가 몇 번 포함되었는지를 산출하고 이의 비율을 산정한다.

그리고 키워드 추출부(300)는 기 설정된 순위 내의 명사들만 선택하여 키워드로 추출한다. 즉 제1전자문서 내에 포함된 다수의 명사들 중 많은 비율을 차지하는 명사들을 기 설정된 순위 내로 선정하여 키워드로 추출한다.

도 5는 본 발명의 제1실시예에 따른 LDA를 이용한 기업 컨텐츠 관리 시스템의 토픽 선정부의 설명도이다.

그리고 토픽 선정부(400)는 키워드 추출부(300)에서 추출된 키워드로부터 토픽을 선정하고, 사용자에게 토픽과 동일한 폴더명을 제안한다. 여기서 폴더명은 제1전자문서가 저장되는 디렉토리 명칭을 의미한다.

이 때 처음 토픽을 선정하는 경우, 키워드 추출부(300)에서 추출된 키워드 중 최고 비율을 갖는 키워드를 토픽으로 선정한다. 그리고 해당 토픽을 제1전자문서가 저장될 폴더명으로 제안한다. 그리고 제1전자문서의 파일명도 제안할 수 있다. 여기서 파일명은 기 설정된 규칙에 토픽을 반영하여 생성할 수 있다.

한편, 토픽 선정부(400)는 사용자에게 제1전자문서가 저장될 폴더명을 제안한 뒤, 제1전자문서의 폴더명(저장경로,디렉토리) 및 제1전자문서의 파일명 정보를 수신한다.

사용자에게 폴더명을 제안하였지만, 사용자가 제안된 폴더명을 사용하지 않고 기호에 따라 다른 폴더명을 사용하여 제1전자문서를 저장할 수 있다. 나아가 제1전자문서의 파일명 또한 변경할 수 있다.

토픽 선정부(400)는 네트워크 및 데이터베이스(500)를 통해 사용자가 저장한 제1전자문서의 저장경로 및 파일명 정보를 수신하여, 제안된 폴더명에 저장되어 있는지, 그렇지 않다면 어떤 명칭의 폴더에 저장되었는지에 관한 정보를 수신한다.

나아가, 동일한 폴더명 즉 동일한 토픽을 제안한 다른 사용자들의 폴더명 및 제1전자문서의 파일명 정보도 수신한다.

토픽 선정부(400)는 제안된 토픽과 동일한 토픽을 사용하는 사용자의 수가 수정된 폴더명을 사용하는 사용자보다 많은 경우, 수정된 폴더명을 사용하는 사용자에게 다시 해당 토픽을 폴더명으로 제안한다.

만일 사용자들 중 제안된 토픽을 사용하는 사용자의 수가 수정된 폴더명을 사용하는 사용자보다 적거나, 또는 없는 경우, 토픽 선정부(400)는 추출된 키워드들 중에서 변경된 폴더명과 매칭되는 키워드가 있는지 여부를 검토한다. 추출된 키워드들 중에서 변경된 폴더명과 매칭되는 키워드가 있는 경우 토픽 선정부(400)는 해당 키워드를 토픽으로 재선정한 뒤 이를 제1전자문서가 저장될 폴더명으로 다시 제안한다. 만일 추출된 키워드들 중에서 변경된 폴더명과 매칭되는 키워드가 없는 경우 토픽 선정부(400)는 변경된 폴더명 중 가장 많이 공통되는 단어를 제1전자문서가 저장될 폴더명으로 다시 제안한다.

이를 통해 기업 내 다수의 사용자들이 작성한 전자문서들 중에서 동일한 토픽으로 제안된 전자문서들은 종국적으로 동일한 폴더명에 저장될 수 있다. 따라서 기업 내에서 전자문서의 저장, 관리 및 검색의 효율이 매우 우수해진다.

위 폴더명 제안 및 수정 제안은 파일명에 대해서도 동일하다.

다음으로 본 발명의 제2실시예에 따른 기업 컨텐츠 관리 시스템에 대해 설명한다.

도 6은 본 발명의 제2실시예에 따른 LDA를 이용한 기업 컨텐츠 관리 시스템의 텍스트 추출 설명도이며, 도 7은 본 발명의 제2실시예에 따른 LDA를 이용한 기업 컨텐츠 관리 시스템의 자연어 처리부의 설명이다.

본 발명의 제2실시예에 따른 LDA를 이용한 기업 컨텐츠 관리 시스템(2000)은, 전자문서 수집부(100)와, 자연어 처리부(200)와, 키워드 추출부(300) 및 토픽 선정부(400)를 포함한다. 전자문서 수집부(600)와 자연어 처리부(700)를 제외한 구성은 제1실시예와 동일하므로 중복 설명은 생략한다.

제1전자문서가 텍스트만으로 이루어진 경우 전자문서 수집부(600)는 제1전자문서를 제2전자문서로 변환하고, 제2전자문서에서 텍스트를 모두 추출하여 데이터베이스(500)에 저장한다.

그러나 제1전자문서에 상술한 시각적 컨텐츠가 포함된 경우, 전자문서 수집부(600)는 제1전자문서를 제2전자문서로 변환하고, 제2전자문서에서 시각적 컨텐츠를 추출한 뒤, 시각적 컨텐츠 및 시각적 컨텐츠에 포함된 텍스트들은 제외하고 데이터베이스(500)에 저장한다.

본 실시예는 상술한 바와 같이 제1전자문서의 본문에 포함된 명사들도 검색하여 리스팅될 수 있도록 하는데, 사용자들이 검색하고자 하는 대상이 주제나 주요 키워드로서 명사이며, 한편 시각적 컨텐츠 내부에 포함된 명사의 경우 검색 대상에서 제외되는 경우가 많은 점을 분석하여, 해당 시각적 컨텐츠에 포함된 텍스트들은 제외시킨다.

이에 따라 전자문서 수집부(600)는 제2전자문서의 각 페이지 내에서 시각적 컨텐츠들을 추출한다. 전자문서 수집부(600)는 제2전자문서 파일의 포맷 구조 분석을 한 뒤 Contour 알고리즘을 적용하여 시각적 컨텐츠의 좌표를 분석한다. 즉 전자문서 수집부(600)는 제2전자문서의 오피스 오픈 XML, 오픈 도큐먼트 및 개방형 워드프로세서 마크업 언어 중 적어도 어느 하나 파일 여부에 따른 파일 내부의 XML 포맷 여부를 판단하고, XML 포맷 구조 분석을 통해 시각적 컨텐츠가 위치하는 좌표를 분석한다.

이 후 추출된 모든 외곽 좌표를 연결된 선으로 인식 후 외형선 및 좌표 정보를 산출한다.

즉, 좌표를 통해 제2전자문서를 텍스트 컨텐츠와 시각적 컨텐츠로 분류한다. 그리고 좌표 정보 즉 분류된 텍스트 컨텐츠와 시각적 컨텐츠 정보를 전처리부로 전송한다.

자연어 처리부(700)는, 제2전자문서를 수신받아 제2전자문서에 포함된 텍스트들 중 명사만을 분류하여 저장하는 구성이다. 자연어 처리부(200)는 정규화부(210)와 토큰화부(220)와, 필터링부(740) 및 명사 처리부(230)를 포함한다.

필터링부(740)는 전자문서 생성부로부터 수신한 좌표 정보를 통해 시각적 컨텐츠와 텍스트 컨텐츠 정보를 인식하고, 시각적 컨텐츠 내부에 포함되는 텍스트들은 제외하고 제2전자문서를 생성한다.

이 때, 제1전자문서에서 텍스트를 모두 추출한 뒤 제2전자문서를 생성할 때 시각적 컨텐츠 내부에 포함된 텍스트를 제외하는데, 시각적 컨텐츠 내부에 포함된 텍스트가 텍스트 컨텐츠 내부에도 포함된 경우에는 제외되지 않는다. 구체적으로 필터링부는 제2전자문서를 생성할 때 시각적 컨텐츠 내부에 포함된 텍스트를 제외하는데, 시각적 컨텐츠에 포함된 명사가 텍스트 영역 내에 기 설정된 횟수 이상으로 포함되는 경우에는 제2전자문서 생성 시 이를 포함시킨다.

상술한 바와 같이 본 발명에 의하면 제1전자문서의 파일명 뿐만 아니라 본문 내의 텍스트들도 검색 가능하며, 나아가, 본문 내의 텍스트들을 분석하여 토픽을 선정한 뒤 이를 사용자들에게 제공함으로써 컨텐츠를 보다 효율적으로 관리할 수 있는 LDA를 이용한 기업 컨텐츠 관리 시스템이 제공된다.

본 발명에서 모든 예들 또는 예시적인 용어(예를 들어, 등등)의 사용은 단순히 본 발명을 상세히 설명하기 위한 것으로서 청구범위에 의해 한정되지 않는 이상 상기 예들 또는 예시적인 용어로 인해 본 발명의 범위가 한정되는 것은 아니다. 또한 해당 기술 분야의 통상의 기술자는 다양한 수정, 조합 및 변경이 부가된 청구범위 또는 그 균등물의 범주 내에서 설계 조건 및 팩터(factor)에 따라 구성될 수 있음을 알 수 있다.

따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 청구범위 뿐만 아니라, 이 청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다.

1000 : LDA를 이용한 기업 컨텐츠 관리 시스템
100 : 전자문서 수집부 200 : 자연어 처리부
210 : 정규화부 220 : 토큰화부
230 : 명사 처리부
300 : 키워드 추출부 400 : 토픽 선정부
500 : 데이터베이스 510 : 텍스트 저장부
520 : 명사 저장부

Claims

텍스트를 포함하는 제1전자문서 파일을 입력받아, 상기 제1전자문서와는 별도의 제2전자문서를 생성하고, 상기 제2전자문서 내의 텍스트를 추출하여 데이터베이스에 저장하는 전자문서 수집부;
상기 데이터베이스로부터 상기 텍스트를 수신받아, 상기 텍스트를 형태소 별로 구분하여 저장하는 전처리부;
상기 전처리부에서 분류된 형태소들을 정규화하고 자연어 처리를 한 뒤 명사만 분류하여 저장하는 자연어 처리부;
상기 자연어 처리된 명사들의 전체 개수로부터 특정 명사의 비율을 산정한 뒤, 소정 순위 이상의 비율을 갖는 명사를 선정하여 키워드를 추출하는 키워드 추출부;
상기 키워드 추출부에서 추출된 키워드로부터 토픽을 선정하고, 상기 토픽과 동일한 폴더명을 제안하는 토픽 선정부;를 포함하며,
상기 토픽 선정부는,
상기 토픽과 동일한 폴더명이 제안된 상기 제1전자문서의 저장경로 정보 및 파일명 정보를 수신하고,
제안된 상기 토픽과 동일한 폴더명을 사용하는 사용자의 수가 제안된 상기 토픽과 동일하지 않은 폴더명을 사용하는 사용자의 수보다 많은 경우 다시 상기 토픽과 동일한 폴더명을 제안하며,
제안된 상기 토픽과 동일한 폴더명을 사용하는 사용자의 수가 제안된 상기 토픽과 동일하지 않은 폴더명을 사용하는 사용자의 수보다 적은 경우 추출된 키워드 중에서 상기 토픽과 동일하지 않은 폴더명에 매칭되는 키워드를 토픽으로 재선정한 뒤 폴더명으로 제안하는
LDA를 이용한 기업 컨텐츠 관리 시스템.
제1항에 있어서,
상기 키워드 추출부는,
소정 순위 이상의 비율을 갖는 명사를 선정하여 키워드로 추출하며,
상기 토픽 선정부는 키워드 중 최고 비율을 갖는 키워드를 상기 토픽으로 선정하는
LDA를 이용한 기업 컨텐츠 관리 시스템.
삭제
제2항에 있어서,
상기 제1전자문서 파일은 이미지 컨텐츠와 도표 컨텐츠 중 적어도 하나 이상을 포함하는 시각적 컨텐츠를 더 포함하며,
상기 전자문서 수집부는,
상기 제2전자문서 파일의 포맷 구조 분석을 통해 상기 시각적 컨텐츠의 좌표를 분석하여 상기 시각적 컨텐츠의 영역을 분석하고, 상기 시각적 컨텐츠 영역 내의 텍스트는 제외하여 상기 제2전자문서를 생성하는
LDA를 이용한 기업 컨텐츠 관리 시스템.
삭제