KR102005067B1 - 딥러닝 알고리즘을 이용한 문서 데이터 저장 시스템 및 그 방법 - Google Patents

딥러닝 알고리즘을 이용한 문서 데이터 저장 시스템 및 그 방법 Download PDF

Info

Publication number
KR102005067B1
KR102005067B1 KR1020180128477A KR20180128477A KR102005067B1 KR 102005067 B1 KR102005067 B1 KR 102005067B1 KR 1020180128477 A KR1020180128477 A KR 1020180128477A KR 20180128477 A KR20180128477 A KR 20180128477A KR 102005067 B1 KR102005067 B1 KR 102005067B1
Authority
KR
South Korea
Prior art keywords
data
document
image
deep learning
table structure
Prior art date
Application number
KR1020180128477A
Other languages
English (en)
Inventor
김영호
홍은영
Original Assignee
지의소프트 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 지의소프트 주식회사 filed Critical 지의소프트 주식회사
Priority to KR1020180128477A priority Critical patent/KR102005067B1/ko
Application granted granted Critical
Publication of KR102005067B1 publication Critical patent/KR102005067B1/ko

Links

Images

Classifications

    • G06F17/245
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 딥러닝 알고리즘을 이용한 문서 데이터 저장 시스템 및 그 방법에 관한 것으로서, 더욱 상세하게는, 사용자가 업로드한 문서 내에 포함되어 있는 테이블(표) 구조 형태의 정보를 검출하고 해당 형태 그대로 저장할 수 있어, 검색 및 통계 등 다양한 분야에서 활용할 수 있는 딥러닝 알고리즘을 이용한 문서 데이터 저장 시스템 및 그 방법에 관한 것이다.

Description

딥러닝 알고리즘을 이용한 문서 데이터 저장 시스템 및 그 방법 {Document data storage system and method using deep learning algorithm}
본 발명은 딥러닝 알고리즘을 이용한 문서 데이터 저장 시스템 및 그 방법에 관한 것으로, 더욱 상세하게는 이미지의 유사도 판별에 최적화된 딥러닝 알고리즘을 이용하여, 문서를 이미지로 변환하고 변환된 이미지 내에 포함되어 있는 테이블(표) 정보를 추출하여 저장할 수 있는 딥러닝 알고리즘을 이용한 문서 데이터 저장 시스템 및 그 방법에 관한 것이다.
일반적으로 문서의 내용은 문서 포맷별 '문서 필터 소프트웨어'를 통해, 문서에 포함되어 있는 텍스트만을 추출하여 저장할 수 있다. 이러한 과정에서 도 3에 도시된 바와 같이, 문서 내에 포함되어 있는 테이블(표) 형태의 정보도 일반 문장처럼 텍스트로 추출되어 저장되게 된다.
즉, 문서 내에 포함되어 있는 테이블 형태에 담긴 정보들이 일반 텍스트 문장처럼 텍스트로 추출되어 저장됨으로써, 저장된 텍스트 정보가 어떤 정보인지 명확히 알 수 없어 정보로서의 가치를 잃게 되는 문제점이 있다.
그렇기 때문에, 반복적으로 구동하거나 수집하는 문서 내에 포함되어 있는 테이블 형태에 담긴 정보들은 통계용으로 이용하기 위해서는, 사용자가 별도의 수작업을 통해서 데이터베이스화해야만 정보로서의 가치를 유지할 수 있다.
이와 관련해서, 국내공개특허 제10-2017-0038223호("전자문서 내 표 데이터의 음성 변환 장치 및 방법")에서는 시각장애인을 위해 점자책이나 텍스트 정보를 기반으로 음성을 녹음한 DTB와 같은 대체자료를 제작하는데 있어서, 전자문서 내에 표 데이터가 포함된 경우, 단순히 셀의 내용을 순차적으로 읽어주는 방식으로 수행되는 문제점을 해소하여 표 데이터의 내용을 정확하게 전달하기 위한 장치 및 방법을 개시하고 있다.
국내공개특허공보 제10-2017-0038223호(2017.04.07.)
본 발명은 상기한 바와 같은 종래 기술의 문제점을 해결하기 위하여 안출된 것으로, 이미지의 유사도 판별에 최적화된 딥러닝 알고리즘을 이용하여, 문서를 이미지로 변환하고 변환된 이미지 내에 포함되어 있는 테이블(표) 정보를 추출하여 저장할 수 있는 딥러닝 알고리즘을 이용한 문서 데이터 저장 시스템 및 그 방법을 제공하는 것이다.
본 발명의 일 실시예에 따른 딥러닝 알고리즘을 이용한 문서 데이터 저장 시스템은, 문서를 업로드받아, 상기 문서를 각 페이지마다 이미지 데이터로 변환하는 문서 관리부(100), 상기 문서 관리부(100)에서 변환한 상기 이미지 데이터를 분석하여 테이블(표) 이미지를 검출하고, 검출한 상기 테이블 이미지의 특징 정보를 추출하는 문서 분석부(200), 기저장된 딥러닝 알고리즘을 이용하여 테이블 구조 관련 이미지를 학습하여, 테이블 구조별 기준 데이터를 생성하는 딥러닝 학습부(300) 및 상기 문서 분석부(200)에서 추출한 상기 테이블 이미지의 특징 정보와 상기 딥러닝 학습부(300)에서 생성한 상기 테이블 구조별 기준 데이터를 매칭시켜, 가장 유사한 테이블 구조 데이터를 추출하는 테이블 구조 분석부(400)를 포함하여 구성되는 것이 바람직하다.
더 나아가, 상기 딥러닝 알고리즘을 이용한 문서 데이터 저장 시스템은 상기 문서 분석부(200)에서 검출한 상기 테이블 이미지를 텍스트 필터링하여, 상기 테이블 이미지 내 텍스트 데이터를 추출하는 텍스트 추출부(500)를 더 포함하여 구성되는 것이 바람직하다.
더 나아가, 상기 딥러닝 알고리즘을 이용한 문서 데이터 저장 시스템은 상기 텍스트 추출부(500)에서 추출한 상기 텍스트 데이터를 상기 테이블 구조 분석부(400)에서 추출한 상기 테이블 구조 데이터에 적용하여 테이블 데이터를 생성하는 테이블 데이터 생성부(600)를 더 포함하여 구성되는 것이 바람직하다.
더 나아가, 상기 딥러닝 학습부(300)는 CNN(Convolutional Neural Network) 알고리즘을 이용하는 것이 바람직하다.
본 발명의 일 실시예에 따른 딥러닝 알고리즘을 이용한 문서 데이터 저장 방법은, 사용자로부터 문서를 업로드받는 업로드 단계(S100), 상기 업로드 단계(S100)에 의해 업로드받은 상기 문서를 각 페이지마다 이미지 데이터로 변환하는 이미지 변환단계(S200), 상기 이미지 변환단계(S200)에 의해 변환한 상기 이미지 데이터를 분석하여 테이블(표) 이미지를 검출하는 이미지 분석단계(S300), 상기 이미지 분석단계(S300)에 의해 검출한 상기 이미지 데이터의 특징 정보를 추출하는 특징 추출단계(S400), 딥러닝 알고리즘을 이용하여 생성한 테이블 구조별 기준 데이터와 상기 특징 추출단계(S400)에 의해 추출한 상기 테이블 이미지의 특징 정보를 매칭시켜, 가장 유사한 테이블 구조 데이터를 추출하는 테이블 구조 분석단계(S500), 상기 이미지 분석단계(S300)에 의해 검출한 상기 테이블 이미지를 텍스트 필터링하여, 상기 테이블 이미지 내 텍스트 데이터를 추출하는 텍스트 추출단계(S600) 및 상기 텍스트 추출단계(S600)에 의해 추출한 상기 텍스트 데이터를 상기 테이블 구조 분석단계(S500)에 의해 추출한 상기 테이블 구조 데이터에 적용하여, 테이블 데이터를 생성하는 테이블 데이터 생성단계(S700)를 포함하여 구성되는것이 바람직하다.
더 나아가, 상기 테이블 구조 분석단계(S500)를 수행하기 앞서서, 기저장된 딥러닝 알고리즘을 이용하여 테이블 구조 관련 이미지를 학습하여, 테이블 구조별 기준 데이터를 생성하는 학습단계(S510)를 더 수행하는 것이 바람직하다.
더 나아가, 상기 학습단계(S510)에서 CNN(Convolutional Neural Network) 알고리즘을 이용하는 것이 바람직하다.
상기와 같은 구성에 의한 본 발명의 딥러닝 알고리즘을 이용한 문서 데이터 저장 시스템 및 그 방법은 이미지의 유사도 판별에 최적화된 딥러닝 알고리즘을 이용하여, 문서를 이미지로 변환하고 변환된 이미지 내에 포함되어 있는 테이블(표) 정보를 추출하여 저장할 수 있는 장점이 있다.
이러한 과정에서 문서 내에 포함되어 있는 테이블(표) 형태의 정보를 단순히 텍스트로 풀어서 저장하는 것이 아니라, 테이블과 동일한(유사한) 구조체 형태로 저장할 수 있어, 문서 데이터를 좀 더 효율적으로 이용할 수 있는 장점이 있다.
상세하게는, 사용자가 저장하고자 하는 문서를 업로드하면, 이미지로의 변환 과정을 거쳐 문서 내에 포함되어 있는 테이블 형태의 정보를 추출한 후, 추출한 테이블 형태의 정보를 딥러닝 알고리즘을 통해서 학습한 테이블 구조별 기준 데이터에 매칭시켜 '테이블 구조 형태'로 저장할 수 있어, 저장된 정보를 검색 및 통계 등으로 다양하게 활용할 수 있는 장점이 있다.
도 1은 본 발명의 일 실시예에 따른 딥러닝 알고리즘을 이용한 문서 데이터 저장 시스템을 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른 딥러닝 알고리즘을 이용한 문서 데이터 저장 시스템 및 그 방법에서 변환한 이미지 데이터의 실시예이다.
도 3은 본 발명의 일 실시예에 따른 딥러닝 알고리즘을 이용한 문서 데이터 저장 시스템 및 그 방법에서 딥러닝 알고리즘을 이용한 학습에 따라 생성한 테이블 구조별 기준 데이터의 실시예이다.
도 4는 본 발명의 일 실시예에 따른 딥러닝 알고리즘을 이용한 문서 데이터 저장 시스템 및 그 방법에서 텍스트 필터링한 테이블 이미지의 실시예이다.
도 5는 본 발명의 일 실시예에 따른 딥러닝 알고리즘을 이용한 문서 데이터 저장 시스템 및 그 방법의 과정을 도식화한 도면이다.
도 6은 본 발명의 일 실시예에 따른 딥러닝 알고리즘을 이용한 문서 데이터 저장 방법을 나타낸 순서도이다.
이하 첨부한 도면들을 참조하여 본 발명의 딥러닝 알고리즘을 이용한 문서 데이터 저장 시스템 및 그 방법을 상세히 설명한다. 다음에 소개되는 도면들은 당업자에게 본 발명의 사상이 충분히 전달될 수 있도록 하기 위해 예로서 제공되는 것이다. 따라서, 본 발명은 이하 제시되는 도면들에 한정되지 않고 다른 형태로 구체화될 수도 있다. 또한, 명세서 전반에 걸쳐서 동일한 참조번호들은 동일한 구성요소들을 나타낸다.
이 때, 사용되는 기술 용어 및 과학 용어에 있어서 다른 정의가 없다면, 이 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 통상적으로 이해하고 있는 의미를 가지며, 하기의 설명 및 첨부 도면에서 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 설명은 생략한다.
더불어, 시스템은 필요한 기능을 수행하기 위하여 조직화되고 규칙적으로 상호 작용하는 장치, 기구 및 수단 등을 포함하는 구성 요소들의 집합을 의미한다.
본 발명의 일 실시예에 따른 딥러닝 알고리즘을 이용한 문서 데이터 저장 시스템 및 그 방법은 사용자가 업로드한 문서 내에 포함되어 있는 테이블(표) 구조 형태의 정보를 검출하고 해당 형태 그대로 저장할 수 있어, 검색 및 통계 등 다양한 분야에서 활용할 수 있도록 하는 시스템 및 장치에 관한 것이다.
도 1은 본 발명의 일 실시예에 따른 딥러닝 알고리즘을 이용한 문서 데이터 저장 시스템을 나타낸 도면이며, 도 1을 참조로 하여 본 발명의 일 실시예에 따른 딥러닝 알고리즘을 이용한 문서 데이터 저장 시스템을 상세히 설명한다.
본 발명의 일 실시예에 따른 딥러닝 알고리즘을 이용한 문서 데이터 저장 시스템은 도 1에 도시된 바와 같이, 문서 관리부(100), 문서 분석부(200), 딥러닝 학습부(300), 테이블 구조 분석부(400)를 포함하여 구성되는 것이 바람직하며, 상기 문서 관리부(100), 문서 분석부(200), 딥러닝 학습부(300) 및 테이블 구조 분석부(400)는 하나의 또는 다수 개의 CPU를 포함하는 단말기 또는 동작을 수행할 수 있는 소프트웨어를 포함하는 단말기로 이루어지는 것이 바람직하며, 상호간의 데이터 송수신을 위해 무선 또는 유선 네트워크를 이용하여 연결되는 것이 바람직하며, 하나의 CPU로 이루어지는 단말기 등에 포함되어 동작이 수행될 경우, 별도의 네트워크 없이 용이하게 데이터의 송수신이 가능하다.
사용자는 미리 설정된 특정 웹페이지에 접속하거나 어플리케이션을 이용하여, 문서 데이터 저장을 원하는 문서 파일을 업로드하는 것이 바람직하며, 이 때, 업로드 가능한 문서 파일은 그 확장자를 한정하는 것이 아니라, 문서 데이터가 포함되어 있는 다양한 형태의 확장자를 업로드하여도 무방하다.
상기 문서 관리부(100)는 사용자가 업로드한 상기 문서를 전달받아, 상기 문서의 각각의 페이지를 이미지 데이터로 변환하는 것이 바람직하다.
도 2는 상기 문서 관리부(100)에서 변환한 이미지 데이터의 실시예로서, 텍스트와 테이블이 한꺼번에 한 페이지의 문서에 기재되어 있을 경우, 각각의 페이지 별로 변환한 이미지 데이터에도 역시 텍스트와 테이블이 한꺼번에 표시되는 것이 바람직하다.
상기 문서 분석부(200)는 상기 문서 관리부(100)에서 변환한 상기 이미지 데이터를 분석하여, 테이블(표) 이미지를 검출하고, 검출한 상기 테이블 이미지의 특징 정보를 추출하는 것이 바람직하다.
상세하게는, 도 2에 도시된 바와 같은 문서의 이미지 데이터를 분석하여, 각각의 이미지 데이터에 포함되어 있는 테이블(표) 이미지를 검출하는 것이 바람직하다. 이 후, 검출한 상기 테이블 이미지의 특징 정보를 추출하는 것이 바람직하며, 통상적으로 사용되는 분석 알고리즘을 이용하는 것이 가장 바람직하다.
더불어, 상기 테이블 이미지의 특징 정보로는, 테이블의 제목 정보, 헤더 구조 정보, 셀 구조 정보, 행*열 구조 정보, 줄*칸 구조 정보 등을 포함하는 것이 바람직하다.
상기 딥러닝 학습부(300)는 미리 저장된 딥러닝 알고리즘을 이용하여 테이블 구조 관련 이미지를 학습하여, 테이블 구조별 기준 데이터를 생성하는 것이 바람직하다. 상세하게는, 상기 딥러닝 학습부(300)는 이미지 학습에 최적화된 CNN(Convolutional Neural Network) 알고리즘을 적용하여 테이블 구조 관련 이미지들을 학습하는 것이 가장 바람직하나, 다른 딥러닝 알고리즘을 적용하는 것 역시 무방하다.
도 3은 상기 딥러닝 학습부(300)에서 딥러닝 알고리즘을 이용하여 테이블 구조 관련 이미지들을 학습하여 생성한 테이블 구조별 기준 데이터의 실시예이다. 도 3에 도시된 바와 같이, 다양한 테이블 구조에 대한 기준 데이터들을 생성하는 것이 가장 바람직하다.
상기 테이블 구조 분석부(400)는 상기 문서 분석부(200)에서 추출한 상기 테이블 이미지의 특징 정보와 상기 딥러닝 학습부(300)에서 생성한 상기 테이블 구조별 기준 데이터를 매칭시켜, 가장 유사한 테이블 구조 데이터를 추출하는 것이 바람직하다.
다시 말하자면, 상기 테이블 구조 분석부(400)는 상기 문서 분석부(200)에서 추출한 상기 테이블 이미지의 특징 정보와 상기 딥러닝 학습부(300)에서 생성한 상기 테이블 구조별 기준 데이터를 매칭시켜, 상기 테이블 구조별 기준 데이터 중 상기 테이블 이미지의 특징 정보와 가장 유사한 구조를 갖고 있는 테이블 구조 데이터를 추출할 수 있다.
일 예를 들자면, 도 5에 도시된 바와 같이, 변환한 상기 이미지 데이터 내에 포함되어 있는 테이블 이미지를 검출하고, 검출한 상기 테이블 이미지의 특징 정보를 추출할 수 있다. 실시예에 의한 상기 테이블 이미지의 특징 정보로는 첫째 줄에 헤더 구조를 갖고 있는 특징을 갖고 있어, 상기 테이블 구조별 기준 데이터 중 Table_Type_03과 가장 유사한 구조를 갖고 있다.
이 때, 문서에 포함되어 있는 테이블 이미지의 특징 정보는 매우 다양하게 생성될 수 있기 때문에, 상기 테이블 이미지의 특징 정보와 정확하게 일치하는 구조를 갖는 상기 테이블 구조별 기준 데이터를 이용하는 것이 거의 불가능하기 때문에, 가장 유사도가 높은 상기 테이블 구조 데이터를 추출하는 것이 바람직하다.
본 발명의 일 실시예에 따른 딥러닝 알고리즘을 이용한 문서 데이터 저장 시스템은 도 1에 도시된 바와 같이, 텍스트 추출부(500) 및 테이블 데이터 생성부(600)를 더 포함하여 구성되는 것이 바람직하다.
상기 텍스트 추출부(500)는 상기 문서 분석부(200)에서 검출한 상기 테이블 이미지를 텍스트 필터링하여, 상기 테이블 이미지 내 텍스트 데이터를 추출할 수 있다. 즉, 상기 텍스트 추출부(500)는 종래의 텍스트 필터링과 동일한 구성으로, 도 4에 도시된 바와 같이, 상기 테이블 이미지 내에 포함되어 있는 텍스트 데이터가 상기 테이블 구조와 동기화되어 추출되는 것이 아니라, 단순히 텍스트만 추출되게 된다.
상기 테이블 데이터 생성부(600)는 상기 텍스트 추출부(500)에서 추출한 상기 텍스트 데이터를 상기 테이블 구조 분석부(400)에서 추출한 상기 테이블 구조 데이터에 적용하여 테이블 데이터를 생성할 수 있다.
다시 말하자면, 종래에는 문서 내에 포함되어 있는 테이블 데이터를 저장할 경우, 상기 텍스트 추출부(500)를 통해서 추출한 텍스트 데이터와 같이, 테이블 구조를 무시한 단순 텍스트 데이터에 불과하기 때문에, 상기 테이블 데이터 생성부(600)를 통해서 이를 다시 테이블 데이터로 생성하는 것이 바람직하다.
상세하게는, 도 6에 도시된 바와 같이, 변환한 상기 이미지 데이터 내에 포함되어 있는 테이블 이미지를 검출하고 검출한 상기 테이블 이미지의 특징 정보를 추출하고(문서 분석부(200)), 딥러닝 알고리즘을 적용하여 생성한 테이블 구조별 기준 데이터(딥러닝 학습부(300)) 중 추출한 상기 테이블 이미지의 특징 정보와 가장 유사한 구조를 갖는 테이블 구조 데이터를 추출하고(테이블 구조 분석부(400)), 상기 테이블 데이터 생성부(600)에서 추출한 상기 테이블 구조 데이터에 추출한 테이블 구조 내 텍스트 데이터를 적용하여 테이블 데이터를 생성할 수 있다.
이를 통해서, 문서 내에 포함되어 있는 테이블 정보 또한 효과적으로 데이터화하여 저장 및 관리할 수 있어, 이를 다양하게 활용할 수 있는 장점이 있다.
이 때, 본 발명의 일 실시예에 따른 딥러닝 알고리즘을 이용한 문서 데이터 저장 시스템의 각 구성(문서 관리부(100), 문서 분석부(200), 딥러닝 학습부(300), 테이블 구조 분석부(400), 텍스트 추출부(500) 및 테이블 데이터 생성부(600))은 생성(추출)한 다양한 데이터들을 미리 구비되어 있는 메모리부에 저장 및 관리할 수 있으며, 외부 사용자의 요청에 따라 언제든지 저장 및 관리하고 있는 데이터들을 전송할 수 있다.
도 6은 본 발명의 일 실시예에 따른 딥러닝 알고리즘을 이용한 문서 데이터 저장 방법을 나타낸 순서도이며, 도 6을 참조로 하여 본 발명의 일 실시예에 따른 딥러닝 알고리즘을 이용한 문서 데이터 저장 방법을 상세히 설명한다.
본 발명의 일 실시예에 따른 딥러닝 알고리즘을 이용한 문서 데이터 저장 방법은 도 6에 도시된 바와 같이, 업로드 단계(S100), 이미지 변환단계(S200), 이미지 분석단계(S300), 특징 추출단계(S400), 테이블 구조 분석단계(S500), 텍스트 추출단계(S600) 및 테이블 데이터 생성단계(S700)를 포함하여 구성되는 것이 바람직하다.
상기 업로드 단계(S100)는 상기 문서 관리부(100)에서, 사용자로부터 미리 설정된 특정 웹페이지의 접속 또는 어플리케이션을 이용하여, 데이터로의 저장을 원하는 문서 파일을 업로드받는 것이 바람직하다.
상기 이미지 변환단계(S200)는 상기 문서 관리부(100)에서, 상기 업로드 단계(S100)에 의해 업로드받은 상기 문서를 각각의 페이지마다 이미지 데이터로 변환하는 것이 바람직하다.
상기 이미지 분석단계(S300)는 상기 문서 분석부(200)에서, 상기 이미지 변환단계(S200)에 의해 변환한 상기 이미지 데이터를 분석하여 테이블(표) 이미지를 검출하는 것이 바람직하며, 상기 특징 추출단계(S400)는 상기 문서 분석부(200)에서, 상기 이미지 분석단계(S300)에 의해 검출한 상기 이미지 데이터의 특징 정보를 추출하는 것이 바람직하다.
통상적으로 사용되는 분석 알고리즘을 이용하는 것이 가장 바람직하며, 상기 테이블 이미지의 특징 정보로는, 테이블의 제목 정보, 헤더 구조 정보, 셀 구조 정보, 행*열 구조 정보, 줄*칸 구조 정보 등을 포함하는 것이 바람직하다.
상기 테이블 구조 분석단계(S500)는 상기 딥러닝 학습부(300)에서, 딥러닝 알고리즘을 이용하여 생성한 상기 테이블 구조별 기준 데이터와 상기 특징 추출단계(S400)에 의해 추출한 상기 테이블 이미지의 특징 정보를 매칭시켜, 가장 유사한 테이블 구조 데이터를 추출하는 것이 바람직하다.
상기 테이블 구조 분석단계(S500)를 수행하기 앞서서, 학습단계(S510)를 수행하는 것이 바람직하다.
상기 학습단계(S510)는 상기 딥러닝 학습부(300)에서, 미리 저장된 딥러닝 알고리즘을 이용하여 테이블 구조 관련 이미지를 학습하여, 테이블 구조별 기준 데이터를 생성할 수 있다.
상세하게는, 이미지 학습에 최적화된 CNN(Convolutional Neural Network) 알고리즘을 적용하여 테이블 구조 관련 이미지들을 학습하는 것이 가장 바람직하나, 다른 딥러닝 알고리즘을 적용하는 것 역시 무방하다.
이를 통해서, 상기 테이블 구조 분석단계(S500)는 상기 테이블 이미지의 특징 정보와 상기 테이블 구조별 기준 데이터를 매칭시켜, 상기 테이블 구조별 기준 데이터 중 상기 테이블 이미지의 특징 정보와 가장 유사한 구조를 갖고 있는 테이블 구조 데이터를 추출할 수 있다.
일 예를 들자면, 도 5에 도시된 바와 같이, 변환한 상기 이미지 데이터 내에 포함되어 있는 테이블 이미지를 검출하고, 검출한 상기 테이블 이미지의 특징 정보를 추출할 수 있다. 실시예에 의한 상기 테이블 이미지의 특징 정보로는 첫째 줄에 헤더 구조를 갖고 있는 특징을 갖고 있어, 상기 테이블 구조별 기준 데이터 중 Table_Type_03과 가장 유사한 구조를 갖고 있다.
이 때, 문서에 포함되어 있는 테이블 이미지의 특징 정보는 매우 다양하게 생성될 수 있기 때문에, 상기 테이블 이미지의 특징 정보와 정확하게 일치하는 구조를 갖는 상기 테이블 구조별 기준 데이터를 이용하는 것이 거의 불가능하기 때문에, 가장 유사도가 높은 상기 테이블 구조 데이터를 추출하는 것이 바람직하다.
상기 텍스트 추출단계(S600)는 상기 텍스트 추출부(500)에서, 상기 이미지 분석단계(S300)에 의해 검출한 상기 테이블 이미지를 텍스트 필터링하여, 상기 테이블 이미지 내 텍스트 이미지를 추출하는 것이 바람직하며, 도 4에 도시된 바와 같이, 상기 테이블 이미지 내에 포함되어 있는 텍스트 데이터가 상기 테이블 구조와 동기화되어 추출되는 것이 아니라, 단순히 텍스트만 추출되게 된다.
그렇기 때문에, 상기 테이블 데이터 생성단계(S700)는 상기 테이블 데이터 생성부(600)에서, 상기 텍스트 추출단계(S600)에 의해 추출한 상기 텍스트 데이터를 상기 테이블 구조 분석단계(S500)에 의해 추출한 상기 테이블 구조 데이터를 적용하여, 테이블 데이터를 생성하는 것이 바람직하다.
다시 말하자면, 종래에는 문서 내에 포함되어 있는 테이블 데이터를 저장할 경우, 상기 텍스트 추출부(500)를 통해서 추출한 텍스트 데이터와 같이, 테이블 구조를 무시한 단순 텍스트 데이터에 불과하기 때문에, 상기 테이블 데이터 생성부(600)를 통해서 이를 다시 테이블 데이터로 생성하는 것이 바람직하다.
상세하게는, 도 6에 도시된 바와 같이, 변환한 상기 이미지 데이터 내에 포함되어 있는 테이블 이미지를 검출하고 검출한 상기 테이블 이미지의 특징 정보를 추출하고(문서 분석부(200)), 딥러닝 알고리즘을 적용하여 생성한 테이블 구조별 기준 데이터(딥러닝 학습부(300)) 중 추출한 상기 테이블 이미지의 특징 정보와 가장 유사한 구조를 갖는 테이블 구조 데이터를 추출하고(테이블 구조 분석부(400)), 상기 테이블 데이터 생성부(600)에서 추출한 상기 테이블 구조 데이터에 추출한 테이블 구조 내 텍스트 데이터를 적용하여 테이블 데이터를 생성할 수 있다.
이를 통해서, 문서 내에 포함되어 있는 테이블 정보 또한 효과적으로 데이터화하여 저장 및 관리할 수 있어, 이를 다양하게 활용할 수 있는 장점이 있다.
한편, 본 발명의 실시예에 따른 딥러닝 알고리즘을 이용한 문서 데이터 저장 방법은 다양한 전자적으로 정보를 처리하는 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 저장 매체에 기록될 수 있다. 저장 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.
저장 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 소프트웨어 분야 당업자에게 공지되어 사용 가능한 것일 수도 있다. 저장 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 전자적으로 정보를 처리하는 장치, 예를 들어, 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 본 발명에서는 구체적인 구성 소자 등과 같은 특정 사항들과 한정된 실시예 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것 일 뿐, 본 발명은 상기의 일 실시예에 한정되는 것이 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허 청구 범위뿐 아니라 이 특허 청구 범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.
100 : 문서 관리부
200 : 문서 분석부
300 : 딥러닝 학습부
400 : 테이블 구조 분석부
500 : 텍스트 추출부
600 : 테이블 데이터 생성부

Claims (7)

  1. 문서를 업로드받아, 상기 문서를 각 페이지마다 이미지 데이터로 변환하는 문서 관리부(100);
    상기 문서 관리부(100)에서 변환한 상기 이미지 데이터를 분석하여 테이블(표) 이미지 형태를 검출하고, 검출한 상기 테이블 이미지 형태의 특징 정보를 추출하는 문서 분석부(200);
    기저장된 딥러닝 알고리즘인 CNN(Convolutional Neural Network) 알고리즘을 이용하여 기입력되는 테이블 구조 관련 이미지들을 학습하여, 다양한 테이블 구조 관련 이미지에 대한 기준 데이터인 다수의 테이블 구조별 기준 데이터를 생성하는 딥러닝 학습부(300);
    상기 문서 분석부(200)에서 추출한 상기 테이블 이미지 형태의 특징 정보와 상기 딥러닝 학습부(300)에서 생성한 상기 테이블 구조별 기준 데이터를 매칭시켜, 상기 테이블 구조별 기준 데이터들 중 상기 테이블 이미지 형태의 특징 정보와 가장 유사한 테이블 구조 데이터를 추출하는 테이블 구조 분석부(400); 및
    상기 문서 분석부(200)에서 검출한 상기 테이블 이미지 형태를 텍스트 필터링하여, 상기 테이블 이미지 형태 내 텍스트 데이터를 추출하는 텍스트 추출부(500);
    를 포함하여 구성되며,
    상기 텍스트 추출부(500)를 통해서 상기 테이블 이미지 형태에 포함되어 있는 텍스트 데이터를 추출한 후, 상기 테이블 구조 분석부(400)에서 추출한 테이블 구조 데이터에 적용하여, 테이블 데이터를 저장하는 것을 특징으로 하는 딥러닝 알고리즘을 이용한 문서 데이터 저장 시스템.
  2. 삭제
  3. 제 1항에 있어서,
    상기 딥러닝 알고리즘을 이용한 문서 데이터 저장 시스템은
    상기 텍스트 추출부(500)에서 추출한 상기 텍스트 데이터를 상기 테이블 구조 분석부(400)에서 추출한 상기 테이블 구조 데이터에 적용하여 테이블 데이터를 생성하는 테이블 데이터 생성부(600);
    를 더 포함하여 구성되는 것을 특징으로 하는 딥러닝 알고리즘을 이용한 문서 데이터 저장 시스템.
  4. 삭제
  5. 문서 관리부에서, 사용자로부터 문서를 업로드받는 업로드 단계(S100);
    문서 관리부에서, 상기 업로드 단계(S100)에 의해 업로드받은 상기 문서를 각 페이지마다 이미지 데이터로 변환하는 이미지 변환단계(S200);
    문서 분석부에서, 상기 이미지 변환단계(S200)에 의해 변환한 상기 이미지 데이터를 분석하여 테이블(표) 이미지 형태를 검출하는 이미지 분석단계(S300);
    문서 분석부에서 상기 이미지 분석단계(S300)에 의해 검출한 상기 테이블 이미지 형태의 특징 정보를 추출하는 특징 추출단계(S400);
    딥러닝 학습부에서, 기저장된 딥러닝 알고리즘인 CNN(Convolutional Neural Network) 알고리즘을 이용하여 기입력되는 테이블 구조 관련 이미지들을 학습하여, 다양한 테이블 구조 관련 이미지에 대한 기준 데이터인 다수의 테이블 구조별 기준 데이터를 생성하는 학습단계(S510);
    테이블 구조 분석부에서, 상기 학습단계(S510)에 의해 생성한 테이블 구조별 기준 데이터들와 상기 특징 추출단계(S400)에 의해 추출한 상기 테이블 이미지 형태의 특징 정보를 매칭시켜, 상기 테이블 구조별 기준 데이터들 중 상기 테이블 이미지 형태의 특징 정보와 가장 유사한 테이블 구조 데이터를 추출하는 테이블 구조 분석단계(S500);
    텍스트 추출부에서, 상기 이미지 분석단계(S300)에 의해 검출한 상기 테이블 이미지 형태를 텍스트 필터링하여, 상기 테이블 이미지 형태 내 텍스트 데이터를 추출하는 텍스트 추출단계(S600); 및
    테이블 데이터 생성부에서, 상기 텍스트 추출단계(S600)에 의해 추출한 상기 텍스트 데이터를 상기 테이블 구조 분석단계(S500)에 의해 추출한 상기 테이블 구조 데이터에 적용하여, 테이블 데이터를 생성하는 테이블 데이터 생성단계(S700);
    를 포함하여 구성되는 것을 특징으로 하는 딥러닝 알고리즘을 이용한 문서 데이터 저장 방법.

  6. 삭제
  7. 삭제
KR1020180128477A 2018-10-25 2018-10-25 딥러닝 알고리즘을 이용한 문서 데이터 저장 시스템 및 그 방법 KR102005067B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180128477A KR102005067B1 (ko) 2018-10-25 2018-10-25 딥러닝 알고리즘을 이용한 문서 데이터 저장 시스템 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180128477A KR102005067B1 (ko) 2018-10-25 2018-10-25 딥러닝 알고리즘을 이용한 문서 데이터 저장 시스템 및 그 방법

Publications (1)

Publication Number Publication Date
KR102005067B1 true KR102005067B1 (ko) 2019-10-01

Family

ID=68207314

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180128477A KR102005067B1 (ko) 2018-10-25 2018-10-25 딥러닝 알고리즘을 이용한 문서 데이터 저장 시스템 및 그 방법

Country Status (1)

Country Link
KR (1) KR102005067B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220043274A (ko) * 2020-09-29 2022-04-05 이용재 광학 문자 인식 장치 및 그 제어방법
KR102393926B1 (ko) * 2021-11-17 2022-05-03 (주)케이엔랩 이미지 검색 기반의 가공 이미지 및 설명 생성 방법, 정보 관리 시스템, 이를 위한 컴퓨터 프로그램
KR20220119873A (ko) * 2021-02-22 2022-08-30 네이버 주식회사 테이블 생성 방법 및 시스템

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090039323A (ko) * 2007-10-18 2009-04-22 한국과학기술정보연구원 정보분석형 도표 컨텐츠 추출 및 생성을 위한 시스템 및 그방법
KR20130096004A (ko) * 2012-02-21 2013-08-29 한국과학기술원 문서 내의 테이블의 정보를 기반으로 한 테이블 자동분류 시스템 및 그 방법
KR20150011519A (ko) * 2013-07-23 2015-02-02 중소기업은행 금융 업무 자동화를 위한 처리 시스템 및 방법과 이를 이용한 기록매체
US9495347B2 (en) * 2013-07-16 2016-11-15 Recommind, Inc. Systems and methods for extracting table information from documents
KR20170038223A (ko) 2015-09-30 2017-04-07 한국전자통신연구원 전자문서 내 표 데이터의 음성 변환 장치 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090039323A (ko) * 2007-10-18 2009-04-22 한국과학기술정보연구원 정보분석형 도표 컨텐츠 추출 및 생성을 위한 시스템 및 그방법
KR20130096004A (ko) * 2012-02-21 2013-08-29 한국과학기술원 문서 내의 테이블의 정보를 기반으로 한 테이블 자동분류 시스템 및 그 방법
US9495347B2 (en) * 2013-07-16 2016-11-15 Recommind, Inc. Systems and methods for extracting table information from documents
KR20150011519A (ko) * 2013-07-23 2015-02-02 중소기업은행 금융 업무 자동화를 위한 처리 시스템 및 방법과 이를 이용한 기록매체
KR20170038223A (ko) 2015-09-30 2017-04-07 한국전자통신연구원 전자문서 내 표 데이터의 음성 변환 장치 및 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Y. Kim, Convolutional Neural Networks for Sentence Classification, Proc. of EMNLP (2014.) 1부.* *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220043274A (ko) * 2020-09-29 2022-04-05 이용재 광학 문자 인식 장치 및 그 제어방법
KR102436814B1 (ko) * 2020-09-29 2022-08-25 이용재 광학 문자 인식 장치 및 그 제어방법
KR20220119873A (ko) * 2021-02-22 2022-08-30 네이버 주식회사 테이블 생성 방법 및 시스템
KR102655430B1 (ko) 2021-02-22 2024-04-08 네이버 주식회사 테이블 생성 방법 및 시스템
KR102393926B1 (ko) * 2021-11-17 2022-05-03 (주)케이엔랩 이미지 검색 기반의 가공 이미지 및 설명 생성 방법, 정보 관리 시스템, 이를 위한 컴퓨터 프로그램

Similar Documents

Publication Publication Date Title
KR102005067B1 (ko) 딥러닝 알고리즘을 이용한 문서 데이터 저장 시스템 및 그 방법
CN104850539B (zh) 一种自然语言理解方法及基于该方法的旅游问答系统
US11869263B2 (en) Automated classification and interpretation of life science documents
US20210089571A1 (en) Machine learning image search
JP2020191075A (ja) Web APIおよび関連エンドポイントの推薦
CN102855317A (zh) 一种基于演示视频的多模式索引方法及系统
CN117076693A (zh) 一种数字人教师多模态大语言模型预训练学科语料库的构建方法
KR20210001419A (ko) 면접 컨설팅 서비스를 제공하기 위한 사용자 단말, 시스템 및 방법
JP2010157241A (ja) Ocr結果を補正するための方法、システム、及びコンピュータ読み取り可能な記録媒体
US20060290709A1 (en) Information processing method and apparatus
KR102436549B1 (ko) 딥러닝을 이용한 자연어처리 기반의 faq 및 챗봇을 위한 학습데이터를 자동으로 생성하기 위한 방법 및 이를 위한 장치
US20230177267A1 (en) Automated classification and interpretation of life science documents
CN116150651A (zh) 基于ai的深度合成检测方法和系统
CN109670073B (zh) 一种信息转换方法及装置、交互辅助系统
KR102287431B1 (ko) 회의 녹음 장치 및 회의 녹음 기록 시스템
KR20220135901A (ko) 맞춤형 교육 콘텐츠 제공 장치, 방법 및 프로그램
CN107705849A (zh) 远程会诊意见整合方法和装置
KR102170844B1 (ko) 강의 관련 키워드를 기반으로 하는 강의 음성파일 텍스트 변환 시스템
JP2018045657A (ja) 学習装置、プログラムパラメータおよび学習方法
US11977842B2 (en) Methods and systems for generating mobile enabled extraction models
KR102148021B1 (ko) 딥러닝 텍스트 탐지 기술을 활용한 실생활 영상 속의 정보 검색 방법 및 그 장치
KR102492008B1 (ko) 회의록 관리 방법 및 장치
Kurimo Thematic indexing of spoken documents by using self-organizing maps
TWI656448B (zh) 主題提供裝置及其雲儲存檔案提示方法
CN110275860B (zh) 一种记录讲授过程的系统及方法