KR20220158571A - 문서 구조 분석 학습 장치 및 방법, 문서 구조 분석 장치 및 방법 - Google Patents

문서 구조 분석 학습 장치 및 방법, 문서 구조 분석 장치 및 방법 Download PDF

Info

Publication number
KR20220158571A
KR20220158571A KR1020210070067A KR20210070067A KR20220158571A KR 20220158571 A KR20220158571 A KR 20220158571A KR 1020210070067 A KR1020210070067 A KR 1020210070067A KR 20210070067 A KR20210070067 A KR 20210070067A KR 20220158571 A KR20220158571 A KR 20220158571A
Authority
KR
South Korea
Prior art keywords
document
cells
images
learning
document images
Prior art date
Application number
KR1020210070067A
Other languages
English (en)
Inventor
김남욱
조수아
조성호
권영준
Original Assignee
삼성에스디에스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성에스디에스 주식회사 filed Critical 삼성에스디에스 주식회사
Publication of KR20220158571A publication Critical patent/KR20220158571A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/54Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

문서 구조 분석을 위한 학습 장치 및 방법이 개시된다. 일 실시예에 따른 문서 구조 분석 학습 장치는, 복수의 문서 이미지 및 상기 복수의 문서 이미지 각각에 대한 구조 정보(structure information)에 기초하여 상기 복수의 문서 이미지 각각에 대한 메타 데이터(meta data)를 생성하는 메타 데이터 생성부; 상기 메타 데이터에 기초하여 상기 복수의 문서 이미지를 포함하는 데이터 세트를 복수의 그룹 각각에 대한 학습 데이터 세트로 분류하는 분류부; 및 상기 복수의 그룹 각각에 대한 학습 데이터 세트 중 대응하는 학습 데이터 세트에 포함된 각 문서 이미지 및 상기 각 문서 이미지의 구조 정보에 기초하여 상기 복수의 그룹 각각에 대한 문서 구조 분석 모델을 학습하는 제1 학습부를 포함한다.

Description

문서 구조 분석 학습 장치 및 방법, 문서 구조 분석 장치 및 방법 {TRANING APPARATUS AND METHOD FOR DOCUMENT STRUCTURE ANALYSIS, APPARATUS AND METHOD FOR DOCUMENT STRUCTURE ANALYSIS}
개시되는 실시예들은 문서 이미지에 대한 문서 구조를 분석하기 위한 기술과 관련된다.
문서 구조 분석 기술은 이미지 형태의 문서에서 구조를 분석하여 데이터 추출을 위한 기반 기술로 사용된다. 구조 분석 결과는 일반적으로 Text, Table, Figure 형태의 구조로 분리되며, Text는 단어, 라인, 문단 등으로 구분되고 그 외 구조는 다양한 종류의 테이블 및 표, 차트, 이미지 형태로도 분류가 된다.
문서 구조 분석을 위한 종래 기술은 특정 도메인(예를 들어, 논문, 영수증, 기사, 계약서 등)의 문서 이미지로 구성된 데이터 세트를 이용한 학습을 통해 생성된 단일의 문서 구조 분석 모델을 이용하여 수행된다. 이러한, 종래 기술은 동일한 도메인 내에서 다양한 구조 분석에 대한 분류 기준을 가지고 있지 않으며, 인공 데이터(Synthetic Data) 활용을 통한 학습 데이터 증강(Train Data Augmentation)기법 적용이 어렵다는 문제가 있다.
또한, 종래 기술은 단일 모델로 구조 분석의 결과를 도출하는 형태이므로 신규 데이터 세트에 대한 모델의 재학습 및 모델 최적화를 위한 반복적인 작업 시간이 필요한 문제점이 있다.
대한민국 공개특허공보 제10-2021-0049382호 (2021.05.06. 공개)
개시되는 실시예들은 문서 구조 분석을 위한 학습 장치 및 방법과 문서 구조 분석을 위한 장치 및 방법을 제공하기 위한 것이다.
일 실시예에 따른 문서 구조 분석 학습 장치는, 복수의 문서 이미지 및 상기 복수의 문서 이미지 각각에 대한 구조 정보(structure information)에 기초하여 상기 복수의 문서 이미지 각각에 대한 메타 데이터(meta data)를 생성하는 메타 데이터 생성부; 상기 메타 데이터에 기초하여 상기 복수의 문서 이미지를 포함하는 데이터 세트를 복수의 그룹 각각에 대한 학습 데이터 세트로 분류하는 분류부; 및 상기 복수의 그룹 각각에 대한 학습 데이터 세트 중 대응하는 학습 데이터 세트에 포함된 각 문서 이미지 및 상기 각 문서 이미지의 구조 정보에 기초하여 상기 복수의 그룹 각각에 대한 문서 구조 분석 모델을 학습하는 제1 학습부를 포함한다.
상기 복수의 문서 이미지 각각에 대한 메타 데이터는, 문서 이미지 내에 포함된 복수의 셀(cell) 각각의 위치, 상기 복수의 셀 각각의 클래스 타입(class type), 상기 복수의 셀 각각의 정렬 형태, 상기 복수의 셀 각각의 크기, 상기 복수의 셀 각각에 포함된 텍스트의 속성 및 상기 복수의 셀 각각에 포함된 이미지의 속성 중 적어도 하나에 대한 데이터를 포함할 수 있다.
상기 분류부는, 상기 복수의 문서 이미지 각각에 대한 메타 데이터에 기초하여 상기 복수의 문서 이미지 각각에 대응하는 벡터(vector)를 생성하고, 상기 복수의 문서 이미지 각각에 대응하는 벡터에 기초하여 상기 데이터 세트를 상기 복수의 그룹 각각에 대한 학습 데이터 세트로 분류할 수 있다.
상기 복수의 문서 이미지, 상기 복수의 문서 이미지 각각에 대한 구조 정보 및 메타 데이터에 기초하여, 임의의 문서 이미지에 대한 구조 정보 및 메타 데이터를 생성하기 위한 문서 구조 추출 모델을 학습하는 제2 학습부를 더 포함할 수 있다.
상기 문서 구조 분석 학습 장치는, 상기 학습된 문서 구조 추출 모델을 이용하여, 복수의 신규 문서 이미지 각각에 대한 구조 정보 및 메타 데이터를 생성하는 구조 정보 생성부를 더 포함하고, 상기 분류부는, 상기 복수의 신규 문서 이미지 각각에 대한 메타 데이터에 기초하여 상기 복수의 신규 문서 이미지 각각을 상기 복수의 그룹 중 하나로 분류하여, 상기 복수의 그룹 중 하나 이상의 그룹 각각에 대응하는 추가 학습 데이터 세트를 생성하고, 상기 제1 학습부는, 상기 하나 이상의 그룹 각각에 대응하는 추가 학습 데이터 세트에 포함된 각 신규 문서 이미지 및 상기 각 신규 문서 이미지의 구조 정보에 기초하여 상기 하나 이상의 그룹 각각에 대한 문서 구조 분석 모델을 추가 학습할 수 있다.
상기 분류부는, 상기 복수의 신규 문서 이미지 각각에 대한 메타 데이터에 기초하여 상기 복수의 신규 문서 이미지 각각에 대응하는 벡터(vector)를 생성하고, 상기 복수의 신규 문서 이미지 각각에 대응하는 벡터에 기초하여 상기 복수의 신규 문서 이미지 각각을 상기 복수의 그룹 중 하나로 분류할 수 있다.
상기 문서 구조 분석 학습 장치는, 상기 복수의 문서 이미지 중 하나 이상의 문서 이미지 각각에 대한 구조 정보 및 메타 데이터에 기초하여, 하나 이상의 합성(synthetic) 문서 이미지를 생성하는 이미지 생성부를 더 포함하고, 상기 데이터 집합은, 상기 하나 이상의 합성 문서 이미지를 더 포함할 수 있다.
일 실시예에 따른 문서 구조 분석 학습 방법은, 복수의 문서 이미지 및 상기 복수의 문서 이미지 각각에 대한 구조 정보(structure information)에 기초하여 상기 복수의 문서 이미지 각각에 대한 메타 데이터(meta data)를 생성하는 단계; 상기 메타 데이터에 기초하여 상기 복수의 문서 이미지를 포함하는 데이터 세트를 복수의 그룹 각각에 대한 학습 데이터 세트로 분류하는 단계; 및 상기 복수의 그룹 각각에 대한 학습 데이터 세트 중 대응하는 학습 데이터 세트에 포함된 각 문서 이미지 및 상기 각 문서 이미지의 구조 정보에 기초하여 상기 복수의 그룹 각각에 대한 문서 구조 분석 모델을 학습하는 단계를 포함한다.
상기 복수의 문서 이미지 각각에 대한 메타 데이터는, 문서 이미지 내에 포함된 복수의 셀(cell) 각각의 위치, 상기 복수의 셀 각각의 클래스 타입(class type), 상기 복수의 셀 각각의 정렬 형태, 상기 복수의 셀 각각의 크기, 상기 복수의 셀 각각에 포함된 텍스트의 속성 및 상기 복수의 셀 각각에 포함된 이미지의 속성 중 적어도 하나에 대한 데이터를 포함할 수 있다.
상기 분류하는 단계는, 상기 복수의 문서 이미지 각각에 대한 메타 데이터에 기초하여 상기 복수의 문서 이미지 각각에 대응하는 벡터(vector)를 생성하는 단계; 및 상기 복수의 문서 이미지 각각에 대응하는 벡터에 기초하여 상기 데이터 세트를 상기 복수의 그룹 각각에 대한 학습 데이터 세트로 분류하는 단계를 포함할 수 있다.
상기 문서 구조 분석 학습 방법은, 상기 복수의 문서 이미지, 상기 복수의 문서 이미지 각각에 대한 구조 정보 및 메타 데이터에 기초하여, 임의의 문서 이미지에 대한 구조 정보 및 메타 데이터를 생성하기 위한 문서 구조 추출 모델을 학습하는 단계를 더 포함할 수 있다.
상기 문서 구조 분석 학습 방법은, 상기 학습된 문서 구조 추출 모델을 이용하여, 복수의 신규 문서 이미지 각각에 대한 구조 정보 및 메타 데이터를 생성하는 단계; 상기 복수의 신규 문서 이미지 각각에 대한 메타 데이터에 기초하여 상기 복수의 신규 문서 이미지 각각을 상기 복수의 그룹 중 하나로 분류하여, 상기 복수의 그룹 중 하나 이상의 그룹 각각에 대응하는 추가 학습 데이터 세트를 생성하는 단계; 및 상기 하나 이상의 그룹 각각에 대응하는 추가 학습 데이터 세트에 포함된 각 신규 문서 이미지 및 상기 각 신규 문서 이미지의 구조 정보에 기초하여 상기 하나 이상의 그룹 각각에 대한 문서 구조 분석 모델을 추가 학습하는 단계를 더 포함할 수 있다.
상기 추가 학습 데이터 세트를 생성하는 단계는, 상기 복수의 신규 문서 이미지 각각에 대한 메타 데이터에 기초하여 상기 복수의 신규 문서 이미지 각각에 대응하는 벡터(vector)를 생성하는 단계; 및 상기 복수의 신규 문서 이미지 각각에 대응하는 벡터에 기초하여 상기 복수의 신규 문서 이미지 각각을 상기 복수의 그룹 중 하나로 분류하는 단계를 포함할 수 있다.
상기 문서 구조 분석 학습 방법은, 상기 복수의 문서 이미지 중 하나 이상의 문서 이미지 각각에 대한 구조 정보 및 메타 데이터에 기초하여, 하나 이상의 합성(synthetic) 문서 이미지를 생성하는 단계를 더 포함하고, 상기 데이터 집합은, 상기 하나 이상의 합성 문서 이미지를 더 포함할 수 있다.
일 실시예에 따른 문서 구조 분석 장치는, 사전 학습된 문서 구조 추출 모델을 이용하여 분석 대상 문서 이미지에 대한 메타 데이터(meta data)를 생성하는 메타 데이터 생성부; 상기 메타 데이터에 기초하여 상기 분석 대상 문서 이미지를 사전 설정된 복수의 그룹 중 하나로 분류하는 분류부; 및 상기 분류 결과에 기초하여, 상기 복수의 그룹 각각에 대한 사전 학습된 문서 구조 분석 모델 중 상기 분석 대상 문서 이미지가 속하는 그룹에 대한 문서 구조 분석 모델을 선택하고, 상기 선택된 문서 구조 분석 모델을 이용하여 상기 분석 대상 문서 이미지에 대한 구조 정보를 생성하는 분석부를 포함한다.
상기 메타 데이터는, 상기 분석 대상 문서 이미지 내에 포함된 복수의 셀(cell) 각각의 위치, 상기 복수의 셀 각각의 클래스 타입(class type), 상기 복수의 셀 각각의 정렬 형태, 상기 복수의 셀 각각의 크기, 상기 복수의 셀 각각에 포함된 텍스트의 속성 및 상기 복수의 셀 각각에 포함된 이미지의 속성 중 적어도 하나에 대한 데이터를 포함할 수 있다.
상기 분류부는, 상기 메타 데이터에 기초하여 상기 분석 대상 문서 이미지에 대응하는 벡터(vector)를 생성하고, 상기 벡터에 기초하여 상기 분석 대상 문서 이미지를 상기 복수의 그룹 중 하나로 분류할 수 있다.
일 실시예에 따른 문서 구조 분석 방법은, 사전 학습된 문서 구조 추출 모델을 이용하여 분석 대상 문서 이미지에 대한 메타 데이터(meta data)를 생성하는 단계; 상기 메타 데이터에 기초하여 상기 분석 대상 문서 이미지를 사전 설정된 복수의 그룹 중 하나로 분류하는 단계; 상기 분류 결과에 기초하여, 상기 복수의 그룹 각각에 대한 사전 학습된 문서 구조 분석 모델 중 상기 분석 대상 문서 이미지가 속하는 그룹에 대한 문서 구조 분석 모델을 선택하는 단계; 및 상기 선택된 문서 구조 분석 모델을 이용하여 상기 분석 대상 문서 이미지에 대한 구조 정보를 생성하는 단계를 포함한다.
상기 메타 데이터는, 상기 분석 대상 문서 이미지 내에 포함된 복수의 셀(cell) 각각의 위치, 상기 복수의 셀 각각의 클래스 타입(class type), 상기 복수의 셀 각각의 정렬 형태, 상기 복수의 셀 각각의 크기, 상기 복수의 셀 각각에 포함된 텍스트의 속성 및 상기 복수의 셀 각각에 포함된 이미지의 속성 중 적어도 하나에 대한 데이터를 포함할 수 있다.
상기 분류하는 단계는, 상기 메타 데이터에 기초하여 상기 분석 대상 문서 이미지에 대응하는 벡터(vector)를 생성하는 단계; 및 상기 벡터에 기초하여 상기 분석 대상 문서 이미지를 상기 복수의 그룹 중 하나로 분류하는 단계를 포함할 수 있다.
개시되는 실시예들에 따르면, 학습을 위해 이용될 복수의 문서 이미지 각각에 대한 메타 데이터에 따라 복수의 문서 이미지들을 복수의 그룹으로 분류한 후, 그룹별로 문서 구조 분석 모델을 학습함으로써, 문서 구조 분석의 정확도를 향상시킬 수 있다.
또한, 개시되는 실시예들에 따르면, 사전 수집된 문서 이미지뿐 아니라 합성 문서 이미지를 그룹별 문서 구조 분석 모델 학습에 이용할 수 있도록 함으로써 문서 구조 분석의 정확도를 더욱 향상시킬 수 있다.
또한, 개시되는 실시예들에 따르면, 새로운 도메인의 신규 문서 이미지들을 이용한 추가 학습을 위해 신규 문서 이미지들에 대한 정답(ground truth)을 자동으로 생성하고, 신규 문서 이미지들과 연관된 그룹의 문서 구조 분석 모델을 선택적으로 추가 학습함으로써 신규 문서 이미지들을 이용한 재학습 및 튜닝 작업에 소모되는 작업 시간이 줄어 들고 구조 분석이 가능한 도메인 확장이 용이해 진다.
도 1은 일 실시예에 따른 문서 구조 분석 학습 장치의 구성도
도 2는 예시적인 문서 이미지를 나타낸 도면
도 3은 도 2에 도시된 문서 이미지에 대한 단위 구분 영역을 예시적으로 설명하기 위한 도면
도 4는 도 2에 도시된 문서 이미지에 포함된 복수의 셀을 예시적으로 설명하기 위한 도면
도 5는 도 2에 도시된 문서 이미지에 대한 구조 정보에 기초하여 문서 이미지 내 각 분할 영역 및 각 분할 영역의 클래스 타입을 나타내는 라벨을 문서 이미지 상에 시각적으로 표현한 도면
도 6은 추가적인 실시예에 따른 문서 구조 분석 학습 장치의 구성도
도 7은 추가적인 실시예에 따른 문서 구조 분석 장치의 구성도
도 8은 일 실시예에 따른 문서 구조 분석 학습 방법의 순서도
도 9는 추가적인 실시예에 따른 문서 구조 분석 학습 방법의 순서도
도 10은 추가적인 실시예에 따른 문서 구조 분석 학습 방법의 순서도
도 11은 일 실시예에 따른 문서 구조 분석 장치의 구성도
도 12는 일 실시예에 따른 문서 구조 분석 방법의 순서도
도 13은 일 실시예에 따른 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 예시하여 설명하기 위한 블록도
이하, 도면을 참조하여 본 발명의 구체적인 실시형태를 설명하기로 한다. 이하의 상세한 설명은 본 명세서에서 기술된 방법, 장치 및/또는 시스템에 대한 포괄적인 이해를 돕기 위해 제공된다. 그러나 이는 예시에 불과하며 본 발명은 이에 제한되지 않는다.
본 발명의 실시예들을 설명함에 있어서, 본 발명과 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. 상세한 설명에서 사용되는 용어는 단지 본 발명의 실시예들을 기술하기 위한 것이며, 결코 제한적이어서는 안 된다. 명확하게 달리 사용되지 않는 한, 단수 형태의 표현은 복수 형태의 의미를 포함한다. 본 설명에서, "포함" 또는 "구비"와 같은 표현은 어떤 특성들, 숫자들, 단계들, 동작들, 요소들, 이들의 일부 또는 조합을 가리키기 위한 것이며, 기술된 것 이외에 하나 또는 그 이상의 다른 특성, 숫자, 단계, 동작, 요소, 이들의 일부 또는 조합의 존재 또는 가능성을 배제하도록 해석되어서는 안 된다.
도 1은 일 실시예에 따른 문서 구조 분석 학습 장치의 구성도이다.
도 1을 참조하면, 일 실시예에 따른 문서 구조 분석 학습 장치(100)는 메타 메타 데이터 생성부(110), 분류부(120) 및 제1 학습부(130)를 포함한다.
일 실시예에 따르면, 메타 데이터 생성부(110), 분류부(120) 및 제1 학습부(130)는 각각 물리적으로 구분된 하나 이상의 장치를 이용하여 구현되거나, 하나 이상의 하드웨어 프로세서 또는 하나 이상의 하드웨어 프로세서 및 소프트웨어의 결합에 의해 구현될 수 있으며, 도시된 예와 달리 구체적 동작에 있어 명확히 구분되지 않을 수 있다.
메타 데이터 생성부(110)는 복수의 문서 이미지 및 복수의 문서 이미지 각각에 대한 구조 정보(structure information)에 기초하여 복수의 문서 이미지 각각에 대한 메타 데이터(meta data)를 생성한다.
일 실시예에 따르면, 문서 이미지는 예를 들어, 종이에 작성된 실제 문서를 촬영하거나 스캔(scan)하여 생성된 이미지, 전자 문서를 이미지 파일 형식으로 변환하여 생성된 이미지 등과 같이 이미지화된 문서를 의미할 수 있다.
일 실시예에 따르면, 문서 이미지에 대한 구조 정보는 예를 들어, 문서 이미지에 대해 사전 수행된 문서 구조 분석을 통해 생성된 정보일 수 있다. 구체적으로, 구조 정보는 예를 들어, 문서 구조 분석을 통해 식별된 문서 이미지 내 각 분할 영역의 위치(예를 들어, 문서 이미지 내 좌표), 사전 정의된 클래스 타입(class type)(예를 들어, 'Text', 'Title', 'List'. 'Table', 'Figure' 등) 중 각 분할 영역이 속하는 클래스 타입 등을 포함할 수 있다. 그러나, 구조 정보는 상술한 예 외에도 문서 이미지에 대한 구조 분석 결과로서 획득할 수 있는 다양한 정보들을 포함할 수 있다.
한편, 일 실시예에 따르면, 복수의 문서 이미지 및 복수의 문서 이미지 각각의 구조 정보는 예를 들어, IBM 사의 PubLayNet과 같이 사전 수집된 대량의 문서 이미지 및 대량의 문서 이미지 각각에 대한 구조 정보를 제공하는 외부 데이터베이스로부터 획득될 수 있다. 또한, 복수의 문서 이미지 각각에 대한 구조 정보는 예를 들어, JSON(JavaScript Object Notation) 포맷과 같이 특정한 포맷으로 획득될 수 있다.
한편, 일 실시예에 따르면, 문서 이미지에 대한 메타 데이터는 문서 이미지 및 해당 문서 이미지의 구조 정보 중 적어도 하나에 기초하여 획득 가능한 하나 이상의 추가 데이터를 포함할 수 있다.
구체적으로, 일 실시예에 따르면, 문서 이미지에 대한 메타 데이터는 문서 이미지 내에 포함된 복수의 셀(cell) 각각의 위치, 복수의 셀 각각의 클래스 타입, 복수의 셀 각각의 크기, 복수의 셀 각각의 정렬 형태, 복수의 셀 각각에 포함된 텍스트의 속성(예를 들어, 텍스트의 폰트, 크기, 굵기, 문자 간격, 줄 간격 등), 복수의 셀 각각에 포함된 이미지의 속성(예를 들어, 차트의 종류) 중 적어도 하나에 대한 데이터를 포함할 수 있다.
이때, 일 실시예에 따르면, 복수의 셀은 각각 문서 이미지를 기 설정된 방식에 따라 분할하여 생성된 문서 이미지 내 구분 영역을 의미할 수 있다. 예를 들어, 복수의 셀은 문서 이미지 내에서 행(row) 방향 및 열(column) 방향 각각에 존재하는 공백을 기준으로 구분되는 문서 이미지 내 구분 영역들을 의미할 수 있다. 구체적으로, 복수의 셀은 각각 문서 이미지 내 행 방향에 존재하는 공백을 기준으로 문서 이미지를 하나 이상의 행으로 구분하고, 문서 이미지 내 열 방향에 존재하는 공백을 기준으로 문서 이미지를 하나 이상의 열로 구분하였을 때, 각 행과 열에 의해 구분되는 복수의 단위 구분 영역 중 하나이거나, 복수의 단위 구분 영역 중 인접한 2 이상의 단위 구분 영역이 합쳐진 영역일 수 있다.
도 2는 예시적인 문서 이미지를 나타낸 도면이고, 도 3은 도 2에 도시된 문서 이미지에 대한 단위 구분 영역을 예시적으로 설명하기 위한 도면이다.
구체적으로, 도 2 및 도 3을 참조하면, 도 2에 도시된 문서 이미지는 행 방향과 열 방향 각각에 존재하는 공백을 기준으로, 도 3에 도시된 예와 같이 6개의 행(row 1, row 2, row 3, row 4, row 5, row 6)과 2개의 열(col 1, col 2)로 구분될 수 있고, 이에 따라 문서 이미지는 각 행과 열에 의해 구분되는 12개의 단위 구분 영역으로 구분될 수 있다.
한편, 도 3에 도시된 예에서, 문서 이미지 내에서 각 단위 구분 영역의 위치는 대응하는 행과 열의 인덱스로 표현될 수 있다. 구체적으로, 도 3에 도시된 예에서, 우측 최상단의 단위 구분 영역(310)은 대응하는 행과 열이 각각 'row 1'과 'col 2'이므로, 해당 영역(310)의 위치는 예를 들어, (row=1, col=2)로 표현될 수 있다. 또한, 도 3에 도시된 예에서, 좌측 최하단의 단위 구분 영역(320)은 대응하는 행과 열이 각각 'row 6'과 'col 1'이므로, 해당 영역(320)의 위치는 (row=6, col=1)로 표현될 수 있다.
한편, 도 4는 도 2에 도시된 문서 이미지에 포함된 복수의 셀을 예시적으로 설명하기 위한 도면이다.
구체적으로, 도 4에 도시된 예에서는, 도 2에 도시된 문서 이미지를 행 방향과 열 방향 각각에 존재하는 공백을 기준으로 분할하여 생성된 7개의 셀(Cell 1, Cell 2, Cell 3, Cell 4, Cell 5, Cell 6, Cell 7)을 포함할 수 있다.
한편, 도 3 및 도 4를 참조하면, 'Cell 1'은 위치가 각각 (row=1, col=1)과 (row=2, col=1)인 열 방향으로 인접한 2개의 단위 구분 영역이 합쳐진 영역이고, 'Cell 6'는 위치가 각각 (row=2, co=2), (row=3, col=2), (row=4, col=2) 및 (row=5, col=2)인 열 방향으로 인접한 4개의 단위 구분 영역이 합쳐진 영역이며, 'Cell 7'은 위치가 각각 (row=6, col=1)과 (row=6, col=2)인 행 방향으로 인접한 2개의 단위 구분 영역이 합쳐진 영역이다.
반면, 'Cell 2'는 위치가 (row=3, col=1)인 단위 구분 영역과 동일하고, 'Cell 3'는 위치가 (row=4, col=1)인 단위 구분 영역과 동일하고, 'Cell 4'는 위치가 (row=5, col=1)인 단위 구분 영역과 동일하며, 'Cell 5'는 위치가 (row=1, col=2)인 단위 구분 영역과 동일하다.
한편, 도 4에 도시된 예에서 단위 구분 영역과 동일한 셀 각각의 위치는 단위 구분 영역의 위치와 동일하게 표현될 수 있다. 예를 들어, 'Cell 2'의 위치는 (row=3, col=1)으로 표현되고, 'Cell 4'의 위치는 (row=5, col=1)으로 표현될 수 있다.
반면, 열 방향으로 2 이상의 단위 구분 영역이 합쳐진 셀의 위치는 열 방향을 기준으로 첫 번째 단위 구분 영역의 위치와 열 방향으로 합쳐진 단위 구분 영역의 개수를 나타내는 스팬(span) 정보로 표현될 수 있다. 예를 들어, 'Cell 1'은 위치가 각각 (row=1, col=1)과 (row=2, col=1)인 열 방향으로 인접한 2개의 단위 구분 영역이 합쳐진 영역이므로, 'Cell 1'의 위치는 (row=1, col=1, col_span=2)으로 표현될 수 있다. 이때, 'col_span=2'는 열 방향으로 2개의 단위 구분 영역이 합쳐졌음을 나타낸다.
한편, 행 방향으로 2 이상의 단위 구분 영역이 합쳐진 셀의 위치는 행 방향을 기준으로 첫 번째 단위 구분 영역의 위치와 행 방향으로 합쳐진 단위 구분 영역의 개수를 나타내는 스팬 정보로 표현될 수 있다. 예를 들어, 'Cell 7'은 위치가 각각 (row=6, col=1)과 (row=6, col=2)인 행 방향으로 인접한 2개의 단위 구분 영역이 합쳐진 영역이므로, 'Cell 7'의 위치는 (row=6, col=1, row_span=2)으로 표현될 수 있다. 이때, 'row_span=2'는 열 방향으로 2개의 단위 구분 영역이 합쳐졌음을 나타낸다.
한편, 복수의 셀에 대한 분할 방식과 복수의 셀 각각의 위치는 반드시 도 2 내지 4를 참조하여 상술한 예에 한정되는 것은 아니며, 실시예에 따라 다양하게 변경될 수 있다.
한편, 일 실시예에 따르면, 복수의 셀 각각의 크기는 문서 이미지 내에서 복수의 셀 각각의 상대적 크기일 수 있다. 예를 들어, 복수의 셀 각각의 크기는 각 셀의 면적을 문서 이미지의 전체 면적으로 나눈 값이거나, 복수의 셀 각각의 면적을 기 설정된 범위 내의 값으로 정규화한 값 등일 수 있다.
또한, 일 실시예에 따르면, 복수의 셀 각각의 정렬 형태는 예를 들어, "왼쪽 정렬", "오른쪽 정렬", "가운데 정렬", "위쪽 정렬", "아래쪽 정렬", "중앙 정렬" 등과 같이 셀 내의 이미지 또는 텍스트가 행 방향 또는 열 방향을 기준으로 정렬된 형태를 나타낼 수 있다. 구체적으로, 복수의 셀 각각의 정렬 형태는 예를 들어, 복수의 셀 각각의 면적과 문서 이미지의 구조 정보에 포함된 문서 이미지 내 각 분할 영역의 위치에 기초하여 사전 설정된 로직(logic)에 따라 결정될 수 있다.
한편, 일 실시예에 따르면, 복수의 셀 각각의 클래스 타입은 구조 정보에 포함된 문서 이미지 내 각 분할 영역에 대한 클래스 타입에 따라 결정될 수 있다.
구체적으로, 도 5는 도 2에 도시된 문서 이미지에 대한 구조 정보에 기초하여 문서 이미지 내 각 분할 영역 및 각 분할 영역의 클래스 타입을 나타내는 라벨을 문서 이미지 상에 시각적으로 표현한 도면이다.
도 4 및 도 5를 참조하면, 'Cell 1'은 클래스 타입이 각각 'Text'인 두 개의 분할 영역과 클래스 타입이 'Table'인 하나의 분할 영역을 포함하고 있으므로, 'Cell 1'의 클래스 타입은 'Text' 및 'Table'로 결정될 수 있다.
반면, 'Cell 2'는 클래스 타입이 'Text'인 하나의 분할 영역을 포함하고 있으므로, 'Cell 2'의 클래스 타입은 'Text'로 결정될 수 있다.
또한, 'Cell 3'는 클래스 타입이 'Title'인 분할 영역과 클래스 타입이 'Text'인 분할 영역을 포함하고 있으므로, 'Cell 3'의 클래스 타입은 'Title' 및 'Text'로 결정될 수 있다.
한편, 문서 이미지에 대한 메타 데이터는 반드시 상술한 예에 한정되는 것은 아니며, 상술한 예 외에도 문서 이미지 및 문서 이미지에 대한 구조 정보로부터 도출 가능한 다양한 정보들을 포함할 수 있다.
한편, 일 실시예에 따르면, 메타 데이터 생성부(110)는 문서 이미지에 대한 구조 정보 및 메타 데이터를 예를 들어, XML(eXtensible Markup Language) 포맷과 같은 미리 설정된 포맷으로 생성할 수 있다.
다시 도 1을 참조하면, 분류부(120)는 복수의 문서 이미지 각각에 대한 메타 데이터에 기초하여 복수의 문서 이미지를 포함하는 데이터 세트를 복수의 그룹 각각에 대한 학습 데이터 세트로 분류한다.
일 실시예에 따르면, 분류부(120)는 데이터 세트에 포함된 문서 이미지 각각에 대한 메타 데이터에 기초하여 각 문서 이미지에 대응하는 벡터(vector)를 생성할 수 있다. 또한, 분류부(120)는 생성된 벡터에 기초하여 문서 이미지 세트에 포함된 각 문서 이미지를 복수의 그룹 중 하나로 분류함으로써, 데이터 세트를 복수의 그룹 각각에 대한 학습 데이터 세트로 분류할 수 있다.
이때, 일 실시예에 따르면, 분류부(120)는 예를 들어, 원-핫 벡터(one-hot vector), 워드 임베딩(word embedding) 등과 같이 공지된 벡터화 기법을 이용하여 각 문서 이미지에 대한 메타 데이터를 기 설정된 차원의 벡터로 변환함으로써 각 문서 이미지에 대응하는 벡터를 생성할 수 있다.
또한, 일 실시예에 따르면, 분류부(120)는 데이터 세트에 포함된 각 문서 이미지에 대응하는 벡터를 생성한 이후, 각 문서 이미지에 대응하는 벡터에 기초한 클러스터링(clustering)을 수행하여 데이터 세트에 포함된 각 문서 이미지를 복수의 그룹 중 하나로 분류함으로써 복수의 그룹 각각에 대한 학습 데이터 세트를 생성할 수 있다. 이때, 클러스터링은 예를 들어, K-mean Clustering, OPTICS(Ordering Points To Identify the Clustering Structure), DBSCAN(Density-Based Spatial Clustering of Applications with Noise) 등과 같은 공지된 클러스터링 알고리즘을 이용하여 수행될 수 있다.
제1 학습부(130)는 복수의 그룹 각각에 대한 학습 데이터 세트 중 대응하는 학습 데이터 세트에 포함된 각 문서 이미지 및 각 문서 이미지의 구조 정보에 기초하여 복수의 그룹 각각에 대한 문서 구조 분석 모델을 학습한다.
이때, 복수의 그룹 각각에 대한 문서 구조 분석 모델은 대응하는 그룹으로 분류된 임의의 문서 이미지가 입력되었을 때, 입력된 문서 이미지에 대한 구조 정보를 생성하기 위한 모델일 수 있다. 이를 위해, 복수의 그룹 중 특정 그룹에 대한 문서 구조 분석 모델은 해당 특정 그룹에 대한 학습 데이터 세트에 포함된 각 문서 이미지를 입력으로 이용하고, 입력된 각 문서 이미지에 대한 구조 정보를 정답(ground truth)으로 이용한 지도 학습 기법을 통해 학습될 수 있다.
한편, 문서 구조 분석 모델은 예를 들어, MRCNN(Mask Regional Convolutional Neural Network)와 같은 심층 신경망(Deep Neural Network) 기반의 모델일 수 있으나, 이 외에도 다양한 기계 학습(machine learning) 기법을 통해 학습될 수 있는 공지된 다양한 형태의 문서 구조 분석 모델 중 하나일 수 있다.
도 6은 추가적인 실시예에 따른 문서 구조 분석 학습 장치의 구성도이다.
도 6을 참조하면, 추가적인 실시예에 따른 문서 구조 분석 학습 장치(600)는 이미지 생성부(140)를 더 포함할 수 있다.
이미지 생성부(140)는 메타 데이터 생성부(110)에 의해 메타 데이터가 생성된 복수의 문서 이미지 중 적어도 하나의 문서 이미지 각각에 대한 구조 정보 및 메타 데이터에 기초하여, 하나 이상의 합성(synthetic) 문서 이미지를 생성할 수 있다.
이때, 생성되는 하나 이상의 합성 문서 이미지는 복수의 문서 이미지 중 특정 문서 이미지에 대한 구조 정보 및 메타 데이터와 동일한 구조 정보 및 메타 데이터를 가지되 임의로 생성된 텍스트와 이미지를 포함하는 문서 이미지일 수 있다.
일 실시예에 따르면, 이미지 생성부(140)는 사전 설정된 로직에 따라 합성 문서 이미지를 생성할 수 있으나, 실시예에 따라 입력되는 구조 정보 및 메타 데이터에 기초하여 합성 문서 이미지를 생성하도록 사전 학습된 심층 신경망 기반의 모델을 이용하여 합성 문서 이미지를 생성할 수도 있다. 그러나, 합성 문서 이미지를 생성하는 방식은 반드시 특정한 방식에 한정되는 것은 아니다.
한편, 일 실시예에 따르면, 분류부(120)는 메타 데이터 생성부(110)에 의해 메타 데이터가 생성된 복수의 문서 이미지 및 이미지 생성부(140)에 의해 생성된 하나 이상의 합성 문서 이미지를 포함하는 데이터 세트를 복수의 그룹 각각에 대한 학습 데이터 세트로 분류할 수 있다.
이를 통해, 도 1에 도시된 실시예와 비교하여, 복수의 그룹 각각에 대한 학습 데이터 세트에 포함되는 문서 이미지의 개수를 증가시킬 수 있으며, 이에 따라 복수의 그룹 각각에 대한 문서 구조 분석 모델의 학습을 위해 이용되는 문서 이미지의 개수가 증가되므로 학습을 통해 생성되는 문서 구조 분석 모델의 성능을 향상시킬 수 있다.
도 7은 추가적인 실시예에 따른 문서 구조 분석 장치의 구성도이다.
도 7을 참조하면, 추가적인 실시예에 따른 문서 구조 분석 장치(700)는 제2 학습부(150) 및 구조 정보 생성부(160)를 더 포함할 수 있다.
제2 학습부(150)는 메타 데이터 생성부(110)에 의해 메타 데이터가 생성된 복수의 문서 이미지, 복수의 문서 이미지 각각에 대한 구조 정보 및 메타 데이터에 기초하여 문서 구조 추출 모델을 학습할 수 있다.
이때, 일 실시예에 따르면, 문서 구조 추출 모델은 임의의 문서 이미지가 입력되었을 때 입력된 문서 이미지에 대한 구조 정보 및 메타 데이터를 생성하도록 학습될 수 있다. 구체적으로, 제2 학습부(150)는 복수의 문서 이미지 각각을 입력으로 이용하고, 입력된 각 문서 이미지에 대한 구조 정보 및 메타 데이터를 정답(ground truth)으로 이용한 지도 학습 기법을 통해 학습될 수 있다.
한편, 일 실시예에 따르면, 문서 구조 추출 모델은 예를 들어, 입력된 문서 이미지에 대한 구조 정보 및 메타 데이터를 예를 들어, XML 포맷과 같은 기 설정된 포맷으로 출력하도록 학습되는 심층 신경망 기반의 이미지 캡셔닝(image captioning) 모델일 수 있으나, 이 외에도 다양한 기계 학습 기법을 통해 학습될 수 있는 공지된 다양한 형태의 모델 중 하나일 수 있다.
구조 정보 생성부(160)는 제2 학습부(150)에 의해 학습된 문서 구조 추출 모델을 이용하여, 복수의 신규 문서 이미지 각각에 대한 구조 정보 및 메타 데이터를 생성할 수 있다.
한편, 분류부(120)는 구조 정보 생성부(160)에 의해 생성된 복수의 신규 문서 이미지 각각에 대한 메타 데이터에 기초하여 복수의 신규 문서 이미지 각각을 복수의 그룹 중 하나로 분류하여, 복수의 그룹 중 하나 이상의 그룹 각각에 대응하는 추가 학습 데이터 세트를 생성할 수 있다.
구체적으로, 분류부(120)는 복수의 신규 문서 이미지 각각에 대한 메타 데이터에 기초하여 복수의 신규 문서 이미지 각각에 대한 벡터를 생성하고, 생성된 벡터에 기초한 클러스터링을 통해 복수의 신규 문서 이미지를 복수의 그룹 중 하나로 분류할 수 있다.
제1 학습부(130)는 하나 이상의 그룹 각각에 대응하는 추가 학습 데이터 세트에 포함된 각 신규 문서 이미지 및 각 신규 문서 이미지의 구조 정보에 기초하여 하나 이상의 그룹 각각에 대한 문서 구조 분석 모델을 추가 학습할 수 있다.
도 8은 일 실시예에 따른 문서 구조 분석 학습 방법의 순서도이다.
도 8에 도시된 방법은 예를 들어, 도 1에 도시된 문서 구조 분석 학습 장치(100)에 의해 수행될 수 있다.
도 8을 참조하면, 문서 구조 분석 학습 장치(100)는 복수의 문서 이미지 및 복수의 문서 이미지 각각에 대한 구조 정보에 기초하여 복수의 문서 이미지 각각에 대한 메타 데이터를 생성한다(810).
이후, 문서 구조 분석 학습 장치(100)는 복수의 문서 이미지 각각에 대한 메타 데이터에 기초하여 복수의 문서 이미지를 포함하는 데이터 세트를 복수의 그룹 각각에 대한 학습 데이터 세트로 분류한다(820).
이후, 문서 구조 분석 학습 장치(100)는 복수의 그룹 각각에 대한 학습 데이터 세트 중 대응하는 학습 데이터 세트에 포함된 각 문서 이미지 및 각 문서 이미지에 대한 구조 정보에 기초하여 복수의 그룹 각각에 대한 문서 구조 분석 모델을 학습한다(830).
한편, 도 8에 도시된 순서도에서 적어도 일부의 단계들은 순서를 바꾸어 수행되거나, 다른 단계와 결합되어 함께 수행되거나, 생략되거나, 세부 단계들로 나뉘어 수행되거나, 도시되지 않은 하나 이상의 단계가 부가되어 수행될 수 있다.
도 9는 추가적인 실시예에 따른 문서 구조 분석 학습 방법의 순서도이다.
도 9에 도시된 방법은 예를 들어, 도 6에 도시된 문서 구조 분석 학습 장치(600)에 의해 수행될 수 있다.
도 9를 참조하면, 문서 구조 분석 학습 장치(600)는 복수의 문서 이미지 및 복수의 문서 이미지 각각에 대한 구조 정보에 기초하여 복수의 문서 이미지 각각에 대한 메타 데이터를 생성한다(910).
문서 구조 분석 학습 장치(600)는 복수의 문서 이미지 중 적어도 하나의 문서 이미지 각각에 대한 구조 정보 및 메타 데이터에 기초하여 하나 이상의 합성 문서 이미지를 생성한다(920).
이후, 문서 구조 분석 학습 장치(100)는 복수의 문서 이미지 및 하나 이상의 합성 문서 이미지 각각에 대한 메타 데이터에 기초하여 복수의 문서 이미지 및 하나 이상의 합성 문서 이미지를 포함하는 데이터 세트를 복수의 그룹 각각에 대한 학습 데이터 세트로 분류한다(920).
이후, 문서 구조 분석 학습 장치(100)는 복수의 그룹 각각에 대한 학습 데이터 세트 중 대응하는 학습 데이터 세트에 포함된 각 문서 이미지 및 각 문서 이미지에 대한 구조 정보에 기초하여 복수의 그룹 각각에 대한 문서 구조 분석 모델을 학습한다(930).
한편, 도 9에 도시된 순서도에서 적어도 일부의 단계들은 순서를 바꾸어 수행되거나, 다른 단계와 결합되어 함께 수행되거나, 생략되거나, 세부 단계들로 나뉘어 수행되거나, 도시되지 않은 하나 이상의 단계가 부가되어 수행될 수 있다.
도 10은 추가적인 실시예에 따른 문서 구조 분석 학습 방법의 순서도이다.
도 10에 도시된 방법은 예를 들어, 도 7에 도시된 문서 구조 분석 학습 장치(700)에 의해 수행될 수 있다.
도 10을 참조하면, 문서 구조 분석 학습 장치(700)는 사전 학습된 문서 구조 추출 모델을 이용하여, 복수의 신규 문서 이미지 각각에 대한 구조 정보 및 메타 데이터를 생성한다(1010).
이후, 문서 구조 분석 학습 장치(700)는 복수의 신규 문서 이미지 각각에 대한 메타 데이터에 기초하여 복수의 신규 문서 이미지 각각을 복수의 그룹 중 하나로 분류하여, 복수의 그룹 중 하나 이상의 그룹 각각에 대응하는 추가 학습 데이터 세트를 생성한다(1020).
이후, 문서 구조 분석 학습 장치(700)는 하나 이상의 그룹 각각에 대응하는 추가 학습 데이터 세트에 포함된 각 신규 문서 이미지 및 각 신규 문서 이미지의 구조 정보에 기초하여 하나 이상의 그룹 각각에 대한 문서 구조 분석 모델을 추가 학습한다(1030).
한편, 도 10에 도시된 순서도에서 적어도 일부의 단계들은 순서를 바꾸어 수행되거나, 다른 단계와 결합되어 함께 수행되거나, 생략되거나, 세부 단계들로 나뉘어 수행되거나, 도시되지 않은 하나 이상의 단계가 부가되어 수행될 수 있다.
도 11은 일 실시예에 따른 문서 구조 분석 장치의 구성도이다.
도 11을 참조하면, 일 실시예에 따른 문서 구조 분석 장치(1100)는 메타 데이터 생성부(1110), 분류부(1120) 및 분석부(1130)를 포함한다.
일 실시예에 따르면, 메타 데이터 생성부(1110), 분류부(1120) 및 분석부(1130)는 각각 물리적으로 구분된 하나 이상의 장치를 이용하여 구현되거나, 하나 이상의 하드웨어 프로세서 또는 하나 이상의 하드웨어 프로세서 및 소프트웨어의 결합에 의해 구현될 수 있으며, 도시된 예와 달리 구체적 동작에 있어 명확히 구분되지 않을 수 있다.
메타 데이터 생성부(1110)는 사전 학습된 문서 구조 추출 모델을 이용하여 분석 대상 문서 이미지에 대한 메타 데이터를 생성한다.
이때, 일 실시예에 따르면, 사전 학습된 문서 구조 추출 모델은 도 7에 도시된 문서 구조 분석 장치(700)에 의해 사전 학습된 모델일 수 있다.
분류부(1120)는 분석 대상 문서 이미지에 대한 메타 데이터에 기초하여 분석 대상 이미지를 사전 설정된 복수의 그룹 중 하나로 분류한다.
이때, 일 실시예에 따르면, 분류부(1120)는 분석 대상 문서 이미지에 대한 메타 데이터에 기초하여 분석 대상 문서 이미지에 대응하는 벡터를 생성하고, 생성된 벡터에 기초하여 분석 대상 문서 이미지를 복수의 그룹 중 하나로 분류할 수 있다.
분석부(1130)는 분석 대상 문서 이미지에 대한 분류 결과에 기초하여, 복수의 그룹 각각에 대한 사전 학습된 문서 구조 분석 모델 중 분석 대상 문서 이미지가 속하는 그룹에 대한 문서 구조 분석 모델을 선택한다. 또한, 분석부(1130)는 선택된 문서 구조 분석 모델을 이용하여 분석 대상 문서 이미지에 대한 구조 정보를 생성한다.
이때, 복수의 그룹 각각에 대한 사전 학습된 문서 구조 분석 모델은 예를 들어, 도 1, 도 6 또는 도 7에 도시된 문서 구조 분석 장치(100, 600, 700)에 의해 사전 학습된 모델일 수 있다.
도 12는 일 실시예에 따른 문서 구조 분석 방법의 순서도이다.
도 12에 도시된 방법은 예를 들어, 도 11에 도시된 문서 구조 분석 장치(1100)에 의해 수행될 수 있다.
도 12를 참조하면, 우선, 문서 구조 분석 장치(1100)는 사전 학습된 문서 구조 추출 모델을 이용하여 분석 대상 문서 이미지에 대한 메타 데이터를 생성한다(1210).
이후, 문서 구조 분석 장치(1100)는 분석 대상 문서 이미지에 대한 메타 데이터에 기초하여 분석 대상 이미지를 사전 설정된 복수의 그룹 중 하나로 분류한다(1220).
이후, 문서 구조 분석 장치(1100)는 분석 대상 문서 이미지에 대한 분류 결과에 기초하여, 복수의 그룹 각각에 대한 사전 학습된 문서 구조 분석 모델 중 분석 대상 문서 이미지가 속하는 그룹에 대한 문서 구조 분석 모델을 선택한다(1230).
이후, 문서 구조 분석 장치(1100)는 선택된 문서 구조 분석 모델을 이용하여 분석 대상 문서 이미지에 대한 구조 정보를 생성한다(1240).
한편, 도 12에 도시된 순서도에서 적어도 일부의 단계들은 순서를 바꾸어 수행되거나, 다른 단계와 결합되어 함께 수행되거나, 생략되거나, 세부 단계들로 나뉘어 수행되거나, 도시되지 않은 하나 이상의 단계가 부가되어 수행될 수 있다.
도 13은 일 실시예에 따른 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 예시하여 설명하기 위한 블록도이다. 도시된 실시예에서, 각 컴포넌트들은 이하에 기술된 것 이외에 상이한 기능 및 능력을 가질 수 있고, 이하에 기술된 것 이외에도 추가적인 컴포넌트를 포함할 수 있다.
도시된 컴퓨팅 환경(10)은 컴퓨팅 장치(12)를 포함한다. 컴퓨팅 장치(12)는 일 실시예에 따른 문서 구조 분석 학습 장치(100, 600, 700) 또는 문서 구조 분석 장치(1100)에 포함된 하나 이상의 컴포넌트일 수 있다.
컴퓨팅 장치(12)는 적어도 하나의 프로세서(14), 컴퓨터 판독 가능 저장 매체(16) 및 통신 버스(18)를 포함한다. 프로세서(14)는 컴퓨팅 장치(12)로 하여금 앞서 언급된 예시적인 실시예에 따라 동작하도록 할 수 있다. 예컨대, 프로세서(14)는 컴퓨터 판독 가능 저장 매체(16)에 저장된 하나 이상의 프로그램들을 실행할 수 있다. 상기 하나 이상의 프로그램들은 하나 이상의 컴퓨터 실행 가능 명령어를 포함할 수 있으며, 상기 컴퓨터 실행 가능 명령어는 프로세서(14)에 의해 실행되는 경우 컴퓨팅 장치(12)로 하여금 예시적인 실시예에 따른 동작들을 수행하도록 구성될 수 있다.
컴퓨터 판독 가능 저장 매체(16)는 컴퓨터 실행 가능 명령어 내지 프로그램 코드, 프로그램 데이터 및/또는 다른 적합한 형태의 정보를 저장하도록 구성된다. 컴퓨터 판독 가능 저장 매체(16)에 저장된 프로그램(20)은 프로세서(14)에 의해 실행 가능한 명령어의 집합을 포함한다. 일 실시예에서, 컴퓨터 판독 가능 저장 매체(16)는 메모리(랜덤 액세스 메모리와 같은 휘발성 메모리, 비휘발성 메모리, 또는 이들의 적절한 조합), 하나 이상의 자기 디스크 저장 디바이스들, 광학 디스크 저장 디바이스들, 플래시 메모리 디바이스들, 그 밖에 컴퓨팅 장치(12)에 의해 액세스되고 원하는 정보를 저장할 수 있는 다른 형태의 저장 매체, 또는 이들의 적합한 조합일 수 있다.
통신 버스(18)는 프로세서(14), 컴퓨터 판독 가능 저장 매체(16)를 포함하여 컴퓨팅 장치(12)의 다른 다양한 컴포넌트들을 상호 연결한다.
컴퓨팅 장치(12)는 또한 하나 이상의 입출력 장치(24)를 위한 인터페이스를 제공하는 하나 이상의 입출력 인터페이스(22) 및 하나 이상의 네트워크 통신 인터페이스(26)를 포함할 수 있다. 입출력 인터페이스(22) 및 네트워크 통신 인터페이스(26)는 통신 버스(18)에 연결된다. 입출력 장치(24)는 입출력 인터페이스(22)를 통해 컴퓨팅 장치(12)의 다른 컴포넌트들에 연결될 수 있다. 예시적인 입출력 장치(24)는 포인팅 장치(마우스 또는 트랙패드 등), 키보드, 터치 입력 장치(터치패드 또는 터치스크린 등), 음성 또는 소리 입력 장치, 다양한 종류의 센서 장치 및/또는 촬영 장치와 같은 입력 장치, 및/또는 디스플레이 장치, 프린터, 스피커 및/또는 네트워크 카드와 같은 출력 장치를 포함할 수 있다. 예시적인 입출력 장치(24)는 컴퓨팅 장치(12)를 구성하는 일 컴포넌트로서 컴퓨팅 장치(12)의 내부에 포함될 수도 있고, 컴퓨팅 장치(12)와는 구별되는 별개의 장치로 컴퓨팅 장치(12)와 연결될 수도 있다.
이상에서 대표적인 실시예를 통하여 본 발명에 대하여 상세하게 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 전술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
10: 컴퓨팅 환경
12: 컴퓨팅 장치
14: 프로세서
16: 컴퓨터 판독 가능 저장 매체
18: 통신 버스
20: 프로그램
22: 입출력 인터페이스
24: 입출력 장치
26: 네트워크 통신 인터페이스
100, 600, 700: 문서 구조 분석 학습 장치
110: 메타 데이터 생성부
120: 분류부
130: 제1 학습부
140: 이미지 생성부
150: 제2 학습부
160: 구조 정보 생성부
1100: 문서 구조 분석 장치
1110: 메타 데이터 생성부
1120: 분류부
1130: 분석부

Claims (20)

  1. 복수의 문서 이미지 및 상기 복수의 문서 이미지 각각에 대한 구조 정보(structure information)에 기초하여 상기 복수의 문서 이미지 각각에 대한 메타 데이터(meta data)를 생성하는 메타 데이터 생성부;
    상기 메타 데이터에 기초하여 상기 복수의 문서 이미지를 포함하는 데이터 세트를 복수의 그룹 각각에 대한 학습 데이터 세트로 분류하는 분류부; 및
    상기 복수의 그룹 각각에 대한 학습 데이터 세트 중 대응하는 학습 데이터 세트에 포함된 각 문서 이미지 및 상기 각 문서 이미지의 구조 정보에 기초하여 상기 복수의 그룹 각각에 대한 문서 구조 분석 모델을 학습하는 제1 학습부를 포함하는, 문서 구조 분석 학습 장치.
  2. 청구항 1에 있어서,
    상기 복수의 문서 이미지 각각에 대한 메타 데이터는, 문서 이미지 내에 포함된 복수의 셀(cell) 각각의 위치, 상기 복수의 셀 각각의 클래스 타입(class type), 상기 복수의 셀 각각의 정렬 형태, 상기 복수의 셀 각각의 크기, 상기 복수의 셀 각각에 포함된 텍스트의 속성 및 상기 복수의 셀 각각에 포함된 이미지의 속성 중 적어도 하나에 대한 데이터를 포함하는, 문서 구조 분석 학습 장치.
  3. 청구항 1에 있어서,
    상기 분류부는, 상기 복수의 문서 이미지 각각에 대한 메타 데이터에 기초하여 상기 복수의 문서 이미지 각각에 대응하는 벡터(vector)를 생성하고, 상기 복수의 문서 이미지 각각에 대응하는 벡터에 기초하여 상기 데이터 세트를 상기 복수의 그룹 각각에 대한 학습 데이터 세트로 분류하는, 문서 구조 분석 학습 장치.
  4. 청구항 1에 있어서,
    상기 복수의 문서 이미지, 상기 복수의 문서 이미지 각각에 대한 구조 정보 및 메타 데이터에 기초하여, 임의의 문서 이미지에 대한 구조 정보 및 메타 데이터를 생성하기 위한 문서 구조 추출 모델을 학습하는 제2 학습부를 더 포함하는, 문서 구조 분석 학습 장치.
  5. 청구항 4에 있어서,
    상기 학습된 문서 구조 추출 모델을 이용하여, 복수의 신규 문서 이미지 각각에 대한 구조 정보 및 메타 데이터를 생성하는 구조 정보 생성부를 더 포함하고,
    상기 분류부는, 상기 복수의 신규 문서 이미지 각각에 대한 메타 데이터에 기초하여 상기 복수의 신규 문서 이미지 각각을 상기 복수의 그룹 중 하나로 분류하여, 상기 복수의 그룹 중 하나 이상의 그룹 각각에 대응하는 추가 학습 데이터 세트를 생성하고,
    상기 제1 학습부는, 상기 하나 이상의 그룹 각각에 대응하는 추가 학습 데이터 세트에 포함된 각 신규 문서 이미지 및 상기 각 신규 문서 이미지의 구조 정보에 기초하여 상기 하나 이상의 그룹 각각에 대한 문서 구조 분석 모델을 추가 학습하는, 문서 구조 분석 학습 장치.
  6. 청구항 5에 있어서,
    상기 분류부는, 상기 복수의 신규 문서 이미지 각각에 대한 메타 데이터에 기초하여 상기 복수의 신규 문서 이미지 각각에 대응하는 벡터(vector)를 생성하고, 상기 복수의 신규 문서 이미지 각각에 대응하는 벡터에 기초하여 상기 복수의 신규 문서 이미지 각각을 상기 복수의 그룹 중 하나로 분류하는, 문서 구조 분석 학습 장치.
  7. 청구항 1에 있어서,
    상기 복수의 문서 이미지 중 하나 이상의 문서 이미지 각각에 대한 구조 정보 및 메타 데이터에 기초하여, 하나 이상의 합성(synthetic) 문서 이미지를 생성하는 이미지 생성부를 더 포함하고,
    상기 데이터 집합은, 상기 하나 이상의 합성 문서 이미지를 더 포함하는, 문서 구조 분석 학습 장치.
  8. 복수의 문서 이미지 및 상기 복수의 문서 이미지 각각에 대한 구조 정보(structure information)에 기초하여 상기 복수의 문서 이미지 각각에 대한 메타 데이터(meta data)를 생성하는 단계;
    상기 메타 데이터에 기초하여 상기 복수의 문서 이미지를 포함하는 데이터 세트를 복수의 그룹 각각에 대한 학습 데이터 세트로 분류하는 단계; 및
    상기 복수의 그룹 각각에 대한 학습 데이터 세트 중 대응하는 학습 데이터 세트에 포함된 각 문서 이미지 및 상기 각 문서 이미지의 구조 정보에 기초하여 상기 복수의 그룹 각각에 대한 문서 구조 분석 모델을 학습하는 단계를 포함하는, 문서 구조 분석 학습 방법.
  9. 청구항 8에 있어서,
    상기 복수의 문서 이미지 각각에 대한 메타 데이터는, 문서 이미지 내에 포함된 복수의 셀(cell) 각각의 위치, 상기 복수의 셀 각각의 클래스 타입(class type), 상기 복수의 셀 각각의 정렬 형태, 상기 복수의 셀 각각의 크기, 상기 복수의 셀 각각에 포함된 텍스트의 속성 및 상기 복수의 셀 각각에 포함된 이미지의 속성 중 적어도 하나에 대한 데이터를 포함하는, 문서 구조 분석 학습 방법.
  10. 청구항 8에 있어서,
    상기 분류하는 단계는, 상기 복수의 문서 이미지 각각에 대한 메타 데이터에 기초하여 상기 복수의 문서 이미지 각각에 대응하는 벡터(vector)를 생성하는 단계; 및
    상기 복수의 문서 이미지 각각에 대응하는 벡터에 기초하여 상기 데이터 세트를 상기 복수의 그룹 각각에 대한 학습 데이터 세트로 분류하는 단계를 포함하는, 문서 구조 분석 학습 방법.
  11. 청구항 8에 있어서,
    상기 복수의 문서 이미지, 상기 복수의 문서 이미지 각각에 대한 구조 정보 및 메타 데이터에 기초하여, 임의의 문서 이미지에 대한 구조 정보 및 메타 데이터를 생성하기 위한 문서 구조 추출 모델을 학습하는 단계를 더 포함하는, 문서 구조 분석 학습 방법.
  12. 청구항 11에 있어서,
    상기 학습된 문서 구조 추출 모델을 이용하여, 복수의 신규 문서 이미지 각각에 대한 구조 정보 및 메타 데이터를 생성하는 단계;
    상기 복수의 신규 문서 이미지 각각에 대한 메타 데이터에 기초하여 상기 복수의 신규 문서 이미지 각각을 상기 복수의 그룹 중 하나로 분류하여, 상기 복수의 그룹 중 하나 이상의 그룹 각각에 대응하는 추가 학습 데이터 세트를 생성하는 단계; 및
    상기 하나 이상의 그룹 각각에 대응하는 추가 학습 데이터 세트에 포함된 각 신규 문서 이미지 및 상기 각 신규 문서 이미지의 구조 정보에 기초하여 상기 하나 이상의 그룹 각각에 대한 문서 구조 분석 모델을 추가 학습하는 단계를 더 포함하는, 문서 구조 분석 학습 방법.
  13. 청구항 12에 있어서,
    상기 추가 학습 데이터 세트를 생성하는 단계는, 상기 복수의 신규 문서 이미지 각각에 대한 메타 데이터에 기초하여 상기 복수의 신규 문서 이미지 각각에 대응하는 벡터(vector)를 생성하는 단계; 및
    상기 복수의 신규 문서 이미지 각각에 대응하는 벡터에 기초하여 상기 복수의 신규 문서 이미지 각각을 상기 복수의 그룹 중 하나로 분류하는 단계를 포함하는, 문서 구조 분석 학습 방법.
  14. 청구항 8에 있어서,
    상기 복수의 문서 이미지 중 하나 이상의 문서 이미지 각각에 대한 구조 정보 및 메타 데이터에 기초하여, 하나 이상의 합성(synthetic) 문서 이미지를 생성하는 단계를 더 포함하고,
    상기 데이터 집합은, 상기 하나 이상의 합성 문서 이미지를 더 포함하는, 문서 구조 분석 학습 방법.
  15. 사전 학습된 문서 구조 추출 모델을 이용하여 분석 대상 문서 이미지에 대한 메타 데이터(meta data)를 생성하는 메타 데이터 생성부;
    상기 메타 데이터에 기초하여 상기 분석 대상 문서 이미지를 사전 설정된 복수의 그룹 중 하나로 분류하는 분류부; 및
    상기 분류 결과에 기초하여, 상기 복수의 그룹 각각에 대한 사전 학습된 문서 구조 분석 모델 중 상기 분석 대상 문서 이미지가 속하는 그룹에 대한 문서 구조 분석 모델을 선택하고, 상기 선택된 문서 구조 분석 모델을 이용하여 상기 분석 대상 문서 이미지에 대한 구조 정보를 생성하는 분석부를 포함하는 문서 구조 분석 장치.
  16. 청구항 15에 있어서,
    상기 메타 데이터는, 상기 분석 대상 문서 이미지 내에 포함된 복수의 셀(cell) 각각의 위치, 상기 복수의 셀 각각의 클래스 타입(class type), 상기 복수의 셀 각각의 정렬 형태, 상기 복수의 셀 각각의 크기, 상기 복수의 셀 각각에 포함된 텍스트의 속성 및 상기 복수의 셀 각각에 포함된 이미지의 속성 중 적어도 하나에 대한 데이터를 포함하는, 문서 구조 분석 장치.
  17. 청구항 15에 있어서,
    상기 분류부는, 상기 메타 데이터에 기초하여 상기 분석 대상 문서 이미지에 대응하는 벡터(vector)를 생성하고, 상기 벡터에 기초하여 상기 분석 대상 문서 이미지를 상기 복수의 그룹 중 하나로 분류하는, 문서 구조 분석 장치.
  18. 사전 학습된 문서 구조 추출 모델을 이용하여 분석 대상 문서 이미지에 대한 메타 데이터(meta data)를 생성하는 단계;
    상기 메타 데이터에 기초하여 상기 분석 대상 문서 이미지를 사전 설정된 복수의 그룹 중 하나로 분류하는 단계;
    상기 분류 결과에 기초하여, 상기 복수의 그룹 각각에 대한 사전 학습된 문서 구조 분석 모델 중 상기 분석 대상 문서 이미지가 속하는 그룹에 대한 문서 구조 분석 모델을 선택하는 단계; 및
    상기 선택된 문서 구조 분석 모델을 이용하여 상기 분석 대상 문서 이미지에 대한 구조 정보를 생성하는 단계를 포함하는 문서 구조 분석 방법.
  19. 청구항 18에 있어서,
    상기 메타 데이터는, 상기 분석 대상 문서 이미지 내에 포함된 복수의 셀(cell) 각각의 위치, 상기 복수의 셀 각각의 클래스 타입(class type), 상기 복수의 셀 각각의 정렬 형태, 상기 복수의 셀 각각의 크기, 상기 복수의 셀 각각에 포함된 텍스트의 속성 및 상기 복수의 셀 각각에 포함된 이미지의 속성 중 적어도 하나에 대한 데이터를 포함하는, 문서 구조 분석 방법.
  20. 청구항 18에 있어서,
    상기 분류하는 단계는, 상기 메타 데이터에 기초하여 상기 분석 대상 문서 이미지에 대응하는 벡터(vector)를 생성하는 단계; 및
    상기 벡터에 기초하여 상기 분석 대상 문서 이미지를 상기 복수의 그룹 중 하나로 분류하는 단계를 포함하는, 문서 구조 분석 방법.
KR1020210070067A 2021-05-24 2021-05-31 문서 구조 분석 학습 장치 및 방법, 문서 구조 분석 장치 및 방법 KR20220158571A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20210066251 2021-05-24
KR1020210066251 2021-05-24

Publications (1)

Publication Number Publication Date
KR20220158571A true KR20220158571A (ko) 2022-12-01

Family

ID=84440802

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210070067A KR20220158571A (ko) 2021-05-24 2021-05-31 문서 구조 분석 학습 장치 및 방법, 문서 구조 분석 장치 및 방법

Country Status (1)

Country Link
KR (1) KR20220158571A (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210049382A (ko) 2019-10-25 2021-05-06 삼성생명보험주식회사 보험 문서 분석 방법을 제공하기 위한 컴퓨터 프로그램

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210049382A (ko) 2019-10-25 2021-05-06 삼성생명보험주식회사 보험 문서 분석 방법을 제공하기 위한 컴퓨터 프로그램

Similar Documents

Publication Publication Date Title
CN113762028B (zh) 从文本文档进行数据驱动的结构提取
Göbel et al. A methodology for evaluating algorithms for table understanding in PDF documents
US11170249B2 (en) Identification of fields in documents with neural networks using global document context
US10867169B2 (en) Character recognition using hierarchical classification
US11416531B2 (en) Systems and methods for parsing log files using classification and a plurality of neural networks
Sethi et al. DLPaper2Code: Auto-generation of code from deep learning research papers
US20210012211A1 (en) Techniques for visualizing the operation of neural networks
KR20200052439A (ko) 딥러닝 모델의 최적화 시스템 및 방법
CN114596566B (zh) 文本识别方法及相关装置
Singh et al. Benchmark databases of handwritten Bangla-Roman and Devanagari-Roman mixed-script document images
US20230336532A1 (en) Privacy Preserving Document Analysis
US20230409645A1 (en) Search needs evaluation apparatus, search needs evaluation system, and search needs evaluation method
US20220374648A1 (en) Computer-readable recording medium storing learning support program, learning support method, and learning support device
Jiang et al. Tabcellnet: Deep learning-based tabular cell structure detection
Quirós et al. Multi-task layout analysis of handwritten musical scores
Li et al. Rethinking table structure recognition using sequence labeling methods
Zheng Visual memory neural network for artistic graphic design
KR20230062251A (ko) 텍스트 기반의 문서분류 방법 및 문서분류 장치
CN113780365A (zh) 样本生成方法和装置
Retsinas et al. Iterative weighted transductive learning for handwriting recognition
Vu et al. Revising FUNSD dataset for key-value detection in document images
Wang et al. Image captioning using region-based attention joint with time-varying attention
Choudhary et al. Offline handwritten mathematical expression evaluator using convolutional neural network
KR20220158571A (ko) 문서 구조 분석 학습 장치 및 방법, 문서 구조 분석 장치 및 방법
US20230134218A1 (en) Continuous learning for document processing and analysis