KR102572130B1 - 문서 이미지에서 문서 양식을 추출하는 방법 및 시스템 - Google Patents

문서 이미지에서 문서 양식을 추출하는 방법 및 시스템 Download PDF

Info

Publication number
KR102572130B1
KR102572130B1 KR1020220124850A KR20220124850A KR102572130B1 KR 102572130 B1 KR102572130 B1 KR 102572130B1 KR 1020220124850 A KR1020220124850 A KR 1020220124850A KR 20220124850 A KR20220124850 A KR 20220124850A KR 102572130 B1 KR102572130 B1 KR 102572130B1
Authority
KR
South Korea
Prior art keywords
text
area
document
extracting
document image
Prior art date
Application number
KR1020220124850A
Other languages
English (en)
Inventor
박상일
Original Assignee
에스케이 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이 주식회사 filed Critical 에스케이 주식회사
Priority to KR1020220124850A priority Critical patent/KR102572130B1/ko
Application granted granted Critical
Publication of KR102572130B1 publication Critical patent/KR102572130B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Processing Or Creating Images (AREA)
  • Document Processing Apparatus (AREA)

Abstract

문서 이미지에서 웹 환경에서 작성하거나 편집할 수 있는 웹 문서의 양식을 추출하는 방법 및 시스템이 제공된다. 본 발명의 실시예에 따른 문서 이미지에서 문서 양식을 추출하는 방법은, 시스템이, 문서 이미지에서 레이아웃 데이터를 추출하는 단계; 시스템이, 문서 이미지에서 하나 이상의 텍스트 영역을 검출하는 단계; 시스템이, 검출되는 하나 이상의 텍스트 영역의 크기 및 위치를 식별하는 단계; 시스템이, 식별된 각각의 텍스트 영역을 대상으로 양식 추출에 적용되는 제1 영역과 제외되는 제2 영역을 분리하여 지정하는 단계; 시스템이, 제1 영역 내에서 텍스트 데이터를 추출하는 단계; 및 시스템이, 추출된 레이아웃 데이터에 제1 영역 내에서 추출된 텍스트 데이터를 반영하여 문서 양식을 생성하는 단계;를 포함한다. 이에 의해, 문서 이미지에서 웹 환경에서 작성하거나 편집할 수 있는 웹 문서의 양식을 추출하여, 업무를 진행함에 있어 필요한 다양한 종류 및 양식의 문서 작성에 활용할 수 있어, 업무 처리 효율을 향상시킬 수 있다.

Description

문서 이미지에서 문서 양식을 추출하는 방법 및 시스템{Method and system for extracting document form from document image}
본 발명은 문서 양식 추출 방법 및 시스템에 관한 것으로, 더욱 상세하게는 문서 이미지에서 웹 환경에서 작성하거나 편집할 수 있는 웹 문서의 양식을 추출하는 방법 및 시스템에 관한 것이다.
보편적으로 기업에서 특정 업무를 수행하기 위해 하나의 업무를 각각의 단계로 나누어 관리하는 방식이 주를 이루었다.
이러한 경우, 동일한 업무를 구성하는 각각의 작업 절차는, 업무를 진행함에 있어 필요한 자료가 각 단계별로 유기적으로 연결될 수 있으나, 각각의 작업 절차에서 필요로 하는 문서의 종류나 양식이 달라질 수 있다.
기존에는 각각의 작업 절차에서 필요로 하는 문서의 종류나 양식에 따라 각각의 문서를 개별적으로 작성하여 관리하였으나, 이를 위해 별도의 작업을 필요로 하게 되는 문제점이 존재한다.
삭제
한국공개특허 제10-2022-0005745호(발명의 명칭: 이미지에서 문서 작성에 적합한 서식을 추출하는 전자 장치 및 그 동작 방법)
본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, 문서 이미지에서 웹 환경에서 작성하거나 편집할 수 있는 웹 문서의 양식을 추출하는 방법 및 시스템을 제공함에 있다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 문서 이미지에서 문서 양식을 추출하는 방법은, 시스템이, 문서 이미지에서 레이아웃 데이터를 추출하는 단계; 시스템이, 문서 이미지에서 하나 이상의 텍스트 영역을 검출하는 단계; 시스템이, 검출되는 하나 이상의 텍스트 영역의 크기 및 위치를 식별하는 단계; 시스템이, 식별된 각각의 텍스트 영역을 대상으로 양식 추출에 적용되는 제1 영역과 제외되는 제2 영역을 분리하여 지정하는 단계; 시스템이, 제1 영역 내에서 텍스트 데이터를 추출하는 단계; 및 시스템이, 추출된 레이아웃 데이터에 제1 영역 내에서 추출된 텍스트 데이터를 반영하여 문서 양식을 생성하는 단계;를 포함한다.
그리고 분리하여 지정하는 단계는, 각각의 텍스트 영역을 프린트된 텍스트 영역과 수기로 작성된 텍스트 영역으로 분류하는 단계; 및 프린트된 텍스트 영역을 제1 영역으로 지정하고, 수기로 작성된 텍스트 영역을 제2 영역으로 지정하는 단계;를 포함할 수 있다.
또한, 분류하는 단계는, 텍스트 영역 내 텍스트들을 분석하여 프린트된 활자와 수기로 작성된 활자를 분류하도록 학습된 인공지능 모델을 이용할 수 있다.
그리고 문서 양식을 생성하는 단계는, 추출된 레이아웃 데이터를 기반으로 문서 양식의 레이아웃이 자동 작성되는 단계; 사용자의 입력에 따라 자동 작성된 레이아웃의 편집이 수행되는 단계; 및 편집된 레이아웃에 제1 영역에서 추출된 텍스트 데이터를 기입하여 문서 양식을 생성하는 단계;를 포함할 수 있다.
또한, 분리하여 지정하는 단계는, 양식 추출에 필요한 하나 이상의 텍스트를 텍스트 영역별로 등록하는 단계; 각각의 텍스트 영역을 등록된 텍스트가 포함된 텍스트 영역과 등록된 텍스트가 포함되지 않은 텍스트 영역을 분류하는 단계; 및 등록된 텍스트가 포함된 텍스트 영역을 제1 영역으로 지정하고, 등록된 텍스트가 포함되지 않은 텍스트 영역을 제2 영역으로 지정하는 단계;를 포함할 수 있다.
그리고 등록하는 단계는, 업무 프로세서 진행을 위한 워크 플로우 중 특정 작업 절차에 매칭되는 웹 문서를 작성하기 위한 문서 양식으로 지정되는 경우, 해당 작업 절차에 매칭된 기존의 다른 문서 양식에서 사용되는 문서 타이틀 및 항목별 키워드가 텍스트 영역별로 자동 등록될 수 있다.
한편, 본 발명의 다른 실시예에 따른, 문서 이미지에서 문서 양식을 추출하는 시스템은, 문서 이미지에서 레이아웃 데이터를 추출하는 레이아웃 추출부; 문서 이미지에서 하나 이상의 텍스트 영역을 검출하고, 검출되는 하나 이상의 텍스트 영역의 크기 및 위치를 식별하는 텍스트 검출부; 각각의 텍스트 영역을 대상으로 양식 추출에 적용되는 제1 영역과 제외되는 제2 영역을 분리하여 지정하고, 제1 영역 내에서 텍스트 데이터를 추출하는 텍스트 추출부; 및 추출된 레이아웃에 제1 영역 내에서 추출된 텍스트 데이터를 반영하여 문서 양식을 생성하는 양식 생성부;를 포함한다.
이상 설명한 바와 같이, 본 발명의 실시예들에 따르면, 문서 이미지에서 웹 환경에서 작성하거나 편집할 수 있는 웹 문서의 양식을 추출하여, 업무를 진행함에 있어 필요한 다양한 종류 및 양식의 문서 작성에 활용할 수 있어, 업무 처리 효율을 향상시킬 수 있다.
도 1은, 본 발명의 일 실시예에 따른 문서 이미지에서 문서 양식을 추출하는 시스템의 구성 설명에 제공된 도면,
도 2는, 상기 도 1에 도시된 프로세서의 더욱 상세한 설명에 제공된 도면,
도 3은, 본 발명의 일 실시예에 따른 문서 이미지에서 하나 이상의 텍스트 영역이 검출된 화면이 예시된 도면, 그리고
도 4는, 본 발명의 일 실시예에 따른 문서 이미지에서 문서 양식을 추출하는 방법의 설명에 제공된 흐름도이다.
이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.
도 1은, 본 발명의 일 실시예에 따른 문서 이미지에서 문서 양식을 추출하는 시스템의 구성 설명에 제공된 도면이다.
도 1을 참조하면, 본 실시예에 따른 문서 이미지에서 문서 양식을 추출하는 시스템(이하에서는 '시스템'으로 총칭하기로 함)은, 통신부(100), 프로세서(200), 입력부(300), 출력부(400) 및 저장부(500)를 포함한다.
통신부(100)는, 시스템이 외부와 통신 네트워크로 연결되도록 하기 위한 통신 수단이고, 입력부(300)는, 마우스, 키보드, 스캐너 등 사용자의 입력을 수신하는 입력 인터페이스 장치를 구비할 수 있다.
출력부(400)는, 프로세서(200)가 동작하여 출력하고자 하는 정보들을 화면에 출력하는 디스플레이 수단이고, 저장부(500)는, 프로세서(200)가 동작함에 있어 필요한 프로그램 및 데이터를 저장하는 저장매체이다.
프로세서(200)는, 시스템의 제반사항을 처리하기 위해 마련된다.
예를 들면, 프로세서(200)는, 문서 이미지에서 레이아웃 데이터를 추출하고, 문서 이미지에서 하나 이상의 텍스트 영역을 검출하여, 검출되는 하나 이상의 텍스트 영역의 크기 및 위치를 식별할 수 있다.
여기서, 레이아웃 데이터는, 문서 내 페이지의 텍스트 데이터가 기입되는 전체 분할되는 영역의 개수 및 분할된 각 영역의 크기 및 위치(배치) 등에 대한 정보가 포함될 수 있다.
그리고 프로세서(200)는, 식별된 각각의 텍스트 영역을 대상으로 양식 추출에 적용되는 제1 영역과 제외되는 제2 영역을 분리하여 지정하고, 제1 영역 내에서 텍스트 데이터를 추출하여, 추출된 레이아웃 데이터에 제1 영역 내에서 추출된 텍스트 데이터를 반영하여 문서 양식을 생성할 수 있다.
도 2는, 상기 도 1에 도시된 프로세서의 더욱 상세한 설명에 제공된 도면이고, 도 3은, 본 발명의 일 실시예에 따른 문서 이미지에서 하나 이상의 텍스트 영역이 검출된 화면이 예시된 도면이다.
도 2를 참조하면, 프로세서(200)는, 레이아웃 추출부(210), 텍스트 검출부(220), 텍스트 추출부(230) 및 양식 생성부(240)를 포함할 수 있다.
레이아웃 추출부(210)는, 문서 이미지에서 레이아웃 데이터를 추출할 수 있다.
텍스트 검출부(220)는, 문서 이미지에서 하나 이상의 텍스트 영역을 검출하고, 검출되는 하나 이상의 텍스트 영역의 크기 및 위치를 식별하여, 식별 결과를 텍스트 추출부(230)에 전달할 수 있다.
텍스트 추출부(230)는, 각각의 텍스트 영역을 대상으로 양식 추출에 적용되는 제1 영역과 제외되는 제2 영역을 분리하여 지정하고, 제1 영역 내에서 텍스트 데이터를 추출할 수 있다.
예를 들면, 텍스트 추출부(230)는, 각각의 텍스트 영역을 프린트된 텍스트 영역과 수기로 작성된 텍스트 영역으로 분류하고, 프린트된 텍스트 영역을 제1 영역으로 지정하고, 수기로 작성된 텍스트 영역을 제2 영역으로 지정하여, 제1 영역으로 지정된 프린트된 텍스트 영역 내에서 텍스트 데이터를 추출할 수 있다.
이때, 텍스트 추출부(230)는, 텍스트 영역 내 텍스트들을 분석하여 프린트된 활자와 수기로 작성된 활자를 분류하도록 학습된 인공지능 모델을 이용하여, 각각의 텍스트 영역을 프린트된 텍스트 영역과 수기로 작성된 텍스트 영역으로 분류할 수 있다.
여기서, 해당 인공지능 모델은, 텍스트 영역 내 텍스트들의 활자 크기, 기울기, 활자 간 간격 등을 분석하여 프린트된 활자와 수기로 작성된 활자를 분류하도록 학습된 인공지능 모델일 수 있다.
그리고 텍스트 추출부(230)는, 인공지능 모델을 이용하여, 각각의 텍스트 영역을 프린트된 텍스트 영역과 수기로 작성된 텍스트 영역으로 분류한 이후, 사용자의 입력에 따라 프린트된 텍스트 영역들 중 특정 텍스트 영역을 문서 양식에 반영하고자 하는 제1 영역이 아닌 문서 양식에서 배제하고자 하는 제3 영역으로 지정하여, 텍스트 데이터 추출에서 배제할 수 있다.
즉, 텍스트 추출부(230)는, 프린트된 텍스트 영역을 모두 제1 영역으로 분류하는 것이 아니라, 사용자의 입력에 따라 문서 양식에 반영하고자 하는 제1 영역과 문서 양식에서 배제하고자 하는 제3 영역으로 분류하여 지정할 수 있다.
예를 들면, 텍스트 추출부(230)는, 도 3에 예시된 바와 같이 출력부를 통해 출력되는 화면에, 문서 이미지에서 검출된 복수의 텍스트 영역이 출력되도록 할 수 있다.
이때, 검출된 복수의 텍스트 영역은, 인공지능 모델에 의해 프린트된 텍스트 영역으로 분류되는 영역(E1)과 수기로 작성된 텍스트 영역(E2)으로 분류되어, 분류 결과가 화면에 출력될 수 있다.
그리고 사용자는, 입력부를 통해, 프린트된 텍스트 영역으로 분류된 영역들 중 문서 양식에 반영하고자 하는 제1 영역(E1)으로 지정할 영역과 문서 양식에서 배제하고자 하는 제3 영역(E3)을 분류하여 지정할 수 있다.
여기서, 제3 영역에 포함되는 텍스트 영역은, 해당 문서 양식에서 업무에 따라 수시로 변경되는 항목명/설명/비고 등이 포함될 수 있다.
다른 예를 들면, 텍스트 추출부(230)는, 양식 추출에 필요한 하나 이상의 텍스트를 텍스트 영역별로 등록하고, 각각의 텍스트 영역을 등록된 텍스트가 포함된 텍스트 영역과 등록된 텍스트가 포함되지 않은 텍스트 영역을 분류하여, 등록된 텍스트가 포함된 텍스트 영역을 제1 영역으로 지정하고, 등록된 텍스트가 포함되지 않은 텍스트 영역을 제2 영역으로 지정하여, 제1 영역 내에서 텍스트 데이터를 추출할 수 있다.
구체적으로, 텍스트 추출부(230)는, 업무 프로세서 진행을 위한 워크 플로우 중 특정 작업 절차에 매칭되는 웹 문서를 작성하기 위한 문서 양식으로 지정되는 경우, 해당 작업 절차에 매칭된 기존의 다른 문서 양식에서 사용되는 문서 타이틀 및 항목별 키워드가 텍스트 영역별로 자동 등록할 수 있다.
양식 생성부(240)는, 추출된 레이아웃에 제1 영역 내에서 추출된 텍스트 데이터를 반영하여 문서 양식을 생성할 수 있다.
구체적으로, 양식 생성부(240)는, 추출된 레이아웃 데이터를 기반으로 문서 양식의 레이아웃이 자동 작성되도록 하고, 사용자의 입력에 따라 자동 작성된 레이아웃의 편집이 수행되면, 편집된 레이아웃에 제1 영역에서 추출된 텍스트 데이터를 기입하여 문서 양식을 생성할 수 있다.
이때, 양식 생성부(240)는, 레이아웃이 자동 작성된 문서 양식에서 텍스트, 그림, 이미지 등이 기입될 영역의 개수를 조정하거나, 특정 영역의 크기, 위치(배치) 등을 조정하는 방식으로 자동 작성된 레이아웃의 편집할 수 있다.
그리고 양식 생성부(240)는, 각 영역의 개수, 영역별의 크기, 위치(배치)가 조정되면, 제1 영역에서 추출된 텍스트 데이터를 각 영역에 항목명/설명/비고 등으로 기입하여, 문서 양식의 생성 작업을 완료할 수 있다.
도 4는, 본 발명의 일 실시예에 따른 문서 이미지에서 문서 양식을 추출하는 방법의 설명에 제공된 흐름도이다.
본 실시예에 따른 문서 이미지에서 문서 양식을 추출하는 방법은, 도 1 내지 도 3을 참조하여 전술한 시스템에 의해 실행될 수 있다.
도 4를 참조하면, 문서 이미지에서 문서 양식을 추출하는 방법은, 시스템을 통해, 문서 이미지에서 레이아웃 데이터를 추출하고(S410), 문서 이미지에서 하나 이상의 텍스트 영역을 검출하여(S420), 검출되는 하나 이상의 텍스트 영역의 크기 및 위치를 식별할 수 있다(S430).
그리고 문서 이미지에서 문서 양식을 추출하는 방법은, 시스템을 통해, 식별된 각각의 텍스트 영역을 대상으로 양식 추출에 적용되는 제1 영역과 제외되는 제2 영역을 분리하여 지정하고(S440), 제1 영역 내에서 텍스트 데이터를 추출하여(S450), 추출된 레이아웃 데이터에 제1 영역 내에서 추출된 텍스트 데이터를 반영하여 문서 양식을 생성할 수 있다(S460).
이를 통해, 문서 이미지에서 웹 환경에서 작성하거나 편집할 수 있는 웹 문서의 양식을 추출하여, 업무를 진행함에 있어 필요한 다양한 종류 및 양식의 문서 작성에 활용할 수 있어, 업무 처리 효율을 향상시킬 수 있다.
한편, 본 실시예에 따른 장치와 방법의 기능을 수행하게 하는 컴퓨터 프로그램을 수록한 컴퓨터로 읽을 수 있는 기록매체에도 본 발명의 기술적 사상이 적용될 수 있음은 물론이다. 또한, 본 발명의 다양한 실시예에 따른 기술적 사상은 컴퓨터로 읽을 수 있는 기록매체에 기록된 컴퓨터로 읽을 수 있는 코드 형태로 구현될 수도 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터에 의해 읽을 수 있고 데이터를 저장할 수 있는 어떤 데이터 저장 장치이더라도 가능하다. 예를 들어, 컴퓨터로 읽을 수 있는 기록매체는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광디스크, 하드 디스크 드라이브, 등이 될 수 있음은 물론이다. 또한, 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터로 읽을 수 있는 코드 또는 프로그램은 컴퓨터간에 연결된 네트워크를 통해 전송될 수도 있다.
또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
100 : 통신부
200 : 프로세서
210 : 레이아웃 추출부
220 : 텍스트 검출부
230 : 텍스트 추출부
240 : 양식 생성부
300 : 입력부
400 : 출력부
500 : 저장부

Claims (7)

  1. 시스템이, 문서 이미지에서 레이아웃 데이터를 추출하는 단계;
    시스템이, 문서 이미지에서 하나 이상의 텍스트 영역을 검출하는 단계;
    시스템이, 검출되는 하나 이상의 텍스트 영역의 크기 및 위치를 식별하는 단계;
    시스템이, 식별된 각각의 텍스트 영역을 대상으로 양식 추출에 적용되는 제1 영역과 제외되는 제2 영역을 분리하여 지정하는 단계;
    시스템이, 제1 영역 내에서 텍스트 데이터를 추출하는 단계; 및
    시스템이, 추출된 레이아웃 데이터에 제1 영역 내에서 추출된 텍스트 데이터를 반영하여 문서 양식을 생성하는 단계;를 포함하고,
    분리하여 지정하는 단계는,
    각각의 텍스트 영역을 프린트된 텍스트 영역과 수기로 작성된 텍스트 영역으로 분류하는 단계; 및
    프린트된 텍스트 영역을 제1 영역으로 지정하고, 수기로 작성된 텍스트 영역을 제2 영역으로 지정하는 단계;를 포함하며,
    분류하는 단계는,
    텍스트 영역 내 텍스트들을 분석하여 프린트된 활자와 수기로 작성된 활자를 분류하도록 학습된 인공지능 모델을 이용하는 것을 특징으로 하는 문서 이미지에서 문서 양식을 추출하는 방법.
  2. 삭제
  3. 삭제
  4. 청구항 1에 있어서,
    문서 양식을 생성하는 단계는,
    추출된 레이아웃 데이터를 기반으로 문서 양식의 레이아웃이 자동 작성되는 단계;
    사용자의 입력에 따라 자동 작성된 레이아웃의 편집이 수행되는 단계; 및
    편집된 레이아웃에 제1 영역에서 추출된 텍스트 데이터를 기입하여 문서 양식을 생성하는 단계;를 포함하는 것을 특징으로 하는 문서 이미지에서 문서 양식을 추출하는 방법.
  5. 시스템이, 문서 이미지에서 레이아웃 데이터를 추출하는 단계;
    시스템이, 문서 이미지에서 하나 이상의 텍스트 영역을 검출하는 단계;
    시스템이, 검출되는 하나 이상의 텍스트 영역의 크기 및 위치를 식별하는 단계;
    시스템이, 식별된 각각의 텍스트 영역을 대상으로 양식 추출에 적용되는 제1 영역과 제외되는 제2 영역을 분리하여 지정하는 단계;
    시스템이, 제1 영역 내에서 텍스트 데이터를 추출하는 단계; 및
    시스템이, 추출된 레이아웃 데이터에 제1 영역 내에서 추출된 텍스트 데이터를 반영하여 문서 양식을 생성하는 단계;를 포함하고,
    분리하여 지정하는 단계는,
    양식 추출에 필요한 하나 이상의 텍스트를 텍스트 영역별로 등록하는 단계;
    각각의 텍스트 영역을 등록된 텍스트가 포함된 텍스트 영역과 등록된 텍스트가 포함되지 않은 텍스트 영역을 분류하는 단계; 및
    등록된 텍스트가 포함된 텍스트 영역을 제1 영역으로 지정하고, 등록된 텍스트가 포함되지 않은 텍스트 영역을 제2 영역으로 지정하는 단계;를 포함하는 것을 특징으로 하는 문서 이미지에서 문서 양식을 추출하는 방법.
  6. 청구항 5에 있어서,
    등록하는 단계는,
    업무 프로세서 진행을 위한 워크 플로우 중 특정 작업 절차에 매칭되는 웹 문서를 작성하기 위한 문서 양식으로 지정되는 경우, 해당 작업 절차에 매칭된 기존의 다른 문서 양식에서 사용되는 문서 타이틀 및 항목별 키워드가 텍스트 영역별로 자동 등록되는 것을 특징으로 하는 문서 이미지에서 문서 양식을 추출하는 방법.
  7. 문서 이미지에서 레이아웃 데이터를 추출하는 레이아웃 추출부;
    문서 이미지에서 하나 이상의 텍스트 영역을 검출하고, 검출되는 하나 이상의 텍스트 영역의 크기 및 위치를 식별하는 텍스트 검출부;
    각각의 텍스트 영역을 대상으로 양식 추출에 적용되는 제1 영역과 제외되는 제2 영역을 분리하여 지정하고, 제1 영역 내에서 텍스트 데이터를 추출하는 텍스트 추출부; 및
    추출된 레이아웃에 제1 영역 내에서 추출된 텍스트 데이터를 반영하여 문서 양식을 생성하는 양식 생성부;를 포함하며,
    텍스트 추출부는,
    상기 제1 영역과 제2 영역을 분리하여 지정하는 경우, 각각의 텍스트 영역을 프린트된 텍스트 영역과 수기로 작성된 텍스트 영역으로 분류하고,
    프린트된 텍스트 영역을 제1 영역으로 지정하고, 수기로 작성된 텍스트 영역을 제2 영역으로 지정하며,
    텍스트 추출부는,
    텍스트 영역 내 텍스트들을 분석하여 프린트된 활자와 수기로 작성된 활자를 분류하도록 학습된 인공지능 모델을 이용하는 것을 특징으로 하는 문서 이미지에서 문서 양식을 추출하는 시스템.
KR1020220124850A 2022-09-30 2022-09-30 문서 이미지에서 문서 양식을 추출하는 방법 및 시스템 KR102572130B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220124850A KR102572130B1 (ko) 2022-09-30 2022-09-30 문서 이미지에서 문서 양식을 추출하는 방법 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220124850A KR102572130B1 (ko) 2022-09-30 2022-09-30 문서 이미지에서 문서 양식을 추출하는 방법 및 시스템

Publications (1)

Publication Number Publication Date
KR102572130B1 true KR102572130B1 (ko) 2023-08-28

Family

ID=87806352

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220124850A KR102572130B1 (ko) 2022-09-30 2022-09-30 문서 이미지에서 문서 양식을 추출하는 방법 및 시스템

Country Status (1)

Country Link
KR (1) KR102572130B1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080044658A (ko) * 2006-11-17 2008-05-21 삼성전자주식회사 양식의 추출 시스템 및 방법
KR20220005745A (ko) 2020-07-07 2022-01-14 김밀알 이미지에서 문서 작성에 적합한 서식을 추출하는 전자 장치 및 그 동작 방법
KR102435844B1 (ko) * 2021-12-02 2022-08-24 (주)아데나 이미지 데이터 추출 기반의 템플릿 제공 시스템

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080044658A (ko) * 2006-11-17 2008-05-21 삼성전자주식회사 양식의 추출 시스템 및 방법
KR20220005745A (ko) 2020-07-07 2022-01-14 김밀알 이미지에서 문서 작성에 적합한 서식을 추출하는 전자 장치 및 그 동작 방법
KR102435844B1 (ko) * 2021-12-02 2022-08-24 (주)아데나 이미지 데이터 추출 기반의 템플릿 제공 시스템

Similar Documents

Publication Publication Date Title
JP5050075B2 (ja) 画像判別方法
US8155444B2 (en) Image text to character information conversion
US8494280B2 (en) Automated method for extracting highlighted regions in scanned source
US7703001B2 (en) Media storing a program to extract and classify annotation data, and apparatus and method for processing annotation data
Shahab et al. An open approach towards the benchmarking of table structure recognition systems
CA2077274C (en) Method and apparatus for summarizing a document without document image decoding
US5960448A (en) System and method for displaying a graphically enhanced view of a region of a document image in which the enhanced view is correlated with text derived from the document image
US6600834B1 (en) Handwriting information processing system with character segmentation user interface
JP3282860B2 (ja) 文書上のテキストのデジタル画像を処理する装置
Déjean et al. A system for converting PDF documents into structured XML format
JP4785655B2 (ja) 文書処理装置及び文書処理方法
JP6838209B1 (ja) 文書画像解析装置、文書画像解析方法およびプログラム
CN105635507A (zh) 图像扫描装置和用于控制其的方法
WO2000052645A1 (fr) Dispositif de traitement d'image document, procede d'extraction de titre de document et procede d'information d'etiquetage de document
JP2008145611A (ja) 情報処理装置、プログラム
JP2006221569A (ja) 文書処理システム、文書処理方法、プログラムおよび記憶媒体
JP2008129793A (ja) 文書処理システムおよび装置および方法、およびプログラムを記録した記録媒体
US9798711B2 (en) Method and system for generating a graphical organization of a page
JPH11184894A (ja) 論理要素抽出方法および記録媒体
JP6856916B1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
KR102572130B1 (ko) 문서 이미지에서 문서 양식을 추출하는 방법 및 시스템
Calvo-Zaragoza et al. Document analysis for music scores via machine learning
JP2000322417A (ja) 画像ファイリング装置及び方法及び記憶媒体
Vats et al. On-the-fly historical handwritten text annotation
Madan et al. Parsing and summarizing infographics with synthetically trained icon detection

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant