KR102572130B1

KR102572130B1 - 문서 이미지에서 문서 양식을 추출하는 방법 및 시스템

Info

Publication number: KR102572130B1
Application number: KR1020220124850A
Authority: KR
Inventors: 박상일
Original assignee: 에스케이 주식회사
Priority date: 2022-09-30
Filing date: 2022-09-30
Publication date: 2023-08-28

Abstract

문서 이미지에서 웹 환경에서 작성하거나 편집할 수 있는 웹 문서의 양식을 추출하는 방법 및 시스템이 제공된다. 본 발명의 실시예에 따른 문서 이미지에서 문서 양식을 추출하는 방법은, 시스템이, 문서 이미지에서 레이아웃 데이터를 추출하는 단계; 시스템이, 문서 이미지에서 하나 이상의 텍스트 영역을 검출하는 단계; 시스템이, 검출되는 하나 이상의 텍스트 영역의 크기 및 위치를 식별하는 단계; 시스템이, 식별된 각각의 텍스트 영역을 대상으로 양식 추출에 적용되는 제1 영역과 제외되는 제2 영역을 분리하여 지정하는 단계; 시스템이, 제1 영역 내에서 텍스트 데이터를 추출하는 단계; 및 시스템이, 추출된 레이아웃 데이터에 제1 영역 내에서 추출된 텍스트 데이터를 반영하여 문서 양식을 생성하는 단계;를 포함한다. 이에 의해, 문서 이미지에서 웹 환경에서 작성하거나 편집할 수 있는 웹 문서의 양식을 추출하여, 업무를 진행함에 있어 필요한 다양한 종류 및 양식의 문서 작성에 활용할 수 있어, 업무 처리 효율을 향상시킬 수 있다.

Description

문서 이미지에서 문서 양식을 추출하는 방법 및 시스템{Method and system for extracting document form from document image}

본 발명은 문서 양식 추출 방법 및 시스템에 관한 것으로, 더욱 상세하게는 문서 이미지에서 웹 환경에서 작성하거나 편집할 수 있는 웹 문서의 양식을 추출하는 방법 및 시스템에 관한 것이다.

보편적으로 기업에서 특정 업무를 수행하기 위해 하나의 업무를 각각의 단계로 나누어 관리하는 방식이 주를 이루었다.

이러한 경우, 동일한 업무를 구성하는 각각의 작업 절차는, 업무를 진행함에 있어 필요한 자료가 각 단계별로 유기적으로 연결될 수 있으나, 각각의 작업 절차에서 필요로 하는 문서의 종류나 양식이 달라질 수 있다.

기존에는 각각의 작업 절차에서 필요로 하는 문서의 종류나 양식에 따라 각각의 문서를 개별적으로 작성하여 관리하였으나, 이를 위해 별도의 작업을 필요로 하게 되는 문제점이 존재한다.

삭제

한국공개특허 제10-2022-0005745호(발명의 명칭: 이미지에서 문서 작성에 적합한 서식을 추출하는 전자 장치 및 그 동작 방법)

본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, 문서 이미지에서 웹 환경에서 작성하거나 편집할 수 있는 웹 문서의 양식을 추출하는 방법 및 시스템을 제공함에 있다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 문서 이미지에서 문서 양식을 추출하는 방법은, 시스템이, 문서 이미지에서 레이아웃 데이터를 추출하는 단계; 시스템이, 문서 이미지에서 하나 이상의 텍스트 영역을 검출하는 단계; 시스템이, 검출되는 하나 이상의 텍스트 영역의 크기 및 위치를 식별하는 단계; 시스템이, 식별된 각각의 텍스트 영역을 대상으로 양식 추출에 적용되는 제1 영역과 제외되는 제2 영역을 분리하여 지정하는 단계; 시스템이, 제1 영역 내에서 텍스트 데이터를 추출하는 단계; 및 시스템이, 추출된 레이아웃 데이터에 제1 영역 내에서 추출된 텍스트 데이터를 반영하여 문서 양식을 생성하는 단계;를 포함한다.

그리고 분리하여 지정하는 단계는, 각각의 텍스트 영역을 프린트된 텍스트 영역과 수기로 작성된 텍스트 영역으로 분류하는 단계; 및 프린트된 텍스트 영역을 제1 영역으로 지정하고, 수기로 작성된 텍스트 영역을 제2 영역으로 지정하는 단계;를 포함할 수 있다.

또한, 분류하는 단계는, 텍스트 영역 내 텍스트들을 분석하여 프린트된 활자와 수기로 작성된 활자를 분류하도록 학습된 인공지능 모델을 이용할 수 있다.

그리고 문서 양식을 생성하는 단계는, 추출된 레이아웃 데이터를 기반으로 문서 양식의 레이아웃이 자동 작성되는 단계; 사용자의 입력에 따라 자동 작성된 레이아웃의 편집이 수행되는 단계; 및 편집된 레이아웃에 제1 영역에서 추출된 텍스트 데이터를 기입하여 문서 양식을 생성하는 단계;를 포함할 수 있다.

또한, 분리하여 지정하는 단계는, 양식 추출에 필요한 하나 이상의 텍스트를 텍스트 영역별로 등록하는 단계; 각각의 텍스트 영역을 등록된 텍스트가 포함된 텍스트 영역과 등록된 텍스트가 포함되지 않은 텍스트 영역을 분류하는 단계; 및 등록된 텍스트가 포함된 텍스트 영역을 제1 영역으로 지정하고, 등록된 텍스트가 포함되지 않은 텍스트 영역을 제2 영역으로 지정하는 단계;를 포함할 수 있다.

그리고 등록하는 단계는, 업무 프로세서 진행을 위한 워크 플로우 중 특정 작업 절차에 매칭되는 웹 문서를 작성하기 위한 문서 양식으로 지정되는 경우, 해당 작업 절차에 매칭된 기존의 다른 문서 양식에서 사용되는 문서 타이틀 및 항목별 키워드가 텍스트 영역별로 자동 등록될 수 있다.

한편, 본 발명의 다른 실시예에 따른, 문서 이미지에서 문서 양식을 추출하는 시스템은, 문서 이미지에서 레이아웃 데이터를 추출하는 레이아웃 추출부; 문서 이미지에서 하나 이상의 텍스트 영역을 검출하고, 검출되는 하나 이상의 텍스트 영역의 크기 및 위치를 식별하는 텍스트 검출부; 각각의 텍스트 영역을 대상으로 양식 추출에 적용되는 제1 영역과 제외되는 제2 영역을 분리하여 지정하고, 제1 영역 내에서 텍스트 데이터를 추출하는 텍스트 추출부; 및 추출된 레이아웃에 제1 영역 내에서 추출된 텍스트 데이터를 반영하여 문서 양식을 생성하는 양식 생성부;를 포함한다.

이상 설명한 바와 같이, 본 발명의 실시예들에 따르면, 문서 이미지에서 웹 환경에서 작성하거나 편집할 수 있는 웹 문서의 양식을 추출하여, 업무를 진행함에 있어 필요한 다양한 종류 및 양식의 문서 작성에 활용할 수 있어, 업무 처리 효율을 향상시킬 수 있다.

도 1은, 본 발명의 일 실시예에 따른 문서 이미지에서 문서 양식을 추출하는 시스템의 구성 설명에 제공된 도면,
도 2는, 상기 도 1에 도시된 프로세서의 더욱 상세한 설명에 제공된 도면,
도 3은, 본 발명의 일 실시예에 따른 문서 이미지에서 하나 이상의 텍스트 영역이 검출된 화면이 예시된 도면, 그리고
도 4는, 본 발명의 일 실시예에 따른 문서 이미지에서 문서 양식을 추출하는 방법의 설명에 제공된 흐름도이다.

이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.

도 1은, 본 발명의 일 실시예에 따른 문서 이미지에서 문서 양식을 추출하는 시스템의 구성 설명에 제공된 도면이다.

도 1을 참조하면, 본 실시예에 따른 문서 이미지에서 문서 양식을 추출하는 시스템(이하에서는 '시스템'으로 총칭하기로 함)은, 통신부(100), 프로세서(200), 입력부(300), 출력부(400) 및 저장부(500)를 포함한다.

통신부(100)는, 시스템이 외부와 통신 네트워크로 연결되도록 하기 위한 통신 수단이고, 입력부(300)는, 마우스, 키보드, 스캐너 등 사용자의 입력을 수신하는 입력 인터페이스 장치를 구비할 수 있다.

출력부(400)는, 프로세서(200)가 동작하여 출력하고자 하는 정보들을 화면에 출력하는 디스플레이 수단이고, 저장부(500)는, 프로세서(200)가 동작함에 있어 필요한 프로그램 및 데이터를 저장하는 저장매체이다.

프로세서(200)는, 시스템의 제반사항을 처리하기 위해 마련된다.

예를 들면, 프로세서(200)는, 문서 이미지에서 레이아웃 데이터를 추출하고, 문서 이미지에서 하나 이상의 텍스트 영역을 검출하여, 검출되는 하나 이상의 텍스트 영역의 크기 및 위치를 식별할 수 있다.

여기서, 레이아웃 데이터는, 문서 내 페이지의 텍스트 데이터가 기입되는 전체 분할되는 영역의 개수 및 분할된 각 영역의 크기 및 위치(배치) 등에 대한 정보가 포함될 수 있다.

그리고 프로세서(200)는, 식별된 각각의 텍스트 영역을 대상으로 양식 추출에 적용되는 제1 영역과 제외되는 제2 영역을 분리하여 지정하고, 제1 영역 내에서 텍스트 데이터를 추출하여, 추출된 레이아웃 데이터에 제1 영역 내에서 추출된 텍스트 데이터를 반영하여 문서 양식을 생성할 수 있다.

도 2는, 상기 도 1에 도시된 프로세서의 더욱 상세한 설명에 제공된 도면이고, 도 3은, 본 발명의 일 실시예에 따른 문서 이미지에서 하나 이상의 텍스트 영역이 검출된 화면이 예시된 도면이다.

도 2를 참조하면, 프로세서(200)는, 레이아웃 추출부(210), 텍스트 검출부(220), 텍스트 추출부(230) 및 양식 생성부(240)를 포함할 수 있다.

레이아웃 추출부(210)는, 문서 이미지에서 레이아웃 데이터를 추출할 수 있다.

텍스트 검출부(220)는, 문서 이미지에서 하나 이상의 텍스트 영역을 검출하고, 검출되는 하나 이상의 텍스트 영역의 크기 및 위치를 식별하여, 식별 결과를 텍스트 추출부(230)에 전달할 수 있다.

텍스트 추출부(230)는, 각각의 텍스트 영역을 대상으로 양식 추출에 적용되는 제1 영역과 제외되는 제2 영역을 분리하여 지정하고, 제1 영역 내에서 텍스트 데이터를 추출할 수 있다.

예를 들면, 텍스트 추출부(230)는, 각각의 텍스트 영역을 프린트된 텍스트 영역과 수기로 작성된 텍스트 영역으로 분류하고, 프린트된 텍스트 영역을 제1 영역으로 지정하고, 수기로 작성된 텍스트 영역을 제2 영역으로 지정하여, 제1 영역으로 지정된 프린트된 텍스트 영역 내에서 텍스트 데이터를 추출할 수 있다.

이때, 텍스트 추출부(230)는, 텍스트 영역 내 텍스트들을 분석하여 프린트된 활자와 수기로 작성된 활자를 분류하도록 학습된 인공지능 모델을 이용하여, 각각의 텍스트 영역을 프린트된 텍스트 영역과 수기로 작성된 텍스트 영역으로 분류할 수 있다.

여기서, 해당 인공지능 모델은, 텍스트 영역 내 텍스트들의 활자 크기, 기울기, 활자 간 간격 등을 분석하여 프린트된 활자와 수기로 작성된 활자를 분류하도록 학습된 인공지능 모델일 수 있다.

그리고 텍스트 추출부(230)는, 인공지능 모델을 이용하여, 각각의 텍스트 영역을 프린트된 텍스트 영역과 수기로 작성된 텍스트 영역으로 분류한 이후, 사용자의 입력에 따라 프린트된 텍스트 영역들 중 특정 텍스트 영역을 문서 양식에 반영하고자 하는 제1 영역이 아닌 문서 양식에서 배제하고자 하는 제3 영역으로 지정하여, 텍스트 데이터 추출에서 배제할 수 있다.

즉, 텍스트 추출부(230)는, 프린트된 텍스트 영역을 모두 제1 영역으로 분류하는 것이 아니라, 사용자의 입력에 따라 문서 양식에 반영하고자 하는 제1 영역과 문서 양식에서 배제하고자 하는 제3 영역으로 분류하여 지정할 수 있다.

예를 들면, 텍스트 추출부(230)는, 도 3에 예시된 바와 같이 출력부를 통해 출력되는 화면에, 문서 이미지에서 검출된 복수의 텍스트 영역이 출력되도록 할 수 있다.

이때, 검출된 복수의 텍스트 영역은, 인공지능 모델에 의해 프린트된 텍스트 영역으로 분류되는 영역(E1)과 수기로 작성된 텍스트 영역(E2)으로 분류되어, 분류 결과가 화면에 출력될 수 있다.

그리고 사용자는, 입력부를 통해, 프린트된 텍스트 영역으로 분류된 영역들 중 문서 양식에 반영하고자 하는 제1 영역(E1)으로 지정할 영역과 문서 양식에서 배제하고자 하는 제3 영역(E3)을 분류하여 지정할 수 있다.

여기서, 제3 영역에 포함되는 텍스트 영역은, 해당 문서 양식에서 업무에 따라 수시로 변경되는 항목명/설명/비고 등이 포함될 수 있다.

다른 예를 들면, 텍스트 추출부(230)는, 양식 추출에 필요한 하나 이상의 텍스트를 텍스트 영역별로 등록하고, 각각의 텍스트 영역을 등록된 텍스트가 포함된 텍스트 영역과 등록된 텍스트가 포함되지 않은 텍스트 영역을 분류하여, 등록된 텍스트가 포함된 텍스트 영역을 제1 영역으로 지정하고, 등록된 텍스트가 포함되지 않은 텍스트 영역을 제2 영역으로 지정하여, 제1 영역 내에서 텍스트 데이터를 추출할 수 있다.

구체적으로, 텍스트 추출부(230)는, 업무 프로세서 진행을 위한 워크 플로우 중 특정 작업 절차에 매칭되는 웹 문서를 작성하기 위한 문서 양식으로 지정되는 경우, 해당 작업 절차에 매칭된 기존의 다른 문서 양식에서 사용되는 문서 타이틀 및 항목별 키워드가 텍스트 영역별로 자동 등록할 수 있다.

양식 생성부(240)는, 추출된 레이아웃에 제1 영역 내에서 추출된 텍스트 데이터를 반영하여 문서 양식을 생성할 수 있다.

구체적으로, 양식 생성부(240)는, 추출된 레이아웃 데이터를 기반으로 문서 양식의 레이아웃이 자동 작성되도록 하고, 사용자의 입력에 따라 자동 작성된 레이아웃의 편집이 수행되면, 편집된 레이아웃에 제1 영역에서 추출된 텍스트 데이터를 기입하여 문서 양식을 생성할 수 있다.

이때, 양식 생성부(240)는, 레이아웃이 자동 작성된 문서 양식에서 텍스트, 그림, 이미지 등이 기입될 영역의 개수를 조정하거나, 특정 영역의 크기, 위치(배치) 등을 조정하는 방식으로 자동 작성된 레이아웃의 편집할 수 있다.

그리고 양식 생성부(240)는, 각 영역의 개수, 영역별의 크기, 위치(배치)가 조정되면, 제1 영역에서 추출된 텍스트 데이터를 각 영역에 항목명/설명/비고 등으로 기입하여, 문서 양식의 생성 작업을 완료할 수 있다.

도 4는, 본 발명의 일 실시예에 따른 문서 이미지에서 문서 양식을 추출하는 방법의 설명에 제공된 흐름도이다.

본 실시예에 따른 문서 이미지에서 문서 양식을 추출하는 방법은, 도 1 내지 도 3을 참조하여 전술한 시스템에 의해 실행될 수 있다.

도 4를 참조하면, 문서 이미지에서 문서 양식을 추출하는 방법은, 시스템을 통해, 문서 이미지에서 레이아웃 데이터를 추출하고(S410), 문서 이미지에서 하나 이상의 텍스트 영역을 검출하여(S420), 검출되는 하나 이상의 텍스트 영역의 크기 및 위치를 식별할 수 있다(S430).

그리고 문서 이미지에서 문서 양식을 추출하는 방법은, 시스템을 통해, 식별된 각각의 텍스트 영역을 대상으로 양식 추출에 적용되는 제1 영역과 제외되는 제2 영역을 분리하여 지정하고(S440), 제1 영역 내에서 텍스트 데이터를 추출하여(S450), 추출된 레이아웃 데이터에 제1 영역 내에서 추출된 텍스트 데이터를 반영하여 문서 양식을 생성할 수 있다(S460).

이를 통해, 문서 이미지에서 웹 환경에서 작성하거나 편집할 수 있는 웹 문서의 양식을 추출하여, 업무를 진행함에 있어 필요한 다양한 종류 및 양식의 문서 작성에 활용할 수 있어, 업무 처리 효율을 향상시킬 수 있다.

한편, 본 실시예에 따른 장치와 방법의 기능을 수행하게 하는 컴퓨터 프로그램을 수록한 컴퓨터로 읽을 수 있는 기록매체에도 본 발명의 기술적 사상이 적용될 수 있음은 물론이다. 또한, 본 발명의 다양한 실시예에 따른 기술적 사상은 컴퓨터로 읽을 수 있는 기록매체에 기록된 컴퓨터로 읽을 수 있는 코드 형태로 구현될 수도 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터에 의해 읽을 수 있고 데이터를 저장할 수 있는 어떤 데이터 저장 장치이더라도 가능하다. 예를 들어, 컴퓨터로 읽을 수 있는 기록매체는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광디스크, 하드 디스크 드라이브, 등이 될 수 있음은 물론이다. 또한, 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터로 읽을 수 있는 코드 또는 프로그램은 컴퓨터간에 연결된 네트워크를 통해 전송될 수도 있다.

또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

100 : 통신부
200 : 프로세서
210 : 레이아웃 추출부
220 : 텍스트 검출부
230 : 텍스트 추출부
240 : 양식 생성부
300 : 입력부
400 : 출력부
500 : 저장부

Claims

시스템이, 문서 이미지에서 레이아웃 데이터를 추출하는 단계;
시스템이, 문서 이미지에서 하나 이상의 텍스트 영역을 검출하는 단계;
시스템이, 검출되는 하나 이상의 텍스트 영역의 크기 및 위치를 식별하는 단계;
시스템이, 식별된 각각의 텍스트 영역을 대상으로 양식 추출에 적용되는 제1 영역과 제외되는 제2 영역을 분리하여 지정하는 단계;
시스템이, 제1 영역 내에서 텍스트 데이터를 추출하는 단계; 및
시스템이, 추출된 레이아웃 데이터에 제1 영역 내에서 추출된 텍스트 데이터를 반영하여 문서 양식을 생성하는 단계;를 포함하고,
분리하여 지정하는 단계는,
각각의 텍스트 영역을 프린트된 텍스트 영역과 수기로 작성된 텍스트 영역으로 분류하는 단계; 및
프린트된 텍스트 영역을 제1 영역으로 지정하고, 수기로 작성된 텍스트 영역을 제2 영역으로 지정하는 단계;를 포함하며,
분류하는 단계는,
텍스트 영역 내 텍스트들을 분석하여 프린트된 활자와 수기로 작성된 활자를 분류하도록 학습된 인공지능 모델을 이용하는 것을 특징으로 하는 문서 이미지에서 문서 양식을 추출하는 방법.
삭제
삭제
청구항 1에 있어서,
문서 양식을 생성하는 단계는,
추출된 레이아웃 데이터를 기반으로 문서 양식의 레이아웃이 자동 작성되는 단계;
사용자의 입력에 따라 자동 작성된 레이아웃의 편집이 수행되는 단계; 및
편집된 레이아웃에 제1 영역에서 추출된 텍스트 데이터를 기입하여 문서 양식을 생성하는 단계;를 포함하는 것을 특징으로 하는 문서 이미지에서 문서 양식을 추출하는 방법.
시스템이, 문서 이미지에서 레이아웃 데이터를 추출하는 단계;
시스템이, 문서 이미지에서 하나 이상의 텍스트 영역을 검출하는 단계;
시스템이, 검출되는 하나 이상의 텍스트 영역의 크기 및 위치를 식별하는 단계;
시스템이, 식별된 각각의 텍스트 영역을 대상으로 양식 추출에 적용되는 제1 영역과 제외되는 제2 영역을 분리하여 지정하는 단계;
시스템이, 제1 영역 내에서 텍스트 데이터를 추출하는 단계; 및
시스템이, 추출된 레이아웃 데이터에 제1 영역 내에서 추출된 텍스트 데이터를 반영하여 문서 양식을 생성하는 단계;를 포함하고,
분리하여 지정하는 단계는,
양식 추출에 필요한 하나 이상의 텍스트를 텍스트 영역별로 등록하는 단계;
각각의 텍스트 영역을 등록된 텍스트가 포함된 텍스트 영역과 등록된 텍스트가 포함되지 않은 텍스트 영역을 분류하는 단계; 및
등록된 텍스트가 포함된 텍스트 영역을 제1 영역으로 지정하고, 등록된 텍스트가 포함되지 않은 텍스트 영역을 제2 영역으로 지정하는 단계;를 포함하는 것을 특징으로 하는 문서 이미지에서 문서 양식을 추출하는 방법.
청구항 5에 있어서,
등록하는 단계는,
업무 프로세서 진행을 위한 워크 플로우 중 특정 작업 절차에 매칭되는 웹 문서를 작성하기 위한 문서 양식으로 지정되는 경우, 해당 작업 절차에 매칭된 기존의 다른 문서 양식에서 사용되는 문서 타이틀 및 항목별 키워드가 텍스트 영역별로 자동 등록되는 것을 특징으로 하는 문서 이미지에서 문서 양식을 추출하는 방법.
문서 이미지에서 레이아웃 데이터를 추출하는 레이아웃 추출부;
문서 이미지에서 하나 이상의 텍스트 영역을 검출하고, 검출되는 하나 이상의 텍스트 영역의 크기 및 위치를 식별하는 텍스트 검출부;
각각의 텍스트 영역을 대상으로 양식 추출에 적용되는 제1 영역과 제외되는 제2 영역을 분리하여 지정하고, 제1 영역 내에서 텍스트 데이터를 추출하는 텍스트 추출부; 및
추출된 레이아웃에 제1 영역 내에서 추출된 텍스트 데이터를 반영하여 문서 양식을 생성하는 양식 생성부;를 포함하며,
텍스트 추출부는,
상기 제1 영역과 제2 영역을 분리하여 지정하는 경우, 각각의 텍스트 영역을 프린트된 텍스트 영역과 수기로 작성된 텍스트 영역으로 분류하고,
프린트된 텍스트 영역을 제1 영역으로 지정하고, 수기로 작성된 텍스트 영역을 제2 영역으로 지정하며,
텍스트 추출부는,
텍스트 영역 내 텍스트들을 분석하여 프린트된 활자와 수기로 작성된 활자를 분류하도록 학습된 인공지능 모델을 이용하는 것을 특징으로 하는 문서 이미지에서 문서 양식을 추출하는 시스템.