KR20240079054A - 전자 서식 문서 생성 장치 - Google Patents

전자 서식 문서 생성 장치 Download PDF

Info

Publication number
KR20240079054A
KR20240079054A KR1020220161970A KR20220161970A KR20240079054A KR 20240079054 A KR20240079054 A KR 20240079054A KR 1020220161970 A KR1020220161970 A KR 1020220161970A KR 20220161970 A KR20220161970 A KR 20220161970A KR 20240079054 A KR20240079054 A KR 20240079054A
Authority
KR
South Korea
Prior art keywords
cell
area
item
cells
application
Prior art date
Application number
KR1020220161970A
Other languages
English (en)
Inventor
강상훈
Original Assignee
강상훈
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 강상훈 filed Critical 강상훈
Priority to KR1020220161970A priority Critical patent/KR20240079054A/ko
Publication of KR20240079054A publication Critical patent/KR20240079054A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Character Input (AREA)

Abstract

본 발명은 전자 서식 문서 생성 장치에 관한 것으로서, 복수의 항목들이 레이아웃 구조로 배열된 표 서식에 기반하여 항목별 내용이 작성된 신청서를 스캔 입력받아 이미지 파일로 변환한 신청서 이미지를 생성하여 저장하는 신청서 입력부와, 기설정된 딥러닝 기반 검출 알고리즘에 기초하여 상기 신청서 이미지에 포함된 표 영역을 검출하고 상기 표 영역의 아웃라인 및 내부 셀 라인에 대응하는 표 라인 정보를 생성하는 표 영역 검출 모듈과, 상기 표 영역의 검출 결과와 상기 신청서 이미지에 기초하여 상기 표 영역에 포함되는 복수의 셀들에 대한 셀 영역을 검출하고, 각 셀 영역별 위치 및 크기와 문자열 포함 여부를 인접 셀과 비교한 결과에 따라 상기 복수의 셀들을 각각 항목셀과 내용셀 중 하나로 구분하는 항목 인식 모듈과, 생성된 상기 표 라인 정보와 상기 항목셀에 대응하는 항목 문자열 정보를 이용하여 상기 표 서식에 대응하는 서식 문서를 전자 문서 형태로 생성하는 서식 문서 생성부를 포함하는 것을 특징으로 한다.
이에 따라, 이미 작성된 종이 문서 형태의 신청서를 단순히 스캔 입력하는 것만으로 해당 신청서의 내용이 공란으로 되어있는 전자 서식 문서를 자동으로 생성 가능하여 별도 문서 작업 없이 원하는 서류 양식을 즉각적으로 마련할 수 있는 효과가 있다.

Description

전자 서식 문서 생성 장치{APPARATUS FOR GENERATING ELECTRONIC FORM DOCUMENT}
본 발명은 딥러닝 기술을 기반으로 이미 작성된 신청서를 이용하여 내용이 공란으로 되어 있는 초기 상태의 전자 서식 문서를 생성하는 전자 서식 문서 생성 장치에 관한 것이다.
최근 들어, 컴퓨터가 보급되고 인터넷 기술이 급속도로 발전함에 따라 기업 간이나 기업과 고객 간에 전자서식으로 작성된 전자 문서인 전자서식문서를 이용하여 거래하는 경우가 증가하고 있다.
즉, 기업 간이나 기업과 고객 간에 업무를 처리하는데 있어서 종이로 된 문서를 교환하여 처리하는 방식에서 벗어나 전자서식문서를 사용하여 사업 주체 간에 거래 활동을 수행할 수 있으며, 전자서식문서는 워드, 한글이나 훈민정음 등의 오피스 문서를 PDF(Portable Document Format) 형태의 문서로 변환하여 사용할 수 있다.
그러나, 전자서식문서는 출력 형태가 이미지 형태이므로 전자서식문서에 데이터를 삽입하는 등의 편집을 수행하고자 할 경우, 삽입되는 데이터를 기본적인 XML(Extensible Markup Language) 형태로 제공받아 이를 다시 PDF 형태로 변환해야 하기 때문에 데이터를 삽입하는 과정이 번거롭고 어려운 문제점이 있었다.
특히, PDF 형태의 문서는 PDF 편집 기능을 가지는 유료 편집툴을 별도로 구매해서 이용하는 경우 외에는 수정 자체가 불가능하여 해당 문서의 표 양식을 그대로 이용하고 특정 값만 변경하고자 할 때에도 동일한 양식의 문서를 새로 만들어야 하는 불편함이 있다.
KR 10-0710568 B1 KR 10-2007-0067020 A
본 발명의 목적은 상기 문제점을 해결하기 위한 것으로서, 딥러닝 기술을 기반으로 이미 작성된 신청서를 이용하여 내용이 공란으로 되어 있는 초기 상태의 전자 서식 문서를 생성하는 전자 서식 문서 생성 장치를 제공하는 것을 목적으로 한다.
상기와 같은 목적을 달성하기 위한 본 발명의 일면에 따른 전자 서식 문서 생성 장치는, 복수의 항목들이 레이아웃 구조로 배열된 표 서식에 기반하여 항목별 내용이 작성된 신청서를 스캔 입력받아 이미지 파일로 변환한 신청서 이미지를 생성하여 저장하는 신청서 입력부와, 기설정된 딥러닝 기반 검출 알고리즘에 기초하여 상기 신청서 이미지에 포함된 표 영역을 검출하고 상기 표 영역의 아웃라인 및 내부 셀 라인에 대응하는 표 라인 정보를 생성하는 표 영역 검출 모듈과, 상기 표 영역의 검출 결과와 상기 신청서 이미지에 기초하여 상기 표 영역에 포함되는 복수의 셀들에 대한 셀 영역을 검출하고, 각 셀 영역별 위치 및 크기와 문자열 포함 여부를 인접 셀과 비교한 결과에 따라 상기 복수의 셀들을 각각 항목셀과 내용셀 중 하나로 구분하는 항목 인식 모듈과, 생성된 상기 표 라인 정보와 상기 항목셀에 대응하는 항목 문자열 정보를 이용하여 상기 표 서식에 대응하는 서식 문서를 전자 문서 형태로 생성하는 서식 문서 생성부를 포함하는 것을 특징으로 한다.
바람직하게는, 상기 표 영역 검출 모듈은, 기설정된 에지 검출 알고리즘을 통해 상기 신청서 이미지에 포함된 표 영역의 경계에 해당하는 복수의 윤곽선들을 검출하는 경계선 검출부와, 검출된 상기 복수의 윤곽선들에 대하여 기설정된 벡터 단순화 알고리즘을 적용하여 복수 개의 연속된 선분 형태로 단순화시킨 후 서로 인접한 선분 간의 교차점을 꼭지점으로 검출하는 꼭지점 검출부와, 가로 방향 또는 세로 방향으로 인접한 상기 꼭지점들을 연결한 선분들에 대응하는 표 라인 정보를 생성하여 저장하는 표 라인 정보 생성부를 포함하는 것을 특징으로 한다.
바람직하게는, 상기 항목 인식 모듈은, 상기 표 영역에 포함되는 복수의 셀들에 대응하는 복수의 셀 영역들을 검출하는 셀 영역 검출부와, 상기 복수의 셀 영역들 각각에 포함된 텍스트 문자열을 추출하는 문자열 추출부와, 상기 신청서 이미지상에서 상기 복수의 셀 영역들이 각각 검출된 위치의 픽셀 좌표를 해당 셀 영역의 위치 정보로 획득하는 셀 위치 획득부와, 각각의 상기 셀 영역과 이에 대한 인접 셀 영역에 각각 대응하는 텍스트 문자열의 길이와 셀 면적 크기 중 적어도 하나를 상호 비교한 결과에 따라 해당 셀 영역을 항목셀과 내용셀 중 하나로 구분하는 셀 영역 구분부를 포함하는 것을 특징으로 한다.
또한, 상기 셀 영역 구분부는, 제1 셀 영역이 상기 항목셀로 구분되는 경우, 상기 제1 셀 영역에 대한 행렬 인덱스 정보에 기초하여 동일한 행 또는 열에 위치하는 복수의 제2 셀 영역들과 상기 제1 셀 영역의 가로 또는 세로 길이를 상호 비교하여 일치 여부를 확인하고, 일치하는 경우의 상기 제2 셀 영역에 대응하는 텍스트 문자열이 기저장된 항목 명칭 DB에 포함되는지 여부에 따라 각각의 상기 제2 셀 영역을 상기 항목셀과 상기 내용셀 중 하나로 구분하는 것을 특징으로 한다.
본 발명에 따르면, 이미 작성된 종이 문서 형태의 신청서를 단순히 스캔 입력하는 것만으로 해당 신청서의 내용이 공란으로 되어있는 전자 서식 문서를 자동으로 생성 가능하여 별도 문서 작업 없이 원하는 서류 양식을 즉각적으로 마련할 수 있는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 전자 서식 문서 생성 장치의 개략적인 구성을 나타낸 블록도이고,
도 2는 도 1의 표 영역 검출 모듈 및 항목 인식 모듈 각각의 세부 구성을 상세히 나타낸 블록도이고,
도 3은 본 발명의 일 실시예에 따른 전자 서식 문서 생성 장치에 의해 신청서 이미지로부터 표 영역 및 항목 문자열을 검출하여 서식 문서를 생성하는 과정을 설명하기 위한 도면이다.
이상과 같은 본 발명에 대한 해결하려는 과제, 과제의 해결수단, 발명의 효과를 포함한 구체적인 사항들은 다음에 기재할 실시예 및 도면에 포함되어 있다. 본 발명의 이점 및 특징, 그리고 그것을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예를 참조하면 명확해질 것이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
도 1은 본 발명의 일 실시예에 따른 전자 서식 문서 생성 장치의 개략적인 구성을 나타낸 블록도이고, 도 2는 도 1의 표 영역 검출 모듈 및 항목 인식 모듈 각각의 세부 구성을 상세히 나타낸 블록도이고, 도 3은 본 발명의 일 실시예에 따른 전자 서식 문서 생성 장치에 의해 신청서 이미지로부터 표 영역 및 항목 문자열을 검출하여 서식 문서를 생성하는 과정을 설명하기 위한 도면이다.
이하, 전술한 도면들을 참조하여 본 발명의 바람직한 실시예에 따른 전자 서식 문서 생성 장치에 대해 설명하면 다음과 같다.
본 발명의 일 실시예에 따른 전자 서식 문서 생성 장치는 도 1에 도시된 바와 같이 크게 신청서 입력부(100), 표 영역 검출 모듈(200), 항목 인식 모듈(300), 서식 문서 생성부(400)를 포함하여 구성된다.
신청서 입력부(100)는 사용자가 항목별로 기입하여 작성한 신청서를 이미지 파일 형태로 입력받는 역할을 한다.
신청서 입력부(100)는 복수의 항목들이 레이아웃 구조로 배열된 표 서식에 기반하여 항목별 내용이 작성된 신청서(11)를 사용자 단말기(20)를 통해 스캔 입력받아 이미지 파일로 변환한 신청서 이미지(I)를 생성하여 저장할 수 있다.
표 영역 검출 모듈(200)은 신청서 입력부(100)에 의해 저장된 신청서 이미지(I)에 포함된 표 영역을 검출하기 위한 것이다.
표 영역 검출 모듈(200)은 기설정된 딥러닝 기반 검출 알고리즘에 기초하여 신청서 이미지(I)에 포함된 표 영역을 검출하고 상기 표 영역의 아웃라인 및 내부 셀 라인에 대응하는 표 라인 정보를 획득할 수 있다.
표 영역 검출 모듈(200)은 구체적으로 도 2에 도시된 바와 같이 경계선 검출부(210), 꼭지점 검출부(220), 표 라인 정보 저장부(230)를 포함할 수 있다.
경계선 검출부(210)는 기설정된 에지 검출 알고리즘을 통해 상기 신청서 이미지에 포함된 표 영역의 경계에 해당하는 복수의 윤곽선들(LO)을 검출한다.
여기서, 상기 에지 검출 알고리즘은 캐니 에지 검출 알고리즘(Canny Edge Detection algorithm)을 포함할 수 있다.
캐니 에지 검출 알고리즘에 따르면, 가우시안(Gaussian) 마스크를 이용한 블러링을 통해 이미지의 노이즈를 제거하고, 소벨(Sobel) 마스크를 사용하여 가로 및 세로 방향별 화소 기울기의 강도(intensity)를 검출한 후, 비최대치 억제(Non-Maximum Suppression, NMS)를 수행하여 화소 강도 차이가 큰 에지(edge)를 제외하고는 모두 억제시키고, 히스테리시스 임계값(Hysterisis Thresholding)을 적용하여 최종 에지를 검출하는 방식으로 수행된다.
꼭지점 검출부(220)는 경계선 검출부(210)에 의해 검출된 복수의 윤곽선들(LO)에 대하여 기설정된 벡터 단순화 알고리즘(Douglas-Peucker)을 적용하여 복수 개의 연속된 선분 형태로 단순화시킨 후 서로 인접한 선분 간의 교차점을 꼭지점(v)으로 검출한다.
여기서, 상기 벡터 단순화 알고리즘은 더글라스 패커 알고리즘(Douglas Peucker algorithm)을 포함할 수 있다.
더글라스 패커 알고리즘의 경우엔 여러 꼭지점으로 구성된 벡터 오브젝트를 최대 정밀도에 따라 설정된 임계값을 통해 비 중요 꼭지점을 판별 후 제거함으로써 단순화시키는 방식으로 수행된다.
표 라인 정보 저장부(230)는 꼭지점 검출부(220)에 의해 검출된 복수의 꼭지점들(v)에 기초하여 가로 방향 또는 세로 방향으로 인접한 상기 꼭지점들을 연결한 선분들에 대응하는 표 라인 정보를 생성하여 저장한다.
항목 인식 모듈(300)은 표 영역 검출 모듈(200)에 의해 검출된 표 영역과 신청서 입력부(100)에 의해 저장된 신청서 이미지(I)에 기초하여 상기 표 영역의 항목 부분을 인식하기 위한 것이다.
항목 인식 모듈(300)은 표 영역에 포함되는 복수의 셀들에 대한 셀 영역을 검출하고, 각 셀 영역별 위치 및 크기와 문자열 포함 여부를 인접 셀과 비교한 결과에 따라 복수의 셀들을 각각 항목셀과 내용셀 중 하나로 구분할 수 있다.
항목 인식 모듈(300)은 구체적으로 셀 영역 검출부(310), 문자열 추출부(320), 셀 위치 획득부(330), 셀 영역 구분부(340)를 포함할 수 있다.
셀 영역 검출부(310)는 표 영역에 포함되는 복수의 셀들에 대응하는 복수의 셀 영역들을 검출한다.
셀 영역 검출부(310)는 경계선 검출부(210)에 의해 검출된 복수의 윤곽선들에 기초하여 상기 표 영역에 대응하는 테두리선에 의해 상하좌우로 둘러싸인 영역을 셀 영역으로 검출하고, 각 셀 영역의 면적 크기를 산출할 수 있다.
문자열 추출부(320)는 복수의 셀 영역들 각각에 포함된 텍스트 문자열을 추출한다.
문자열 추출부(320)는 딥러닝 기반의 파이썬(Python) 코드를 이용해 용이하게 구현 가능한 인공신경망 구조의 OCR(Optical Character Rcognition) 학습 모델을 통해 각 셀 영역의 텍스트 문자열을 추출하고, 추출된 문자열 개수에 따른 텍스트 문자열의 길이 정보를 함께 획득할 수 있다.
셀 위치 획득부(330)는 신청서 이미지(I)상에서 복수의 셀 영역들이 각각 검출된 위치의 픽셀 좌표를 해당 셀 영역의 위치 정보로 획득한다.
셀 위치 획득부(330)는 각 셀 영역의 위치 정보를 상기 표 영역을 기준을 한 행렬 인덱스 정보로 변환하여 함께 저장할 수 있다.
저장부(350)는 소정의 데이터 베이스 형태로 마련되어 신청서(11)의 표 서식에 포함되는 복수의 항목들의 명칭 문자열을 저장하는 항목 명칭 DB를 포함한다.
에컨대, 도 1에 도시된 신청서(11)의 표에 포함되는 복수의 항목들에 대한 명칭 문자열인 '성명, 영문, 직업, 나이, 주소, H.P, 자택, E-mail'이 항목 명칭 DB에 저장될 수 있다.
셀 영역 구분부(340)는 셀 영역 검출부(310)에 의해 검출된 복수의 셀 영역들을 항목 문자열을 포함하는 항목셀(CI)과 내용 문자열을 포함하는 내용셀(CC) 중 하나의 유형으로 구분하는 역할을 한다.
셀 영역 구분부(340)는 각각의 셀 영역과 이에 대한 인접 셀 영역에 각각 대응하는 텍스트 문자열의 길이와 셀 면적 크기 중 적어도 하나를 상호 비교한 결과에 따라 해당 셀 영역을 항목셀(CI)과 내용셀(CC) 중 하나로 구분한다.
여기서, 상기 인접 셀은 특정 셀의 위치를 기준으로 가로 방향 또는 세로 방향으로 인접하게 위치하는 셀로서, 달리 말하면, 동일한 행 또는 열에서 바로 옆 또는 위나 아래에 위치하는 셀을 의미하는 것일 수 있다.
셀 영역 구분부(340)는 상기 비교 결과에 기초하여, 비교 대상이 되는 두 개의 셀 영역들 중에서 텍스트 문자열이 더 긴 경우이거나 또는 셀 면적 크기가 더 큰 경우에 해당하는 셀 영역을 내용셀(CC)로 구분하고, 나머지 하나의 셀 영역을 항목셀(CI)로 구분할 수 있다.
이때, 셀 영역 구분부(340)는 특정 셀 영역에 대응하여 추출된 텍스트 문자열의 개수가 기설정된 기준 개수보다 크다면 해당 셀 영역의 유형을 내용셀(CC)로 바로 구분할 수 있으며, 이 경우 전술한 인접 셀 영역과의 비교를 수행하지 않을 수 있다.
셀 영역 구분부(340)는 전술한 과정에 따라 특정 셀 영역이 항목셀(CI)로 구분되는 경우엔 해당 셀 영역의 위치를 기준으로 인접한 주변 셀 영역들의 유형 구분을 수행한다.
셀 영역 구분부(340)는 만일 제1 셀 영역(C1)이 항목셀로 구분되는 경우, 제1 셀 영역(C1)에 대한 행렬 인덱스 정보에 기초하여 동일한 행 또는 열에 위치하는 복수의 제2 셀 영역들(C2)과 제1 셀 영역(C1)의 가로 또는 세로 길이를 상호 비교하여 일치 여부를 확인한다.
셀 영역 구분부(340)는 상기 확인 결과 일치하는 경우의 제2 셀 영역(C2)에 대응하는 텍스트 문자열이 기저장된 항목 명칭 DB(350)에 포함되는지 여부에 따라 각각의 제2 셀 영역(C2)을 항목셀(CI)과 내용셀(CC) 중 하나로 구분한다.
여기서, 셀 영역 구분부(340)는 제2 셀 영역(C2)에 대응하여 추출된 텍스트 문자열이 항목 명칭 DB(350)에 포함되면 해당 셀 영역(C2)을 항목셀(CI)로 구분하고, 그렇지 않은 경우엔 제2 셀 영역(C2)을 내용셀(CC)로 구분할 수 있다.
이는 일반적으로 항목별 표를 작성할 때 동일한 열 또는 행 위치에 있는 셀에 항목 명칭이 기재되고, 특정 항목이 포함된 셀의 위치를 기준으로 바로 오른쪽 열 또는 아래쪽 행에 위치한 셀에 해당 항목에 대한 항목값을 기재함을 고려한 것이다.
서식 문서 생성부(400)는 표 라인 정보 생성부(230)에 저장된 표 라인 정보와 셀 영역 구분부(340)의 구분에 따른 항목셀에 대응하는 항목 문자열 정보를 이용하여 신청서(11)의 표 서식에 대응하는 서식 문서(12)를 전자 문서 형태로 생성한다.
서식 문서 생성부(400)는 도 3에 도시된 바와 같이 표 라인 정보 생성부(230)에서 신청서 이미지(I)에 포함된 표 영역(31)에 대응하여 생성한 표 라인 정보(32)와, 셀 영역 구분부(340)에 의해 항목셀(CI)로 구분된 셀 영역에 대하여 문자열 추출부(320)에서 추출한 항목 문자열 정보(33)를 전달받은 후 이를 해당 표 영역의 아웃라인에 대한 픽셀 위치가 상호 일치하도록 병합하여 서식 문서(34)를 생성할 수 있다.
이상, 바람직한 실시예를 통하여 본 발명에 관하여 상세히 설명하였으나, 본 발명은 이에 한정되는 것은 아니며 특허청구범위 내에서 다양하게 실시될 수 있다.
특히, 전술한 내용은 후술할 발명의 청구범위를 더욱 잘 이해할 수 있도록 본 발명의 특징과 기술적 강점을 다소 폭넓게 상술하였으므로, 상술한 본 발명의 개념과 특정 실시예는 본 발명과 유사 목적을 수행하기 위한 다른 형상의 설계나 수정의 기본으로써 즉시 사용될 수 있음이 해당 기술 분야의 숙련된 사람들에 의해 인식되어야 한다.
또한, 상기에서 기술된 실시예는 본 발명에 따른 하나의 실시예일 뿐이며, 해당 기술분야에서 통상의 지식을 가진 자에 의해 본 발명의 기술적 사상의 범위에서 다양한 수정 및 변경된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 따라서, 개시된 실시예는 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 하고, 이러한 다양한 수정 및 변경 또한 본 발명의 기술적 사상의 범위에 속하는 것으로 전술한 본 발명의 청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
10: 전자 서식 문서 생성 장치
20: 사용자 단말기
100: 신청서 입력부
200: 표 영역 검출 모듈
210: 경계선 검출부
220: 꼭지점 검출부
230: 표 라인 정보 생성부
300: 항목 인식 모듈
310: 셀 영역 검출부
320: 문자열 추출부
330: 셀 위치 획득부
340: 셀 영역 구분부
350: 저장부
360: 서식 문서 생성부

Claims (4)

  1. 복수의 항목들이 레이아웃 구조로 배열된 표 서식에 기반하여 항목별 내용이 작성된 신청서를 스캔 입력받아 이미지 파일로 변환한 신청서 이미지를 생성하여 저장하는 신청서 입력부;
    기설정된 딥러닝 기반 검출 알고리즘에 기초하여 상기 신청서 이미지에 포함된 표 영역을 검출하고 상기 표 영역의 아웃라인 및 내부 셀 라인에 대응하는 표 라인 정보를 생성하는 표 영역 검출 모듈;
    상기 표 영역의 검출 결과와 상기 신청서 이미지에 기초하여 상기 표 영역에 포함되는 복수의 셀들에 대한 셀 영역을 검출하고, 각 셀 영역별 위치 및 크기와 문자열 포함 여부를 인접 셀과 비교한 결과에 따라 상기 복수의 셀들을 각각 항목셀과 내용셀 중 하나로 구분하는 항목 인식 모듈; 및
    생성된 상기 표 라인 정보와 상기 항목셀에 대응하는 항목 문자열 정보를 이용하여 상기 표 서식에 대응하는 서식 문서를 전자 문서 형태로 생성하는 서식 문서 생성부;를 포함하는 것을 특징으로 하는 전자 서식 문서 생성 장치.
  2. 제1항에 있어서,
    상기 표 영역 검출 모듈은,
    기설정된 에지 검출 알고리즘을 통해 상기 신청서 이미지에 포함된 표 영역의 경계에 해당하는 복수의 윤곽선들을 검출하는 경계선 검출부;
    검출된 상기 복수의 윤곽선들에 대하여 기설정된 벡터 단순화 알고리즘을 적용하여 복수 개의 연속된 선분 형태로 단순화시키고 서로 인접한 선분 간의 교차점을 꼭지점으로 검출하는 꼭지점 검출부; 및
    가로 방향 또는 세로 방향으로 인접한 상기 꼭지점들을 연결한 선분들에 대응하는 표 라인 정보를 생성하여 저장하는 표 라인 정보 생성부;를 포함하는 것을 특징으로 하는 전자 서식 문서 생성 장치.
  3. 제1항에 있어서,
    상기 항목 인식 모듈은,
    상기 표 영역에 포함되는 복수의 셀들에 대응하는 복수의 셀 영역들을 검출하는 셀 영역 검출부;
    상기 복수의 셀 영역들 각각에 포함된 텍스트 문자열을 추출하는 문자열 추출부;
    상기 신청서 이미지상에서 상기 복수의 셀 영역들이 각각 검출된 위치의 픽셀 좌표를 해당 셀 영역의 위치 정보로 획득하는 셀 위치 획득부; 및
    각각의 상기 셀 영역과 이에 대한 인접 셀 영역에 각각 대응하는 텍스트 문자열의 길이와 셀 면적 크기 중 적어도 하나를 상호 비교한 결과에 따라 해당 셀 영역을 항목셀과 내용셀 중 하나로 구분하는 셀 영역 구분부;를 포함하는 것을 특징으로 하는 전자 서식 문서 생성 장치.
  4. 제3항에 있어서,
    상기 셀 영역 구분부는,
    제1 셀 영역이 상기 항목셀로 구분되는 경우, 상기 제1 셀 영역에 대한 행렬 인덱스 정보에 기초하여 동일한 행 또는 열에 위치하는 복수의 제2 셀 영역들과 상기 제1 셀 영역의 가로 또는 세로 길이를 상호 비교하여 일치 여부를 확인하고, 일치하는 경우의 상기 제2 셀 영역에 대응하는 텍스트 문자열이 기저장된 항목 명칭 DB에 포함되는지 여부에 따라 각각의 상기 제2 셀 영역을 상기 항목셀과 상기 내용셀 중 하나로 구분하는 것을 특징으로 하는 전자 서식 문서 생성 장치.
KR1020220161970A 2022-11-28 2022-11-28 전자 서식 문서 생성 장치 KR20240079054A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220161970A KR20240079054A (ko) 2022-11-28 2022-11-28 전자 서식 문서 생성 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220161970A KR20240079054A (ko) 2022-11-28 2022-11-28 전자 서식 문서 생성 장치

Publications (1)

Publication Number Publication Date
KR20240079054A true KR20240079054A (ko) 2024-06-04

Family

ID=91465860

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220161970A KR20240079054A (ko) 2022-11-28 2022-11-28 전자 서식 문서 생성 장치

Country Status (1)

Country Link
KR (1) KR20240079054A (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100710568B1 (ko) 2005-07-22 2007-04-24 삼성에스디에스 주식회사 이미지 처리 시스템 및 그 방법
KR20070067020A (ko) 2007-03-10 2007-06-27 박영준 회사 서류 자동 작성 시스템

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100710568B1 (ko) 2005-07-22 2007-04-24 삼성에스디에스 주식회사 이미지 처리 시스템 및 그 방법
KR20070067020A (ko) 2007-03-10 2007-06-27 박영준 회사 서류 자동 작성 시스템

Similar Documents

Publication Publication Date Title
US10943105B2 (en) Document field detection and parsing
Eskenazi et al. A comprehensive survey of mostly textual document segmentation algorithms since 2008
US5664027A (en) Methods and apparatus for inferring orientation of lines of text
Yanikoglu et al. Pink Panther: a complete environment for ground-truthing and benchmarking document page segmentation
US8271871B2 (en) Automated method for alignment of document objects
US8233714B2 (en) Method and system for creating flexible structure descriptions
EP0854433B1 (en) Caption and photo extraction from scanned document images
US7437001B2 (en) Method and device for recognition of a handwritten pattern
US5748809A (en) Active area identification on a machine readable form using form landmarks
CN102117269B (zh) 对文档进行数字化的装置及方法
US20120134576A1 (en) Automatic recognition of images
US20070065013A1 (en) Method and apparatus to convert digital ink images for use in a structured text/graphics editor
US20070041642A1 (en) Post-ocr image segmentation into spatially separated text zones
Ramel et al. User-driven page layout analysis of historical printed books
JP3913985B2 (ja) 文書画像中の基本成分に基づく文字列抽出装置および方法
Saund Scientific challenges underlying production document processing
StevensÝ et al. Automatic processing of document annotations
KR102328034B1 (ko) 표가 삽입된 이미지로부터 지식 데이터베이스의 구축이 가능한 데이터베이스 구축 장치 및 그 동작 방법
Erkilinc et al. Text, photo, and line extraction in scanned documents
KR20240079054A (ko) 전자 서식 문서 생성 장치
Sylwester et al. A trainable, single-pass algorithm for column segmentation
JP3476595B2 (ja) 画像領域分割方法、および画像2値化方法
Li An implementation of ocr system based on skeleton matching
JP3091278B2 (ja) 文書認識方式
KR102673900B1 (ko) 표 데이터 추출 시스템 및 그 방법